probability-statsমাঝারি⏱ 13 মিনিট

Variance ও Standard Deviation — বিচ্যুতি

Variance and Standard Deviation

📝

পরীক্ষার মার্কসের ছড়াছড়ি

ধর ভাই, ঢাকা কলেজে দুইটা section-এ Math পরীক্ষা হইল। Section A-র ফলাফল: ৭০, ৭২, ৬৮, ৭১, ৬৯ — সবার মার্কস কাছাকাছি, average ৭০। Section B-র ফলাফল: ৩০, ৯৫, ৫০, ৮৫, ৯০ — average ও ৭০! দুই section-র average same, কিন্তু তুই বলতেই পারবি — Section B-তে ছেলেমেয়েদের মধ্যে অনেক তফাৎ! কেউ মেধাবী, কেউ পুরা ফেল। গুরু বলল 'Average same হইলেই সব same না — spread টা দেখতে হবে!'

এইটাই Variance আর Standard Deviation, মামা! Average বলে data-র center কোথায়, কিন্তু Variance বলে data কতটা ছড়ানো-ছিটানো। Section A-র variance কম (সবাই গাদাগাদি), Section B-র variance বেশি (ছড়িয়ে আছে)। Standard Deviation = √Variance — original unit-এ মাপ দেয়। ML-এ variance বুঝা mandatory, না হইলে model-এর behavior বুঝবি না!

সংজ্ঞা

Variance Var(X) হইল random variable X-এর values তার mean থেকে কতদূরে ছড়ানো সেইটার measure। প্রতিটা deviation-এর square-এর expected value। Standard Deviation σ হইল Variance-এর square root — original unit-এ spread বুঝায়।

Variance ও Standard Deviation — ছড়ানোর পরিমাপ

\[\text{Var}(X) = E[(X - \mu)^2] = E[X^2] - (E[X])^2, \quad \sigma = \sqrt{\text{Var}(X)}\]

ব্যাখ্যা

Variance কেন Square করি?

Mean থেকে deviation নিলে কিছু positive (উপরে) আর কিছু negative (নিচে) — যোগ করলে cancel হইয়া ০ হয়! তাই square করি — সব positive হইয়া যায়। Section A: deviations = 0, 2, -2, 1, -1 → যোগ = 0। কিন্তু squares = 0, 4, 4, 1, 1 → average = 2!

\[E[X - \mu] = 0 \text{ (always!)}, \quad E[(X - \mu)^2] \neq 0\]

Shortcut Formula

Var(X) = E[X²] - (E[X])² — এই shortcut formula computation-এ অনেক সুবিধা। E[X²] বাইর কর, E[X] বাইর কর, square কর, বিয়োগ কর — ব্যাস! পুরান ঢাকার calculator-এ করা যায়!

\[\text{Var}(X) = E[X^2] - \mu^2\]

Variance-এর Properties

Var(aX + b) = a²Var(X) — constant add করলে variance change হয় না (মার্কসে ৫ grace দিলে spread same থাকে)। কিন্তু multiply করলে square হয়ে যায়! আর independent X, Y-এর জন্য Var(X+Y) = Var(X) + Var(Y)।

\[\text{Var}(aX + b) = a^2 \text{Var}(X), \quad \text{Var}(X + Y) = \text{Var}(X) + \text{Var}(Y) \text{ (if independent)}\]

Standard Deviation কেন বেশি ব্যবহার হয়?

Variance-র unit squared (মার্কস² — কী জিনিস!)। Standard deviation = √Variance, তাই unit আবার original-এ ফিরে আসে। σ = 5 মানে data mean থেকে গড়ে ৫ মার্কস দূরে। ঢাকায় তাপমাত্রা σ = 3°C মানে গড় থেকে ±৩ ডিগ্রি ওঠানামা করে।

\[\sigma = \sqrt{\text{Var}(X)}, \quad \text{unit of } \sigma = \text{unit of } X\]

দুই Section-এর Marks তুলনা

Section A: [70, 72, 68, 71, 69], Section B: [30, 95, 50, 85, 90]। দুইটারই mean 70। Variance আর Standard Deviation বাইর কর এবং compare কর।

Step 1: Section A-র Variance

Mean = 70। Deviations: 0, 2, -2, 1, -1। Squared deviations-এর average।

\[\text{Var}_A = \frac{0^2 + 2^2 + (-2)^2 + 1^2 + (-1)^2}{5} = \frac{0+4+4+1+1}{5} = 2.0\]

Step 2: Section B-র Variance

Mean = 70। Deviations: -40, 25, -20, 15, 20। বড় বড় deviations!

\[\text{Var}_B = \frac{(-40)^2 + 25^2 + (-20)^2 + 15^2 + 20^2}{5} = \frac{1600+625+400+225+400}{5} = 650.0\]

Step 3: Standard Deviations

Square root নিয়া original unit-এ ফিরি

\[\sigma_A = \sqrt{2.0} \approx 1.41, \quad \sigma_B = \sqrt{650.0} \approx 25.50\]

Step 4: তুলনা

Section A: σ ≈ 1.4 মার্কস (সবাই mean-এর ±2 এর মধ্যে)। Section B: σ ≈ 25.5 মার্কস (বিশাল spread!) — দুইটার mean same, কিন্তু variance বলে আসল গল্প!

উত্তর:

Section A: Var=2, σ≈1.41। Section B: Var=650, σ≈25.50। Section B-র ছাত্রদের মধ্যে বিশাল তারতম্য — কেউ genius, কেউ struggling। Variance ছাড়া এই তফাৎ ধরাই যাইত না!

ML-এ কোথায় লাগে?

💡

মনে রাখার ট্রিক

Variance মনে রাখ পরীক্ষার মার্কস দিয়া: সবাই ৭০ পাইলে Var = ০ (কোনো spread নাই, সবাই copy করছে?)। কেউ ৩০, কেউ ৯৫ পাইলে Var বিশাল (আসল পরীক্ষা!)। Standard Deviation = √Variance — unit ঠিক করে দেয়। আর ML-এ মনে রাখ: High Variance model = ছেলে পরীক্ষায় কোনোদিন ১০০, কোনোদিন ২০ পায় (unstable!), Low Bias + Low Variance = consistent ভালো ছাত্র!

#variance#standard-deviation#spread#standardization#batch-normalization#bias-variance#anomaly-detection

আগের চ্যাপ্টার

expected value

পরের চ্যাপ্টার

covariance correlation