🧮ML গণিত গুরু
probability-statsমাঝারি13 মিনিট

Covariance ও Correlation — সম্পর্কের মাপ

Covariance and Correlation

📚

পড়াশোনা আর মার্কসের সম্পর্ক

ধর ভাই, ঢাকা কলেজের ৫ জন ছাত্র — রহিম, করিম, জামাল, হাসান, আর কালাম। তাদের দৈনিক পড়াশোনার ঘণ্টা আর পরীক্ষার মার্কস নোট করলাম। রহিম: ২ ঘণ্টা পড়ে, ৪০ মার্কস। করিম: ৪ ঘণ্টা, ৬০ মার্কস। জামাল: ৬ ঘণ্টা, ৮০ মার্কস। হাসান: ৩ ঘণ্টা, ৫০ মার্কস। কালাম: ৫ ঘণ্টা, ৭০ মার্কস। তুই দেখতে পাচ্ছিস — বেশি পড়লে বেশি মার্কস! এই সম্পর্কটা mathematically কিভাবে মাপবি?

এইখানেই আসে Covariance আর Correlation, মামা! Covariance বলে দুইটা variable একসাথে কোনদিকে যায় — positive মানে একটা বাড়লে আরেকটাও বাড়ে, negative মানে একটা বাড়লে আরেকটা কমে। আর Correlation হইল normalized covariance — -1 থেকে +1 এর মধ্যে, তাই compare করা easy। পড়াশোনা আর মার্কসের correlation প্রায় +1 — strong positive relationship!

সংজ্ঞা

Covariance দুইটা random variable-র joint variability measure করে। Positive covariance মানে একসাথে বাড়ে-কমে, negative মানে বিপরীত। Correlation হইল standardized covariance — -1 থেকে +1 এর মধ্যে।

Covariance ও Pearson Correlation Coefficient
\[\text{Cov}(X, Y) = E[(X - \mu_X)(Y - \mu_Y)], \quad \rho(X, Y) = \frac{\text{Cov}(X, Y)}{\sigma_X \cdot \sigma_Y}\]

ব্যাখ্যা

Covariance কিভাবে কাজ করে?

প্রতিটা data point-এর X deviation আর Y deviation multiply করি। দুইটাই mean-র উপরে (++ = +) বা দুইটাই নিচে (-- = +) হইলে product positive। একটা উপরে একটা নিচে (+- = -) হইলে product negative। সব product-এর average = covariance!

\[\text{Cov}(X, Y) = E[XY] - E[X] \cdot E[Y] = \frac{1}{n}\sum_{i=1}^{n}(x_i - \bar{x})(y_i - \bar{y})\]

Covariance-র সমস্যা

Covariance-র unit হইল X-এর unit × Y-এর unit। ঘণ্টা × মার্কস = কী জিনিস? আর Cov-র size depend করে variable-র scale-এর উপর। ঢাকায় income (লক্ষ টাকা) vs height (cm) — Cov বিশাল বড় হবে শুধু unit-এর জন্য, actual relationship ছোট হইলেও!

\[\text{Cov}(X, Y) \in (-\infty, +\infty) \quad \text{(unbounded, scale-dependent)}\]

Correlation — Normalized Version

Correlation = Covariance-কে দুইটা standard deviation দিয়া ভাগ। Result: -1 থেকে +1 এর মধ্যে। +1 = perfect positive (ঢাকার তাপমাত্রা বাড়লে AC বিক্রি বাড়ে), -1 = perfect negative (তাপমাত্রা বাড়লে চায়ের বিক্রি কমে), 0 = কোনো linear সম্পর্ক নাই।

\[\rho = \frac{\text{Cov}(X, Y)}{\sigma_X \sigma_Y}, \quad -1 \leq \rho \leq 1\]

Correlation ≠ Causation!

সবচেয়ে famous warning! ঢাকায় আইসক্রিম বিক্রি আর drowning — দুইটার correlation high। কিন্তু আইসক্রিম কি drowning cause করে? না! দুইটাই গরমের effect। Confounding variable (তাপমাত্রা) আসল কারণ। ML-এ এই ভুল করলে model garbage হবে!

\[\text{Correlation}(X, Y) \neq X \text{ causes } Y\]

পড়াশোনা ও মার্কসের সম্পর্ক

৫ জন ছাত্রের study hours X = [2,4,6,3,5] আর marks Y = [40,60,80,50,70]। Covariance আর Correlation calculate কর।

Step 1: Mean বাইর কর

X আর Y-র mean আলাদা আলাদা calculate করি

\[\bar{X} = \frac{2+4+6+3+5}{5} = 4, \quad \bar{Y} = \frac{40+60+80+50+70}{5} = 60\]

Step 2: Deviations-র Product

প্রতিটা point-এর (xᵢ - x̄)(yᵢ - ȳ) calculate করি: (-2)(-20)=40, (0)(0)=0, (2)(20)=40, (-1)(-10)=10, (1)(10)=10

\[\sum(x_i - \bar{x})(y_i - \bar{y}) = 40+0+40+10+10 = 100\]

Step 3: Covariance

Products-র average নিই

\[\text{Cov}(X,Y) = \frac{100}{5} = 20 \text{ (ঘণ্টা×মার্কস)}\]

Step 4: Standard Deviations

Correlation-এর জন্য σ_X আর σ_Y লাগবে

\[\sigma_X = \sqrt{\frac{4+0+4+1+1}{5}} = \sqrt{2} \approx 1.414, \quad \sigma_Y = \sqrt{\frac{400+0+400+100+100}{5}} = \sqrt{200} \approx 14.14\]

Step 5: Correlation

Covariance-কে দুই σ দিয়া ভাগ করি

\[\rho = \frac{20}{1.414 \times 14.14} = \frac{20}{20} = 1.0\]
উত্তর:

Cov(X,Y) = 20, ρ = 1.0 — perfect positive correlation! বেশি পড়লে বেশি মার্কস, exact linear relationship। বাস্তবে ρ = 1.0 rare — এইখানে data intentionally perfect linear করা হইছে। Real data-তে 0.7-0.9 হইলেই strong positive বলা হয়।

ML-এ কোথায় লাগে?

💡

মনে রাখার ট্রিক

Covariance মনে রাখ: Co = Together, Variance = ছড়ানো। দুইটা variable একসাথে কিভাবে ছড়ায়? Positive Cov = দুই বন্ধু একসাথে চলে (পড়া বাড়লে মার্কস বাড়ে)। Negative Cov = তারা বিপরীত (AC চালালে বিদ্যুৎ বিল বাড়ে, টাকা কমে)। Correlation = Covariance-র report card — -1 থেকে +1 scale-এ grade দেয়। আর মনে রাখ: Correlation ≠ Causation — আইসক্রিম বিক্রি বাড়লেই drowning বাড়ে না!

#covariance#correlation#pearson#multicollinearity#pca#covariance-matrix#feature-selection