information-theoryকঠিন⏱ 10 মিনিট

Mutual Information — পারস্পরিক তথ্য

Mutual Information

🤝

রিফাত আর সামিমের Shared Knowledge

ধর তোর দুই বন্ধু রিফাত আর সামিম বসুন্ধরা মলে ঘুরতেছে। রিফাত জানে কোন দোকানে কোন জিনিস সস্তা, সামিম জানে কোন দোকানে quality ভালো। দুইজন আলাদা আলাদা information রাখে, কিন্তু কিছু information common — দুইজনেই জানে 'আড়ং'-এ quality ভালো আবার দাম reasonable। এই shared knowledge-টুকু হইল mutual information। রিফাত-এর কাছ থেকে তুই যা জানলি, তার কতটুকু সামিম-এর কাছ থেকেও জানতে পারতি — সেইটাই MI!

দুইটা random variable-এর মধ্যে কতটুকু shared information আছে — এইটাই Mutual Information! গুরু বলে — 'MI বেশি মানে একটা জানলে অন্যটা সম্পর্কে বেশি idea পাবি। zero মানে দুইটা completely independent!'

সংজ্ঞা

Mutual Information I(X;Y) measure করে X জানলে Y সম্পর্কে কতটুকু uncertainty কমে (এবং vice versa)। এইটা symmetric — I(X;Y) = I(Y;X)। Independent হইলে MI = 0।

Mutual Information — X আর Y-এর shared information

\[I(X;Y) = \sum_{x,y} p(x,y) \log \frac{p(x,y)}{p(x)p(y)}\]

ব্যাখ্যা

Entropy দিয়া MI বোঝো

MI = X-এর entropy - X given Y-এর conditional entropy। মানে Y জানার পরে X-এর uncertainty কতটুকু কমলো। রিফাত (X) কী জানে তার uncertainty — সামিম (Y) কে জিজ্ঞেস করার পর কতটুকু কমলো।

\[I(X;Y) = H(X) - H(X|Y) = H(Y) - H(Y|X)\]

KL Divergence হিসাবে MI

MI হইল joint distribution P(X,Y) আর marginal-এর product P(X)P(Y)-এর মধ্যে KL Divergence। Joint যদি product-এর সমান হয় তাইলে X,Y independent — MI = 0।

\[I(X;Y) = D_{KL}(P(X,Y) \| P(X) \cdot P(Y))\]

Correlation-এর চেয়ে Powerful

Pearson correlation শুধু linear relationship ধরে। কিন্তু MI যেকোনো relationship ধরতে পারে — linear, nonlinear, complex। তাই ML-এ feature selection-এ MI বেশি reliable।

ঢাকায় জ্যাম আর আবহাওয়ার MI

ঢাকায় বৃষ্টি (R) আর জ্যাম (J)-এর joint distribution: P(R=1,J=1)=0.3, P(R=1,J=0)=0.1, P(R=0,J=1)=0.2, P(R=0,J=0)=0.4। I(R;J) কত?

Step 1: Marginals বের করো

P(R=1)=0.4, P(R=0)=0.6, P(J=1)=0.5, P(J=0)=0.5

\[P(R=1) = 0.3 + 0.1 = 0.4, \quad P(J=1) = 0.3 + 0.2 = 0.5\]

Step 2: প্রতিটা term

p(x,y) × log(p(x,y) / (p(x)×p(y))) — চারটা combination

\[0.3 \log\frac{0.3}{0.4 \times 0.5} + 0.1 \log\frac{0.1}{0.4 \times 0.5} + 0.2 \log\frac{0.2}{0.6 \times 0.5} + 0.4 \log\frac{0.4}{0.6 \times 0.5}\]

Step 3: Calculate

Natural log use করি

\[= 0.3 \ln(1.5) + 0.1 \ln(0.5) + 0.2 \ln(0.667) + 0.4 \ln(1.333)\]

Step 4: যোগ করো

সব term যোগ করো

\[= 0.122 + (-0.069) + (-0.081) + 0.115 = 0.087 \text{ nats}\]

উত্তর:

I(R;J) ≈ 0.087 nats। Positive মানে বৃষ্টি আর জ্যামের মধ্যে কিছু shared information আছে — বৃষ্টি জানলে জ্যাম predict করতে কিছুটা সুবিধা হয়। তবে value খুব বেশি না, কারণ ঢাকায় বৃষ্টি ছাড়াও জ্যাম থাকে!

ML-এ কোথায় লাগে?

💡

মনে রাখার ট্রিক

Mutual Information = রিফাত আর সামিমের shared knowledge। দুইজনই 'আড়ং' সম্পর্কে জানে — এইটা MI। যদি দুইজন সম্পূর্ণ আলাদা জিনিস জানতো, MI = 0!

#mutual-information#mi#nmi#infonce#information-bottleneck#feature-selection