probability-statsকঠিন⏱ 18 মিনিট

MLE — Maximum Likelihood Estimation

🔍

পুরান ঢাকার গোয়েন্দা আর সবচেয়ে সম্ভাব্য সন্দেহভাজনের গল্প

গুরু ভাই একদিন detective সাজলো — পুরান ঢাকার বিখ্যাত মিষ্টির দোকান থেইকা রসগোল্লা চুরি হইছে! তিনজন সন্দেহভাজন — রহিম (মিষ্টি-পাগল, দোকানের পাশেই থাকে), করিম (diabetes আছে, মিষ্টি খায় না), আর সেলিম (দোকানের বিপরীত পাশে থাকে)। গুরু evidence দেখলো: দোকানে মিষ্টির টুকরা পড়ে আছে, আঙুলের ছাপ, রাত ২টায় ঘটনা। গুরু কয়, 'এখন আমি MLE করবো! প্রতিটা সন্দেহভাজনের জন্য এই evidence পাওয়ার likelihood কত সেইটা হিসাব করবো।' রহিম হইলে evidence এর probability সবচেয়ে বেশি — কাছে থাকে, মিষ্টি-পাগল, রাতে জাইগা থাকে। করিম হইলে probability কম — diabetes, মিষ্টি খায় না। সেলিম হইলে medium — দূরে থাকে। গুরু ঘোষণা করলো, 'MLE অনুযায়ী, রহিম ই সবচেয়ে likely চোর! কারণ রহিম ধরলে এই evidence গুলা পাওয়ার probability maximize হয়!'

Maximum Likelihood Estimation (MLE) হইলো statistical parameter estimation এর সবচেয়ে fundamental method। Idea টা simple — যেই parameter value তে observed data পাওয়ার probability (likelihood) সবচেয়ে বেশি, সেই parameter value ই best estimate! Detective story তে 'parameter' হইলো কে চোর, আর 'data' হইলো evidence — যেই সন্দেহভাজন ধরলে evidence সবচেয়ে likely, সেই ই MLE estimate!

সংজ্ঞা

Maximum Likelihood Estimation (MLE) হইলো এমন একটা method যেটা parameter theta এর এমন value খুঁজে বাইর করে যেটাতে observed data D পাওয়ার probability (likelihood function) maximize হয়। গাণিতিকভাবে, theta_MLE = argmax L(theta|D) যেখানে L হইলো likelihood function।

MLE Formula (Log-Likelihood)

\[\hat{\theta}_{\text{MLE}} = \arg\max_{\theta} \; L(\theta | D) = \arg\max_{\theta} \; P(D | \theta) \\ = \arg\max_{\theta} \; \sum_{i=1}^{n} \log P(x_i | \theta)\]

ব্যাখ্যা

Likelihood Function কী?

Likelihood function L(theta|D) হইলো parameter theta given থাকলে data D observe করার probability। গুরুত্বপূর্ণ কথা: probability আর likelihood same formula, কিন্তু perspective আলাদা। Probability তে theta fixed, data varies। Likelihood তে data fixed, theta varies।

\[L(\theta | x_1, ..., x_n) = P(x_1, ..., x_n | \theta) = \prod_{i=1}^{n} P(x_i | \theta)\]

কেন Log-Likelihood ব্যবহার করি?

Product of probabilities খুব ছোটো number হয়ে যায় (underflow problem)। Log নিলে product sum হয়ে যায়, computation সহজ হয়। আর log monotonic function, তাই log-likelihood maximize করলে likelihood ও maximize হয়।

\[\ell(\theta) = \log L(\theta) = \sum_{i=1}^{n} \log P(x_i | \theta)\]

MLE কেমনে বাইর করে?

Step 1: Likelihood function লেখো। Step 2: Log-likelihood নাও। Step 3: theta এর respect এ derivative নাও। Step 4: Derivative = 0 করো আর theta solve করো। কিছু complex model এ analytical solution নাই, তখন gradient descent use করতে হয়।

\[\frac{\partial \ell(\theta)}{\partial \theta} = 0 \implies \hat{\theta}_{\text{MLE}}\]

Bernoulli MLE উদাহরণ

Coin toss এ n বার টস করে k বার Head পাইলে, p এর MLE = k/n। মানে observed frequency ই MLE estimate! ১০০ বার টসে ৬০ বার Head আসলে p_MLE = 0.6।

\[\hat{p}_{\text{MLE}} = \frac{k}{n} = \frac{\text{number of heads}}{\text{total tosses}}\]

MLE এর Properties

MLE এর চারটা গুরুত্বপূর্ণ property: (১) Consistent — data বাড়লে true value এর কাছে যায়, (২) Asymptotically Normal — বড় sample এ normal distribution follow করে, (৩) Asymptotically Efficient — সবচেয়ে কম variance, (৪) Invariant — g(theta) এর MLE = g(theta_MLE)।

কয়েন এর Bias MLE

একটা কয়েন ২০ বার টস করে ১৪ বার Head পাইলে। (a) p (Head probability) এর MLE কত? (b) Log-likelihood কত?

Likelihood function লেখো

Data: n=20, k=14 (heads)। প্রতিটা toss independent Bernoulli(p)।

\[L(p) = \binom{20}{14} p^{14} (1-p)^{6}\]

Log-likelihood নাও

Log নিলে product sum হয়ে যায়। Constant term C = log C(20,14) optimization এ ignore করা যায়।

\[\ell(p) = C + 14 \log(p) + 6 \log(1-p)\]

Derivative = 0 করো

p এর respect এ differentiate করে zero set করো।

\[\frac{d\ell}{dp} = \frac{14}{p} - \frac{6}{1-p} = 0\]

Solve করো

14(1-p) = 6p => 14 - 14p = 6p => 14 = 20p => p = 14/20 = 0.70

\[\hat{p}_{\text{MLE}} = \frac{14}{20} = 0.70\]

Log-likelihood হিসাব করো

p = 0.70 বসাই: log-likelihood = 14*log(0.7) + 6*log(0.3) + log(C(20,14))

\[\ell(0.70) = 14 \ln(0.7) + 6 \ln(0.3) + \ln\binom{20}{14} \approx -12.25\]

উত্তর:

p এর MLE = 0.70, মানে কয়েন টা Head এর দিকে biased। Log-likelihood = -12.25। এইটা intuitive — ২০ বারে ১৪ বার Head মানে observed proportion 70% ই MLE estimate!

ML-এ কোথায় লাগে?

💡

মনে রাখার ট্রিক

MLE = 'Most Likely Explanation'! গোয়েন্দা গুরু ভাইয়ের মতো ভাবো — evidence দেখো, সবচেয়ে likely suspect ধরো! MLE = data কে সবচেয়ে ভালো explain করে এমন parameter! পুরান ঢাকায় রসগোল্লা চুরি — MLE কইলো রহিম!

#mle#maximum-likelihood#parameter-estimation#log-likelihood#logistic-regression#cross-entropy#em-algorithm