Bernoulli ও Binomial Distribution — হ্যাঁ/না ও গণনা
Bernoulli and Binomial Distribution — Yes/No and Counting
গুলিস্তানের টস আর স্প্যাম ফিল্টারের গল্প
গুরু একদিন গুলিস্তান মোড়ে দাঁড়াইয়া টস করতেছে। পাশে দাঁড়ানো মামা জিগায়, 'গুরু ভাই, হেড না টেইল?' গুরু কয়, 'দেখো মামা, জীবনটাই তো একটা কয়েন টস! হয় হেড, না হয় টেইল। হয় ভালোবাসা পাইবা, না হয় ভাসা পাইবা!' তারপর গুরু ফোন বাইর করলো, ইনবক্সে ৫০টা মেইল। গুরু কয়, 'এইটাও তো একই জিনিস মামা — প্রতিটা মেইল হয় spam, না হয় not spam। একটা টসেই সব সমাধান!' মামা কয়, 'কিন্তু গুরু ভাই, ১০টা মেইলের মধ্যে কয়টা spam হইব সেইটা ক্যামনে বুঝমু?' গুরু হাসলো, 'ওইটাই হইলো Binomial, মামা। একটা টস হইলো Bernoulli, আর অনেকগুলা টস একসাথে হইলো Binomial!'
Bernoulli Distribution হইলো একটা single yes/no trial — মাত্র দুইটা outcome (success/failure)। আর Binomial Distribution হইলো n সংখ্যক independent Bernoulli trial এর মধ্যে মোট কতগুলা success হইলো তার distribution। Spam detection এ প্রতিটা email একটা Bernoulli trial (spam বা not spam), আর n টা email এর মধ্যে কয়টা spam সেইটা Binomial!
সংজ্ঞা
Bernoulli Distribution হইলো একটা random variable যেটার মাত্র দুইটা outcome — success (1) probability p তে, আর failure (0) probability (1-p) তে। Binomial Distribution হইলো n সংখ্যক independent Bernoulli trial এর মধ্যে মোট success এর সংখ্যা গণনা করে।
ব্যাখ্যা
Bernoulli Trial কী?
একটা experiment যেটার শুধু দুইটা result হইতে পারে — success (probability p) অথবা failure (probability 1-p)। যেমন: কয়েন টস (Head/Tail), ইমেইল (Spam/Not Spam), পরীক্ষায় পাস/ফেল।
Bernoulli Distribution এর Mean ও Variance
Mean হইলো E[X] = p, মানে success এর probability ই average। Variance হইলো p(1-p), যেটা p=0.5 হইলে সবচেয়ে বেশি হয় — মানে ৫০-৫০ chance থাকলে uncertainty সবচেয়ে বেশি।
Bernoulli থেইকা Binomial
ধরো তুমি n বার independently টস করলা, প্রতিবার success এর probability p। তাহলে মোট কতবার success পাইলা সেইটার distribution হইলো Binomial(n, p)। Formula তে C(n,k) হইলো combination — n টা থেইকা k টা বাছাই করার উপায়ের সংখ্যা।
Binomial এর Mean ও Variance
n টা Bernoulli trial এর sum হওয়ায়, Mean হইলো np আর Variance হইলো np(1-p)। যেমন ১০০ বার টস করলে (p=0.5) average ৫০ বার Head আসবে, আর variance হবে ২৫।
কখন Binomial ব্যবহার করবা?
তিনটা শর্ত লাগবে: (১) নির্দিষ্ট সংখ্যক trial n, (২) প্রতিটা trial independent, (৩) প্রতিটা trial এ success probability p একই। যদি এই তিনটা শর্ত পূরণ হয়, তাহলে Binomial ব্যবহার করতে পারো!
স্প্যাম ইমেইল গণনা
একটা ইমেইল সার্ভারে ৩০% ইমেইল spam। তুমি ১০টা random ইমেইল নিলা। ঠিক ৩টা spam পাওয়ার probability কত?
Parameter চিহ্নিত করো
n = 10 (মোট ইমেইল), k = 3 (spam চাই), p = 0.30 (spam probability)
Combination হিসাব করো
১০টা থেইকা ৩টা বাছাইয়ের উপায় = C(10,3) = 10!/(3! * 7!) = 120
Success part হিসাব করো
p^k = 0.30^3 = 0.027 — ৩টা spam পাওয়ার probability
Failure part হিসাব করো
(1-p)^(n-k) = 0.70^7 = 0.0824 — বাকি ৭টা not spam হওয়ার probability
সব গুণ করো
P(X=3) = 120 * 0.027 * 0.0824 = 0.2668
১০টা ইমেইলের মধ্যে ঠিক ৩টা spam পাওয়ার probability প্রায় 26.68%। মানে প্রতি ৪ বারে প্রায় ১ বার এইরকম হইবে!
ML-এ কোথায় লাগে?
মনে রাখার ট্রিক
Bernoulli = 'বার-নুল্লি' — একবার (বার) ই null (শূন্য) বা one হয়! Binomial = 'Bi-NO-mial' — দুই (Bi) টা option (yes/NO), অনেকবার (mial = many trial)! গুলিস্তানে টস মারো একবার = Bernoulli, ১০ বার মারো = Binomial!