Normal Distribution — স্বাভাবিক বণ্টন
Normal Distribution
ছাত্রদের উচ্চতার Bell Curve
ধর ভাই, ঢাকা বিশ্ববিদ্যালয়ের CSE department-এ ২০০ জন ছাত্র আছে। তাদের সবার height measure করলি। কী দেখলি? বেশিরভাগ ছাত্র ৫'৭"-৫'৯" এর মধ্যে — average-এর কাছাকাছি। খুব লম্বা (৬'৩"+) বা খুব বেঁটে (৫'২"-) খুব কম। যদি height-এর histogram আঁকিস, দেখবি একটা সুন্দর bell-shaped curve! মাঝখানে সবচেয়ে উঁচু, দুই পাশে সমানভাবে নামতেছে। তোর বন্ধু বলল 'এইটা দেখতে মসজিদের গম্বুজের মতো!' তুই বললি 'না ভাই, এইটার নাম Bell Curve — আর এইটাই Normal Distribution!'
Normal Distribution (Gaussian Distribution) হইল প্রকৃতির সবচেয়ে common distribution, মামা! Height, weight, IQ, exam marks, temperature — সব কিছুই almost normal distribution follow করে। এইটা দুইটা parameter দিয়া define: μ (mean — bell-এর center) আর σ (standard deviation — bell কতটা চওড়া)। ML-এর প্রায় সব algorithm-র পিছনে এই bell curve কাজ করে!
সংজ্ঞা
Normal Distribution (Gaussian Distribution) হইল continuous probability distribution যার PDF bell-shaped। Mean μ center-এ থাকে, আর σ spread control করে। 68-95-99.7 rule: ≈68% data μ±σ-তে, ≈95% data μ±2σ-তে, ≈99.7% data μ±3σ-তে থাকে।
ব্যাখ্যা
Bell Curve-র Anatomy
Normal distribution symmetric — mean-র দুই পাশে exactly same shape। Mean = Median = Mode — তিনটাই এক জায়গায়! ঢাকার ছাত্রদের average height 5'8" হইলে, সবচেয়ে বেশি ছাত্রও 5'8" এর আশেপাশে, আর এইটাই median-ও।
68-95-99.7 Rule (Empirical Rule)
এইটা মনে রাখলেই normal distribution-র ৯০% কাজ হইয়া যায়! μ থেকে ±1σ-র মধ্যে 68% data, ±2σ-তে 95%, ±3σ-তে 99.7%। মানে 3σ-র বাইরে data পড়ার chance মাত্র 0.3%! তাই 3σ-র বাইরের data-কে anomaly/outlier বলি।
Standard Normal Distribution (Z)
যেকোনো normal distribution-কে standardize করা যায়: Z = (X - μ)/σ। Result: Z ~ N(0, 1) — mean 0, σ 1। এইটা Standard Normal। Z-table বা calculator দিয়া যেকোনো probability বাইর করা যায়। ঢাকার যেকোনো height-কে z-score-এ convert করলে compare করা easy!
Central Limit Theorem (CLT)
ML-এর সবচেয়ে powerful theorem! যেকোনো distribution-র data থেকে বারবার sample নিয়া mean calculate করলে, সেই mean-গুলার distribution normal হবে — original distribution যাই হোক! নূন্যতম n≥30 হইলেই কাজ করে। এই জন্যই normal distribution এত important!
ঢাকা বিশ্ববিদ্যালয়ের Height Analysis
DU CSE department-এ ছাত্রদের height ~ N(170 cm, 25 cm²) — mean 170 cm, σ = 5 cm। (a) 165-175 cm এর মধ্যে কত % ছাত্র? (b) 180 cm-র বেশি লম্বা ছাত্র কত %? (c) কোন height-র নিচে 90% ছাত্র?
Step 1: 68% Rule Apply কর
165-175 = μ ± 1σ (170 ± 5)। 68-95-99.7 rule অনুযায়ী ≈68% ছাত্র।
Step 2: Z-score for 180 cm
Z = (180 - 170)/5 = 2। মানে mean থেকে 2σ দূরে।
Step 3: 90th Percentile
Z-table থেকে 90th percentile-এর z = 1.28। তাই X = μ + zσ।
Step 4: সারসংক্ষেপ
বেশিরভাগ ছাত্র (68%) 165-175 cm। মাত্র 2.3% 180-র বেশি। 90% ছাত্র 176.4 cm-র নিচে। Normal distribution সুন্দরভাবে height-র pattern ধরে!
(a) ≈68% ছাত্র 165-175 cm-এ, (b) ≈2.3% ছাত্র 180 cm-র বেশি, (c) 90% ছাত্র 176.4 cm-র নিচে। Normal distribution আর z-score দিয়া যেকোনো প্রশ্নের উত্তর পাওয়া যায়!
ML-এ কোথায় লাগে?
মনে রাখার ট্রিক
Normal Distribution মনে রাখ মসজিদের গম্বুজ দিয়া: মাঝখানে সবচেয়ে উঁচু (mean), দুইপাশে সমানভাবে নামে (symmetric)। 68-95-99.7 মনে রাখ: ১ হাত দূরে 68% মানুষ দাঁড়ানো, ২ হাত দূরে 95%, ৩ হাত দূরে 99.7%। ৩ হাতের বাইরে? সেইটা outlier — ঢাকায় শীতে শার্ট পরা মানুষের মতো rare! আর CLT মনে রাখ: বাজারে ১০০ জন মানুষের average height নাও ১০০ বার — সেই average-গুলা always bell curve বানাবে!