L1/L2 Regularization — নিয়ন্ত্রণের শক্তি
L1/L2 Regularization
ফারুকের বাজেট কন্ট্রোল
ধর তোর বন্ধু ফারুক কারওয়ান বাজারে গেছে কেনাকাটা করতে। বাজেট ৫০০০ টাকা। সে কিনতে চায় — মাছ, মাংস, সবজি, ফল, মসলা। দুইটা strategy আছে: Strategy 1 (L2 — ডায়েট): সবকিছু একটু একটু কমাও — মাছ কম, মাংস কম, সব item-এ budget distribute করো। Strategy 2 (L1 — বাজেট কাট): কিছু item পুরা বাদ দাও — ফল কিনব না, মসলা পুরানো আছে — বাকিতে ভালো মানের কেনো।
ML-এও same concept! L2 (Ridge) সব weight ছোট করে কিন্তু zero করে না — ডায়েটের মতো। L1 (Lasso) কিছু weight পুরা zero করে দেয় — বাজেট কাটের মতো! গুরু বলে — 'Regularization = model-এর জন্য বাজেট constraint!'
সংজ্ঞা
Regularization হইল loss function-এ একটা penalty term যোগ করা যাতে model-এর weights বেশি বড় না হয়। L1 penalty weights-এর absolute value যোগ করে (sparsity দেয়), L2 penalty weights-এর বর্গ যোগ করে (smooth shrinkage)।
ব্যাখ্যা
L2 Regularization (Ridge)
Weights-এর বর্গের যোগফল penalty হিসাবে যোগ করে। সব weight একটু একটু ছোট হয় কিন্তু zero হয় না। Gradient descent-এ weight decay হিসাবেও পরিচিত।
L1 Regularization (Lasso)
Weights-এর absolute value-র যোগফল penalty। কিছু weight exactly zero হয়ে যায় — automatic feature selection! Sparse model পাওয়া যায়।
Elastic Net — দুইটার কম্বো
L1 + L2 দুইটা একসাথে use করলে Elastic Net হয়। L1-এর feature selection আর L2-এর stability দুইটাই পায়। অনেক practical problem-এ best choice।
ফারুকের বাজেটে L1 vs L2
Weights: w = [3, -2, 0.5, -0.1, 4]। λ = 0.1। L1 penalty, L2 penalty, আর gradient update দেখাও।
Step 1: L1 Penalty
সব weight-এর absolute value যোগ করো
Step 2: L2 Penalty
সব weight-এর বর্গ যোগ করো
Step 3: L1 Gradient Effect
L1 gradient = sign(w) — সব weight সমান rate-এ zero-র দিকে যায়। 0.1 weight → 0 হয়ে যায় (sparse!)
Step 4: L2 Gradient Effect
L2 gradient = 2w — বড় weight বেশি shrink হয়, ছোট weight অল্প shrink হয়
L1: ছোট weights (0.1) zero হয়ে যাইব — sparse model। L2: বড় weights (4, 3) বেশি shrink হইব কিন্তু কেউ zero হইব না। Feature selection চাইলে L1, stable shrinkage চাইলে L2!
ML-এ কোথায় লাগে?
মনে রাখার ট্রিক
L1 = ফারুকের বাজেট কাট — কিছু item পুরা বাদ (sparse)। L2 = ফারুকের ডায়েট — সবকিছু একটু কম (shrink)। Elastic Net = ডায়েট + বাজেট কাট combo!