PCA — Principal Component Analysis
Principal Component Analysis
নিউমার্কেটের ফটোগ্রাফার
ধর তোর বন্ধু সাকিব নিউমার্কেটে ফটো স্টুডিও চালায়। বিয়ার ছবি তোলে, পাসপোর্ট ছবি তোলে। একদিন এক কাস্টমার আসল ১০০টা বিয়ার ছবি নিয়া আর বলল 'মামা, এই ১০০টা ছবি থেইকা ৫টা ছবি বাছো যেইগুলা দিয়া পুরা বিয়ার অনুষ্ঠান বোঝা যায়।' সাকিব বলল 'ভাই, প্রথমে সবচেয়ে important মুহূর্তটা — গায়ে হলুদ, তারপর আকদ, তারপর ওয়ালিমা, তারপর বিদায়, তারপর রিসেপশন। এই ৫টা ছবি দিলে ৯৫% story বোঝা যায়!' কাস্টমার বলল 'বাকি ৯৫টা?' সাকিব বলল 'ডুপ্লিকেট মামা — একই জিনিসের বারবার ছবি!'
এইটাই PCA! অনেক features/dimensions থেকে সবচেয়ে important কয়েকটা direction (principal components) বাইর করা। ১০০ dimension থেকে ৫টা নিলে ৯৫% information retain হইতে পারে — বাকিগুলা redundant বা noise!
সংজ্ঞা
PCA (Principal Component Analysis) হইল data-র covariance matrix-এর eigenvectors খুঁজে বাইর করা আর সবচেয়ে বড় eigenvalue-এর eigenvectors-এর দিকে data-কে project করা। এতে dimensionality কমে কিন্তু maximum variance (information) retain হয়।
ব্যাখ্যা
PCA-এর ধাপগুলা
PCA করতে ৪টা ধাপ: (১) Data mean-center করো (প্রতিটা feature থেকে mean বাদ দাও), (২) Covariance matrix বানাও, (৩) Eigenvalue ও eigenvector বাইর করো, (৪) Top-k eigenvectors select করো আর data-কে project করো। সাকিব মামার ভাষায়: 'প্রথমে সব ছবি এক জায়গায় আনো, তারপর কোনটা কতটা different দেখো, তারপর সবচেয়ে different গুলা বাছো!'
Variance Explained কি?
প্রতিটা principal component কতটুকু total variance explain করে সেইটা eigenvalue দিয়া বোঝা যায়। λᵢ / Σλ = i-th component-এর explained variance ratio। Cumulative sum 95% হইলে বাকি components বাদ দাও — noise বা trivial information।
কয়টা Component রাখবা?
Scree plot বানাও — eigenvalues plot করো। যেখানে elbow (হঠাৎ drop) দেখবা, সেখান পর্যন্ত রাখো। অথবা cumulative explained variance ≥ 95% হওয়া পর্যন্ত components রাখো। Rule of thumb: যদি ১০০ features থেকে ১০টা component-এ 95% variance capture হয়, তাহলে বাকি ৯০টা মূলত noise।
Iris Dataset-এ PCA
Iris dataset-এ ৪টা feature আছে (sepal length, sepal width, petal length, petal width)। PCA দিয়া 2D-তে নামাও যাতে 3 species visualize করা যায়।
Step 1: Data Load ও Mean-Center
150 samples, 4 features। প্রতিটা feature থেকে mean বাদ দাও।
Step 2: Covariance Matrix
4×4 covariance matrix বানাও। Eigenvalues হইব: λ₁ ≈ 4.23, λ₂ ≈ 0.24, λ₃ ≈ 0.08, λ₄ ≈ 0.02।
Step 3: Variance Explained
PC1 = 4.23/4.57 = 92.5%, PC2 = 0.24/4.57 = 5.3%। দুইটা মিলায়া 97.8%!
Step 4: Project to 2D
Top-2 eigenvectors নিয়া 150×4 data-কে 150×2-তে project করো। Plot করলে 3 species আলাদা cluster দেখবা!
2 principal components-এ 97.8% variance capture! 4D থেকে 2D-তে নামলেও 3 species clearly আলাদা দেখা যায়। মামা বলে 'চারটা feature দিয়া confuse হওয়ার দরকার নাই — দুইটাই যথেষ্ট!'
ML-এ কোথায় লাগে?
মনে রাখার ট্রিক
PCA = সাকিব মামার ফটো বাছাই — ১০০ ছবি থেকে ৫টা important ছবি বাছলেই পুরা story বোঝা যায়। বড় eigenvalue = important direction, ছোট eigenvalue = noise। Variance maximize করো, dimension minimize করো!