Pääkomponenttianalyysi

Pääkomponenttianalyysi (engl. Principal components analysis, PCA) on dimension redusointitekniikka. Pääkomponenttianalyysin tavoitteena on löytää monidimensioisesta datasta ne komponentit, joiden avulla sen keskeisimmät piirteet voidaan esittää ilman, että merkittävää informaatiota menee hukkaan.

Pääkomponenttianalyysi on eräs keskeisimpiä menetelmiä hahmontunnistuksessa ja signaalinkäsittelyssä. Samankaltaisia menetelmiä ovat esimerkiksi faktorianalyysi, Karhunen–Loève-muunnos, Hotelling-muunnos ja singulaariarvohajotelma (SVD).

Määritelmä

Pääkomponenttianalyysi pyrkii löytämään datasta keskeisimmät komponentit, eli löytämään ne avaruuden pinnat, joille projisoituna data tuottaa suurimman varianssin ja joiden avulla ilmaistuna datasta menee mahdollisimman vähän informaatiota hukkaan.

Voidaan osoittaa, että varianssin maksimoi datan kovarianssimatriisin suurinta ominaisarvoa vastaava ominaisvektori.

\max D^{2}(\beta ^{T}X)=\beta _{1}^{T}\Sigma \beta _{1}^{T}=\lambda _{1}

$\Sigma$ on datamatriisi $X$ :n kovarianssimatriisi
$\lambda _{1}$ on kovarianssimatriisi $\Sigma$ :n suurin ominaisarvo
$\beta _{1}$ on kovarianssimatriisi $\Sigma$ :n suurinta ominaisarvoa, $\lambda _{1}$ :aa vastaava ominaisvektori

y_{1}=\beta _{1}^{T}X

$y_{1}$ on datamatriisi $X$ :n suurin pääkomponentti

Pääkomponenttianalyysi asettaa siis datamatriisin komponentit suuruusjärjestykseen ominaisarvojen mukaan. Pääkomponenttianalyysin suorittamisen jälkeen tulee vielä suorittaa valinta siitä, että mitkä komponentit voidaan hylätä vähämerkityksisinä, sillä menetelmä ei automaattisesti hylkää mitään komponentteja, vaan ainoastaan asettaa löytämänsä komponentit suuruusjärjestykseen.