Principal components analysis

Enciclopedia della Scienza e della Tecnica (2008)

principal components analysis

Mauro Cappelli

Procedura preliminare di analisi multivariata per la trasformazione dell’insieme di variabili originarie in un nuovo gruppo di variabili (componenti), combinazioni lineari delle prime. L’analisi delle componenti principali (principal components analysis) è particolarmente adatta per lo studio della struttura di un insieme di osservazioni multivariate, in particolare quando non si hanno informazioni preliminari sul modo con cui le variabili misurate sono tra loro dipendenti o associate. Diversamente dall’analisi dei fattori, che consente di risolvere le correlazioni tra variabili nelle loro cause determinanti, l’analisi delle componenti principali è rivolta alla rappresentazione della variabilità trovata nel campione (più che all’interpretazione delle correlazioni osservate tra variabili misurate); ma, analogamente a essa, fa sì che il numero di variabili coinvolte siano ridotte a un insieme contenente quelle maggiormente informative. Accade spesso infatti che le variabili che si misurano siano più o meno interdipendenti e che i dati contengano quindi una quantità notevole di informazioni ridondanti. Indipendentemente da quale sia la tecnica più appropriata caso per caso, il primo passo consiste nel confrontare tra loro n oggetti prendendo in esame più di una caratteristica variabile alla volta. Quale che sia la natura degli oggetti e delle variabili in questione, l’analisi comincia con la raccolta dei dati che consistono per ciascun oggetto in una serie di misurazioni di un certo numero p di parametri (variabili), i differenti oggetti potendo appartenere allo stesso o a differenti gruppi. Da un punto di vista geometrico questo corrisponde ad avere un insieme o diversi insiemi di punti distribuiti in uno spazio p-dimensionale. L’analisi multivariata della variabilità entro gruppi si basa sulla determinazione, gruppo per gruppo, degli assi principali (direzioni di massima variazione o vettori caratteristici) della distribuzione di punti intorno alla media e della variabilità totale corrispondente a ciascuno di questi assi (radici caratteristiche). L’analisi multivariata della variabilità tra gruppi si basa sostanzialmente sulla distribuzione delle medie di ciascun gruppo intorno alla media generale e sulla determinazione delle direzioni di massima variazione (funzioni discriminanti) di questa distribuzione. Nell’uno e nell’altro caso, gli assi o componenti principali che vengono calcolati rappresentano una media ponderata delle misure effettuate, dove i pesi sono ottenuti in modo da compensare la ridondanza di informazione inerente al fatto che spesso le diverse variabili sono più o meno intercorrelate. Un’applicazione importante di questa tecnica può aversi in tutti quei casi in cui si voglia mettere in relazione distribuzione di variabili da un lato e differenze ambientali o geografiche dall’altro, ma le eventuali connessioni siano difficili da evidenziare per il grande numero di variabili coinvolte e la complessità delle loro interrelazioni.

→ Microarray

CATEGORIE

informatica applicata in informatica

statistica e calcolo delle probabilita in matematica