next up previous
Nächste Seite: Transformationsstrategie Aufwärts: Hauptkomponentenanalyse Vorherige Seite: Hauptkomponentenanalyse

Einleitung

Der wesentliche Bestandteil der Hauptkomponentenanalyse ist die Hauptachsentransformation. Geht man davon aus, daß man $n$ Zeitreihen der Länge $p$ vorgegeben hat, so stellen diese eine Punktwolke von $n$ Punkten im $p$-dimensionalen Raum dar. Man kann die $p$ skalaren Zeitreihen somit auch als eine $p$-dimensionale Vektorzeitreihe auffassen. Ein Vektor (und auch eine Reihe von Vektoren) kann bezüglich einer beliebigen Basis im Raum formuliert werden. Ziel der Hauptachsentransformation ist es nun, eine andere sinnvollere Basis zu verwenden, als die durch die Zeitreihen vorgegebene. Dies geschieht in zwei Schritten. Zunächst wird der Ursprung des Koordinatensystems in den Schwerpunkt der Punktwolke gesetzt. Im zweiten Schritt wird das Koordinatensystem dann so gedreht, daá die erste Koordinate in Richtung der größten Varianz der Punktwolke zeigt. Damit ist die erste Hauptachse festgelegt und die Varianz in dieser Richtung ist die erste Hauptkomponente. Die nächste Drehung wird dann um diese Koordinatenachse durchgeführt, und zwar so, daß die zweite Hauptachse (die orthogonal zur ersten stehen muß) in Richtung der größten verbleibenden Varianz zeigt. Dieser Vorgang wird so oft wiederholt, bis eine neue $p$-dimensionale Basis geschaffen ist. Die neuen Basisvektoren werden oft empirische Orthogonalfunktionen (EOF) genannt. Nach dieser Transformation ist die Varianz der Punktwolke (und damit auch der Originalreihen) so auf neue Koordinaten (und damit auch neue Zeitreihen) verteilt, daß die Varianz dieser Reihen mit zunehmender Reihennummer abnimmt. Die neuen Zeitreihen heißen Hauptkomponenten-Zeitreihen oder PC-Zeitreihen. Die erste Hauptachse beschreibt die Hauptvarianz, die $p$-te Hauptachse die wenigste Varianz. Eine Anwendung der Hauptachsentransformation ist die Vernachlässigung von Anteilen, die wenig zur Gesamtvarianz beitragen. Dazu betrachtet man einfach nur einen Anteil der Hauptachsen. Man erhält somit die (linear) effektivste Darstellung, mit den wenigsten Datenreihen. Hat man z.B. $p=5$ Datenreihen, und drücken die ersten zwei Hauptachsen schon $99 \%$ der Varianz aus, so reicht es, wenn man sich nicht für das verbleibende $1 \%$ Restvarianz interessiert, nur die beiden zu diesen Hauptachsen gehörenden Zeitreihen zu untersuchen. Es gibt dann keine effektivere Darstellung der fünf Ausgangsreihen durch nur zwei Zeitreihen. Für Analysen ist es von besonderem Interesse zu sehen, wie schnell die Varianz in den Hauptachsen abnimmt. Konkret stellt sich dabei die Frage, wieviel unabhängige Information ist in den $p$ Datenreihen wirklich enthalten. Eine weitere wichtige Frage ist, wie ist die Information auf die verschiedenen Zeitreihen verteilt. Diese Information steckt in der Drehmatrix, mit der vom alten System ins neue gedreht wird.
next up previous
Nächste Seite: Transformationsstrategie Aufwärts: Hauptkomponentenanalyse Vorherige Seite: Hauptkomponentenanalyse
ich 2000-01-24