Nächste Seite: Nomenklatur Aufwärts: Hauptkomponentenanalyse Vorherige Seite: Transformationsstrategie

Ein Beispiel

Als Beispiel wird hier eine Hauptkomponententransformation von vier Temperaturreihen aus dem Mittelmeergebiet durchgeführt. Um Rechenaufwand zu sparen, werden nur die Monatswerte des ersten Halbjahres 1990 verwendet. Die Werte sind in Tabelle 1 eingetragen:

**Tabelle 1:** Verwendete Datenreihen (Monatsmitteltemperturen in $.1^{\circ } C$ ).
Station	Januar	Februar	März	April	Mai	Juni	Mittel
Athen	84	109	140	166	205	247	158.5
Gibraltar	138	157	161	165	197	223	173.5
Luqa	132	141	147	167	197	239	170.5
Palma	101	135	128	128	181	219	148.66

Der Mittelwertvektor der Punktwolke (die aus sechs Punkten im vierdimensionalen Raum besteht) ist gegeben durch $\vec{m}=(158.5; 173.5; 170.5; 148.66)$ . Dann folgt für die (schon auf den Mittelwert bezogene) Matrix

$\begin{displaymath} Z(t,x)=\left(\begin{array}{rrrr} - 74.5 & - 35.5 & - 38.5... ...5 & 32.33\\ 88.5 & 49.5 & 68.5 & 70.33 \end{array}\right) \end{displaymath}$

(4)

Als nächstes ist die Kovarianzmatrix zu bestimmen. Sie ergibt sich zu:

$\begin{displaymath} \Sigma = \left( \begin{array}{cccc} 3678.701 & 1820.498 &... ...602 & 1318.599 & 1694.200 & 1861.068\\ \end{array} \right) \end{displaymath}$

(5)

Für die Korrelationsmatrix $\cal{C}$ , die die Korrelationskoeffizienten zwischen je zwei Zeitreihen als Elemente enthält, folgt damit

$\begin{displaymath} \cal{C} = \left( \begin{array}{cccc} 1 & .9724 & .9731 & .... ... .9632 \\ .9311 & .9903 & .9632 & 1 \\ \end{array} \right) \end{displaymath}$

(6)

Die Korrelationen zwischen den Reihen sind sehr hoch. Dies liegt darin, daß es bei allen Stationen zwischen Januar und Juni wärmer wird. Zwischen der ersten und der vierten Reihe ist die Korrelation am geringsten, zwischen der zweiten und der vierten Reihe am höchsten. Athen und Palma hatten demnach den unterschiedlichsten, Gibraltar und Palma den ähnlichsten Temperaturverlauf.

Aus Glg. (2) folgen die vier Eigenwerte in absteigender Reihenfolge:

7937.275

180.048

37.224

.219

Das sind die Varianzen der vier zugeordneten Zeitreihen im gedrehten Raum. Wie man sieht trägt die vierte Hauptachse kaum noch Varianz bei. Die mit Abstand meiste Varianz ist in der ersten Hauptachse. Da die neuen Koordinaten orthogonal sind, kann die Varianz einfach addiert werden. Damit kann man ausdrücken welcher Anteil der Gesamtvarianz der Punktwolke in welcher Koordinate liegt. Die Varianz teilt sich demnach auf die Koordinaten wie folgt auf:

97.3330 %

2.2079 %

.4565 %

.0027 %.

Die zugeordneten (hier schon normierten) Basisvektoren sind:

$\begin{displaymath} \begin{array}{l} \vec{e_{1}}=(+.6733; +.3448; +.4535;\... ...c{e_{4}}=(-.1630; +.9013; -.0271; -.4005). \end{array} \end{displaymath}$

(7)

Man kann sich leicht davon überzeugen, daß diese Vektoren senkrecht (im Rahmen der Rechengenauigkeit) aufeinanderstehen, indem man das Skalarprodukt zwischen ihnen bildet. Ebenso einfach sieht man, daß sie normiert sind, da ihre Länge eins ist. Es ist nun möglich die Zeitreihen im gedrehten System zu berechnen. Die Zeitreihe der ersten Hauptkomponente im gedrehten System besteht aus der Summe der mit den entsprechenden Komponenten des ersten Hauptvektors multiplizierten Zeitreihen, d.h.

$\begin{displaymath} a_{1}(t) = .6733 z_{1}(t) + .3448 z_{2}(t) + .4535 z_{3}(t) + .4713 z_{4}(t). \end{displaymath}$

(8)

Nächste Seite: Nomenklatur Aufwärts: Hauptkomponentenanalyse Vorherige Seite: Transformationsstrategie

ich 2000-01-24