next up previous
Nächste Seite: Nomenklatur Aufwärts: Hauptkomponentenanalyse Vorherige Seite: Transformationsstrategie

Ein Beispiel

Als Beispiel wird hier eine Hauptkomponententransformation von vier Temperaturreihen aus dem Mittelmeergebiet durchgeführt. Um Rechenaufwand zu sparen, werden nur die Monatswerte des ersten Halbjahres 1990 verwendet. Die Werte sind in Tabelle 1 eingetragen:
Tabelle 1: Verwendete Datenreihen (Monatsmitteltemperturen in $.1^{\circ } C$ ).
Station Januar Februar März April Mai Juni Mittel
Athen 84 109 140 166 205 247 158.5
Gibraltar 138 157 161 165 197 223 173.5
Luqa 132 141 147 167 197 239 170.5
Palma 101 135 128 128 181 219 148.66

Der Mittelwertvektor der Punktwolke (die aus sechs Punkten im vierdimensionalen Raum besteht) ist gegeben durch $\vec{m}=(158.5;  173.5;  170.5;  148.66)$. Dann folgt für die (schon auf den Mittelwert bezogene) Matrix $Z$:
\begin{displaymath}
Z(t,x)=\left(\begin{array}{rrrr}
- 74.5 & - 35.5 & - 38.5...
...5 & 32.33\\
88.5 & 49.5 & 68.5 & 70.33
\end{array}\right)
\end{displaymath} (4)

Als nächstes ist die Kovarianzmatrix zu bestimmen. Sie ergibt sich zu:
\begin{displaymath}
\Sigma = \left(
\begin{array}{cccc}
3678.701 & 1820.498 &...
...602 & 1318.599 & 1694.200 & 1861.068\\
\end{array}
\right)
\end{displaymath} (5)

Für die Korrelationsmatrix $\cal{C}$ , die die Korrelationskoeffizienten zwischen je zwei Zeitreihen als Elemente enthält, folgt damit
\begin{displaymath}
\cal{C} = \left(
\begin{array}{cccc}
1 & .9724 & .9731 & ....
... .9632 \\
.9311 & .9903 & .9632 & 1 \\
\end{array}
\right)
\end{displaymath} (6)

Die Korrelationen zwischen den Reihen sind sehr hoch. Dies liegt darin, daß es bei allen Stationen zwischen Januar und Juni wärmer wird. Zwischen der ersten und der vierten Reihe ist die Korrelation am geringsten, zwischen der zweiten und der vierten Reihe am höchsten. Athen und Palma hatten demnach den unterschiedlichsten, Gibraltar und Palma den ähnlichsten Temperaturverlauf.

Aus Glg. (2) folgen die vier Eigenwerte in absteigender Reihenfolge:
7937.275
180.048
37.224
.219
Das sind die Varianzen der vier zugeordneten Zeitreihen im gedrehten Raum. Wie man sieht trägt die vierte Hauptachse kaum noch Varianz bei. Die mit Abstand meiste Varianz ist in der ersten Hauptachse. Da die neuen Koordinaten orthogonal sind, kann die Varianz einfach addiert werden. Damit kann man ausdrücken welcher Anteil der Gesamtvarianz der Punktwolke in welcher Koordinate liegt. Die Varianz teilt sich demnach auf die Koordinaten wie folgt auf:
97.3330 %
2.2079 %
.4565 %
.0027 %.
Die zugeordneten (hier schon normierten) Basisvektoren sind:

\begin{displaymath}
\begin{array}{l}
\vec{e_{1}}=(+.6733;  +.3448;  +.4535;\...
...c{e_{4}}=(-.1630;  +.9013;  -.0271;  -.4005).
\end{array}
\end{displaymath} (7)

Man kann sich leicht davon überzeugen, daß diese Vektoren senkrecht (im Rahmen der Rechengenauigkeit) aufeinanderstehen, indem man das Skalarprodukt zwischen ihnen bildet. Ebenso einfach sieht man, daß sie normiert sind, da ihre Länge eins ist. Es ist nun möglich die Zeitreihen im gedrehten System zu berechnen. Die Zeitreihe der ersten Hauptkomponente im gedrehten System besteht aus der Summe der mit den entsprechenden Komponenten des ersten Hauptvektors multiplizierten Zeitreihen, d.h.
\begin{displaymath}
a_{1}(t) = .6733  z_{1}(t) + .3448  z_{2}(t) + .4535  z_{3}(t) + .4713  z_{4}(t).
\end{displaymath} (8)


next up previous
Nächste Seite: Nomenklatur Aufwärts: Hauptkomponentenanalyse Vorherige Seite: Transformationsstrategie
ich 2000-01-24