Nächste Seite: Welcher Art ist ein Aufwärts: Stochastische Zusammenhänge zweier Zufallsvariablen Vorherige Seite: Wie erkennt man stochastische Inhalt

Wie stark ist ein möglicher stochastischer Zusammenhang?

Um die Stärke eines stochastischen Zusammenhangs zu messen, stehen verschiedene Maße zur Verfügung. So werden in den Numerical Recipies [4] ein Continigenzkoeffizient und Cramer's

angegeben. Sie sind beide zwischen null und eins skaliert, aber können nicht objektiv gewertet werden. Auf der anderen Seite gibt es bedingte Maße, wie den Pearson Korrelationskoeffizient [5], dessen Quadrat angibt, welcher Anteil der Varianz der Variablen durch einen linearen Zusammenhang erfaßt werden kann. Spearman und Kendall geben ähnliche Koeffizienten an, die für monotone Zusammenhänge gelten [4]. Im Folgenden soll nun ein Maß aus der Informationstheorie [3] verwendet werden, daß die Stärke eines Zusammenhangs angibt, ohne auf Bedingungen wie Linearität oder Monotonie angewiesen zu sein [6]. Ausgangspunkt ist dabei die in einer Zufallsvariablen enthaltene Information

, die gegeben ist durch:

$\begin{displaymath} H(X)=- \int\limits_{-\infty}^{\infty} p(x) \log_{2} p(x) dx. \end{displaymath}$

(5)

Hat man nun eine Stichprobe bzw. eine Zeitreihe (oder eine Variable), diskret skaliert ist, so geht das Integral in die Summe über die relativen Klassenhäufigkeiten über:

$\begin{displaymath} H(X)=- \sum\limits_{i} p(x) \log_{2} p(x). \end{displaymath}$

Hat man es nun mit zwei Stichproben zu tun, die keine gleichartige Information enthalten, so gilt $p(x,y)=p(x)\cdot p(y)$ und die Information beider Stichproben zusammengenommen ist die Summe der Einzelinformationen. Andernfalls, d.h. falls die Stichproben

und

gleichartige Information enthalten, ist die gemeinsame Information

geringer als die Summe der Einzelinformationen. Der Betrag um den die gemeinsame Information geringer ist, heißt Transinformation

zwischen

und

. Demnach gilt:

$\begin{displaymath} H(X,Y) = H(X) + H(Y) - I(X,Y) \end{displaymath}$

(6)

Theoretisch können die Informationen alle Werte zwischen null und $+\infty$ annehmen. Es werden nun verschiedene Normierungen verwendet, um daraus relative Maße zu machen. In der Literatur findet man die folgenden Normierungen gewöhnlich alle unter dem Namen Redundanz

Wenn man sich dafür interessiert, wie hoch der Anteil der Transinformation an der Information der Stichprobe ist, definiert man sinnvoll:

$\begin{displaymath} R(X,Y)= \frac{I(X,Y)}{H(X)}. \end{displaymath}$
Wenn man sich dafür interessiert, wie hoch der Anteil der Transinformation an der Information der Stichprobe ist, definiert man sinnvoll:

$\begin{displaymath} R(Y,X)= \frac{I(X,Y)}{H(Y)}. \end{displaymath}$
Interessiert man sich für die maximale Redundanz, so kann man definieren:

$\begin{displaymath} R_{max}(X,Y)= \frac{I(X,Y)}{\min(H(X),H(Y))}. \end{displaymath}$
Interessiert man sich für die mittlere Redundanz, so setzt man die mittlere Information der Stichproben ein:

$\begin{displaymath} \overline{R(X,Y)}=2 \frac{I(X,Y)}{H(X)+H(Y)}. \end{displaymath}$

Zwar sind alle diese Maße zwischen null und eins beschränkt, aber nicht geeignet um sie mit anderen Maßen (insbesondere dem Pearson-Korrelationskoeffizient) zu vergleichen. Desweiteren sagt eine Redundanz von z.B. $10 \%$ allein noch nicht viel aus. Es soll nun der Zusammenhang zwischen der Information und den Pearson-Korrelationskoeffizienten gezeigt werden, der es erlaubt, letztendlich auf ein vergleichbares Maß zu kommen. Zunächst kann aus den Gleichungen (5) und (6) die folgende Gleichung für die Transinformation hergeleitet werden:

$\begin{displaymath} I(x,y)=\int\limits_{x}\int\limits_{y} p(x,y) \log_{2}\frac{p(x,y)}{p(x)\, p(y)}\,dx\,dy \end{displaymath}$

(7)

Um nun den Zusammenhang zum Pearson-Korrelationskoeffizienten zu erhalten, wird für

die zweidimensionale Gauß-Verteilung eingesetzt:

$\begin{displaymath}\begin{array}{ll} p(x,y)= & \frac{1}{2\,\pi s_{x}s_{y}\sqrt{... ...(y-\bar{y})^{2}}{s_{y}^{2}} \right) \right\} \end{array} \end{displaymath}$

(8)

mit

$\begin{displaymath}\begin{array}{ll} p(x) & = \int\limits_{y}p(x,y)\, dy\\ p(y) & = \int\limits_{x}p(x,y)\, dx \end{array} \end{displaymath}$

(9)

Die Integration von Gleichung (7) unter Berücksichtigung von Gleichung (8) und (9) führt auf folgenden Zusammenhang:

$\begin{displaymath} I(x,y)= -\frac{1}{2}\ln(1-\rho^{2}) \end{displaymath}$

Stellt man diesen Zusammenhang nach $\rho$ um, so erhält man einen Kontingenzkoeffizienten, der aus der Information abgeleitet ist, und im Fall eines linearen Zusammenhangs gleich dem Pearson-Korrelationskoeffizienten ist:

$\fbox{\parbox{10cm}{ \begin{displaymath} \rho_{I(x,y)}=\sqrt{1-\exp(-2\,I(x,y))}. \end{displaymath} }}$

Diese Gleichung bildet die Transinformation, die theoretisch Werte zwischen null und unendlich annehmen kann auf das Intervall null bis eins ab. In der Praxis ist die Transinformation aber durch den kleineren Werte von

und

beschränkt. Deshalb wird $\rho_{I(x,y)}$ noch weiter normiert, in dem es auf diesen maximal möglichen Wert bezogen wird. Man erhält dann für die informationstheoretische Kontingenz $R_{I}$ folgenden Zusammenhang:

$\fbox{\fbox{\parbox{10cm}{ \begin{displaymath} R_{I}=\frac{\rho_{I(x,y)}}{\rho... ...xp(-2\,I(x,y))}} {\sqrt{1-\exp(-2\,\min (H(X),H(Y)))}}. \end{displaymath} }}}$

Nun kann man zu $R_{I}$ auch die Signifikanz ausrechnen. Dazu stellt man erneut die Nullhypothese auf, daß

und

unabhängig sind, d.h., daß $R_{I}=0$ ist. Wenn

und

Klassen eingeteilt ist, dann ist der Erwartungswert der Transinformation nur unter Berücksichtigiung der Nullhypothese nur von den Freiheitsgraden dieser Klasseneinteilung abhängig. Man erhält den Erwartungswert

$\begin{displaymath} E(I(X,Y))= \frac{1}{2} [(M-1)(R-1)] \end{displaymath}$

Nun ist $\frac{1}{2}I(X,Y)$ genau $\chi^{2}$ -verteilt mit $\Phi=(M-1)(R-1)$ Freiheitsgraden. Dann gilt:

$\begin{displaymath} \chi_{\Phi,\alpha}^{2}= 2\, n I(X,Y). \end{displaymath}$

Mit dieser Gleichung läßt sich zu jedem berechneten Wert von

und deshalb auch zu jedem Wert von $R_{I}$ die zugehörige Signifikanz berechnen. Bei der Berechnung der informationstheoretischen Maße ist zu beachten, daß die Klasseneinteilung möglichst so gewählt werden sollte, daß die Klassenhäufigkeiten in etwa gleichverteilt sind [6]. Dies ist im Gegensatz zu der Einteilung, die man zweckmäßigerweise bei dem $\chi^{2}$ -Unabhängigkeitstest macht.

Nächste Seite: Welcher Art ist ein Aufwärts: Stochastische Zusammenhänge zweier Zufallsvariablen Vorherige Seite: Wie erkennt man stochastische Inhalt

ich 2000-01-25