next up previous
Nächste Seite: Durchführung des Ausreißertests Aufwärts: Ein Ausreißertest Vorherige Seite: Anwendbarkeit des Ausreißertests

Theorie des Ausreißertests

Zunächst wird von einer Zeitreihe von identisch normalverteilten unabhängigen Variablen ausgegangen (Gaußsches Rauschen). Diese hat die Wahrscheinlichkeitsdichtefunktion
\begin{displaymath}
p(z)=\frac{1}{\sqrt{2\,\pi}}\,\exp\left(-\,\frac{z^{2}}{2}\right).
\end{displaymath} (1)

Für die Wahrscheinlichkeitsfunktion $P(z\le Z)$ folgt dann
\begin{displaymath}
P(z\le Z)=\frac{1}{\sqrt{2\,\pi}}\,\int_{-\infty}^{Z}\exp\left(-\,\frac{z'^{2}}{2}\right)\,dz'.
\end{displaymath} (2)

Für die Wahrscheinlichkeit eine Zahl zwischen $\pm Z$ anzutreffen, folgt dann
\begin{displaymath}
P(-Z\le z \le Z) = P(Z) -P(-Z).
\end{displaymath} (3)

Da die Wahrscheinlichkeitsdichtefunktion der Normalverteilung eine gerade Funktion ist, gilt weiter
\begin{displaymath}
P(-Z) = 1 - P(Z).
\end{displaymath} (4)

Daraus folgt sofort:
\begin{displaymath}
P(-Z\le z \le Z) = 2\, P(Z) - 1.
\end{displaymath} (5)

Aus dem gleichen Grund kann man für $Z > 0$ Glg. (2) umformulieren zu
\begin{displaymath}
P(z\le Z)=\frac{1}{2} + \frac{1}{\sqrt{2\,\pi}}\,\int_{0}^{Z}\exp\left(-\,\frac{z'^{2}}{2}\right)\,dz'.
\end{displaymath} (6)

Dieses Integral ist nicht analytisch lösbar. Jedoch gibt es ein ähnliches Integral, für das z.B. in den Numerical Recipes Reihen- und Partialbruchnäherungen angegeben werden. Dieses ``ähnliche`` Integral ist die sogenannte Errorfunktion und hat folgende Gestalt:
\begin{displaymath}
\mbox{erf}(x)=\frac{2}{\sqrt{\pi}}\,\int_{0}^{x}\exp
\left(-\,u^{2}\right)\,du.
\end{displaymath} (7)

Um das Integral in Glg. (6) in diese Form zu bringen wird eine einfache Variablentransformation durchgeführt. Dazu wird Glg. (6) zunächst umgeschrieben zu
\begin{displaymath}
P(z\le Z)=\frac{1}{2} + \frac{1}{\sqrt{2\,\pi}}\,\int_{0}^{...
...
\left(-\,\left[\frac{z'}{\sqrt{2}}\right]^{2}\right)\,dz'.
\end{displaymath} (8)

Transformiert wird nun $t=\frac{z'}{\sqrt{2}}$, d.h. $z' = \sqrt{2}\,t$, mit der Ableitung $\frac{dz'}{dt}=\sqrt{2}$. Damit folgt für $P(z\le Z)$
\begin{displaymath}
P(z\le Z)=\frac{1}{2} + \frac{1}{\sqrt{2\,\pi}}\,\int_{0}^{t(Z)}\exp
\left(-\,t^{2}\right)\,\frac{dz'}{dt}dt.
\end{displaymath} (9)

Setzt man die Ableitung und die transformierte Integralgrenze ein, so erhält man
\begin{displaymath}
P(z\le Z)=\frac{1}{2} + \frac{1}{\sqrt{\pi}}\,\int_{0}^{\fr...
...eft(1+\mbox{erf}\left(\frac{Z}{\sqrt{2}}
\right)
\right).
\end{displaymath} (10)

Aus den Gleichungen (5) und (10) folgt nun
\begin{displaymath}
P(-Z \le z\le Z) = \mbox{erf}\left( \frac{Z}{\sqrt{2}}\right)
\end{displaymath} (11)

Dies ist die Wahrscheinlichkeit dafür, durch Zufall aus einer identisch normalverteilten Variable einen Wert zu ziehen, dessen Betrag kleiner $Z$ ist. $1- P(-Z \le z\le Z)$ ist dann die Wahrscheinlichkeit durch Zufall einen mindestens so großen Wert zu ziehen wie $Z$. Diese Wahrscheinlichkeit gilt für den Fall, daß man einmal zieht. Die Zeitreihe, die untersucht werden soll, besteht aber aus $N$ Werten. Sie stellt damit gemäß den Annahmen eine Realisation dar, bei der $N$-mal hintereinander (unabhängig) eine solche Zufallszahl gezogen wurde. Dies wiederum ist ein Bernoulli-Experiment. Die Wahrscheinlichkeit bei $N$ Realisationen $k$ mal einen Wert mit der Eintrittswahrscheinlichkeit $1- P(-Z \le z\le Z)$ zu erhalten folgt demnach einer Binomialverteilung. Für Werte von $N \ge 100$ und $1- P(-Z \le z\le Z) \le .05$ kann diese Verteilung durch die Poissonverteilung genähert werden. Somit ist die Wahrscheinlichkeit für das zufällige $k$-malige Auftreten eines solch großen (oder größeren) Wertes gegeben durch
\begin{displaymath}
p(k,N,1- P(-Z \le z\le Z))=\frac{e^{-\lambda}\,\lambda^{k}}{k!}
\end{displaymath} (12)

mit $\lambda=N \,(1- P(-Z \le z\le Z))$. Die Wahrscheinlichkeit dafür, daß in einer Zeitreihe der Länge $N$ ein solch extremer Wert durch Zufall nicht auftritt ist demnach
\begin{displaymath}
p(k=0,N,1- P(-Z \le z\le Z)) = \exp\left[-N\,\,\mbox{erf}\left(\frac{Z}{\sqrt{2}}\right)\right]
\end{displaymath} (13)

Damit ist die Wahrscheinlichkeit dafür, daß ein Wert mit dem Abstand $\Vert z\Vert\ge Z$ vom Mittelwert der normierten Gaußverteilung in einer Zeitreihe des Umfangs $N$ durch Zufall mindestens einmal auftritt, gegeben durch
\begin{displaymath}
1-p(k=0,N,1- P(-Z \le z\le Z)) =1 - \exp\left[-N\,\mbox{erf}\left(\frac{Z}{\sqrt{2}}\right)\right].
\end{displaymath} (14)


next up previous
Nächste Seite: Durchführung des Ausreißertests Aufwärts: Ein Ausreißertest Vorherige Seite: Anwendbarkeit des Ausreißertests
ich 2000-01-24