next up previous
Nächste Seite: Bayes-Schätzer Aufwärts: Schätzverfahren Vorherige Seite: Methode der kleinsten Quadrate

Maximum-Likelihood-Schätzer

Maximum-Likelihood-Schätzer (ML-Schätzer, nach Fisher, 1890 - 1962) basieren auf der Annahme, daß wahrscheinlich das Wahrscheinlichste wahr ist. Das klingt hoffentlich schon so, daß der kritische Leser, auf den Gedanken kommen könnte, daß die damit erzielten Ergebnisse auch total falsch sein können. Trotzdem neigt man auch im Alltag gerne dazu, nach diesem Prinzip zu schätzen. Weiß man von einem Koch z.B. daß er wesentlich wahrscheinlicher eine Suppe versalzt, wenn er verliebt ist, als wenn er es nicht ist, so wird man sich während dem Essen einer versalzenen Suppe denken: ``wahrscheinlich ist der Koch (mal wieder) verliebt``. Genau das ist eine ML-Schätzung. Um ML-Schätzungen durchführen zu können, braucht man eine Likelihood-Funktion $L(\Theta; \vec{x})$, die angibt, welcher Wert des gesuchten Parameters $\Theta$ bei der vorgegebenen Stichprobe $\vec{x} = (x_{1},x_{2},\cdots,x_{n})$ wie wahrscheinlich ist. Das Maximum dieser Funktion in Abhängigkeit von $\Theta$ bei gegebener Stichprobe $\vec{x}$ ist der Wert der ML-Schätzung. Um die Likelihood-Funktion zu erzeugen, entscheidet man sich aufgrund seiner Erfahrung (oder ähnlich überzeugender Argumente) dafür, daß die Stichprobe aus einem bestimmten Modell stammt. Das Modell kann dann Stichproben erzeugen. Die Likelihood-Funktion ist nun die Wahrscheinlichkeit für eine Realisation $\vec{x}$ in Abhängigkeit von den $m$ Parametern $\vec{\Theta}= \Theta_{1},
\Theta_{2},\cdots,\Theta_{m}$ des angenommenen Modells. Die Likelihood-Funktion braucht dann nur noch uminterpretiert zu werden. Man betrachtet nicht die Wahrscheinlichkeit für die $x_{i}$ in Abhängigkeit von $\hat{\Theta}$, sondern $\hat{\Theta}$ als Variablen und die $x_{i}$ als Parameter. Ein Beispiel soll das verdeutlichen. Als Modell für die Stichprobe wird angenommen, sie stamme aus Gauß'schem weißen Rauschen. Dann ist jeder einzelne Wert von $x_{i}$ unabhängig von den anderen Werten von $x_{j}$. Alle Werte sind Gauß-verteilt und stammen somit aus einer Verteilung mit den zwei Parametern $\mu$ und $\sigma^{2}$. Wegen (und nur wegen) der Unabhängigkeit der Einzelereignisse kann die Likelihood-Funktion faktorisiert werden:
\begin{displaymath}
L(\mu,\sigma^{2};x_{1},x_{2},\cdots,x_{n}) = \prod_{i=1}^{...
...2}}} \exp\left(\frac{-(x_{i}-\mu)^{2}}{2\,\sigma^{2}}\right).
\end{displaymath} (1)

Daraus folgt
\begin{displaymath}
L(\mu,\sigma^{2};\vec{x}) = \frac{1}{(2\,\pi)^{n/2}}\,\frac...
...{2\,\sigma^{2}}\,\sum\limits_{i=1}^{n}(x_{i}-\mu)^{2}\right).
\end{displaymath} (2)

Man könnte diese Funktion nun nach $\mu$ und nach $\sigma^{2}$ ableiten, die Ableitungen jeweils nullsetzen und damit die beiden Parameter bestimmen. Dies wäre recht aufwendig. Und da das nicht das einzige Beispiel ist, bei dem das recht aufwendig ist, geht man prinzipiell etwas anders vor. Man logarithmiert die Likelihood-Funktion vor dem ableiten und kommt somit zur Loglikelihood-Funktion $lnL$:
\begin{displaymath}
lnL(\mu,\sigma^{2};\vec{x}) = \frac{-n}{2}\,\ln(2\,\pi) - n...
...rac{1}{2\,\sigma^{2}}\,\sum\limits_{i=1}^{n}(x_{i}-\mu)^{2},
\end{displaymath} (3)

mit den partiellen Ableitungen

\begin{displaymath}
\begin{array}{rcl}
\frac{\partial lnL}{\partial \mu} & = &...
...ma^{3}} \sum\limits_{i=1}^{n}(x_{i}-\mu)^{2}.\\
\end{array}
\end{displaymath}

Die Lösung dieses Gleichungssystems ist überraschenderweise der Momentenschätzer. Maximum-Likelihood-Schätzer sind Gerade die letzte Eigenschaft ist von besonderer Bedeutung. Sie erlaubt es nämlich nicht nur den wahrscheinlichsten Wert für den Schätzer anzugeben, sondern auch dessen Verteilung (zumindest asymptotisch). Kennt man aber die Verteilung des Schätzers, so kann man auch Gleichungen für andere Parameter als den Erwartunsgwert herleiten. So kann z.B. die Varianz des Erwartungswertes $V(\Theta)$ geschätzt werden. Damit lassen sich Konfidenzintervalle angeben, in denen der geschätzte Parameter mit einer vorgegebenen Wahrscheinlichkeit liegt. Abschließend sei noch bemerkt, daß die Likelihood-Funktion keine Wahrscheinlichkeitsdichte ist. Das ist sie nur, wenn sie normiert wird. Dann müßte man meines Erachtens aus dieser Likelihood-Funktion die gleiche Information entnehmen können, wie aus einer Bayes'schen Vorgehensweise.
next up previous
Nächste Seite: Bayes-Schätzer Aufwärts: Schätzverfahren Vorherige Seite: Methode der kleinsten Quadrate
ich 2000-01-24