2018-12-26 11:46:15 +01:00
\documentclass [main.tex] { subfiles}
\newcommand \gauss [2] { 1/(#2*sqrt(2*pi))*exp(-((x-#1)^ 2)/(2*#2^ 2))} % Gauss function, parameters mu and sigma
\begin { document}
\section { Introduction}
\paragraph { Objectif} : Présenter quelques élements de la théorue de l'estimation statistique.
\subsection { Problématique}
\begin { figure} [H]
\centering
\begin { tikzpicture}
\node [draw, ellipse] (P) at (0,0) {
\begin { tabular} { c}
paramètres \\ $ \theta = \vect { \theta _ 1 \\ \vdots \\ \theta _ n } $
\end { tabular} } ;
\node [draw, ellipse] (O) at (5,4) {
\begin { tabular} { c}
Observation \\
Y=$ g ( \theta ) $
\end { tabular} } ;
\node [draw, ellipse] (E) at (10,0){
\begin { tabular} { c}
Estimée\\
$ \hat { \theta } = h ( y ) $
\end { tabular} } ;
\draw [->,>=latex] (P) to[out=90, in = 180] (O);
\draw [->,>=latex] (O) to[out=0, in=90] node[near end,left]{
\begin { tabular} { c}
Information à priori\\
+ Critère
\end { tabular} }
(E);
\end { tikzpicture}
\caption { Méthode d'estimation classique}
\end { figure}
Le raisonnement se transpose alors sur la figure suivante:
\begin { figure} [H]
\centering
\begin { tikzpicture}
\draw [->,>=latex] (0,2) node{ $ \bullet $ } node[right](theta){ $ \theta $ } -- node[midway,left]{ $ \tilde { \theta } $ } (-0.5,0) node{ $ \bullet $ } node[right](hat){ $ \hat { \theta } $ } ;
\node [draw,ellipse,fit= (theta) (hat)] (par) { } ;
\node [below=5em] at (par) { \emph { Espace des paramètres} } ;
\node (y) at (5,2) { $ \bullet $ ~$ y $ } ;
\node [draw,ellipse,minimum height=4cm,minimum width=2cm] (obs) at (5,1){ } ;
\node [below=5em] at (obs){ \emph { Espace des observations} } ;
\draw [->,>=latex] (theta) to[out=60, in=120] node[midway,above]{ \emph { observation} } (y);
\draw [->,>=latex] (y) to[out=-120,in=30,bend left] node[midway,below=0.5em]{ \emph { estimation} } (hat);
\end { tikzpicture}
\caption { Raisonnement en espace algébrique}
\end { figure}
On défini les index suivants:
\begin { description}
\item [m] nombre d'expérience réalisée (taille de $ y $ )
\item [n] nombre de paramètres (taille de $ \theta $ )
\end { description}
\paragraph { Estimateurs statistiques}
On observe une réalisation $ y = g ( \theta ) $ où $ \theta $ est une VA. et on détermine $ \hat { \theta } = h ( Y ) $ estimée.
\paragraph { Exemple}
\subparagraph { Exemple 1} $ \Theta $ tension constante.\\
$ y ( t ) = \theta + b ( t ) $ . soit $ y _ i = \theta + b _ i $ \\
On défini donc $ Y $ et $ \Theta $ VA et on a $ Y = A \Theta + B $ -> régression linéaire.
\subparagraph { Exemple 2} filtre $ RC $ $ y ( t ) = ( 1 - e ^ { - t / \tau } ) u ( t ) + b ( t ) $ , $ \Theta = \tau $ . modèle non linéaire, traité en TD.
\subsection { Performance-Qualité d'une estimation}
\begin { prop} [Grandeurs utiles]
\begin { itemize}
\item erreur d'estimation
\[
\tilde { \theta } = \hat { \theta } -\theta
\]
\item moment d'ordre 1:
\[
E_ { Y|\Theta } [\tilde { \theta } ]= E_ { Y|\Theta } [\hat { \theta } ]-\theta
\]
\item Biais moyen :
\[
E[\tilde { \theta } ] = E_ { Y\Theta } [\tilde { \theta } ] = E[\hat { \theta } ]-\theta
\]
\item moment d'ordre 2:
\begin { itemize}
\item covariance de l'erreur d'estimation
\[
C_ { \tilde { \theta } \tilde { \theta } } = E[(\tilde { \theta } -m_ { \tilde { \theta } } )(.)^ T]
\]
\item Corrélation de l'erreur d'estimation
\[
\Gamma _ { \tilde { \theta } \tilde { \theta } } = E[\tilde { \theta } \tilde { \theta } ^ T]
\]
\item Puissance :(Estimateur Quadratique moyen)
\[
P_ { \tilde { \theta } } = E[\| \tilde { \theta } \| ^ 2] = tr(\Gamma _ { \tilde { \theta } \tilde { \theta } } )
\]
\end { itemize}
\end { itemize}
\end { prop}
\subsection { Caractérisation des estimateurs}
\begin { defin}
\begin { itemize}
\item Borne de Cramer Rao:
borne minimale du biais de variance (qui dépend de l'estimateur choisi)
\item Estimateur non biaisé: $ E [ \tilde { \theta } ] = 0 $
\item Estimateur efficace: Borne de Cramer-Rao atteinte.
\item Estimateur consistent: $ E [ \tilde { \theta } ] \xrightarrow [ N _ { obs } \to \infty ] { } 0 $ et $ V [ \tilde { \theta } ] \xrightarrow [ N _ { obs } \to \infty ] { } 0 $
\item Estimateur robuste:\\ Les performances de l'estimateur ne sont pas trop dégradé si on s'écarte un peu des hypothèses sous laquelle l'estimateur a été établi.
\item Complexité de l'estimateur:\\
sur l'o btention des connaissances et mise en oeuvre de l'estimateur.
\end { itemize}
\end { defin}
\section { Théorie classique de l'estimation}
\subsection { Estimateur des moindres carrés}
\begin { defin}
Pour $ Y $ une VA de moyenne $ m _ y = m _ { Y| \theta } $ on défini le critère :
\[
J_ { MC} = (Y-m_ y)^ TM(Y-m_ y)
\]
Avec $ M $ matrice symétrique définie positive
et alors:
\[
\hat { \theta } _ { MC} = \arg \min _ { \theta } J_ { MC} (Y,\theta )
\]
\end { defin}
\subsubsection { Condition nécessaire d'existance}
Si $ J _ { MC } ( y, \theta ) $ est dérivable et pas de contrainte sur $ \theta $ .
\[
\left .\nabla _ J(\theta )\right |_ { \hat { \theta } _ { MC} } = \derivp [J_{MC}] { \theta } = 0 \quad \text { Gradien}
\]
Il faut ensuite vérifié que c'est un minimum absolu:
\[
\nabla ^ 2_ { J} (\theta ) = \derivp [{}^2J_{MC}] { \theta \partial \theta ^ T} > 0 \quad \text { Hessien}
\]
\paragraph { Application} $ Y = A \theta { } + B $ , avec $ B $ une VA.
le critère des moindres carrés est alors :
\[
J_ { MC} = (Y-A\theta -m_ B)^ TM (Y-A\theta -m_ B)
\]
On a une forme quadratique positive car $ A ^ TMA \geq 0 $ . (dans le cas $ > 0 $ on a une CNS sur ce qui suit)
\subparagraph { Méthode 1}
\[
\left .\nabla _ J(\theta )\right |_ { \hat { \theta } _ { MC} } = 0 = -2 A^ TM(Y-A\theta -m_ B)
\]
Donc
\[
A^ TMA \theta = A^ TM(Y-m_ B)
\]
Soit \[
\boxed { \hat { \theta } _ { MC} = \underbrace { (A^ TMA)^ { -1} AM} _ { D} (Y-m_ B)}
\]
On remarque que $ DA = I _ n $ .
\subparagraph { Méthode 2} Pour $ A ^ TMA> 0 $ .
\[
J_ { MC} = \underbracket { (D(Y-m_ B)-\Theta )^ TA^ TMA(D(Y-m_ B)-\theta )} _ { J_ 1(Y,\theta )} + \underbracket { (Y-m_ B)^ T(M-D^ TA^ TMAD)(Y-m_ B)} _ { J_ 2(Y)}
\]
Alors $ \nabla J _ { MC } = 0 \implies J _ 1 = 0 \implies D ( Y - m _ B ) = \hat { \theta } _ { MC } $
\subsubsection { Caractéristique de l'estimateur}
\begin { itemize}
\item Estimateur non biaisé
\begin { align*}
\tilde { \theta } _ { MC} & =\hat { \Theta } -\theta \\
& = D(Y-m_ B)-\theta \\
& = D(B-m_ B)
\end { align*}
Donc $ E [ \hat { \theta _ { MC } } ] = 0 $
\item moment d'ordre 2 :
\[
C_ { \tilde { \theta } \tilde { \theta } } = E[(\tilde { \theta } -m_ { \tilde { \theta } } )(.)^ T] = D E[(B-m_ B)(B-m_ B)^ T]D^ T = D C_ { BB} D^ T
\]
\begin { itemize}
\item Cas MC ordinaire ($ M = I _ n $ )
\[
C_ { \tilde { \theta } \tilde { \theta } } = (A^ TA)^ { -1} A^ TC_ { BB} A(A^ TA)^ { -1}
\]
\item Cas MC pondéré ($ M = C _ { BB } ^ { - 1 } $ )
\[
C_ { \tilde { \theta } \tilde { \theta } } = (A^ TC_ { BB} ^ { -1} A)^ { -1}
\]
\end { itemize}
\item Cas $ \theta $ scalaire $ Y _ i = \theta + B _ i $ donc :
\[
C_ { BB} =
\begin { bmatrix}
\sigma _ 1^ 2 & & 0 \\
& \ddots & \\
0 & & \sigma _ m^ 2
\end { bmatrix} \text { et } A = \vect { 1\\ \vdots \\ 1}
\]
\begin { itemize}
\item Cas MCO : $ A ^ TA = m $
\[
\hat { \theta _ { MC} } =\frac { \Sigma (y_ i-m_ { bi} )} { m} \quad \text { et } \quad \sigma _ { \tilde { \theta } } ^ 2 = \frac { \Sigma \sigma _ i^ 2} { m^ 2}
\]
\item cas MCP pour $ M = C _ { BB } ^ { - 1 } = diag ( \sigma _ 1 ^ { - 2 } , \dots , \sigma _ m ^ { - 2 } ) $
\[
A^ TC_ { BB} A = \sum _ { i=1} ^ m \frac { 1} { \sigma _ i^ 2} \quad \text { donc } \quad \hat { \theta } _ { MCP} = \frac { 1} { \sum \frac { 1} { \sigma _ i^ 2} } \sum _ { } ^ { } \frac { Y_ i-mB_ i} { \sigma _ i^ 2}
\]
\begin { itemize}
\item $ \hat { \theta _ { MCP } } $ défini un barycentre
\item Pour $ \sigma _ i = \sigma $ on a $ M = \sigma I \implies MCO = MCP $
\end { itemize}
\end { itemize}
\item Comparaison MCO et MCP (avec $ M = C _ { BB } $ )
\begin { align*}
\sigma _ { MCO} ^ 2 & \leq \sigma _ { MCP} ^ 2\\
\frac { 1} { \sum \sigma _ i^ { -2} } & \leq \frac { 1} { m^ 2} \sum \sigma _ i^ 2\\
m ^ 2 & \leq \frac { 1} { \sum \sigma _ i^ { -2} } \sum \sigma _ i^ 2
\end { align*}
\end { itemize}
\subsection { Estimateur du maximum de vraisemblance}
\begin { defin}
On considère $ f _ { Y } ( y ) $ ddp de $ y $ paramétrée par $ \theta $ . On a $ f _ { Y| \theta } ( y ) = V ( Y, \theta ) $ . on pose également $ L ( Y, \theta ) = \ln ( V ( Y, \theta ) ) $ .
on défini alors:
\[
\hat { \theta } _ { MV} = \arg \min f_ { Y|\theta } (y) = \arg \min L(Y,\theta )
\]
\end { defin}
GRAPHE
\paragraph { Exemple} Modèle avec bruit additif gaussien.
\begin { prop}
Dans le cas d'un brui Gaussien et pour $ M = C _ { BB } ^ { - 1 } $
\[
\hat { \theta } _ { MCP} =\hat { \theta } _ { MV}
\]
\end { prop}
\paragraph { Remarque}
L'estimateur de MV n'est pas nécessairement efficace mais si un estimateur sans biais existe et est efficace c'est celui-ci.
Si $ m \to \infty $ on montre que le MV est asymptotiquement efficace. (loi des grands nombres)
\section { Théorie générale de l'estimation}
\subsection { Estimateur linéaire en moyenne quadratique (ELMQ)}
\begin { defin}
Un ELMQ fourni une estimée de la forme
\[
\hat { \theta } = HY +C
\]
à partir de l'erreur quadratique moyenne $ E [ \| \tilde { \theta } \| ^ 2 ] = E [ \tilde { \theta } \tilde { \theta } ^ T ] = P _ { \tilde { \theta } } $
\end { defin}
\paragraph { Concept} $ H $ et $ C $ tel que $ P _ { \tilde { \theta } } $ minimal.
\[
(1) \quad \derivp [P_{\tilde{\theta}}] { H} = 0 \quad \text { et } \quad (2)\quad \derivp [P_{\tilde{\theta}}] { C} = 0
\]
\begin { enumerate} [label=\arabic * )]
\item
\begin { prop}
\[
\derivp [P_{\tilde{\theta}}] { H} =2E[HY+C-\theta ] = 2E[\tilde { \theta } ] = 0
\]
L'ELMQ est un estimateur non biaisé.
\end { prop}
et donc :
\begin { align*}
C & = -Hm_ Y+m_ \theta \\
\hat { \theta } & = H(Y-m_ y)+m_ \theta \\
\tilde { \theta } & = H(Y-m_ y) - (\theta -m_ \theta )
\end { align*}
\item
\begin { prop}
\[
\derivp [P_{\tilde{\theta}}] { C} =2E[(HY+C-\theta )Y^ T] = 2E[\tilde { \theta } Y^ T] = 0
\]
$ \tilde { \theta } \perp Y $ quand la puissance est minimale, $ \tilde { \theta } $ et $ Y $ sont décorrélées, on a extrait toute l'information commune.
\end { prop}
2018-12-26 18:48:07 +01:00
\begin { figure} [H]\centering
2018-12-26 11:46:15 +01:00
2018-12-26 18:48:07 +01:00
\begin { tikzpicture}
\draw (-1,0,4.2) -- ++(0,0,-7) -- ++(5,0,0) -- ++(0,0,7) -- ++(-5,0,0)node[above,left]{ \emph {
\begin { tabular} { c}
sous espace \\
d'observation
\end { tabular} } } ;
\draw [->,>=latex] (1,0,3) -- (1,0,1) node[left]{ $ y _ 1 $ } ;
\draw [->,>=latex] (1,0,3) -- (2,0,3) node[below]{ $ y _ 2 $ } ;
\draw [->,>=latex] (1,0,3) -- (2,0,2) node[right]{ $ \hat { \theta } $ } ;
\draw [dashed] (2,0,2) -- node[midway,right]{ $ \tilde { \theta } $ } (2,3,2)node{ $ \times $ } node[above]{ $ \theta $ } ;
\end { tikzpicture}
\caption { Représentation des paramètres}
\end { figure}
2018-12-26 11:46:15 +01:00
De plus :
\begin { align*}
E[\tilde { \theta } Y^ T]& =E[\tilde { \theta } (Y-m_ Y)^ T] \\
& = E[(H(Y-m_ Y)-\theta -m_ \theta )(Y-m_ y)^ T]\\
& = HC_ { yy} -C_ { \theta Y} = 0 \implies H = C_ { \theta Y} C_ { YY} ^ { -1}
\end { align*}
on a donc
\[
\boxed { \hat { \theta } =C_ { \theta Y} C_ { YY} ^ { -1} (Y-m_ Y)+m_ \theta }
\]
\paragraph { Remarque} L'ELMQ nécessite des connaissances du premier et du second ordre sur $ \theta $ et $ Y $ .
\begin { prop}
\[
C_ { \tilde { \theta } \tilde { \theta } } = C_ { \theta \theta } -C_ { \theta Y} C_ { YY} ^ { -1} C_ { Y\theta }
\]
La corrélation entre $ \theta $ et $ Y $ permet de diminuer l'ELMQ.
\end { prop}
\end { enumerate}
\subsection { Estimateur Bayésiens}
\subsubsection { Fonction coût/pénalité}
\begin { defin}
On appelle fonction de coût ou fonction de pénalité une fonction qui mesure l'erreur entrainée par la prise de la valeur $ \hat { \theta } $ pour $ \theta $ .
\[
C(\hat { \theta } ,\theta ) \geq 0 \quad \text { ou encore } \quad C(\tilde { \theta } ) \ge 0
\]
On prendra le plus souvent une \og bonne \fg { } fonction (continue, paire , croissante ...)
\end { defin}
2018-12-26 18:48:07 +01:00
\paragraph { Exemple de coût} on représente les fonctions de coût usuelles:
\begin { figure} [H]
\centering
\begin { tikzpicture}
\begin { axis} [axis lines=middle,
xlabel={ $ \tilde { \theta } $ } ,
ylabel={ $ C ( \tilde { \theta } ) $ } ,
ytick={ 0} ,
ymax=20,
xtick={ -1,1} ,
xticklabels={ $ - \frac { \Delta } { 2 } $ ,$ \frac { \Delta } { 2 } $ } ,
legend pos=outer north east
]
\addplot +[no marks]{ 0.8*x^ 2} ;
\addlegendentry { cout quadratique $ | \tilde { \theta } | ^ 2 $ }
\addplot +[no marks]{ 2*abs(x)} ;
\addlegendentry { cout en valeur absolue $ | \tilde { \theta } | $ }
\addplot +[no marks] coordinates{ (-5,4)(-1,4)(-1,0)(1,0)(1,4)(5,4)} ;
\addlegendentry { cout uniforme $ 1 - \Pi _ \Delta ( \tilde { \theta } ) $ }
\end { axis}
\end { tikzpicture}
\caption { Représentation des fonctions de coût classique}
\end { figure}
2018-12-26 11:46:15 +01:00
\begin { defin}
On appelle estimateur bayésiens l'estimateur qui minimise le coût moyen :
\begin { align*}
E_ { \theta ,Y} [C(\hat { \theta } ,\theta )] & = \int _ { \R ^ { m+n} } C(\hat { \theta } ,\theta )f_ { \theta Y} (\theta ,y)d\theta dy\\ & =\int _ { \R ^ m} \left (\underbrace { \int _ { \R ^ n} C(\hat { \theta } ,\theta )f_ { \theta |Y=y} (\theta )d\theta } _ { E_ { \theta |Y} [C(\hat { \theta } ,\theta )]} \right ) f_ { Y} (y)dy
\end { align*}
On minimise donc $ E _ { \theta |Y } [ C ( \hat { \theta } , \theta ) ] $ à coût conditionnel donné
\[
\hat { \theta } _ { B} = \arg \min _ { \hat { \theta } } E_ { \theta |Y} [C(\hat { \theta } ,\theta )]
\]
\end { defin}
\subsubsection { Estimateur du maximum a posteriori (MAP)}
On considère un cout uniforme.
\begin { defin}
En prenant:
\begin { align*}
E_ { \theta |Y} [C(\hat { \theta } ,\theta )] & = \int _ { \R ^ m} (1-\Pi _ { \Delta } (\tilde { \theta } ))f_ { \theta |Y=y} (\theta )d\theta
& = 1 - \int _ { \hat { \theta } -\Delta /2} ^ { { \hat { \theta } +\Delta /2} } f_ { \theta |Y=y} (\theta )d\theta
& \simeq 1- \Delta ^ nf_ { \theta |Y=y} (\hat { \theta } )
\end { align*}
Soit \[
\hat { \theta } _ { MAP} =\arg \max _ { \theta } f_ { \theta |Y=y} (\theta )
\]
\end { defin}
\paragraph { Lien MAP-MV}
on a $ f _ { \theta |Y = y } ( \theta ) f _ { Y } ( y ) = f _ { \theta Y } ( \theta ,y ) $ . Avec $ f _ \theta ( \theta ) = C ^ { ste } $ quand $ f _ { \theta Y } ( \theta ,y ) $ à une valeur significative (ie $ C _ { \theta \theta } $ grand / $ \sigma _ \theta $ grand ) alors :
\[
\arg \max f_ { \theta |Y=y} (\theta ) \simeq \arg \max f_ { Y|\Theta =\theta } (y)
\]
On considère alors que $ \theta $ est un paramètre aléatoire mais très mal connu. (ddp uniforme sur un interval tres grand, peu d'infos sur $ \theta $ ).
\emph { cf. TD \og file d'attente\fg { } }
\paragraph { Exemple et Application}
On considère $ \theta $ scalaire aléatoire avec: $ Y _ i = \theta + B _ i $ Avec :
$
\begin { cases}
B \hookrightarrow \mathcal { N} (0,C_ { BB} )\\
\Theta \hookrightarrow \mathcal { N} (m_ \theta ,\sigma _ \theta ^ 2) \\
B \perp \Theta
\end { cases} $
\subparagraph { Rappel} MC=MV avec:
$ \begin { cases }
m_ B=0\\
\hat { \theta } _ { MV} =\hat { \theta } _ { MC} = \frac { \sum _ { i=1} ^ { m} Y_ i} { m} \\
E[\hat { \theta } _ { MV} ] = E[\theta ]=m_ \theta \text { et } \sigma _ { \tilde { \theta } _ { MV} } =\frac { \sigma _ B} { m} \\
\end { cases} $
On a donc:
\[
f_ { Y|\theta } (y)=f_ { B} (Y-A\theta ) = \prod _ { i=1} ^ { m} f_ { B_ i} (Y_ i-\theta ) = C_ 1 \exp \left (-\frac { 1} { 2} \frac { \sum (Y_ i-\theta )^ 2} { \sigma _ B^ 2} \right )
\]
Or
\[
f_ { \theta |Y=y} (\theta ) = \frac { f_ { Y|\theta } (y)f_ \theta (\theta )} { f_ Y(y)} = C_ 2 \exp \left (-\frac { 1} { 2} \underbrace { \left [\frac{\sum(Y_i-\theta)^2}{\sigma_B^2}+\frac{(\theta-m_\theta)^2}{\sigma_\theta^2}\right] } _ { J_ { MAP} } \right )
\]
Le critère est ici une forme quadratique, donc :
\[
\hat { \theta } _ { MAP} = \arg \max f_ { \theta |Y=y} (\theta ) = \arg \min J_ { MAP} (\theta ,Y)
\]
Alors on a la CNS :
\[
\deriv [J_{MAP}] { \theta } = 0 = 2 \left [ -\sum_{i=1}^{m}\frac{Y_i-\theta}{\sigma_b^2}+\frac{(\theta-m_\theta)^2}{\sigma_\theta^2}\right]
\]
Soit une expression barycentrique :
\[
\hat { \theta } _ { MAP} = \frac { \frac { m} { \sigma _ B^ 2} \sum _ { } ^ { } \frac { Y_ i} { m} +\frac { m_ \theta } { \sigma _ \theta ^ 2} } { \frac { m} { \sigma _ B^ 2} +\frac { 1} { \sigma _ \theta ^ 2} }
\]
Donc :
\begin { prop}
\[
E[\hat { \theta } _ { MAP} ] = m_ \theta
\]
L'estimateur est non biaisé. De plus :
\[
\sigma _ { \tilde { \theta } _ { MAP} } ^ 2= \frac { 1} { \frac { 1} { \sigma _ { MV} } +\frac { 1} { \sigma _ \theta ^ 2} } <
\begin { cases}
\sigma _ \theta ^ 2 \\
\sigma _ { MV} ^ 2
\end { cases}
\]
On a fait mieux en prenant en compte toutes les sources d'informations.
\end { prop}
\paragraph { Remarque}
\begin { itemize}
\item Si $ \sigma _ \theta >> \sigma _ { MV } $ alors $ \hat { \theta } _ { MAP } \simeq \hat { \theta } _ { MV } $ (ce qui arrive pour $ \sigma _ B $ ou $ m $ grand)
\item Si $ \sigma _ \theta << \sigma _ { MV } $ et $ \hat { \theta } _ { MAP } \simeq m _ \theta $ (l'obersavation apporte peu d'info)
\end { itemize}
\subsubsection { Estimateur en moyenne quadratique (EQM)}
\begin { defin}
On le cout moyen de l'EQM:
\[
C(\hat { \theta } ,\theta ) = (\hat { \theta } -\theta )^ T M (\hat { \theta } -\theta )
\]
Avec $ M> 0 $ .
On cherche a minimiser le cout moyen mais sans contrainte de linéarité avec une matrice de pondération qui peux prendre en compte des facteurs d'echelles ou des unités différentes.
\end { defin}
\paragraph { Etude de l'estimateur} On veut minimiser $ E _ { \Theta |Y } [ C ( \hat { \theta } , \theta ) ] $
\begin { align*}
\nabla _ { \hat { \theta } } E_ { \Theta |Y} [C(\hat { \theta } ,\theta )] & = 0 \\
E_ { \theta |Y} [2M(\hat { \theta } -\theta )] & = 0 \\
2M E_ { \theta |Y} [\underbracket { \hat { \theta } } _ { h(y)} ]-E_ { \theta |Y} [\theta ]& =0 \\
2M(\hat { \theta } -E_ { \theta |Y} [\theta ]) & = 0 \\
\Aboxed { \hat { \theta } _ { MQ} & =E_ { \theta |Y} [\theta ]} \\
& = \int _ { \R ^ n} \theta f_ { \theta |y} (\theta )d\theta = h(Y=y)
\end { align*}
Par conséquent: $ E [ \hat { \theta } _ { MQ } ] = E [ \theta ] $ . on a un estimateur non biaisé.
\paragraph { Remarque}
Si $ f _ { \theta |Y } $ possède un axe de symétrie (ex: gaussienne) :
FIGURE . ($ \hat { \theta } _ { MQ } = \hat { \theta } _ { MAP } $ dans le cas gaussien. Différent avec deux bosses.)
Dans le cas général la contrainte de linéarité pour l'ELMQ conduit à une valeur plus grande qu'avec l'EQM. Dans le cas gaussien: $ \hat { \theta } _ { ELMQ } = \hat { \theta } _ { MQ } $ , mais $ \hat { \theta } _ { MQ } $ nécessite plus de connaissance (ddp).
\subsubsection { Estimateur en valeur absolu}
\begin { defin}
on s'interesse au cas $ n = 1 $ (un paramètre)
On choisit le cout moyen :
\[
C(\hat { \theta } ,\theta ) = |\hat { \theta } -\theta |
\]
Alors :
\[
E_ { \theta |Y} [C(\hat { \theta } ,\theta )] = \int _ { -\infty } ^ { \hat { \theta } } (\hat { \theta } -\theta )f_ { \theta |Y=y} (\theta )d\theta -\int _ { \hat { \theta } } ^ { +\infty } (\hat { \theta } -\theta )f_ { \theta |Y=y} (\theta )d\theta
\]
\end { defin}
Donc :
\begin { align*}
0 =& \nabla _ { \hat { \theta } } E_ { \theta |Y} [C(\hat { \theta } ,\theta )] \\
=& \dots \\
=& \int _ { -\infty } ^ { \hat { \theta } } f_ { \theta |Y=y} (\theta )d\theta -\int _ { \hat { \theta } } ^ { +\infty } f_ { \theta |Y=y} (\theta )d\theta
\end { align*}
\begin { prop}
L'estimée est alors $ \hat { \theta } _ { VA } $ tel que :
\[
\int _ { -\infty } ^ { \hat { \theta } } f_ { \theta |Y=y} (\theta )d\theta = \int _ { \hat { \theta } } ^ { +\infty } f_ { \theta |Y=y} (\theta )d\theta
\]
On parle de médiane a posteriori. Le résultat se généralise pour tout $ n $ .
\end { prop}
\paragraph { Remarque} Dans le cas où $ f _ { \theta |Y = y } ( \theta ) $ possède un axe de symétrie (ex gaussienne) on a :
\[
\hat { \theta } _ { VA} =\hat { \theta } _ { MV} \equals ^ { \stackrel { \max } { \downarrow } } \hat { \theta } _ { MAP}
\]
\paragraph { Exemple} Localisation d'un véhicule / Ellipsoïde de confiance (cf poly).
\section { Conclusion}
\begin { itemize}
\item L'estimateur statistique dépend des connaissances a priori, de la complexité des calculs et de la robustesse attendue.
\item Dans certains cas particuliers/ limites on retrouve des estimateurs intuitifs /empirique.
\item La loi normale joue un rôle important (hypothèses qui se justifie par la loi des grands nombres): les calculs sont simplifiés et conduisent au même résultat.
\end { itemize}
\end { document}