Exercice 1
On observe les variables aléatoires \(Y_i, i=1,\ldots,n\), qu’on considère indépendantes et identiquement distribuées (\(iid\)) suivant une loi Normale de paramètres \(\theta\) et \(\sigma^2\). On s’intéresse icià la moyenne des \(Y_i\). Pour rappel, la densité de la loi de Normale est : \(f_{\theta,\sigma^2}(y)=\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(y-\theta)^2}{2\sigma^2}}\) et on considérera la variance \(\sigma^2\) connue.
- Écrire le modèle bayésien considéré.
Question d’intérêt
Elle porte ici sur la moyenne des \(Y_i\).Modèle d’échantillonnage \[Y_i\overset{iid}{\sim} \mathcal{N}(\theta, \sigma^2)\] et donc \(\displaystyle f_{\sigma^2}(y_i|\theta) = \frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(y_i-\theta)^2}{2\sigma^2}}\)
loi(s) a priori \[\theta\sim\pi(\theta)\] (car \(\sigma^2\) est considérée connue).
- Montrer que la log-vraisemblance de l’échantillon \(y_i, i=1,\ldots,n\) peut s’écrire sous la forme :
\[\log f(\boldsymbol{y}|\theta) = h(\boldsymbol{y},\sigma)-\frac{\left(\bar y_{(n)} -\theta\right)^2}{2\sigma^2/n}\]
faisant apparaître \(\bar{y}_{(n)}=\frac{1}{n} \sum_{i=1}^n y_i\) sous la forme \(\left(\theta-\bar{y}_{(n)}\right)^2\).
Attention : on rappelle qu’une somme de nombre au carré n’est pas égale au carré de la somme de ces nombres…
La vraisemblance \(\mathcal{L}\) s’écrit : \[\begin{align*} \mathcal{L}(y_1,\dots,y_n|\theta) = f(\boldsymbol{y}|\theta) & = \prod_{i=1}^n f_{\sigma^2}(y_i|\theta)\\ & = \prod_{i=1}^n \frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(y_i-\theta)^2}{2\sigma^2}}\\ & = \left(\frac{1}{\sqrt{2\pi}\sigma}\right)^n e^{-\frac{1}{2\sigma^2}\sum_{i=1}^n(y_i-\theta)^2} \end{align*}\]
La log-vraisemblance \(\ell\) s’écrit donc : \[\begin{align*} \ell(y_1,\dots,y_n|\theta) = \log f(\boldsymbol{y}|\theta) & = n\left(\frac{1}{\sqrt{2\pi}\sigma}\right) -\frac{1}{2\sigma^2}\sum_{i=1}^n(y_i-\theta)^2\\ & = n\log\left(\frac{1}{\sqrt{2\pi}\sigma}\right) - \frac{1}{2\sigma^2}\sum_{i=1}^n y_i^2 + 2\frac{1}{2\sigma^2}\theta\sum_{i=1}^ny_i - n\frac{1}{2\sigma^2} \theta^2\\ & = n\log\left(\frac{1}{\sqrt{2\pi}\sigma}\right) - \frac{1}{2\sigma^2}\sum_{i=1}^n y_i^2 + 2\frac{n}{2\sigma^2}\theta\bar{y}_{(n)} - \frac{n}{2\sigma^2} \theta^2 \\ & \phantom{ = }+ \frac{n}{2\sigma^2}\bar{y}_{(n)}^2 - \frac{n}{2\sigma^2}\bar{y}_{(n)}^2\\ & = n\log\left(\frac{1}{\sqrt{2\pi}\sigma}\right) - \frac{1}{2\sigma^2}\sum_{i=1}^n y_i^2 + \frac{n}{2\sigma^2}\bar{y}_{(n)}^2 - \frac{n}{2\sigma^2}(\bar{y}_{(n)} - \theta)^2 \end{align*}\]
La log-vraisemblance se simplifie finalement bien en : \[\log f(\boldsymbol{y}|\theta) = h(\boldsymbol{y},\sigma)-\frac{\left(\bar y_{(n)} -\theta\right)^2}{2\sigma^2/n}\] où \(h(\boldsymbol{y},\sigma)\) ne dépend pas de \(\theta\).
- Astuce n°1 : multiplier par \(n\) au numérateur et au dénominateur
- Astuce n°2 : introduire le terme manquant et son opposé pour retrouvé l’identité remarquable (ce qui reste ne dépend pas de \(\theta\))
- Écrire la dérivée première et seconde de la log-vraisembance par rapport à \(\theta\) et l’information de Fisher pour \(\theta\).
La dérivée seconde de \(\log f(\boldsymbol{y}|\theta)\) par rapport à \(\theta\) est: \(-n/\sigma^2\).
Cette quantité ne dépend pas de \(\boldsymbol{y} =\{y_1,\dots,y_n\}\), on obtient donc directement : \(I(\theta)=n/\sigma^2\).
- Quel est la loi a priori de Jeffrey pour \(\theta\)? Est-ce qu’il définit densité propre ou impropre ?
La loi a priori de Jeffrey est alors simplement : \(\pi(\theta)\propto \sqrt{n}/\sigma\).
Comme cette valeur ne dépend pas de \(\theta\), il s’agit d’une distribution uniforme impropre : \[\int_\Theta\pi(\theta)d\theta \propto \int_{-\infty}^{+\infty}\dfrac{\sqrt{n}}{\sigma} d\theta = \infty\]
- En prenant utilisant cette loi a priori, écrire le numérateur de la loi a posteriori de \(\theta\). En déduire la distribution a posteriori de \(\theta\).
Puisque la loi a priori de Jeffrey correspond à la loi Uniforme, d’après le théorème de Bayes, le numérateur de la loi a posteriori est simplement la vraisemblance : \[\begin{align*} p(\theta|\boldsymbol{y}) &\propto f(\boldsymbol{y}|\theta) \pi(\theta)\\ & \propto e^{-\frac{(\bar y_{(n)}-\theta)^2}{2\sigma^2/n}} \end{align*}\]
On en déduit, par identification, que la distribution a posteriori de \(\theta\) est une normale d’espérance \(\bar y_{(n)}\) et de variance \(\sigma^2/n\) !
On remarque que ce résultat explicite illustre bien la concentration de la loi a posteriori au fur et à mesure que le nombre d’observations augmente.
- On observe un deuxième échantillon \(\{y_i\}, i=n+1,\ldots,2n\) \(iid\) de même loi que le premier échantillon. Quelle est la distribution a posteriori de \(\theta\) en prenant un a priori uniforme ? Faire le calcul de deux façons:
- en considérant que l’on a un échantillon \(iid\) de taille \(2n\)
Considérant que l’échantillon est de taille \(2n\) il suffit d’appliquer le même raisonnement que précédemment : la distribution a posteriori est donc normale, d’espérance \(\overline{y}_{(2n)}\) (la moyenne calculée sur les deux échantillons !), et de variance \(\sigma^2/2n\)
- en utilisant la distribution a posteriori obtenue pour le premier échantillon comme distribution a priori pour le second échantillon (Bayésien séquentiel).
La loi a priori pour l’analyse du second échantillon est, toujours d’après le résultat précédent \(\mathcal{N}(\mu, s^2)\), avec \(\mu=\bar y_{(n)}\) et \(s^2=\sigma^2/n\) (c’est-à-dire la loi a posteriroi du premier échantillon devient la loi a priori pour l’analyse du second.
En appliquant à nouveau le théorème de Bayes pour calculer le numérateur de la distribution a posteriori du second échantillon, on identifie à nouveau est une loi normale, dont l’espérance est \((\bar y_{(n)}+ \bar y_{(n+1:2n)})/2=\bar y_{(2n)}\) (où \(\bar y_{(n+1:2n)}= \dfrac{1}{n}\sum_{i=n+1}^{2n}y_i\)), et de variance \(\sigma^2/2n\).
NB: ne pas oublier d’introduire le 2 au dénominateur de la somme pour bien avoir la moyenne sur \(2n\) lors du calcul