Fonction de vraisemblance

  • par

La fonction de vraisemblance est généralement définie différemment pour les distributions de probabilité discrètes et continues. Une définition générale est également possible, comme discuté ci-dessous.

Distribution de probabilité discrèteEdit

Laissez X {\displaystyle X}

X

être une variable aléatoire discrète avec une fonction de masse de probabilité p {\displaystyle p}.

p

dépendant d’un paramètre θ {\displaystyle \theta }.

\theta

. Alors la fonction L ( θ ∣ x ) = p θ ( x ) = P θ ( X = x ) , {\displaystyle {\mathcal {L}}(\theta \mid x)=p_{\theta }(x)=P_{\theta }(X=x),

{\displaystyle {\mathcal {L}(\theta \mid x)=p_{\theta }(x)=P_{\theta }(X=x),}

considéré comme une fonction de θ {\displaystyle \theta }

\theta

, est la fonction de vraisemblance, étant donné le résultat x {\displaystyle x}

x

de la variable aléatoire X {\displaystyle X}

X

. Parfois la probabilité de « la valeur x {\displaystyle x}

x

de X {\displaystyle X}

X

pour la valeur du paramètre θ {\displaystyle \theta }.

\theta

 » s’écrit P(X = x | θ) ou P(X = x ; θ). L ( θ ∣ x ) {\displaystyle {\mathcal {L}}(\theta \mid x)}

{displaystyle {\mathcal {L}}(\theta \mid x)}

ne doit pas être confondu avec p ( θ ∣ x ) {\displaystyle p(\theta \mid x)}.

{\displaystyle p(\theta \mid x)}

; la vraisemblance est égale à la probabilité qu’un résultat particulier x {\displaystyle x}

x

soit observé lorsque la vraie valeur du paramètre est θ {\displaystyle \theta }.

\theta

, et donc elle est égale à une densité de probabilité sur le résultat x {\displaystyle x}

x

, et non sur le paramètre θ {\displaystyle \theta }.

\theta

.

ExempleEdit

Figure 1. La fonction de vraisemblance ( p H 2 {\displaystyle p_{\text{H}}^{2}}

p_\text{H}^2

) pour la probabilité qu’une pièce atterrisse face en haut (sans connaissance préalable de la loyauté de la pièce), étant donné que nous avons observé HH.

Figure 2. La fonction de vraisemblance ( p H 2 ( 1 – p H ) {\displaystyle p_{\text{H}}^{2}(1-p_{\text{H}})}.

{{displaystyle p_{\text{H}}^{2}(1-p_{\text{H}})}

) pour la probabilité qu’une pièce de monnaie tombe face en haut (sans connaissance préalable de l’équité de la pièce), étant donné que nous avons observé HHT.

Considérons un modèle statistique simple de pile ou face : un seul paramètre p H {\displaystyle p_{\text{H}}}.

p_\text{H}

qui exprime l' »équité » de la pièce. Le paramètre est la probabilité qu’une pièce de monnaie tombe face en haut (« H ») lorsqu’elle est lancée. p H {\displaystyle p_{\text{H}}}

p_\text{H}

peut prendre n’importe quelle valeur comprise entre 0,0 et 1,0. Pour une pièce parfaitement juste, p H = 0,5 {\displaystyle p_{\text{H}}=0,5}

p_{\text{H}} = 0,5

.

Imaginez que vous tirez deux fois à pile ou face une pièce de monnaie équitable et que vous observez la donnée suivante : deux têtes en deux lancers ( » HH « ). Si l’on suppose que chaque tirage successif de la pièce est aléatoire, la probabilité d’observer HH est

P ( HH ∣ p H = 0,5 ) = 0,5 2 = 0,25. {\displaystyle P({\text{HH}}\mid p_{\text{H}}=0.5)=0.5^{2}=0.25.}

{{displaystyle P({\text{HH}}\mid p_{\text{H}}=0,5)=0,5^{2}=0,25.}

Hence, étant donné les données observées HH, la probabilité que le paramètre du modèle p H {\displaystyle p_{\text{H}}

p_\text{H}

égale 0,5 est de 0,25. Mathématiquement, cela s’écrit L ( p H = 0,5 ∣ HH ) = 0,25. {\displaystyle {\mathcal {L}(p_{\text{H}}=0.5\mid {\text{HH}})=0.25.}

{{displaystyle {\mathcal {L}(p_{\text{H}}=0.5\mid {\text{HH}})=0.25.}

Ce n’est pas la même chose que de dire que la probabilité que p H = 0.5 {\displaystyle p_{\text{H}}=0.5}

p_\text{H} = 0,5

, étant donné l’observation HH, est de 0,25. (Pour cela, on pourrait appliquer le théorème de Bayes, qui implique que la probabilité postérieure est proportionnelle à la probabilité multipliée par la probabilité antérieure).

Supposons que la pièce n’est pas une pièce juste, mais qu’elle a plutôt p H = 0,3 {\displaystyle p_{\text{H}}=0,3}.

{\displaystyle p_{\text{H}}=0,3}

. Alors la probabilité d’obtenir deux têtes est P ( HH ∣ p H = 0,3 ) = 0,3 2 = 0,09. {\displaystyle P({\text{HH}}\mid p_{\text{H}}=0.3)=0.3^{2}=0.09.}

{\displaystyle P({\text{HH}}\mid p_{\text{H}}=0.3)=0.3^{2}=0.09.}

Hence

L ( p H = 0.3 ∣ HH ) = 0.09. {\displaystyle {\mathcal {L}}(p_{\text{H}}=0.3\mid {\text{HH}})=0.09.}

{{displaystyle {\mathcal {L}(p_{\text{H}}=0.3\mid {\text{HH}})=0.09.}

Plus généralement, pour chaque valeur de p H {\displaystyle p_{\text{H}}

p_\text{H}

, on peut calculer la vraisemblance correspondante. Le résultat de ces calculs est représenté sur la figure 1.

Dans la figure 2, l’intégrale de la vraisemblance sur l’intervalle est de 1/3. Cela illustre un aspect important des vraisemblances : les vraisemblances n’ont pas besoin de s’intégrer (ou de s’additionner) à 1, contrairement aux probabilités.

Distribution de probabilité continueEdit

Laissez X {\displaystyle X}

X

être une variable aléatoire suivant une distribution de probabilité absolument continue avec une fonction de densité f {\displaystyle f}.

f

dépendant d’un paramètre θ {\displaystyle \theta }.

\theta

. Alors la fonction L ( θ ∣ x ) = f θ ( x ) , {\displaystyle {\mathcal {L}}(\theta \mid x)=f_{\theta }(x),\,}

{{displaystyle {\mathcal {L}}(\theta \mid x)=f_{\theta }(x),\,}

considéré comme une fonction de θ {\displaystyle \theta }

\theta

, est la fonction de vraisemblance (de θ {\displaystyle \theta }).

\theta

, étant donné le résultat x {\displaystyle x}

x

de X {\displaystyle X}

X

). Parfois, la fonction de densité pour  » la valeur x {\displaystyle x}

x

de X {\displaystyle X}

X

pour la valeur du paramètre θ {\displaystyle \theta }

\theta

 » s’écrit f ( x ∣ θ ) {\displaystyle f(x\mid \theta )}

{\displaystyle f(x\mid \theta )}

. L ( θ ∣ x ) {\displaystyle {\mathcal {L}}(\theta \mid x)}

{displaystyle {\mathcal {L}}(\theta \mid x)}

ne doit pas être confondu avec f ( θ ∣ x ) {\displaystyle f(\theta \mid x)}.

{\displaystyle f(\theta \mid x)}

; la vraisemblance est égale à la densité de probabilité à une issue particulière x {\displaystyle x}

x

lorsque la vraie valeur du paramètre est θ {\displaystyle \theta }.

\theta

, et donc elle est égale à une densité de probabilité sur le résultat x {\displaystyle x}

x

, et non sur le paramètre θ {\displaystyle \theta }.

\theta

.

En généralEdit

Dans la théorie des probabilités basée sur la mesure, la fonction de densité est définie comme la dérivée de Radon-Nikodym de la distribution de probabilité par rapport à une mesure dominante commune. La fonction de vraisemblance est cette densité interprétée comme une fonction du paramètre (éventuellement un vecteur), plutôt que des résultats possibles. Cela fournit une fonction de vraisemblance pour tout modèle statistique avec toutes les distributions, qu’elles soient discrètes, absolument continues, un mélange ou autre chose. (Les vraisemblances ne seront comparables, par exemple pour l’estimation des paramètres, que si elles sont des dérivées de Radon-Nikodym par rapport à la même mesure dominante.)

La discussion ci-dessus sur la vraisemblance avec des probabilités discrètes en est un cas particulier utilisant la mesure de comptage, qui rend la probabilité de toute issue unique égale à la densité de probabilité pour cette issue.

Sous réserve d’aucun événement (aucune donnée), la probabilité et donc la vraisemblance est de 1. Tout événement non trivial aura une vraisemblance inférieure.

Fonction de vraisemblance d’un modèle paramétréModification

Parmi de nombreuses applications, nous en considérons ici une d’une large importance théorique et pratique. Étant donné une famille paramétrée de fonctions de densité de probabilité (ou de fonctions de masse de probabilité dans le cas de distributions discrètes)

x ↦ f ( x ∣ θ ) , {\displaystyle x\mapsto f(x\mid \theta ),\!}.

x\mapsto f(x\mid\theta), \!

où θ {\displaystyle \theta }

\theta

est le paramètre, la fonction de vraisemblance est θ ↦ f ( x ∣ θ ) , {\displaystyle \theta \mapsto f(x\mid \theta ),\!}.

\theta\mapsto f(x\mid\theta), \!

écrit

L ( θ ∣ x ) = f ( x ∣ θ ) , {\displaystyle {\mathcal {L}(\theta \mid x)=f(x\mid \theta ),\!}

\mathcal{L}(\theta \mid x)=f(x\mid\theta), \!

où x {\displaystyle x}

x

est le résultat observé d’une expérience. En d’autres termes, lorsque f ( x ∣ θ ) {\displaystyle f(x\mid \theta )}

{{displaystyle f(x\mid \theta )}

est considérée comme une fonction de x {\displaystyle x}

x

avec θ {\displaystyle \theta }

\theta

fixe, il s’agit d’une fonction de densité de probabilité, et lorsqu’on la considère comme une fonction de θ {\displaystyle \theta }.

\theta

avec x {\displaystyle x}

x

fixé, c’est une fonction de vraisemblance.

Ce n’est pas la même chose que la probabilité que ces paramètres soient les bons, compte tenu de l’échantillon observé. Tenter d’interpréter la vraisemblance d’une hypothèse compte tenu des preuves observées comme la probabilité de l’hypothèse est une erreur courante, aux conséquences potentiellement désastreuses. Voir le sophisme du procureur pour un exemple de cela.

D’un point de vue géométrique, si nous considérons f ( x ∣ θ ) {\displaystyle f(x\mid \theta )}.

{{displaystyle f(x\mid \theta )}

comme une fonction de deux variables, alors la famille des distributions de probabilité peut être vue comme une famille de courbes parallèles à l’axe x {\displaystyle x}

x

, tandis que la famille des fonctions de vraisemblance correspond aux courbes orthogonales parallèles à l’axe θ {\displaystyle \theta }

\theta

-axe.

Likelihoods for continuous distributionsEdit

L’utilisation de la densité de probabilité pour spécifier la fonction de vraisemblance ci-dessus se justifie comme suit. Étant donné une observation x j {\displaystyle x_{j}}

x_{j}

, la vraisemblance pour l’intervalle {\displaystyle }

{\displaystyle }

, où h > 0 {\displaystyle h>0}

{\displaystyle h0}

est une constante, est donnée par L ( θ ∣ x ∈ ) {\displaystyle {\mathcal {L}}(\theta \mid x\in )}.

{\displaystyle {\mathcal {L}}(\theta \mid x\in )}

. Observons que argmax θ L ( θ ∣ x ∈ ) = argmax θ 1 h L ( θ ∣ x ∈ ) {\displaystyle \operatorname {argmax} _{\theta }{\mathcal {L}}(\theta \mid x\in )={\operatorname {argmax} _{\theta }{\frac {1}{h}}{\mathcal {L}}(\theta \mid x\in )}

{\displaystyle \operatorname {argmax} _{\theta }{\mathcal {L}}(\theta \mid x\in )=\operatorname {argmax} _{\theta }{\frac {1}{h}}{\mathcal {L}}(\theta \mid x\in )}

,

puisque h {\displaystyle h}

h

est positif et constant. Parce qu’argmax θ 1 h L ( θ ∣ x ∈ ) = argmax θ 1 h Pr ( x j ≤ x ≤ x j + h ∣ θ ) = argmax θ 1 h ∫ x j x j + h f ( x ∣ θ ) d x , {\displaystyle \operatorname {argmax} _{\theta }{\frac {1}{h}}{\mathcal {L}}(\theta \mid x\in )=\operatorname {argmax} _{\theta }{\frac {1}{h}}\Pr(x_{j}\leq x\leq x_{j}+h\mid \theta )=\operatorname {argmax} _{\theta }{\frac {1}{h}}\int _{x_{j}}^{x_{j}+h}f(x\mid \theta )\,dx,}

{\displaystyle \operatorname {argmax} _{\theta }{\frac {1}{h}}{\mathcal {L}}(\theta \mid x\in )=\operatorname {argmax} _{\theta }{\frac {1}{h}}\Pr(x_{j}\leq x\leq x_{j}+h\mid \theta )=\operatorname {argmax} _{\theta }{\frac {1}{h}}\int _{x_{j}}^{x_{j}+h}f(x\mid \theta )}\,}

où f ( x ∣ θ ) {\displaystyle f(x\mid \theta )}

{\displaystyle f(x\mid \theta )}

est la fonction de densité de probabilité, il s’ensuit que argmax θ L ( θ ∣ x ∈ ) = argmax θ 1 h ∫ x j x j + h f ( x ∣ θ ) d x {\displaystyle \operatorname {argmax} _{\theta }{\mathcal {L}}(\theta \mid x\in )=\operatorname {argmax} _{\theta }{\frac {1}{h}}\int _{x_{j}}^{x_{j}+h}f(x\mid \theta )\,dx}

{\displaystyle \operatorname {argmax} _{\theta }{\mathcal {L}}(\theta \mid x\in )=\operatorname {argmax} _{\theta }{\frac {1}{h}}\int _{x_{j}}^{x_{j}+h}f(x\mid \theta )\,dx}

.

Le premier théorème fondamental du calcul et la règle de l’Hôpital fournissent ensemble que

lim h → 0 + 1 h ∫ x j x j + h f ( x ∣ θ ) d x = lim h → 0 + d d h ∫ x j x j + h f ( x ∣ θ ) d x d h d h = lim h → 0 + f ( x j + h ∣ θ ) 1 = f ( x j ∣ θ ) . {\displaystyle {\begin{aligned}&\lim _{h\to 0^{+}}{\frac {1}{h}}\int _{x_{j}}^{x_{j}+h}f(x\mid \theta )\,dx=\lim _{h\to 0^{+}{\frac {{\frac {d}{dh}}\int _{x_{j}}^{x_{j}+h}f(x\mid \theta )\,dx}{\frac {dh}{dh}}\={}&\lim _{h\à 0^{+}{\frac {f(x_{j}+h\mid \theta )}{1}}=f(x_{j}\mid \theta ).\end{aligned}}

{\displaystyle {\begin{aligned}\lim _{h\to 0^{+}}{\frac {1}{h}}\int _{x_{j}}^{x_{j}+h}f(x\mid \theta )\,dx=\lim _{h\à 0^{+}}{\frac {{\frac {d}{dh}}\int _{x_{j}}^{x_{j}+h}f(x\mid \theta )\,dx}{\frac {dh}{dh}}}\\={}lim _{h\à 0^{+}}{\frac {f(x_{j}+h\mid \theta )}{1}}=f(x_{j}\mid \theta ).\end{aligned}}

Alors

argmax θ L ( θ ∣ x j ) = argmax θ ) ] = argmax θ = argmax θ f ( x j ∣ θ ) . {\displaystyle {\begin{aligned}&\Notre nom d’opérateur {argmax} _{\theta }{\mathcal {L}}(\theta \mid x_{j})={\operatorname {argmax} _{\theta }\left)\right]\={}&\operatorname {argmax} _{\theta }\left=\N-operatorname {argmax} _{\theta }f(x_{j}\mid \theta ).\end{aligned}}}

{\displaystyle {\begin{aligned}\operatorname {argmax} _{\theta }{\mathcal {L}}(\theta \mid x_{j})=\operatorname {argmax} _{\theta }\N{\i1}gauche)}]\N-{\i1}opérateur {argmax} _{\theta }\left=\operatorname {argmax} (gauche) _{\theta }f(x_{j}\mid \theta ).\end{aligned}}

C’est pourquoi,

argmax θ L ( θ ∣ x j ) = argmax θ f ( x j ∣ θ ) , {\displaystyle \operatorname {argmax} _{\theta }{\mathcal {L}}(\theta \mid x_{j})=\operatorname {argmax} _{\theta }f(x_{j}\mid \theta ),\!}

{\displaystyle \operatorname {argmax} _{\theta }{\mathcal {L}}(\theta \mid x_{j})=\operatorname {argmax} _{\theta }f(x_{j}\mid \theta ),\!}

et donc maximiser la densité de probabilité en x j {\displaystyle x_{j}}.

x_{j}

revient à maximiser la vraisemblance de l’observation spécifique x j {\displaystyle x_{j}}.

x_{j}

.

Vraisemblances pour des distributions mixtes continues-discrètesModification

Ce qui précède peut être étendu de manière simple pour permettre de considérer des distributions qui contiennent à la fois des composantes discrètes et continues. Supposons que la distribution consiste en un certain nombre de masses de probabilité discrètes p k θ {\displaystyle p_{k}\theta }.

{\displaystyle p_{k}\theta }

et d’une densité f ( x ∣ θ ) {\displaystyle f(x\mid \theta )}.

{\displaystyle f(x\mid \theta )}

, où la somme de tous les p {\displaystyle p}

p

‘s ajoutée à l’intégrale de f {\displaystyle f}

f

est toujours égale à un. En supposant qu’il est possible de distinguer une observation correspondant à l’une des masses de probabilité discrètes de celle qui correspond à la composante densité, la fonction de vraisemblance pour une observation issue de la composante continue peut être traitée de la manière indiquée ci-dessus. Pour une observation issue de la composante discrète, la fonction de vraisemblance pour une observation issue de la composante discrète est simplement L ( θ ∣ x ) = p k ( θ ) , {\displaystyle {\mathcal {L}}(\theta \mid x)=p_{k}(\theta ),\!}.

\mathcal{L}(\theta \mid x )=p_k(\theta), \!

où k {\displaystyle k}

k

est l’indice de la masse de probabilité discrète correspondant à l’observation x {\displaystyle x}

x

, car maximiser la masse de probabilité (ou probabilité) en x {\displaystyle x}

x

revient à maximiser la vraisemblance de l’observation spécifique.

Le fait que la fonction de vraisemblance puisse être définie d’une manière qui inclut des contributions qui ne sont pas commensurables (la densité et la masse de probabilité) provient de la façon dont la fonction de vraisemblance est définie jusqu’à une constante de proportionnalité, où cette « constante » peut changer avec l’observation x {\displaystyle x}

x

, mais pas avec le paramètre θ {\displaystyle \theta }.

\theta

.

Conditions de régularitéModification

Dans le contexte de l’estimation des paramètres, on suppose généralement que la fonction de vraisemblance obéit à certaines conditions, appelées conditions de régularité. Ces conditions sont supposées dans diverses preuves impliquant des fonctions de vraisemblance, et doivent être vérifiées dans chaque application particulière. Pour l’estimation par maximum de vraisemblance, l’existence d’un maximum global de la fonction de vraisemblance est de la plus haute importance. Selon le théorème des valeurs extrêmes, il suffit que la fonction de vraisemblance soit continue dans un espace de paramètres compact pour que l’estimateur du maximum de vraisemblance existe. Si l’hypothèse de continuité est généralement satisfaite, l’hypothèse de compacité de l’espace des paramètres ne l’est souvent pas, car les limites des vraies valeurs des paramètres sont inconnues. Dans ce cas, la concavité de la fonction de vraisemblance joue un rôle clé.

Plus précisément, si la fonction de vraisemblance est deux fois continûment différentiable sur l’espace des paramètres à k dimensions Θ {\displaystyle \Theta }.

\Theta

supposé être un sous-ensemble connecté ouvert de R k {\displaystyle \mathbb {R} ^{k}}.

{{displaystyle \mathbb {R} ^{k}}

, il existe un unique maximum θ ^ ∈ Θ {\displaystyle {\hat {\theta }}\in \Theta }.

{{displaystyle {\hat {\theta }}\in \Theta }

si H ( θ ) = { ∂ 2 L ∂ θ i ∂ θ j } {\displaystyle \mathbf {H} (\theta )=\left\{\frac {\{{partial ^{2}L}{\partial \theta _{i}\partial \theta _{j}}}\right\}}

{\displaystyle \mathbf {H} (\theta )=\left\{\frac {\partial ^{2}L}{\partial \theta _{i}\partial \theta _{j}}}}\right\}

est définie négativement à chaque θ ∈ Θ {\displaystyle \theta \in \Theta }

\theta \in \Theta

pour laquelle le gradient ∇ L = { ∂ L / ∂ θ i } {\displaystyle \nabla L=\left\{\partial L/\partial \theta _{i}\right\}}

{{displaystyle \nabla L=\left\{\partial L/\partial \theta _{i}\right}}

disparaît, et lim θ → ∂ Θ L ( θ ) = 0 {\displaystyle \lim _{\theta \to \partial \Theta }L(\theta )=0}

{displaystyle \lim _{\theta \to \partial \Theta }L(\theta )=0}

, c’est-à-dire que la fonction de vraisemblance s’approche d’une constante sur la frontière de l’espace des paramètres, qui peut inclure les points à l’infini si Θ{displaystyle \Theta }

\Theta

est non borné.

Mäkeläinen et al. prouvent ce résultat en utilisant la théorie de Morse tout en faisant appel de manière informelle à une propriété de col de montagne. Mascarenhas reformule leur preuve en utilisant le théorème du col de montagne.

Dans les preuves de cohérence et de normalité asymptotique de l’estimateur du maximum de vraisemblance, des hypothèses supplémentaires sont faites sur les densités de probabilité qui forment la base d’une fonction de vraisemblance particulière. Ces conditions ont été établies pour la première fois par Chanda. En particulier, pour presque tous les x {\displaystyle x}

x

, et pour tous les θ ∈ Θ {\displaystyle \theta \in \Theta }.

\theta \in \Theta

, ∂ log f ∂ θ r , ∂ 2 log f ∂ θ r ∂ θ s , ∂ 3 log f ∂ θ r ∂ θ s ∂ θ t {\displaystyle {\frac {\partial \log f}{\partial \theta _{r}}\,,\quad {\frac {\partial ^{2}\log f}{partial \theta _{r}\partial \theta _{s}}\,,\quad {\frac {\partial ^{3}\log f}{partial \theta _{r}\partial \theta _{s}\partial \theta _{t}}}}

{\displaystyle {\frac {\partial \log f}{\partial \theta _{r}}\,,\quad {\frac {\partial ^{2}\log f}{\partial \theta _{r}\partial \theta _{s}}\,,\quad {\frac {\partial ^{3}\log f}{\partial \theta _{r}\partial \theta _{s}\partial \theta _{t}}}}

existe pour tous r , s , t = 1 , 2 , … , k {\displaystyle r,s,t=1,2,\ldots ,k}

{\displaystyle r,s,t=1,2,\ldots ,k}

afin d’assurer l’existence d’une expansion de Taylor. Deuxièmement, pour presque tous les x {\displaystyle x}

x

et pour tout θ ∈ Θ {\displaystyle \theta \in \Theta }

\theta \in \Theta

il doit être que | ∂ f ∂ θ r | < F r ( x ) , | ∂ 2 f ∂ θ r ∂ θ s | < F r s ( x ) , | ∂ 3 f ∂ θ r ∂ θ s ∂ θ t | < H r s t ( x ) {\displaystyle \left|{\frac {\partial f}{\partial \theta _{r}}}<F_{r}(x)\,,\quad \left|{\frac {\partial ^{2}f}{\partial \theta _{r}\partial \theta _{s}}\right|<F_{rs}(x)\,,\quad \left|{\frac {\partial ^{3}f}{\partial \theta _{r}\partial \theta _{s}\partial \theta _{t}}\right|<H_{rst}(x)}

{\displaystyle \left|{\frac {\partial f}{\partial \theta _{r}}\right||F_{r}(x)\,,\quad \left|{\frac {\partial ^{2}f}{\partial \theta _{r}\partial \theta _{s}}\right|F_{rs}(x)\,,\quad \left|{\frac {\partial ^{3}f}{\partial \theta _{r}\partial \theta _{s}\partial \theta _{t}}\right|H_{rst}(x)}

où H {\displaystyle H}

H

est telle que ∫ – ∞ ∞ H r s t ( z ) d z ≤ M < ∞ {\displaystyle \int _{-\{infty }^{\infty }H_{rst}(z)\mathrm {d} z\leq M<\infty }

{\displaystyle \int _{-\infty }^{\infty }H_{rst}(z)\mathrm {d} z\leq M\infty }

. Ce caractère borné des dérivées est nécessaire pour permettre la différenciation sous le signe de l’intégrale. Et enfin, on suppose que la matrice d’information, I ( θ ) = ∫ – ∞ ∞ ∂ log f ∂ θ r ∂ log f ∂ θ s f d z {\displaystyle \mathbf {I} (\theta )=\int _{-\infty }^{\infty }{\frac {\partial \log f}{\partial \theta _{r}}{\frac {\partial \log f}{\partial \theta _{s}}f\mathrm {d} z}

{\displaystyle \mathbf {I} (\theta )=\int _{-\infty }^{\infty }{\frac {\partial \log f}{\partial \theta _{r}}{\frac {\partial \log f}{\partial \theta _{s}}f\mathrm {d} z}

est définie positivement et | I ( θ ) | {\displaystyle \left|\mathbf {I} (\theta )\right|}

{\displaystyle \left|\mathbf {I} (\theta )\right}

est fini. Cela garantit que le score a une variance finie.

Les conditions ci-dessus sont suffisantes, mais pas nécessaires. C’est-à-dire qu’un modèle qui ne remplit pas ces conditions de régularité peut avoir ou non un estimateur de maximum de vraisemblance des propriétés mentionnées ci-dessus. En outre, dans le cas d’observations non indépendantes ou non distribuées de manière identique, il peut être nécessaire de supposer des propriétés supplémentaires.

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *