Tests de rangs - Travail d'Etude et de Recherche

Statistiques d'ordre

a) définitions
Pour un échantillon img donné, à valeurs réelles, d'une loi de probabilité P : on appelle statistique d'ordre le vecteur img de ses valeurs ordonnées croissantes.

Exemple :

img

Pour assurer une bijection entre x et sa statistique d'ordre, il faut que toutes les valeurs de x soient bien distinctes; cette condition peut en fait être assurée par la continuité de la fonction de répartition F de la loi P.

 

Théorème : img si et seulement si F est continue.

Afin d'éviter les problèmes dûs à des échantillons de loi discrètes, de valeurs non toutes distinctes, nous nous limiterons donc au cas des échantillons de loi continue dans toute la suite de l'étude.

Il existe néanmoins, pour certains tests, des méthodes pour contourner l'obstacle des valeurs non distinctes, qui seront évoquées.

Il est possible de déterminer la loi des statistiques d'ordre.

 

Théorème : la fonction de répartition de la statistique d'ordre est donnée par :img

De plus, si F admet une densité f, alors :img

Cette loi, bien que précisément définie, est peu pratique à manipuler et exploiter; il existe toutefois une forme de convergence en loi.


b) convergence en loi

Théorème :

Soitimgun échantillon de loiimg, de densitéimg;

Soitimg;

Soitimgla partie entière deimg;

Soitimgles quantiles d'ordre img de img; supposons img;

Alors :

Pour img;

imgmatrice symétrique de termes img;

On a imgen loi.

Dans le cadre de la dimension 1, cette convergence se réduit à

img, oùimgest le quantile d'ordreimg de img;

 

Formule que l'on peut encore exprimer, plus directement :img. Ainsi, quel que soit l'ordre d'une observation dans un échantillon, cette observation a une convergence en loi vers une loi normale.

Ce théorème permet d'établir une convergence similaire à celle induite par le théorème central limite, mais avec la médiane et non la moyenne :

Soitimgla médiane etimgl'espérance de la loiimg;

Soitimg:

img

Nous avons doncimg; et le TCL :img

Or, dans le cas d'une loi symétrique,img(il y a exactement autant de valeurs inférieures à la moyenne que supérieures); doncimg et imgestiment le même paramètre.

La question se pose alors de savoir lequel de ces deux estimateurs est le « meilleur », en terme de variance. En fait, il apparaît que selon la loi, le meilleur n'est pas toujours le même.

 

Par exemple, pour la loiimg, imget

img: imgest donc meilleur estimateur queimg;

Pour la loi double-exponentielleimg, en revanche, imget

img: dans ce cas, c'estimgle meilleur estimateur de la moyenne et médiane.

 

Pour mieux illustrer la comparaison entre les deux estimateurs, considèrons l'Efficacité Relative Asymptotique :

img

En simulant un grand nombre d'échantillons d'une loi donnée, nous pouvons calculer les ARE de différentes lois. Le tableau suivant a été calculé pourimg:

Loi F

img

img

img

img

img

img

img

img

img

0.63

6.38

1.71

0.98

0.65

0.65

img

0.8

Ainsi, par exemple, dans les cas de lois de Student à très faible degrés de liberté (3, 4 ou 5), la médiane empirique est un meilleur estimateur que la moyenne empirique.

imgimg

Notons que les ARE des lois de Student à 2 ddl et de Cauchy ne convergent pas; en effet, la loiimgn'a pas de variance, et la loi de Cauchy n'a pas de moment d'ordre 1.