Page d'accueil rinnovamento.it en page d'accueil
Liste Articles: [0-A] [A-C] [C-F] [F-J] [J-M] [M-P] [P-S] [S-Z] | Liste Catégories | Une page au hasard | Pages liées

Statistiques


La statistique est une branche des mathématiques appliquées concernant la planification, le résumé et l'interprétation d'observations. La théorie des probabilités est largement utilisée dans le développement de la théorie des statistiques.

Dans la démarche statistique, la statisticien se fixe une hypothèse et détermine ensuite si celle-ci s'accorde avec les faits (matérialisés par des chiffres). Cette méthode s'oppose donc au plus récent data mining où aucune hypothèse n'a à être faite, et où le programme essaie de déterminer par lui-même les corrélations significatives.

La démarche statistique demande:

  1. la planification d'expériences,
  2. le résumé statistique de données
  3. l'interprétation de données statistiques.

Dans certaines formes de résumés statistiques, surtout la collecte d'information, la planification elle-même disparaît au profit des deuxième et troisième étapes. Dans ces disciplines les données sont collectées sans contrôle de la personne faisant l'analyse et le résultat devient plus un mode opérationel qu'un consensus sur le sujet.

Certaines sciences utilisent des statistiques appliquées à leur domaine utilisant une terminologie spécifique (Biostatistique, Géostatistique,Statistique économique ou économétrie ...).

Sommaire

Le hasard

Le but de la statistique est d'essayer de modéliser le hasard. Par essence, on ne peut pas prédire le résultat d'un phénomène aléatoire (par exemple un jet de dés). Les statistiques essaient tout de même de caractériser ces phénomènes, grâce à la notion de variable aléatoire (σ-algèbre, voir théorie des probabilités).

Probabilité

On remarqua historiquement que sur un grand nombre d'essais, les différents résultats d'un événement revenaient avec une fréquence constante, par exemple, sur un jet de dés à six faces, chaque face apparaît en moyenne une fois sur six. On a alors associé un nombre, appelé probabilité, à fréquence. Dans certains cas simples, on peut calculer ces probabilités par dénombrement.

Par la suite, on découvrit (théorème de Cox-Jaynes) que la notion de probabilité pouvait s'abstraire de toute question de fréquence, et représenter plus simplement un état de connaissance : dire que chacune des faces d'un dé a une chance sur six de sortir est simplement une autre façon de dire que fonctionnellement, en ce qui concerne le tirage lui-même, les six faces du dé ne se distinguent que par leur nom et rien d'autre.

On commence souvent l'étude des statistiques par celle des probabilités, de leurs propriétés et des calculs que l'on peut faire avec (moyenne, Écart type) sans s'occuper de la manière dont sont établies ces probabilités.

Lois statistiques

La répartition des probabilités, ou de la densité de probabilité, des phénomènes aléatoires suit souvent des lois relativement simples. Les lois de probabilité les plus connues sont :

La connaissance d'un phénomène probabiliste se résume parfois à la seule connaissance de ses paramètres principaux, par exemple :

Dans la pratique, toute information additionnelle pourra être utilisée par la suite pour améliorer ces distributions a priori.

Le fait que des lois comme la loi uniforme ou celle de Gauss-Laplace reviennent souvent n'obéit à aucune considération mystique : ce sont simplement ce que l'on nomme des lois d'entropie maximale sous contraintes données (par exemple connaissance du nombre d'états pour une loi uniforme, ou de la moyenne et de l'écart-type pour une loi normale) et qui traduisent le mieux possible l'état de notre connaissance (ou plutôt d'ignorance), c'est-à-dire de toutes les lois obéissant aux mêmes contraintes celles qui injectent le moins — en l'occurrence pas du tout — d'information parasite. Ainsi, si l'on considère sans autre information qu'un dé dont on ne connait rien va être lancé, l'hypothèse la moins prévenue est de considérer dans un premier temps que chacune des faces a une probabilité 1/6e (entropie totale : -2,5 bits). Il faudrait une forte information additionnelle pour désirer considérer que le 6 a 50% de chances de sortir et que les cinq autres faces se partagent le reste (entropie totale : -4,32 bits). C'est pourtant ce que font parfois, inconsciemment, les joueurs.

Un exercice classique des méthodes bayésiennes est : « Sachant uniquement que le résultat moyen du lancer d'un dé donné est de 3,8 (et non 3,5 comme il le faudrait), déterminer la distribution a priori la moins mauvaise pour la probabilité de chaque face ». On le résout sans difficulté, mais malheureusement uniquement de façon numérique.

Acquisition et traitement des données

Pour établir la loi de probabilité, et notamment déterminer le type de loi adapté et les paramètres E et σ, il faut utiliser des mesures. Se pose alors le problème de l'échantillonnage : choix de la population à sonder (au sens large : cela peut être un sondage d'opinion en interrogeant des humains, ou bien le ramassage de roches pour déterminer la nature d'un sol en géologie), la taille de la population et sa représentativité.

Traitement d'une variable

Dans le cas le plus simple, on fait n mesures, et on obtient n valeurs (xi).

Une fois que l'on a collecté les résultats du sondage, il faut estimer E et σ. On utilise pour cela des estimateurs sans biais, en général la moyenne arithmétique Ê pour estimer l'espérance

\hat{E} = \bar{X} = \frac{1}{n} \cdot \sum_{i = 1}^n x_i

et la variance empirique corrigée \hat{\sigma}^2 pour le carré de l'écart type (ou variance)

\hat{\sigma}^2 = \frac{1}{n-1} \cdot \sum_{i = 1}^n (x_i - \bar{X})^2

Il faut ensuite faire des tests pour vérifier que la loi choisie est judicieuse, notamment le test du χ² (ou Khi-deux, prononcer « ki-deux »).

On définit encore d'autres moyennes, comme la moyenne géométrique et la moyenne harmonique, beaucoup moins utilisées.

Corrélation de deux variables

Lorsque l'on collecte deux valeurs (xi,yi) par mesure, on travaille en fait avec deux variables aléatoires X et Y. X et Y sont dites corrélées si la connaissance de la valeur de X permet d'améliorer la qualité (la précision) de la prédiction de la valeur de Y. Concrètement, cela peut vouloir dire que le paramètre X influence le paramètre Y, ou que Y influence X, ou encore que X et Y ont une origine commune. On calcule pour cela un coefficient de corrélation (voir régression linéaire).

Souvent, un phénomène physique obéit à une loi simple, affine :

Y = a ·X + b

c'est le cas le plus simple de variables corrélées. À partir de mesures de couples de valeurs (xi,yi), on veut établir a et b. Ceci s'appelle la régression linéaire.

D'autres phénomènes sont corrélés de manière exponentielle, ou sous forme de puissance (voir série statistique à deux variables en mathématiques élémentaires)

L'utilisation de cette notion est souvent abusive, car le fait que deux variables aléatoires soient corrélées ne signifie généralement pas qu'elles soient dépendantes l'une de l'autre (c'est-à-dire que la connaissance de la valeur de l'une permette de connaître exactement la valeur de l'autre). D'autre part, il faut être conscient qu'une corrélation n'induit pas toujours une relation de cause à effet entre les deux phénomènes mesurés (ils peuvent être corrélés à un phénomène source commune)

Incertitude de mesure

En physique et en chimie, on utilise souvent la loi de Student pour déterminer les incertitudes (intervalle de confiance) ; dans ces domaines, son utilisation se réduit souvent à multiplier l'estimateur de l'écart type par deux ou par trois pour avoir l'erreur acceptable.

Le calcul d'erreur constitue un ensemble de méthodes de calcul permettant d'estimer les erreurs sur des résultats au départ de incertitudes ou erreur sur les mesures.

Voir aussi

Liens externes



This site support the Wikimedia Foundation. This Article originally from Wikipedia. All text is available under the terms of the GNU Free Documentation License Page HistoryOriginal ArticleWikipedia