lundi 12 mai 2008

Qu'est-ce que la statistique ?


Dérivé du substantif latin status (Etat), le mot statistique possède, en français comme dans d’autres langues plusieurs significations distinctes.

D’une part, utilisé le plus souvent au pluriel, le terme statistiques désigne tout ensembledonnées, généralement numériques, relatives à un groupe d’individus ou d’objets. On parle par exemple de la ou des statistiques de la production agricole ou industrielle (quantité produites, prix de ventes, coûts de productions etc.), des statistiques démographiques (natalité, mortalité, etc.), des statistiques du chômage, des statistiques des accidents de la circulation routière, etc. Il convient toutefois de remarquer que, contrairement à une opinion communément admise, cette acception du terme statistique ne concerne pas seulement des volumes importants de données. cohérent de

D’autre part, le mot statistique, désigne l’ensemble des méthodes qui permettent de recueillir et d’analyser les données dont il vient d’être question.

Enfin, le terme statistique est aussi utilisé parfois pour désigner l’un ou l’autre paramètre, tel qu’une moyenne, calculé à partir d’un ensemble de données.

Les traductions anglaises sont d’une part statistics, à la fois pour des ensembles de données et pour l’ensemble des méthodes, et d’autre part statistic, pour un paramètre.*

Historique (Dagnelie) :

Les premiers dénombrements de populations humaines et de terres ont été réalisés depuis la plus haute antiquité, notamment pour les besoins de la guerre et de l’impôt. Mais c’est seulement au cours du XVIIIème siècle que l’emploi du terme statistique s’est imposé en Allemagne, dans le sens alors limité de connaissance d’un Etat, à la suite des travaux de Gottfried ACHENWALL (1719-1772).

Parallèlement à cette tendance, dite aussi d’arithmétique politique, s’est développé, en France tout d’abord, le calcul des probabilités,dont l’objectif était au départ la résolution de problèmes relatifs aux jeux de hasard. [noms]

La Statistique Mathématique moderne peut être considérée comme née, au XIXème siècle, de la conjonction de ces deux orientations : arithmétique politique d’une part, et calcul des probabilités d’autre part. [noms]

Après les premières applications aux sciences politiques et sociales, réalisées durant le XIXème siècle, les années 1900 voient l’introduction de la statistique dans les sciences biologiques et psychologiques, donnant naissance respectivement à la biométrie et la psychométrie. [noms]

Les années 1920 sont ensuite dominées par la forte personnalité du statisticien britannique Ronald Aylmer FISHER (1890-1962), auquel on doit notamment le développement des plans d’expérience et l’analyse de la variance et de la covariance.

Les années 1930 sont marquées par de nouvelles applications de la statistique en économie, donnant naissance à l’économétrie, et par l’utilisation de l’outil statistique dans le domaine industriel, en matière de maitrise ou de contrôle de la qualité des produits manufacturés.

Enfin, à partir de 1940, la statistique intervient de façon de plus en plus fréquente dans certains problèmes de gestion, en relation avec le développement de la recherche opérationnelle.

Durant la deuxième moitié du XXème siècle, l’histoire de la statistique est étroitement liée au développement de l’informatique. […]

L’analyse multidimensionnelle ou analyse statistique à plusieurs variables constitue un exemple typique de méthodes très largement antérieures à la venue de l’informatique mais ayant connu une expansion considérable à partir des années 1960, du fait des nouveaux moyens de calculs disponibles.

Par contre, les méthodes du « jackniffe » ou du « bootstrap » ou, d’une manière plus générale, de rééchantillonnage se sont entièrement développées en raison même de l’existence de l’ordinateur.

On peut citer aussi de multiples possibilités offertes en matière de conception de graphiques, la tendance française de l’analyse des données, comparable à l’analyse multidimensionnelle, les méthodes de simulation, les méthodes dites robustes, les méthodes bayesienne ou néo-bayesienne, la modélisation, et l’utilisation de divers modèles statistiques nouveaux, tels que le modèle linéaire ou linéaire général, le modèle log-linéaire et le modèle linéaire généralisé.

Le secteur de la recherche pharmaceutique ou médicale est progressivement devenu un des plus grands utilisateurs des méthodes de méthodes statistiques, donnant naissance à la biostatistique.

Sources: Pierre Dagnelie, Gilbert Saporta.

3 commentaires:

AEA a dit…

C'est ici que vous envoyez vos définitions.

Anonyme a dit…

Vous pouvez trouver lq definition de datamining sur le prochain site de l'isup.
essai

PMD a dit…

Espace mesurable : couple (E,B) où E est un ensemble et B une tribu sur E

Tribu: pour un ensemble E, une tribu sur E est une classe de parties de E, contenant E, stable par intersection finie ou dénombrable et par passage au complémentaire.

Espace probabilité : triplet(E,B,P) tel que (E,B) soit un espace mesurable et P une mesure de probabilité sur cet espace.

Fonction de répartition : Si X=(X1,...Xd) est une variable aléatoire dans R^d, la fonction de répartition de la loi de X est par définition la fonction de R^d dans R qui à (x1,...xd) associe P(X1'<'x1,...,Xd'<'xd).

Risques de première et deuxième espèce : pour un test de H0 contre H1, le risque de première espèce est la probabilité sous H0 de choisir H1. Celui de deuxième espèce est la probabilité sous H1 de choisir H0. Le premier est contrôlé, le second est subi.

Variance: pour une variable aléatoire X, Var(X)=E[(X-E(x))²]=E(X²)-E(X)² sous réserve d'existence. La variance empirique d'un N-échantillon est la moyenne des carrés des observations, moins le carré de la moyenne des observations. On multiplie souvent par N/(N-1) cette quantité pour obtenir un estimateur sans biais de la variance.

Moments : si X est une variable aléatoire et p un entier, le moment d'ordre p de X est E(X^p), sous réserve d'existence. On définit aussi les moments centrés de X comme étant les moments de X-E(X).

Médiane : quantile d'ordre 1/2

Mode : valeur ou classe de valeurs ayant le plus grand effectif dans un échantillon.

Quantile : Si F est une fonction de répartition et 0<=a<=1, le quantile d'ordre a de F vaut par définition inf{x|F(x)>=a}.

Permutation : si E est un ensemble, on appelle permutation de E toute bijection de E sur lui-même.

Variable quantitative : variable aléatoire qui prend ses valeurs dans R^d. On distingue les variables quantitatives discrètes et continues.

Variable qualitative : variable aléatoire qui n'est pas quantitative.

Bonne chance pour le glossaire!
Pierre-Michel Danton (CS1)