glossaire-isup: mai 2008

Utilisation du blog

Ainsi, pour utiliser convenablement ce blog vous n'avez qu' à:

1/ choisir une notion parmi la liste des mots à définir ou parmi les définitions à compléter

2/ aller dans le billet "qu'est-ce que la statistique?" et vous faites "Enregistrer un commentaire"

3/ vous en donnez une définition rigoureuse si possible, sinon une vulgarisation est acceptée

4/ vous n'oubliez pas de citer vos sources

5/ et de signer bien sûr! peut être qu'un professionnel vous remarquera pour votre clarté et vous proposera un poste là où vous ne vous y attendez pas, qui sait?

6/ En Option:

vous pouvez aussi:
- donner les propriétés en liens avec la notion définie
- des warnings
- des exemples
- des traductions anglaises du mot

Info Pratique:

Ce blog ne prends pas en compte les symboles mathématiques, vous pouvez:
- soit m'aider à faire une interface latex ;)
- soit m'envoyer un fichier Espérance.doc par exemple avec la définition qu'il faut à l'intérieur par mail à abdelhfid.isup@blogger.com.

Bonne chance!

Abdel

Econométrie

L'économétrie désigne l'ensemble des techniques statistiques destinées à mesurer des grandeurs économiques et à pratiquer de la recherche en économie.

Source: Wikipedia

Analyse en Composantes Principales (ACP)

L'ACP est la plus simple et la plus connue des techniques d'analyse de données multivariées.
Etant donné un ensemble d'observations décrites par des variables exclusivement numériques {x1, x2 , ..., xp}, l'ACP a pour objectif de décrire ce même ensemble de données par de nouvelles variables en nombre réduit. Ces nouvelles variables seront des combinaisons linéaires des variables originales, et porteront le nom de Composantes Principales (CP).
En général, la réduction du nombre de variables utilisées pour décrire un ensemble de données provoque une perte d'information. L'ACP procède de façon à ce que cette perte d'information soit la plus faible possible, selon un sens précis et naturel que l'on donnera au mot "information".

Source: http://www.aiaccess.net/f_gm.htm

Bootstrap

Le bootstrap est une méthode proposée à la fin des années 70 par Bradley Efron ; son but est de fournir des indications sur une statistique autre que sa valeur (dispersion, distribution, intervalles de confiance) afin de connaître la précision des estimations réalisées. Ces informations sont obtenues sans recours à de nouvelles observations.
Dans le cadre des statistiques classiques, le bootstrap est déjà une aide précieuse aux chargés d'études, qui n'ont pas à se débattre avec des formules complexes (la variance d'un estimateur est rarement simple à expliciter). Dans le cadre du DataMining, le bootstrap permet d'engendrer des modèles plus robustes, c'est à dire aux performances d'un niveau sensiblement constant face à des données inconnues.
Cette méthode s'organise autour d'une technique de rééchantillonnage, accompagnée d'un "grand" nombre d'itérations qui résultent de l'application de la méthode de Monte-Carlo.
le bootstrap est une technique d'inférence statistique basée sur une succession de rééchantillonnages

Sources: http://www.od-datamining.com/bootstrap/index.htm, Wikipedia

Qu'est-ce que la statistique ?

Dérivé du substantif latin status (Etat), le mot statistique possède, en français comme dans d’autres langues plusieurs significations distinctes.

D’une part, utilisé le plus souvent au pluriel, le terme statistiques désigne tout ensembledonnées, généralement numériques, relatives à un groupe d’individus ou d’objets. On parle par exemple de la ou des statistiques de la production agricole ou industrielle (quantité produites, prix de ventes, coûts de productions etc.), des statistiques démographiques (natalité, mortalité, etc.), des statistiques du chômage, des statistiques des accidents de la circulation routière, etc. Il convient toutefois de remarquer que, contrairement à une opinion communément admise, cette acception du terme statistique ne concerne pas seulement des volumes importants de données. cohérent de

D’autre part, le mot statistique, désigne l’ensemble des méthodes qui permettent de recueillir et d’analyser les données dont il vient d’être question.

Enfin, le terme statistique est aussi utilisé parfois pour désigner l’un ou l’autre paramètre, tel qu’une moyenne, calculé à partir d’un ensemble de données.

Les traductions anglaises sont d’une part statistics, à la fois pour des ensembles de données et pour l’ensemble des méthodes, et d’autre part statistic, pour un paramètre.*

Historique (Dagnelie) :

Les premiers dénombrements de populations humaines et de terres ont été réalisés depuis la plus haute antiquité, notamment pour les besoins de la guerre et de l’impôt. Mais c’est seulement au cours du XVIIIème siècle que l’emploi du terme statistique s’est imposé en Allemagne, dans le sens alors limité de connaissance d’un Etat, à la suite des travaux de Gottfried ACHENWALL (1719-1772).

Parallèlement à cette tendance, dite aussi d’arithmétique politique, s’est développé, en France tout d’abord, le calcul des probabilités,dont l’objectif était au départ la résolution de problèmes relatifs aux jeux de hasard. [noms]

La Statistique Mathématique moderne peut être considérée comme née, au XIXème siècle, de la conjonction de ces deux orientations : arithmétique politique d’une part, et calcul des probabilités d’autre part. [noms]

Après les premières applications aux sciences politiques et sociales, réalisées durant le XIXème siècle, les années 1900 voient l’introduction de la statistique dans les sciences biologiques et psychologiques, donnant naissance respectivement à la biométrie et la psychométrie. [noms]

Les années 1920 sont ensuite dominées par la forte personnalité du statisticien britannique Ronald Aylmer FISHER (1890-1962), auquel on doit notamment le développement des plans d’expérience et l’analyse de la variance et de la covariance.

Les années 1930 sont marquées par de nouvelles applications de la statistique en économie, donnant naissance à l’économétrie, et par l’utilisation de l’outil statistique dans le domaine industriel, en matière de maitrise ou de contrôle de la qualité des produits manufacturés.

Enfin, à partir de 1940, la statistique intervient de façon de plus en plus fréquente dans certains problèmes de gestion, en relation avec le développement de la recherche opérationnelle.

Durant la deuxième moitié du XXème siècle, l’histoire de la statistique est étroitement liée au développement de l’informatique. […]

L’analyse multidimensionnelle ou analyse statistique à plusieurs variables constitue un exemple typique de méthodes très largement antérieures à la venue de l’informatique mais ayant connu une expansion considérable à partir des années 1960, du fait des nouveaux moyens de calculs disponibles.

Par contre, les méthodes du « jackniffe » ou du « bootstrap » ou, d’une manière plus générale, de rééchantillonnage se sont entièrement développées en raison même de l’existence de l’ordinateur.

On peut citer aussi de multiples possibilités offertes en matière de conception de graphiques, la tendance française de l’analyse des données, comparable à l’analyse multidimensionnelle, les méthodes de simulation, les méthodes dites robustes, les méthodes bayesienne ou néo-bayesienne, la modélisation, et l’utilisation de divers modèles statistiques nouveaux, tels que le modèle linéaire ou linéaire général, le modèle log-linéaire et le modèle linéaire généralisé.

Le secteur de la recherche pharmaceutique ou médicale est progressivement devenu un des plus grands utilisateurs des méthodes de méthodes statistiques, donnant naissance à la biostatistique.

Sources: Pierre Dagnelie, Gilbert Saporta.

glossaire-isup

Archives du blog

Les mots à définir

Définitions à compléter

lundi 12 mai 2008

Utilisation du blog

Econométrie

Analyse en Composantes Principales (ACP)

Bootstrap

Qu'est-ce que la statistique ?