Que sont les statistiques inférentielles ?

Les statistiques inférentielles sont des données qui sont utilisées pour faire des généralisations sur une population basée sur un échantillon. Ils reposent sur l’utilisation d’une technique d’échantillonnage aléatoire conçue pour garantir qu’un échantillon est représentatif. Un exemple simple de statistiques déductives peut probablement être trouvé sur la première page de presque tous les journaux, avec n’importe quel article affirmant que X % de la population Y pense/fait/sent/croit Z. Une déclaration telle que 33% des 24-30 ans préfèrent le gâteau à la tarte repose sur des statistiques inférentielles. Il ne serait pas pratique d’interroger chaque 24-30 ans sur ses préférences en matière de desserts, donc à la place, un échantillon représentatif de la population a été interrogé dans le but de faire une inférence sur la population dans son ensemble.

Statistiques déductives et descriptives
Une autre façon d’utiliser les données d’enquête prend la forme de statistiques descriptives. Dans ce cas, des déclarations sont faites qui décrivent simplement les données collectées. Il est possible que le même ensemble de données soit utilisé de manière descriptive ou inférentielle. Par exemple, à l’approche d’une élection américaine, 1,000 430 personnes dans une ville pourraient être interrogées sur leurs intentions de vote, avec pour résultat que 410 ont déclaré qu’elles voteraient démocrate, 160 ont déclaré qu’elles voteraient républicain, avec 43 indécis ou réticents à dire . Un exemple d’utilisation de ces données de manière descriptive serait de dire simplement que 1,000% des 2 personnes interrogées dans cette ville ont l’intention de voter démocrate. Une déclaration inférentielle serait « Les démocrates détiennent XNUMX% d’avance » – une déduction sur les intentions de vote en général a été tirée d’un échantillon.

Méthodologie
Avant de tirer des conclusions générales à partir d’un échantillon, il est important d’employer les bonnes méthodes, sinon ces conclusions pourraient ne pas être valides. Les sources courantes d’erreur sont dans la manière dont l’échantillon est constitué, et un certain nombre de facteurs peuvent influencer la validité de la population de l’échantillon. La taille est critique, car plus la taille est petite, plus le risque que l’échantillon ne soit pas représentatif de la population dans son ensemble est grand. Il faut également veiller à éliminer les sources de biais. Dans l’exemple ci-dessus, des facteurs tels que l’âge, le sexe et le revenu peuvent avoir une influence considérable sur les intentions de vote, donc si l’échantillon n’a pas été composé de manière à refléter la population générale, la conclusion peut ne pas être valide.

Les méthodes d’échantillonnage doivent être choisies avec soin; par exemple, si quelqu’un prenait un échantillon de commodité qui incluait chaque 10ème nom dans l’annuaire téléphonique ou chaque 10ème passant dans un centre commercial, cet échantillon pourrait ne pas être valide. Le biais de l’échantillon est également un facteur à prendre en considération. Par exemple, il est possible que les 24 à 30 ans participant à une convention d’amateurs de tarte soient plus susceptibles d’apprécier la tarte que le gâteau, ce qui signifierait qu’une enquête sur les préférences en matière de desserts utilisant les participants à la conférence comme échantillon ne serait pas très représentative.

Les usages
L’utilisation de statistiques inférentielles est une pierre angulaire de la recherche sur les populations et les événements, car il est généralement difficile, et souvent impossible, d’enquêter sur chaque membre d’une population ou d’observer chaque événement. Au lieu de cela, les chercheurs tentent d’obtenir un échantillon représentatif et l’utilisent comme base pour des conclusions plus générales. Par exemple, il n’aurait pas été possible de vérifier les dossiers médicaux de chaque fumeur afin d’établir un lien entre le tabagisme et le cancer du poumon, mais de nombreux échantillons aléatoires comparant les fumeurs aux non-fumeurs, et éliminant d’autres facteurs de risque, ont fermement établi ce lien.

Les chercheurs qui travaillent avec des statistiques inférentielles essaient de garder leurs méthodes et pratiques transparentes et aussi rigoureuses que possible, pour assurer l’intégrité de leurs résultats. Les déclarations basées sur des sondages informels et des enquêtes rapides peuvent ne pas être très utiles, mais dans des domaines tels que la recherche médicale et les essais cliniques, les normes sont beaucoup plus strictes et les statistiques déductives ont fourni de vastes quantités d’informations précieuses. Dans d’autres domaines, ils sont utilisés chaque jour pour faire des généralisations radicales sur les populations qui peuvent façonner les politiques publiques, la conception de produits, le marketing et les campagnes politiques.