Cosa sono le statistiche inferenziali?

Le statistiche inferenziali sono dati che vengono utilizzati per fare generalizzazioni su una popolazione basata su un campione. Si basano sull’uso di una tecnica di campionamento casuale progettata per garantire che un campione sia rappresentativo. Un semplice esempio di statistica inferenziale può probabilmente essere trovato sulla prima pagina di quasi tutti i giornali, con qualsiasi articolo che afferma che “X% della popolazione Y pensa/fa/sente/crede a Z”. Un’affermazione come “il 33% dei giovani di 24-30 anni preferisce la torta alla torta” si basa su statistiche inferenziali. Non sarebbe pratico interrogare ogni singolo 24-30 anni sulle sue preferenze per i dessert, quindi, invece, è stato intervistato un campione rappresentativo della popolazione con l’obiettivo di fare un’inferenza sulla popolazione nel suo insieme.

Statistica inferenziale e descrittiva
Un altro modo di utilizzare i dati dei sondaggi assume la forma di statistiche descrittive. In questo caso vengono rilasciate dichiarazioni che descrivono semplicemente i dati raccolti. È possibile utilizzare lo stesso insieme di dati in modo descrittivo o inferenziale. Ad esempio, nel periodo che precede le elezioni statunitensi, 1,000 persone in una città potrebbero essere interrogate sulle loro intenzioni di voto, con il risultato che 430 hanno dichiarato che avrebbero votato democratico, 410 hanno dichiarato che avrebbero votato repubblicano, con 160 indecisi o non disposti a dire . Un esempio di utilizzo di questi dati in modo descrittivo sarebbe affermare semplicemente che il 43% di 1,000 persone intervistate in questa città intende votare democratico. Un’affermazione inferenziale sarebbe “I democratici hanno il 2% di vantaggio” – un’inferenza sulle intenzioni di voto in generale è stata tratta da un campione.

Metodi
Prima di trarre conclusioni generali da un campione è importante utilizzare i metodi corretti, altrimenti queste conclusioni potrebbero non essere valide. Fonti comuni di errore sono nel modo in cui il campione è composto e una serie di fattori può influenzare la validità della popolazione campione. La dimensione è fondamentale, perché minore è la dimensione, maggiore è il rischio che il campione non sia rappresentativo della popolazione nel suo insieme. Occorre inoltre prestare attenzione per eliminare le fonti di pregiudizio. Nell’esempio sopra, fattori come età, sesso e reddito possono avere un’influenza considerevole sulle intenzioni di voto, quindi se il campione non è stato composto in modo tale da riflettere la popolazione generale, la conclusione potrebbe non essere valida.

I metodi di campionamento devono essere scelti con attenzione; ad esempio, se qualcuno ha preso un campione di convenienza che includeva ogni decimo nome nell’elenco telefonico o ogni decimo passante in un centro commerciale, questo campione potrebbe non essere valido. Anche la distorsione del campione è una considerazione. Ad esempio, è possibile che i giovani dai 10 ai 10 anni che partecipano a una convention di amanti della torta abbiano maggiori probabilità di gustare la torta rispetto alla torta, il che significherebbe che un sondaggio sulle preferenze dei dessert che utilizzasse i partecipanti alla conferenza come campione non sarebbe molto rappresentativo.

si utilizza
L’uso della statistica inferenziale è un caposaldo della ricerca su popolazioni ed eventi, perché di solito è difficile, e spesso impossibile, censire ogni membro di una popolazione o osservare ogni evento. Invece, i ricercatori cercano di ottenere un campione rappresentativo e lo usano come base per conclusioni più generali. Ad esempio, non sarebbe stato possibile controllare le cartelle cliniche di ogni singolo fumatore per stabilire un legame tra fumo e cancro ai polmoni, ma numerosi campioni casuali che confrontano fumatori e non fumatori ed eliminano altri fattori di rischio, hanno stabilito con fermezza questo link.

I ricercatori che lavorano con le statistiche inferenziali cercano di mantenere i loro metodi e le loro pratiche trasparenti e il più rigorosi possibile, per garantire l’integrità dei loro risultati. Dichiarazioni basate su sondaggi informali e sondaggi rapidi potrebbero non essere molto utili, ma in aree come la ricerca medica e le sperimentazioni cliniche gli standard sono molto più rigidi e le statistiche inferenziali hanno fornito grandi quantità di informazioni preziose. In altre aree, vengono utilizzati ogni giorno per fare ampie generalizzazioni sulle popolazioni che possono plasmare la politica pubblica, il design del prodotto, il marketing e le campagne politiche.