Che cos'è la regressione lineare semplice?

La regressione lineare semplice si applica alle statistiche e aiuta a descrivere i dati (x, y) che sembrano avere una relazione lineare, consentendo una previsione di y se x è noto. Questi dati vengono spesso tracciati su grafici a dispersione e la formula per la regressione lineare crea una linea che si adatta meglio a tutti i punti, purché abbiano veramente una correlazione lineare. Non si adatta esattamente a tutti i punti, ma dovrebbe essere una linea in cui la somma dei quadrati della differenza tra dati effettivi e dati attesi (residui) crea il numero più basso, che viene spesso chiamato la linea dei minimi quadrati o la linea di il più adatto. L’equazione della linea per i dati di esempio e di popolazione sono i seguenti: y = b0 + b1x e Y = B0 + B1x.

Chiunque abbia familiarità con l’algebra può notare la somiglianza di questa linea con y = mx + b, e in effetti i due sono relativamente identici, tranne i due termini sul lato destro dell’equazione vengono scambiati, in modo che B1 sia uguale a pendenza o m. La ragione di questo riarrangiamento è che diventa quindi elegantemente semplice aggiungere termini aggiuntivi con caratteristiche come esponenti che potrebbero descrivere diverse forme di relazione non lineari.

Le formule per ottenere una semplice linea di regressione lineare sono relativamente complesse e ingombranti e la maggior parte delle persone non impiega molto tempo a scriverle perché impiegano molto tempo per completarsi. Invece, vari programmi, come Excel o molti tipi di calcolatori scientifici, possono facilmente calcolare una linea dei minimi quadrati. La linea è appropriata per la previsione solo se vi è una chiara evidenza di una forte correlazione tra le serie di dati (x, y). Una calcolatrice genererà una linea, indipendentemente dal fatto che abbia senso usarla.

Allo stesso tempo viene generata una semplice equazione della linea di regressione lineare, le persone devono guardare al livello di correlazione. Ciò significa valutare r, il coefficiente di correlazione, rispetto a una tabella di valori per determinare se esiste una correlazione lineare. Inoltre, valutare i dati tracciandoli come grafico a dispersione è un buon modo per capire se i dati hanno una relazione lineare.

Ciò che può quindi essere fatto con una semplice linea di regressione lineare, purché abbia una correlazione lineare, è che i valori possono essere sostituiti in x, per ottenere un valore previsto per y. Questa previsione ha i suoi limiti. I dati presenti, in particolare se si tratta solo di un campione, potrebbero avere una correlazione lineare ora, ma potrebbero non essere aggiunti successivamente materiale aggiuntivo.

In alternativa, un intero campione può condividere una correlazione mentre un’intera popolazione no. La previsione è quindi limitata e andare ben oltre i valori dei dati disponibili si chiama estrapolazione e non è incoraggiata. Inoltre, le persone dovrebbero sapere che se non esiste alcuna correlazione lineare, la migliore stima di x è la media di tutti i dati y.

In sostanza, la semplice regressione lineare è un utile strumento statistico che può, con discrezione, essere utilizzato per prevedere i valori y in base al valore dell’ascia. Viene quasi sempre insegnato con l’idea di correlazione lineare poiché la determinazione dell’utilità di una linea di regressione richiede l’analisi di r. Fortunatamente con molti programmi tecnici moderni, le persone possono rappresentare graficamente grafici a dispersione, aggiungere linee di regressione e determinare il coefficiente di correlazione r con un paio di voci.