Qu’est-ce que la régression linéaire simple ?

La régression linéaire simple s’applique aux statistiques et aide à décrire les données (x,y) qui semblent avoir une relation linéaire, permettant une certaine prédiction de y si x est connu. Ces données sont souvent tracées sur des nuages ​​de points et la formule de régression linéaire crée une ligne qui correspond le mieux à tous les points, à condition qu’ils aient vraiment une corrélation linéaire. Il ne correspondra pas exactement à tous les points, mais ce devrait être une ligne où la somme des carrés de la différence entre les données réelles et les données attendues (résidus) crée le nombre le plus bas, qui est souvent appelé la ligne des moindres carrés ou la ligne de meilleur ajustement. L’équation de la droite pour les données d’échantillon et les données de population est la suivante : y = b0 + b1x et Y = B0 + B1x.

Toute personne familiarisée avec l’algèbre peut noter la similitude de cette ligne avec y = mx + b, et en fait les deux sont relativement identiques, sauf que les deux termes du côté droit de l’équation sont intervertis, de sorte que B1 est égal à pente ou m. La raison de ce réarrangement est qu’il devient alors élégamment facile d’ajouter des termes supplémentaires avec des caractéristiques telles que des exposants qui pourraient décrire différentes formes de relation non linéaires.

Les formules pour obtenir une droite de régression linéaire simple sont relativement complexes et lourdes, et la plupart des gens ne passent pas beaucoup de temps à les écrire car elles prennent beaucoup de temps à compléter. Au lieu de cela, divers programmes, comme pour Excel ou pour de nombreux types de calculatrices scientifiques, peuvent facilement calculer une ligne des moindres carrés. La ligne n’est appropriée pour la prédiction que s’il existe des preuves claires d’une forte corrélation entre les ensembles de données (x,y). Une calculatrice générera une ligne, peu importe si cela a du sens de l’utiliser.

En même temps qu’une simple équation de droite de régression linéaire est générée, les gens doivent examiner le niveau de corrélation. Cela signifie évaluer r, le coefficient de corrélation, par rapport à une table de valeurs pour déterminer s’il existe une corrélation linéaire. De plus, évaluer les données en les traçant sous forme de nuage de points est un bon moyen de savoir si les données ont une relation linéaire.

Ce qui peut alors être fait avec une simple ligne de régression linéaire, à condition qu’elle ait une corrélation linéaire, c’est que les valeurs peuvent être substituées dans x, pour obtenir une valeur prédite pour y. Cette prédiction a ses limites. Les données présentes, en particulier s’il ne s’agit que d’un échantillon, peuvent avoir une corrélation linéaire maintenant, mais pas plus tard avec l’ajout d’échantillons supplémentaires.

Alternativement, un échantillon entier peut partager une corrélation alors qu’une population entière ne le fait pas. La prédiction est donc limitée, et aller bien au-delà des valeurs de données disponibles est appelé extrapolation et n’est pas encouragé. De plus, si les gens savent que s’il n’existe aucune corrélation linéaire, la meilleure estimation de x est la moyenne de toutes les données y.

Essentiellement, la régression linéaire simple est un outil statistique utile qui peut, avec discrétion, être utilisé pour prédire les valeurs y en fonction de la valeur de la hache. Il est presque toujours enseigné avec l’idée de corrélation linéaire puisque déterminer l’utilité d’une ligne de régression nécessite l’analyse de r. Heureusement, avec de nombreux programmes techniques modernes, les utilisateurs peuvent représenter graphiquement des nuages ​​de points, ajouter des lignes de régression et déterminer le coefficient de corrélation r avec quelques entrées.

SmartAsset.