O que é regressão linear simples?

A regressão linear simples se aplica às estatísticas e ajuda a descrever (x, y) dados que parecem ter uma relação linear, permitindo alguma previsão de y se x for conhecido. Esses dados geralmente são plotados em gráficos de dispersão e a fórmula para regressão linear cria uma linha que melhor se ajusta a todos os pontos, desde que eles realmente tenham uma correlação linear. Ele não se encaixa exatamente em todos os pontos, mas deve ser uma linha em que a soma dos quadrados da diferença entre dados reais e dados esperados (resíduos) cria o número mais baixo, geralmente chamado de linha dos mínimos quadrados ou linha de melhor ajuste. A equação da linha para dados de amostra e de população é a seguinte: y = b0 + b1x e Y = B0 + B1x.

Qualquer pessoa familiarizada com álgebra pode observar a semelhança dessa linha com y = mx + b, e de fato as duas são relativamente idênticas, exceto os dois termos no lado direito da equação, que são trocados, de modo que B1 é igual a inclinação ou m. A razão para esse rearranjo é que torna-se fácil e fácil adicionar termos adicionais com recursos como expoentes que podem descrever diferentes formas não-lineares de relacionamento.

As fórmulas para obter uma linha de regressão linear simples são relativamente complexas e complicadas, e a maioria das pessoas não gasta muito tempo anotando-as porque leva muito tempo para concluir. Em vez disso, vários programas, como o Excel ou muitos tipos de calculadoras científicas, podem facilmente calcular uma linha de mínimos quadrados. A linha é apropriada apenas para previsão se houver evidência clara de uma forte correlação entre os conjuntos de dados (x, y). Uma calculadora irá gerar uma linha, independentemente de fazer algum sentido usá-la.

Ao mesmo tempo em que é gerada uma simples equação de linha de regressão linear, as pessoas devem observar o nível de correlação. Isso significa avaliar r, o coeficiente de correlação, em relação a uma tabela de valores para determinar se existe correlação linear. Além disso, avaliar os dados plotando-os como um gráfico de dispersão é uma boa maneira de obter uma noção se os dados têm um relacionamento linear.

O que pode ser feito com uma linha de regressão linear simples, desde que tenha uma correlação linear, é que os valores podem ser substituídos em x, para obter um valor previsto para y. Essa previsão tem seus limites. Os dados presentes, principalmente se for apenas uma amostra, podem ter uma correlação linear agora, mas podem não ter sido adicionados posteriormente com material de amostra adicional.

Como alternativa, uma amostra inteira pode compartilhar uma correlação, enquanto uma população inteira não. A previsão é, portanto, limitada e ir muito além dos valores de dados disponíveis é chamada extrapolação e não é incentivada. Além disso, as pessoas devem saber que, se não existir correlação linear, a melhor estimativa de x é a média de todos os dados y.

Essencialmente, a regressão linear simples é uma ferramenta estatística útil que pode, com discrição, ser usada para prever valores y com base no valor do eixo. É quase sempre ensinado com a idéia de correlação linear, pois determinar a utilidade de uma linha de regressão requer análise de r. Felizmente, com muitos programas técnicos modernos, as pessoas podem representar graficamente gráficos de dispersão, adicionar linhas de regressão e determinar o coeficiente de correlação r com algumas entradas.

Inteligente de ativos.