BIBLIOGRAFIA

Ordinary least squares (OLS) de regressão é um método de análise estatística que estima a relação entre uma ou mais variáveis independentes e uma variável dependente; o método de estimativas a relação minimizando a soma dos quadrados da diferença entre o observado e os valores previstos da variável dependente configurado como uma linha reta., Nesta entrada, a regressão OLS será discutida no contexto de um modelo bivariado, ou seja, um modelo no qual existe apenas uma variável independente ( X ) prevendo uma variável dependente ( Y ). No entanto, a lógica de regressão OLS é facilmente estendida para o modelo multivariado em que existem duas ou mais variáveis independentes.os cientistas sociais estão frequentemente preocupados com questões sobre a relação entre duas variáveis. Estas incluem o seguinte: entre as mulheres, existe uma relação entre educação e fertilidade?, As mulheres mais instruídas têm menos filhos e as mulheres menos instruídas têm mais filhos? Entre os países, existe uma relação entre o produto nacional bruto (PNB) e a esperança de vida? Será que os países com níveis mais elevados de PIB têm níveis mais elevados de esperança de vida, e os países com níveis mais baixos de PIB, níveis mais baixos de esperança de vida? Entre os países, existe uma relação positiva entre as oportunidades de emprego e a migração líquida? Entre as pessoas, existe uma relação entre a idade e os valores da pressão arterial sistólica basal? (Lewis-Beck 1980; Vittinghoff et al. 2005).,como Michael Lewis-Beck observa, estes exemplos são instâncias específicas da consulta comum, ” Qual é a relação entre a variável X e a variável Y?”(1980, p. 9). Se se assumir que a relação é linear, pode ser usada regressão bivariada para abordar esta questão ajustando uma linha reta a um plano de observação sobre a variável X e a variável Y., A declaração mais simples de uma relação entre uma variável independente, identificados como X e uma variável dependente, rotulado de Y, pode ser expressa como uma linha reta nesta fórmula:

a, onde a é o intercepto e indica onde a reta intercepta o eixo Y (eixo vertical); b é o declive e indica o grau de inclinação da reta; e e representa o erro.

O termo de erro indica que a relação prevista na equação não é perfeita. Isto é, a linha reta não prevê perfeitamente Y., Esta falta de uma previsão perfeita é comum nas ciências sociais. Por exemplo, em termos da relação de educação e fertilidade acima mencionada, não seria de esperar que todas as mulheres com exactamente dezasseis anos de educação tivessem exactamente um filho, e que as mulheres com exactamente quatro anos de educação tivessem exactamente oito filhos. Mas seria de esperar que uma mulher com muita educação tivesse menos filhos do que uma mulher com um pouco de educação. Dito de outra forma, o número de filhos nascidos de uma mulher é provável que seja uma função linear de sua educação, mais algum erro., Na verdade, em sociedades de baixa fertilidade, Poisson e métodos negativos de regressão binomial são preferidos sobre os métodos normais de regressão dos mínimos quadrados para a previsão da fertilidade (Poston 2002; Poston e McKibben 2003).

introduzimos primeiro uma nota sobre a notação usada neste item. Nas ciências sociais nós quase sempre realizamos pesquisas com amostras retiradas de populações maiores, digamos, uma amostra aleatória de 1% da população dos EUA. Letras gregas como α e β são usadas para denotar os parâmetros (i.e.,, os valores de interceptação e declive) representando a relação entre X e Y na população maior, enquanto letras romanas minúsculas como a e b serão usadas para denotar os parâmetros da amostra.ao postular relações nas ciências sociais, a linearidade é muitas vezes assumida, mas isso pode não ser sempre o caso. Na verdade, muitas relações não são lineares. Quando se coloca a hipótese da forma de uma relação entre duas variáveis, é preciso ser guiado tanto pela teoria que está sendo usada, como por uma inspeção dos dados.,

mas dado que desejamos usar uma linha reta para relacionar variável Y, a variável dependente, com a variável X, a variável independente, há uma questão sobre qual linha usar. Em qualquer scatterplot de observações de valores X e Y (ver Figura 1), haveria um número infinito de linhas retas que poderiam ser usadas para representar a relação. Qual é a melhor linha?

a linha reta escolhida precisa ser aquela que minimiza a quantidade de erro entre os valores previstos de Y e os valores reais de Y., Especificamente, para cada uma das i-ésima observações no exemplo, se um quadrado a diferença entre o observado e os valores previstos de Y e, em seguida, soma dessas diferenças de quadrados, a melhor linha teria o menor soma dos quadrados dos erros (SSE), representados da seguinte forma:

Ordinário dos mínimos quadrados regressão é um método estatístico que produz uma linha reta que minimiza o total de quadrados do erro.

usando o cálculo, pode ser mostrado que SSE é a menor ou a menor quantidade quando os coeficientes a e b são calculados com estas fórmulas (Hamilton 1992, p., 33):

estes valores de A E b são conhecidos como coeficientes mínimos quadrados, ou às vezes como coeficientes mínimos quadrados ordinários ou coeficientes OLS.

agora vamos aplicar os princípios dos Mínimos Quadrados. Estamos interessados na medida em que existe uma relação entre os condados da China entre a taxa de fertilidade (variável dependente) e o nível de analfabetismo (variável independente). A China tinha 2.372 condados em 1982., Nós hipotetizamos que os condados com populações que são altamente analfabetos terão taxas de fertilidade mais altas do que aqueles com populações com baixos níveis de analfabetismo.

a variável dependente, Y, é a taxa geral de fertilidade, GFR, ou seja, o número de filhos nascidos em 1982 por 1000 mulheres no grupo etário dos quinze aos quarenta e nove anos. A variável independente X é a porcentagem da população do condado em 1981, com doze anos ou mais, analfabetos.

a relação pode ser graficada no scatterplot na Figura 1., A associação entre o TFG e a taxa de analfabetismo parece ser linear e positiva. Cada ponto refere-se a um condado da China; há 2.372 pontos no scatterplot.

equação (1) pode ser estimada usando as fórmulas dos mínimos quadrados para a e b nas equações (3) e (4). Isto produz o seguinte:

os resultados OLS na equação (5) indicam que o valor interceptado é 57.56, e o valor do declive é 1.19. A ordenada na origem, ou a, indica o ponto em que a linha de regressão “intercepta” o eixo Y. Ele diz O valor médio de Y quando X = 0., Assim, neste conjunto de dados da China, o valor de a indica que um condado sem pessoa analfabeta na população teria uma taxa de fertilidade esperada de 57,6 Crianças por 1.000 mulheres de 15 a 49 anos.

O coeficiente de inclinação, ou b, indica a variação média de Y associado a uma unidade de mudança no X. Na China exemplo, b = 1.19, o que significa que um aumento de 1% em um município da taxa de analfabetismo está associado com uma média JOY aumento, ou de ganho, de 1.19 filhos por 1.000 mulheres com idade entre quinze a quarenta e nove.,provavelmente gostaríamos de interpretar este coeficiente b na outra direção; ou seja, faz mais sentido dizer que se reduzirmos a taxa de analfabetismo do condado em 1%, isso resultaria em uma redução média de 1,2 Crianças por 1.000 mulheres entre 15 e 49 anos. Este tipo de interpretação seria consistente com uma intervenção política que um governo poderia querer usar; isto é, uma menor taxa de analfabetismo tenderia a resultar em uma menor taxa de fertilidade.

A linha de regressão pode ser plotada no plano de regressão acima, como ilustrado na Figura 2.,note-se que, embora em geral a relação entre analfabetismo e fertilidade seja linear, há um grande erro na previsão da fertilidade do condado com um conhecimento do analfabetismo do Condado. Enquanto alguns condados se situam na linha de regressão ou perto dela, e, portanto, suas taxas de analfabetismo predizem perfeitamente ou quase perfeitamente suas taxas de fertilidade, as previsões para outros condados não são tão boas.

uma maneira de avaliar a eficiência preditiva geral do modelo OLS é “eyeball” a relação como temos feito acima., Até que ponto a equação de OLS acima corresponde à variação das taxas de fertilidade dos condados? Como vimos acima, a relação parece ser positiva e linear. Uma abordagem estatística mais precisa para abordar a questão

da adequação dos pontos de dados à linha de regressão com o coeficiente de determinação ( R 2).

começamos por considerar o problema de prever Y, a taxa de fertilidade, quando não temos nenhum outro conhecimento sobre as observações (os condados)., Isto é, se sabe-se apenas os valores de Y para as observações e, em seguida, a melhor previsão de Y, a taxa de fertilidade, é a média de Y. acredita-se que Carl Friedrich Gauss (1777-1855) foi o primeiro a demonstrar que a falta de quaisquer outras informações sobre o valor de uma variável para qualquer assunto, a média aritmética é a mais provável valor (Gauss 2004, p. 244).

mas se adivinharmos a média de Y para cada caso, teremos muitas más previsões e muitos erros. Quando temos informações sobre os valores de X, a eficiência preditiva pode ser melhorada, desde que X tenha uma relação com Y., “A questão então é, quanto esse conhecimento de X melhora nossa predição de Y ?”(Lewis-Beck 1980, p. 20).

Em primeiro lugar, considere a soma das diferenças ao quadrado do valor de cada observação em Y da média de Y. Esta é a soma total dos quadrados (TSS) e representa a quantidade total de variação estatística em Y, a variável dependente.

valores em X são então introduzidos para todas as observações (os condados chineses), e a equação de regressão OLS é estimada., A linha de regressão é traçado (como no gráfico de dispersão na Figura 2), e os valores reais de Y para todas as observações são comparados aos seus valores previstos de Y. A soma das diferenças quadráticas entre os valores previstos de Y e a média de Y é explicada soma dos quadrados (ESS), às vezes referido como o modelo soma dos quadrados. Isto representa o montante da variação total em Y que é contabilizado por X. A diferença entre TSS e ESS é o montante da variação em Y que não é explicado por X, conhecido como a soma residual dos quadrados (RSS).,

O coeficiente de determinação (R2) é:

O coeficiente de determinação, quando multiplicado por 100, representa a percentagem de variação em Y (a taxas de fertilidade dos Chineses municípios) que é explicada por X (a, as taxas de analfabetismo dos municípios). Os valores R2 variam entre +1 e 0. Se R2 = 1.0, a variável X perfeitamente contabiliza a variação em Y. alternadamente, quando R2 = 0 (Neste caso, o declive da linha, b, também seria igual a 0), a variável X não conta com nenhuma das variações em Y (Vittinghoff et al. 2005, p. 44; Lewis-Beck 1980, p. 21-22).,

SEE ALSO Cliometrics; Least Squares, Three-Stage; Least Squares, Two-Stage; Linear Regression; Logistic Regression; Methods, Quantitative; Probabilistic Regression; Regression Analysis; Regression; Social Science; Statistics in the Social Sciences; Tobit

BIBLIOGRAPHY

Gauss, Carl Friedrich. 2004. Theory of Motion of the Heavenly Bodies Moving About the Sun in Cónica Sections: a Translation of Theoria Motus. Mineola, NY: Dover.

Hamilton, Lawrence C. 1992. Regressão com gráficos: um segundo curso em estatísticas aplicadas. Pacific Grove, CA: Brooks / Cole.,Lewis-Beck, Michael S. 1980. Regressão Aplicada: Uma Introdução. Beverly Hills, CA: Sage.

Poston, Dudley L., Jr.2002. The Statistical Modeling of the Fertility of Chinese Women. Journal of Modern Applied Statistical Methods 1 (2): 387-396.Vittinghoff, Eric, David V. Glidden, Stephen C. Shiboski, and Charles E. McCulloch. 2005. Métodos de regressão na Bioestatística: Modelos Lineares, logísticos, de Sobrevivência e medidas repetidas. New York: Springer.Dudley L. Poston Jr .