bibliografía

la regresión de mínimos cuadrados ordinarios (OLS) es un método estadístico de análisis que estima la relación entre una o más variables independientes y una variable dependiente; el método estima la relación minimizando la suma de los cuadrados en la diferencia entre los valores observados y predichos de la variable dependiente configurada como una línea recta., En esta entrada, la regresión OLS se discutirá en el contexto de un modelo bivariado, es decir, un modelo en el que solo hay una variable independiente ( X ) que predice una variable dependiente ( y ). Sin embargo, la lógica de la regresión OLS se extiende fácilmente al modelo multivariado en el que hay dos o más variables independientes.

Los científicos sociales a menudo se preocupan por las preguntas sobre la relación entre dos variables. Entre ellas figuran las siguientes: ¿existe entre las mujeres una relación entre la educación y la fecundidad?, ¿Las mujeres más educadas tienen menos hijos y las mujeres menos educadas tienen más hijos? Entre los países, ¿existe una relación entre el producto nacional bruto (PNB) y la esperanza de vida? ¿Los países con niveles más altos de PNB tienen niveles más altos de esperanza de vida, y los países con niveles más bajos de PNB, niveles más bajos de esperanza de vida? Entre los países, ¿existe una relación positiva entre las oportunidades de empleo y la migración neta? Entre las personas, ¿existe una relación entre la edad y los valores de la presión arterial sistólica basal? (Lewis-Beck 1980; Vittinghoff et al. 2005).,

Como señala Michael Lewis-Beck, estos ejemplos son instancias específicas de la consulta común, «¿Cuál es la relación entre la variable X y la variable y ?»(1980, p. 9). Si se asume que la relación es lineal, la regresión bivariada se puede usar para abordar este problema ajustando una línea recta a una gráfica de dispersión de observaciones sobre la variable X y la variable Y., La declaración más simple de tal relación entre una variable independiente, etiquetada X, y una variable dependiente, etiquetada y, puede expresarse como una línea recta en esta fórmula:

donde a es la intersección e indica donde la línea recta interseca el eje y (el eje vertical); b es la pendiente e indica el grado de inclinación de la línea recta; y E representa el error.

el término de error indica que la relación predicha en la ecuación no es perfecta. Es decir, la línea recta no predice perfectamente Y., Esta falta de una predicción perfecta es común en las ciencias sociales. Por ejemplo, en términos de la relación entre la educación y la fecundidad mencionada anteriormente, no esperaríamos que todas las mujeres con exactamente dieciséis años de educación tuvieran exactamente un hijo, y las mujeres con exactamente cuatro años de educación tuvieran exactamente ocho hijos. Pero esperaríamos que una mujer con mucha educación tuviera menos hijos que una mujer con poca educación. Dicho de otra manera, el número de hijos nacidos de una mujer es probable que sea una función lineal de su educación, más algún error., En realidad, en las sociedades de baja fecundidad, se prefieren los métodos de regresión binomial negativa y de Poisson a los métodos de regresión de mínimos cuadrados ordinarios para la predicción de la fecundidad (Poston 2002; Poston y McKibben 2003).

primero presentamos una nota sobre la notación utilizada en esta entrada. En las ciencias sociales casi siempre llevamos a cabo investigaciones con muestras extraídas de poblaciones más grandes, digamos, una muestra aleatoria del 1 por ciento de la población de los Estados Unidos. Las letras griegas como α y β se utilizan para denotar los parámetros (i. e.,, los valores de intersección y pendiente) que representan la relación entre X E Y en la población mayor, mientras que las letras romanas minúsculas como a y b se usarán para denotar los parámetros en la muestra.

al postular relaciones en las ciencias sociales, la linealidad se asume a menudo, pero esto puede no ser siempre el caso. De hecho, muchas relaciones no son lineales. Cuando uno presume la forma de una relación entre dos variables, uno necesita ser guiada tanto por la teoría que se utiliza, así como una inspección de los datos.,

pero dado que queremos usar una línea recta para relacionar la variable y, la variable dependiente, con la variable X, la variable independiente, hay una pregunta sobre qué línea usar. En cualquier diagrama de dispersión de observaciones de valores X E Y (ver Figura 1), habría un número infinito de líneas rectas que podrían usarse para representar la relación. ¿Qué línea es la mejor?

la línea recta elegida debe ser la que minimice la cantidad de error entre los valores predichos de Y y los valores reales de Y., Específicamente, para cada una de las I ésimas observaciones en la muestra, si uno fuera a cuadrar la diferencia entre los valores observados y predichos de Y, y luego sumar estas diferencias al cuadrado, la mejor línea tendría la suma más baja de errores al cuadrado (SSE), representada de la siguiente manera:

la regresión de mínimos cuadrados ordinarios es un método estadístico que produce la línea recta que minimiza el error al cuadrado total.

Usando el cálculo, se puede demostrar que la ESS es la cantidad más baja o la «menor» cuando los coeficientes a y b se calculan con estas fórmulas (Hamilton 1992, p., 33):

Estos valores de A y b se conocen como coeficientes de mínimos cuadrados, o a veces como coeficientes de mínimos cuadrados ordinarios o coeficientes OLS.

ahora aplicaremos los principios de mínimos cuadrados. Nos interesa saber en qué medida existe una relación entre los condados de China entre la tasa de fecundidad (la variable dependiente) y el nivel de analfabetismo (la variable independiente). China tenía 2.372 condados en 1982., Planteamos la hipótesis de que los condados con poblaciones muy analfabetas tendrán tasas de fecundidad más altas que aquellos con poblaciones con bajos niveles de analfabetismo.

la variable dependiente, Y, es la tasa general de fecundidad, TFG, es decir, el número de hijos nacidos en 1982 por 1.000 mujeres en el grupo de edad de quince a cuarenta y nueve años. La variable independiente, X, es el porcentaje de la población en el condado en 1981 de doce años o más que son analfabetos.

La relación puede ser graficados en el diagrama de dispersión en la Figura 1., La relación entre la tasa general de analfabetismo y la tasa de analfabetismo parece ser lineal y positiva. Cada punto se refiere a un condado de China; hay 2,372 puntos en el diagrama de dispersión.

La ecuación (1) se puede estimar usando las fórmulas de mínimos cuadrados para a y b en las ecuaciones (3) y (4). Esto produce lo siguiente:

los resultados de OLS en la ecuación (5) indican que el valor de intersección es 57.56, y el valor de pendiente es 1.19. La intersección, o a, indica el punto donde la línea de regresión «intercepta»el eje Y. Indica el valor medio de Y cuando X = 0., Por lo tanto, en este conjunto de datos de China, el valor de a indica que un condado sin analfabetos en la población tendría una tasa de fecundidad esperada de 57,6 niños por 1.000 mujeres de quince a cuarenta y nueve años.

El coeficiente de pendiente, o b, indica el cambio promedio en Y asociado con un cambio de una unidad en X. En el ejemplo de China, b = 1.19, lo que significa que un aumento del 1 por ciento en la tasa de analfabetismo de un condado está asociado con un aumento promedio de la TFG, o ganancia, de 1.19 niños por 1,000 mujeres de quince a cuarenta y nueve años.,

probablemente querríamos interpretar este coeficiente b en la otra dirección; es decir, tiene más sentido decir que si reducimos la tasa de analfabetismo del condado en un 1 por ciento, esto resultaría en una reducción promedio de 1.2 niños por 1,000 mujeres de quince a cuarenta y nueve años. Este tipo de interpretación sería compatible con una intervención de política que un gobierno podría desear utilizar; es decir, una tasa de analfabetismo más baja tendería a dar lugar a una tasa de fecundidad más baja.

la línea de regresión puede ser trazada en la gráfica de dispersión anterior, como se muestra en la Figura 2.,

se observa que, si bien en general la relación entre analfabetismo y fecundidad es lineal, hay muchos errores en la predicción de la fecundidad del condado con un conocimiento del analfabetismo del condado. Mientras que algunos condados se encuentran justo en o cerca de la línea de regresión, y por lo tanto, sus tasas de analfabetismo predicen perfectamente o casi perfectamente sus tasas de FERTILIDAD, Las predicciones para otros condados no son tan buenas.

una forma de evaluar la eficiencia predictiva general del modelo OLS es «mirar» la relación como hemos hecho anteriormente., ¿Qué tan bien se corresponde la ecuación OLS anterior con la variación en las tasas de fertilidad de los condados? Como señalamos anteriormente, la relación parece ser positiva y lineal. Un enfoque estadístico más preciso para abordar la pregunta

de qué tan bien los puntos de datos se ajustan a la línea de regresión con el coeficiente de determinación ( R 2).

comenzamos por considerar el problema de predecir Y, la tasa de fertilidad, cuando no tenemos otro conocimiento sobre las observaciones (los condados)., Es decir, si solo conocemos los valores de y para las observaciones, entonces la mejor predicción de Y, la tasa de fertilidad, es la media de Y. Se cree que Carl Friedrich Gauss (1777-1855) fue el PRIMERO en demostrar que al carecer de cualquier otra información sobre el valor de una variable para cualquier sujeto, la media aritmética es el valor más probable (Gauss 2004, p. 244).

pero si adivinamos la media de Y para cada caso, tendremos muchas predicciones pobres y muchos errores. Cuando tenemos información sobre los valores de X, la eficiencia predictiva puede mejorarse, siempre y cuando X tenga una relación con Y., «La pregunta entonces es, ¿cuánto mejora este conocimiento de X nuestra predicción de y ?»(Lewis-Beck 1980, p. 20).

primero, considere la suma de las diferencias al cuadrado del valor de cada observación en Y desde la media de Y. Esta es la suma total de cuadrados (TSS) y representa la cantidad total de variación estadística en Y, la variable dependiente.

se introducen valores en X para todas las observaciones (los condados chinos), y se estima la ecuación de regresión OLS., La línea de regresión se traza (como en la gráfica de dispersión en la Figura 2), y los valores reales de Y para todas las observaciones se comparan con sus valores predichos de Y. la suma de las diferencias cuadradas entre los valores predichos de Y y la media de Y es la suma explicada de cuadrados (ESS), a veces conocida como la suma modelo de cuadrados. Esto representa la cantidad de la variación total en y que se explica por X. La diferencia entre TSS y ESS es la cantidad de la variación en y que no se explica por X, conocida como la suma residual de cuadrados (RSS).,

El coeficiente de determinación (R2) es:

El coeficiente de determinación, cuando se multiplica por 100, representa la cantidad porcentual de variación en Y (las tasas de fecundidad de los condados chinos) que se explica por X (las tasas de analfabetismo de los condados). Los valores de R2 van de +1 a 0. Si R2 = 1.0, la variable X explica perfectamente la variación en Y. alternativamente, cuando R2 = 0 (en este caso la pendiente de la línea, b, también sería igual a 0), la variable X no explica ninguna de las variaciones en y (Vittinghoff et al. 2005, p. 44; Lewis-Beck 1980, pp. 21-22).,

Véase también Cliometría; mínimos cuadrados de tres etapas; mínimos cuadrados de dos etapas; regresión lineal; regresión logística; Métodos Cuantitativos; regresión probabilística; regresión; análisis de regresión; Ciencias Sociales; Estadística en las Ciencias Sociales; Tobit

bibliografía

Gauss, Carl Friedrich. 2004. Theory of Motion of the Heavenly Bodies Moving About the Sun in Conic Sections: A Translation of Theoria Motus (en inglés). Mineola, NY: Dover.Hamilton, Lawrence C. 1992. Regresión con gráficos: Un Segundo Curso en Estadística Aplicada. Pacific Grove, CA: Brooks / Cole.,

Lewis-Beck, Michael S. 1980. Regresión Aplicada: Una Introducción. Beverly Hills, CA: Sage.

Poston, Dudley L., Jr. 2002. The Statistical Modeling of the Fertility of Chinese Women (en inglés). Journal of Modern Applied Statistical Methods 1 (2): 387-396.

Vittinghoff, Eric, David V. Glidden, Stephen C. Shiboski, and Charles E. McCulloch. 2005. Métodos de regresión en bioestadística: modelos lineales, logísticos, de supervivencia y medidas repetidas. New York: Springer.Dudley L. Poston Jr .