en esta sección, aprendemos cómo usar gráficas residuales versus gráficas de ajuste (o predictor) para detectar problemas con nuestro modelo de regresión formulado. Específicamente, investigamos:

  • Cómo se muestra una función de regresión no lineal en una gráfica de residuos vs.ajustes
  • Cómo se muestran las varianzas de error desiguales en una gráfica de residuos vs. ajustes
  • Cómo se muestra un valor atípico en una gráfica de residuos vs. ajustes.

tenga en cuenta que aunque usaremos residuos vs., a lo largo de nuestra discusión aquí, podríamos usar residuos vs.gráficas predictoras con la misma facilidad (siempre que el predictor sea el del modelo).

¿cómo se muestra una función de regresión no lineal en una gráfica residual vs. fits?

La respuesta: los residuos parten de 0 de alguna manera sistemática, como ser positivos para valores X pequeños, negativos para valores x medios y positivos nuevamente para valores X grandes. Cualquier patrón sistemático (no Aleatorio) es suficiente para sugerir que la función de regresión no es lineal.

Un ejemplo: ¿está linealmente relacionado el desgaste de la banda de rodadura del neumático con el kilometraje?, un laboratorio (Smith Scientific Services, Akron, OH) realizó un experimento para responder a esta pregunta de investigación. Como resultado del experimento, los investigadores obtuvieron un conjunto de datos (treadwear.txt) que contiene el kilometraje (x, en 1000 millas) conducido y la profundidad de la ranura restante (y, en mils). La gráfica de línea ajustada de los datos resultantes:

sugiere que existe una relación entre la profundidad de ranura y el kilometraje. La relación no es lineal., Como es generalmente el caso, los residuos correspondientes vs. fits plot acentúa esta afirmación:

tenga en cuenta que los residuos salen de 0 de manera sistemática. Son positivos para valores x pequeños, negativos para valores x medios y positivos de nuevo para valores X grandes. Claramente, un modelo no lineal describiría mejor la relación entre las dos variables.

Por cierto, ¿notó que el valor de r2 es muy alto (95.26%)?, Este es un excelente ejemplo de la precaución «un gran valor r2 no debe interpretarse en el sentido de que la línea de regresión estimada se ajusta bien a los datos.»El gran valor de r2 te dice que si quisieras predecir la profundidad de la ranura, sería mejor tener en cuenta el kilometraje que no. La gráfica de residuos vs. ajustes le dice, sin embargo, que su predicción sería mejor si formulara un modelo no lineal en lugar de uno lineal.

¿cómo se muestra la varianza de error No constante en un gráfico residual vs. fits?

La respuesta: la varianza de error No constante aparece en los residuos vs., ajusta (o predictor) la gráfica de cualquiera de las siguientes maneras:

  • La gráfica tiene un efecto de «abanico». Es decir, los residuos están cerca de 0 para valores x pequeños y están más dispersos para valores X grandes.
  • el gráfico tiene un efecto de «embudo». Es decir, los residuos se extienden para valores x pequeños y cerca de 0 para valores X grandes.
  • O, la propagación de los residuos en los residuos vs.fits plot varía de alguna manera compleja.

Un ejemplo: ¿cómo se relaciona la actividad del plutonio con el recuento de partículas alfa? El plutonio emite partículas subatómicas llamadas partículas alfa., Los dispositivos utilizados para detectar plutonio registran la intensidad de los ataques de partículas alfa en recuentos por segundo. Para investigar la relación entre la actividad del plutonio (x, en pCi / g) y la tasa de recuento alfa (y, en número por segundo), se realizó un estudio con 23 muestras de plutonio. Se obtuvo el siguiente gráfico de línea ajustada sobre los datos resultantes (alphapluto.txt):

La gráfica sugiere que hay una relación lineal entre la tasa de recuento alfa y la actividad de plutonio., También sugiere que los Términos de error varían alrededor de la línea de regresión de una manera no constante: a medida que aumenta el nivel de plutonio, no solo aumenta la tasa media de recuento Alfa, sino que también aumenta la varianza. Es decir, la gráfica de línea ajustada sugiere que se viola la suposición de variaciones iguales. Como es generalmente el caso, los residuos correspondientes vs. fits plot acentúa esta afirmación:

tenga en cuenta que los residuos «se extienden» de izquierda a derecha en lugar de exhibir una dispersión consistente alrededor de la línea residual = 0., La gráfica residual vs. fits sugiere que las varianzas de error no son iguales.

¿cómo se muestra un valor atípico en una gráfica de residuos vs. ajustes?

La respuesta: el residuo de la observación se distingue del patrón aleatorio básico del resto de los residuos. El patrón aleatorio de la gráfica residual puede incluso desaparecer si un valor atípico realmente se desvía del patrón del resto de los datos.

un ejemplo: ¿existe una relación entre el consumo de tabaco y el consumo de alcohol? El gobierno británico lleva a cabo encuestas periódicas sobre el gasto de los hogares., Una de estas encuestas (Family Expenditure Survey, Department of Employment, 1981) determinó el gasto semanal medio en tabaco (x, en Libras esterlinas) y el gasto semanal medio en alcohol (y, en Libras Esterlinas) para los hogares de n = 11 regiones diferentes del Reino Unido. La gráfica de línea ajustada de los datos resultantes (alcoholtobacco.txt):

sugiere que hay un valor atípico — en la esquina inferior derecha de la parcela — que corresponde a la región de Irlanda del Norte., De hecho, el valor atípico está tan alejado del patrón del resto de los datos que parece estar «tirando de la línea» en su dirección. Como es generalmente el caso, los residuos correspondientes vs. fits plot acentúa esta afirmación:

Note that Northern Ireland’s residual stands apart from the basic random pattern of the rest of the residuals. Es decir, la gráfica residual vs. fits sugiere que existe un valor atípico.,

Por cierto, este es un excelente ejemplo de la precaución de que el «coeficiente de determinación r2 puede verse muy afectado por un solo punto de datos.»Tenga en cuenta que el valor r2 en el conjunto de datos con todas las regiones n = 11 incluidas es del 5%. Eliminando el punto de datos de Irlanda Del Norte del conjunto de datos, y volviendo a colocar la línea de regresión, obtenemos:

ahora, es posible que se pregunte qué tan grande debe ser un residuo antes de que un punto de datos sea marcado como un valor atípico., La respuesta no es sencilla, ya que la magnitud de los residuos depende de las unidades de la variable de respuesta. Es decir, si sus medidas se hacen en libras, entonces las unidades de los residuos están en Libras. Y, si sus medidas se hacen en pulgadas, entonces las unidades de los residuos están en pulgadas. Por lo tanto, no hay una «regla empírica» que podamos definir para marcar un residuo como excepcionalmente inusual.

Hay una solución a este problema. Podemos hacer los residuos «sin unidad» dividiéndolos por su desviación estándar., De esta manera creamos lo que se llama «residuos estandarizados.»Nos dicen cuántas desviaciones estándar por encima — si es positivo — o por debajo — si es negativo-un punto de datos es de la línea de regresión estimada. (Tenga en cuenta que hay varias formas alternativas de estandarizar los residuos, que consideraremos en la Lección 9.) Recordemos que la regla empírica nos dice que, para los datos que se distribuyen normalmente, el 95% de las mediciones caen dentro de 2 desviaciones estándar de la media., Por lo tanto, cualquier observación con un residuo estandarizado mayor que 2 o menor que -2 podría ser señalada para una investigación adicional. Es importante tener en cuenta que al usar esta regla «mayor que 2, menor que -2», aproximadamente el 5% de las mediciones en un conjunto de datos se marcarán aunque estén perfectamente bien. ¡Es en su mejor interés no tratar esta regla de oro como una regla corta y seca, créalo hasta los huesos, dura y rápida!, Por lo tanto, en la mayoría de los casos, puede ser más práctico investigar más a fondo cualquier observación con un residuo estandarizado mayor que 3 o menor que -3 (utilizando la regla empírica, esperaríamos que solo el 0.2% de las observaciones caigan en esta categoría).

el correspondiente gráfico de residuos estandarizados vs.ajustes para nuestro ejemplo de Encuesta de gastos se ve como:

el residuo estandarizado del punto de datos sospechoso es menor que -2. Es decir, el punto de datos se encuentra más de 2 desviaciones estándar por debajo de su media., ¡Dado que este es un conjunto de datos tan pequeño, el punto de datos debe marcarse para una investigación adicional!

Por cierto, la mayoría del software estadístico identifica observaciones con grandes residuos estandarizados. Así es como se ve una parte de la salida de Minitab para nuestro ejemplo de Encuesta de gastos:

Minitab etiqueta las observaciones con grandes residuos estandarizados con una «R.» para nuestro ejemplo, Minitab informa que la observación #11 — para la cual tabaco = 4.56 y alcohol = 4.02 — tiene un gran residuo estandarizado (-2,58)., El punto de datos ha sido marcado para una investigación adicional.

tenga en cuenta que he utilizado intencionalmente la frase «marcado para una investigación posterior.»No he dicho que el punto de datos debe ser» eliminado.»Esta es mi estrategia recomendada, una vez que haya identificado un punto de datos como inusual:

  1. Determine si se cometió un error simple, y por lo tanto corregible, al registrar o ingresar el punto de datos. Los ejemplos incluyen errores de transcripción (grabación 62.1 en lugar de 26.1) o errores de entrada de datos (Introducción 99.1 en lugar de 9.1). Corrija los errores que encontró.,
  2. Determinar si la medición se realizó de tal manera que ya no se pueda justificar el mantenimiento de la unidad experimental en el estudio. ¿No se realizó algún procedimiento de acuerdo con las directrices del estudio? Por ejemplo, ¿se midió la presión arterial de una persona de pie en lugar de sentarse? ¿Se hizo la medición en alguien que no estaba en la población de interés? Por ejemplo, ¿la encuesta fue completada por un hombre en lugar de una mujer? Si es convincentemente justificable, elimine el punto de datos del conjunto de datos.,
  3. si los dos primeros pasos no resuelven el problema, considere analizar los datos dos veces, una con el punto de datos incluido y otra con el punto de datos excluido. Informe de los resultados de ambos análisis.

otro ejemplo: el conjunto de datos Anscombe #3 (anscombe.txt) nos presenta otro ejemplo de un valor atípico. La gráfica de línea ajustada sugiere que un punto de datos no sigue la tendencia en el resto de los datos.

he Aquí lo que el residual vs, fits plot parece:

El patrón aleatorio ideal de la gráfica residual ha desaparecido, ya que el único valor atípico realmente se desvía del patrón del resto de los datos.

up