dans cette section, nous apprenons comment utiliser les tracés résiduels versus les tracés d’ajustement (ou de prédicteur) pour détecter les problèmes avec notre modèle de régression formulé. Plus précisément, nous étudions:

  • comment une fonction de régression non linéaire apparaît sur un tracé résiduel par rapport à fits
  • comment des variances d’erreur inégales apparaissent sur un tracé résiduel par rapport à fits
  • comment une valeur aberrante apparaît sur un tracé résiduel par rapport à fits.

notez que bien que nous utiliserons des résidus vs., convient aux diagrammes tout au long de notre discussion ici, nous pourrions tout aussi facilement utiliser des résidus par rapport aux diagrammes de prédicteur (à condition que le prédicteur soit celui du modèle).

comment une fonction de régression non linéaire apparaît-elle sur un graphique résiduel par rapport à fits?

la réponse: les résidus partent de 0 de manière systématique, comme être positifs pour les petites valeurs x, négatifs pour les valeurs x moyennes et positifs à nouveau pour les grandes valeurs X. Tout modèle systématique (non aléatoire) est suffisant pour suggérer que la fonction de régression n’est pas linéaire.

un exemple: l’usure de la bande de roulement est-elle linéairement liée au kilométrage?, un laboratoire (Smith Scientific Services, Akron, OH) a mené une expérience afin de répondre à cette question de recherche. À la suite de l’expérience, les chercheurs ont obtenu un ensemble de données (treadwear.TXT) contenant le kilométrage (x, en 1000 miles) parcouru et la profondeur de la rainure restante (y, en mils). Le tracé linéaire ajusté des données résultantes:

suggère qu’il existe une relation entre la profondeur de rainure et le kilométrage. La relation n’est tout simplement pas linéaire., Comme c’est généralement le cas, le tracé des résidus par rapport aux ajustements accentue cette affirmation:

notez que les résidus partent de 0 de manière systématique. Ils sont positifs pour les petites valeurs x, négatifs pour les valeurs x moyennes et positifs à nouveau pour les grandes valeurs X. De toute évidence, un modèle non linéaire décrirait mieux la relation entre les deux variables.

incidemment, avez-vous remarqué que la valeur r2 est très élevée (95,26%)?, Ceci est un excellent exemple de la mise en garde « une grande valeur de r2 ne doit pas être interprétée comme signifiant que la droite de régression estimée correspond bien aux données. »La grande valeur r2 vous indique que si vous vouliez prédire la profondeur de rainure, vous feriez mieux de prendre en compte le kilométrage que de ne pas le faire. Le graphique residuals vs. fits vous indique cependant que votre prédiction serait meilleure si vous formuliez un modèle non linéaire plutôt qu’un modèle linéaire.

comment la variance d’erreur non constante apparaît-elle sur un graphique résiduel par rapport à fits?

la réponse: la variance d’erreur Non constante apparaît sur un résidu vs., adapte le tracé (ou le prédicteur) de l’une des manières suivantes:

  • Le tracé a un effet « fanning ». Autrement dit, les résidus sont proches de 0 pour les petites valeurs x et sont plus étalés pour les grandes valeurs X.
  • l’intrigue a un effet « entonnoir ». Autrement dit, les résidus sont étalés pour les petites valeurs x et proches de 0 pour les grandes valeurs X.
  • Or, la propagation des résidus dans le diagramme résidus vs fits varie d’une manière complexe.

Un exemple: comment l’activité du plutonium est-elle liée au nombre de particules alpha? Le Plutonium émet des particules subatomiques-appelées particules alpha., Les appareils utilisés pour détecter le plutonium enregistrent l’intensité des frappes de particules alpha en nombre par seconde. Pour étudier la relation entre l’activité du plutonium (x, en pCi/g) et le taux de comptage alpha (y, en nombre par seconde), une étude a été menée sur 23 échantillons de plutonium. Le tracé linéaire ajusté suivant a été obtenu sur les données résultantes (alphapluto.txt):

L’intrigue suggère qu’il existe une relation linéaire entre alpha taux de comptage et de plutonium activité., Il suggère également que les Termes d’erreur varient autour de la droite de régression de manière non constante-à mesure que le niveau de plutonium augmente, non seulement le taux moyen de comptage alpha augmente, mais aussi la variance augmente. Autrement dit, le graphique en ligne ajustée suggère que l’hypothèse de variances égales est violée. Comme c’est généralement le cas, le graphique residuals vs. fits correspondant accentue cette affirmation:

notez que les résidus « se fanent » de gauche à droite plutôt que de présenter une propagation cohérente autour de la ligne résiduelle = 0., Le graphique résiduel vs. fits suggère que les variances d’erreur ne sont pas égales.

comment une valeur aberrante apparaît-elle sur un graphique residuals vs. fits?

la réponse: le résidu de l’observation se distingue du modèle aléatoire de base du reste des résidus. Le modèle aléatoire du tracé résiduel peut même disparaître si une valeur aberrante s’écarte vraiment du modèle du reste des données.

un exemple: Existe-t-il une relation entre la consommation de tabac et la consommation d’alcool? Le gouvernement Britannique mène régulièrement des enquêtes sur les dépenses des ménages., Une de ces enquêtes (Family Expenditure Survey, Department of Employment, 1981) a déterminé les dépenses hebdomadaires moyennes en tabac (x, en livres britanniques) et les dépenses hebdomadaires moyennes en alcool (y, en livres britanniques) pour les ménages de n = 11 régions différentes du Royaume-Uni. Le tracé linéaire ajusté des données résultantes (alcohtobacco.txt):

suggère qu’il y a une valeur aberrante — dans le coin inférieur droit de la parcelle — qui correspond à la région D’Irlande Du Nord., En fait, la valeur aberrante est si éloignée du modèle du reste des données qu’elle semble « tirer la ligne » dans sa direction. Comme c’est généralement le cas, le tracé des résidus correspondants par rapport aux fits accentue cette affirmation:

notez que le résidu D’Irlande Du Nord se distingue du modèle aléatoire de base du reste des résidus. Autrement dit, le diagramme résiduel vs. fits suggère qu’une valeur aberrante existe.,

incidemment, c’est un excellent exemple de la mise en garde que le « coefficient de détermination r2 peut être grandement affecté par un seul point de données. »Notez ci-dessus que la valeur r2 sur l’ensemble de données avec toutes les régions n = 11 incluses est de 5%. En supprimant le point de données de L’Irlande Du Nord de l’ensemble de données et en remettant la droite de régression, nous obtenons:

Maintenant, vous vous demandez peut-être Quelle est la taille d’un résidu avant qu’un point de données ne soit signalé comme, La réponse n’est pas simple, car l’ampleur des résidus dépend des unités de la variable de réponse. Autrement dit, si vos mesures sont faites en livres, alors les unités des résidus sont en livres. Et, si vos mesures sont faites en pouces, alors les unités des résidus sont en pouces. Par conséquent, il n’y a pas une « règle empirique » que nous pouvons définir pour marquer un résidu comme étant exceptionnellement inhabituel.

Il existe une solution à ce problème. Nous pouvons rendre les résidus « sans unité » en les divisant par leur écart type., De cette façon, nous créons ce que l’on appelle des « résidus standardisés. »Ils nous indiquent le nombre d’écarts — types au — dessus — s’ils sont positifs — ou au-dessous-s’ils sont négatifs-d’un point de données par rapport à la ligne de régression estimée. (Notez qu’il existe un certain nombre de façons alternatives de normaliser les résidus, que nous examinerons dans la leçon 9.) Rappelons que la règle empirique nous dit que, pour les données qui sont normalement distribuées, 95% des mesures se situent dans les 2 écarts-types de la moyenne., Par conséquent, toute observation avec un résidu normalisé supérieur à 2 ou inférieur à -2 pourrait être signalée pour une étude plus approfondie. Il est important de noter qu’en utilisant cette règle « supérieure à 2, inférieure à -2 », environ 5% des mesures d’un ensemble de données seront signalées même si elles sont parfaitement correctes. Il est dans votre intérêt de ne pas traiter cette règle empirique comme une règle coupée et séchée, croyez-le-à-l’OS, dure et rapide!, Ainsi, dans la plupart des cas, il peut être plus pratique d’étudier plus Avant toutes les observations avec un résidu standardisé supérieur à 3 ou inférieur à -3 (en utilisant la règle empirique, nous nous attendons à ce que seulement 0,2% des observations entrent dans cette catégorie).

le graphique correspondant des résidus normalisés par rapport aux fits pour notre exemple d’enquête sur les dépenses ressemble à:

Le résidu normalisé du point de données suspect est inférieur à -2. Autrement dit, le point de données se trouve à plus de 2 écarts types en dessous de sa moyenne., Comme il s’agit d’un si petit ensemble de données le point de données doit être signalé pour une enquête plus approfondie!

incidemment, la plupart des logiciels statistiques identifient les observations avec de grands résidus normalisés. Voici à quoi ressemble une partie des résultats de Minitab pour notre exemple d’enquête sur les dépenses:

Minitab étiquette les observations avec de grands résidus normalisés avec un « R ». pour notre exemple, Minitab rapporte que l’observation #11 — pour laquelle le tabac = 4,56 et l’alcool = 4,02 — a (-2.58)., Le point de données a été signalé pour une enquête plus approfondie.

notez que j’ai intentionnellement utilisé l’expression « signalé pour une enquête ultérieure. »Je n’ai pas dit que le point de données devrait être » supprimé. »Voici ma stratégie recommandée, une fois que vous avez identifié un point de données comme inhabituel:

  1. déterminez si une erreur simple — et donc corrigible — a été commise lors de l’enregistrement ou de la saisie du point de données. Les exemples incluent des erreurs de transcription (enregistrement 62.1 au lieu de 26.1) ou des erreurs de saisie de données (saisie 99.1 au lieu de 9.1). Corrigez les erreurs que vous avez trouvées.,
  2. déterminer si la mesure a été faite de telle manière que le maintien de l’unité expérimentale dans l’étude ne peut plus être justifié. Certaines procédures n & apos; ont-elles pas été menées conformément aux directives de l & apos; étude? Par exemple, la pression artérielle d’une personne a-t-elle été mesurée debout plutôt que assise? A la mesure effectuée sur quelqu’un pas dans la population d’intérêt? Par exemple, l’enquête menée par un homme plutôt qu’une femme? Si cela est justifiable de manière convaincante, supprimez le point de données de l’ensemble de données.,
  3. Si les deux premières étapes ne résolvent pas le problème, envisagez d’analyser les données deux fois — une fois avec le point de données inclus et une fois avec le point de données exclu. Rapportez les résultats des deux analyses.

autre exemple: L’ensemble de données Anscombe #3 (anscombe.txt) nous présente un autre exemple de valeur aberrante. Le graphique linéaire ajusté suggère qu’un point de données ne suit pas la tendance du reste des données.

Voici ce que le résiduel vs, fits plot ressemble à:

le modèle aléatoire idéal du tracé résiduel a disparu, car la valeur aberrante s’écarte vraiment du modèle du reste des données.

up