In questa sezione, impariamo come utilizzare residui contro fits (o predictor) grafici per rilevare problemi con il nostro modello di regressione formulato. In particolare, indaghiamo:

  • come una funzione di regressione non lineare si presenta su un grafico residuals vs. fits
  • come le varianze di errore disuguali si presentano su un grafico residuals vs. fits
  • come un outlier si presenta su un grafico residuals vs. fits.

Si noti che anche se useremo residui vs., adatta i grafici durante la nostra discussione qui, potremmo altrettanto facilmente utilizzare i residui rispetto ai grafici predittori (fornendo che il predittore è quello nel modello).

Come viene visualizzata una funzione di regressione non lineare su un grafico residuo rispetto a fits?

La risposta: I residui partono da 0 in modo sistematico, come essere positivi per valori x piccoli, negativi per valori x medi e positivi di nuovo per valori x grandi. Qualsiasi modello sistematico (non casuale) è sufficiente a suggerire che la funzione di regressione non sia lineare.

Un esempio: l’usura del battistrada è linearmente correlata al chilometraggio?, Un laboratorio (Smith Scientific Services, Akron, OH) ha condotto un esperimento per rispondere a questa domanda di ricerca. Come risultato dell’esperimento, i ricercatori hanno ottenuto un set di dati (treadwear.txt) contenente il chilometraggio (x, in 1000 miglia) guidato e la profondità della scanalatura rimanente (y, in mils). Il diagramma di linea montato dei dati risultanti:

suggerisce che esiste una relazione tra profondità della scanalatura e chilometraggio. La relazione non è lineare., Come è generalmente il caso, i residui corrispondenti vs. fits plot accentuano questa affermazione:

Si noti che i residui partono da 0 in modo sistematico. Sono positivi per valori x piccoli, negativi per valori x medi e positivi di nuovo per valori x grandi. Chiaramente, un modello non lineare descriverebbe meglio la relazione tra le due variabili.

Per inciso, hai notato che il valore r2 è molto alto (95,26%)?, Questo è un eccellente esempio della cautela ” un grande valore r2 non dovrebbe essere interpretato nel senso che la linea di regressione stimata si adatta bene ai dati.”Il grande valore r2 ti dice che se volessi prevedere la profondità della scanalatura, sarebbe meglio prendere in considerazione il chilometraggio che non. La trama residuals vs. fits ti dice, tuttavia, che la tua previsione sarebbe migliore se formulassi un modello non lineare piuttosto che lineare.

Come viene visualizzata la varianza di errore non costante su un grafico residuo rispetto a fits?

La risposta: la varianza di errore non costante viene visualizzata su un residuo rispetto a, fits (o predictor) plot in uno dei seguenti modi:

  • La trama ha un effetto “fanning”. Cioè, i residui sono vicini a 0 per valori x piccoli e sono più distribuiti per valori x grandi.
  • La trama ha un effetto “imbuto”. Cioè, i residui sono distribuiti per valori x piccoli e vicini a 0 per valori x grandi.
  • Oppure, la diffusione dei residui nei residui rispetto alla trama fits varia in modo complesso.

Un esempio: in che modo l’attività del plutonio è correlata al conteggio delle particelle alfa? Il plutonio emette particelle subatomiche – chiamate particelle alfa., I dispositivi utilizzati per rilevare il plutonio registrano l’intensità dei colpi di particelle alfa in conteggi al secondo. Per studiare la relazione tra attività del plutonio (x, in pCi/g) e tasso di conteggio alfa (y, in numero al secondo), è stato condotto uno studio su 23 campioni di plutonio. Il seguente diagramma di linea montato è stato ottenuto sui dati risultanti (alphapluto.txt):

La trama suggerisce che esiste una relazione lineare tra il tasso di conteggio alfa e l’attività del plutonio., Suggerisce anche che i termini di errore variano intorno alla linea di regressione in modo non costante-man mano che il livello di plutonio aumenta, non solo aumenta il tasso medio di conteggio alfa, ma aumenta anche la varianza. Cioè, la trama della linea montata suggerisce che l’assunzione di uguali varianze viene violata. Come è generalmente il caso, i residui corrispondenti vs. fits plot accentuano questa affermazione:

Si noti che i residui “si espandono” da sinistra a destra piuttosto che mostrare uno spread coerente attorno alla linea residua = 0., La trama residua rispetto a fits suggerisce che le varianze di errore non sono uguali.

Come viene visualizzato un outlier su un grafico residuals vs fits?

La risposta: il residuo dell’osservazione si distingue dal modello casuale di base del resto dei residui. Il modello casuale del grafico residuo può persino scomparire se un outlier si discosta davvero dal modello del resto dei dati.

Un esempio: esiste una relazione tra l’uso di tabacco e l’uso di alcol? Il governo britannico conduce regolarmente indagini sulla spesa delle famiglie., Una di queste indagini (Family Expenditure Survey, Department of Employment, 1981) ha determinato la spesa media settimanale per il tabacco (x, in sterline inglesi) e la spesa media settimanale per l’alcol (y, in sterline inglesi) per le famiglie in n = 11 diverse regioni del Regno Unito. La trama della linea montata dei dati risultanti (alcooltobacco.txt):

suggerisce che c’è un outlier — nell’angolo in basso a destra del grafico — che corrisponde alla regione dell’Irlanda del Nord., In effetti, l’outlier è così lontano dal modello del resto dei dati che sembra “tirare la linea” nella sua direzione. Come è generalmente il caso, i residui corrispondenti vs. fits plot accentuano questa affermazione:

Si noti che il residuo dell’Irlanda del Nord si distingue dal modello casuale di base del resto dei residui. Cioè, la trama residua rispetto a fits suggerisce che esiste un outlier.,

Per inciso, questo è un eccellente esempio della cautela che il “coefficiente di determinazione r2 può essere fortemente influenzato da un solo punto dati.”Si noti sopra che il valore r2 sul set di dati con tutte le regioni n = 11 incluse è 5%. Rimuovendo il punto dati dell’Irlanda del Nord dal set di dati e rimettendo la linea di regressione, otteniamo:

Ora, ci si potrebbe chiedere quanto deve essere grande un residuo prima che un punto dati debba essere contrassegnato come un outlier., La risposta non è semplice, poiché la grandezza dei residui dipende dalle unità della variabile di risposta. Cioè, se le tue misurazioni sono fatte in sterline, allora le unità dei residui sono in sterline. E, se le tue misure sono fatte in pollici, le unità dei residui sono in pollici. Pertanto, non esiste una “regola empirica” che possiamo definire per contrassegnare un residuo come eccezionalmente insolito.

C’è una soluzione a questo problema. Possiamo rendere i residui “senza unità” dividendoli per la loro deviazione standard., In questo modo creiamo quelli che vengono chiamati “residui standardizzati.”Ci dicono quante deviazioni standard sopra – se positivo-o sotto – se negativo-un punto di dati è dalla linea di regressione stimata. (Si noti che ci sono un certo numero di modi alternativi per standardizzare i residui, che considereremo nella Lezione 9.) Ricordiamo che la regola empirica ci dice che, per i dati che sono normalmente distribuiti, il 95% delle misurazioni rientra in 2 deviazioni standard della media., Pertanto, eventuali osservazioni con un residuo standardizzato superiore a 2 o inferiore a -2 potrebbero essere contrassegnate per ulteriori indagini. È importante notare che usando questa regola “maggiore di 2, minore di -2”, circa il 5% delle misurazioni in un set di dati verrà contrassegnato anche se sono perfettamente a posto. E ‘ nel vostro interesse a non trattare questa regola empirica come un taglio-e-secca, believe-it-to-the-bone, regola dura e veloce!, Quindi, nella maggior parte dei casi può essere più pratico indagare ulteriormente eventuali osservazioni con un residuo standardizzato maggiore di 3 o inferiore a -3 (usando la regola empirica ci aspetteremmo che solo lo 0,2% delle osservazioni rientrasse in questa categoria).

Il corrispondente grafico dei residui standardizzati rispetto a fits per il nostro esempio di indagine sulle spese è simile a:

Il residuo standardizzato del punto dati sospetto è inferiore a -2. Cioè, il punto dati si trova più di 2 deviazioni standard al di sotto della sua media., Poiché si tratta di un set di dati così piccolo il punto dati dovrebbe essere contrassegnato per ulteriori indagini!

Per inciso, la maggior parte dei software statistici identifica le osservazioni con grandi residui standardizzati. Ecco come appare una parte dell’output di Minitab per il nostro esempio di indagine sulle spese:

Minitab etichetta le osservazioni con grandi residui standardizzati con una “R.” Per il nostro esempio, Minitab riporta che l’osservazione #11 — per la quale tobacco = 4.56 e alcohol = 4.02 — ha (-2,58)., Il punto dati è stato contrassegnato per ulteriori indagini.

Nota che ho intenzionalmente usato la frase ” contrassegnato per ulteriori indagini.”Non ho detto che il punto dati dovrebbe essere” rimosso.”Ecco la mia strategia consigliata, una volta identificato un punto dati come insolito:

  1. Determina se è stato commesso un errore semplice — e quindi correggibile — nella registrazione o nell’inserimento del punto dati. Gli esempi includono errori di trascrizione (registrazione 62.1 invece di 26.1) o errori di immissione dei dati (immissione 99.1 invece di 9.1). Correggere gli errori che hai trovato.,
  2. Determinare se la misurazione è stata effettuata in modo tale che mantenere l’unità sperimentale nello studio non possa più essere giustificata. Alcune procedure non sono state condotte secondo le linee guida dello studio? Ad esempio, la pressione sanguigna di una persona è stata misurata in piedi piuttosto che seduta? La misurazione è stata fatta su qualcuno non nella popolazione di interesse? Ad esempio, il sondaggio è stato completato da un uomo anziché da una donna? Se è giustificabile in modo convincente, rimuovere il punto dati dal set di dati.,
  3. Se i primi due passaggi non risolvono il problema, considerare l’analisi dei dati due volte, una volta con il punto dati incluso e una volta con il punto dati escluso. Riportare i risultati di entrambe le analisi.

Un altro esempio: Il set di dati Anscombe #3 (anscombe.txt) ci presenta un altro esempio di un outlier. Il grafico a linee montato suggerisce che un punto dati non segue la tendenza nel resto dei dati.

Ecco cosa il residuo vs., fits plot assomiglia a:

Il pattern casuale ideale del plot residuo è scomparso, poiché l’outlier si discosta davvero dal pattern del resto dei dati.

su