În această secțiune, învățăm cum să folosim parcele reziduale versus fits (sau predictor) pentru a detecta problemele cu modelul nostru de regresie formulat. În mod special, vom investiga:
- cum o regresie neliniară funcție apare pe un reziduurilor vs se potrivește teren
- cum inegale eroare diferențe apar pe un reziduurilor vs se potrivește teren
- cum o excepție a apărut pe un reziduurilor vs se potrivește complot.
rețineți că, deși vom folosi reziduuri vs., se potrivește parcelelor pe parcursul discuției noastre aici, la fel de ușor am putea folosi reziduuri vs.parcele predictor (cu condiția ca predictorul să fie cel din model).
cum apare o funcție de regresie neliniară pe un complot rezidual vs. fits?
răspunsul: reziduurile se îndepărtează de la 0 într-o manieră sistematică, cum ar fi pozitiv pentru valorile x mici, negativ pentru valorile x medii și din nou pozitiv pentru valorile X mari. Orice model sistematic (non-aleatoriu) este suficient pentru a sugera că funcția de regresie nu este liniară.
Un exemplu: uzura benzii de rulare a anvelopelor este legată liniar de kilometraj?, un laborator (Smith Scientific Services, Akron, OH) a efectuat un experiment pentru a răspunde la această întrebare de cercetare. Ca rezultat al experimentului, cercetătorii au obținut un set de date (treadwear.txt) care conține kilometrajul (x, în 1000 mile) condus și adâncimea canelurii rămase (y, în mils). Montate linie complot din care rezultă date:
sugerează că există o relație între adâncime canelură și kilometraj. Relația nu este liniară., Cum este în general cazul, corespunzător reziduurile vs se potrivește complot accentuează această afirmație:
Rețineți că reziduurile se îndepărteze de la 0 într-o manieră sistematică. Acestea sunt pozitive pentru valorile x mici, negative pentru valorile x medii și pozitive din nou pentru valorile X mari. În mod clar, un model neliniar ar descrie mai bine relația dintre cele două variabile.
întâmplător, ați observat că valoarea r2 este foarte mare (95,26%)?, Acesta este un exemplu excelent de precauție ” o valoare r2 mare nu trebuie interpretată ca însemnând că linia de regresie estimată se potrivește bine datelor.”Valoarea mare r2 vă spune că, dacă doriți să preziceți adâncimea canelurii, ar fi mai bine să țineți cont de kilometraj decât să nu. Reziduurile vs. se potrivește complot vă spune, totuși, că predicția dvs. ar fi mai bine dacă ați formulat un model neliniar, mai degrabă decât unul liniar.
cum apare varianța de eroare non-constantă pe un complot rezidual vs. fits?
răspunsul: varianța de eroare non-constantă apare pe un reziduu vs., se potrivește (sau predictor) complot în oricare dintre următoarele moduri:
- parcela are un efect „fanning”. Adică reziduurile sunt apropiate de 0 pentru valorile x mici și sunt mai răspândite pentru valorile X mari.
- parcela are un efect „funneling”. Adică reziduurile sunt răspândite pentru valori x mici și aproape de 0 pentru valori x mari.
- sau, răspândirea reziduurilor în reziduurile vs. se potrivește complot variază într-un mod complex.un exemplu: cum este legată activitatea plutoniului de numărul de particule alfa? Plutoniul emite particule subatomice-numite particule alfa., Dispozitivele utilizate pentru detectarea plutoniului înregistrează intensitatea loviturilor de particule alfa în număr pe secundă. Pentru a investiga relația dintre activitatea plutoniului (x, în pCi/g) și rata numărului Alfa (y, în număr pe secundă), a fost efectuat un studiu pe 23 de probe de plutoniu. Următorul complot linie montat a fost obținut pe datele rezultate (alphapluto.txt):
terenul sugerează că există o relație liniară între alfa conta rata și plutoniu activitate., De asemenea, sugerează că termenii de eroare variază în jurul liniei de regresie într-o manieră non — constantă-pe măsură ce crește nivelul plutoniului, nu numai că crește rata medie a numărului alfa, ci și varianța crește. Adică, complotul liniei montate sugerează că presupunerea unor diferențe egale este încălcată. Cum este în general cazul, corespunzător reziduurile vs se potrivește complot accentuează această afirmație:
Rețineți că reziduurile „fan-out” de la stânga la dreapta, mai degrabă decât prezintă o concordanță de răspândit în jurul valorii reziduale = 0 linie., Graficul rezidual vs. fits sugerează că variațiile de eroare nu sunt egale.
cum apare un outlier pe un teren rezidual vs. fits?
răspunsul: reziduul observației se deosebește de modelul aleatoriu de bază al restului reziduurilor. Modelul aleatoriu al parcelei reziduale poate chiar să dispară dacă un outlier se abate cu adevărat de la modelul restului datelor.un exemplu: există o relație între consumul de tutun și consumul de alcool? Guvernul britanic efectuează în mod regulat sondaje privind cheltuielile gospodăriilor., Un astfel de studiu (Family Expenditure Survey, Department of Employment, 1981) a determinat cheltuielile săptămânale medii pentru tutun (x, în lire sterline) și cheltuielile săptămânale medii pentru alcool (y, în lire sterline) pentru gospodăriile din n = 11 regiuni diferite din Regatul Unit. Graficul liniei montate a datelor rezultate (alcooltutun.txt):
sugerează că există o excepție — în colțul din dreapta jos a parcelei — care corespunde Irlanda de Nord regiune., De fapt, outlier este atât de departe de modelul restului de date, încât pare să „tragă linia” în direcția sa. Cum este în general cazul, corespunzător reziduurile vs se potrivește complot accentuează această afirmație:
Rețineți că Irlanda de Nord este reziduale se află în afară de bază tipar aleatoriu din restul de reziduuri. Adică, complotul rezidual vs. fits sugerează că există o depășire.,de altfel, acesta este un exemplu excelent de precauție că „coeficientul de determinare r2 poate fi afectat foarte mult de un singur punct de date.”Rețineți mai sus că valoarea r2 din setul de date cu toate regiunile n = 11 incluse este de 5%. Scoaterea din Irlanda de Nord punct de date din setul de date, și retehnologizare linie de regresie, vom obține:
Acum, ați putea fi întrebați cât de mare o reziduală trebuie să fie înainte de un punct de date ar trebui să fie marcate ca fiind o excepție., Răspunsul nu este simplu, deoarece mărimea reziduurilor depinde de unitățile variabilei de răspuns. Adică, dacă măsurătorile dvs. sunt făcute în kilograme, atunci unitățile reziduurilor sunt în kilograme. Și, dacă măsurătorile dvs. sunt făcute în centimetri, atunci unitățile reziduurilor sunt în centimetri. Prin urmare, nu există o „regulă de degetul mare” pe care să o putem defini pentru a semnala un rezidual ca fiind excepțional de neobișnuit.
există o soluție la această problemă. Putem face reziduurile „unitare” împărțind-le prin abaterea lor standard., În acest fel, creăm ceea ce se numește „reziduuri standardizate.”Ei ne spun câte abateri standard deasupra — dacă sunt pozitive — sau mai jos — dacă sunt negative-un punct de date este din linia de regresie estimată. (Rețineți că există o serie de modalități alternative de standardizare a reziduurilor, pe care le vom lua în considerare în Lecția 9.) Reamintim că regula empirică ne spune că, pentru datele care sunt distribuite în mod normal, 95% din măsurători se încadrează în 2 abateri standard ale mediei., Prin urmare, orice observații cu un rezidual standardizat mai mare de 2 sau mai mic de -2 ar putea fi semnalizate pentru investigații suplimentare. Este important să rețineți că, folosind această „mai mare de 2, mai mică decât -2 regulă,” aproximativ 5% din măsurătorile într-un set de date vor fi marcate, chiar dacă acestea sunt perfect în regulă. Este în interesul dvs. să nu tratați această regulă de degetul mare ca o regulă tăiată și uscată, cred-it-to-the-OS, tare și rapidă!, Deci, în majoritatea cazurilor, poate fi mai practic să investigăm în continuare orice observații cu un rezidual standardizat mai mare de 3 sau mai mic decât -3 (folosind regula empirică ne-am aștepta ca doar 0, 2% din Observații să se încadreze în această categorie).
corespunzătoare reziduurilor standardizate vs se potrivește complot pentru cheltuieli sondaj exemplu arata ca:
standardizate reziduale de suspect punct de date este mai mic decât -2. Adică, punctul de date se află la mai mult de 2 abateri standard sub media sa., Deoarece acesta este un set de date atât de mic, punctul de date ar trebui să fie semnalat pentru investigații suplimentare!de altfel, majoritatea programelor statistice identifică observațiile cu reziduuri standardizate mari. Aici este ceea ce o parte din Minitab ieșire pentru cheltuieli sondaj exemplu arata ca:
Minitab etichete observații cu mare reziduurilor standardizate cu un „r”. Pentru exemplul nostru, Minitab rapoarte care observare #11 — pentru care tutunul = 4.56 și alcool = 4.02 — are o mare standardizate reziduale (-2.58)., Punctul de date a fost semnalat pentru investigații suplimentare.
rețineți că am folosit în mod intenționat expresia „marcat pentru investigații ulterioare.”Nu am spus că punctul de date ar trebui să fie „eliminat.”Iată strategia mea recomandată, odată ce ați identificat un punct de date ca fiind neobișnuit:
- determinați dacă a fost făcută o greșeală simplă — și, prin urmare, corectabilă — în înregistrarea sau introducerea punctului de date. Exemplele includ erori de transcriere (înregistrarea 62.1 în loc de 26.1) sau erori de introducere a datelor (introducerea 99.1 în loc de 9.1). Corectați greșelile pe care le-ați găsit.,
- determinați dacă măsurarea a fost făcută astfel încât păstrarea unității experimentale în studiu nu mai poate fi justificată. A fost o procedură care nu a fost efectuată conform ghidurilor de studiu? De exemplu, a fost măsurată tensiunea arterială a unei persoane în picioare, mai degrabă decât să stea jos? Măsurarea a fost făcută pe cineva care nu este în populația de interes? De exemplu, sondajul a fost completat de un bărbat în locul unei femei? Dacă este convingător justificabil, eliminați punctul de date din setul de date.,
- dacă primii doi pași nu rezolvă problema, luați în considerare analizarea datelor de două ori — o dată cu punctul de date inclus și o dată cu punctul de date exclus. Raportați rezultatele ambelor analize.un alt exemplu: setul de date Anscombe #3 (anscombe.txt) ne prezintă un alt exemplu de depășire. Graficul liniei montate sugerează că un punct de date nu urmează tendința în restul datelor.
Aici e ceea ce reziduale vs, se potrivește teren arata ca:
ideal tipar aleatoriu reziduale complot a dispărut, deoarece una excepțională într-adevăr se abate de la modelul de restul datelor.
up
Lasă un răspuns