nesta secção, aprendemos a utilizar parcelas residuais versus fits (ou predictor) para detectar problemas com o nosso modelo de regressão formulado. Especificamente, investiga-se:
- como uma regressão não-linear a função mostra em um gráfico resíduos vs. ajustes
- o quão desiguais de erro desvios de mostrar em um gráfico resíduos vs. ajustes
- como um outlier mostrar em um gráfico resíduos vs. ajustes.
Note que embora usemos resíduos vs., plots fits ao longo de nossa discussão aqui, nós tão facilmente poderia usar residuals vs. Predictor plots (desde que o predictor é o único no modelo).
como é que uma função de regressão não linear aparece numa parcela residual vs. fits?
a resposta: os resíduos partem de 0 de alguma forma sistemática, como sendo positivos para valores x Pequenos, negativos para valores x médios, e positivos novamente para valores x grandes. Qualquer padrão sistemático (não aleatório) é suficiente para sugerir que a função de regressão não é linear.um exemplo: o desgaste dos pneus está linearmente relacionado com a quilometragem?, a laboratory (Smith Scientific Services, Akron, OH) conducted an experiment in order to answer this research question. Como resultado da experiência, os pesquisadores obtiveram um conjunto de dados (treadwear.txt) contendo a quilometragem (x, em 1000 milhas) impulsionada e a profundidade do sulco restante (y, em mils). A parcela de linha ajustada dos dados resultantes:
sugere que existe uma relação entre a profundidade do sulco e a quilometragem. A relação não é linear., Como é geralmente o caso, os correspondentes resíduos vs. parcelas fits acentuam esta alegação:
Note que os resíduos partem de 0 de forma sistemática. Eles são positivos para valores x Pequenos, negativos para valores x médios, e positivos novamente para valores x grandes. Claramente, um modelo não-linear Descreveria melhor a relação entre as duas variáveis.por acaso, notou que o valor r2 é muito elevado (95,26%)?, Este é um excelente exemplo da cautela ” um grande valor r2 não deve ser interpretado como significando que a linha de regressão estimada se encaixa bem com os dados.”O grande valor r2 diz-lhe que se você quisesse prever a profundidade do sulco, seria melhor levar em conta a quilometragem do que não. Os residuals vs. fits plot diz-lhe, entretanto, que sua predição seria melhor se você formulasse um modelo não-linear ao invés de um linear.
como é que a variância de erro não constante aparece numa parcela residual vs. fits?
a resposta: variância de erro Não constante aparece em um resíduo vs., plotar fits (ou predictor) de uma das seguintes formas:
- A plot tem um efeito de “fanning”. Ou seja, os resíduos estão perto de 0 para valores x pequenos e estão mais espalhados para valores x grandes.a parcela tem um efeito “funneling”. Isto é, os resíduos são distribuídos para pequenos valores x e perto de 0 para grandes valores x.
- ou, a propagação dos resíduos na parcela resíduos vs. fits varia de alguma forma complexa.
um exemplo: como é que a actividade do plutónio está relacionada com a contagem de partículas alfa? O plutónio emite partículas subatómicas chamadas partículas alfa., Dispositivos usados para detectar plutônio registram a intensidade de partículas alfa em contagens por segundo. Para investigar a relação entre a atividade de plutônio (x, em pCi/g) e a taxa de contagem Alfa (y, em número por segundo), um estudo foi realizado em 23 amostras de plutônio. A seguinte parcela de linha ajustada foi obtida nos dados resultantes (alphapluto.txt):
O enredo sugere que existe uma relação linear entre a taxa de contagem alfa e o plutónio atividade., Também sugere que os Termos de erro variam em torno da linha de regressão de uma maneira não-constante — à medida que o nível de plutônio aumenta, não só o aumento médio da taxa de contagem alfa, mas também o aumento da variância. Isto é, a parcela de linha ajustada sugere que a suposição de variâncias iguais é violada. Como é geralmente o caso, o correspondente gráfico resíduos vs. ajustes acentua esta afirmação:
Note-se que os resíduos “fan-out” da esquerda para a direita, em vez de expor um consistente espalhou por todo o resíduo = 0 linha., A parcela residual vs. fits sugere que as variações de erro não são iguais.
como é que um episódio de “outlier” aparece numa parcela de “residuals vs. fits”?
a resposta: os resíduos da observação afastam-se do padrão aleatório básico do resto dos resíduos. O padrão aleatório da parcela residual pode até desaparecer se um mais estranho realmente se desviar do padrão do resto dos dados.um exemplo: existe uma relação entre o consumo de tabaco e o consumo de álcool? O governo britânico realiza regularmente inquéritos sobre as despesas das famílias., Um desses inquéritos (Inquérito às despesas familiares, Ministério do emprego, 1981) determinou a média semanal das despesas com o tabaco (x, em libras britânicas) e a média semanal das despesas com o álcool (y, em libras britânicas) para as famílias em n = 11 regiões diferentes do Reino Unido. A parcela de linha ajustada dos dados resultantes (alcooltobacco.txt):
sugere que existe um outlier — no canto inferior direito da parcela — que corresponde à região da Irlanda do Norte., Na verdade, o mais estranho está tão distante do padrão do resto dos dados que parece estar “puxando a linha” em sua direção. Como é geralmente o caso, o correspondente gráfico resíduos vs. ajustes acentua esta afirmação:
Note que a Irlanda do Norte residuais que se destaca desde os mais básicos, padrão aleatório do restante dos resíduos. Isto é, a parcela residual vs. fits sugere que existe um outlier.,a propósito, este é um excelente exemplo da cautela de que o coeficiente de determinação r2 pode ser muito afetado por apenas um ponto de dados.”Note acima que o valor r2 no conjunto de dados com todas as regiões n = 11 incluídas é de 5%. A remoção da Irlanda do Norte, o ponto de dados a partir do conjunto de dados e montagem da linha de regressão, obtém-se:
Agora, você pode estar se perguntando como grandes residual, tem que ser antes um ponto de dados deve ser sinalizada como sendo um outlier., A resposta não é direta, uma vez que a magnitude dos residuais depende das unidades da variável resposta. Isto é, se as suas medidas são feitas em libras, então as unidades dos resíduos são em libras. E, se suas medidas são feitas em polegadas, então as unidades dos resíduos são em polegadas. Portanto, não há nenhuma “regra de ouro” que possamos definir para sinalizar um residual como sendo excepcionalmente incomum.há uma solução para este problema. Podemos tornar os resíduos “sem unidade” dividindo-os pelo seu desvio padrão., Desta forma, criamos o que se chama “resíduos padronizados.”Eles nos dizem quantos desvios padrão acima-se positivo — ou abaixo — se negativo-um ponto de dados é a partir da linha de regressão estimada. (Note que há uma série de maneiras alternativas de padronizar os resíduos, que vamos considerar na Lição 9.) Lembre-se que a regra empírica nos diz que, para os dados que são normalmente distribuídos, 95% das medições caem dentro de 2 desvios padrão da média., Por conseguinte, quaisquer observações com um resíduo normalizado superior a 2 ou inferior a -2 podem ser assinaladas para investigação posterior. É importante notar que ao usar esta regra “maior que 2, menor que -2”, aproximadamente 5% das medições em um conjunto de dados serão sinalizadas mesmo que estejam perfeitamente bem. É do vosso interesse não tratarem esta regra de ouro como uma regra simples, dura e rápida!, Assim, na maioria dos casos pode ser mais prático investigar mais aprofundadamente quaisquer observações com um resíduo padronizado maior que 3 ou menor que -3 (usando a regra empírica esperaríamos que apenas 0,2% das observações caissem nesta categoria).
O correspondente resíduo padronizado vs. ajustes enredo para o nosso inquérito às despesas exemplo se parece com:
O standardized residual dos suspeitos ponto de dados é menor que -2. Ou seja, o ponto de dados encontra-se mais de 2 desvios-padrão abaixo da sua média., Uma vez que este é um conjunto de dados tão pequeno, o ponto de dados deve ser sinalizado para uma investigação mais aprofundada!incidentalmente, a maioria dos softwares estatísticos identifica observações com grandes resíduos padronizados. Aqui está o que uma parte do Minitab saída para o nosso inquérito às despesas exemplo se parece com:
o Minitab etiquetas observações com grande resíduo padronizado com um “R”. Para o nosso exemplo, o Minitab relatórios de observação #11 — para que o tabaco = 4.56 e álcool = 4.02 — tem um grande standardized residual (-2.58)., O ponto de dados foi assinalado para uma investigação mais aprofundada.Note que eu usei intencionalmente a frase ” sinalizado para a investigação futher.”Eu não disse que o ponto de dados deve ser removido”.”Aqui está minha estratégia recomendada, uma vez que você tenha identificado um ponto de dados como sendo incomum:
- determinar se um simples — e portanto corrigível — erro foi feito na gravação ou introdução do ponto de dados. Exemplos incluem erros de transcrição (gravação 62.1 em vez de 26.1) ou erros de entrada de Dados (Introdução 99.1 em vez de 9.1). Corrige os erros que encontraste.,determinar se a medição foi feita de forma a que a manutenção da unidade experimental no estudo já não possa ser justificada. Algum procedimento não foi realizado de acordo com as diretrizes do estudo? Por exemplo, a pressão arterial de uma pessoa era medida de pé em vez de se sentar? A medição foi feita em alguém que não é da população interessada? Por exemplo, a pesquisa foi completada por um homem em vez de uma mulher? Se for justificável de forma convincente, remova o ponto de dados do conjunto de dados.,se os dois primeiros passos não resolverem o problema, considere analisar os dados duas vezes — uma vez com o ponto de dados incluído e uma vez com o ponto de dados excluído. Relate os resultados de ambas as análises.
outro exemplo: o conjunto de dados Anscombe # 3 (anscombe.txt) nos apresenta outro exemplo de um outlier. A parcela de linha ajustada sugere que um ponto de dados não segue a tendência no resto dos dados.
Aqui está o que o residual vs., cabe enredo parece:
O ideal padrão aleatório do gráfico residual desapareceu, já que o outlier realmente difere do padrão do resto dos dados.
Deixe uma resposta