Calcule Os Resíduos Em Stata Forex


AVISO: O grupo de consultoria estatística IDRE estará migrando o site para o WordPress CMS em fevereiro para facilitar a manutenção e criação de novos conteúdos. Algumas de nossas páginas antigas serão removidas ou arquivadas de modo que elas não serão mais mantidas. Vamos tentar manter os redirecionamentos para que os URLs antigos continuem a funcionar da melhor maneira possível. Bem-vindo ao Instituto de Pesquisa e Educação Digital, ajudando o Grupo de Consultoria Stat, dando um presente Stata Web Books Regression com Stata Capítulo 2 - Diagnóstico de Regressão Capítulo Outline 2.0 Diagnósticos de Regressão 2.1 Dados incomuns e influentes 2.2 Verificação da Normalidade de Residuais 2.3 Verificação de Homoscedasticidade 2.4 Verificação de Multicollinearidade 2.5 Verificar Linearidade 2.6 Especificação do Modelo 2.7 Questões de Independência 2.8 Resumo 2.9 Auto-avaliação 2.10 Para mais informações 2.0 Diagnóstico de Regressão No capítulo anterior, aprendemos a fazer regressão linear ordinária com a Stata, concluindo com métodos para examinar a distribuição de nossas variáveis. Sem verificar se seus dados atendem aos pressupostos subjacentes à regressão OLS, seus resultados podem ser enganosos. Este capítulo irá explorar como você pode usar o Stata para verificar a forma como seus dados atendem aos pressupostos da regressão OLS. Em particular, consideraremos os seguintes pressupostos. Linearidade - as relações entre os preditores e a variável de resultado devem ser linear Normalidade - os erros devem ser normalmente distribuídos - tecnicamente, a normalidade é necessária apenas para que os testes de hipóteses sejam válidos, a estimativa dos coeficientes requer apenas que os erros sejam distribuídos de forma idêntica e independente Homogeneidade De variância (homoscedasticidade) - a variação do erro deve ser constante Independência - os erros associados a uma observação não estão correlacionados com os erros de qualquer outra observação. Erros nas variáveis ​​- as variáveis ​​preditoras são medidas sem erro (abordaremos isso no Capítulo 4) Modelo Especificação - o modelo deve ser devidamente especificado (incluindo todas as variáveis ​​relevantes e excluindo variáveis ​​irrelevantes) Além disso, há problemas que podem surgir durante a análise que, embora estritamente falando, não são pressupostos de regressão, são, no entanto, de grande preocupação para Analistas de dados. Influência - observações individuais que exercem uma influência indevida sobre os coeficientes. Os fatores de colinearidade - preditores que são altamente colineares, ou seja, relacionados linearmente, podem causar problemas na estimativa dos coeficientes de regressão. Muitos métodos gráficos e testes numéricos foram desenvolvidos ao longo dos anos para diagnósticos de regressão. A Stata tem muitos desses métodos integrados, e outros estão disponíveis, que podem ser baixados pela internet. Em particular, Nicholas J. Cox (Universidade de Durham) produziu uma coleção de comandos de conveniência que podem ser baixados do SSC (ssc install commandname). Esses comandos incluem indexplot. Rvfplot2. Rdplot. Qfrplot e ovfplot. Neste capítulo, exploraremos esses métodos e mostraremos como verificar os pressupostos de regressão e detectar potenciais problemas usando o Stata. 2.1 Dados incomuns e influentes Uma observação única que é substancialmente diferente de todas as outras observações pode fazer uma grande diferença nos resultados de sua análise de regressão. Se uma única observação (ou pequeno grupo de observações) muda substancialmente seus resultados, você gostaria de saber sobre isso e investigar mais. Existem três maneiras pelas quais uma observação pode ser incomum. Outliers. Na regressão linear, um outlier é uma observação com grande residual. Em outras palavras, é uma observação cujo valor de variável dependente é incomum, dado seus valores nas variáveis ​​preditoras. Um outlier pode indicar uma peculiaridade da amostra ou pode indicar um erro de entrada de dados ou outro problema. Alavancagem. Uma observação com um valor extremo em uma variável de preditor é chamada de ponto com grande alavancagem. A vantagem é uma medida de quão longe uma observação se desvia da média dessa variável. Esses pontos de alavancagem podem ter um efeito sobre a estimativa dos coeficientes de regressão. Influência. Considera-se que uma observação é influente se a remoção da observação altera substancialmente a estimativa dos coeficientes. A influência pode ser considerada como o produto de alavancagem e outlookness. Como podemos identificar esses três tipos de observações Vamos ver um exemplo de conjunto de dados chamado crime. Este conjunto de dados aparece em Métodos Estatísticos para Ciências Sociais, Terceira Edição de Alan Agresti e Barbara Finlay (Prentice Hall, 1997). As variáveis ​​são ID de estado (sid), nome do estado (estado), crimes violentos por 100.000 pessoas (crime), assassinatos por 1.000.000 (assassinato), a porcentagem da população que vive em áreas metropolitanas (pctmetro), a porcentagem da população que É branco (pctwhite), porcentagem de população com educação secundária ou superior (pcths), porcentagem de população vivendo abaixo da linha de pobreza (pobreza) e porcentagem da população que são pais solteiros (solteira). Digamos que queremos prever o crime pelo pctmetro. Pobreza. E solteira. Ou seja, queremos construir um modelo de regressão linear entre o crime variável de resposta e as variáveis ​​independentes pctmetro. Pobreza e solteira. Em primeiro lugar, analisaremos as dispersões de crimes contra cada uma das variáveis ​​preditoras antes da análise de regressão, então teremos algumas idéias sobre problemas potenciais. Podemos criar uma matriz de dispersão dessas variáveis ​​como mostrado abaixo. Os gráficos do crime com outras variáveis ​​mostram alguns problemas potenciais. Em cada parcela, vemos um ponto de dados que está longe do resto dos pontos de dados. Permite criar gráficos individuais de crime com pctmetro e pobreza e solteiros para que possamos obter uma visão melhor desses pontos de dispersão. Vamos adicionar a opção mlabel (estado) para rotular cada marcador com o nome do estado para identificar estados periféricos. Todas as parcelas de dispersão sugerem que a observação para o estado dc é um ponto que requer atenção extra, uma vez que se destaca de todos os outros pontos. Nós teremos isso em mente quando fizermos nossa análise de regressão. Agora, vamos tentar o comando de regressão que prevê o crime de pctmetro pobreza e solteiro. Iremos passo a passo para identificar todos os pontos potencialmente incomuns ou influentes depois. Examinamos os resíduos estudados como um primeiro meio para identificar outliers. Abaixo, usamos o comando predizer com a opção rstudent para gerar resíduos estudados e nomeamos os resíduos r. Podemos escolher qualquer nome que desejamos, desde que seja um nome de variável legal da Stata. Os resíduos estudados são um tipo de resíduo padronizado que pode ser usado para identificar outliers. Vamos examinar os resíduos com um caule e uma parcela de folhas. Vemos três resíduos que ficam para fora, -3,57, 2,62 e 3,77. A exibição de caule e folhas nos ajuda a ver alguns outliers potenciais, mas não podemos ver qual estado (quais observações) são possíveis outliers. Permite ordenar os dados sobre os resíduos e mostrar os 10 maiores e 10 menores resíduos juntamente com o ID do estado e o nome do estado. Observe que no comando da segunda lista o -10l o último valor é a letra quotlquot, NÃO o número um. Devemos prestar atenção aos resíduos estudados que excedem 2 ou -2 e ficar ainda mais preocupados com os resíduos que excedem 2,5 ou -2,5 e ainda mais preocupados com os resíduos que excedem 3 ou -3. Estes resultados mostram que DC e MS são as observações mais preocupantes seguidas por FL. Outra maneira de obter esse tipo de saída é com um comando chamado hilo. Você pode fazer o download do hilo dentro do Stata digitando findit hilo (consulte Como eu usei o comando findit para procurar programas e obter ajuda adicional para obter mais informações sobre o uso do findit). Uma vez instalado, você pode digitar o seguinte e obter uma saída semelhante à acima, digitando apenas um comando. Mostramos todas as variáveis ​​em nossa regressão, onde o residencial estudado excede 2 ou -2, ou seja, onde o valor absoluto do residual excede 2. Nós vemos os dados para os três outliers potenciais que identificamos, a saber, Flórida, Mississippi e Washington DC Looking Cuidadosamente nessas três observações, não conseguimos encontrar nenhum erro de entrada de dados, embora possamos querer fazer outra análise de regressão com o ponto extremo como DC excluído. Voltaremos a esta questão mais tarde. Agora, olhemos as alavancas para identificar as observações que terão grande influência nas estimativas do coeficiente de regressão. Usamos o show (5) opções altas no comando hilo para mostrar apenas as 5 maiores observações (a opção alta pode ser abreviada como h). Nós vemos que a DC tem a maior alavancagem. Geralmente, um ponto com alavancagem superior a (2k2) n deve ser cuidadosamente examinado. Aqui k é o número de preditores e n é o número de observações. No nosso exemplo, podemos fazer o seguinte. Como já vimos, a DC é uma observação de que ambos possuem grande alavanca residual e grande. Tais pontos são potencialmente os mais influentes. Podemos fazer uma trama que mostra a alavancagem pelo quadrado residual e procurar observações que sejam conjuntamente elevadas em ambas as medidas. Podemos fazer isso usando o comando lvr2plot. Lvr2plot significa alavancagem versus parcela quadrada residual. Usando o quadrado residual em vez do próprio resíduo, o gráfico é restrito ao primeiro quadrante e as posições relativas dos pontos de dados são preservadas. Esta é uma maneira rápida de verificar possíveis observações influentes e outliers ao mesmo tempo. Ambos os tipos de pontos são de grande preocupação para nós. As duas linhas de referência são o meio de alavancagem, horizontal e para o restante normalizado ao quadrado, vertical. Os pontos que imediatamente chamam nossa atenção são DC (com a maior alavancagem) e MS (com o maior quadrado residual residual). Bem, olhe essas observações com mais cuidado listando-as. Agora vamos passar para medidas gerais de influência, especificamente vamos olhar Cooks D e DFITS. Essas medidas combinam informações sobre o residual e alavancagem. Cooks D e DFITS são muito semelhantes, exceto que eles se dimensionam de forma diferente, mas nos dão respostas semelhantes. O valor mais baixo que Cooks D pode assumir é zero, e quanto maior o Cooks D, mais influente é o ponto. O ponto de corte da convenção é 4n. Podemos listar qualquer observação acima do ponto de corte, fazendo o seguinte. Verificamos que o Cooks D para DC é, de longe, o maior. Agora vamos dar uma olhada no DFITS. O ponto de corte para DFITS é 2sqrt (kn). DFITS pode ser positivo ou negativo, com números próximos de zero correspondentes aos pontos com influência pequena ou zero. Como vemos, dfit também indica que DC é, de longe, a observação mais influente. As medidas acima são medidas gerais de influência. Você também pode considerar medidas de influência mais específicas que avaliam como cada coeficiente é alterado, excluindo a observação. Esta medida é chamada DFBETA e é criada para cada um dos preditores. Aparentemente, isso é mais intensivo em computação do que as estatísticas resumidas, como Cooks D, uma vez que quanto mais preditores um modelo possui, mais computação pode envolver. Podemos restringir nossa atenção apenas aos preditores com os quais nos preocupamos com a percepção de como eles são bem predisformados. Em Stata, o comando dfbeta produzirá os DFBETAs para cada um dos preditores. Os nomes das novas variáveis ​​criadas são escolhidos pela Stata automaticamente e começam pelas letras DF. Isso criou três variáveis, DFpctmetro. DFpoverty e DFsingle. Vamos ver os primeiros 5 valores. O valor para DFsingle para o Alasca é de .14, o que significa que, ao ser incluído na análise (em comparação com a exclusão), o Alaska aumenta o coeficiente de solteiro em 0,14 erros padrão, ou seja, 14 vezes o erro padrão para BSingle ou 0,14 15.5). Uma vez que a inclusão de uma observação pode contribuir para um aumento ou diminuição de um coeficiente de regressão, os DFBETA podem ser positivos ou negativos. Um valor DFBETA superior a 2sqrt (n) merece mais investigação. Neste exemplo, estaríamos preocupados com valores absolutos superiores a 2sqrt (51) ou .28. Podemos traçar os três valores DFBETA contra o ID do estado em um gráfico mostrado abaixo. Nós adicionamos uma linha em .28 e -28 para nos ajudar a ver observações potencialmente problemáticas. Nós vemos que o maior valor é cerca de 3.0 para DFsingle. Podemos repetir este gráfico com a opção mlabel () no comando do gráfico para rotular os pontos. Com o gráfico acima, podemos identificar qual DFBeta é um problema e, com o gráfico abaixo, podemos associar essa observação ao estado de origem. Agora, vamos listar essas observações com DFsingle maior do que o valor de corte. A tabela a seguir resume as regras gerais que usamos para essas medidas para identificar observações dignas de investigação posterior (onde k é o número de preditores e n é o número de observações). Usamos o comando predito para criar uma série de variáveis ​​associadas à análise de regressão e ao diagnóstico de regressão. O comando de regressão de ajuda não só fornece ajuda sobre o comando de regressão, mas também lista todas as estatísticas que podem ser geradas através do comando de previsão. Abaixo mostramos um fragmento do arquivo de ajuda do Stata que ilustra as várias estatísticas que podem ser computadas através do comando de previsão. Nós exploramos uma série de estatísticas que podemos obter após o comando de regressão. Existem também vários gráficos que podem ser usados ​​para procurar observações incomuns e influentes. O comando avplot grafica um gráfico de variáveis ​​adicionadas. Também é chamado de gráfico de regressão parcial e é muito útil na identificação de pontos influentes. Por exemplo, no avplot para um único mostrado abaixo, o gráfico mostra o crime por solteira, após o crime e o single terem sido ajustados para todos os outros preditores no modelo. A linha traçada tem a mesma inclinação que o coeficiente para solteiro. Este gráfico mostra como a observação de DC influencia o coeficiente. Você pode ver como a linha de regressão é puxada para cima tentando se encaixar no valor extremo de DC. O Alasca e a Virgínia Ocidental também podem exercer influência substancial no coeficiente de solteiro. A Stata também possui o comando avplots que cria um gráfico variável adicionado para todas as variáveis, o que pode ser muito útil quando você possui muitas variáveis. Ele produz pequenos gráficos, mas esses gráficos podem revelar rapidamente se você tem observações problemáticas com base nas parcelas variáveis ​​adicionadas. DC apareceu como um outlier, bem como um ponto influente em cada análise. Como a DC não é realmente um estado, podemos usar isso para justificar a omissão da análise dizendo que realmente desejamos apenas analisar os estados. Primeiro, vamos repetir a nossa análise, incluindo a DC, simplesmente digitando regredir. Agora, vamos executar a análise, omitiendo DC, incluindo se houver quotdcquot no comando regress (aqui significa quotnot igual a toquot, mas você também pode usar para significar a mesma coisa). Como esperamos, a exclusão de DC fez uma grande alteração no coeficiente para solteiro. O coeficiente para solteiro caiu de 132,4 para 89,4. Depois de ter excluído DC, repetimos o processo que ilustramos nesta seção para procurar outras observações periféricas e influentes. Finalmente, mostramos que o comando avplot pode ser usado para procurar valores abertos entre variáveis ​​existentes em seu modelo, mas devemos notar que o comando avplot não só funciona para as variáveis ​​no modelo, mas também funciona para variáveis ​​que não estão no Modelo, e é por isso que se chama parcela variável adicionada. Permite usar a regressão que inclui DC, pois queremos continuar a ver o mal comportamento causado pela DC como uma demonstração para fazer diagnósticos de regressão. Podemos fazer um avplot no variável pctwhite. No topo da trama, temos quotcoef-3.509quot. É o coeficiente de pctwhite se foi colocado no modelo. Podemos verificar isso fazendo uma regressão como abaixo. Nesta seção, exploramos uma série de métodos de identificação de valores aberrantes e pontos influentes. Em uma análise típica, você provavelmente usaria apenas alguns desses métodos. De um modo geral, existem dois tipos de métodos para avaliação de outliers: estatísticas como resíduos, alavancagem, Cooks D e DFITS, que avaliam o impacto geral de uma observação sobre os resultados de regressão e estatísticas como DFBETA que avaliam o impacto específico de um Observação sobre os coeficientes de regressão. No nosso exemplo, descobrimos que a DC era um ponto de maior preocupação. Realizamos uma regressão com ela e sem ela e as equações de regressão eram muito diferentes. Podemos justificar removê-lo de nossa análise argumentando que nosso modelo é prever a taxa de criminalidade para os estados, não para as áreas metropolitanas. 2.2 Verificando a Normalidade de Residuais Muitos pesquisadores acreditam que a regressão múltipla requer normalidade. Este não é o caso. A normalidade dos resíduos só é necessária para testes de hipóteses válidos, ou seja, a suposição de normalidade assegura que os valores de p para os testes t e F-test serão válidos. A normalidade não é necessária para obter estimativas imparciais dos coeficientes de regressão. A regressão OLS exige apenas que os resíduos (erros) sejam distribuídos de forma idêntica e independente. Além disso, não há suposição ou exigência de que as variáveis ​​preditoras sejam normalmente distribuídas. Se esse fosse o caso, não poderíamos usar variáveis ​​codificadas falsas em nossos modelos. Depois de executar uma análise de regressão, podemos usar o comando predizer para criar resíduos e, em seguida, usar comandos como kdensity. Qnorm e Pnorm para verificar a normalidade dos resíduos. Permite usar o arquivo de dados elemapi2 que vimos no Capítulo 1 para essas análises. Prever o desempenho acadêmico (api00) de porcentagem recebendo refeições gratuitas (refeições), porcentagem de alunos de língua inglesa (ell) e porcentagem de professores com credenciais de emergência (emer). Usamos o comando predizer para gerar resíduos. Abaixo, usamos o comando kdensity para produzir um gráfico de densidade de kernel com a opção normal, solicitando que uma densidade normal seja sobreposta no gráfico. Kdensity significa estimativa da densidade do núcleo. Pode ser pensado como um histograma com caixas estreitas e média móvel. O comando pnorm grafica uma trama de probabilidade normal (P-P) padrão enquanto qnorm traça os quantiles de uma variável contra os quantiles de uma distribuição normal. Pnorm é sensível à não-normalidade no intervalo médio de dados e o qnorm é sensível à não-normalidade perto das caudas. Como você vê abaixo, os resultados do pnorm não mostram indicações de não-normalidade, enquanto o comando qnorm mostra um ligeiro desvio do normal na parte superior da cauda, ​​como pode ser visto na kdensidade acima. No entanto, isso parece ser um desvio menor e trivial da normalidade. Podemos aceitar que os resíduos estão próximos de uma distribuição normal. Também há testes numéricos para testar a normalidade. Um dos testes é o teste escrito por Lawrence C. Hamilton, Departamento de Sociologia, Univ. De New Hampshire, chamado iqr. Você pode obter este programa da Stata, digitando findit iqr (veja Como eu usei o comando findit para procurar programas e obter ajuda adicional para obter mais informações sobre como usar o findit). Iqr significa intervalo entre quartéis e assume a simetria da distribuição. Os outliers graves consistem nos pontos que são 3 intervalos entre quartil abaixo do primeiro quartil ou 3 intervalos entre quartil acima do terceiro quartil. A presença de quaisquer valores atípicos graves deve ser evidência suficiente para rejeitar a normalidade em um nível de significância de 5. Os outliers leves são comuns em amostras de qualquer tamanho. No nosso caso, não temos quaisquer valores aberrantes graves e a distribuição parece bastante simétrica. Os resíduos têm uma distribuição aproximadamente normal. Outro teste disponível é o teste swilk que executa o teste Shapiro-Wilk W para a normalidade. O valor p é baseado no pressuposto de que a distribuição é normal. No nosso exemplo, é muito grande (.51), indicando que não podemos rejeitar que r normalmente é distribuído. 2.3 Verificação da Homoscedasticidade dos Residuais Um dos principais pressupostos para a regressão dos mínimos quadrados comuns é a homogeneidade da variância dos resíduos. Se o modelo estiver bem equipado, não deve haver padrão para os resíduos plotados em relação aos valores ajustados. Se a variância dos resíduos não for constante, então a variância residual é dita como quoteteroscedástica. Existem métodos gráficos e não-gráficos para a detecção de heterocedasticidade. Um método gráfico comumente usado é plotar os valores residuais versus ajustados (preditos). Fazemos isso emitindo o comando rvfplot. Abaixo, usamos o comando rvfplot com a opção yline (0) para colocar uma linha de referência em y0. Nós vemos que o padrão dos pontos de dados está ficando um pouco mais estreito para o lado direito, o que é uma indicação de heteroscedasticidade. Agora, olhemos para alguns comandos que testam a heterocedasticidade. O primeiro teste sobre heterocedasticidade dado por imest é o teste dos brancos e o segundo dado pelo Hettest é o teste Breusch-Pagan. Ambos testam a hipótese nula de que a variância dos resíduos é homogênea. Portanto, se o valor p for muito pequeno, teremos que rejeitar a hipótese e aceitar a hipótese alternativa de que a variância não é homogênea. Portanto, neste caso, a evidência é contra a hipótese nula de que a variância é homogênea. Esses testes são muito sensíveis aos pressupostos do modelo, como a suposição de normalidade. Portanto, é uma prática comum combinar os testes com parcelas diagnósticas para julgar a gravidade da heteroscedasticidade e decidir se é necessária alguma correção para a heteroscedasticidade. No nosso caso, o gráfico acima não mostra evidências muito fortes. Então, não vamos entrar em detalhes sobre como corrigir a heterocedasticidade, embora existam métodos disponíveis. 2.4 Verificar a Multicollinearidade Quando existe uma relação linear perfeita entre os preditores, as estimativas para um modelo de regressão não podem ser calculadas de forma exclusiva. O termo colinearidade implica que duas variáveis ​​são quase perfeitas combinações lineares entre si. Quando mais de duas variáveis ​​estão envolvidas, muitas vezes é chamado de multicolinearidade, embora os dois termos sejam freqüentemente usados ​​indistintamente. A principal preocupação é que, à medida que o grau de multicolinearidade aumenta, as estimativas do modelo de regressão dos coeficientes tornam-se instáveis ​​e os erros padrão para os coeficientes podem ficar inflado. Nesta seção, exploraremos alguns comandos da Stata que ajudam a detectar a multicolinealidade. Podemos usar o comando vif após a regressão para verificar a multicolinearidade. Vif significa fator de inflação variância. Como regra geral, uma variável cujos valores VIF são maiores do que 10 pode merecer mais investigação. A tolerância, definida como 1VIF, é usada por muitos pesquisadores para verificar o grau de colinearidade. Um valor de tolerância inferior a 0,1 é comparável a um VIF de 10. Isso significa que a variável pode ser considerada como uma combinação linear de outras variáveis ​​independentes. Vamos primeiro olhar para a regressão que fizemos na última seção, o modelo de regressão que prevê api00 de refeições, ell e emer e, em seguida, emitir o comando vif. Os VIFs ficam bem aqui. Aqui está um exemplo em que os VIFs são mais preocupantes. Neste exemplo, os valores de VIF e tolerância (1VIF) para gradsch avs e colgrad são preocupantes. Todas essas variáveis ​​medem a educação dos pais e os valores VIF muito altos indicam que essas variáveis ​​são possivelmente redundantes. Por exemplo, depois de conhecer o gradsch e o colgrad. Você provavelmente pode prever avged muito bem. Neste exemplo, a multicolinealidade surge porque colocamos muitas variáveis ​​que medem a mesma coisa, a educação dos pais. Deixar omitir uma das variáveis ​​de educação dos pais, avental. Observe que os valores de VIF na análise abaixo aparecem muito melhores. Além disso, observe como os erros padrão são reduzidos para as variáveis ​​de educação dos pais, gradsch e colgrad. Isso ocorre porque o alto grau de colinearidade causou a inflação dos erros padrão. Com a multicolinearidade eliminada, o coeficiente para gradsch. Que não foi significativo, agora é significativo. Posicione outro comando sobre colinearidade. O comando collins mostra várias medidas diferentes de colinearidade. Por exemplo, podemos testar a colinearidade entre as variáveis ​​que usamos nos dois exemplos acima. Observe que o comando collin não precisa ser executado em conexão com um comando de regressão, ao contrário do comando vif que segue um comando de regressão. Observe também que apenas as variáveis ​​preditoras (independentes) são usadas com o comando collin. Você pode baixar o collin de dentro do Stata, digitando findit collin (consulte Como eu usei o comando findit para procurar programas e obter ajuda adicional para obter mais informações sobre como usar findit). Agora removemos avged e veremos os diagnósticos de colinearidade melhorar consideravelmente. O número da condição é um índice comummente utilizado da instabilidade global dos coeficientes de regressão - um grande número de condição, 10 ou mais, é uma indicação de instabilidade. 2.5 Verificar Linearidade Quando fazemos regressão linear, assumimos que a relação entre a variável de resposta e os preditores é linear. Esta é a suposição de linearidade. Se essa suposição for violada, a regressão linear tentará ajustar uma linha direta para dados que não seguem uma linha direta. Verificar o pressuposto linear no caso da regressão simples é direto, já que temos apenas um preditor. Tudo o que temos a fazer é um gráfico de dispersão entre a variável de resposta e o preditor para ver se a não-linearidade está presente, como uma banda curvada ou uma grande curva em forma de onda. Por exemplo, lembre-se que fizemos uma regressão linear simples no Capítulo 1 usando o conjunto de dados elemapi2. Abaixo, usamos o comando de dispersão para mostrar um diagrama de dispersão que prevê que api00 se inscreva e use lfit para mostrar um ajuste linear e, em seguida, baixinho para mostrar uma predisposição mais suave e predatória para se inscrever. Verificamos claramente algum grau de não-linearidade. Verificando a hipótese de linearidade não é tão direto no caso de regressão múltipla. Vamos tentar ilustrar algumas das técnicas que você pode usar. A coisa mais direta a fazer é traçar os resíduos padronizados contra cada uma das variáveis ​​preditoras no modelo de regressão. Se existe um padrão não linear linear, existe um problema de não-linearidade. Caso contrário, devemos ver por cada uma das parcelas apenas uma dispersão aleatória de pontos. Vamos continuar a usar o conjunto de dados elemapi2 aqui. Permite usar um modelo diferente. Os dois gráficos variáveis ​​residuais versus preditores acima não indicam fortemente uma clara saída da linearidade. Outro comando para detectar não-linearidade é acprplot. Gráficos de ação um gráfico aumentado de componente-plus-residual, a. k.a. parcela residual parcial aumentada. Ele pode ser usado para identificar não-linearidades nos dados. Permite usar o comando acprplot para refeições e somecol e use as opções lowess lsopts (bwidth (1)) para solicitar minimizar o suavização com uma largura de banda de 1. No primeiro gráfico abaixo da linha suavizada é muito próximo da linha de regressão normal e Todo o padrão parece bastante uniforme. O segundo gráfico parece mais problemático no lado direito. Isso pode vir de alguns pontos influentes potenciais. No geral, eles não parecem muito ruins e não devemos estar muito preocupados com as não-linearidades nos dados. Nós vimos como usar o acprplot para detectar a não-linearidade. No entanto, nosso último exemplo não mostrou muita não-linearidade. Vamos ver um exemplo mais interessante. Este exemplo é tirado de quotStatistics com Stata 5quot de Lawrence C. Hamilton (1997, Duxbery Press). O conjunto de dados que usaremos é chamado nations. dta. Podemos obter o conjunto de dados da Internet. Vamos construir um modelo que prevê a taxa de natalidade (nascimento), do produto nacional bruto per capita (gnpcap) e da população urbana (urbana). Se essa fosse uma análise de regressão completa, começaríamos por examinar as variáveis, mas com a finalidade de ilustrar a não-linearidade, iremos diretamente para a regressão. Agora, vamos fazer o comando em nossos preditores. O gráfico acprplot para gnpcap mostra desvio claro da linearidade e o do urbano não mostra quase tanto desvio quanto a linearidade. Agora, vamos analisar estas variáveis ​​mais de perto. Verificamos que a relação entre a taxa de natalidade e o produto nacional bruto per capita é claramente não linear e a relação entre taxa de natalidade e população urbana não está muito longe de ser linear. Então, vamos focar em gnpcap variável. Primeiro, olhemos para a distribuição de gnpcap. Suspeitamos que o gnpcap pode ser muito distorcido. Isso pode afetar a aparência do acprplot. Na verdade, é muito distorcido. Isso nos sugere que alguma transformação da variável pode ser necessária. Uma das transformações comumente usadas é a transformação do log. Vamos tentar aqui. A transformação parece ajudar a corrigir a skewness muito. Em seguida, vamos fazer a regressão novamente substituindo gnpcap por lggnp. O gráfico acima mostra menos desvio da não-linearidade do que antes, embora o problema da não-linearidade ainda não tenha sido completamente resolvido. 2.6 Especificação do modelo Um erro de especificação do modelo pode ocorrer quando uma ou mais variáveis ​​relevantes são omitidas do modelo ou uma ou mais variáveis ​​irrelevantes estão incluídas no modelo. Se as variáveis ​​relevantes forem omitidas do modelo, a variância comum que eles compartilham com variáveis ​​incluídas pode ser atribuída erroneamente a essas variáveis ​​e o termo de erro é inflado. Por outro lado, se as variáveis ​​irrelevantes estiverem incluídas no modelo, a variância comum que compartilham com as variáveis ​​incluídas pode ser incorretamente atribuída a elas. Os erros de especificação do modelo podem afetar substancialmente a estimativa dos coeficientes de regressão. Considere o modelo abaixo. Esta regressão sugere que à medida que o tamanho da aula aumenta, o desempenho acadêmico aumenta. Antes de publicarmos os resultados dizendo que o aumento do tamanho da turma está associado ao maior desempenho acadêmico, verificamos a especificação do modelo. Há alguns métodos para detectar erros de especificação. O comando linktest executa um teste de link de especificação modelo para modelos de equação única. O linktest baseia-se na ideia de que, se uma regressão for devidamente especificada, não é possível encontrar variáveis ​​independentes adicionais que sejam significativas, exceto por acaso. Linktest cria duas novas variáveis, a variável de predição, hat. E a variável de previsão quadrada, hatsq. O modelo é então reajustado utilizando estas duas variáveis ​​como preditores. O chapéu deve ser significativo, pois é o valor previsto. Por outro lado, hatsq não deve, porque se nosso modelo for especificado corretamente, as previsões ao quadrado não devem ter muito poder explicativo. Isso é que não esperamos que o hatsq seja um preditor significativo se nosso modelo for especificado corretamente. Então, estaremos olhando o p-valor para hatsq. Do linktest acima. O teste de hatsq não é significativo. Isto significa que o linktest não rejeitou a suposição de que o modelo está especificado corretamente. Portanto, parece-nos que não temos um erro de especificação. Mas agora, vamos ver outro teste antes de avançarmos para a conclusão. O comando ovtest realiza outra prova de especificação do modelo de regressão. Executa um teste de erro de especificação de regressão (RESET) para variáveis ​​omitidas. A idéia por trás do ovtest é muito parecida com o linktest. Ele também cria novas variáveis ​​com base nos preditores e repara o modelo usando essas novas variáveis ​​para ver se qualquer delas seria significativa. Vamos tentar o ovtest em nosso modelo. The ovtest command indicates that there are omitted variables. So we have tried both the linktest and ovtest . and one of them ( ovtest ) tells us that we have a specification error. We therefore have to reconsider our model. Lets try adding the variable full to the model. Now, both the linktest and ovtest are significant, indicating we have a specification error. Lets try adding one more variable, meals . to the above model. The linktest is once again non-significant while the p-value for ovtest is slightly greater than .05. Note that after including meals and full . the coefficient for class size is no longer significant. While acsk3 does have a positive relationship with api00 when no other variables are in the model, when we include, and hence control for, other important variables, acsk3 is no longer significantly related to api00 and its relationship to api00 is no longer positive . linktest and ovtest are tools available in Stata for checking specification errors, though linktest can actually do more than check omitted variables as we used here, e. g. checking the correctness of link function specification. For more details on those tests, please refer to Stata manual. 2.7 Issues of Independence The statement of this assumption that the errors associated with one observation are not correlated with the errors of any other observation cover several different situations. Consider the case of collecting data from students in eight different elementary schools. It is likely that the students within each school will tend to be more like one another than students from different schools, that is, their errors are not independent. We will deal with this type of situation in Chapter 4 when we demonstrate the regress command with cluster option. Another way in which the assumption of independence can be broken is when data are collected on the same variables over time. Lets say that we collect truancy data every semester for 12 years. In this situation it is likely that the errors for observation between adjacent semesters will be more highly correlated than for observations more separated in time. This is known as autocorrelation. When you have data that can be considered to be time-series you should use the dwstat command that performs a Durbin-Watson test for correlated residuals. We dont have any time-series data, so we will use the elemapi2 dataset and pretend that snum indicates the time at which the data were collected. We will also need to use the tsset command to let Stata know which variable is the time variable. The Durbin-Watson statistic has a range from 0 to 4 with a midpoint of 2. The observed value in our example is very small, close to zero, which is not surprising since our data are not truly time-series. A simple visual check would be to plot the residuals versus the time variable. In this chapter, we have used a number of tools in Stata for determining whether our data meets the regression assumptions. Below, we list the major commands we demonstrated organized according to the assumption the command was shown to test. Detecting Unusual and Influential Data predict -- used to create predicted values, residuals, and measures of influence. rvpplot --- graphs a residual-versus-predictor plot. rvfplot -- graphs residual-versus-fitted plot. lvr2plot -- graphs a leverage-versus-squared-residual plot. dfbeta -- calculates DFBETAs for all the independent variables in the linear model. avplot -- graphs an added-variable plot, a. k.a. partial regression plot. Tests for Normality of Residuals kdensity -- produces kernel density plot with normal distribution overlayed. pnorm -- graphs a standardized normal probability (P-P) plot. qnorm --- plots the quantiles of varname against the quantiles of a normal distribution. iqr -- resistant normality check and outlier identification. swilk -- performs the Shapiro-Wilk W test for normality. Tests for Heteroscedasticity rvfplot -- graphs residual-versus-fitted plot. hettest -- performs Cook and Weisberg test for heteroscedasticity. whitetst -- computes the White general test for Heteroscedasticity. Tests for Multicollinearity vif -- calculates the variance inflation factor for the independent variables in the linear model. collin -- calculates the variance inflation factor and other multicollinearity diagnostics Tests for Non-Linearity acprplot -- graphs an augmented component-plus-residual plot. cprplot --- graphs component-plus-residual plot, a. k.a. residual plot. Tests for Model Specification linktest -- performs a link test for model specification. ovtest -- performs regression specification error test (RESET) for omitted variables. See the Stata Topics: Regression page for more information and resources on regression diagnostics in Stata. 2.9 Self Assessment 1 . O conjunto de dados a seguir consiste em peso medido, altura medida, peso relatado e altura reportada de cerca de 200 pessoas. You can get it from within Stata by typing use ats. ucla. edustatstatawebbooksregdavis We tried to build a model to predict measured weight by reported weight, reported height and measured height. Nós fizemos um lvr2plot após a regressão e aqui está o que temos. Explique o que vê no gráfico e tente usar outros comandos STATA para identificar as observações problemáticas. What do you think the problem is and what is your solution 2 . Using the data from the last exercise, what measure would you use if you want to know how much change an observation would make on a coefficient for a predictor For example, show how much change would it be for the coefficient of predictor reptht if we omit observation 12 from our regression analysis What are the other measures that you would use to assess the influence of an observation on regression What are the cut-off values for them 3 . The following data file is called bbwt. dta and it is from Weisbergs Applied Regression Analysis. You can obtain it from within Stata by typing use ats. ucla. edustatstatawebbooksregbbwt It consists of the body weights and brain weights of some 60 animals. Queremos prever o peso do cérebro pelo peso corporal, ou seja, uma simples regressão linear do peso do cérebro contra o peso corporal. Mostre o que você precisa fazer para verificar a hipótese de linearidade. If you think that it violates the linearity assumption, show some possible remedies that you would consider. 4. We did a regression analysis using the data file elemapi2 in chapter 2. Continuing with the analysis we did, we did an avplot here. Explain what an avplot is and what type of information you would get from the plot. If variable full were put in the model, would it be a significant predictor 5 . The data set wage. dta is from a national sample of 6000 households with a male head earning less than 15,000 annually in 1966. You can get this data file by typing use ats. ucla. edustatstatawebbooksregwage from within Stata . The data were classified into 39 demographic groups for analysis. We tried to predict the average hours worked by average age of respondent and average yearly non-earned income. Both predictors are significant. Now if we add ASSET to our predictors list, neither NEIN nor ASSET is significant. Can you explain why 6. Continue to use the previous data set. This time we want to predict the average hourly wage by average percent of white respondents. Execute a análise de regressão e liste os comandos STATA que você pode usar para verificar a heterocedasticidade. Explain the result of your test(s). Now we want to build another model to predict the average percent of white respondents by the average hours worked. Repeat the analysis you performed on the previous regression model. Explain your results. 7. Temos um conjunto de dados que consiste em volume, diâmetro e altura de alguns objetos. Alguém fez uma regressão de volume em diâmetro e altura. Explique quais testes você pode usar para detectar erros de especificação do modelo e, se houver algum, sua solução para corrigi-lo. Click here for our answers to these self assessment questions. 2.10 For more information2.9 Regression Diagnostics All of the diagnostic measures discussed in the lecture notes can be calculated in Stata, some in more than one way. In particular, you may want to read about the command predict after regress in the Stata manual. In this section we will be working with the additive analysis of covariance model of the previous section. To save typing the model each time we need it, we can define a local macro Now we can fit our model using the following command Let us start with the residuals. The easiest way to get them is as options of the predict command. Specify the option res for the raw residuals, rstand for the standardized residuals, and rstud for the studentized (or jackknifed) residuals. Let us obtain all three: To get the diagonal elements of the hat matrix and Cooks distance we use two more options of predict. hat and cook. We are now ready to print Table 2.29 in the notes Here is an easy way to find the cases highlighted in Table 2.29, those with standardized or jackknifed residuals greater than 2 in magnitude: We will use a scalar to calculate the maximum acceptable leverage, which is 2pn in general, and then list the cases exceeding that value (if any). We find that Haiti has a lot of leverage, but very little actual influence. Let us list the six most influential countries. I will do this by sorting the data in descending order of influence and then listing the first six. Statas regular sort command sorts only in ascending order, but gsort can do descending if you specify - di. Turns out that the D. R. Cuba, and Ecuador are fairly influential observations. Try refitting the model without the D. R. to verify what I say on page 57 of the lecture notes. Residual Plots On to plots Here is the standard residual plot in Figure 2.6, produced using the following commands: Now for that lovely Q-Q-plot in Figure 2.7 of the notes: Wasnt that easy Statas qnorm evaluates the inverse normal cdf at i(n1) rather than at (i-38)(n14) or some of the other approximations discussed in the notes. Of course you can use any approximation you want, at the expense of doing a bit more work. I will illustrate the general idea by calculating Fillibens approximation to the expected order statistics or rankits, using Statas built-in system variables n for the observation number and N for the number of cases. Fortunately the Filliben correlation agrees with the value in the notes: 0 .9655. I will skip the graph because it looks almost identical to the one produced by qnorm. Copie 2017 Germaacuten Rodriacuteguez, Universidade de Princeton

Comments

Popular posts from this blog

Fórmula De Cálculo De Valor De Pip Forex

Si Es Bueno Invertir En Forex System

Metaquotes Forexpros