advertisement

Modelo de regressão linear: aspectos teóricos e computacionais

50 %
50 %
advertisement
Information about Modelo de regressão linear: aspectos teóricos e computacionais

Published on January 17, 2009

Author: rodrigomuribec

Source: slideshare.net

advertisement

 

Introdução A finalidade de uma equação de regressão seria então estimar valores de uma variável, com base em valores conhecidos da outra; Um economista pode tentar explicar as variações na procura de automóveis usados em termos de desemprego; Um agricultor pode suspeitar que a quantidade de fertilizante por ele usada tenha influenciado a safra; Dentro desse contexto, o objetivo desta monografia foi demonstrar as técnicas de análise de regressão dentro de uma abordagem teórica e computacional, utilizando o software estatístico R.

Modelo Matemático Considere duas variáveis X e Y tal que y = f(x). Dado um conjunto de valores , os correspondentes valores de são conhecidos exatamente; Todos os pontos caem na curva da relação funcional; Esse tipo de situação configura um modelo matemático ou determinístico.

Considere duas variáveis X e Y tal que y = f(x). Dado um conjunto de

valores , os correspondentes valores de são

conhecidos exatamente;

Todos os pontos caem na curva da relação funcional;

Esse tipo de situação configura um modelo matemático ou determinístico.

Em um modelo estatístico, geralmente a variável resposta é afetada por várias variáveis; Então, analisamos Y como função apenas das K primeiras variáveis, sendo que permanece um erro (ou resíduo), devido a não utilização das outras m variáveis. Modelo Estatístico

Em um modelo estatístico, geralmente a variável resposta é afetada

por várias variáveis;

Então, analisamos Y como função apenas das K primeiras variáveis,

sendo que permanece um erro (ou resíduo), devido a não utilização das

outras m variáveis.

Se apenas uma variável explicativa é observada, temos: Os erros também podem ser devido a erros obtidos no processo de Mensuração da variável dependente. Modelo Estatístico Assim, o modelo ficaria:

Determinar como duas variáveis se relacionam; Estimar a função que determina a relação entre as variáveis; Usar a equação ajustada para prever valores da variável dependente. Regressão Linear Simples Modelo de Regressão Linear Simples

Determinar como duas variáveis se relacionam;

Estimar a função que determina a relação entre as variáveis;

Usar a equação ajustada para prever valores da variável dependente.

X Y  Coeficiente angular Regressão Linear Simples Inclinação populacional Intercepto populacional Erro Aleatório Variável Independente Variável Dependente

Ao estabelecer o modelo de regressão linear simples, pressupomos que: A relação entre X e Y é Linear; Os valores de X são fixos, isto é, X não é uma variável aleatória; A média dos erros é nula, isto é: Para um dado valor x de X, a variância dos erros é sempre denotada variância residual, dizemos que o erro é homocedástico; O erro em uma observação é não correlacionado com o erro em qualquer outra observação; Os erros têm distribuição normal. Suposições do modelo

Os estimadores de e Uma vez que o modelo foi especificado e as suposições foram feitas, devemos estimar os parâmetros da regressão, e . Dados n pares de observações das var. X e Y, i=1,2,...,n, queremos encontrar uma equação do tipo: onde e são os estimadores de , e . Para cada par observado podemos estabelecer a seguinte relação: Resíduo

Os estimadores de e Na estimação por mínimos quadrados, queremos encontrar e que minimizam a soma dos quadrados dos resíduos. Ou seja, queremos tornar mínima a expressão: Para minimizar esta expressão em e , temos as derivadas em relação a e :

Somas de quadrados Onde: e

Coeficiente de Determinação O coeficiente de determinação ou simplesmente . É uma medida da proporção da variabilidade em uma variável que é explicada pela variabilidade da outra. Definimos o coeficiente de determinação ou explicação do modelo, que é dado por: O coeficiente está entre logo, quanto mais próximo de 1 Estiver o valor de , melhor será o ajuste do modelo e quanto mais Próximo de 0 (zero), pior é o ajuste.

Coeficiente de Determinação Corrigido É importante enfatizar que a medida depende do número de observações da amostra, sendo que tende a aumentar a medida que n diminui; Especialmente, para n=2 temos , já que dois pontos determinam uma única reta; Para contornar este problema, definimos o C.D.C para G.L; Dividindo as somas de quadrados pelos graus de liberdade temos:

Análise de Variância Agora, uma vez que o modelo foi ajustado e todos os parâmetros estimados surgem a seguinte pergunta: Existe realmente alguma relação linear entre X e Y ? Como podemos responder isso estatisticamente ? Para responder à pergunta , observamos que se ,não existe relação linear explicando Y em função de X. Assim, a estatística F é uma estatística para testar contra quanto maior o valor de F, maior evidência a favor de

Agora, uma vez que o modelo foi ajustado e todos os parâmetros estimados

surgem a seguinte pergunta:

Existe realmente alguma relação linear entre X e Y ? Como podemos

responder isso estatisticamente ?

Para responder à pergunta , observamos que se ,não existe relação

linear explicando Y em função de X.

Análise de Variância A partir daí, procedemos à análise de variância do modelo linear, dado pela tabela a seguir: se H 0 verdadeiro (Não existe relação linear) se H 0 falso (existe relação linear)

Testes de Hipóteses Entretanto, ainda existe outra maneira de se testar : Lembremos que, sob as suposições usuais do modelo de regressão linear simples, temos que: Porém, não conhecemos o verdadeiro valor de e usamos o estimador. Logo: onde

Intervalos de Confiança Outra forma para se avaliar a significância dos resultados obtidos para b , que é o estimador de , é através da utilização de intervalos de confiança (IC's). Para construir um I.C para com de confiança, temos que encontrar um valor ,tal que:

Ajuste do Modelo Muitas vezes, podemos encontrar problemas na especificação da função que relaciona as variáveis (não linearidade); Pode ser verificado através de um gráfico de dispersão entre X e Y; Existem funções que podem ser transformadas em modelos lineares; Existem vários tipos de funções que podemos transformar, tais como: Função Potência; Função Exponencial; Função Hiperbólica.

Função Potência;

Função Exponencial;

Função Hiperbólica.

Função Potência Esta função é dada pela expressão: O gráfico desta função é esboçado como: Aplicando o log em ambos os lados da igualdade podemos linearizar a função: e então, temos um modelo: com:

Análises de Resíduos É importante, após a análise de regressão, testar se os pressupostos do modelo linear se aplicam aos dados estudados; Resíduos representam a diferença entre o valor observado de y e o que foi predito pelo modelo de regressão; A primeira forma de se avaliar resíduos é plotar um gráfico no qual os resíduos (y - ˆ y) são colocados no eixo vertical (y) e os valores esperados de y (b y) no eixo horizontal (x);

É importante, após a análise de regressão, testar se os pressupostos do modelo linear se aplicam aos dados estudados;

Resíduos representam a diferença entre o valor observado de y e o

que foi predito pelo modelo de regressão;

A primeira forma de se avaliar resíduos é plotar um gráfico no qual os resíduos (y - ˆ y) são colocados no eixo vertical (y) e os valores esperados de y (b y) no eixo horizontal (x);

Análises de Resíduos “ ideal”  2 não constante não linearidade não independência tempo “ outlier”

Aplicação

Software Estatístico R O Software R é um conjunto integrado de pacotes ou bibliotecas para manipulação de dados, cálculo e visualização gráfica. Entre outras características, ele permite: Uma facilidade efetiva para manipulação e armazenagem de dados; Um conjunto de operadores para cálculos sobre quadros de dados, em particular as matrizes; Uma grande e coerente coleção integrada de ferramentas para análise de dados; Facilidades gráficas com capacidade de visualização na tela ou impressora; Uma linguagem de programação bem desenvolvida, simples e eficiente.

Sobre o banco de dados Para ilustrar os conceitos de regressão linear simples abordados nessa monografia, resolvemos utilizar um conjunto de dados chamado "gala", que trata de um conjunto de dados relativo ao número de espécies de tartaruga sobre as várias ilhas Galápagos. Estes dados estão contidos no livro Faraway (2004) o banco de dados é composto por 30 observações organizadas em sete colunas com cabeçalho, que são: Species, Endemics, Elevation, Area, Nearest, Scruz e Adjacent. Neste trabalho utilizamos apenas as duas primeiras variáveis Species corresponde ao número de espécies de tartaruga encontrados na ilha, e a segunda coluna Endemics corresponde ao número de espécies endêmicas.

Para ilustrar os conceitos de regressão linear simples abordados nessa monografia, resolvemos utilizar um conjunto de dados chamado "gala", que trata de um conjunto de dados relativo ao número de espécies de tartaruga sobre as várias ilhas Galápagos.

Estes dados estão contidos no livro Faraway (2004) o banco de dados é composto por 30 observações organizadas em sete colunas com cabeçalho, que são: Species, Endemics, Elevation, Area, Nearest, Scruz e Adjacent.

Neste trabalho utilizamos apenas as duas primeiras variáveis Species corresponde ao número de espécies de tartaruga encontrados na ilha, e a segunda coluna Endemics corresponde ao número de espécies endêmicas.

Estimando o modelo linear (lm()) > gfit = lm(Species ~ Endemics, data=gala) > gfit Call: lm(formula = Species ~ Endemics, data = gala) Coefficients: (Intercept) Endemics -21.048 4.072 Para ajustar um modelo de regressão a este conjunto de dados, de modo que Species = a + b(Endemics), precisamos utilizar a função lm() para criar um modelo linear; Podemos visualizar os parâmetros estimados para a reta de regressão linear simples escrevendo o nome do objeto;

Para ajustar um modelo de regressão a este conjunto de dados, de modo que Species = a + b(Endemics), precisamos utilizar a função lm() para criar um modelo linear;

Podemos visualizar os parâmetros estimados para a reta de regressão linear simples escrevendo o nome do objeto;

Plotando o gráfico de dispersão > plot(Species,Endemics) > abline(gfit)

Teste de significância (summary) >summary (gfit) Call: lm(formula = Species ~ Endemics, data = gala) Residuals: Min 1Q Median 3Q Max -71.791 -15.894 3.507 12.088 78.200 Coefficients: Estimate Std. Error t value Pr > | t | (Intercept) -21.0480 7.1138 -2.959 0.00622 ** Endemics 4.0721 0.1899 21.443 < 2e-16 *** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1} Residual standard error: 27.95 on 28 degrees of freedom Multiple R-squared: 0.9426, Adjusted R-squared: 0.9406 F-statistic: 459.8 on 1 and 28 DF, p-value: < 2.2e-16

Intervalos de Confiança O intervalo de confiança para o coeficiente de regressão pode ser construído a partir do erro associado ao mesmo, usando a distribuição t , por exemplo, o valor crítico do t para os 28 graus de liberdade residuais do modelo, associado ao intervalo de confiança de 95% será: > qt(0.975,28) [1] 2.048407 E os limites de confiança para o coeficiente de regressão podem ser calculados como: > c(4.0721-2.048407*0.1899, 4.0721+2.048407*0.1899) [1] 3.683108 4.461092

Resíduos e testes diagnósticos Importância da análise de resíduos; Quebra de suposições; Normalidade;

Importância da análise de resíduos;

Quebra de suposições;

Normalidade;

Resíduos e testes diagnósticos Padronizando os resíduos; > padronizados = rstandard(gfit) Plotando os valores estimados contra os resíduos padronizados; > plot(Species,padronizados) > abline(h=0) Teste de homocedasticidade; > gqtest(gfit) Goldfeld-Quand test Data: modelo GQ= p-value = 0.2960 Uma série de gráficos estão disponíveis no R para o teste de premissas do modelo linear;

Padronizando os resíduos;

Plotando os valores estimados contra os resíduos padronizados;

Teste de homocedasticidade;

Uma série de gráficos estão disponíveis no R para o teste de premissas do modelo linear;

Resíduos e testes diagnósticos Para verificar a normalidade dos resíduos utilizamos QQplot; > qqnorm(padronizados) > qqline(padronizados) Teste de Normalidade; > shapiro.test(padronizados) Shapiro-Wilk normality test data: padronizados W = 0.9268, p-value = 0.06041

Para verificar a normalidade dos resíduos utilizamos QQplot;

Teste de Normalidade;

Conclusão Diante deste trabalho pode-se concluir que a análise de regressão é de grande valia para áreas onde atividades em que o planejamento do futuro é fundamental, nos dias atuais é impossível pensar em análise de regressão sem o uso de computadores devido a complexidade de cálculos e representações gráficas que são necessárias durante as análises. Apesar do nosso enfoque ter sido, a análise de regressão linear explanando a utilização do software R, não deixamos de abordar toda a teoria que compõe esta técnica, pois acreditamos que a utilização de uma ferramenta estatística sem o aprofundamento teórico de nada tem serventia, pois o manuseio de um software estatístico deve ter sempre como suporte um adequado conhecimento das técnicas estatísticas envolvidas, O aprofundamento de conhecimento sobre o software R ainda é bastante recente, no entanto explorarmos as potencialidades e benefícios do mesmo, e deixamos nossa contribuição para estudantes e professores que desejam conhecer e aplicar a análise de regressão utilizando o software estatístico R.

Diante deste trabalho pode-se concluir que a análise de regressão é de grande valia para áreas onde atividades em que o planejamento do futuro é fundamental, nos dias atuais é impossível pensar em análise de regressão sem o uso de computadores devido a complexidade de cálculos e representações gráficas que são necessárias durante as análises.

Apesar do nosso enfoque ter sido, a análise de regressão linear explanando a utilização do software R, não deixamos de abordar toda a teoria que compõe esta técnica, pois acreditamos que a utilização de uma ferramenta estatística sem o aprofundamento teórico de nada tem serventia, pois o manuseio de um software estatístico deve ter sempre como suporte um adequado conhecimento das técnicas estatísticas envolvidas,

O aprofundamento de conhecimento sobre o software R ainda é bastante recente, no entanto explorarmos as potencialidades e benefícios do mesmo, e deixamos nossa contribuição para estudantes e professores que desejam conhecer e aplicar a análise de regressão utilizando o software estatístico R.

Add a comment

Related pages

Modelo de regressão linear: aspectos teóricos e ...

Modelo de regressão linear: aspectos teóricos e ... linear: aspectos teóricos e computacionais. ... Modelo de regress˜ao linear: aspectos te ...
Read more

Inferência em modelos de regressão linear: aspectos ...

Inferência em modelos de regressão linear: aspectos teóricos e computacionais Matheus Bartolo Guerrero 1 matheusguerrero@gmail.com Weyder Orlando ...
Read more

REGRESSÃO LINEAR GEOGRAFICAMENTE PONDERADA EM AMBIENTE SIG ...

Os aspectos teóricos deste modelo local de regressão ... em plataformas computacionais ... do modelo de regressão linear ...
Read more

Modelo de Laudo Completo - Regressão Linear - Documents

Modelo de regressão linear: aspectos teóricos e computacionais 1. 2. Introdução A finalidade de uma equação de regressão seria então estimar ...
Read more

Rodrigo Lins Rodrigues | Universidade Federal de ...

Rodrigo Lins Rodrigues, Universidade Federal de Pernambuco, ... Modelo de regressão linear: aspectos teóricos e computacionais more. by Rodrigo Lins ...
Read more

Regressão linear geograficamente ponderada em ambiente SIG ...

... Regressão linear geograficamente ponderada em ambiente SIG on ... regressão geograficamente ... Os aspectos teóricos deste modelo local de ...
Read more

Cálculo numérico, aspectos teóricos e computacionais 2 ...

Cálculo numérico, aspectos teóricos e computacionais 2 edição - márcia a. gomes ruggiero e vera lúcia da rocha lopes (1) ...
Read more

Cálculo Numérico, Aspectos Teóricos e Computacionais ...

... Aspectos Teóricos e Computacionais ... A dedução do método de Newton é baseada no modelo em ... RESOLUÇÃO DE SISTEMAS LINEARES 3. 1 ...
Read more