Definição de multicolinearidade. Causas e consequências da multicolinearidade

MulticolinearidadeÉ uma relação linear entre duas ou mais variáveis ​​fatoriais na equação de regressão múltipla. Se tal dependência é funcional, então se fala de multicolinearidade total... Se for correlação, então multicolinearidade parcial... Se a multicolinearidade total é antes uma abstração teórica (ela se manifesta, em particular, se uma variável dummy tendo k níveis de qualidade, substitua por k variáveis ​​dicotômicas), então a multicolinearidade parcial é muito real e quase sempre está presente. Só podemos falar sobre o grau de sua gravidade. Por exemplo, se as variáveis ​​explicativas incluem renda disponível e consumo, então ambas as variáveis ​​serão, é claro, altamente correlacionadas.

A ausência de multicolinearidade é um dos pré-requisitos desejáveis ​​do modelo múltiplo linear clássico. Isso se deve às seguintes considerações:

1) No caso de multicolinearidade completa, geralmente é impossível construir estimativas dos parâmetros de regressão múltipla linear usando OLS.

2) No caso de multicolinearidade parcial, as estimativas dos parâmetros de regressão podem não ser confiáveis ​​e, além disso, são difíceis de determinar

contribuição isolada de fatores para o indicador efetivo.

O principal motivo para a ocorrência da multicolinearidade é a presença no objeto estudado de processos que afetam simultaneamente algumas variáveis ​​de entrada, mas não são levados em consideração no modelo. Isso pode ser resultado de um estudo de baixa qualidade da área disciplinar ou da complexidade das inter-relações dos parâmetros do objeto estudado.

A multicolinearidade é suspeita de ser:

- um grande número de fatores insignificantes no modelo;

- grandes erros padrão dos parâmetros de regressão;

- instabilidade das estimativas (uma pequena mudança nos dados iniciais leva a uma mudança significativa).

Uma abordagem para determinar a presença ou ausência de multicolinearidade é analisar a matriz de correlação

entre variáveis ​​explicativas e identificando pares de fatores com coeficientes de correlação de pares altos (geralmente mais de 0,7). Se tais fatores existem, então há uma clara colinearidade entre eles.

No entanto, coeficientes de correlação pareados, considerados individualmente, não podem avaliar a interação cumulativa de vários fatores (e não apenas dois).

Portanto, para avaliar a presença de multicolinearidade no modelo, o determinante da matriz de coeficientes de correlação par a par entre os fatores ( determinante da matriz de correlação interfator)

Quanto mais próximo o determinante da matriz de correlação interfator de 0, mais forte a multicolinearidade e vice-versa, quanto mais próximo o determinante de 1, menos multicolinearidade.


A significância estatística da multicolinearidade dos fatores é determinada testando a hipótese nula sob uma hipótese alternativa. A distribuição de Pearson com graus de liberdade é usada para testar a hipótese nula. O valor observado das estatísticas é encontrado pela fórmula, onde n- o número de observações, m- o número de fatores. Para um determinado nível de significância, o valor crítico é determinado a partir da tabela de pontos críticos da distribuição de Pearson. Se, então, a hipótese é rejeitada e considera-se que a multicolinearidade dos fatores está presente no modelo.

Os fatores que influenciam a multicolinearidade também podem ser distinguidos pela análise dos coeficientes de determinação múltipla, calculados sob a condição de que cada um dos fatores seja considerado uma variável dependente de outros fatores: ,,… ,. Quanto mais próximos estiverem de 1, mais forte será a multicolinearidade dos fatores. Isso significa que os fatores com um valor mínimo do coeficiente de determinação múltipla devem ser deixados na equação.

Quanto à multicolinearidade completa, a luta mais decisiva deve ser travada com ela: remover imediatamente da equação de regressão as variáveis ​​que são combinações lineares de outras variáveis.

A multicolinearidade parcial não é um mal tão sério que deva ser identificada e eliminada. Tudo depende dos objetivos do estudo. Se a principal tarefa da modelagem é apenas prever os valores da variável dependente, então com um coeficiente de determinação suficientemente grande () a presença de multicolinearidade não afeta as qualidades preditivas do modelo. Se o objetivo da modelagem também é determinar a contribuição de cada fator para a mudança na variável dependente, então a presença de multicolinearidade é um problema sério.

O método mais simples para eliminar a multicolinearidade é excluir uma ou várias variáveis ​​correlacionadas do modelo.

Como a multicolinearidade depende diretamente da amostra, é possível que, com uma amostra diferente, não haja multicolinearidade ou não seja tão grave. Portanto, para reduzir a multicolinearidade, em alguns casos, é suficiente aumentar o tamanho da amostra.

Às vezes, o problema de multicolinearidade pode ser resolvido alterando a especificação do modelo: ou a forma do modelo muda ou são adicionados fatores que não foram levados em consideração no modelo original, mas afetam significativamente a variável dependente.

Em alguns casos, a multicolinearidade pode ser minimizada ou completamente eliminada por variáveis ​​de fator de transformação. Nesse caso, as seguintes transformações são mais comuns:

1. Combinação linear de variáveis ​​multicolineares (por exemplo,).

2. Substituindo a variável multicolinear por seu incremento.

3. Divisão de uma variável colinear por outra.

Suponha que estejamos considerando uma equação de regressão e os dados para sua estimativa contenham observações para objetos de qualidade diferente: para homens e mulheres, para brancos e negros. a questão que pode nos interessar aqui é a seguinte - é verdade que o modelo em consideração coincide para duas amostras relacionadas a objetos de qualidade diferente? Você pode responder a esta pergunta usando o teste Chow.

Considere os modelos:

, eu=1,…,N (1);

, eu=N+1,…,N+M (2).

Na primeira amostra N observações, no segundo - M observações. Exemplo: Y- salários, explicando variáveis ​​- idade, tempo de serviço, nível de escolaridade. Decorre dos dados disponíveis que o modelo de dependência dos salários das variáveis ​​explicativas do lado direito é o mesmo para homens e mulheres?

Para testar essa hipótese, você pode usar o esquema de teste de hipótese geral comparando a regressão restrita e a regressão irrestrita. A regressão sem restrições aqui é a união das regressões (1) e (2), ou seja, ESS UR = ESS 1 + ESS 2, o número de graus de liberdade - N + M - 2k... A regressão restrita (ou seja, a regressão sob a suposição de que a hipótese nula foi cumprida) será a regressão para todo o conjunto disponível de observações:

, eu = 1,…, N+M (3).

Estimando (3), obtemos ESS R... Para testar a hipótese nula, usamos as seguintes estatísticas:

Que, se a hipótese nula for verdadeira, tem a distribuição de Fisher com o número de graus de liberdade do numerador k e denominador N+ M- 2k.

Se a hipótese nula for verdadeira, podemos combinar as amostras disponíveis em uma e estimar o modelo para N+M observações. Se rejeitarmos a hipótese nula, então não podemos fundir as duas amostras em uma, e teremos que avaliar esses dois modelos separadamente.


O estudo do modelo linear geral, que consideramos anteriormente, é muito essencial, como vimos, com base no aparato estatístico. No entanto, como em todos os aplicativos mate. estatísticas, a força de um método depende dos pressupostos subjacentes e necessários para a sua aplicação. Por enquanto, consideraremos situações em que uma ou mais das hipóteses subjacentes ao modelo linear é violada. Consideraremos métodos alternativos de avaliação nesses casos. Veremos que o papel de algumas hipóteses é mais significativo do que o papel de outras. Precisamos ver a quais consequências a violação de certas condições (suposições) pode levar, ser capaz de verificar se elas estão satisfeitas ou não, e saber quais métodos estatísticos podem e devem ser aplicados quando o método clássico dos mínimos quadrados não é adequado.

1. A relação entre as variáveis ​​é linear e expressa-se pela equação - erros de especificação do modelo (não inclusão de variáveis ​​explicativas significativas na equação, inclusão de variáveis ​​desnecessárias na equação, escolha errada da forma de dependência entre os variáveis);


2. X 1 ,…,X k- variáveis ​​determinísticas - regressores estocásticos, linearmente independentes - multicolinearidade total;

4. - heterocedasticidade;

5. quando eu ¹ k- autocorrelação de erros

Antes de iniciar a conversa, considere os seguintes conceitos: coeficiente de correlação de pares e coeficiente de correlação parcial.

Suponha que estejamos investigando a influência de uma variável sobre outra variável ( Y e X) Para entender como essas variáveis ​​estão relacionadas entre si, calculamos o coeficiente de correlação de pares usando a seguinte fórmula:

Se obtivermos o valor do coeficiente de correlação próximo a 1, concluímos que as variáveis ​​estão fortemente relacionadas entre si.

No entanto, se o coeficiente de correlação entre as duas variáveis ​​de interesse for próximo a 1, elas podem não ser realmente dependentes. O caso dos doentes mentais e do rádio é um exemplo do que se chama de “falsa correlação”. O alto valor do coeficiente de correlação também pode ser devido à existência de uma terceira variável, que tem um forte efeito sobre as duas primeiras variáveis, razão de sua alta correlação. Portanto, surge o problema de calcular a correlação "pura" entre as variáveis X e Y, ou seja, uma correlação em que a influência (linear) de outras variáveis ​​é excluída. Para isso, é introduzido o conceito de coeficiente de correlação parcial.

Então, queremos determinar o coeficiente de correlação parcial entre as variáveis X e Y, excluindo a influência linear da variável Z... Para determiná-lo, o seguinte procedimento é usado:

1. Estimamos a regressão,

2. Pegamos as sobras,

3. Estimamos a regressão,

4. Pegamos as sobras,

5. - coeficiente amostral de correlação parcial, mede o grau de relacionamento entre as variáveis X e Y, livre da influência da variável Z.

Cálculos diretos:

Propriedade:

O procedimento de construção do coeficiente de correlação parcial é generalizado caso desejemos nos livrar da influência de duas ou mais variáveis.


1. Multicolinearidade perfeita.

Um dos requisitos de Gauss-Markov nos diz que as variáveis ​​explicativas não devem estar relacionadas em nenhuma relação exata. Se existe tal relação entre as variáveis, dizemos que o modelo tem multicolinearidade perfeita. Exemplo. Considere um modelo com uma pontuação média de exame consistindo em três variáveis ​​explicativas: eu- renda dos pais, D- o número médio de horas gastas em treinamento por dia, C- o número médio de horas gastas em treinamento por semana. É obvio que C=7D... E essa proporção será satisfeita para cada aluno que cair em nossa amostra. O caso da multicolinearidade completa é fácil de rastrear, pois neste caso é impossível construir estimativas usando o método dos mínimos quadrados.

2. Multicolinearidade parcial ou simplesmente multicolinearidade.

Uma situação muito mais comum é quando não há uma relação linear exata entre as variáveis ​​explicativas, mas há uma correlação próxima entre elas - neste caso é chamado de multicolinearidade real ou parcial (simplesmente multicolinearidade) - a existência de relações estatísticas próximas entre as variáveis. É preciso dizer que a questão da multicolinearidade é mais uma questão do grau de manifestação do fenômeno do que de seu tipo. Qualquer pontuação de regressão sofrerá com isso de uma forma ou de outra, a menos que todas as variáveis ​​explicativas sejam completamente não correlacionadas. A consideração desse problema começa apenas quando ele começa a afetar seriamente os resultados da estimativa de regressão (a presença de relações estatísticas entre os regressores não fornece necessariamente estimativas insatisfatórias). Portanto, a multicolinearidade é um problema em que a estreita correlação entre os regressores leva a estimativas de regressão não confiáveis.

Consequências da multicolinearidade:

Formalmente, desde ( X"X) É não degenerado, então podemos construir estimativas OLS dos coeficientes de regressão. No entanto, vamos lembrar como as variâncias teóricas das estimativas dos coeficientes de regressão são expressas :, onde a ii - eu o elemento diagonal da matriz. Uma vez que a matriz (X "X) está perto de degenerar e det ( X"X) »0, então

1) existem números muito grandes na diagonal principal da matriz inversa, uma vez que os elementos da matriz inversa são inversamente proporcionais a det ( X"X) Portanto, a variância teórica eu-º coeficiente é grande o suficiente e a estimativa de variância também é grande, portanto, t- as estatísticas são pequenas, o que pode levar à insignificância estatística eu o coeficiente. Ou seja, a variável tem um efeito significativo sobre a variável explicada, e concluímos que é insignificante.

2) Uma vez que as estimativas e dependem de ( X"X) -1, cujos elementos são inversamente proporcionais a det ( X"X), então, se adicionarmos ou removermos uma ou duas observações, adicionando ou removendo, assim, uma ou duas linhas da matriz X"X, então os valores e podem mudar significativamente, até uma mudança no sinal - instabilidade dos resultados da estimativa.

3) Dificuldade em interpretar a equação de regressão. Digamos que temos duas variáveis ​​na equação que estão relacionadas entre si: X 1 e X 2 Coeficiente de regressão em X 1 é interpretado como uma medida de mudança Y mudando X 1 ceteris paribus, ou seja os valores de todas as outras variáveis ​​permanecem os mesmos. No entanto, uma vez que as variáveis NS 1 e NS 2 estão conectados, então as mudanças na variável NS 1 causará mudanças previsíveis na variável NS 2 e valor NS 2 não permanecerá o mesmo.

Exemplo: onde NS 1 - área total, NS 2 - área de estar. Dizemos: "Se a área de estar aumenta em 1 m quadrados, então, todas as outras coisas sendo iguais, o preço de um apartamento aumentará em dólares." No entanto, neste caso, a área de estar também aumentará em 1 m². m. e o aumento de preço será. Delinear influência na variável Y cada variável separadamente não é mais possível. A saída nesta situação com o preço de um apartamento é incluir no modelo não a área total, mas a chamada área "adicional" ou "adicional".

Sinais de multicolinearidade.

Não existem critérios precisos para determinar a presença (ausência) de multicolinearidade. No entanto, existem recomendações heurísticas para detectá-lo:

1) Analise a matriz de coeficientes de correlação emparelhados entre regressores e se o valor do coeficiente de correlação for próximo a 1, isso é considerado um sinal de multicolinearidade.

2) A análise da matriz de correlação é apenas um julgamento superficial sobre a presença (ausência) de multicolinearidade. Um estudo mais cuidadoso desta questão é alcançado calculando os coeficientes de correlação parcial ou calculando os coeficientes de determinação para cada uma das variáveis ​​explicativas para todas as outras variáveis ​​explicativas na regressão.

4) (NSX) É uma matriz simétrica positiva definida; portanto, todos os seus autovalores são não negativos. Se o determinante da matriz ( NSX) é igual a zero, então o autovalor mínimo também é zero e a continuidade é preservada. Consequentemente, o valor do autovalor manimal também pode ser julgado na proximidade de zero do determinante da matriz ( NSX) Além dessa propriedade, o autovalor mínimo também é importante porque o erro padrão do coeficiente é inversamente proporcional.

5) A presença de multicolinearidade pode ser julgada por sinais externos que são consequências da multicolinearidade:

a) algumas das estimativas apresentam indícios incorretos do ponto de vista da teoria econômica ou valores injustificadamente elevados;

b) uma pequena mudança nos dados econômicos iniciais leva a uma mudança significativa nas estimativas dos coeficientes do modelo;

c) a maioria t- as estatísticas dos coeficientes diferem insignificantemente de zero, ao mesmo tempo, o modelo como um todo é significativo, como evidenciado pelo alto valor F-Estatisticas.

Como se livrar da multicolinearidade, como eliminá-la:

1) Usando a análise fatorial. Transição do conjunto original de regressores, entre os quais existem estatisticamente dependentes, para novos regressores Z 1 ,…,Z m usando o método dos componentes principais - em vez das variáveis ​​iniciais, em vez das variáveis ​​iniciais, consideramos algumas de suas combinações lineares, cuja correlação é pequena ou totalmente ausente. O desafio aqui é dar uma interpretação significativa a novas variáveis. Z... Se falhar, retornamos às variáveis ​​originais usando as transformações inversas. As estimativas obtidas serão, no entanto, enviesadas, mas terão menor variância.

2) Entre todas as variáveis ​​disponíveis, selecione os fatores que influenciam mais significativamente a variável explicada. Os procedimentos de seleção serão discutidos a seguir.

3) Transição para métodos de estimativa tendenciosa.

Quando nos deparamos com o problema da multicolinearidade, o pesquisador inexperiente inicialmente deseja simplesmente excluir regressores desnecessários que possam estar causando isso. No entanto, nem sempre está claro quais variáveis ​​são redundantes nesse sentido. Além disso, como será mostrado abaixo, o descarte das chamadas variáveis ​​de influência significativa leva a um viés das estimativas MQO.


Observe que, em vários casos, a multicolinearidade não é um "mal" tão sério a ponto de fazer esforços significativos para identificá-la e eliminá-la. Basicamente, tudo depende dos objetivos do estudo.
Se a principal tarefa do modelo é prever os valores futuros da variável dependente, então com um coeficiente de determinação suficientemente grande R2 (gt; 0,9), a presença de multicolinearidade geralmente não afeta as qualidades preditivas do modelo ( se no futuro as variáveis ​​correlacionadas permanecerem as mesmas de antes).
Se for necessário determinar o grau de influência de cada uma das variáveis ​​explicativas sobre a variável dependente, então a multicolinearidade, levando a um aumento nos erros-padrão, provavelmente distorcerá as verdadeiras relações entre as variáveis. Nessa situação, a multicolinearidade é um problema sério.
Não existe um método único para eliminar a multicolinearidade que seja adequado em qualquer caso. Isso se deve ao fato de que as causas e consequências da multicolinearidade são ambíguas e dependem em grande parte dos resultados da amostra.
Excluindo variável (s) do modelo
O método mais simples para eliminar a multicolinearidade é excluir uma ou várias variáveis ​​correlacionadas do modelo. É necessário algum cuidado ao aplicar este método. Nessa situação, erros de especificação são possíveis, portanto, em modelos econométricos aplicados, é aconselhável não excluir variáveis ​​explicativas até que a multicolinearidade se torne um problema sério.
Recuperando dados adicionais ou uma nova amostra
Como a multicolinearidade depende diretamente da amostra, é possível que, com uma amostra diferente, a multicolinearidade não seja ou não seja tão séria. Às vezes, aumentar o tamanho da amostra é suficiente para reduzir a multicolinearidade. Por exemplo, se estiver usando dados anuais, você pode ir para os dados trimestrais. Aumentar a quantidade de dados reduz a variância dos coeficientes de regressão e, portanto, aumenta sua significância estatística. Porém, a obtenção de uma nova amostra ou a ampliação de uma antiga nem sempre é possível ou envolve custos elevados. Além disso, essa abordagem pode aumentar a autocorrelação. Esses problemas limitam o uso desse método.
Modificando a especificação do modelo
Em alguns casos, o problema da multicolinearidade pode ser resolvido alterando a especificação do modelo: ou a forma do modelo muda ou são adicionadas variáveis ​​explicativas que não foram levadas em consideração no modelo original, mas afetam significativamente a variável dependente. Se esse método for justificado, então seu uso reduz a soma dos quadrados dos desvios, reduzindo assim o erro padrão da regressão. Isso leva a uma redução nos erros padrão dos coeficientes.
Usando informações preliminares sobre alguns parâmetros
Às vezes, ao construir um modelo de regressão múltipla, você pode usar informações preliminares, em particular, os valores conhecidos de alguns coeficientes de regressão.
É provável que os valores dos coeficientes calculados para quaisquer modelos preliminares (geralmente mais simples) ou para um modelo semelhante baseado em uma amostra obtida anteriormente possam ser usados ​​para o modelo em desenvolvimento no momento.
Seleção das variáveis ​​explicativas mais significativas. O procedimento para conexão sequencial de elementos
Mudar para menos variáveis ​​explicativas pode reduzir a duplicação de informações fornecidas por recursos altamente interdependentes. Isso é exatamente o que enfrentamos no caso das variáveis ​​explicativas multicolineares.
Deixe ser

Fator múltiplo
correlações entre a variável dependente Y e o conjunto de variáveis ​​explicativas X 1, X 2, ..., Xm. É definido como o coeficiente de correlação par a par usual entre Y e uma função linear
regressão Y = b0 + KX1 + b2X2 + ... + bmXm. Let amp; = R-1 - matriz inversa à matriz R:


Então, o coeficiente quadrado Ry.X = Rr (xi, x2, .., x) pode ser calculado pela fórmula:


A estimativa R * 2.X corrigida para imparcialidade do coeficiente de determinação R2y.X tem a forma:

(Se um número negativo for obtido pela fórmula (6,7), então assumimos


O limite de confiança inferior para

determinado
de acordo com a fórmula:

Na prática, ao decidir quais variáveis ​​explicativas devem ser incluídas no modelo, o procedimento de junção sequencial de elementos é frequentemente utilizado.
(j = 1, 2, ..., m). Em que

coincide com o quadrado do usual
coeficiente de correlação de pares

Deixe ser


então a variável xp será a mais informativa. Em seguida, o coeficiente corrigido para imparcialidade é calculado
(para m = 1) e seu limite de confiança inferior R2min (1).


o par jxp, xq será mais informativo). Em seguida, o coeficiente corrigido para imparcialidade é calculado (com m = 2)
e seu limite de confiança inferior R2min (2).

O procedimento continua até que na etapa (para +1) a condição seja atendida:
Em seguida, o modelo inclui as variáveis ​​mais informativas obtidas nas primeiras etapas. Observe que nos cálculos são utilizadas as fórmulas (6.7) e (6.8), nas quais, em vez de m, é considerado o valor correspondente do número do passo k.
Na verdade, esse método não garante que nos livraremos da multicolinearidade.
Outros métodos de eliminação da multicolinearidade também são usados.
Exemplo 6.1. Existem os seguintes dados condicionais (Tabela 6.1):
Tabela 6.1
Dados para o método de encadeamento


X1

X2

X3

Tenho

1

1,5

0,7

12

2

2,5

1,2

20

3

1

1,4

15

4

5,5

1,9

41

5

3

2,5

33

6

3

3,1

35

7

2,8

3,5

38

8

0,5

4

28

9

4

3,8

47

10

2

5,3

40

Vamos considerar o efeito sobre a variável dependente de cada uma das variáveis ​​explicativas separadamente. Calculando os coeficientes de correlação emparelhados, descobrimos que o coeficiente

Então:


Considere o efeito dos pares de variáveis ​​(x1, x2) e (x1, x3) na variável dependente. Primeiro, considere a influência de um par de variáveis ​​(x1, x2).



Icuvum uvjpcuuivi
Ao juntar variáveis, duas variáveis ​​explicativas devem ser incluídas na equação. Portanto, a equação teórica assumirá a forma:
Método Ridge
Considere o método de crista (regressão de crista) para eliminar a multicolinearidade. O método foi proposto por A.E. Hoerl em 1962 e é aplicado quando a matriz (xtX) está próxima da degeneração. Um pequeno número (de 0,1 a 0,4) é adicionado aos elementos diagonais da matriz (xtX). Nesse caso, estimativas enviesadas dos parâmetros da equação são obtidas. Mas os erros padrão de tais estimativas no caso de multicolinearidade são menores do que aqueles dados pelo método dos mínimos quadrados usual.
Exemplo 6.2. Os dados iniciais são apresentados "Tabela 6 2 Coeficiente de correlação das variáveis ​​explicativas

o que
indica forte multicolinearidade.
Tabela 6.2
Dados para o estudo da multicolinearidade pelo método de crista


x1

x2

Tenho

1

1,4

7

2

3,1

12


Então, obtemos a equação y = 2,63 + 1,37x1 + 1,95x2. Os elementos diagonais da matriz inversa diminuirão significativamente e serão iguais a z00 = 0,45264, z11 = 1,57796, z00 = 0,70842, o que leva a uma diminuição nos erros padrão dos coeficientes.
Resumo
Entre as principais consequências que a multicolinearidade pode levar, podem ser distinguidas as seguintes:
  1. ao testar a hipótese principal sobre a insignificância dos coeficientes de regressão múltipla usando o teste t, na maioria dos casos é aceito, no entanto, a própria equação de regressão quando testada usando o teste A mostra-se significativa, o que indica um valor superestimado do coeficiente de correlação múltipla;
  2. as estimativas obtidas dos coeficientes da equação de regressão múltipla são geralmente superestimadas injustificadamente ou têm sinais incorretos;
  3. adicionar ou excluir uma ou duas observações dos dados iniciais tem uma forte influência nas estimativas dos coeficientes do modelo;
  4. a presença de multicolinearidade em um modelo de regressão múltipla pode torná-lo inadequado para uso posterior (por exemplo, para fazer previsões).
Perguntas de autoteste
  1. O que é multicolinearidade?
  2. Quais indicadores indicam a presença de multicolinearidade?
  3. Qual é o determinante da matriz XTX no caso de multicolinearidade perfeita?
  4. O que se pode dizer sobre o significado dos coeficientes das variáveis ​​explicativas no caso da multicolinearidade?
  5. Qual transformação é realizada no método comb, a que isso leva?
  6. Qual é a ordem das ações no método de aumentar sucessivamente o número de variáveis ​​explicativas?
  7. O que mostra o coeficiente de correlação?
  8. O que mostra o coeficiente de correlação parcial?
0

Ministério da Educação e Ciência da Federação Russa

Instituição Educacional Orçamentária do Estado Federal

ensino superior

UNIVERSIDADE TÉCNICA DO ESTADO DE TVER

Departamento de "Contabilidade e Finanças"

PROJETO DE CURSO
na disciplina "Econometria"

"Investigando multicolinearidade em modelos econométricos: excluindo variável (s) do modelo"

Supervisor de trabalho:

Cand. Essa. Ciências, Professor Associado

Konovalova

Executor:

aluno do grupo EK-1315 EPO

Tver, 2015

Introdução ……………………………………………………………………………… ... 3

1. Parte analítica ………………………………………………………… 4

1.1. Sinais generalizados de multicolinearidade em modelos econométricos ……………………………………………………………………………… .4

1.2. As principais formas de eliminar a multicolinearidade em modelos econométricos ………… .. ………………………………………… ..7

2. Parte do design ……………………………………………………………… ..11

2.1. Informações e suporte metodológico de pesquisas econométricas ………………………………………………………………… .11

2.2. Um exemplo de um estudo econométrico …………………………… .17

Conclusão ………………………………………………………………… .... 30

Lista de fontes utilizadas ………………………………………… ... 31

Introdução

A relevância do tema do trabalho “Investigação da multicolinearidade em modelos econométricos: exclusão de variável (s) do modelo” deve-se ao facto de hoje em dia este problema ser frequentemente encontrado em modelos econométricos aplicados.

O tema da pesquisa é o problema da multicolinearidade. O objeto da pesquisa são modelos econométricos.

O objetivo principal do trabalho é desenvolver soluções de design para informação e suporte metodológico da investigação econométrica.

Para atingir o objetivo, as seguintes tarefas principais de pesquisa foram definidas e resolvidas:

  1. Generalização de recursos de multicolinearidade em modelos econométricos.
  2. Identificação das principais formas de eliminação da multicolinearidade.

3. Desenvolvimento de informação e suporte metodológico à investigação econométrica.

  1. Parte analítica

1.1. Sinais generalizados de multicolinearidade em modelos econométricos

Multicolinearidade - em econometria (análise de regressão) - a presença de uma relação linear entre as variáveis ​​explicativas (fatores) do modelo de regressão. Ao mesmo tempo, existem colinearidade completa, o que significa a presença de uma dependência linear funcional (idêntica), e parcial ou simplesmente multicolinearidade- a presença de uma forte correlação entre os fatores.

A colinearidade completa leva a incertezas parâmetros em um modelo de regressão linear, independentemente dos métodos de estimativa. Considere isso usando o seguinte modelo linear como exemplo:

Permita que os fatores deste modelo sejam identicamente relacionados da seguinte maneira :. Em seguida, considere o modelo linear original, no qual adicionamos ao primeiro coeficiente arbitrário número uma e subtraia o mesmo número dos outros dois coeficientes. Então temos (sem um erro aleatório):

Assim, apesar da mudança relativamente arbitrária nos coeficientes do modelo, o mesmo modelo é obtido. Este modelo é fundamentalmente não identificável. A incerteza já existe no próprio modelo. Se considerarmos o espaço tridimensional de coeficientes, então neste espaço o vetor de coeficientes verdadeiros, neste caso, não é o único, mas é uma linha reta inteira. Qualquer ponto nesta linha é um verdadeiro vetor de coeficientes.

Se a colinearidade completa leva à incerteza nos valores dos parâmetros, então a multicolinearidade parcial leva à sua instabilidade. avaliações... A instabilidade é expressa em um aumento na incerteza estatística - a variação das estimativas. Isso significa que os resultados de avaliações específicas podem variar muito de amostra para amostra, mesmo que as amostras sejam homogêneas.

Como você sabe, a matriz de covariância de estimativas de parâmetros de regressão múltiplos usando o método dos mínimos quadrados é igual a. Assim, quanto “menor” a matriz de covariância (seu determinante), “maior” a matriz de covariância das estimativas dos parâmetros e, em particular, maiores serão os elementos diagonais dessa matriz, ou seja, a variância das estimativas dos parâmetros. Para maior clareza, considere o exemplo de um modelo de dois fatores:

Então, a variância da estimativa do parâmetro, por exemplo, para o primeiro fator é igual a:

onde é o coeficiente de correlação da amostra entre os fatores.

Vê-se claramente aqui que quanto maior o módulo de correlação entre os fatores, maior a variância das estimativas dos parâmetros. Em (colinearidade total), a variância tende ao infinito, o que corresponde ao que foi dito anteriormente.

Assim, as estimativas dos parâmetros são obtidas imprecisas, o que significa que será difícil interpretar a influência de determinados fatores na variável a ser explicada. Ao mesmo tempo, a multicolinearidade não afeta a qualidade do modelo como um todo - pode ser reconhecida como estatisticamente significativa, mesmo quando tudo os coeficientes são insignificantes (este é um dos sinais de multicolinearidade).

Em modelos lineares, os coeficientes de correlação entre os parâmetros podem ser positivos e negativos. No primeiro caso, um aumento em um parâmetro é acompanhado por um aumento em outro parâmetro. No segundo caso, quando um parâmetro aumenta, o outro diminui.

Com base nisso, é possível estabelecer multicolinearidade aceitável e inaceitável. Uma multicolinearidade inaceitável ocorrerá quando houver uma correlação positiva significativa entre os fatores 1 e 2 e, ao mesmo tempo, a influência de cada fator na correlação com a função de y for unidirecional, ou seja, um aumento nos fatores 1 e 2 leva a um aumento ou diminuição na função de y. Em outras palavras, ambos os fatores agem da mesma forma na função y, e uma correlação positiva significativa entre eles pode permitir que um deles seja excluído.

A multicolinearidade permitida é tal que os fatores afetam a função y de maneira diferente. Dois casos são possíveis aqui:

a) com uma correlação positiva significativa entre os fatores, a influência de cada fator na correlação com a função y é multidirecional, ou seja, um aumento em um fator leva a um aumento na função, e um aumento em outro fator leva a uma diminuição na função de y.

b) com correlação negativa significativa entre os fatores, um aumento em um fator é acompanhado por uma diminuição em outro fator e isso torna os fatores ambíguos, portanto, qualquer sinal da influência dos fatores na função de y é possível.

Na prática, algumas das características mais características da multicolinearidade são distinguidas: 1. Uma pequena mudança nos dados iniciais (por exemplo, adicionar novas observações) leva a uma mudança significativa nas estimativas dos coeficientes do modelo. 2. As estimativas têm grandes erros padrão, baixa significância, enquanto o modelo como um todo é significativo (alto valor do coeficiente de determinação R 2 e as estatísticas F correspondentes). 3. As estimativas dos coeficientes apresentam sinais incorretos do ponto de vista teórico ou valores injustificadamente grandes.

Os sinais indiretos de multicolinearidade são erros padrão elevados de estimativas de parâmetros do modelo, pequenas estatísticas t (ou seja, coeficientes insignificantes), sinais incorretos de estimativas, enquanto o modelo como um todo é reconhecido como estatisticamente significativo (grande valor das estatísticas F) . A multicolinearidade também pode ser evidenciada por uma forte mudança nas estimativas de parâmetros a partir da adição (ou remoção) de dados de amostra (se os requisitos para homogeneidade de amostra suficiente forem atendidos).

Para detectar a multicolinearidade de fatores, a matriz de correlação de fatores pode ser analisada diretamente. Já a presença de valores grandes em valor absoluto (acima de 0,7-0,8) dos coeficientes de correlação de pares indica possíveis problemas com a qualidade das estimativas obtidas.

No entanto, a análise dos coeficientes de correlação emparelhados é insuficiente. É necessário analisar os coeficientes de determinação das regressões de fatores para outros fatores (). Recomenda-se calcular o indicador. Valores muito altos deste último significam a presença de multicolinearidade.

Assim, os principais critérios para detectar a multicolinearidade são os seguintes: alto R 2 para todos os coeficientes insignificantes, altos coeficientes de correlação de pares, altos valores do coeficiente VIF.

1.2. As principais formas de eliminar a multicolinearidade em modelos econométricos

Antes de indicar os principais métodos para eliminar a multicolinearidade, observamos que, em vários casos, a multicolinearidade não é um problema sério que requer esforços significativos para identificá-la e eliminá-la. Basicamente, tudo depende dos objetivos do estudo.

Se a principal tarefa do modelo é prever os valores futuros da regressão e, então, com um coeficiente de determinação R2 suficientemente grande (> 0,9), a presença de multicolinearidade geralmente não afeta as qualidades preditivas do modelo. Embora esta afirmação seja justificada apenas no caso de no futuro os regressores correlacionados manterem a mesma relação de antes. Se o objetivo do estudo é determinar o grau de influência de cada um dos regressores no regressando, então a presença de multicolinearidade, levando a um aumento nos erros padrão, provavelmente distorcerá as verdadeiras relações entre os regressores. Nessa situação, a multicolinearidade é um problema sério.

Observe que não existe um método único para eliminar a multicolinearidade que seja adequado em qualquer caso. Isso se deve ao fato de que as causas e consequências da multicolinearidade são ambíguas e dependem em grande parte dos resultados da amostra.

Na prática, os principais métodos para eliminar a multicolinearidade são diferenciados:

  1. Eliminando regressores do modelo O método mais simples para eliminar a multicolinearidade é excluir um ou vários regressores correlacionados do modelo. No entanto, algum cuidado é necessário ao aplicar este método. Nessa situação, erros de especificação são possíveis. Por exemplo, ao estudar a demanda por um determinado bem, o preço desse bem e os preços dos substitutos desse bem, que muitas vezes estão correlacionados entre si, podem ser usados ​​como variáveis ​​explicativas. Ao excluir os preços dos substitutos do modelo, é mais provável que cometamos um erro de especificação. Como resultado, estimativas enviesadas podem ser obtidas e conclusões não razoáveis ​​podem ser tiradas. Assim, em modelos econométricos aplicados, é desejável não excluir regressores até que sua colinearidade se torne um problema sério.
  2. Obter dados adicionais ou uma nova amostra, já que a multicolinearidade depende diretamente da amostra, então, talvez, com uma amostra diferente, não haverá multicolinearidade alguma, ou não será tão grave. Às vezes, aumentar o tamanho da amostra é suficiente para reduzir a multicolinearidade. Por exemplo, se estiver usando dados anuais, você pode ir para os dados trimestrais. Aumentar a quantidade de dados reduz a variância dos coeficientes de regressão e, portanto, aumenta sua significância estatística. Porém, a obtenção de uma nova amostra ou a ampliação de uma antiga nem sempre é possível ou envolve custos elevados. Além disso, essa abordagem pode aumentar a autocorrelação. Esses problemas limitam o uso desse método.

III. Alterando a especificação do modelo Em alguns casos, o problema de multicolinearidade pode ser resolvido alterando a especificação do modelo: ou a forma do modelo é alterada ou novos regressores são adicionados que não foram levados em consideração no modelo original, mas afetam significativamente o dependente variável. Se esse método for justificado, então seu uso reduz a soma dos quadrados dos desvios, reduzindo assim o erro padrão da regressão. Isso leva a uma redução nos erros padrão dos coeficientes.

  1. A transformação de variáveis ​​em alguns casos pode ser minimizada ou eliminada completamente o problema da multicolinearidade apenas com a ajuda da transformação de variáveis. Os dados originais em cada caso são divididos pelos valores de um dos regressores dependentes neste caso. A aplicação do método dos componentes principais aos fatores do modelo permite transformar os fatores iniciais e obter um conjunto de fatores ortogonais (não correlacionados). Nesse caso, a presença de multicolinearidade nos permitirá nos restringir a um pequeno número de componentes principais. No entanto, pode surgir o problema da interpretação significativa dos componentes principais.

Se, ao que tudo indica, há multicolinearidade, então entre os econometristas há opiniões diferentes sobre o assunto. Quando confrontado com o problema da multicolinearidade, pode haver um desejo natural de descartar as variáveis ​​independentes “desnecessárias” que podem estar causando isso. No entanto, deve ser lembrado que novas dificuldades podem surgir ao fazê-lo. Em primeiro lugar, nem sempre está claro quais variáveis ​​são redundantes nesse sentido.

Multicolinearidade significa apenas uma relação linear aproximada entre fatores, mas isso nem sempre destaca as variáveis ​​"extras". Em segundo lugar, em muitas situações, a remoção de quaisquer variáveis ​​independentes pode afetar significativamente o significado do modelo. Por fim, descartando as chamadas variáveis ​​essenciais, ou seja, variáveis ​​independentes que realmente afetam a variável dependente estudada, leva a um viés nos coeficientes do modelo. Na prática, geralmente quando a multicolinearidade é detectada, o fator menos significativo para a análise é removido e os cálculos são repetidos.

Assim, na prática, distinguem-se os principais métodos de eliminação da multicolinearidade: alterar ou aumentar a amostra, excluir uma das variáveis, transformar as variáveis ​​multicolineares (usar formas não lineares, usar agregados (combinações lineares de várias variáveis), usar as primeiras diferenças em vez de as próprias variáveis. No entanto, se a multicolinearidade não for eliminada, pode-se ignorá-la, tendo em conta a conveniência da exclusão.

  1. Parte do projeto

2.1. Informação e suporte metodológico da pesquisa econométrica

O suporte de informações da pesquisa econométrica inclui as seguintes informações:

Informações de entrada:

  • dados estatísticos sobre o indicador socioeconômico, definido como variável dependente (fatores - resultados);
  • dados estatísticos sobre indicadores socioeconômicos, definidos como variáveis ​​explicativas (fatores - sinais);

Informações intermediárias:

  • um modelo da equação de regressão, a equação de regressão estimada, indicadores de qualidade e uma conclusão sobre a qualidade da equação de regressão, uma conclusão sobre a presença (ausência) de um problema de multicolinearidade, recomendações de utilização do modelo;

Informações eficazes:

  • a equação de regressão estimada, a conclusão sobre a qualidade da equação de regressão, a conclusão sobre a presença (ausência) do problema de multicolinearidade, recomendações para a aplicação do modelo.

A metodologia da pesquisa econométrica é a seguinte: especificação; parametrização, verificação, pesquisa adicional, previsão.

1. A especificação do modelo de equação de regressão inclui uma análise gráfica da dependência da correlação da variável dependente em cada variável explicativa. Com base nos resultados da análise gráfica, chega-se a uma conclusão sobre o modelo da equação de regressão do tipo linear ou não linear. Para análise gráfica, a ferramenta MsExcel Scatter Chart mais comumente recomendada. Como resultado desta etapa, um modelo da equação de regressão é determinado e, no caso de uma forma não linear, métodos de sua linearização também são determinados.

2. A parametrização da equação de regressão inclui a estimativa dos parâmetros de regressão e sua interpretação socioeconômica. Para parametrização utilize a ferramenta "Regressão" como parte dos add-ins "Análise de Dados" MsExcel. Com base nos resultados da análise de regressão automatizada (coluna "Coeficientes"), os parâmetros de regressão são determinados e sua interpretação também é dada de acordo com a regra padrão:

Bj é o valor pelo qual o valor da variável Y muda em média à medida que a variável independente Xj aumenta em um, ceteris paribus.

A interceptação da equação de regressão é igual ao valor previsto da variável dependente Y quando todas as variáveis ​​independentes são zero.

3. A verificação da equação de regressão é realizada com base nos resultados da análise de regressão automatizada (estágio 2) de acordo com os seguintes indicadores: "R-quadrado", "Significância F", "Valor P" (para cada parâmetro da regressão), bem como nos gráficos de seleção e resíduos ...

A significância dos coeficientes é determinada e a qualidade do modelo é avaliada. Para isso, são considerados a “Significância F”, “P-Value” e “R-square”. Se o “valor P” for menor do que a equação de significância estática, isso indica a significância do coeficiente. Se o “R-quadrado” for maior que 0,6, significa que o modelo de regressão descreve bem o comportamento da variável dependente Y sobre os fatores das variáveis.

Se a “Significância F” for menor do que a equação de significância estática, então o coeficiente de determinação (R-quadrado) é considerado estatisticamente significativo condicionalmente.

O gráfico residual permite estimar a variação dos erros. Se não houver diferenças especiais entre os erros correspondentes a diferentes valores de Xi, ou seja, as variações dos erros para diferentes valores de Xi são aproximadamente as mesmas e pode-se supor que não haja problemas. O cronograma de adaptação permite que você faça julgamentos sobre a linha de base, os valores previstos e dos fatores.

Em conclusão, um julgamento é formado sobre a qualidade da equação de regressão.

  1. Pesquisa adicional.

4.1 Detecção do primeiro sinal de multicolinearidade. Com base nos resultados da análise de regressão obtidos nas cláusulas 2-3, verifica-se a situação em que o coeficiente de determinação tem um valor alto (R 2> 0,7) e estaticamente significativo (Significância F<0,05), и хотя бы один из коэффициентов регрессии не может быть признан статистически значим (P-значение >0,05) .Quando tal situação é detectada, uma conclusão é feita sobre o pressuposto de multicolinearidade.

4.2 Detecção do segundo sinal de multicolinearidade. Com base nos cálculos dos coeficientes de correlação entre as variáveis ​​dos fatores, é determinada uma relação significativa dos fatores individuais. Para cálculos em MS Excel, é aconselhável usar a ferramenta de Análise / Correlação de Dados. Com base nos valores do coeficiente de correlação, as conclusões são tiradas: quanto mais próximo (r) dos pontos extremos (± 1), maior o grau de relação linear, se o coeficiente de correlação for menor que 0,5, então é considerado que o relacionamento é fraco. A presença de multicolinearidade é assumida no seguinte caso se houver um coeficiente de correlação significativo entre pelo menos duas variáveis ​​(ou seja, maior do que 0,7 no módulo).

4.3 Detecção do terceiro sinal de multicolinearidade. Com base na avaliação de regressões auxiliares entre variáveis ​​fatoriais e entre variáveis ​​onde existe um coeficiente de correlação significativo (Seção 4.2), conclui-se que a multicolinearidade está presente se pelo menos em uma regressão auxiliar ela for significativa e significativa. O método de regressões adicionais do coeficiente de determinação é o seguinte: 1) equações de regressão são construídas que conectam cada um dos regressores com todos os restantes; 2) os coeficientes de determinação R 2 são calculados para cada equação de regressão; 3) se a equação e o coeficiente de determinação forem considerados estatisticamente significativos, então esse regressor leva à multicolinearidade.

4.4 Generalização de julgamentos.

Com base nas cláusulas 4.1-4.3, um julgamento é formado sobre a presença / ausência de multicolinearidade e regressores que levam à multicolinearidade.

Além disso, são formadas as direções de utilização do modelo (no caso de ignorar ou ausência do problema da multicolinearidade) ou recomendações para a eliminação da multicolinearidade (na prática, excluindo uma variável).

Ao excluir uma variável, é aconselhável usar a regra:

O coeficiente de determinação é determinado para a equação de regressão originalmente construída a partir de n observações (R 2 1);

Ao excluir as últimas variáveis ​​da consideração (k), uma equação é formada para os fatores restantes com base nas n observações iniciais e o coeficiente de determinação (R ​​2 2) é determinado para ela;

As estatísticas F são calculadas: onde (R 1 2 -R 2 2) é a perda da equação como resultado da queda para as variáveis, (K) é o número de graus de liberdade adicionais que apareceram, (1- R 1 2) / (nml) é a variância não explicada das equações iniciais;

O valor crítico de F a, k, n-m -1 é determinado de acordo com as tabelas dos pontos críticos da distribuição de Fisher a um dado nível de significância a e graus de liberdade v 1 = k, v 2 = n-m-l;

Os julgamentos são formados sobre a conveniência de uma exceção de acordo com a regra: a exclusão (simultânea) de k variáveis ​​da equação é considerada inadequada para F> F a, k, n-m - 1, caso contrário, tal exceção é permitida.

Quando a variável é eliminada, o modelo resultante é analisado de acordo com as cláusulas 3-4; e é comparado com o modelo original, como resultado, o "melhor" é selecionado. Na prática, como a multicolinearidade não afeta as qualidades preditivas do modelo, esse problema pode ser ignorado.

5. A previsão é realizada de acordo com o modelo inicial / "melhor" selecionado no parágrafo 4.4, de acordo com o esquema de previsão retrospectiva, em que o último 1/3 das observações é utilizado para a previsão.

5.1. Previsão de pontos. Os valores reais das variáveis ​​de fator no período de previsão são considerados previstos, os valores previstos da variável resultante são determinados conforme previsto pelo modelo original / "melhor" com base nas variáveis ​​de fator no período de previsão. Usando a ferramenta "Gráfico" do Microsoft Excel, um gráfico dos valores reais e preditos da variável resultante é traçado de acordo com as observações e é feita uma conclusão sobre a proximidade dos valores reais aos preditos.

5,2 A previsão de intervalo envolve o cálculo de erros padrão de previsão (usando variáveis ​​dummy Salkever) e os limites superior e inferior dos valores previstos.

Usando a ferramenta de análise / regressão de dados do Microsoft Excel, uma regressão é construída para o conjunto de dados agregado da amostra e o período de previsão, mas com a adição das variáveis ​​dummy D 1, D 2, ..., D p. Nesse caso, D i = 1 apenas para o momento de observação (n + i), para todos os outros momentos D i = 0. Então, o coeficiente da variável dummy D i é igual ao erro de predição no tempo (n + i), e o erro padrão do coeficiente é igual ao erro padrão de predição (S i). Assim, é realizada uma análise de regressão automatizada do modelo, onde os valores agregados (amostra e preditos) das variáveis ​​do fator e os valores das variáveis ​​dummy de Salkever são usados ​​como os valores de X, e o agregado (amostra e valores previstos) da variável resultante são usados ​​como os valores de Y.

Os erros padrão obtidos dos coeficientes para as variáveis ​​dummy de Salkever são iguais aos erros padrão de predição. Em seguida, os limites do intervalo de previsão são calculados usando as seguintes fórmulas: Ymin n + i = Yemp n + i -S i * t cr, Ymax n + i = Yemp n + i + S i * t cr, onde t cr é o valor crítico da distribuição de Student, determinado pela fórmula “= STYURASPOBR (0,05; nm-1)”, m é o número de fatores explicativos no modelo (Y * t), Yemp n + i são os valores previstos da variável resultante (cláusula 5.1).

Usando a ferramenta "Gráfico" do Microsoft Excel, um gráfico é construído de acordo com os valores reais e previstos da variável resultante, os limites superior e inferior da previsão para as observações. Uma conclusão é feita sobre o ajuste dos valores reais da variável resultante nos limites do intervalo de previsão.

5.3. A avaliação da estabilidade do modelo usando o teste NCO é realizada da seguinte forma:

a) usando a ferramenta "Análise / Regressão de Dados" do Microsoft Excel, uma regressão é construída, onde os valores agregados (amostra e preditos) das variáveis ​​de fator são tomados como os valores X, e os valores agregados (amostra e preditos) Da variável resultante são considerados os valores de Y. Essa regressão é usada para determinar a soma dos quadrados dos resíduos S;

b) de acordo com a regressão da cláusula 5.2 com variáveis ​​dummy de Salkever, é determinada a soma dos quadrados dos resíduos Sd;

c) o valor da estatística F é calculado e estimado pela fórmula:

onde p é o número de etapas preditivas. Se o valor obtido for maior que o valor crítico F cr, determinado pela fórmula "= FDISP (0,05; p; nm-1)", então a hipótese sobre a estabilidade do modelo no período de previsão é rejeitada, caso contrário é aceitaram.

5.4 Generalização dos julgamentos sobre as qualidades preditivas do modelo com base nas cláusulas 5.1-5.3, como resultado, uma conclusão é formada sobre a qualidade preditiva do modelo e recomendações para o uso do modelo para previsão.

Assim, a informação desenvolvida e o suporte metodológico correspondem aos objetivos principais do estudo econométrico do problema da multicolinearidade em modelos de regressão múltipla.

2.2. Um exemplo de estudo econométrico

O estudo é realizado com base em dados que refletem os indicadores macroeconômicos reais da Federação Russa para o período 2003-2011. (tabela. 1), de acordo com o método da cláusula 2.1.

tabela 1

Despesas da casa. fazendas (bilhões de rublos) [Y]

População (milhões de pessoas)

Oferta de dinheiro (bilhões de rublos)

Taxa de desemprego (%)

1. Especificação O modelo de equação de regressão inclui uma análise gráfica da correlação de dependência da variável dependente Y (Despesas domésticas sobre a variável explicativa X 1 (População) (Fig. 1), a correlação de dependência da variável dependente Y (Despesas domésticas sobre a variável explicativa X 2 (Meios de pagamento) (Fig. 2), a dependência da correlação da variável dependente Y (Despesas domésticas sobre a variável explicativa X 3 (Taxa de desemprego) (Fig. 3).

O gráfico da dependência da correlação entre Y e X 1, apresentado na Figura 1, reflete uma dependência linear inversa significativa (R 2 = 0,71) de Y em X 1.

O gráfico da correlação de dependência entre Y e X 2, apresentado na Figura 2, reflete uma dependência linear direta significativa (R 2 = 0,98) de Y em X 2.

O gráfico da dependência da correlação entre Y e X 3, apresentado na Figura 3, reflete uma dependência linear inversa insignificante (R 2 = 0,15) de Y em X 3.

Imagem 1

Figura 2

Figura 3

Como resultado, um modelo de regressão múltipla linear pode ser especificado Y = b 0 + b 1 X 1 + b 2 X 2 + b 3 X 3.

2. Parametrização as equações de regressão são realizadas usando a ferramenta "Regressão" como parte dos add-ons "Análise de Dados" MsExcel (Fig. 4).

Figura 4

A equação de regressão estimada é:

233983,8-1605,6X 1 + 1,0X 2 + 396,22X 3.

Nesse caso, os coeficientes de regressão são interpretados da seguinte forma: com aumento da população em 1 milhão de pessoas, despesas com casa. as fazendas diminuem em 1605,6 bilhões de rublos; com um aumento na oferta monetária de 1 bilhão de rublos. despesas da casa. as fazendas aumentarão em 1,0 bilhão de rublos; com aumento da taxa de desemprego de 1%, despesas com casa. as fazendas aumentarão em 396,2 bilhões de rublos. Com valores zero das variáveis ​​do fator, os custos da casa. as fazendas totalizarão 233.983,8 bilhões de rublos, o que, talvez, não tenha uma interpretação econômica.

3. Verificação a equação de regressão é realizada com base nos resultados da análise de regressão automatizada (estágio 2).

Portanto, "R-quadrado" é igual a 0,998, ou seja, a equação de regressão descreve o comportamento da variável dependente em 99%, o que indica um alto nível de descrição da equação. O "significado de F" é 2,14774253442155E-07, o que indica que o "R-quadrado" é significativo. O “P-Value” para b 0 é 0,002, o que indica que este parâmetro é significativo. O “P-Value” para b 1 é 0,002, o que indica que este coeficiente é significativo. O “P-Value” para b 2 é 8,29103190343224E-07, o que indica que este coeficiente é significativo. O “P-Value” para b 3 é 0,084, o que indica que este coeficiente não é significativo.

Com base nos gráficos de resíduos, os resíduos e são valores aleatórios.

Com base nos gráficos de ajuste, uma conclusão é feita sobre a proximidade dos valores reais e previstos para o modelo.

Portanto, o modelo é de boa qualidade, enquanto b 3 não é significativo, portanto podemos supor a presença de multicolinearidade.

4. Pesquisa adicional.

4.1. Detecção do primeiro sinal de multicolinearidade. De acordo com os dados da análise de regressão (Figura 5), ​​podemos dizer que existe o primeiro sinal de multicolinearidade, visto que um R 2 alto e significativo é detectado, revela-se que a equação possui um coeficiente de determinação alto, bem como um dos coeficientes não é significativo. Isso sugere a presença de multicolinearidade.

4.2 Detecção do segundo sinal de multicolinearidade.

Com base nos cálculos dos coeficientes de correlação entre as variáveis ​​dos fatores, é determinada uma relação significativa dos fatores individuais. (Mesa 2). A presença de multicolinearidade é assumida no seguinte caso se houver um coeficiente de correlação significativo entre pelo menos duas variáveis ​​(isto é, maior do que 0,5 no módulo).

mesa 2

[ X2]

[ X3]

[ X2]

[ X3]

No nosso caso, existe um coeficiente de correlação entre X 1 e X 2 (-0,788), o que indica uma forte dependência entre as variáveis ​​X 1, X 2, existe também um coeficiente de correlação entre X 1 e X 3 (0,54), o que indica forte dependência entre as variáveis ​​X 1, X 3.

Como resultado, a presença de multicolinearidade pode ser assumida.

4.3 Detecção do terceiro sinal de multicolinearidade.

Como na Seção 4.2 foi encontrada uma forte relação entre as variáveis ​​X 1 e X 2, então a regressão auxiliar entre essas variáveis ​​é analisada (Fig. 5).

Figura 5

Como a "Significância F" é 0,01, o que indica que o "R-quadrado" e a regressão auxiliar são significativos, pode-se supor que o regressor X 2 leva à multicolinearidade.

Como na Seção 4.2 uma relação entre as variáveis ​​X 1 e X 3 foi encontrada acima do nível médio, então a regressão auxiliar entre essas variáveis ​​é analisada (Fig. 6).

Figura 6

Como a "Significância F" é 0,13, o que indica que o "R-quadrado" e a regressão auxiliar não são significativos, pode-se supor que o regressor X 3 não leva à multicolinearidade.

Assim, de acordo com a terceira característica, pode-se presumir a presença de multicolinearidade.

4.4 Generalização de julgamentos.

De acordo com a análise dos parágrafos 4.1-4.3, todos os três sinais de multicolinearidade foram encontrados, portanto, pode ser assumida com alta probabilidade. Ao mesmo tempo, apesar da suposição na Seção 4.3 sobre o regressor que leva à multicolinearidade, é possível recomendar a exclusão de X 3 do modelo original, uma vez que X 3 tem o menor coeficiente de correlação com Y e o coeficiente desse regressor é insignificante na equação original. Os resultados da análise de regressão após a exclusão de X 3 são mostrados na Fig. 7

Figura 7

Nesse caso, calcularemos a estatística F para verificar a viabilidade de exclusão:

Fato = 4,62,

e F tab = F 0,05; 1; 5 = 6,61, uma vez que F fato< F табл, то исключение допустимо для переменной X 3 .

Avaliação da qualidade do modelo de regressão múltipla linear Y = b 0 + b 1 X 1 + b 2 X 2. O "R-quadrado" é 0,996, ou seja, a equação de regressão descreve o comportamento da variável dependente em 99%, o que indica um alto nível de descrição da equação. O "significado de F" é 3,02415218982089E-08, o que indica que o "R-quadrado" é significativo. O “P-Value” para b 0 é 0,004, o que indica que este parâmetro é significativo. O “P-Value” para b 1 é 0,005, o que indica que este coeficiente é significativo. O “P-Value” para b 2 é 3,87838361673427E-07, o que indica que este coeficiente é significativo. A equação de regressão estimada é:

201511.7 -1359.6X 1 + 1.01X 2

Neste caso, os coeficientes de regressão são interpretados da seguinte forma: com uma diminuição da população em 1 milhão de pessoas, os custos da casa. as fazendas diminuem em 1.359,6 bilhões de rublos; com um aumento no nível de oferta de moeda, despesas da casa. as fazendas aumentarão em 1,0) (bilhões de rublos). Com valores zero das variáveis ​​de fator, os custos da casa. fazendas somarão 201511,7 bilhões de rublos, o que pode ter uma interpretação econômica.

Portanto, o modelo = 201511,7 -1359,6X 1 + 1,01X 2 é de boa qualidade e é recomendado para previsão como "melhor" em comparação com o modelo original.

5. Previsão.

5.1 Previsão de pontos. Os valores reais das variáveis ​​de fator no período de previsão são considerados previstos, os valores previstos da variável resultante são determinados conforme previsto pelo "melhor" modelo (= 201511,7 -1359,6X 1 + 1,01X 2) com base em as variáveis ​​de fator no período de previsão. Usando a ferramenta "Gráfico" do Microsoft Excel, um gráfico dos valores reais e preditos da variável resultante é traçado de acordo com as observações e é feita uma conclusão sobre a proximidade dos valores reais aos preditos.

Os valores previstos das variáveis ​​do fator são apresentados na Tabela 3.

Tabela 3

Os valores previstos da variável efetiva são determinados conforme previsto pelo "melhor" modelo (= 201511,7 -1359,6X 1 + 1,01X 2) com base em variáveis ​​de fator no período de previsão. Os valores previstos são apresentados na Tabela 4; os valores reais são adicionados para comparação.

Tabela 4

[Y] empírico

A Figura 8 mostra os valores reais e previstos da variável resultante, bem como os limites inferior e superior da previsão.

Figura 8

De acordo com a Fig. 8, a previsão retém uma tendência crescente e todos os valores previstos estão próximos dos reais.

5.2. Previsão de intervalo.

Usando a ferramenta de análise / regressão de dados do Microsoft Excel, uma regressão é construída para o conjunto de dados agregado da amostra e o período de previsão, mas com a adição das variáveis ​​dummy D 1, D 2, ..., D p. Nesse caso, D i = 1 apenas para o momento de observação (n + i), para todos os outros momentos D i = 0. Os dados são apresentados na Tabela 5, o resultado da regressão na Fig. 9.

Tabela 5

[Y] corujas

Figura 9

Então, o erro padrão do coeficiente para a variável dummy é igual ao erro padrão de predição (S i): para 2012 será 738,5; para 2013 será 897,1; para 2014 será 1139,4.

Os limites do intervalo de previsão são calculados na Tabela 6.

Tabela 6

[Y] empírico

[Y] corujas

[S] pr

De acordo com a tabela. 6, usando a ferramenta "Gráfico" do Microsoft Excel, um gráfico é construído de acordo com os valores reais e previstos da variável resultante, os limites superior e inferior da previsão para observações (Fig. 10).

Figura 10

De acordo com o gráfico, os valores previstos se ajustam aos limites do intervalo de previsão, o que indica uma boa qualidade de previsão.

5.3. Avaliando a estabilidade do modelo usando o teste NCOé realizado da seguinte forma:

a) utilizando a ferramenta Microsoft Excel "Data Analysis / Regression", é construída uma regressão (Fig. 11), onde os valores agregados (amostra e previsão) das variáveis ​​fatoriais são tomados como os valores X, e os agregados ( amostra e previsão) são considerados os valores Y da variável de resultado. Esta regressão é usada para determinar a soma dos quadrados dos resíduos S = 2058232,333.

Figura 11

b) pela regressão do item 3.2 com variáveis ​​dummy de Salkever (Fig. 9), determina-se a soma dos quadrados dos resíduos Sd = 1270272,697.

c) o valor da estatística F é calculado e avaliado:

enquanto F cr = F 0,05; 3; 5 = 5,40, então o valor obtido é menor que o valor crítico F cr e a hipótese sobre a estabilidade do modelo no período de previsão é aceita.

5.4 Generalização de julgamentos sobre as qualidades preditivas do modelo com base nas cláusulas 5.1-5.3, como resultado, uma conclusão é formada sobre a alta qualidade preditiva do modelo (= 201511,7 -1359,6X 1 + 1,01X 2) e recomendações são dadas sobre o uso do modelo para previsão.

A técnica da cláusula 2.1 foi testada com sucesso, nos permite identificar os principais sinais de multicolinearidade e pode ser recomendada para tais estudos.

Conclusão

Multicolinearidade - em econometria (análise de regressão) - a presença de uma relação linear entre as variáveis ​​explicativas (fatores) do modelo de regressão. Ao mesmo tempo, é feita uma distinção entre a colinearidade completa, que significa a presença de uma relação linear funcional (idêntica), e a multicolinearidade parcial ou simplesmente, que significa a presença de uma forte correlação entre os fatores.

As principais consequências da multicolinearidade são: grandes variâncias das estimativas, uma diminuição na estatística t dos coeficientes, as estimativas dos coeficientes usando o método dos mínimos quadrados tornam-se instáveis, é difícil determinar a contribuição das variáveis ​​e um sinal incorreto do coeficiente é obtido.

Os principais critérios para detecção de multicolinearidade são os seguintes: R 2 alto com coeficientes insignificantes; Coeficientes de correlação emparelhados elevados; altos valores do coeficiente VIF.

Os principais métodos de eliminação da multicolinearidade são: exclusão da (s) variável (es) do modelo; obtenção de dados adicionais ou uma nova amostra; alterar a especificação do modelo; uso de informações preliminares sobre alguns parâmetros.

As informações e o suporte metodológico desenvolvidos correspondem aos objetivos principais do estudo econométrico do problema da multicolinearidade em modelos de regressão múltipla e podem ser recomendados para tais estudos.

Lista de fontes usadas

  1. Astakhov, S.N. Econometria [Texto]: Complexo educativo-metódico. Kazan, 2008 .-- 107s.
  2. Bardasov, S. A. ECONOMETRICS [Texto]: um tutorial. 2ª ed., Rev. e adicione. Tyumen: Tyumen State University Publishing House, 2010.264 p.
  3. Borodkina, L.I. Um curso de palestras [recurso eletrônico]. Modo de acesso - http://www.iskunstvo.info/materials/history/2/inf/correl.htm
  4. Voskoboinikov, Yu. ECONOMETRICS in EXCEL Parte 1 [Texto]: guia de estudo, Novosibirsk 2005,156 p.
  5. Eliseeva, I.I. Oficina de econometria: livro didático. guia de economia. universidades / Eliseeva, I.I., Kurysheva, S.V., Gordeenko, N.M. , [e etc.]; ed. I.I. Eliseeva - M.: Finance and Statistics, 2001.-- 191 p. - (14126-1).
  6. Multicolinearidade [recurso eletrônico]. Modo de acesso - https://ru.wikipedia.org/wiki/Multicollinearity.
  7. Novikov, A.I. Econometria [Texto]: livro didático. manual para ex. "Finance and Credit", "Economics" - M.: Dashkov e K, 2013. - 223 p. - (93895-1).
  8. O problema da multicolinearidade [recurso eletrônico]. Modo de acesso - http://crow.academy.ru/econometrics/lectures_/lect_09_/lect_09_4.pdf.
  9. Chernyak V. Applied Econometrics. Aula nº 9 [Recurso eletrônico]. Modo de acesso http://www.slideshare.net/vtcherniak/lect-09.
  10. ru - site enciclopédico [recurso eletrônico]. Modo de acesso - http://kodcupon.ru/ra17syplinoe97/ Multicolinearidade.

Download: Você não tem acesso para baixar arquivos de nosso servidor.

Agência Federal de Educação e Ciência da Federação Russa

Universidade Tecnológica do Estado de Kostroma.

Departamento de Matemática Superior

em econometria sobre o tema:

Multicolinearidade

Realizado

Estudante do primeiro ano

faculdade de correspondência

sp-t "Contabilidade,

análise e auditoria ".

Verificado

Katezhina S.F.

Kostroma 2008


Multicolinearidade

Multicolinearidade é entendida como uma alta correlação mútua de variáveis ​​explicativas. A multicolinearidade pode se manifestar em formas funcionais (explícitas) e estocásticas (latentes).

Na forma funcional de multicolinearidade, pelo menos uma das relações emparelhadas entre as variáveis ​​explicativas é uma dependência funcional linear. Nesse caso, a matriz X`X é especial, pois contém vetores coluna linearmente dependentes, e seu determinante é igual a zero, ou seja, a premissa da análise de regressão é violada, o que leva à impossibilidade de resolver o sistema correspondente de equações normais e obter estimativas dos parâmetros do modelo de regressão.

No entanto, na pesquisa econômica, a multicolinearidade freqüentemente se manifesta de forma estocástica, quando há uma correlação próxima entre pelo menos duas variáveis ​​explicativas. A matriz X`X neste caso é não singular, mas seu determinante é muito pequeno.

Ao mesmo tempo, o vetor de estimativas b e sua matriz de covariância ∑ b são proporcionais à matriz inversa (X`X) -1, o que significa que seus elementos são inversamente proporcionais ao valor do determinante | X`X |. Como resultado, desvios padrão significativos (erros padrão) dos coeficientes de regressão b 0, b 1, ..., bp são obtidos e a avaliação de sua significância pelo critério t não faz sentido, embora em geral o modelo de regressão possa mudar fora significativo pelo critério F.

As estimativas tornam-se muito sensíveis a pequenas mudanças nas observações e no tamanho da amostra. As equações de regressão, neste caso, via de regra, não têm significado real, pois alguns de seus coeficientes podem apresentar sinais incorretos do ponto de vista da teoria econômica e valores injustificadamente grandes.

Não existem critérios quantitativos precisos para determinar a presença ou ausência de multicolinearidade. No entanto, existem algumas abordagens heurísticas para sua detecção.

Uma dessas abordagens é analisar a matriz de correlação entre as variáveis ​​explicativas X 1, X 2, ..., X p e identificar pares de variáveis ​​com variáveis ​​de alta correlação (geralmente maiores que 0,8). Se tais variáveis ​​existem, fala-se de multicolinearidade entre elas. Também é útil encontrar coeficientes de determinação múltiplos entre uma das variáveis ​​explicativas e algum grupo delas. A presença de um alto coeficiente de determinação múltiplo (geralmente mais de 0,6) indica multicolinearidade.

Outra abordagem é examinar a matriz X`X. Se o determinante da matriz X`X ou seu autovalor mínimo λ min forem próximos de zero (por exemplo, da mesma ordem de magnitude com os erros computacionais acumulados), isso indica a presença de multicolinearidade. o mesmo pode ser evidenciado por um desvio significativo do autovalor máximo λ max da matriz X`X de seu autovalor mínimo λ min.

Vários métodos são usados ​​para eliminar ou reduzir a multicolinearidade. A mais simples delas (mas longe de ser sempre possível) é a de duas variáveis ​​explicativas com um alto coeficiente de correlação (maior que 0,8), uma variável é excluída da consideração. Ao mesmo tempo, qual variável deixar e qual remover da análise é decidida principalmente com base em considerações econômicas. Se, do ponto de vista econômico, nenhuma das variáveis ​​pode ser preferida, então fica aquela das duas variáveis ​​que tem maior coeficiente de correlação com a variável dependente.

Outro método para eliminar ou reduzir a multicolinearidade é passar de estimativas imparciais determinadas pelo método dos mínimos quadrados para estimativas tendenciosas que têm, no entanto, menos dispersão em relação ao parâmetro sendo estimado, ou seja, menor expectativa matemática do quadrado do desvio da estimativa b j do parâmetro β j ou M (b j - β j) 2.

As estimativas determinadas pelo vetor, de acordo com o teorema de Gauss-Markov, têm variâncias mínimas na classe de todas as estimativas lineares não enviesadas, mas na presença de multicolinearidade, essas variâncias podem acabar sendo muito grandes, e voltando-se para os correspondentes estimativas tendenciosas podem aumentar a precisão de estimar os parâmetros de regressão. A figura mostra o caso em que a estimativa enviesada β j ^, cuja distribuição amostral é dada pela densidade φ (β j ^).

De fato, seja o intervalo de confiança máximo admissível para o parâmetro estimado β j (β j -Δ, β j + Δ). Então a probabilidade de confiança, ou a confiabilidade da estimativa, determinada pela área sob a curva de distribuição no intervalo (β j -Δ, β j + Δ), como é fácil de ver na figura, será neste caso maior para estimar β j em comparação com bj (na figura, essas áreas estão sombreadas). Assim, o quadrado médio do desvio da estimativa em relação ao parâmetro estimado será menor para uma estimativa enviesada, ou seja:

M (β j ^ - β j) 2< M (b j - β j) 2

Ao usar a regressão crista (ou regressão crista), em vez de estimativas não enviesadas, estimativas tendenciosas dadas pelo vetor

β τ ^ = (X`X + τ E p +1) -1 X`Y,

Onde τ – algum número positivo, chamado "cume" ou "cume",

E p +1 é a matriz de unidade de (р + 1) ordem.

Adicionando τ aos elementos diagonais da matriz X`X torna as estimativas dos parâmetros do modelo enviesadas, mas ao mesmo tempo o determinante da matriz do sistema de equações normais aumenta - em vez de (X`X) de será igual a

| X`X + τ E p +1 |

Assim, torna-se possível excluir a multicolinearidade no caso em que o determinante | X`X | está perto de zero.

Para eliminar a multicolinearidade, pode-se usar a transição das variáveis ​​explicativas originais X 1, X 2, ..., X n, interconectadas por uma dependência de correlação bastante próxima, para novas variáveis ​​representando combinações lineares das originais. Nesse caso, as novas variáveis ​​devem ser fracamente correlacionadas ou geralmente não correlacionadas. Como tais variáveis, tomamos, por exemplo, os chamados componentes principais do vetor de variáveis ​​explicativas iniciais estudadas na análise de componentes, e consideramos a regressão sobre os componentes principais, em que os últimos atuam como variáveis ​​explicativas generalizadas sujeitas a ainda mais significativas ( interpretação econômica).

A ortogonalidade dos componentes principais impede a manifestação do efeito de multicolinearidade. Além disso, o método aplicado permite restringir-se a um pequeno número de componentes principais com um número relativamente grande de variáveis ​​explicativas iniciais.

Multicolinearidade -é um termo usado para descrever um problema em que uma relação linear frouxa entre variáveis ​​explicativas leva a estimativas de regressão não confiáveis. Claro, tal relacionamento não dá necessariamente classificações insatisfatórias. Se todas as outras condições forem favoráveis, isto é, se o número de observações e as variâncias da amostra das variáveis ​​explicativas forem grandes e a variância do termo aleatório for pequena, então, como resultado, estimativas muito boas podem ser obtidas.

Portanto, a multicolinearidade deve ser causada por uma combinação de uma dependência frouxa e uma (ou mais) condições desfavoráveis, e esta é a questão

a gravidade do fenômeno, e não seu tipo. Qualquer pontuação de regressão sofrerá com isso até certo ponto, a menos que todas as variáveis ​​explicativas sejam completamente não correlacionadas. A consideração desse problema começa apenas quando afeta seriamente os resultados da estimativa de regressão.

Esse problema é comum em regressões de séries temporais, ou seja, quando os dados são compostos por uma série de observações ao longo de um período de tempo. Se duas ou mais variáveis ​​explicativas têm uma tendência temporal forte, então elas estarão intimamente correlacionadas, e isso pode levar à multicolinearidade.


O que pode ser feito neste caso?

Os vários métodos que podem ser usados ​​para mitigar a multicolinearidade se enquadram em duas categorias: a primeira categoria é a tentativa de melhorar o grau em que quatro condições são atendidas que garantem a confiabilidade das estimativas de regressão; a segunda categoria é o uso de informações externas. Se possível, os dados obtidos diretamente são usados ​​primeiro, então obviamente seria útil aumentar o número de observações.

Se você estiver usando dados de série temporal, poderá fazer isso encurtando a duração de cada período de tempo. Por exemplo, ao avaliar as equações da função de demanda nos Exercícios 5.3 e 5.6, você pode mudar de dados anuais para trimestrais.

Depois disso, em vez de 25 observações, haverá 100 delas. Isso é tão óbvio e tão fácil de fazer que a maioria dos pesquisadores que usam séries temporais usa quase automaticamente dados trimestrais, se disponíveis, em vez de dados anuais, mesmo que o problema de multicolinearidade não vale a pena, apenas para reduzir ao mínimo as variâncias teóricas dos coeficientes de regressão. Existem, no entanto, problemas potenciais com essa abordagem. A autocorrelação pode ser introduzida ou aumentada, mas pode ser neutralizada. Além disso, o enviesamento devido a erros de medição pode ser introduzido (ou amplificado) se os dados trimestrais forem medidos com menos precisão do que os dados anuais correspondentes. Este problema não é fácil de resolver, mas pode não ser significativo.