Coeficiente de correlação de classificação de Kendall. Correlação de classificação e coeficiente de correlação de classificação de Kendall Coeficiente de correlação de classificação de Kendall no Excel

Breve teoria

O coeficiente de correlação de Kendall é usado quando as variáveis ​​são representadas por duas escalas ordinais, desde que não haja classificações associadas. O cálculo do coeficiente de Kendall envolve a contagem do número de correspondências e inversões.

Este coeficiente varia e é calculado pela fórmula:

Para cálculo, todas as unidades são classificadas por atributo; de acordo com uma série de outros critérios, o número de classificações subsequentes excedendo aquele dado (nós os denotamos por) e o número de classificações subsequentes abaixo daquele dado (nós os denotamos por) são calculados para cada classificação.

Pode-se mostrar que

e o coeficiente de correlação de classificação de Kendall pode ser escrito como

Para testar a hipótese nula no nível de significância de que o coeficiente de correlação de classificação geral de Kendall é igual a zero sob uma hipótese concorrente, é necessário calcular o ponto crítico:

onde está o tamanho da amostra; É o ponto crítico da região crítica bilateral, que se encontra na tabela da função de Laplace pela igualdade

Se - não há razão para rejeitar a hipótese nula. A correlação de classificação entre os recursos é insignificante.

Se - a hipótese nula é rejeitada. Há uma correlação de classificação significativa entre os recursos.

Um exemplo de solução do problema

A tarefa

Ao recrutar sete candidatos para os cargos vagos, foram oferecidos dois testes. Os resultados do teste (em pontos) são mostrados na tabela:

Teste Candidato 1 2 3 4 5 6 7 1 31 82 25 26 53 30 29 2 21 55 8 27 32 42 26

Calcule o coeficiente de correlação de classificação de Kendall entre os resultados do teste para dois testes e avalie sua significância no nível.

A solução do problema

Calcule o coeficiente de Kendall

As classificações do atributo de fator são organizadas estritamente em ordem crescente e as classificações correspondentes do atributo efetivo são registradas em paralelo. Para cada classificação entre as classificações seguintes, o número de classificações mais altas é calculado (inserido na coluna) e o número de classificações inferiores (inserido na coluna).

1 1 6 0 2 4 3 2 3 3 3 1 4 6 1 2 5 2 2 0 6 5 1 0 7 7 0 0 Soma 16 5

Um dos fatores que limitam a aplicação de critérios baseados no pressuposto de normalidade é o tamanho da amostra. Contanto que a amostra seja grande o suficiente (por exemplo, 100 ou mais observações), você pode assumir que a distribuição da amostra é normal, mesmo se você não tiver certeza de que a distribuição da variável na população é normal. No entanto, se a amostra for pequena, esses critérios só devem ser usados ​​se houver confiança de que a variável está realmente distribuída normalmente. No entanto, não há como testar essa suposição em uma amostra pequena.

O uso de critérios baseados no pressuposto de normalidade também se limita a uma escala de medidas (ver capítulo Conceitos básicos de análise de dados). Métodos estatísticos como teste t, regressão, etc. assumem que os dados originais são contínuos. No entanto, existem situações em que os dados são simplesmente classificados (medidos em uma escala ordinal) em vez de medidos com precisão.

Um exemplo típico é dado pelas classificações de sites na Internet: a primeira posição é ocupada pelo site com maior número de visitantes, a segunda posição é ocupada pelo site com maior número de visitantes entre os demais sites (entre sites do qual o primeiro site foi removido), etc. Conhecendo as classificações, podemos dizer que o número de visitantes de um site é maior do que o número de visitantes de outro, mas é impossível dizer quanto mais. Imagine que você tenha 5 sites: A, B, C, D, E, que estão entre os 5 primeiros lugares. Suponha que no mês atual tivéssemos o seguinte arranjo: A, B, C, D, E, e no mês anterior: D, E, A, B, C. A questão é, houve mudanças significativas nas avaliações do site ou não? Nesta situação, obviamente, não podemos usar o teste t para comparar esses dois grupos de dados e passar para a área de cálculos probabilísticos específicos (e qualquer critério estatístico contém um cálculo probabilístico!). Raciocinamos assim: qual a probabilidade de que a diferença nos dois layouts de site se deva a razões puramente aleatórias ou que a diferença seja muito grande e não possa ser explicada por puro acaso. Nesse raciocínio, utilizamos apenas as classificações ou permutações dos sites e não utilizamos de forma alguma uma forma específica de distribuição do número de visitantes dos mesmos.

Para a análise de pequenas amostras e para dados medidos em escalas pobres, métodos não paramétricos são usados.

Um rápido tour pelos procedimentos não paramétricos

Essencialmente, para cada critério paramétrico, há pelo menos uma alternativa não paramétrica.

Em geral, esses procedimentos se enquadram em uma das seguintes categorias:

  • critérios de distinção para amostras independentes;
  • critérios de distinção para amostras dependentes;
  • avaliação do grau de dependência entre as variáveis.

Em geral, a abordagem dos critérios estatísticos na análise de dados deve ser pragmática e não sobrecarregada com raciocínios teóricos desnecessários. Com um computador STATISTICA à sua disposição, você pode facilmente aplicar vários critérios aos seus dados. Sabendo sobre algumas das armadilhas dos métodos, você escolherá a solução certa por meio da experimentação. O desenvolvimento do gráfico é bastante natural: se você precisar comparar os valores de duas variáveis, use o teste t. No entanto, deve-se lembrar que se baseia no pressuposto de normalidade e igualdade de variâncias em cada grupo. Romper com essas suposições resulta em testes não paramétricos que são especialmente úteis para pequenas amostras.

O desenvolvimento do teste t leva à análise de variância, que é usada quando o número de grupos comparados é maior que dois. O desenvolvimento correspondente de procedimentos não paramétricos leva a uma análise de variância não paramétrica, embora seja significativamente mais pobre do que a análise de variância clássica.

Para avaliar a dependência, ou, para colocá-lo de forma um tanto pomposa, o grau de rigidez da conexão, o coeficiente de correlação de Pearson é calculado. A rigor, sua aplicação apresenta limitações associadas, por exemplo, ao tipo de escala em que os dados são medidos e à não linearidade da dependência; portanto, em alternativa, também são utilizados coeficientes de correlação não paramétricos, ou chamados de classificação, que são usado, por exemplo, para dados classificados. Se os dados são medidos em uma escala nominal, então é natural apresentá-los em tabelas de contingência que usam o teste qui-quadrado de Pearson com várias variações e correções de precisão.

Portanto, em essência, existem apenas alguns tipos de critérios e procedimentos que você precisa conhecer e ser capaz de usar, dependendo das especificações dos dados. Você precisa determinar qual critério deve ser aplicado em uma situação particular.

Os métodos não paramétricos são mais apropriados quando os tamanhos das amostras são pequenos. Se houver muitos dados (por exemplo, n> 100), geralmente não faz sentido usar estatísticas não paramétricas.

Se o tamanho da amostra for muito pequeno (por exemplo, n = 10 ou menos), os níveis de significância para os testes não paramétricos que usam a aproximação normal podem ser considerados apenas como estimativas grosseiras.

Diferenças entre grupos independentes... Se houver duas amostras (por exemplo, homens e mulheres) que precisam ser comparadas com relação a algum valor médio, por exemplo, a pressão média ou o número de leucócitos no sangue, então o teste t pode ser usado para amostras.

Alternativas não paramétricas a este teste são o critério da série Val'd-Wolfowitz, Mann-Whitney) / n, onde x i é o i-ésimo valor, n é o número de observações. Se a variável contém valores negativos ou zero (0), a média geométrica não pode ser calculada.

Média harmônica

A média harmônica às vezes é usada para médias de frequências. A média harmônica é calculada pela fórmula: ГС = n / S (1 / x i) onde ГС é a média harmônica, n é o número de observações, х i é o valor da observação com o número i. Se a variável contém zero (0), a média harmônica não pode ser calculada.

Dispersão e desvio padrão

A variância da amostra e o desvio padrão são as medidas de variabilidade (variação) mais comumente usadas nos dados. A variância é calculada como a soma dos quadrados dos desvios dos valores da variável da média da amostra, dividida por n-1 (mas não por n). O desvio padrão é calculado como a raiz quadrada da estimativa da variância.

Balanço

O intervalo de uma variável é um indicador de volatilidade, calculado como um máximo menos um mínimo.

Escopo do quartil

O intervalo trimestral, por definição, é: quartil superior menos quartil inferior (percentil 75% menos percentil 25%). Uma vez que o percentil 75% (quartil superior) é o valor à esquerda do qual 75% dos casos estão localizados, e o percentil 25% (quartil inferior) é o valor à esquerda do qual 25% dos casos estão localizados, o quartil intervalo é o intervalo em torno da mediana, que contém 50% dos casos (valores de variáveis).

Assimetria

A assimetria é uma característica da forma da distribuição. A distribuição é inclinada para a esquerda se o valor de assimetria for negativo. A distribuição é inclinada para a direita se a assimetria for positiva. A assimetria da distribuição normal padrão é 0. A assimetria está associada ao terceiro momento e é definida como: assimetria = n × M 3 / [(n-1) × (n-2) × s 3], onde M 3 é: (xi -x média x) 3, s 3 é o desvio padrão elevado à terceira potência, n é o número de observações.

Excesso

A curtose é uma característica da forma de uma distribuição, ou seja, uma medida da gravidade de seu pico (em relação a uma distribuição normal, cuja curtose é igual a 0). Como regra, as distribuições com um pico mais nítido do que o normal têm uma curtose positiva; distribuições cujo pico é menos agudo do que o pico da distribuição normal têm curtose negativa. O excesso está associado ao quarto momento e é determinado pela fórmula:

curtose = / [(n-1) × (n-2) × (n-3) × s 4], onde M j é: (xx média x, s 4 é o desvio padrão à quarta potência, n é o número de observações ...

É usado para identificar a relação entre indicadores quantitativos ou qualitativos, se eles puderem ser classificados. Os valores do indicador X são definidos em ordem crescente e classificações atribuídas. Os valores do indicador Y são classificados e o coeficiente de correlação de Kendall é calculado:

Onde S = PQ.

P grande o valor de classificação Y.

Q- o número total de observações seguindo as observações atuais com menor o valor de classificação Y. (classificações iguais não contam!)

Se os dados estudados são repetidos (têm as mesmas classificações), então o coeficiente de correlação corrigido de Kendall é usado nos cálculos:

t- o número de classificações relacionadas nas linhas X e Y, respectivamente.

19. Qual deve ser o ponto de partida na definição do tema, objeto, assunto, meta, objetivos e hipótese da pesquisa?

O programa de pesquisa, via de regra, tem duas seções: metodológica e processual. O primeiro inclui a fundamentação da relevância do tema, a formulação do problema, a definição do objeto e do assunto, as metas e objetivos da pesquisa, a formulação dos conceitos básicos (aparato categórico), a análise sistemática preliminar do objeto de pesquisa e a proposição de uma hipótese de trabalho. A segunda seção revela o plano estratégico de pesquisa, bem como o plano e os procedimentos básicos para a coleta e análise de dados primários.

Em primeiro lugar, ao escolher um tema de pesquisa, deve-se partir da relevância. Justificativa de relevância inclui uma indicação da necessidade e oportunidade do estudo e solução do problema para o desenvolvimento posterior da teoria e prática de ensino e educação. A pesquisa temática fornece uma resposta para as questões mais urgentes neste momento, reflete a ordem social da sociedade para a ciência pedagógica e revela as contradições mais importantes que ocorrem na prática. O critério da relevância é dinâmico, móvel, depende do tempo, tendo em conta circunstâncias específicas e específicas. Em sua forma mais geral, a relevância caracteriza o grau de discrepância entre a demanda por ideias científicas e recomendações práticas (para atender a uma necessidade particular) e as propostas que a ciência e a prática podem oferecer na atualidade.

A base mais convincente para definir o tópico de pesquisa é a ordem social, refletindo os problemas mais agudos e socialmente significativos que requerem soluções urgentes. A ordem social requer a comprovação de um tópico específico. Normalmente, esta é uma análise do grau de elaboração de uma questão em ciências.

Se a ordem social decorre da análise da prática pedagógica, então ela mesma problema científico está em um plano diferente. Expressa a principal contradição que deve ser resolvida por meio da ciência. A solução para o problema geralmente é propósito do estudo. O objetivo é um problema reformulado.

A formulação do problema envolve seleção de objeto pesquisar. Pode ser um processo pedagógico, uma área da realidade pedagógica ou algum tipo de atitude pedagógica que contém uma contradição. Em outras palavras, um objeto pode ser qualquer coisa que contenha explícita ou implicitamente uma contradição e gere uma situação problemática. O objeto é para onde o processo de cognição é direcionado. Objeto de estudo - parte, lado do objeto. Estes são os mais significativos do ponto de vista prático ou teórico, propriedades, aspectos, características de um objeto que estão sujeitos ao estudo direto.

De acordo com a finalidade, objeto e objeto de pesquisa, pesquisa tarefas, que, via de regra, visam verificar hipóteses. Este último é um conjunto de suposições baseadas na teoria, cuja verdade está sujeita a verificação.

Critério novidade científica pode ser usado para avaliar a qualidade dos estudos concluídos. Caracteriza novas conclusões teóricas e práticas, padrões de ensino, sua estrutura e mecanismos, conteúdos, princípios e tecnologias, que até então não eram conhecidos e não estavam registrados na literatura pedagógica. A novidade da pesquisa pode ter significância teórica e prática. O valor teórico da pesquisa está em criar um conceito, obter uma hipótese, regularidade, método, modelo de identificação de um problema, tendência, direção. O significado prático da pesquisa está na preparação de propostas, recomendações, etc. Os critérios de novidade, significância teórica e prática variam conforme o tipo de pesquisa, também dependem do tempo de obtenção de novos conhecimentos.

COEFICIENTE DE CORRELAÇÃO DE RANK KENDALLA

Uma das medidas de amostra da dependência de duas variáveis ​​aleatórias (recursos) X e Y, com base na classificação dos itens da amostra (X 1, Y x), .. ., (X n, Y n). K. a. R. a. refere-se, portanto, a estatísticos de classificação e é determinado pela fórmula

Onde r i- U pertencente a esse par ( X, Y), para um enxame de Xraven i, S = 2N- (n-1) / 2, N é o número de elementos da amostra, para os quais simultaneamente j> i e r j> r i... É sempre Como medida seletiva de dependência To. To. R. to. foi amplamente utilizado por M. Kendall (M. Kendall, ver).

K. a. R. K. é usado para testar a hipótese de independência das variáveis ​​aleatórias. Se a hipótese de independência for verdadeira, então E t = 0 e D t = 2 (2n + 5) / 9n (n-1). Com um tamanho de amostra pequeno, a verificação é estatística. a hipótese de independência é feita por meio de tabelas especiais (ver). Para n> 10, a aproximação normal é usada para a distribuição de m: se

então a hipótese de independência é rejeitada, caso contrário, é aceita. Aqui um . - o nível de significância, u a / 2 é o ponto percentual da distribuição normal. K. a. R. Porque, como qualquer outro, ele pode ser usado para detectar a dependência de dois recursos qualitativos, se apenas os elementos da amostra podem ser ordenados em relação a esses recursos. Se X, Y tem uma normal conjunta com o coeficiente de correlação p, então a relação entre K. a. p. para. e tem a forma:

Veja também Correlação de classificação de Spearman, teste de classificação.

Aceso.: Kendal M., Rank correlations, trad. from English., M., 1975; Van der Waerden B.L., Mathematical, trad. from it., M., 1960; Bol'shev L.N., Smirnov N.V., Tables of mathematical statistics, Moscow, 1965.

A. V. Prokhorov.


Enciclopédia de Matemática. - M: enciclopédia soviética... I. M. Vinogradov. 1977-1985.

Veja o que é "KENDALLA RANK CORRELATION COEFFICIENT" em outros dicionários:

    Inglês. с eficiente, correlação de classificação Kendall; alemão Kendalls Rangkorrelationskoeffizient. Coeficiente de correlação, que determina o grau de correspondência da ordenação de todos os pares de objetos em duas variáveis. Antinazi. Enciclopédia de Sociologia, 2009 ... Enciclopédia de Sociologia

    COEFICIENTE DE CORRELAÇÃO DE RANK DE KENDALL- Inglês. eficiente, correlação de classificação Kendall; alemão Kendalls Rangkorrelationskoeffizient. Coeficiente de correlação, que determina o grau de correspondência da ordenação de todos os pares de objetos em duas variáveis ​​... Dicionário Explicativo de Sociologia

    Uma medida da dependência de duas variáveis ​​aleatórias (recursos) X e Y, com base na classificação dos resultados de observação independente (X1, Y1). ... ., (Xn, Yn). Se as classificações dos valores de X estão localizadas na ordem natural i = 1 ,. ... ., n e Ri a classificação Y correspondente a ... ... Enciclopédia de matemática

    Coeficiente de correlação- (Coeficiente de correlação) O coeficiente de correlação é um indicador estatístico da dependência de duas variáveis ​​aleatórias. Determinação do coeficiente de correlação, tipos de coeficientes de correlação, propriedades do coeficiente de correlação, cálculo e aplicação ... ... Enciclopédia de investidores

    A relação entre variáveis ​​aleatórias, que, em geral, não é estritamente funcional. Ao contrário da dependência funcional, K., via de regra, é considerado quando uma das grandezas depende não só desta outra, mas também ... ... Enciclopédia de matemática

    Correlação (dependência de correlação) é uma relação estatística de duas ou mais variáveis ​​aleatórias (ou quantidades que podem ser consideradas como tais com algum grau aceitável de precisão). Neste caso, mudanças nos valores de um ou ... ... Wikipedia

    Correlação- (Correlação) Correlação é uma relação estatística de duas ou mais variáveis ​​aleatórias. O conceito de correlação, tipos de correlação, coeficiente de correlação, análise de correlação, correlação de preços, correlação de pares de moedas no Forex Contents ... ... Enciclopédia de investidores

    É geralmente aceito que o início de S. do m. Século. ou, como costuma ser chamada, a estatística do "n minúsculo", foi colocada na primeira década do século XX pela publicação da obra de W. Gosset, na qual colocou a distribuição t, postulada por quem a recebeu o mundo um pouco mais tarde ... ... Enciclopédia psicológica

    Maurice Kendall Sir Maurice George Kendall Data de nascimento: 6 de setembro de 1907 (1907 09 06) Local de nascimento: Kettering, Reino Unido Data de morte ... Wikipedia

    Previsão- (Forecast) Definição de previsão, tarefas e princípios de previsão Definição de previsão, tarefas e princípios de previsão, métodos de previsão Conteúdo Conteúdo Definição Conceitos básicos de previsão Tarefas e princípios de previsão ... ... Enciclopédia de investidores

Para calcular o coeficiente de correlação de classificação de Kendall r ké necessário classificar os dados para um dos atributos em ordem crescente e determinar as classificações correspondentes para o segundo atributo. Então, para cada classificação da segunda característica, o número de classificações subsequentes, maior em magnitude do que a classificação obtida, é determinado e a soma desses números é encontrada.

O coeficiente de correlação de classificação de Kendall é determinado pela fórmula


Onde R i- o número de classificações da segunda variável, a partir de eu+1, cuja magnitude é maior do que a magnitude eu posição desta variável.

Existem tabelas de pontos percentuais da distribuição do coeficiente r k, permitindo testar a hipótese sobre a significância do coeficiente de correlação.

Para tamanhos de amostra grandes, valores críticos r k não são tabulados, e devem ser calculados usando fórmulas aproximadas, que se baseiam no fato de que sob a hipótese nula H 0: r k= 0 e grande n valor aleatório

distribuído aproximadamente de acordo com a lei normal padrão.

40. Relação entre características medidas em escalas nominais ou ordinais

Freqüentemente, surge o problema de verificar a independência de duas características medidas em uma escala nominal ou ordinal.

Deixe alguns objetos medirem duas características X e Y com o número de níveis r e s respectivamente. Os resultados de tais observações são convenientemente apresentados na forma de uma tabela, chamada de tabela de contingência.

Na mesa você eu(eu = 1, ..., r) e v j (j= 1, ..., s) - os valores assumidos pelos recursos, o valor n ij- o número de objetos do número total de objetos para os quais o atributo X assumiu o significado você eu, e o sinal Y- significado v j

Apresentamos as seguintes variáveis ​​aleatórias:

você eu


- o número de objetos que possuem um valor v j


Além disso, existem igualdades óbvias



Variáveis ​​aleatórias discretas X e Y independente se e somente se

para todos os casais eu, j

Portanto, a conjectura sobre a independência de variáveis ​​aleatórias discretas X e Y pode ser escrito assim:

Como alternativa, via de regra, eles usam a hipótese

A validade da hipótese H 0 deve ser julgada com base nas frequências da amostra n ij Tabelas de contingência. De acordo com a lei de grandes números em n→ ∞, as frequências relativas estão próximas das probabilidades correspondentes:



Para testar a hipótese H 0, estatísticas são usadas

que, se a hipótese for verdadeira, tem a distribuição χ 2 segundos rs − (r + s- 1) graus de liberdade.

Critério de independência χ 2 rejeita a hipótese H 0 com nível de significância α se:


41. Análise de regressão. Conceitos básicos de análise de regressão

Para uma descrição matemática das relações estatísticas entre as variáveis ​​estudadas, os seguintes problemas devem ser resolvidos:

ü escolher uma classe de funções em que seja aconselhável buscar a melhor (em certo sentido) aproximação da dependência de interesse;

ü encontrar estimativas dos valores desconhecidos dos parâmetros incluídos nas equações da dependência necessária;

ü estabelecer a adequação da equação obtida da dependência exigida;

ü para identificar as variáveis ​​de entrada mais informativas.

A totalidade das tarefas listadas é objeto de pesquisa em análise de regressão.

Uma função de regressão (ou regressão) é a dependência da expectativa matemática de uma variável aleatória no valor obtido por outra variável aleatória, que forma um sistema bidimensional de variáveis ​​aleatórias com a primeira.

Que haja um sistema de variáveis ​​aleatórias ( X,Y), então a função de regressão Y sobre X

E a função de regressão X sobre Y

Funções de regressão f(x) e φ (y) não são mutuamente reversíveis se apenas a relação entre X e Y não é funcional.

Quando n vetor dimensional com coordenadas X 1 , X 2 ,…, X n você pode considerar a expectativa matemática condicional para qualquer componente. Por exemplo, para X 1


chamada regressão X 1 em X 2 ,…, X n.

Para uma definição completa da função de regressão, é necessário conhecer a distribuição condicional da variável de saída para valores fixos da variável de entrada.

Como em uma situação real tais informações não estão disponíveis, elas geralmente se limitam à busca por uma função de aproximação adequada. f a(x) para f(x), com base em dados estatísticos do formulário ( XI, y eu), eu = 1,…, n... Esses dados são o resultado n observações independentes y 1 ,…, y n variável aleatória Y para os valores da variável de entrada x 1 ,…, x n, enquanto a análise de regressão assume que os valores da variável de entrada são especificados com precisão.

O problema de escolher a melhor função de aproximação f a(x), sendo o principal na análise de regressão, e não possui procedimentos formalizados para sua solução. Às vezes, a escolha é determinada com base na análise de dados experimentais, mais frequentemente a partir de considerações teóricas.

Se for assumido que a função de regressão é suficientemente suave, então a função de aproximação f a(x) pode ser representado como uma combinação linear de um conjunto de funções de base linearmente independentes ψ k(x), k = 0, 1,…, m-1, ou seja, na forma


Onde m- número de parâmetros desconhecidos θ k(no caso geral, o valor é desconhecido, refinado durante a construção do modelo).

Tal função é linear em parâmetros, portanto, no caso em consideração, falamos de um modelo de função de regressão linear em parâmetros.

Então, o problema de encontrar a melhor aproximação para a linha de regressão f(x) é reduzido para encontrar tais valores de parâmetros para os quais f a(x; θ) é o mais adequado aos dados disponíveis. Um dos métodos para resolver este problema é o método dos mínimos quadrados.

42. Método dos mínimos quadrados

Deixe o conjunto de pontos ( XI, y eu), eu= 1,…, n localizado em um plano ao longo de alguma linha reta

Então, como uma função f a(x) aproximando a função de regressão f(x) = M [Y|x] é natural assumir uma função linear do argumento x:


Ou seja, as funções básicas aqui são escolhidas ψ 0 (x) ≡1 e ψ 1 (x)≡x... Essa regressão é chamada de regressão linear simples.

Se o conjunto de pontos ( XI, y eu), eu= 1,…, n está localizado ao longo de alguma curva, então como f a(x) é natural tentar escolher a família das parábolas

Esta função não é linear em parâmetros θ 0 e θ 1, no entanto, por transformação funcional (neste caso, tomando o logaritmo), pode ser reduzido a uma nova função f ’a(x), linear em parâmetros:


43. Regressão Linear Simples

O modelo de regressão mais simples é um modelo linear simples (unidimensional, um fator, emparelhado), que tem a seguinte forma:


Onde ε i- variáveis ​​aleatórias (erros) não correlacionados entre si, tendo zero expectativas matemáticas e as mesmas variâncias σ 2 , uma e b- coeficientes constantes (parâmetros) que precisam ser estimados a partir dos valores de resposta medidos y eu.

Para encontrar as estimativas dos parâmetros uma e b regressão linear, determinando a linha reta que mais satisfaz os dados experimentais:


o método dos mínimos quadrados é aplicado.

De acordo com mínimos quadrados estimativas de parâmetros uma e b são encontrados a partir da condição de minimizar a soma dos quadrados dos desvios dos valores y eu verticalmente a partir da linha de regressão "verdadeira":

Que haja dez observações de uma variável aleatória Y com valores fixos da variável X

Para minimizar D igualamos a zero as derivadas parciais em relação a uma e b:



Como resultado, obtemos o seguinte sistema de equações para encontrar estimativas uma e b:


Resolver essas duas equações dá:



Expressões para estimativas de parâmetros uma e b também pode ser representado como:

Em seguida, a equação empírica da linha de regressão Y sobre X pode ser escrito como:


Estimativa de variância imparcial σ 2 desvios de valores y eu da linha reta ajustada de regressão é dada pela expressão

Vamos calcular os parâmetros da equação de regressão


Assim, a linha de regressão se parece com:


E a estimativa da variância dos desvios dos valores y eu da linha reta ajustada de regressão


44. Verificando a significância da linha de regressão

Estimativa encontrada b≠ 0 pode ser a realização de uma variável aleatória, cuja expectativa matemática é igual a zero, ou seja, pode ser que não haja dependência de regressão.

Para lidar com esta situação, você deve testar a hipótese H 0: b= 0 com uma hipótese concorrente H 1: b ≠ 0.

O teste de significância da linha de regressão pode ser realizado por meio da análise de variância.

Considere a seguinte identidade:

A magnitude y euŷ eu = ε i chamado de resto e é a diferença entre duas quantidades:

ü desvio do valor observado (resposta) da resposta média total;

ü desvio do valor de resposta previsto ŷ eu da mesma média

A identidade escrita pode ser escrita como


Tendo quadrado ambas as partes dele e somado eu, Nós temos:


Onde as quantidades são nomeadas:

a soma total (total) dos quadrados do SC n, que é igual à soma dos quadrados dos desvios das observações em relação ao valor médio das observações

a soma dos quadrados devido à regressão de SK p, que é igual à soma dos quadrados dos desvios dos valores da linha de regressão em relação à média das observações.

soma residual dos quadrados SK 0. que é igual à soma dos quadrados dos desvios das observações em relação aos valores da linha de regressão

Então a propagação Y-kov em relação à sua média pode ser atribuído, em certa medida, ao fato de que nem todas as observações estão na linha de regressão. Se fosse esse o caso, a soma dos quadrados em relação à regressão seria zero. Segue-se que a regressão será significativa se a soma dos quadrados do SC p for maior do que a soma dos quadrados do SC 0.

Os cálculos do teste de significância da regressão são realizados na seguinte tabela ANOVA.

Se erros ε i distribuído de acordo com a lei normal, então se a hipótese H 0 for válida: b= 0 estatísticas:


distribuído de acordo com a lei de Fisher com o número de graus de liberdade 1 e n−2.

A hipótese nula será rejeitada no nível de significância α se o valor estatístico calculado F será maior do que o ponto percentual α f 1;n−2; α da distribuição de Fisher.

45. Verificar a adequação do modelo de regressão. Método residual

A adequação do modelo de regressão construído é entendida como o fato de nenhum outro modelo apresentar melhora significativa na previsão da resposta.

Se todos os valores das respostas forem obtidos em valores diferentes x, ou seja, não há vários valores de resposta obtidos com o mesmo XI, então apenas um teste limitado de adequação do modelo linear pode ser realizado. A base para tal verificação são as sobras:

Desvios do padrão estabelecido:

Na medida em que X- variável unidimensional, pontos ( XI, d eu) pode ser plotada em um plano na forma da chamada plotagem residual. Tal representação às vezes permite encontrar alguma regularidade no comportamento dos resíduos. Além disso, a análise dos resíduos permite analisar a suposição sobre a distribuição dos erros.

No caso em que os erros são distribuídos de acordo com a lei normal e há uma estimativa a priori de sua variância σ 2 (uma estimativa obtida com base em medições realizadas anteriormente), então uma avaliação mais precisa da adequação do modelo é possível.

Usando F- O critério de pescador pode ser usado para verificar se a variância residual é significativa s 0 2 difere da estimativa a priori. Se for significativamente maior, então há uma inadequação e o modelo deve ser revisado.

Se a estimativa anterior σ 2 não, mas medidas de resposta Y repetido duas ou mais vezes com os mesmos valores X, então, essas observações repetidas podem ser usadas para obter outra estimativa σ 2 (o primeiro é a variância residual). Tal estimativa é considerada um erro "puro", uma vez que se x são iguais para duas ou mais observações, então apenas mudanças aleatórias podem afetar os resultados e criar uma dispersão entre eles.

A estimativa resultante acaba sendo uma estimativa mais confiável da variância do que a estimativa obtida por outros métodos. Por esse motivo, ao planejar experimentos, faz sentido configurar experimentos com repetições.

Suponha que temos m Significados diferentes X : x 1 , x 2 , ..., x m... Deixe para cada um desses valores XIn eu observações de resposta Y... As observações totais são obtidas:

Então, o modelo de regressão linear simples pode ser escrito como:


Vamos encontrar a variância dos erros “puros”. Esta variação é a estimativa combinada da variação σ 2, se representarmos os valores das respostas y ij no x = XI como volume de amostra n eu... Como resultado, a variação dos erros "puros" é:

Esta variação serve como uma estimativa σ 2 independentemente de o modelo ajustado estar correto.

Vamos mostrar que a soma dos quadrados dos “erros puros” é uma parte da soma residual dos quadrados (a soma dos quadrados incluída na expressão para a variância residual). Restando para jª observação em XI pode ser escrito como:

Se você elevar ao quadrado ambos os lados desta igualdade e, em seguida, somá-los j e por eu, Nós temos:

À esquerda dessa igualdade está a soma residual dos quadrados. O primeiro termo à direita é a soma dos quadrados dos erros “puros”, o segundo termo pode ser chamado de soma dos quadrados da inadequação. A última quantia tem m-2 graus de liberdade, portanto, a variância de inadequação

A estatística do critério de teste da hipótese H 0: o modelo linear simples é adequado, contra a hipótese H 1: o modelo linear simples é inadequado, a variável aleatória é

Se a hipótese nula for verdadeira, o valor F tem uma distribuição de Fisher com graus de liberdade m-2 e nm... A hipótese de linearidade da reta de regressão deve ser rejeitada com um nível de significância α, se o valor obtido da estatística for maior que o ponto α-percentual da distribuição de Fisher com o número de graus de liberdade m-2 e nm.

46. Verificar a adequação do modelo de regressão (ver 45). ANOVA

47. Verificar a adequação do modelo de regressão (ver 45). Coeficiente de determinação

Às vezes, para caracterizar a qualidade da linha de regressão, um coeficiente de determinação de amostra é usado R 2, mostrando qual parte (fração) da soma dos quadrados, devido à regressão, SK p está na soma total dos quadrados SK n:

O mais perto R 2 para um, quanto melhor a regressão se aproxima dos dados experimentais, mais próximas as observações são adjacentes à linha de regressão. Se R 2 = 0, então as mudanças na resposta são completamente devido à influência de fatores não contabilizados, e a linha de regressão é paralela ao eixo x-ov. No caso de regressão linear simples, o coeficiente de determinação R 2 é igual ao quadrado do coeficiente de correlação r 2 .

O valor máximo R 2 = 1 pode ser alcançado apenas no caso em que as observações foram realizadas com diferentes valores de x-ov. Se houver experimentos repetidos nos dados, o valor de R 2 não pode atingir a unidade, não importa quão bom seja o modelo.

48. Intervalos de confiança para parâmetros de regressão linear simples

Assim como a média da amostra é uma estimativa da média verdadeira (a média da população), também o são os parâmetros da amostra da equação de regressão uma e b- nada mais do que uma estimativa dos verdadeiros coeficientes de regressão. Amostras diferentes fornecem estimativas diferentes da média - assim como amostras diferentes fornecem estimativas diferentes dos coeficientes de regressão.

Supondo que a lei de distribuição de erros ε i são descritos pela lei normal, a estimativa do parâmetro b terá uma distribuição normal com parâmetros:


Uma vez que a estimativa do parâmetro umaé uma combinação linear de quantidades independentes normalmente distribuídas, também terá uma distribuição normal com média e variância:


Neste caso, o intervalo de confiança (1 - α) para estimar a variância σ 2 levando em consideração que a proporção ( n−2)s 0 2 /σ 2 distribuído por lei χ 2 com o número de graus de liberdade n-2 será determinado pela expressão


49. Intervalos de confiança para a linha de regressão. Intervalo de confiança para valores de variáveis ​​dependentes

Normalmente não sabemos os verdadeiros valores dos coeficientes de regressão. uma e b... Só conhecemos suas estimativas. Em outras palavras, a linha de regressão verdadeira pode ser mais alta ou mais baixa, mais íngreme ou mais rasa do que aquela construída a partir dos dados da amostra. Calculamos os intervalos de confiança para os coeficientes de regressão. Você também pode calcular a região de confiança para a própria linha de regressão.

Considere a regressão linear simples, é necessário construir (1− α ) intervalo de confiança para a expectativa matemática da resposta Y no valor NS = NS 0 Esta expectativa matemática é uma+bx 0, e sua estimativa

Desde então.

A estimativa obtida da expectativa matemática é uma combinação linear de valores normalmente distribuídos não correlacionados e, portanto, também tem uma distribuição normal centrada no ponto do valor verdadeiro da expectativa matemática condicional e variância

Portanto, o intervalo de confiança para a linha de regressão em cada valor x 0 pode ser representado como


Como você pode ver, o intervalo de confiança mínimo é obtido em x 0 é igual à média e aumenta conforme x 0 “afasta-se” do meio em qualquer direção.

Para obter um conjunto de intervalos de confiança conjuntos adequados para toda a função de regressão, ao longo de todo o seu comprimento, na expressão acima em vez de t n −2,α / 2 deve ser substituído