Correlação de classificação e coeficiente de correlação de classificação de Kendall. Coeficientes de correlação de classificação de Kendall e Spearman Fórmula do coeficiente de correlação de Kendall

COEFICIENTE DE CORRELAÇÃO DE RANK KENDALLA

Uma das medidas de amostra da dependência de duas variáveis ​​aleatórias (recursos) X e Y, com base na classificação dos itens da amostra (X 1, Y x), .. ., (X n, Y n). K. a. R. a. refere-se, portanto, a estatísticos de classificação e é determinado pela fórmula

Onde r i- U pertencente a esse par ( X, Y), para um enxame de Xraven i, S = 2N- (n-1) / 2, N é o número de elementos da amostra, para os quais simultaneamente j> i e r j> r i... É sempre Como medida seletiva de dependência To. To. R. to. foi amplamente utilizado por M. Kendall (M. Kendall, ver).

K. a. R. K. é usado para testar a hipótese de independência das variáveis ​​aleatórias. Se a hipótese de independência for verdadeira, então E t = 0 e D t = 2 (2n + 5) / 9n (n-1). Com um tamanho de amostra pequeno, a verificação é estatística. a hipótese de independência é feita por meio de tabelas especiais (ver). Para n> 10, a aproximação normal é usada para a distribuição de m: se

então a hipótese de independência é rejeitada, caso contrário, é aceita. Aqui um . - o nível de significância, u a / 2 é o ponto percentual da distribuição normal. K. a. R. Porque, como qualquer outro, ele pode ser usado para detectar a dependência de dois recursos qualitativos, se apenas os elementos da amostra podem ser ordenados em relação a esses recursos. Se X, Y tem uma normal conjunta com o coeficiente de correlação p, então a relação entre K. a. p. para. e tem a forma:

Veja também Correlação de classificação de Spearman, teste de classificação.

Aceso.: Kendal M., Rank correlations, trad. from English., M., 1975; Van der Waerden B.L., Mathematical, trad. from it., M., 1960; Bol'shev L.N., Smirnov N.V., Tables of mathematical statistics, Moscow, 1965.

A. V. Prokhorov.


Enciclopédia de Matemática. - M: enciclopédia soviética... I. M. Vinogradov. 1977-1985.

Veja o que é "KENDALLA RANK CORRELATION COEFFICIENT" em outros dicionários:

    Inglês. с eficiente, correlação de classificação Kendall; alemão Kendalls Rangkorrelationskoeffizient. Coeficiente de correlação, que determina o grau de correspondência da ordenação de todos os pares de objetos em duas variáveis. Antinazi. Enciclopédia de Sociologia, 2009 ... Enciclopédia de Sociologia

    COEFICIENTE DE CORRELAÇÃO DE RANK DE KENDALL- Inglês. eficiente, correlação de classificação Kendall; alemão Kendalls Rangkorrelationskoeffizient. Coeficiente de correlação, que determina o grau de correspondência da ordenação de todos os pares de objetos em duas variáveis ​​... Dicionário Explicativo de Sociologia

    Uma medida da dependência de duas variáveis ​​aleatórias (recursos) X e Y, com base na classificação dos resultados da observação independente (X1, Y1). ... ., (Xn, Yn). Se as classificações dos valores de X estão localizadas na ordem natural i = 1 ,. ... ., n e Ri a classificação Y correspondente a ... ... Enciclopédia de matemática

    Coeficiente de correlação- (Coeficiente de correlação) O coeficiente de correlação é um indicador estatístico da dependência de duas variáveis ​​aleatórias. Determinação do coeficiente de correlação, tipos de coeficientes de correlação, propriedades do coeficiente de correlação, cálculo e aplicação ... ... Enciclopédia de investidores

    A relação entre variáveis ​​aleatórias, que, em geral, não é estritamente funcional. Ao contrário da dependência funcional, K., via de regra, é considerado quando uma das grandezas depende não só desta, mas também ... ... Enciclopédia de matemática

    Correlação (dependência de correlação) é uma relação estatística de duas ou mais variáveis ​​aleatórias (ou quantidades que podem ser consideradas como tais com algum grau aceitável de precisão). Neste caso, mudanças nos valores de um ou ... ... Wikipedia

    Correlação- (Correlação) Correlação é uma relação estatística de duas ou mais variáveis ​​aleatórias. O conceito de correlação, tipos de correlação, coeficiente de correlação, análise de correlação, correlação de preços, correlação de pares de moedas no Forex Contents ... ... Enciclopédia de investidores

    É geralmente aceito que o início do S. do século. ou, como costuma ser chamada, a estatística de "n minúsculo", foi lançada na primeira década do século XX com a publicação da obra de W. Gosset, na qual ele colocou a distribuição t, postulada por quem a recebeu o mundo um pouco mais tarde ... ... Enciclopédia psicológica

    Maurice Kendall Sir Maurice George Kendall Data de nascimento: 6 de setembro de 1907 (1907 09 06) Local de nascimento: Kettering, Reino Unido Data de morte ... Wikipedia

    Previsão- (Forecast) Definição de previsão, tarefas e princípios de previsão Definição de previsão, tarefas e princípios de previsão, métodos de previsão Conteúdo Conteúdo Definição Conceitos básicos de previsão Tarefas e princípios de previsão ... ... Enciclopédia de investidores

Envio e pré-processamento de avaliações de especialistas

Na prática, vários tipos de avaliações são usados:

- alta qualidade (frequentemente-raramente, pior-melhor, sim-não),

- estimativas de escala (faixas de valores 50-75, 76-90, 91-120, etc.),

Pontuação de um determinado intervalo (de 2 a 5, 1 -10), mutuamente independente,

Classificado (os objetos são organizados por um especialista em uma determinada ordem, e cada um recebe um número de série - classificação),

Comparativo, obtido por um dos métodos de comparação

método de comparação sequencial

método de comparação par a par de fatores.

Na próxima etapa do processamento de pareceres de especialistas, é necessário avaliar o grau de consistência dessas opiniões.

As estimativas obtidas de especialistas podem ser consideradas como uma variável aleatória, cuja distribuição reflete as opiniões dos especialistas sobre a probabilidade de uma determinada escolha de um evento (fator). Portanto, para analisar a dispersão e a consistência das estimativas de especialistas, são utilizadas características estatísticas generalizadas - médias e medidas de dispersão:

Erro quadrático médio,

Faixa variacional min - max,

- coeficiente de variação V = desvio médio quadrático / aritmo médio. (adequado para qualquer tipo de avaliação)

V i = σ i / x i avg

Para taxa medidas de similaridade mas opiniões cada par de especialistas uma variedade de métodos pode ser usada:

coeficientes de associação, com a ajuda do qual o número de respostas correspondentes e não correspondentes é levado em consideração,

coeficientes de inconsistência opiniões de especialistas,

Todas essas medidas podem ser usadas para comparar as opiniões de dois especialistas ou para analisar a relação entre a série de avaliações por dois motivos.

Coeficiente de correlação de classificação de pares de Spearman:

onde n é o número de especialistas,

c k - a diferença entre as estimativas do i-ésimo e j-ésimo especialistas para todos os T fatores

O coeficiente de correlação de classificação de Kendall (coeficiente de concordância) fornece uma avaliação geral da consistência das opiniões de todos os especialistas em todos os fatores, mas apenas para os casos em que foram utilizadas estimativas de classificação.

Está provado que o valor de S, quando todos os especialistas dão as mesmas estimativas de todos os fatores, tem um valor máximo igual a

onde n é o número de fatores,

m é o número de especialistas.

O coeficiente de concordância é igual à razão

além disso, se W for próximo de 1, então todos os especialistas forneceram estimativas suficientemente consistentes, caso contrário, suas opiniões não serão concordantes.

A fórmula para calcular S é mostrada abaixo:

onde r ij são as estimativas de classificação do i-ésimo fator pelo j-ésimo especialista,

r cf é a classificação média em toda a matriz de estimativas e é igual a

E, portanto, a fórmula para calcular S pode assumir a forma:

Se as avaliações individuais de um especialista coincidirem e forem padronizadas durante o processamento, uma fórmula diferente é usada para calcular o coeficiente de concordância:



onde T j é calculado para cada especialista (no caso de suas avaliações se repetirem para objetos diferentes), levando em consideração as repetições de acordo com as seguintes regras:

onde t j é o número de grupos de classificações iguais para o j-ésimo especialista, e

h k - o número de classificações iguais no k-ésimo grupo de classificações relacionadas do j-ésimo especialista.

EXEMPLO. Deixe 5 especialistas em seis fatores responderem na classificação, conforme mostrado na Tabela 3:

Tabela 3 - Respostas dos especialistas

Especialistas О1 О2 O3 О4 O5 O6 Soma das classificações por especialista
E1
E2
E3
E4
E5

Devido ao fato de que não foi obtida uma classificação estrita (as avaliações dos especialistas são repetidas e as somas das classificações não são iguais), transformaremos as estimativas e obteremos as classificações relacionadas (Tabela 4):

Tabela 4 - Classificações relacionadas de avaliações de especialistas

Especialistas О1 О2 O3 О4 O5 O6 Soma das classificações por especialista
E1 2,5 2,5
E2
E3 1,5 1,5 4,5 4,5
E4 2,5 2,5 4,5 4,5
E5 5,5 5,5
A soma das classificações do objeto 7,5 9,5 23,5 29,5

Agora vamos determinar o grau de consistência das opiniões de especialistas usando o coeficiente de concordância. Como as classificações estão relacionadas, calcularemos W pela fórmula (**).

Então, r cf = 7 * 5/2 = 17,5

S = 10 2 +8 2 +4,5 2 +4,5 2 +6 2 +12 2 = 384,5

Prossigamos com os cálculos de W. Para isso, calculamos separadamente os valores de T j. No exemplo, as avaliações são selecionadas especialmente para que cada especialista tenha avaliações repetidas: a primeira tem duas, a segunda tem três, a terceira tem dois grupos de duas avaliações e o quarto tem duas avaliações idênticas. Portanto:

T 1 = 2 3 - 2 = 6 T 5 = 6

T2 = 3 3 - 3 = 24

Т 3 = 2 3 –2+ 2 3 –2 = 12 Т 4 = 12

Vemos que a concordância das opiniões dos especialistas é bastante elevada e podemos avançar para a próxima etapa do estudo - fundamentação e adoção da alternativa de decisão recomendada pelos especialistas.

Caso contrário, você precisa voltar às etapas 4 a 8.

Coeficiente de correlação de classificação caracteriza a natureza geral da dependência não linear: um aumento ou diminuição no traço efetivo com um aumento no fator um. Este é um indicador da rigidez de uma relação não linear monotônica.

Finalidade do serviço... Esta calculadora online calcula Coeficiente de correlação de classificação de Kendall de acordo com todas as fórmulas básicas, bem como uma avaliação de seu significado.

Instrução. Indique a quantidade de dados (número de linhas). A solução resultante é salva em um arquivo Word.

O coeficiente proposto por Kendall é construído a partir de relações do tipo "mais-menos", cuja validade foi estabelecida na construção das escalas.
Vamos selecionar alguns objetos e comparar suas classificações em um atributo e em outro. Se, de acordo com este critério, as classificações formam uma ordem direta (ou seja, a ordem da série natural), então o par recebe +1, se for o oposto, então –1. Para o par selecionado, as unidades mais - menos correspondentes (pelo atributo X e pelo atributo Y) são multiplicadas. O resultado é obviamente +1; se as classificações de um par de ambos os recursos estão localizadas na mesma sequência, e –1 se ao contrário.
Se as ordens de classificação são iguais para todos os pares por ambos os critérios, a soma das unidades atribuídas a todos os pares de objetos é máxima e é igual ao número de pares. Se as ordens de classificação de todos os pares forem invertidas, então –C 2 N. No caso geral, C2N = P + Q, onde P é o número de positivos e Q é o número de negativos atribuídos aos pares ao comparar suas classificações para ambos os critérios.
A quantidade é chamada de coeficiente de Kendall.
Pode-se verificar pela fórmula que o coeficiente τ é a diferença entre a proporção de pares de objetos em que a ordem é a mesma em ambos os critérios (em relação ao número de todos os pares) e a proporção de pares de objetos em que a ordem não é a mesma.
Por exemplo, um valor de coeficiente de 0,60 significa que 80% dos pares têm a mesma ordem de objetos, enquanto 20% não (80% + 20% = 100%; 0,80 - 0,20 = 0,60). Aqueles. τ pode ser interpretado como a diferença entre as probabilidades de coincidência e não coincidência das ordens em ambos os signos para um par de objetos selecionados aleatoriamente.
No caso geral, o cálculo de τ (mais precisamente, P ou Q) mesmo para N da ordem de 10 torna-se complicado.
Vamos mostrar como simplificar os cálculos.


Um exemplo. A relação entre o volume da produção industrial e o investimento em ativos fixos em 10 regiões de um dos distritos federais da Federação Russa em 2003 é caracterizada pelos seguintes dados:


Calcule os coeficientes de correlação de classificação de Spearman e Kendal. Verifique sua significância em α = 0,05. Formular uma conclusão sobre a relação entre o volume da produção industrial e o investimento em ativos fixos nas regiões da Federação Russa em consideração.

Solução... Vamos atribuir classificações ao atributo Y e ao fator X.


Vamos classificar os dados por X.
Na linha Y à direita de 3, há 7 classificações excedendo 3, portanto, 3 irá gerar um termo 7 em P.
À direita de 1 há 8 classificações que excedem 1 (são 2, 4, 6, 9, 5, 10, 7, 8), ou seja, 8 entrará em P e assim por diante. Como resultado, Р = 37 e usando as fórmulas temos:

XYclassificação X, d xclassificar Y, d yPQ
18.4 5.57 1 3 7 2
20.6 2.88 2 1 8 0
21.5 4.12 3 2 7 0
35.7 7.24 4 4 6 0
37.1 9.67 5 6 4 1
39.8 10.48 6 9 1 3
51.1 8.58 7 5 3 0
54.4 14.79 8 10 0 2
64.6 10.22 9 7 1 0
90.6 10.45 10 8 0 0
37 8


Por fórmulas simplificadas:




onde n é o tamanho da amostra; z kp é o ponto crítico da região crítica bilateral, que se encontra na tabela da função de Laplace pela igualdade Ф (z kp) = (1-α) / 2.
If | τ |< T kp - нет оснований отвергнуть нулевую гипотезу. Ранговая корреляционная связь между качественными признаками незначима. Если |τ| >T kp - a hipótese nula é rejeitada. Há uma correlação de classificação significativa entre as características qualitativas.
Encontre o ponto crítico z kp
Ф (z kp) = (1-α) / 2 = (1 - 0,05) / 2 = 0,475

Vamos encontrar o ponto crítico:

Como τ> T kp - rejeitamos a hipótese nula; a correlação de classificação entre as pontuações nos dois testes é significativa.

Um exemplo. Com base nos dados sobre o volume de trabalhos de construção e instalação realizados por nossa conta e no número de funcionários em 10 empresas de construção em uma das cidades da Federação Russa, determine a relação entre esses sinais usando o coeficiente de Kendal.

Solução encontre com uma calculadora.
Vamos atribuir classificações ao atributo Y e ao fator X.
Vamos organizar os objetos de forma que suas classificações X representem uma série natural. Uma vez que as estimativas atribuídas a cada par desta série são positivas, os valores "+1" incluídos em P serão gerados apenas por aqueles pares cujas classificações em Y formam uma ordem direta.
Eles são fáceis de calcular comparando sequencialmente as classificações de cada objeto na linha Y com as de aço.
Coeficiente de Kendall.

No caso geral, o cálculo de τ (mais precisamente, P ou Q) mesmo para N da ordem de 10 torna-se complicado. Vamos mostrar como simplificar os cálculos.

ou

Solução.
Vamos classificar os dados por X.
Na linha Y à direita de 2, há 8 classificações excedendo 2, portanto, 2 irá gerar um termo 8 em P.
À direita de 4, há 6 classificações excedendo 4 (essas são 7, 5, 6, 8, 9, 10), ou seja, 6 entrará em P e assim por diante. Como resultado, P = 29 e usando as fórmulas temos:

XYclassificação X, d xclassificar Y, d yPQ
38 292 1 2 8 1
50 302 2 4 6 2
52 366 3 7 3 4
54 312 4 5 4 2
59 359 5 6 3 2
61 398 6 8 2 2
66 401 7 9 1 2
70 298 8 3 1 1
71 283 9 1 1 0
73 413 10 10 0 0
29 16


Por fórmulas simplificadas:


Para testar a hipótese nula sobre a igualdade do coeficiente de correlação de classificação geral de Kendall para zero em um nível de significância α com uma hipótese concorrente H 1: τ ≠ 0, é necessário calcular o ponto crítico:

onde n é o tamanho da amostra; z kp é o ponto crítico da região crítica bilateral, que se encontra na tabela da função de Laplace pela igualdade Ф (z kp) = (1 - α) / 2.
If | τ | T kp - a hipótese nula é rejeitada. Existe uma correlação de classificação significativa entre as características qualitativas.
Encontre o ponto crítico z kp
Ф (z kp) = (1 - α) / 2 = (1 - 0,05) / 2 = 0,475
Usando a tabela de Laplace, encontramos z kp = 1,96
Vamos encontrar o ponto crítico:

Desde τ

O coeficiente de correlação de Kendall é usado quando as variáveis ​​são representadas por duas escalas ordinais, desde que não haja classificações associadas. O cálculo do coeficiente de Kendall envolve a contagem do número de correspondências e inversões. Vamos considerar este procedimento usando o exemplo da tarefa anterior.

O algoritmo para resolver o problema é o seguinte:

    Nós registramos novamente os dados na tabela. 8.5 de modo que uma das linhas (neste caso, a linha x i) acabou por ser classificado. Em outras palavras, nós reorganizamos os pares x e y na ordem certa e inserimos os dados nas colunas 1 e 2 da tabela. 8,6.

Tabela 8.6

x eu

y eu

2. Determine o "grau de classificação" da 2ª linha ( y eu). Este procedimento é realizado na seguinte seqüência:

a) pegamos o primeiro valor da linha não classificada "3". Calculando o número de classificações abaixo dado número, que mais o valor a ser comparado. Existem 9 desses valores (números 6, 7, 4, 9, 5, 11, 8, 12 e 10). Inserimos o número 9 na coluna "jogos". Então contamos o número de valores que menor três. Existem 2 desses valores (classificações 1 e 2); adicione o número 2 à coluna "inversão".

b) descarte o número 3 (já trabalhamos com ele) e repita o procedimento para o próximo valor "6": o número de correspondências é 6 (classificações 7, 9, 11, 8, 12 e 10), o número de inversões é 4 (classificações 1, 2, 4 e 5). Entramos com o número 6 na coluna "coincidências" e o número 4 - na coluna "inversões".

c) da mesma forma, o procedimento é repetido até o final da linha; deve-se lembrar que cada valor "calculado" é excluído de uma consideração posterior (apenas as classificações abaixo desse número são contadas).

Observação

Para não errar nos cálculos, deve-se ter em mente que a cada "degrau" a soma das coincidências e inversões diminui em um; isso é compreensível se levarmos em consideração que cada vez que um valor é excluído da consideração.

3. A soma das correspondências é calculada (R) e a soma das inversões (Q); os dados são inseridos em uma e três fórmulas intercambiáveis ​​para o coeficiente de Kendall (8.10). Os cálculos correspondentes são realizados.

t (8.10)

No nosso caso:

Mesa XIV Apêndices são os valores críticos do coeficiente para uma dada amostra: τ cr. = 0,45; 0,59. O valor obtido empiricamente é comparado com o valor tabular.

Saída

τ = 0,55> τ cr. = 0,45. A correlação é estatisticamente significativa para o nível 1.

Observação:

Se necessário (por exemplo, na ausência de uma tabela de valores críticos) significância estatística t Kendall pode ser determinado pela seguinte fórmula:

(8.11)

Onde S * = P - Q+ 1 se P< Q , e S * = P - Q - 1 se P> Q.

Os valores z para o nível de significância correspondente correspondem à medida de Pearson e são encontrados de acordo com as tabelas correspondentes (não incluídas no apêndice. Para níveis de significância padrão z cr = 1,96 (para β 1 ​​= 0,95) e 2,58 (para β 2 = 0,99). O coeficiente de correlação de Kendall é estatisticamente significativo se z > z cr

No nosso caso S * = P - Q- 1 = 35 e z= 2,40, ou seja, confirma-se a conclusão inicial: a correlação entre os sinais é estatisticamente significativa para o 1º nível de significância.

Um dos fatores que limitam a aplicação de critérios baseados no pressuposto de normalidade é o tamanho da amostra. Contanto que a amostra seja grande o suficiente (por exemplo, 100 ou mais observações), você pode assumir que a distribuição da amostra é normal, mesmo se você não tiver certeza de que a distribuição da variável na população é normal. No entanto, se a amostra for pequena, esses critérios só devem ser usados ​​se houver confiança de que a variável está realmente distribuída normalmente. No entanto, não há como testar essa suposição em uma amostra pequena.

O uso de critérios baseados no pressuposto de normalidade também se limita a uma escala de medidas (ver capítulo Conceitos básicos de análise de dados). Métodos estatísticos como teste t, regressão, etc. assumem que os dados originais são contínuos. No entanto, existem situações em que os dados são simplesmente classificados (medidos em uma escala ordinal) em vez de medidos com precisão.

Um exemplo típico é dado pelas classificações de sites na Internet: a primeira posição é ocupada pelo site com maior número de visitantes, a segunda posição é ocupada pelo site com maior número de visitantes entre os demais sites (entre sites do qual o primeiro site foi removido), etc. Conhecendo as classificações, podemos dizer que o número de visitantes de um site é maior do que o número de visitantes de outro, mas é impossível dizer quanto mais. Imagine que você tenha 5 sites: A, B, C, D, E, que estão entre os 5 primeiros lugares. Suponha que no mês atual tivéssemos o seguinte arranjo: A, B, C, D, E, e no mês anterior: D, E, A, B, C. A questão é, houve mudanças significativas nas avaliações do site ou não? Nesta situação, obviamente, não podemos usar o teste t para comparar esses dois grupos de dados e passar para a área de cálculos probabilísticos específicos (e qualquer critério estatístico contém um cálculo probabilístico!). Raciocinamos assim: qual a probabilidade de que a diferença nos dois layouts de site se deva a razões puramente aleatórias ou que a diferença seja muito grande e não possa ser explicada por puro acaso. Neste raciocínio, utilizamos apenas as classificações ou permutações dos sites e não utilizamos de forma alguma uma forma específica de distribuição do número de visitantes dos mesmos.

Para a análise de pequenas amostras e para dados medidos em escalas pobres, métodos não paramétricos são usados.

Um rápido tour pelos procedimentos não paramétricos

Essencialmente, para cada critério paramétrico, há pelo menos uma alternativa não paramétrica.

Em geral, esses procedimentos se enquadram em uma das seguintes categorias:

  • critérios de distinção para amostras independentes;
  • critérios de distinção para amostras dependentes;
  • avaliação do grau de dependência entre as variáveis.

Em geral, a abordagem dos critérios estatísticos na análise de dados deve ser pragmática e não sobrecarregada com raciocínios teóricos desnecessários. Com um computador STATISTICA à sua disposição, você pode facilmente aplicar vários critérios aos seus dados. Sabendo sobre algumas das armadilhas dos métodos, você escolherá a solução certa por meio da experimentação. O desenvolvimento do gráfico é bastante natural: se você precisar comparar os valores de duas variáveis, use o teste t. No entanto, deve-se lembrar que se baseia no pressuposto de normalidade e igualdade de variâncias em cada grupo. Romper com essas suposições resulta em testes não paramétricos que são especialmente úteis para pequenas amostras.

O desenvolvimento do teste t leva à análise de variância, que é usada quando o número de grupos comparados é maior que dois. O desenvolvimento correspondente de procedimentos não paramétricos leva a uma análise de variância não paramétrica, embora seja significativamente mais pobre do que a análise de variância clássica.

Para avaliar a dependência, ou, para colocá-lo de forma um tanto pomposa, o grau de rigidez da conexão, o coeficiente de correlação de Pearson é calculado. A rigor, sua aplicação apresenta limitações associadas, por exemplo, ao tipo de escala em que os dados são medidos e à não linearidade da dependência; portanto, em alternativa, também são utilizados coeficientes de correlação não paramétricos, ou chamados de classificação, que são usado, por exemplo, para dados classificados. Se os dados são medidos em uma escala nominal, então é natural apresentá-los em tabelas de contingência que usam o teste qui-quadrado de Pearson com várias variações e correções de precisão.

Portanto, em essência, existem apenas alguns tipos de critérios e procedimentos que você precisa conhecer e ser capaz de usar, dependendo das especificações dos dados. Você precisa determinar qual critério deve ser aplicado em uma situação particular.

Os métodos não paramétricos são mais apropriados quando os tamanhos das amostras são pequenos. Se houver muitos dados (por exemplo, n> 100), geralmente não faz sentido usar estatísticas não paramétricas.

Se o tamanho da amostra for muito pequeno (por exemplo, n = 10 ou menos), os níveis de significância para os testes não paramétricos que usam a aproximação normal podem ser considerados apenas como estimativas grosseiras.

Diferenças entre grupos independentes... Se houver duas amostras (por exemplo, homens e mulheres) que precisam ser comparadas com relação a algum valor médio, por exemplo, a pressão média ou o número de leucócitos no sangue, então o teste t pode ser usado para amostras.

Alternativas não paramétricas a este teste são o critério da série Val'd-Wolfowitz, Mann-Whitney) / n, onde x i é o i-ésimo valor, n é o número de observações. Se a variável contém valores negativos ou zero (0), a média geométrica não pode ser calculada.

Média harmônica

A média harmônica às vezes é usada para médias de frequências. A média harmônica é calculada pela fórmula: ГС = n / S (1 / x i) onde ГС é a média harmônica, n é o número de observações, х i é o valor da observação com o número i. Se a variável contém zero (0), a média harmônica não pode ser calculada.

Dispersão e desvio padrão

A variância da amostra e o desvio padrão são as medidas de variabilidade (variação) mais comumente usadas nos dados. A variância é calculada como a soma dos quadrados dos desvios dos valores da variável da média da amostra, dividida por n-1 (mas não por n). O desvio padrão é calculado como a raiz quadrada da estimativa da variância.

Balanço

O intervalo de uma variável é um indicador de volatilidade, calculado como um máximo menos um mínimo.

Escopo do quartil

O intervalo trimestral, por definição, é: quartil superior menos quartil inferior (percentil 75% menos percentil 25%). Uma vez que o percentil 75% (quartil superior) é o valor à esquerda do qual 75% dos casos estão localizados, e o percentil 25% (quartil inferior) é o valor à esquerda do qual 25% dos casos estão localizados, o quartil intervalo é o intervalo em torno da mediana, que contém 50% dos casos (valores de variáveis).

Assimetria

A assimetria é uma característica da forma da distribuição. A distribuição é inclinada para a esquerda se o valor de assimetria for negativo. A distribuição é inclinada para a direita se a assimetria for positiva. A assimetria da distribuição normal padrão é 0. A assimetria está associada ao terceiro momento e é definida como: assimetria = n × M 3 / [(n-1) × (n-2) × s 3], onde M 3 é: (xi -x média x) 3, s 3 é o desvio padrão elevado à terceira potência, n é o número de observações.

Excesso

Curtose é uma característica da forma de uma distribuição, ou seja, uma medida da gravidade de seu pico (em relação a uma distribuição normal, cuja curtose é igual a 0). Como regra, as distribuições com um pico mais nítido do que o normal têm uma curtose positiva; distribuições cujo pico é menos agudo do que o pico da distribuição normal têm curtose negativa. O excesso está associado ao quarto momento e é determinado pela fórmula:

curtose = / [(n-1) × (n-2) × (n-3) × s 4], onde M j é: (xx média x, s 4 é o desvio padrão à quarta potência, n é o número de observações ...