Elementos de processamento de dados estatísticos. Processamento de dados estatísticos e suas características Dados para processamento de dados estatísticos

Trabalho de laboratório №3. Processamento de dados estatísticos no sistema MatLab

Apresentação geral do problema

O principal objetivo da implementação trabalho de laboratórioé conhecer os fundamentos do trabalho com processamento de dados estatísticos no ambiente MatLAB.

Parte teórica

Processamento de dados estatísticos primários

O processamento estatístico dos dados é baseado em métodos quantitativos primários e secundários. A finalidade do tratamento primário de dados estatísticos é estruturar a informação recebida, o que implica agrupar os dados em tabelas dinâmicas de acordo com vários parâmetros. Os dados brutos devem ser apresentados em um formato que uma pessoa possa fazer uma avaliação aproximada do conjunto de dados recebido e revelar informações sobre a distribuição de dados da amostra de dados recebida, por exemplo, a homogeneidade ou compactação dos dados. Após a análise dos dados primários, são aplicados métodos de processamento de dados estatísticos secundários, com base nos quais são determinados padrões estatísticos no conjunto de dados existente.

A realização de uma análise estatística primária em uma matriz de dados permite que você obtenha conhecimento sobre o seguinte:

Qual é o valor mais típico para a amostra? Para uma resposta essa questão medidas de tendência central são determinadas.

Existe uma grande dispersão de dados em relação a esse valor característico, ou seja, qual é a “indefinição” dos dados? DENTRO este caso medidas de variabilidade são determinadas.

Vale ressaltar o fato de que os indicadores estatísticos da medida de tendência central e variabilidade são determinados apenas em dados quantitativos.

Medidas de tendência central- um grupo de valores em torno do qual o restante dos dados é agrupado. Assim, as medidas de tendência central generalizam a matriz de dados, o que permite fazer inferências tanto sobre a amostra como um todo quanto para realizar uma análise comparativa de amostras diferentes entre si.

Suponha que haja uma amostra de dados, então as medidas de tendência central são estimadas pelos seguintes indicadores:

1. média da amostraé o resultado da divisão da soma de todos os valores da amostra pelo seu número. É determinado pela fórmula (3.1).

(3.1)

Onde - eu-ésimo elemento de amostra;

né o número de elementos da amostra.

A média amostral fornece a maior precisão no processo de estimativa da tendência central.

Digamos que temos uma amostra de 20 pessoas. Os elementos de amostra são informações sobre a renda média mensal de cada pessoa. Suponha que 19 pessoas tenham uma renda média mensal de 20 mil. e 1 pessoa com renda de 300 tr. A renda mensal total de toda a amostra é de 680 tr. A média amostral neste caso é S=34.


2. Mediana- gera um valor acima e abaixo do qual o número de valores diferentes é o mesmo, ou seja, este é o valor central em uma série de dados sequenciais. É determinado em função da paridade / estranheza do número de elementos na amostra usando as fórmulas (3.2) ou (3.3). Algoritmo para estimar a mediana para uma amostra de dados:

Em primeiro lugar, os dados são classificados (ordenados) em ordem crescente/decrescente.

Se a amostra ordenada tiver um número ímpar de elementos, a mediana será igual ao valor central.

(3.2)

Onde n

No caso de um número par de elementos, a mediana é definida como a média aritmética dos dois valores centrais.

(3.3)

onde é o elemento médio da amostra ordenada;

- elemento de seleção ordenada seguinte;

O número de elementos de amostra.

No caso de todos os elementos da amostra serem diferentes, exatamente metade dos elementos da amostra será maior que a mediana e a outra metade será menor. Por exemplo, para a amostra (1, 5, 9, 15, 16), a mediana é igual ao elemento 9.

Na análise estatística de dados, a mediana permite identificar os elementos da amostra que afetam fortemente o valor da média amostral.

Digamos que temos uma amostra de 20 pessoas. Os elementos de amostra são informações sobre a renda média mensal de cada pessoa. Suponha que 19 pessoas tenham uma renda média mensal de 20 mil. e 1 pessoa com renda de 300 tr. A renda mensal total de toda a amostra é de 680 tr. A mediana, após a ordenação da amostra, é definida como a média aritmética do décimo e décimo primeiro elementos da amostra) e é igual a Me = 20 tr. Este resultado é interpretado da seguinte forma: a mediana divide a amostra em dois grupos, de modo que podemos concluir que no primeiro grupo, cada pessoa tem uma renda média mensal não superior a 20 mil rublos, e no segundo grupo, não menos de 20 mil rublos. R. Neste exemplo, podemos dizer que a mediana é caracterizada pelo quanto a pessoa “média” ganha. Enquanto o valor da média amostral é significativamente superior a S=34, o que indica a inaceitabilidade dessa característica na avaliação dos rendimentos médios.

Assim, quanto maior a diferença entre a mediana e a média da amostra, maior a dispersão dos dados da amostra (no exemplo considerado, uma pessoa com um salário de 300 tr. é claramente diferente da média das pessoas em uma determinada amostra e tem um impacto significativo na estimativa do rendimento médio). O que fazer com esses elementos é decidido em cada caso individual. Mas no caso geral, para garantir a confiabilidade da amostra, eles são retirados, pois têm forte influência na avaliação dos indicadores estatísticos.

3. Moda (Mo)- gera o valor que ocorre com mais frequência na amostra, ou seja, o valor com a maior frequência. Algoritmo de estimação de modo:

No caso em que a amostra contém elementos que ocorrem com a mesma frequência, dizemos que não há moda em tal amostra.

Se dois elemento adjacente amostras têm a mesma frequência, que é maior que a frequência dos demais elementos da amostra, então a moda é determinada como a média desses dois valores.

Se dois elementos da amostra têm a mesma frequência, que é maior que a frequência dos demais elementos da amostra, e esses elementos não são adjacentes, dizemos que existem duas modas nessa amostra.

O modo na análise estatística é usado em situações em que é necessário estimar rapidamente a medida de tendência central e não é necessária alta precisão. Por exemplo, a moda (em termos de tamanho ou marca) é conveniente para determinar as roupas e os sapatos mais procurados pelos compradores.

Medidas de dispersão (variabilidade)- um grupo de indicadores estatísticos que caracterizam as diferenças entre os valores individuais da amostra. Com base nos indicadores de medidas de dispersão, é possível avaliar o grau de homogeneidade e compacidade dos elementos da amostra. As medidas de dispersão são caracterizadas pelo seguinte conjunto de indicadores:

1. Deslizar - este é o intervalo entre os valores máximo e mínimo dos resultados das observações (elementos da amostra). O indicador de intervalo indica a dispersão de valores em um conjunto de dados. Se o intervalo for grande, os valores na população são altamente dispersos, caso contrário (o intervalo é pequeno), diz-se que os valores na população ficam próximos uns dos outros. O intervalo é determinado pela fórmula (3.4).

(3.4)

Onde - o elemento máximo da amostra;

é o elemento mínimo da amostra.

2.Desvio médioé a diferença média aritmética (em valor absoluto) entre cada valor na amostra e sua média amostral. O desvio médio é determinado pela fórmula (3.5).

(3.5)

Onde - eu-ésimo elemento de amostra;

O valor da média amostral, calculado pela fórmula (3.1);

O número de elementos de amostra.

Módulo necessário devido ao fato de que os desvios da média para cada elemento específico podem ser positivos e negativos. Portanto, se o módulo não for tomado, a soma de todos os desvios será próxima de zero e será impossível julgar o grau de variabilidade dos dados (aglomeração de dados em torno da média amostral). Na análise estatística, a moda e a mediana podem ser tomadas em vez da média amostral.

3. Dispersãoé uma medida de dispersão que descreve o desvio relativo entre os valores dos dados e a média. É calculado como a soma dos desvios quadrados de cada elemento da amostra do valor médio. Dependendo do tamanho da amostra, a variância é estimada jeitos diferentes:

Para amostras grandes (n>30) de acordo com a fórmula (3.6)

(3.6)

Para pequenas amostras (n<30) по формуле (3.7)

(3.7)

onde X i - i-ésimo elemento da amostra;

S é o valor médio da amostra;

Número de elementos amostrais;

(X i – S) - desvio do valor médio para cada valor do conjunto de dados.

4. Desvio padrãoé uma medida de quão amplamente dispersos os pontos de dados estão em relação à sua média.

O processo de quadrado dos desvios individuais no cálculo da variância aumenta o grau de desvio do valor de desvio obtido dos desvios originais, o que por sua vez introduz erros adicionais. Assim, para aproximar a estimativa da dispersão dos pontos de dados sobre sua média ao valor do desvio médio, a raiz quadrada é extraída da variância. A raiz extraída da variância caracteriza uma medida de variabilidade chamada raiz quadrada média ou desvio padrão (3,8).

(3.8)

Digamos que você seja um gerente de projeto de desenvolvimento de software. Você tem cinco programadores sob sua supervisão. Ao gerenciar o processo de execução do projeto, você distribui as tarefas entre os programadores. Para simplificar o exemplo, partiremos do fato de que as tarefas são equivalentes em complexidade e tempo de execução. Você decidiu analisar o trabalho de cada programador (o número de tarefas concluídas durante a semana) nas últimas 10 semanas, e como resultado recebeu as seguintes amostras:

Nome da Semana

Depois de avaliar o número médio de tarefas concluídas, você obteve o seguinte resultado:

Nome da Semana S
22,3
22,4
22,2
22,1
22,5

Com base no indicador S, todos os programadores, em média, trabalham com a mesma eficiência (cerca de 22 tarefas por semana). No entanto, o indicador de variabilidade (intervalo) é muito alto (de 5 tarefas para o quarto programador a 24 tarefas para o quinto programador).

Nome da Semana S P
22,3
22,4
22,2
22,1
22,5

Vamos estimar o desvio padrão, que mostra como os valores são distribuídos nas amostras em relação à média, ou seja, no nosso caso, para estimar o quão grande é o spread da conclusão da tarefa de semana para semana.

Nome da Semana S P ASSIM
22,3 1,56
22,4 1,8
22,2 2,84
22,1 1,3
22,5 5,3

A estimativa resultante do desvio padrão diz o seguinte (vamos avaliar os dois casos extremos 4 e 5 programadores):

Cada valor em uma amostra de 4 programadores, em média, desvia 1,3 empregos da média.

Cada valor na amostra 5 do programador desvia, em média, 5,3 jobs da média.

Quanto mais próximo o desvio padrão estiver de 0, mais confiável é a média, pois indica que cada valor da amostra é quase igual à média (22,5 itens em nosso exemplo). Portanto, o 4º programador é o mais consistente em contraste com o 5º. A variabilidade semana a semana da conclusão de tarefas para o 5º programador é de 5,3 tarefas, o que indica uma dispersão significativa. No caso do 5º programador, a média não é confiável e, portanto, é difícil prever o número de tarefas concluídas para a próxima semana, o que dificulta o planejamento e o cumprimento dos horários de trabalho. Que decisão gerencial você toma neste curso não é importante. É importante que receba uma avaliação com base na qual possam ser tomadas as decisões de gestão adequadas.

Assim, pode-se tirar uma conclusão geral de que a média nem sempre estima corretamente os dados. A exatidão da estimativa da média pode ser julgada pelo valor do desvio padrão.


1. Ferramentas de processamento de dados estatísticos em Excel

2. Usando funções especiais

3. Usando a ferramenta ANALYSIS PACKAGE

Literatura:

a Principal:

1. Burke. Análise de dados com Microsoft Excel. : Por. de Inglês / Burke, Kenneth, Carey, Patrick. - M.: Editora "William", 2005. - S. 216 - 256.

2. Mishin A.V. Tecnologias da informação na atividade jurídica: workshop / A.V. Mishin. – M.: RAP, 2013. – S. 2-11.

adicional:

3. Informática para advogados e economistas: um livro didático para universidades / Ed. S.V. Simonovich. - São Petersburgo: Peter, 2004. - S. 498-516.

Prática nº 30

Tópico número 11.1. Mantendo bancos de dados no Access DBMS

A aula é conduzida pelo método de projetos.

O objetivo do projeto: desenvolver um banco de dados sobre o trabalho do tribunal.

Tarefa técnica:

1. Crie um banco de dados "Tribunal" a partir de duas tabelas "Juízes" e "Reclamações" com a seguinte estrutura, respectivamente:

Mesa "Juízes"

Nome do campo Código de Árbitro NOME COMPLETO Dias de recepção Horário comercial Experiência de trabalho
Tipo de dados Numérico Texto Texto Texto Numérico
Tamanho do campo inteiro longo inteiro longo
Formato do campo Básico Básico
Número de casas decimais
Valor padrão "Casar" "15:00-17:00"
Condição de valor >36200 E<36299 Seg Ou Ter Ou Qua Ou Qui ou Sex >0 E<40
Mensagem de erro Os valores válidos são Seg, Ter, Qua, Qui ou Sex. Digite novamente! ! Os valores válidos são de 1 a 39. Por favor, tente novamente!
Campo obrigatório sim sim Não Não Não
Campo indexado Não Não Não Não

Observação. Declare o campo chave "Código do juiz".

Tabela "Reivindicações"

Nome do campo Número do processo demandante Resposta-chik Código de Árbitro Data da reunião
Tipo de dados Numérico Texto Texto Numérico Data hora
Propriedades do campo: guia Geral
Tamanho do campo inteiro longo inteiro longo Formato de data completo
Formato do campo Básico
Número de casas decimais
Valor padrão
Condição de valor >0 E<99999 >36200 E<36299
Mensagem de erro Entrada errada - tente novamente! Os valores válidos são de 36201 a 36298. Por favor, tente novamente!
Campo obrigatório sim Não Não Não Não
Campo indexado Sim (não são permitidas correspondências) Não Não Sim (coincidência permitida) Não

2. Na tabela de Juízes, insira os seguintes registros de dados:

Na tabela Reivindicações, insira os seguintes registros de dados:

3. Use o campo "Código do juiz" para estabelecer uma relação "um para muitos" entre as tabelas Juízes E ações judiciais. Ao mesmo tempo, defina "Garantir a integridade dos dados" e "atualização em cascata dos campos relacionados".

Literatura:

a Principal:

1. Mishin A.V. Tecnologias da informação na atividade profissional: guia de estudos / A.V. Mishin, L. E. Mistrov, D. V. Kartavtsev. - M.: RAP, 2011. - S. 259-264.

adicional:

Prática nº 31

Tópico número 11.2. Princípios de criação de formulários e consultas no Access DBMS

1. Desenvolvimento de formulários de entrada de dados.

2. Metodologia para realizar cálculos e analisar os dados inseridos.

Literatura:

a Principal:

1. Mishin A.V. Tecnologias da informação na atividade profissional: guia de estudos / A.V. Mishin, L. E. Mistrov, D. V. Kartavtsev. - M.: RAP, 2011. - S. 265-271.

adicional:

2. Informática e tecnologias da informação: livro didático para estudantes universitários / I.G. Lesnichaya, I. V. Desaparecido, Yu. D. Romanova, V. I. Shestakov. - 2ª edição. - M.: Eksmo, 2006. - 544 p.

3. Mikheeva E.V. Tecnologias da informação na atividade profissional: um livro didático para alunos de escolas profissionais secundárias / E.V. Mikheev. - 2ª ed., apagada. - M.: Academia, 2005. - 384 p.

Enviar seu bom trabalho na base de conhecimento é simples. Use o formulário abaixo

Estudantes, estudantes de pós-graduação, jovens cientistas que usam a base de conhecimento em seus estudos e trabalhos ficarão muito gratos a você.

Hospedado em http://www.allbest.ru/

Processamento de dados estatísticos

Introdução

correlação de amostra de variância estatística

Os métodos de processamento estatístico dos resultados de um experimento são chamados de técnicas matemáticas, fórmulas, métodos de cálculos quantitativos, com a ajuda dos quais os indicadores obtidos durante o experimento podem ser generalizados, trazidos para um sistema, revelando os padrões ocultos neles. Estamos falando de tais regularidades de natureza estatística que existem entre as variáveis ​​estudadas no experimento.

Alguns dos métodos de análise matemática e estatística permitem calcular as chamadas estatísticas matemáticas elementares que caracterizam a distribuição amostral de dados, como média amostral, variância amostral, moda, mediana e vários outros. Outros métodos de estatística matemática, como análise de variância, análise de regressão, permitem julgar a dinâmica das mudanças nas estatísticas de amostras individuais. Com a ajuda do terceiro grupo de métodos, digamos, análise de correlação, análise fatorial, métodos para comparar dados amostrais, pode-se julgar com segurança as relações estatísticas que existem entre as variáveis ​​investigadas neste experimento.

1. Métodos de processamento estatístico primário de resultados experimentais

Todos os métodos de análise matemática e estatística são condicionalmente divididos em primários e secundários. Os métodos são chamados de primários, com os quais é possível obter indicadores que refletem diretamente os resultados das medições feitas no experimento. Assim, indicadores estatísticos primários significam aqueles que são usados ​​nos próprios métodos de psicodiagnóstico e são o resultado do processamento estatístico inicial dos resultados do psicodiagnóstico. Os métodos secundários são chamados de processamento estatístico, com o qual, com base em dados primários, são revelados padrões estatísticos ocultos neles.

Os métodos de processamento estatístico primário incluem, por exemplo, a determinação da média amostral, variância amostral, modo amostral e mediana amostral. Os métodos secundários geralmente incluem análise de correlação, análise de regressão, métodos para comparar estatísticas primárias em duas ou mais amostras.

Considere métodos para calcular estatísticas matemáticas elementares.

1.1 Moda

A característica numérica da amostra, que, via de regra, não requer cálculos, é a chamada moda. A moda é o valor quantitativo da característica em estudo, que é mais frequentemente encontrada na amostra. Para distribuições simétricas de características, incluindo a distribuição normal, o valor da moda coincide com os valores da média e mediana. Para outros tipos de distribuição, assimétrica, isso não é típico. Por exemplo, na sequência de valores de recursos 1, 2, 5, 2, 4, 2, 6, 7, 2, o valor 2 é a moda, pois ocorre com mais frequência do que outros valores - quatro vezes.

A moda é encontrada de acordo com as seguintes regras:

1) No caso em que todos os valores da amostra ocorram com igual frequência, considera-se que esta série amostral não possui moda. Por exemplo: 5, 5, 6, 6, 7, 7 - não há modo nesta seleção.

2) Quando dois valores vizinhos (adjacentes) têm a mesma frequência e sua frequência é maior que as frequências de quaisquer outros valores, a moda é calculada como a média aritmética desses dois valores. Por exemplo, na amostra 1, 2, 2, 2, 5, 5, 5, 6, as frequências dos valores adjacentes 2 e 5 são iguais e iguais a 3. Essa frequência é maior que a frequência de outros valores 1 e 6 (que têm igual a 1). Portanto, a moda desta série será o valor = 3,5

3) Se dois valores não adjacentes (não adjacentes) na amostra tiverem frequências iguais que são maiores que as frequências de qualquer outro valor, então dois modos são distinguidos. Por exemplo, nas séries 10, 11, 11, 11, 12, 13, 14, 14, 14, 17, as modas são 11 e 14. Nesse caso, diz-se que a amostra é bimodal.

Também podem existir as chamadas distribuições multimodais com mais de dois vértices (modos).

4) Se a moda é estimada a partir de um conjunto de dados agrupados, para encontrar a moda é necessário determinar o grupo com maior frequência do recurso. Este grupo é chamado de grupo modal.

1.2 Mediana

A mediana é o valor do atributo estudado, que divide a amostra, ordenada pelo valor desse atributo, pela metade. À direita e à esquerda da mediana na série ordenada permanece o mesmo número de feições. Por exemplo, para uma amostra de 2, 3, 4, 4, 5, 6, 8, 7, 9, a mediana será o valor 5, pois restam quatro indicadores à esquerda e à direita dela. Se a série incluir um número par de características, a mediana será a média, tomada como metade da soma dos valores dos dois valores centrais da série. Para a próxima linha 0, 1, 1, 2, 3, 4, 5, 5, 6, 7, a mediana será 3,5.

Conhecer a mediana é útil para estabelecer se a distribuição de valores particulares do traço estudado é simétrica e se aproxima da chamada distribuição normal. A média e a mediana para uma distribuição normal geralmente são iguais ou diferem muito pouco uma da outra. Se a distribuição das características da amostra for normal, então métodos de cálculo estatístico secundários baseados na distribuição normal dos dados podem ser aplicados a ela. Caso contrário, isso não pode ser feito, pois erros graves podem se infiltrar nos cálculos.

1.3 Média da amostra

O valor da média amostral (média aritmética) como indicador estatístico é a avaliação média da qualidade psicológica estudada no experimento. Essa avaliação caracteriza o grau de seu desenvolvimento como um todo no grupo de sujeitos que foi submetido a um exame psicodiagnóstico. Comparando diretamente os valores médios de duas ou mais amostras, podemos julgar o grau relativo de desenvolvimento nas pessoas que compõem essas amostras da qualidade que está sendo avaliada.

1.4 Dispersão da amostra

A dispersão (às vezes chamada de intervalo) da amostra é indicada pela letra R. Este é o indicador mais simples que pode ser obtido para a amostra - a diferença entre os valores máximo e mínimo dessa série de variação específica, ou seja

R= xmax - xmin

É claro que quanto mais varia a característica medida, maior o valor de R, e vice-versa. No entanto, pode acontecer que duas séries amostrais tenham a mesma média e amplitude, mas a natureza da variação dessas séries será diferente. Por exemplo, dados dois exemplos:

X = 10 15 20 25 30 35 40 45 50X = 30 R = 40

Y=10 28 28 30 30 30 32 32 50 Y=30 R=40

Quando as médias e os spreads são iguais para essas duas séries de amostras, a natureza de sua variação é diferente. Para representar mais claramente a natureza da variação da amostra, deve-se consultar suas distribuições.

1.5 Dispersão

A variância é a média aritmética dos quadrados dos desvios dos valores de uma variável do seu valor médio.

A dispersão como valor estatístico caracteriza o quanto os valores individuais se desviam do valor médio em uma determinada amostra. Quanto maior a variância, maior a variância ou dispersão nos dados.

A raiz quadrada é obtida da soma dos quadrados dividida pelo número de termos na série.

Às vezes, há muitos dados primários privados iniciais que estão sujeitos a processamento estatístico e exigem um grande número de operações aritméticas elementares. A fim de reduzir seu número e ao mesmo tempo manter a precisão necessária dos cálculos, às vezes recorre-se à substituição da amostra inicial de dados empíricos específicos por intervalos. Um intervalo é um grupo de valores de atributos ordenados por magnitude, que é substituído por um valor médio no decorrer dos cálculos.

2. Métodos de processamento estatístico secundário de resultados experimentais

Com a ajuda de métodos secundários de processamento estatístico de dados experimentais, hipóteses relacionadas ao experimento são diretamente verificadas, comprovadas ou refutadas. Esses métodos, via de regra, são mais complicados do que os métodos de processamento estatístico primário e exigem que o pesquisador seja bem treinado em matemática elementar e estatística. (7).

O grupo discutido de métodos pode ser dividido em vários subgrupos:

1. Cálculo de regressão.

2. Métodos para comparar duas ou mais estatísticas elementares (médias, variâncias, etc.) pertencentes a diferentes amostras.

3. Métodos para estabelecer relações estatísticas entre variáveis, como sua correlação entre si.

4. Métodos para revelar a estrutura estatística interna de dados empíricos (por exemplo, análise fatorial). Vamos considerar cada um dos subgrupos selecionados de métodos de processamento estatístico secundário usando exemplos.

2.1 Cálculo de regressão

O cálculo de regressão é um método de estatística matemática que permite reduzir dados privados e díspares a um determinado gráfico linear que reflete aproximadamente sua relação interna e ser capaz de estimar aproximadamente o valor provável de outra variável pelo valor de uma das variáveis (7).

A expressão gráfica da equação de regressão é chamada de linha de regressão. A linha de regressão expressa as melhores previsões da variável dependente (Y) sobre as variáveis ​​independentes (X).

A regressão é expressa usando duas equações de regressão, que no caso mais direto parecem equações de uma linha reta.

Y = a 0 + a 1 * X

X = b 0 + b 1 * Y

Na equação (1), Y é a variável dependente, X é a variável independente, a 0 é o termo livre, a 1 é o coeficiente de regressão, ou inclinação, que determina a inclinação da linha de regressão em relação aos eixos coordenados.

Na equação (2), X é a variável dependente, Y é a variável independente, b 0 é o termo livre, b 1 é o coeficiente de regressão, ou inclinação, que determina a inclinação da linha de regressão em relação aos eixos coordenados.

A representação quantitativa da relação (dependência) entre X e Y (entre Y e X) é chamada de análise de regressão. A principal tarefa da análise de regressão é encontrar os coeficientes a 0, b 0, a1 e b 1 e determinar o nível de significância das expressões analíticas obtidas que relacionam as variáveis ​​X e Y.

Para aplicar o método de análise de regressão linear, as seguintes condições devem ser atendidas:

1. As variáveis ​​X e Y comparadas devem ser medidas em uma escala de intervalo ou razão.

2. Assume-se que as variáveis ​​X e Y têm distribuição normal.

3. O número de características variáveis ​​nas variáveis ​​comparadas deve ser o mesmo. (cinco).

2.2 Correlação

O próximo método de processamento estatístico secundário, por meio do qual se descobre a conexão ou dependência direta entre duas séries de dados experimentais, é chamado de método das correlações. Mostra como um fenômeno afeta outro ou está relacionado a ele em sua dinâmica. Dependências desse tipo existem, por exemplo, entre quantidades que estão em relações causais entre si. Se dois fenômenos são estatisticamente significativamente correlacionados um com o outro, e se ao mesmo tempo há confiança de que um deles pode atuar como causa do outro fenômeno, então definitivamente se segue que existe uma relação causal entre eles. . (7)

Quando um aumento no nível de uma variável é acompanhado por um aumento no nível de outra, estamos falando de uma correlação positiva. Se o aumento de uma variável ocorre quando o nível da outra diminui, falamos de uma correlação negativa. Na ausência de uma conexão entre as variáveis, estamos lidando com uma correlação zero. (1)

Existem diversas variedades deste método: linear, ranqueado, pareado e múltiplo. A análise de correlação linear permite estabelecer ligações diretas entre variáveis ​​em seus valores absolutos. Essas conexões são expressas graficamente por uma linha reta, daí o nome "linear". A correlação de postos determina a dependência não entre os valores absolutos das variáveis, mas entre lugares ordinais, ou postos, ocupados por elas em uma série ordenada por magnitude. A análise de correlação de pares inclui o estudo de correlações apenas entre pares de variáveis, e múltiplas, ou multivariadas, entre muitas variáveis ​​simultaneamente. Uma forma comum de análise de correlação multivariada em estatística aplicada é a análise fatorial. (cinco)

O coeficiente de correlação de posto na pesquisa psicológica e pedagógica é usado quando os signos entre os quais a relação é estabelecida são qualitativamente diferentes e não podem ser avaliados com precisão usando a chamada escala de medição intervalar. Uma escala de intervalo é uma escala que permite avaliar as distâncias entre seus valores e julgar qual é maior e quanto maior que o outro. Por exemplo, a régua pela qual os comprimentos dos objetos são julgados e comparados é uma escala intervalar, pois usando-a podemos afirmar que a distância entre dois e seis centímetros é duas vezes maior que a distância entre seis e oito centímetros. Se, usando alguma ferramenta de medição, podemos apenas afirmar que alguns indicadores são maiores que outros, mas não podemos dizer em quanto, essa ferramenta de medição é chamada não de intervalo, mas de ordinal.

A maioria dos indicadores que são obtidos em pesquisas psicológicas e pedagógicas relacionam-se a escalas ordinais, e não intervalares (por exemplo, avaliações como "sim", "não", "em vez de sim" e outras que podem ser convertidas em pontos ), portanto, o coeficiente de correlação linear não é aplicável a eles.

O método de correlações múltiplas, em contraste com o método de correlações de pares, permite revelar a estrutura geral de dependências de correlação que existe dentro de um material experimental multidimensional que inclui mais de duas variáveis, e apresentar essas dependências de correlação como um determinado sistema .

Para aplicar o coeficiente de correlação parcial, as seguintes condições devem ser atendidas:

1. As variáveis ​​que estão sendo comparadas devem ser medidas em uma escala de intervalo ou razão.

2. Assume-se que todas as variáveis ​​têm uma lei de distribuição normal.

3. O número de características variáveis ​​nas variáveis ​​comparadas deve ser o mesmo.

4. Para avaliar o nível de significância da razão de correlação de Pearson, deve-se usar a fórmula (11,9) e a tabela de valores críticos para o teste t de Student em k = n - 2. (5)

2.3 Análise fatorial

A análise fatorial é um método estatístico usado ao processar grandes quantidades de dados experimentais. As tarefas da análise fatorial são: reduzir o número de variáveis ​​(redução de dados) e determinar a estrutura das relações entre as variáveis, ou seja, classificação de variáveis, por isso a análise fatorial é utilizada como método de redução de dados ou como método de classificação estrutural.

Uma diferença importante entre a análise fatorial e todos os métodos descritos acima é que ela não pode ser usada para processar dados experimentais primários ou, como se costuma dizer, “brutos”, ou seja, dados experimentais “brutos”. obtidas diretamente do exame das disciplinas. O material para análise fatorial são as correlações, ou melhor, os coeficientes de correlação de Pearson, que são calculados entre as variáveis ​​(ou seja, características psicológicas) incluídas na pesquisa. Em outras palavras, as matrizes de correlação, ou, como são chamadas, matrizes de intercorrelação, são submetidas à análise fatorial. Os nomes das colunas e linhas dessas matrizes são os mesmos, pois representam uma lista de variáveis ​​incluídas na análise. Por esta razão, as matrizes de intercorrelação são sempre quadradas, ou seja, o número de linhas neles é igual ao número de colunas e simétrico, ou seja, lugares simétricos em relação à diagonal principal têm os mesmos coeficientes de correlação.

O conceito principal da análise fatorial é um fator. Este é um indicador estatístico artificial resultante de transformações especiais da tabela de coeficientes de correlação entre as características psicológicas estudadas, ou a matriz de intercorrelações. O procedimento para extrair fatores de uma matriz de intercorrelação é chamado de fatoração de matrizes. Como resultado da fatoração, um número diferente de fatores pode ser extraído da matriz de correlação até um número igual ao número de variáveis ​​originais. No entanto, os fatores identificados como resultado da fatoração, via de regra, são desiguais em seu valor. (cinco)

Com a ajuda dos fatores identificados, explica-se a interdependência dos fenômenos psicológicos. (7)

Na maioria das vezes, como resultado da análise fatorial, não um, mas vários fatores são determinados que explicam a matriz de intercorrelações de variáveis ​​de diferentes maneiras. Neste caso, os fatores são divididos em geral, geral e único. São chamados fatores gerais, todos os carregamentos fatoriais são significativamente diferentes de zero (carga zero indica que essa variável não está de forma alguma relacionada com as outras e não tem nenhum efeito sobre elas na vida). Geral - são fatores em que parte das cargas fatoriais é diferente de zero. Único - são fatores em que apenas uma das cargas difere significativamente de zero. (7)

A análise fatorial pode ser apropriada se os seguintes critérios forem atendidos.

1. Não é possível fatorar dados qualitativos obtidos em uma escala de nomes, por exemplo, como cor do cabelo (preto/marrom/vermelho), etc.

2. Todas as variáveis ​​devem ser independentes e sua distribuição deve ser próxima da normal.

3. As relações entre as variáveis ​​devem ser aproximadamente lineares, ou pelo menos não claramente curvilíneas.

4. Na matriz de correlação original, deve haver vários módulos de correlação superiores a 0,3. Caso contrário, é muito difícil extrair quaisquer fatores da matriz.

5. A amostra de sujeitos deve ser grande o suficiente. O conselho de especialistas varia. O ponto de vista mais rígido recomenda não usar a análise fatorial se o número de sujeitos for inferior a 100, pois os erros padrão de correlação nesse caso serão muito grandes.

No entanto, se os fatores estiverem bem definidos (por exemplo, com cargas de 0,7 em vez de 0,3), o experimentador precisa de uma amostra menor para isolá-los. Além disso, se os dados obtidos são conhecidos por serem altamente confiáveis ​​(por exemplo, testes válidos são usados), então é possível analisar os dados em um número menor de sujeitos. (cinco).

2.4 euusando análise fatorial

A análise fatorial é amplamente utilizada na psicologia em diversas áreas relacionadas à solução de problemas teóricos e práticos.

Em termos teóricos, o uso da análise fatorial está associado ao desenvolvimento da chamada abordagem analítico-fatorial para o estudo da estrutura da personalidade, temperamento e habilidades. O uso da análise fatorial nestas áreas baseia-se no pressuposto amplamente aceito de que os indicadores observáveis ​​e diretamente mensuráveis ​​são apenas manifestações externas indiretas e/ou particulares de características mais gerais. Essas características, diferentemente da primeira, são latentes, chamadas de variáveis ​​latentes, pois são conceitos ou construtos que não estão disponíveis para mensuração direta. No entanto, eles podem ser estabelecidos fatorando correlações entre características observadas e isolando fatores que (assumindo uma boa estrutura) podem ser interpretados como uma expressão estatística da variável latente desejada.

Embora os fatores sejam de natureza puramente matemática, supõe-se que eles representem variáveis ​​latentes (construções ou conceitos teoricamente postulados), de modo que os nomes dos fatores geralmente refletem a essência da construção hipotética que está sendo estudada.

Atualmente, a análise fatorial é amplamente utilizada em psicologia diferencial e psicodiagnóstico. Com sua ajuda, você pode desenvolver testes, estabelecer a estrutura das relações entre as características psicológicas individuais medidas por um conjunto de testes ou itens de teste.

A análise fatorial também é usada para padronizar os métodos de teste, que são realizados em uma amostra representativa de indivíduos.

Conclusão

Se os dados obtidos no experimento são de natureza qualitativa, a exatidão das conclusões tiradas com base em suas conclusões depende inteiramente da intuição, erudição e profissionalismo do pesquisador, bem como da lógica de seu raciocínio. Se esses dados forem de tipo quantitativo, eles serão primeiro submetidos ao processamento estatístico primário e depois ao secundário. O processamento estatístico primário consiste em determinar o número necessário de estatísticas matemáticas elementares. Tal processamento quase sempre envolve pelo menos a determinação de uma média amostral. Nos casos em que o indicador informativo para a verificação experimental das hipóteses propostas é a dispersão da média relativa dos dados, calcula-se a variância ou desvio quadrado. Recomenda-se calcular o valor da mediana quando se pretende utilizar métodos de processamento estatístico secundário desenhados para uma distribuição normal. Para este tipo de distribuição de dados amostrais, a mediana, assim como a moda, coincidem ou são suficientemente próximas da média valor. Este critério pode ser usado para julgar grosseiramente a natureza da distribuição dos dados primários obtidos.

O processamento estatístico secundário (comparação de médias, variâncias, distribuições de dados, análise de regressão, análise de correlação, análise fatorial, etc.) é realizado se, para resolver problemas ou comprovar as hipóteses propostas, for necessário determinar os padrões estatísticos escondidos nos dados experimentais primários. Ao embarcar no processamento estatístico secundário, o pesquisador deve primeiro decidir qual das várias estatísticas secundárias ele deve usar para processar os dados experimentais primários. A decisão é tomada levando em consideração a natureza da hipótese que está sendo testada e a natureza do material primário obtido como resultado do experimento. Aqui estão algumas recomendações nesse sentido.

Recomendação 1. Se a hipótese experimental contiver a suposição de que, como resultado da pesquisa psicológica e pedagógica em andamento, os indicadores de qualquer qualidade aumentarão (ou diminuirão), recomenda-se usar o teste de Student ou o critério p2 para comparar e dados pós-experimentais. Este último é usado se os dados experimentais primários forem relativos e expressos, por exemplo, em porcentagem.

Recomendação 2. Se uma hipótese testada experimentalmente inclui uma afirmação sobre uma relação causal entre algumas variáveis, então é aconselhável verificá-la referindo-se aos coeficientes de correlação linear ou de posto. A correlação linear é usada quando as variáveis ​​independentes e dependentes são medidas usando uma escala de intervalo, e as mudanças nessas variáveis ​​antes e depois do experimento são pequenas. A correlação de posto é usada quando é suficiente para avaliar mudanças na ordem de sucessão de variáveis ​​independentes e dependentes, ou quando suas mudanças são grandes o suficiente, ou quando o instrumento de medida foi ordinal ao invés de intervalo.

Recomendação 3. Às vezes, a hipótese inclui a suposição de que, como resultado do experimento, as diferenças individuais entre os sujeitos aumentarão ou diminuirão. Essa suposição é bem testada usando o teste de Fisher, que permite comparar as variâncias antes e depois do experimento. Observe que, usando o critério de Fisher, é possível trabalhar apenas com os valores absolutos dos indicadores, mas não com seus ranks.

Hospedado em Allbest.ru

...

Documentos Semelhantes

    Técnicas e métodos básicos de processamento e análise de dados estatísticos. Cálculo de valores médios aritméticos, harmônicos e geométricos. Série de distribuição, suas principais características. Métodos de alinhamento próximos da dinâmica. Sistema de contas nacionais.

    trabalho de conclusão de curso, adicionado em 24/10/2014

    O conceito de análise económica como ciência, a sua essência, objecto, características gerais dos métodos e eficiência socioeconómica. Principais grupos de métodos econométricos para análise e processamento de dados. Análise fatorial de dados econômicos do empreendimento.

    resumo, adicionado em 03/04/2010

    Média aritmética amostral, variância, desvio padrão. Rejeição segundo o critério de Chauvenet. Regra dos Três Sigma. Estimativa da significância da diferença entre os valores médios das duas amostras. Análises de regressão múltipla pareadas. Análise fatorial completa.

    trabalho de conclusão de curso, adicionado em 12/05/2012

    Aplicação de vários métodos de apresentação e tratamento de dados estatísticos. Amostras estatísticas espaciais. Regressão e correlação de pares. Série temporal. Construindo uma tendência. Exemplos práticos e métodos para a sua solução, fórmulas e seu significado.

    curso de palestras, adicionado em 26/02/2009

    Processamento estatístico de resultados de medição; média aritmética, quadrática, variância. Determinação de parâmetros de amostragem: lei de três sigma, histograma, cartas de controle, diagrama de Ishikawa. O uso de ferramentas de qualidade na fabricação de sofás.

    trabalho de conclusão de curso, adicionado em 17/10/2014

    O valor médio em estatística, sua essência e condições de aplicação. Tipos e formas de médias: pela presença de um peso-sinal, pela forma de cálculo, pela cobertura da população. Moda, mediana. Estudo estatístico da dinâmica de lucro e lucratividade no exemplo do JSC "Bashmebel".

    trabalho de controle, adicionado em 14/06/2008

    Princípios de tratamento de dados estatísticos, métodos e técnicas utilizadas neste processo. Metodologia e principais etapas na construção de cartas de controle, sua classificação e tipos, características funcionais, determinação das vantagens e desvantagens da aplicação.

    trabalho de conclusão de curso, adicionado em 23/08/2014

    Cálculo das características numéricas e processamento dos resultados das observações amostrais. Cálculo e análise de indicadores estatísticos da economia. Riqueza nacional: elementos, avaliação; saldo de ativos e passivos; imobilizado, indicadores de capital de giro.

    trabalho de conclusão de curso, adicionado em 25/12/2012

    Estatística descritiva e inferência estatística. Métodos de seleção que garantem a representatividade da amostra. Influência do tipo de amostra na magnitude do erro. Tarefas na aplicação do método de amostragem. Distribuição dos dados observacionais para a população geral.

    teste, adicionado em 27/02/2011

    Divulgação do conceito: escala intervalar, média aritmética, nível de significância estatística. Como interpretar modo, mediana e média. Resolução de problemas usando o critério de Friedman, Rosenbaum. Cálculo do coeficiente de correlação de Spremen.

Os métodos de processamento estatístico dos resultados de um experimento são chamados de técnicas matemáticas, fórmulas, métodos de cálculos quantitativos, com a ajuda dos quais os indicadores obtidos durante o experimento podem ser generalizados, trazidos para um sistema, revelando os padrões ocultos neles.

Estamos falando de tais regularidades de natureza estatística que existem entre as variáveis ​​estudadas no experimento.

Dados são os principais elementos a serem classificados ou categorizados para fins de processamento 26 .

Alguns dos métodos de análise matemática e estatística permitem calcular as chamadas estatísticas matemáticas elementares que caracterizam a distribuição amostral dos dados, por exemplo:

média da amostra,

Variação da amostra,

Mediana e outros.

Outros métodos de estatística matemática permitem julgar a dinâmica das mudanças nas estatísticas de amostras individuais, por exemplo:

análise de dispersão,

Análise de regressão.

Usando o terceiro grupo de métodos de amostragem, pode-se julgar com segurança as relações estatísticas que existem entre as variáveis ​​examinadas neste experimento:

Análise de correlação;

Análise fatorial;

métodos de comparação.

Todos os métodos de análise matemático-estatística são convencionalmente divididos em primários e secundários 27 .

Os métodos são chamados de primários, com os quais é possível obter indicadores que refletem diretamente os resultados das medições feitas no experimento.

Os métodos secundários são chamados de processamento estatístico, com o qual, com base em dados primários, são revelados padrões estatísticos ocultos neles.

Os métodos de processamento estatístico primário incluem, por exemplo:

Determinação da média amostral;

Variação da amostra;

Moda seletiva;

Amostra mediana.

Os métodos secundários geralmente incluem:

Análise de correlação;

Análise de regressão;

Métodos para comparar estatísticas primárias para duas ou mais amostras.

Vamos considerar métodos para calcular estatísticas matemáticas elementares, começando com a média amostral.

Média aritmética - é a razão da soma de todos os valores de dados para o número de termos 28 .

O valor médio como indicador estatístico é a avaliação média da qualidade psicológica estudada no experimento.

Essa avaliação caracteriza o grau de seu desenvolvimento como um todo no grupo de sujeitos que foi submetido a um exame psicodiagnóstico. Comparando diretamente os valores médios de duas ou mais amostras, podemos julgar o grau relativo de desenvolvimento nas pessoas que compõem essas amostras da qualidade que está sendo avaliada.

A média da amostra é determinada usando a seguinte fórmula 29:

onde x cf é a média amostral ou média aritmética da amostra;

n - o número de sujeitos da amostra ou indicadores de psicodiagnóstico privados, com base nos quais é calculado o valor médio;

x k - valores privados de indicadores para assuntos individuais. Existem n tais indicadores, então o índice k desta variável assume valores de 1 a n;

∑ - aceito em matemática, o sinal de somatória dos valores daquelas variáveis ​​que estão à direita deste sinal.

Dispersão é uma medida da dispersão dos dados em torno do valor médio de 30 .

Quanto maior a variância, maior a variância ou dispersão nos dados. É determinado para poder distinguir umas das outras quantidades que têm a mesma média, mas spread diferente.

A dispersão é determinada pela seguinte fórmula:

onde é a variância da amostra, ou simplesmente a variância;

Uma expressão que significa que para todos os x k do primeiro ao último nesta amostra, é necessário calcular as diferenças entre os valores privados e médios, elevar ao quadrado essas diferenças e somar;

n é o número de sujeitos na amostra ou valores primários para os quais a variância é calculada.

Mediana chama-se o valor da característica em estudo, que divide a amostra, ordenada pelo valor dessa característica, pela metade.

Conhecer a mediana é útil para estabelecer se a distribuição de valores particulares do traço estudado é simétrica e se aproxima da chamada distribuição normal. A média e a mediana para uma distribuição normal geralmente são iguais ou diferem muito pouco uma da outra.

Se a distribuição das características da amostra for normal, então métodos de cálculo estatístico secundários baseados na distribuição normal dos dados podem ser aplicados a ela. Caso contrário, isso não pode ser feito, pois erros graves podem se infiltrar nos cálculos.

Moda uma mais estatística matemática elementar e característica de distribuição de dados experimentais. A moda é o valor quantitativo da característica em estudo, que é mais frequentemente encontrada na amostra.

Para distribuições de características simétricas, incluindo a distribuição normal, os valores de moda coincidem com os valores médios e medianos. Para outros tipos de distribuições, assimétricas, isso não é típico.

O método de processamento estatístico secundário, através do qual se descobre a relação ou relação direta entre duas séries de dados experimentais, é chamado método de análise de correlação. Mostra como um fenômeno afeta outro ou está relacionado a ele em sua dinâmica. Dependências desse tipo existem, por exemplo, entre quantidades que estão em relações causais entre si. Se dois fenômenos são estatisticamente significativamente correlacionados um com o outro, e se ao mesmo tempo há confiança de que um deles pode atuar como causa do outro fenômeno, então definitivamente se segue que existe uma relação causal entre eles. .

Existem várias variedades deste método:

A análise de correlação linear permite estabelecer ligações diretas entre variáveis ​​em seus valores absolutos. Essas conexões são expressas graficamente por uma linha reta, daí o nome "linear".

O coeficiente de correlação linear é determinado usando a seguinte fórmula 31:

onde r xy - coeficiente de correlação linear;

x, y- valores médios de amostra de valores comparados;

X eu ,y eu - valores de amostra privada de quantidades comparadas;

P- o número total de valores na série comparada de indicadores;

Dispersões, desvios de valores comparados de valores médios.

A correlação de postos determina a dependência não entre os valores absolutos das variáveis, mas entre lugares ordinais, ou postos, ocupados por elas em uma série ordenada por magnitude. A fórmula para o coeficiente de correlação de classificação é 32:

onde R s - coeficiente de correlação de postos segundo Spearman;

d eu - a diferença entre as classificações dos indicadores dos mesmos sujeitos em linhas ordenadas;

P- o número de sujeitos ou dados digitais (classificações) na série correlacionada.

Atyushev Anna

No trabalho, no exemplo de tratamento de dados sobre o progresso dos alunos no 7º ano, são consideradas as principais características estatísticas, é realizada a recolha e agrupamento de dados estatísticos, a informação estatística é apresentada de forma clara e a análise dos dados obtido é realizado.

O trabalho contém uma apresentação de acompanhamento.

Download:

Visualização:

Instituição de ensino autónoma municipal "Ginásio No. 24"

XXII Conferência Científica MAGNI

Processamento de dados estatísticos

MAOU "Gymnasium No. 24" Atyusheva Anna

Consultor: professor de matemática

Shchetinina Natalya Sergeevna

Magadã, 2016

Introdução…………………………………………………………………………………………………… 3

  1. Conceitos básicos usados ​​no processamento de dados estatísticos……………………….5
  2. Parte de pesquisa……………………………………………………………. ..... 7

2.1. Processamento estatístico de dados sobre o progresso dos alunos na 7ª série “B”………………… ..7

18

2.3. Características comparativas das atividades educativas dos alunos com base nos resultados dos trimestres I e II………………………………………………………………………………………… ………..21

2.4. Análise do inquérito aos alunos do 7º ano “B” para o controlo parental sobre o progresso dos filhos……………………………………………………………………………… ………23

Conclusão……………………………………………………………………………………………27

Literatura………………………………………………………………………………………… 28

Introdução

Qualquer um de nós, abrindo um livro ou jornal, ligando a TV ou chegando à estação, se depara constantemente com uma forma tabular de apresentação de informações. Estes são o horário de aula, horário de trem, tabuada de multiplicação e muito mais. Todas as informações são apresentadas na forma de tabelas ou gráficos.

Você precisa ser capaz de processar e analisar essas informações. Sem processamento de dados, comparação de eventos, é impossível rastrear o desenvolvimento de um determinado problema.

No curso de álgebra, estudamos características estatísticas que são amplamente utilizadas em vários estudos. Interessou-me a aplicação prática das características estudadas e a capacidade de processar os dados para que as informações apresentadas determinem com clareza o curso de desenvolvimento de um determinado problema e, consequentemente, o resultado de sua solução. Como tal, resolvi considerar o desempenho da minha turma nos trimestres do primeiro semestre do ano.

Área objeto de estudo– álgebra

Objeto de estudo– características estatísticas

Objeto de estudo- o progresso dos alunos na 7ª série "B" para os trimestres do primeiro semestre do ano

Hipótese: Acreditamos que, usando o exemplo de processamento de dados sobre o progresso dos alunos no 7º ano, não apenas conheceremos as principais características estatísticas, mas também aprenderemos por conta própria:

  • coletar e agrupar dados estatísticos;
  • visualizar informações estatísticas;
  • analisar os dados recebidos.

Alvo: aprenda a processar, analisar, visualizar as informações disponíveis.

Tarefas:

  • estudar características estatísticas;
  • coletar informações sobre o progresso dos alunos na 7ª série nos trimestres

a primeira metade do ano;

  • processo de informação;
  • visualizar informações usando histogramas;
  • analisar os dados obtidos e tirar as conclusões apropriadas.

Conceitos básicos usados ​​no processamento de dados estatísticos

Estatística é uma ciência que lida com a obtenção, processamento e análise de dados quantitativos sobre vários fenômenos de massa que ocorrem na natureza e na sociedade. A palavra "estatística" vem da palavra latina "status", que significa "estado, estado de coisas".

As características estatísticas mais simples são a média aritmética, mediana, intervalo, moda.

  • média aritméticauma série de números é chamada de quociente da divisão da soma desses números pelo número de termos. Normalmente, a média aritmética é encontrada quando se deseja determinar o valor médio de uma determinada série de dados: a produtividade média de trigo por 1 hectare na área, a produção média de uma brigada de trabalhadores por turno, a nota média do certificado, a temperatura média do ar ao meio-dia nesta década, etc.
  • Mediana de uma série ordenada de números com um número ímpar de membros é chamado de número escrito no meio, e a mediana de uma série ordenada de números com um número par de membros é chamada de média aritmética dos dois números escritos no meio. Observe que é mais conveniente e rápido trabalhar com uma série numérica se ela for ordenada, ou seja, tal série em que cada número subsequente não é menor (ou não maior) que o anterior.
  • Moda Uma série de números é chamada de número que ocorre com mais frequência na série dada. Um conjunto de números pode ter mais de um modo ou nenhum modo. A moda de uma série de dados geralmente é encontrada quando se deseja revelar algum indicador típico. Observe que a média aritmética de uma série de números pode não coincidir com nenhum desses números, e a moda, se existir, necessariamente coincide com dois ou mais números da série. Além disso, ao contrário da média aritmética, o conceito de "modo" não se refere apenas a dados numéricos.
  • em grande forma série de números é chamada a diferença entre o maior e o menor desses números. O intervalo de uma série é encontrado quando eles desejam determinar o tamanho da dispersão dos dados em uma série.

Mostraremos a definição de cada uma das características usando o exemplo de uma série de números: 47,46,52,47,52,47,52,49,45,43,53,53,47,52.

média aritmética 48,7.

É encontrado da seguinte forma: determinamos a soma dos números e a dividimos pelo número deles.

(47+46+52+47+52+47+52+49+45+43+53+53+47+52):14=48,7.

Mediana dada série de números será o número 48.

É assim: arrumamos uma série de números, escolhendo o que está no meio. Se o número de números for par, encontramos a média aritmética dos dois números no meio da série.

43,45,46,47,47,47, 47,49 ,52,52,52,52,53,53

(47+49):2=48

Moda dada série de números serão os números 47 e 52 . Esses números são repetidos com mais frequência.

47 ,46, 52 , 47 , 52 , 47 , 52 ,49,45,43,53,53, 47 , 52 .

em grande forma esta série de números será 10.

É o seguinte: selecionamos o maior e o menor número da série e encontramos a diferença entre esses números.

47,46,52,47,52,47,52,49,45, 43, 53 ,53,47,52

53-43=10

Parte de pesquisa

Processamento estatístico de dados sobre o progresso dos alunos na 7ª série "B"

Vamos passar para o processamento de informações. Vamos fazer tabelas para cada um dos assuntos, compostas por três linhas, a primeira conterá uma série de dados. Cada variante desta série foi realmente observada um certo número de vezes na amostra. Esse número é chamado de multiplicidade de opções. Então colocamos na segunda linha a multiplicidade da opção correspondente. Obtemos uma tabela de distribuição de amostra.

Se somarmos todas as multiplicidades, obtemos o número de todas as medições feitas durante a amostra - o tamanho da amostra (no nosso caso, esse número é 24, que corresponde ao número de alunos da turma).

Na terceira linha, a razão, expressa em porcentagem, é chamada de frequência das opções.

opções de frequência =

Em geral, se uma tabela de frequências relativas é compilada com base nos resultados do estudo, a soma das frequências relativas é 100%.

eu quarto

Língua russa.

Vamos ordenar os dados da amostra (marcas): 3,3,3,3,3,3,3,3,3,3,3,3,3,3,4,4,4,4,4,4,4 ,4,4,5.

Média do assunto:(média).

Tabela de Alocação de Frequência

Opção

Opções de multiplicidade

Não

Frequência %

58.3%

37.5%

4.2%

Literatura.

Vamos ordenar os dados da amostra (marcas): 3,3,3,3,3,3,3,3,3,4,4,4,4,4,4,4,4,4,4,5,5 ,5,5,5.

Média do assunto:(média).

Opções de classificação

multiplicidade

Não

Frequência %

37.5%

41.7%

20.8%

Álgebra.

Vamos ordenar os dados da amostra (marcas): 3,3,3,3,3,3,3,3,3,3,3,4,4,4,4,4,4,4,4,4,4 ,4,5,5.

Média do assunto:(média).

O maior número de alunos na disciplina tem "4, 3" (moda)

Aproximadamente metade dos alunos de russo estudam aos 4 anos (mediana)

Opções de classificação

multiplicidade

Não

Frequência %

45.8%

45.8%

8.3%

História.

Vamos ordenar os dados da amostra (marcas): 3,3,3,3,3,3,3,3,3,3,3,4,4,4,4,4,4,4,4,4,4 ,4 ,4,5

Média do assunto:(média).

O maior número de alunos na disciplina tem "4" (moda)

Aproximadamente metade dos alunos de russo estudam aos 4 anos (mediana)

Opções de classificação

multiplicidade

Não

Frequência %

45.8%

4.2%

Estudos Sociais.

Vamos ordenar os dados da amostra (marcas): 3,3,3,3,3,3,3,3,3,4,4,4,4,4,4,4,4,4,4,5,5 ,5 .5.5

Média do assunto:(média).

O maior número de alunos na disciplina tem "4" (moda)

Aproximadamente metade dos alunos de russo estudam aos 4 anos (mediana)

Opções de classificação

multiplicidade

Não

Frequência %

37.5%

41.7%

20.8%

Geografia.

Vamos ordenar os dados da amostra (marcas): 3,3,3,3,3,4,4,4,4,4,4,4,4,4,4,5,5,5,5,5,5 ,5,5 ,cinco

Média do assunto:(média).

O maior número de alunos na disciplina tem "4" (moda)

Aproximadamente metade dos alunos de russo estudam aos 4 anos (mediana)

Opções de classificação

multiplicidade

Não

Frequência %

20.8%

41.7%

37.5%

Física.

Vamos ordenar os dados da amostra (marcas): 3,3,3,3,3,3,3,3,3,4,4,4,4,4,4,4,4,4,4,4,4 ,4 ,4,5

Média do assunto:(média).

O maior número de alunos na disciplina tem "4" (moda)

Aproximadamente metade dos alunos de russo estudam aos 4 anos (mediana)

Opções de classificação

multiplicidade

Não

Frequência %

37.5%

58.3%

4.2%

Biologia.

Vamos ordenar os dados da amostra (marcas): 3,3,3,3,3,3,4,4,4,4,4,4,4,4,4,4.4,5,5,5,5,5 ,5 ,cinco

Média do assunto:(média).

O maior número de alunos na disciplina tem "4" (moda)

Aproximadamente metade dos alunos de russo estudam aos 4 anos (mediana)

Opções de classificação

multiplicidade

Não

Frequência %

45.8%

29.2%

FUNDAMENTOS DE SEGURANÇA DE VIDA.

Vamos ordenar os dados de amostra (marcas): 4,4,4,4,4,4.4.5,5,5,5,5,5,5,5,5,5,5,5,5,5,5 ,5 ,cinco

Média do assunto:(média).

Opções de classificação

multiplicidade

Não

Não

Frequência %

29.2%

70.8%

Vamos ordenar os dados da amostra (marcas): 3,4,4,4.4,4,4,4,4,4,5,5,5,5,5,5,5.5,5,5.5,5,5,5

Média do assunto:(média).

O maior número de alunos na disciplina tem "5" (moda)

Aproximadamente metade dos alunos em russo estudam aos 5 anos (mediana)

Opções de classificação

multiplicidade

Não

Frequência %

4.2%

37.5%

58.3%

Língua Inglesa.

Vamos ordenar os dados da amostra (marcas): 3,3,3,3,3,3,3,3,3,4,4,4,4,4,4,4,4,4,4,5.5,5 ,5 ,cinco

Média do assunto:(média).

O maior número de alunos na disciplina tem "4" (moda)

Aproximadamente metade dos alunos de russo estudam aos 4 anos (mediana)

Opções de classificação

multiplicidade

Não

Frequência %

37.5%

41.7%

20.8%

Informática.

Vamos ordenar os dados da amostra (marcas): 3,4,4,4,4.4,4,4,4,4,4,4,4,4,5,5,5,5.5.5,5,5,5 ,5

Média do assunto:(média).

O maior número de alunos na disciplina tem "4" (moda)

Aproximadamente metade dos alunos de russo estudam aos 4 anos (mediana)

Opções de classificação

multiplicidade

Não

Frequência %

4.2%

54.2%

41.7%

Tecnologia.

Vamos ordenar os dados de amostra (marcas): 3,3,3,3,3,4,4,4,4,4,4,5,5,5.5,5,5,55,5,5,5,5 ,5

Média do assunto:(média).

O maior número de alunos na disciplina tem "5" (moda)

Aproximadamente metade dos alunos em russo estudam em 4,5 (mediana)

Opções de classificação

multiplicidade

Não

Frequência %

20.8%

54.2%

Agora vamos coletar informações semelhantes sobre os resultados do segundo trimestre.

Língua russa.

Vamos ordenar os dados da amostra (marcas): 3,3,3.3,3,3,3,3,3,3,4,4,4,4,4,4,4,4,4,4,4,4 ,4 ,4

Média do assunto:(média)

O maior número de alunos na disciplina tem "4" (moda)

Aproximadamente metade dos alunos de russo estudam aos 4 anos (mediana)

Opções de classificação

multiplicidade

Não

Não

Frequência %

41.7%

58.3%

Literatura.

Vamos ordenar os dados da amostra (marcas): 3,3,3,3,3,3,3,3,3,3,4,4,4,4,4,4,4,4,5,5,5 ,5 .5.5

Média do assunto:(média)

O maior número de alunos na disciplina tem "3" (moda)

Aproximadamente metade dos alunos de russo estudam aos 3 anos (mediana)

Opções de classificação

multiplicidade

Não

Frequência %

41.7%

33.3%

Álgebra.

Vamos ordenar os dados da amostra (marcas): 3,3,3,3,3,3,3,3,3,3,3,3,4,4,4,4,4,4,4,4,4 ,5 .5.5

Média do assunto:(média)

O maior número de alunos na disciplina tem "3" (moda)

Aproximadamente metade dos alunos de russo estudam aos 3 anos (mediana)

Opções de classificação

multiplicidade

Não

Frequência %

37.5%

12.5%

História.

Vamos ordenar os dados da amostra (marcas): 3,3,3,3,3,3,3,3,3,4.4,4,4,4,4,4,4,4,4,4,4,4 ,4 ,cinco

Média do assunto:(média)

O maior número de alunos na disciplina tem "4" (moda)

Aproximadamente metade dos alunos de russo estudam aos 4 anos (mediana)

Opções de classificação

multiplicidade

Não

Frequência %

37.5%

58.3%

4.2%

Sociedade.

Vamos ordenar os dados da amostra (marcas): 3,3,3,3,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4 ,5 .5.5

Média do assunto:(média)

O maior número de alunos na disciplina tem "4" (moda)

Aproximadamente metade dos alunos de russo estudam aos 4 anos (mediana)

Opções de classificação

multiplicidade

Não

Frequência %

16.7%

70.8%

12.5%

Geografia.

Vamos ordenar os dados da amostra (marcas): 3,3,3,4,4,4,4,4,4,4,4,4,4,4,4,4,4,5,5,5,5 ,5 .5.5

Média do assunto:(média)

O maior número de alunos na disciplina tem "4" (moda)

Aproximadamente metade dos alunos de russo estudam aos 4 anos (mediana)

Opções de classificação

multiplicidade

Não

Frequência %

12.5%

58.3%

29.2%

Física.

Vamos ordenar os dados da amostra (marcas): 3,3,3,3,3,3,3,3,4,4,4,4,4,4,4,4,4,4,4,44,5 ,5 ,cinco

Média do assunto:(média)

O maior número de alunos na disciplina tem "4" (moda)

Aproximadamente metade dos alunos de russo estudam aos 4 anos (mediana)

Opções de classificação

multiplicidade

Não

Frequência %

33.3%

16.7%

12.5%

Biologia.

Vamos ordenar os dados de amostra (marcas): 3,3,3,4,4,4,4,4,4,4.4,4,4,4,4,4,4,4,5,5,5,5 ,5 ,cinco

Média do assunto:(média)

O maior número de alunos na disciplina tem "4" (moda)

Aproximadamente metade dos alunos de russo estudam aos 4 anos (mediana)

Opções de classificação

multiplicidade

Não

Frequência %

12.5%

62.5%

FUNDAMENTOS DE SEGURANÇA DE VIDA.

Vamos ordenar os dados de amostra (marcas): 3,4,4,5,5,5,5,5.5,5,5,5,5,5,5,5,5,5,5,5,5,5 ,5 ,cinco

Média do assunto:(média)

O maior número de alunos na disciplina tem "5" (moda)

Aproximadamente metade dos alunos em russo estudam aos 5 anos (mediana)

Opções de classificação

multiplicidade

Não

Frequência %

4.2%

8.3%

87.5%

História e sociedade da terra natal.

Vamos ordenar os dados da amostra (marcas): 3,3,3,4,4,4,4,4,4,4,4,4,4,4,5,5,5,5,5,5,5 ,5 .5.5

Média do assunto:(média)

O maior número de alunos na disciplina tem "4" (moda)

Aproximadamente metade dos alunos de russo estudam aos 4 anos (mediana)

Opções de classificação

multiplicidade

Não

Frequência %

12.5%

45.8%

41.7%

Língua Inglesa.

Média do assunto:(média)

O maior número de alunos na disciplina tem "4" (moda)

Aproximadamente metade dos alunos de russo estudam aos 4 anos (mediana)

Opções de classificação

multiplicidade

Não

Frequência %

20.8%

29.2%

Informática.

Vamos ordenar os dados da amostra (marcas): 3,3,3,3,3,4,4,4,4,4,4,4,4,4,4,4,4,5,5,5,5 ,5 .5.5

Média do assunto:(média)

O maior número de alunos na disciplina tem "4" (moda)

Aproximadamente metade dos alunos de russo estudam aos 4 anos (mediana)

Opções de classificação

multiplicidade

Não

Frequência %

20.8%

29.2%

Tecnologia.

Vamos ordenar os dados da amostra (marcas): 3,4,4,4,4,4,4,4,5,5,5,5,5,5,5,5,5,5,5,5,5 ,5 .5.5

Média do assunto:(média)

O maior número de alunos na disciplina tem "5" (moda)

Aproximadamente metade dos alunos de russo estudam aos 4 anos (mediana)

Opções de classificação

multiplicidade

Não

Frequência %

4.2%

29.2%

66.7%

Visualize dados com histogramas

Para uma representação visual dos dados obtidos como resultado de um estudo estatístico, vários métodos de sua representação são amplamente utilizados.

Usaremos histogramas para visualizar os dados. O histograma é uma figura escalonada composta de retângulos fechados. A base de cada retângulo é igual ao comprimento do intervalo, e a altura é a multiplicidade da variante ou a frequência relativa. Assim, em um histograma, diferentemente de um gráfico de barras normal, as bases do retângulo não são escolhidas arbitrariamente, mas são estritamente determinadas pelo comprimento do intervalo.

Características comparativas do desempenho dos alunos nas disciplinas do primeiro trimestre

Características comparativas do desempenho dos alunos nas disciplinas do segundo trimestre

conclusões

De acordo com os resultados do primeiro trimestre, percebe-se claramente que os alunos mais difíceis lidam com disciplinas como: língua russa e álgebra, disciplinas para as quais a "troika" é uma avaliação prioritária em relação às outras notas. Isso significa que a qualidade nesses assuntos é menor do que em outros.

Também é claro que um alto nível de triplos em assuntos como literatura, história, sociedade, física, inglês. A presença de triplos em assuntos como tecnologia, biologia, geografia também é triste.

De acordo com os resultados do segundo trimestre, o número de triplos e cincos diminuiu significativamente, ou seja, os alunos distribuíram seus pontos fortes em todas as disciplinas, e não nas preferidas separadamente.

Histograma da distribuição da pontuação média nas disciplinas do primeiro trimestre

Histograma da distribuição da pontuação média nas disciplinas do segundo trimestre

Saída

Para criar esses gráficos, usamos uma característica estatística como a média aritmética. Vê-se claramente que no segundo trimestre, o conhecimento da língua russa, história e sociedade da terra natal e ciência da computação se deterioraram. Aprimorado em história, sociedade, física, biologia, segurança da vida, inglês. Mas, ao mesmo tempo, os diagramas mostram que mudanças mais significativas para melhor ocorreram apenas na física e na língua inglesa.

Características comparativas das atividades educativas dos alunos com base nos resultados dos trimestres I e II

Histograma da qualidade do conhecimento nas disciplinas do primeiro trimestre

Histograma da qualidade do conhecimento nas disciplinas do segundo trimestre

Ao combinar os dois histogramas em um, é muito mais fácil ver a imagem do desempenho da classe em comparação. E separadamente é mais fácil ver quais itens são de maior qualidade. Por exemplo, no primeiro trimestre, a qualidade é inferior a 60% em assuntos - álgebra, russo, história, no segundo - russo, literatura, álgebra, física. Já está claro que a língua russa e a álgebra são as mais difíceis para os alunos. E o percentual de qualidade em todos os assuntos não é muito diferente 66% - o primeiro trimestre, 68% - o segundo. Ou seja, a qualidade espasmódica das disciplinas, claramente visível no diagrama de comparação, sugere que os alunos não procuram realmente aprimorar seus conhecimentos e não mantêm suas posições em uma ou outra área disciplinar.

Gráfico comparando todos os itens por qualidade para 1 e 2 trimestres

Durante o segundo trimestre, o número de bons e excelentes alunos na língua russa, sociedade, biologia, inglês e tecnologia aumentou significativamente. Diminuiu ligeiramente o número de literatura, álgebra, segurança da vida, IORK e ciência da computação. E você pode ver uma forte queda na qualidade da física, que está associada ao despreparo dos alunos para as aulas.

E, novamente, chegamos à conclusão de que as crianças aprendem “saltos”, e não há preferências especiais na direção da educação (disciplinas humanitárias, disciplinas físicas e matemáticas, disciplinas do ciclo natural).

Análise da pesquisa de alunos da 7ª série "B" para controle dos pais sobre o progresso dos filhos

Com base nos resultados do estudo acima, decidimos realizar uma pesquisa entre os alunos da 7ª série "B" para controle dos pais sobre a educação dos filhos (questionários, ver apêndice)

O tamanho da amostra é de 22 pessoas.

Verificando a lição de casa pelos pais

Saída

Quase um quarto dos alunos sobre esta questão sem controle dos pais, o que obviamente afeta seu desempenho acadêmico.

Número de cheques por semana para trabalhos de casa

Mediana = 0,0,0,0,0,0,1,1,2,2,3,3,3,3,4,4,5,7,7,7,7,7 = (3+3 ):2 = 3

Média aritmética = 3

Saída

Em média, as tarefas são revisadas três vezes por semana. Dados os saltos no aprendizado, isso não é suficiente.

Mediana = 0,0,0,0,1,1,1,1,1,2,2,2,2,2,2,3,3,3,3,3,5,5,6,7, 7,7 = (2+2):2 = 2

Média aritmética = 3 (em média, os diários são verificados pelos pais 3 vezes por semana)

A quantidade de tempo que os alunos passam fazendo lição de casa

Opções

Menos de 1

Frequência %

  • Faixa R=x(max) - x(min)= 3,5 - 0,5 = 3 horas

(caracteriza a magnitude da dispersão dos valores observados, ou seja, mostra a diferença entre os tempos mais longos e mais curtos)

  • Modo M(0) = 2,5 horas ( mostra o valor que ocorre com mais frequência do que outros, ou seja, mostra o tempo que os alunos passam com mais frequência)

Histograma do tempo gasto pelos alunos nos trabalhos de casa

Saída

Em média, a lição de casa leva 2,5 horas por dia. O que é considerado normal para a idade dos alunos.

Conclusão

Como resultado do trabalho realizado, aprendi a processar e analisar a informação disponível

O conhecimento das características estatísticas me ajudou a determinar a pontuação média em várias disciplinas, bem como a moda e o alcance daqueles indicadores de desempenho onde parecia impossível determiná-los. Sem processamento de dados, comparação de eventos, é impossível rastrear o desenvolvimento de um determinado problema. Procurámos não só traçar o problema que surgiu - uma diminuição da qualidade do conhecimento e desempenho académico nas disciplinas, mas também tentar descobrir a razão, que, em nossa opinião, residia no insuficiente controlo dos pais sobre a desempenho acadêmico de seus filhos. A pesquisa e os resultados de desempenho acadêmico mostraram que os alunos da 7ª série “B” não possuem habilidades suficientes no autocontrole sobre sua aprendizagem, e os pais pensam o contrário.

Penso que o trabalho realizado será útil tanto para o professor da turma no trabalho com os pais como para os meus colegas melhorarem os seus resultados em disciplinas individuais no futuro.

A estatística é uma ciência que estuda, processa e analisa dados quantitativos sobre uma ampla variedade de fenômenos de massa na vida. Apenas revelamos um pouco suas características para nós mesmos, e ainda há muito desconhecido e interessante pela frente.

Bibliografia:

  1. http://www.nado5.ru/e-book/naibolshii-obzchii-delitel
    Visualização:

    Para usar a visualização de apresentações, crie uma conta do Google (conta) e faça login: https://accounts.google.com


    Legendas dos slides:

    Processamento de dados estatísticos Preparado por: aluno do 7º ano "B" MAOU "Gymnasium No. 24" Atyusheva Anna Consultora: professora de matemática Shchetinina Natalya Sergeevna

    Objetivo: aprender a processar, analisar, visualizar as informações disponíveis. Tarefas: estudar características estatísticas; coletar informações sobre o progresso dos alunos na 7ª série B para os trimestres do primeiro semestre do ano; processo de informação; visualizar informações usando histogramas; analisar os dados obtidos e tirar as conclusões apropriadas.

    Hipótese no exemplo de tratamento de dados sobre o desempenho dos alunos, podemos não só conhecer as principais características estatísticas, mas também aprender a recolher e agrupar dados estatísticos; visualizar informações estatísticas; analisar os dados recebidos.

    Estatística é uma ciência que lida com a obtenção, processamento e análise de dados quantitativos sobre vários fenômenos de massa que ocorrem na natureza e na sociedade. A palavra "estatística" vem da palavra latina "status", que significa "estado, estado de coisas". As características estatísticas mais simples: Média aritmética Modo de alcance mediano

    Sobre a definição de cada uma das características no exemplo de uma série de números: 47,46,52,47,52,47,52,49,45,43,53,53,47,52. A média aritmética desta série de números será o número 48,7. (47+46+52+47+52+47+52+49+45+43+53+53+47+52):14=48,7. A mediana desta série de números será o número 48. sejam os números 47 e 52. 47, 46, 52, 47, 52, 47, 52, 49,45,43,53,53, 47, 52. O intervalo desta série de números será 10. 47,46,52,47,52,47 ,52, 49,45, 43, 53 ,53,47,52 53-43=10

    Problemas com desempenho acadêmico na classe 7 "B"

    Variante 2 3 4 5 Multiplicidade sem variantes 14 9 1 Frequência % 0% 58,3% 37,5% 4,2% Língua russa. Vamos ordenar os dados da amostra (marcas): 3,3,3,3,3,3,3,3,3,3,3,3,3,3,4,4,4,4,4,4,4 ,4,4,5. Pontuação média no sujeito: 14∙3+9∙4+5∙124=8324≈3,5 (média aritmética). O maior número de alunos na disciplina tem "3" (modo) Aproximadamente metade dos alunos do idioma russo estudam em 3 (mediana)

    Para uma representação visual dos dados obtidos como resultado de um estudo estatístico, vários métodos de sua representação são amplamente utilizados.

    Características comparativas do progresso dos alunos nas disciplinas do primeiro trimestre

    Características comparativas do progresso dos alunos nas disciplinas do segundo trimestre

    Histograma da distribuição da pontuação média nas disciplinas dos trimestres I e II

    Diagrama de comparação de todos os itens em termos de qualidade para os trimestres I e II

    Questionamento entre alunos do 7º ano "B" para controle dos pais sobre a educação dos filhos QUESTIONÁRIO 1. Seus pais verificam sua lição de casa? ___________________________________________________________ 2. Quantas vezes por semana? _____________________________________________________________________ 3. Quantas vezes por semana seus pais olham seu diário? _____________________________________________________________________ 4. Quanto tempo em média você gasta por dia fazendo sua lição de casa? _____________________________________________________________________

    Verificando a lição de casa pelos pais

    Número de verificações por semana para lição de casa Mediana = 0,0,0,0,0,0,1,1,2,2,3,3,3,3,4,4,5,7,7,7,7 , 7 = (3+3):2 = 3 Média aritmética = 3

    Histograma do tempo gasto pelos alunos nos trabalhos de casa