Элементы статистической обработки данных. Статистическая обработка данных и ее особенности Данные для статистической обработки данных

Лабораторная работа №3. Статистическая обработка данных в системе MatLab

Общая постановка задачи

Основной целью выполнения лабораторной работы является ознакомление с основами работы со статистической обработкой данных в среде MatLAB.

Теоретическая часть

Первичная статистическая обработка данных

Статистическая обработка данных основывается на первичных и вторичных количественных методах. Цель первичной обработки статистических данных является структурирование полученных сведений, подразумевающее группировку данных в сводные таблицы по различным параметрам. Первичные данных должны быть представлены в таком формате, чтобы человек смог провести приближенную оценку полученной совокупности данных и выявить информацию о распределении данных полученной выборки данных, например, однородность или компактность данных. После первичного анализа данных применяются методы вторичной статистической обработки данных, на основании которых определяются статистические закономерности в имеющемся наборе данных.

Проведение первичного статистического анализа над массивом данных позволяет получить знания о следующем:

Какое значение наиболее характерно для выборки? Для ответа на данный вопрос определяются меры центральной тенденции.

Велик ли разброс данных относительно этого характерного значения, т. е. какова «размытость» данных? В данном случае определяются меры изменчивости.

Стоит отметить тот факт, что статистические показатели меры центральной тенденции и изменчивостиопределяются только на количественных данных.

Меры центральной тенденции – группа величин, вокруг которых группируются остальные данные.Таким образом, меры центральной тенденции обобщают массив данных, что делает возможным формирование умозаключений как о выборке в целом, так и проведение сравнительного анализа разных выборок друг с другом.

Допустим имеется выборка данных , тогда меры центральной тенденции оцениваются следующими показателями:

1. Выборочное среднее – это результат деления суммы всех значений выборки на их количество.Определяется по формуле (3.1).

(3.1)

где - i -й элемент выборки;

n – количество элементов выборки.

Выборочное среднее позволяет получить наибольшую точность в процессе оценки центральной тенденции.

Допустим имеется выборка из 20 человек. Элементами выборки являются сведения о среднем ежемесячном доходе каждого человека. Предположим, что 19 человек имеют средний ежемесячный доход в 20 т.р. и 1 человек с доходом в 300 т.р. Суммарный ежемесячный доход всей выборки составляет 680 т.р. Выборочное среднее в данном случае S=34.


2. Медиана – формирует значение, выше и ниже которого количество отличающихся значений одинаково, т. е. это центральное значение в последовательном ряду данных. Определяется в зависимости четности/нечетности количества элементов выборке по формулам (3.2) или (3.3).Алгоритм оценки медианы для выборки данных :

Первым делом данные ранжируются (упорядочиваются) по убыванию/возрастанию .

Если в упорядоченной выборке нечетное число элементов, то медиана совпадает с центральным значением.

(3.2)

где n

В случае четного числа элементов медиана определяется как как среднее арифметическое двух центральных значений.

(3.3)

где - средний элемент упорядоченной выборки;

- элемент упорядоченной выборки следующий за ;

Количество элементов выборки.

В том случае, если все элементы выборки различны, то ровно половина элементов выборки больше медианы, а другая половина меньше. Например, для выборки {1, 5, 9, 15, 16} медиана совпадает с элементом 9.

В статистическом анализе данных медиана позволяет определить элементы выборки, которые сильно влияют на значение выборочного среднего.

Допустим имеется выборка из 20 человек. Элементами выборки являются сведения о среднем ежемесячном доходе каждого человека. Предположим, что 19 человек имеют средний ежемесячный доход в 20 т.р. и 1 человек с доходом в 300 т.р. Суммарный ежемесячный доход всей выборки составляет 680 т.р. Медиана, после упорядочивания выборки, определяется как среднеарифметическое десятого и одиннадцатого элементов выборки) и равняется Ме=20 т.р. Данный результат интерпретируется следующим образом: медиана делит выборку на две группу, таким образом, что можно сделать заключение о том, что в первой группе у каждого человека средний ежемесячный доход не более 20 т.р., а во второй группе не менее 20 т.р. В данном примере можно говорить о том, что медиана характеризуется тем, сколько зарабатывает «средний» человек. В то время как значение выборочного среднего значительно превышено S=34, что указывает на неприемлемость данной характеристики при оценке среднего заработка.

Таким образом, чем больше различие между медианой и выборочным средним, тем больший разброс данных выборки (в рассмотренном примере, человек с заработком в 300 т.р. явно отличается от среднестатистических людей конкретной выборки и оказывает существенное влияние на оценку среднего дохода). Что делать с подобными элементами решается в каждом индивидуальном случае. Но в общем случае для обеспечения достоверности выборки они изымаются, так как оказывают сильное влияние на оценку статистических показателей.

3. Мода (Мо) – формирует значение, наиболее часто встречающееся в выборке, т. е. значение с наибольшей частотой.Алгоритм оценки моды:

В том случае, когда выборка содержит элементы, встречающиеся одинаково часто, то говорят, что мода в подобной выборке отсутствует.

Если два соседних элемента выборки имеют одинаковую частоту, являющуюся больше частоты остальных элементов выборки, то мода определяется как среднее этих двух значений.

Если два элемента выборки имеют одинаковую частоту, являющуюся больше частоты остальных элементов выборки, и при этом данные элементы не являются соседними, то говорят, что в данной выборке две моды.

Мода в статистическом анализе используется в ситуациях, когда необходимо проведение быстрой оценки меры центральной тенденции и не требуется высокая точность. Например, моду (по показателю размер либо бренд) удобно применять для определения одежды и обуви, которая пользуется наибольшим спросом у покупателей.

Меры разброса (изменчивости) – группа статистических показателей, характеризующих различия между отдельными значениями выборки. Основываясь на показателях мер разброса можно оценивать степень однородности и компактности элементов выборки. Меры разброса, характеризуются следующим набором показателей:

1. Размах - это интервал между максимальным и минимальным значениями результатов наблюдений (элементов выборки). Показатель размаха указывает на разброс значений в совокупности данных. Если размах большой, то значения в совокупности сильно разбросаны, в противном случае (размах небольшой) говорится о том, что значения в совокупности лежат близко друг к другу. Размах определяется по формуле (3.4).

(3.4)

Где - максимальный элемент выборки;

- минимальный элемент выборки.

2.Среднее отклонение – среднеарифметическая разница (по абсолютной величине) между каждым значением в выборке и ее выборочным средним. Среднее отклонение определяется по формуле (3.5).

(3.5)

где - i -й элемент выборки;

Значение выборочного среднего, рассчитанное по формуле (3.1);

Количество элементов выборки.

Модуль необходим в связи с тем, что отклонения от среднего по каждому конкретному элементу могут быть как положительными так и отрицательными. Следовательно, если не взять модуль, то сумма всех отклонений будет близка к нулю и невозможно будет судить о степени изменчивости данных (скученности данных вокруг выборочного среднего). При проведении статистического анализа могут быть взяты мода и медиана вместо выборочного среднего.

3. Дисперсия - мера рассеяния, описывающая сравнительное отклонение между значениями данных и средней величиной. Вычисляется как сумма квадратов отклонений каждого элемента выборки от средней величины. В зависимости от размера выборки дисперсия оценивается разными способами:

Для больших выборок (n>30) по формуле (3.6)

(3.6)

Для малых выборок (n<30) по формуле (3.7)

(3.7)

где X i - i-й элемент выборки;

S – среднее значение выборки;

Количество элементов выборки;

(X i – S) - отклонение от средней величины для каждого значения набора данных.

4. Стандартное отклонение -мера того, насколько широко разбросаны точки данных относительно их среднего.

Процесс возведения в квадрат отдельных отклоненийпри вычислении дисперсии усиливает степень отклонения полученной величины отклонения от первоначальных отклонений, что в свою очередь вносит дополнительные погрешности. Таким образом, с целью приближения оценки разброса точек данных относительно их среднего к значению среднего отклонения, из дисперсии извлекают квадратный корень. Извлеченный корень из дисперсии характеризует меру изменчивости, именуемую среднеквадратическим или стандартным отклонением (3.8).

(3.8)

Допустим вы руководитель проекта по разработке программного обеспечения. У вас в подчинении пять программистов. Управляя процессом выполнения проекта, вы распределяете задания между программистами. Для простоты примера будем исходить из того факта, что задания равнозначны по сложности и времени выполнения. Вы решили проанализировать работу каждого программиста (число выполненных заданий в течении недели) за последние 10 недель, в результате чего вами получены следующие выборки:

Неделя ФИО

Проведя оценку среднего числа выполненных задач, вы получили следующий результат:

Неделя ФИО S
22,3
22,4
22,2
22,1
22,5

Исходя из показателя S все программисты в среднем работают с одинаковой эффективностью (около 22 заданий в неделю). Однако, показатель вариабельности (размах) очень высок (от 5 заданий четвертого программиста до 24 заданий у пятого).

Неделя ФИО S P
22,3
22,4
22,2
22,1
22,5

Оценим стандартное отклонение, показывающее как распределены значения в выборках относительно среднего, а именно в нашем случае оценить на сколько велик разброс выполнения заданий от недели к неделе.

Неделя ФИО S P SO
22,3 1,56
22,4 1,8
22,2 2,84
22,1 1,3
22,5 5,3

Полученная оценка стандартного отклонения говорит о следующем (оценим два крайних случая 4 и 5 программисты):

Каждое значение в выборке 4 программиста в среднем отклоняется на 1,3 задания от среднего значения.

Каждое значение в выборке 5 программиста в среднем отклоняется на 5,3 задания от среднего значения.

Чем ближе стандартное отклонение к 0, тем надежнее среднее, так как это указывает на то, что каждое значение выборки практически равно среднему (в нашем примере это 22,5 задания). Следовательно, 4 программист наиболее последователен в отличии от 5-го. Вариабельность выполнения заданий от недели к неделе 5-го программиста составляет 5,3 задания, что говорит о значительном разбросе. В случае с 5-м программистом нельзя доверять среднему, а, следовательно,трудно спрогнозировать число выполненных заданий на следующую неделю, что в свою очередь затрудняет процедуру планирования и соблюдения графиков выполнения работ. Какое управленческое решение вы примете в данном курсе неважно. Важно, что вы получили оценку, на основании которой можно принять соответствующие управленческие решения.

Таким образом, можно сделатьобщий вывод, говорящий о том, что среднее значение не всегда правильно оценивает данные. Об корректности оценки среднего можно судить по значению стандартного отклонения.


1. Средства статистической обработки данных в Excel

2. Использование специальных функций

3. Использование инструмента ПАКЕТ АНАЛИЗА

Литература :

основная :

1. Берк. Анализ данных с помощью Microsoft Excel. : Пер. с англ./ Берк, Кеннет, Кэйри, Патрик. - М. : Издательский дом "Вильяме", 2005. - С. 216 - 256.

2. Мишин А.В. Информационные технологии в юридической деятельности: практикум / А.В. Мишин. – М.: РАП, 2013. – С. 2-11.

дополнительная :

3. Информатика для юристов и экономистов: учебник для вузов / Под ред. С.В. Симоновича. – СПб.: Питер, 2004. – С. 498-516.

Практическое занятие № 30

Тема № 11.1. Ведение баз данных в СУБД Access

Занятие проводится методом проектов.

Цель проекта: разработать базу данных о работе суда.

Техническое задание:

1. Создайте базу данных «Суд» из двух таблиц «Судьи» и «Иски», имеющих следующую структуру, соответственно:

Таблица «Судьи»

Имя поля Код судьи Ф_И_О Дни приема Часы приема Стаж работы
Тип данных Числовой Текстовый Текстовый Текстовый Числовой
Размер поля Длинное целое Длинное целое
Формат поля Основной Основной
Число десятичных знаков
Значение по умолчанию «Ср» «15:00-17:00»
Условие на значение >36200 And <36299 Пн Or Вт Or Ср Or Чт Or Пт >0 And <40
Сообщение об ошибке Допустимые значения: «Пн», «Вт», «Ср», «Чт» или «Пт». Повторите ввод! ! Допустимы значения от 1 до 39. Повторите ввод!
Обязательное поле Да Да Нет Нет Нет
Индексированное поле Нет Нет Нет Нет

Примечание. Объявить ключевым поле «Код судьи».

Таблица «Иски»

Имя поля Номер дела Истец Ответ-чик Код судьи Дата заседания
Тип данных Числовой Текстовый Текстовый Числовой Дата/ время
Свойства поля: вкладка «Общие»
Размер поля Длинное целое Длинное целое Полный формат даты
Формат поля Основной
Число десятичных знаков
Значение по умолчанию
Условие на значение >0 And <99999 >36200 And <36299
Сообщение об ошибке Ошибочный ввод - повторите! Допустимы значения от 36201 до 36298. Повторите ввод!
Обязательное поле Да Нет Нет Нет Нет
Индексированное поле Да (Совпадения не допускаются) Нет Нет Да (Допускаются совпадения) Нет

2. В таблицу «Судьи» введите следующие записи данных:

В таблицу «Иски» введите следующие записи данных:

3. По полю «Код судьи» установить связь «один-ко-многим» между таблицами Судьи и Иски . При этом задайте «Обеспечение целостности данных» и «каскадное обновление связанных полей».

Литература :

основная :

1. Мишин А.В. Информационные технологии в профессиональной деятельности: учебное пособие / А.В. Мишин, Л.Е. Мистров, Д.В. Картавцев. – М.: РАП, 2011. – С. 259-264.

дополнительная :

Практическое занятие № 31

Тема № 11.2. Принципы создания форм и запросов в СУБД Access

1. Разработка входных форм для ввода данных.

2. Методика проведения расчётов и анализа введённых данных.

Литература :

основная :

1. Мишин А.В. Информационные технологии в профессиональной деятельности: учебное пособие / А.В. Мишин, Л.Е. Мистров, Д.В. Картавцев. – М.: РАП, 2011. – С. 265-271.

дополнительная :

2. Информатика и информационные технологии: учебное пособие для студентов вузов / И.Г. Лесничая, И.В. Миссинг, Ю.Д. Романова, В.И. Шестаков. - 2-е изд. - М.: Эксмо, 2006. - 544 с.

3. Михеева Е.В. Информационные технологии в профессиональной деятельности: учебное пособие для студентов учреждений СПО / Е.В. Михеева. - 2-е изд., стер. - М.: Академия, 2005. - 384 с.

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

Обработка статистических данных

Введение

статистический дисперсия выборка корреляция

Методами статистической обработки результатов эксперимента называются математические приемы, формулы, способы количественных расчетов, с помощью которых показатели, получаемые в ходе эксперимента, можно обобщать, приводить в систему, выявляя скрытые в них закономерности. Речь идет о таких закономерностях статистического характера, которые существуют между изучаемыми в эксперименте переменными величинами.

Некоторые из методов математико-статистического анализа позволяют вычислять так называемые элементарные математические статистики, характеризующие выборочное распределение данных, например выборочное среднее, выборочная дисперсия, мода, медиана и ряд других. Иные методы математической статистики, например дисперсионный анализ, регрессионный анализ, позволяют судить о динамике изменения отдельных статистик выборки. С помощью третьей группы методов, скажем, корреляционного анализа, факторного анализа, методов сравнения выборочных данных, можно достоверно судить о статистических связях, существующих между переменными величинами, которые исследуют в данном эксперименте.

1. Методы первичной статистической обработки результатов эксперимента

Все методы математико-статистического анализа условно делятся на первичные и вторичные. Первичными называют методы, с помощью которых можно получить показатели, непосредственно отражающие результаты производимых в эксперименте измерений. Соответственно под первичными статистическими показателями имеются в виду те, которые применяются в самих психодиагностических методиках и являются итогом начальной статистической обработки результатов психодиагностики. Вторичными называются методы статистической обработки, с помощью которых на базе первичных данных выявляют скрытые в них статистические закономерности.

К первичным методам статистической обработки относят, например, определение выборочной средней величины, выборочной дисперсии, выборочной моды и выборочной медианы. В число вторичных методов обычно включают корреляционный анализ, регрессионный анализ, методы сравнения первичных статистик у двух или нескольких выборок.

Рассмотрим методы вычисления элементарных математических статистик.

1.1 Мода

Числовой характеристикой выборки, как правило, не требующей вычислений, является так называемая мода. Модой называют количественное значение исследуемого признака, наиболее часто встречающееся в выборке. Для симметричных распределений признаков, в том числе для нормального распределения, значение моды совпадает со значениями среднего и медианы. Для других типов распределении, несимметричных, это не характерно. К примеру, в последовательности значений признаков 1, 2, 5, 2, 4, 2, 6, 7, 2 модой является значение 2, так как оно встречается чаще других значений - четыре раза.

Моду находят согласно следующим правилам:

1) В том случае, когда все значения в выборке встречаются одинаково часто, принято считать, что этот выборочный ряд не имеет моды. Например: 5, 5, 6, 6, 7, 7 - в этой выборке моды нет.

2) Когда два соседних (смежных) значения имеют одинаковую частоту и их частота больше частот любых других значений, мода вычисляется как среднее арифметическое этих двух значений. Например, в выборке 1, 2, 2, 2, 5, 5, 5, 6 частоты рядом расположенных значений 2 и 5 совпадают и равняются 3. Эта частота больше, чем частота других значений 1 и 6 (у которых она равна 1). Следовательно, модой этого ряда будет величина =3,5

3) Если два несмежных (не соседних) значения в выборке имеют равные частоты, которые больше частот любого другого значения, то выделяют две моды. Например, в ряду 10, 11, 11, 11, 12, 13, 14, 14, 14, 17 модами являются значения 11 и 14. В таком случае говорят, что выборка является бимодальной.

Могут существовать и так называемые мультимодальные распределения, имеющие более двух вершин (мод).

4) Если мода оценивается по множеству сгруппированных данных, то для нахождения моды необходимо определить группу с наибольшей частотой признака. Эта группа называется модальной группой.

1.2 Медиана

Медианой называется значение изучаемого признака, которое делит выборку, упорядоченную по величине данного признака, пополам. Справа и слева от медианы в упорядоченном ряду остается по одинаковому количеству признаков. Например, для выборки 2, 3, 4, 4, 5, 6, 8, 7, 9 медианой будет значение 5, так как слева и справа от него остается по четыре показателя. Если ряд включает в себя четное число признаков, то медианой будет среднее, взятое как полусумма величин двух центральных значений ряда. Для следующего ряда 0, 1, 1, 2, 3, 4, 5, 5, 6, 7 медиана будет равна 3,5.

Знание медианы полезно для того, чтобы установить, является ли распределение частных значений изученного признака симметричным и приближающимся к так называемому нормальному распределению. Средняя и медиана для нормального распределения обычно совпадают или очень мало отличаются друг от друга. Если выборочное распределение признаков нормально, то к нему можно применять методы вторичных статистических расчетов, основанные на нормальном распределении данных. В противном случае этого делать нельзя, так как в расчеты могут вкрасться серьезные ошибки.

1.3 Выборочное среднее

Выборочное среднее (среднее арифметическое) значение как статистический показатель представляет собой среднюю оценку изучаемого в эксперименте психологического качества. Эта оценка характеризует степень его развития в целом у той группы испытуемых, которая была подвергнута психодиагностическому обследованию. Сравнивая непосредственно средние значения двух или нескольких выборок, мы можем судить об относительной степени развития у людей, составляющих эти выборки, оцениваемого качества.

1.4 Разброс выборки

Разброс (иногда эту величину называют размахом) выборки обозначается буквой R. Это самый простой показатель, который можно получить для выборки - разность между максимальной и минимальной величинами данного конкретного вариационного ряда, т.е.

R= хmax - хmin

Понятно, что чем сильнее варьирует измеряемый признак, тем больше величина R, и наоборот. Однако может случиться так, что у двух выборочных рядов и средние, и размах совпадают, однако характер варьирования этих рядов будет различный. Например, даны две выборки:

Х = 10 15 20 25 30 35 40 45 50X = 30 R = 40

Y = 10 28 28 30 30 30 32 32 50 Y=30 R = 40

При равенстве средних и разбросов для этих двух выборочных рядов характер их варьирования различен. Для того чтобы более четко представлять характер варьирования выборок, следует обратиться к их распределениям.

1.5 Дисперсия

Дисперсия - это среднее арифметическое квадратов отклонений значений переменной от её среднего значения.

Дисперсия как статистическая величина характеризует, насколько частные значения отклоняются от средней величины в данной выборке. Чем больше дисперсия, тем больше отклонения или разброс данных.

Из суммы квадратов, делённых на число членв ряда извлекаеся квадратный корень.

Иногда исходных частных первичных данных, которые подлежат статистической обработке, бывает довольно много, и они требуют проведения огромного количества элементарных арифметических операций. Для того чтобы сократить их число и вместе с тем сохранить нужную точность расчетов, иногда прибегают к замене исходной выборки частных эмпирических данных на интервалы. Интервалом называется группа упорядоченных по величине значений признака, заменяемая в процессе расчетов средним значением.

2. Методы вторичной статистической обработки результатов эксперимента

С помощью вторичных методов статистической обработки экспериментальных данных непосредственно проверяются, доказываются или опровергаются гипотезы, связанные с экспериментом. Эти методы, как правило, сложнее, чем методы первичной статистической обработки, и требуют от исследователя хорошей подготовки в области элементарной математики и статистики. (7).

Обсуждаемую группу методов можно разделить на несколько подгрупп:

1. Регрессионное исчисление.

2. Методы сравнения между собой двух или нескольких элементарных статистик (средних, дисперсий и т.п.), относящихся к разным выборкам.

3. Методы установления статистических взаимосвязей между переменными, например их корреляции друг с другом.

4. Методы выявления внутренней статистической структуры эмпирических данных (например, факторный анализ). Рассмотрим каждую из выделенных подгрупп методов вторичной статистической обработки на примерах.

2.1 Регрессионное исчисление

Регрессионное исчисление - это метод математической статистики, позволяющий свести частные, разрозненные данные к некоторому линейному графику, приблизительно отражающему их внутреннюю взаимосвязь, и получить возможность по значению одной из переменных приблизительно оценивать вероятное значение другой переменной (7).

Графическое выражение регрессионного уравнения называют линией регрессии. Линия регрессии выражает наилучшие предсказания зависимой переменой (Y) по независимым переменным (X).

Регрессию выражают с помощью двух уравнений регрессии, которые в самом прямом случае выглядят, как уравнения прямой.

Y = a 0 + a 1 * X

X = b 0 + b 1 * Y

В уравнении (1) Y - зависимая переменная, X - независимая переменная, a 0 - свободный член, a 1 - коэффициент регрессии, или угловой коэффициент, определяющий наклон линии регрессии по отношению к осям координат.

В уравнении (2) X - зависимая переменная, Y - независимая переменная, b 0 - свободный член, b 1 - коэффициент регрессии, или угловой коэффициент, определяющий наклон линии регрессии по отношению к осям координат.

Количественное представление связи (зависимости) между Х и Y (между Y и X) называется регрессионным анализом. Главная задача регрессионного анализа заключается в нахождении коэффициентов a 0, b 0, a1и b 1 и определении уровня значимости полученных аналитических выражений, связывающих между собой переменные Х и У.

Для применения метода линейного регрессионного анализа необходимо соблюдать следующие условия:

1. Сравниваемые переменные Х и Y должны быть измерены в шкале интервалов или отношений.

2. Предполагается, что переменные Х и Y имеют нормальный закон распределения.

3. Число варьирующих признаков в сравниваемых переменных должно быть одинаковым. (5).

2.2 Корреляция

Следующий метод вторичной статистической обработки, посредством которого выясняется связь или прямая зависимость между двумя рядами экспериментальных данных, носит название метод корреляций. Он показывает, каким образом одно явление влияет на другое или связано с ним в своей динамике. Подобного рода зависимости существуют, к примеру, между величинами, находящимися в причинно-следственных связях друг с другом. Если выясняется, что два явления статистически достоверно коррелируют друг с другом и если при этом есть уверенность в том, что одно из них может выступать в качестве причины другого явления, то отсюда определенно следует вывод о наличии между ними причинно-следственной зависимости. (7)

Когда повышение уровня одной переменной сопровождается повышением уровня другой, то речь идёт о положительной корреляции. Если же рост одной переменной происходит при снижении уровня другой, то говорят об отрицательной корреляции. При отсутствии связи переменных мы имеем дело с нулевой корреляцией. (1)

Имеется несколько разновидностей данного метода: линейный, ранговый, парный и множественный. Линейный корреляционный анализ позволяет устанавливать прямые связи между переменными величинами по их абсолютным значениям. Эти связи графически выражаются прямой линией, отсюда название «линейный». Ранговая корреляция определяет зависимость не между абсолютными значениями переменных, а между порядковыми местами, или рангами, занимаемыми ими в упорядоченном по величине ряду. Парный корреляционный анализ включает изучение корреляционных зависимостей только между парами переменных, а множественный, или многомерный, - между многими переменными одновременно. Распространенной в прикладной статистике формой многомерного корреляционного анализа является факторный анализ. (5)

К коэффициенту ранговой корреляции в психолого-педагогических исследованиях обращаются в том случае, когда признаки, между которыми устанавливается зависимость, являются качественно различными и не могут быть достаточно точно оценены при помощи так называемой интервальной измерительной шкалы. Интервальной называют такую шкалу, которая позволяет оценивать расстояния между ее значениями и судить о том, какое из них больше и насколько больше другого. Например, линейка, с помощью которой оцениваются и сравниваются длины объектов, является интервальной шкалой, так как, пользуясь ею, мы можем утверждать, что расстояние между двумя и шестью сантиметрами в два раза больше, чем расстояние между шестью и восемью сантиметрами. Если же, пользуясь некоторым измерительным инструментом, мы можем только утверждать, что одни показатели больше других, но не в состоянии сказать на сколько, то такой измерительный инструмент называется не интервальным, а порядковым.

Большинство показателей, которые получают в психолого-педагогических исследованиях, относятся к порядковым, а не к интервальным шкалам (например, оценки типа «да», «нет», «скорее нет, чем да» и другие, которые можно переводить в баллы), поэтому коэффициент линейной корреляции к ним неприменим.

Метод множественных корреляций в отличие от метода парных корреляций позволяет выявить общую структуру корреляционных зависимостей, существующих внутри многомерного экспериментального материала, включающего более двух переменных, и представить эти корреляционные зависимости в виде некоторой системы.

Для применения частного коэффициента корреляции необходимо соблюдать следующие условия:

1. Сравниваемые переменные должны быть измерены в шкале интервалов или отношений.

2. Предполагается, что все переменные имеют нормальный закон распределения.

3. Число варьирующих признаков в сравниваемых переменных должно быть одинаковым.

4. Для оценки уровня достоверности корреляционного отношения Пирсона следует пользоваться формулой (11.9) и таблицей критических значений для t-критерия Стьюдента при k = n - 2. (5)

2.3 Факторный анализ

Факторный анализ - статистический метод, который используется при обработке больших массивов экспериментальных данных. Задачами факторного анализа являются: сокращение числа переменных (редукция данных) и определение структуры взаимосвязей между переменными, т.е. классификация переменных, поэтому факторный анализ используется как метод сокращения данных или как метод структурной классификации.

Важное отличие факторного анализа от всех описанных выше методов заключается в том, что его нельзя применять для обработки первичных, или, как говорят, «сырых», экспериментальных данных, т.е. полученных непосредственно при обследовании испытуемых. Материалом для факторного анализа служат корреляционные связи, а точнее - коэффициенты корреляции Пирсона, которые вычисляются между переменными (т.е. психологическими признаками), включенными в обследование. Иными словами, факторному анализу подвергают корреляционные матрицы, или, как их иначе называют, матрицы интеркорреляций. Наименования столбцов и строк в этих матрицах одинаковы, так как они представляют собой перечень переменных, включенных в анализ. По этой причине матрицы интеркорреляций всегда квадратные, т.е. число строк в них равно числу столбцов, и симметричные, т.е. на симметричных местах относительно главной диагонали стоят одни и те же коэффициенты корреляции.

Главное понятие факторного анализа - фактор. Это искусственный статистический показатель, возникающий в результате специальных преобразований таблицы коэффициентов корреляции между изучаемыми психологическими признаками, или матрицы интеркорреляций. Процедура извлечения факторов из матрицы интеркорреляций называется факторизацией матрицы. В результате факторизации из корреляционной матрицы может быть извлечено разное количество факторов вплоть до числа, равного количеству исходных переменных. Однако факторы, выделяемые в результате факторизации, как правило, неравноценны по своему значению. (5)

С помощью выявленных факторов объясняют взаимозависимость психологических явлений. (7)

Чаще всего в итоге факторного анализа определяется не один, а несколько факторов, по-разному объясняющих матрицу интеркорреляций переменных. В таком случае факторы делят на генеральные, общие и единичные. Генеральными называются факторы, все факторные нагрузки которых значительно отличаются от нуля (нуль нагрузки свидетельствует о том, что данная переменная никак не связана с остальными и не оказывает на них никакого влияния в жизни). Общие - это факторы, у которых часть факторных нагрузок отлична от нуля. Единичные - это факторы, в которых существенно отличается от нуля только одна из нагрузок. (7)

Факторный анализ может быть уместен, если выполняются следующие критерии.

1. Нельзя факторизовать качественные данные, полученные по шкале наименований, например, такие, как цвет волос (черный / каштановый / рыжий) и т.п.

2. Все переменные должны быть независимыми, а их распределение должно приближаться к нормальному.

3. Связи между переменными должны быть приблизительно линейны или, по крайней мере, не иметь явно криволинейного характера.

4. В исходной корреляционной матрице должно быть несколько корреляций по модулю выше 0,3. В противном случае достаточно трудно извлечь из матрицы какие-либо факторы.

5. Выборка испытуемых должна быть достаточно большой. Рекомендации экспертов варьируют. Наиболее жесткая точка зрения рекомендует не применять факторный анализ, если число испытуемых меньше 100, поскольку стандартные ошибки корреляции в этом случае окажутся слишком велики.

Однако если факторы хорошо определены (например, с нагрузками 0,7, а не 0,3), экспериментатору нужна меньшая выборка, чтобы выделить их. Кроме того, если известно, что полученные данные отличаются высокой надежностью (например, используются валидные тесты), то можно анализировать данные и по меньшему числу испытуемых. (5).

2.4 И спользование факторного анализа

Факторный анализ широко используется в психологии в разных направлениях, связанных с решением как теоретических, так и практических проблем.

В теоретическом плане использование факторного анализа связано с разработкой так называемого факторно-аналитического подхода к изучению структуры личности, темперамента и способностей. Использование факторного анализа в этих сферах основано на широко принятом допущении, согласно которому наблюдаемые и доступные для прямого измерения показатели являются лишь косвенными и / или частными внешними проявлениями более общих характеристик. Эти характеристики, в отличие от первых, являются скрытыми, так называемыми латентными переменными, поскольку они представляют собой понятия или конструкты, которые не доступны для прямого измерения. Однако они могут быть установлены путем факторизации корреляционных связей между наблюдаемыми чертами и выделением факторов, которые (при условии хорошей структуры) можно интерпретировать как статистическое выражение искомой латентной переменной.

Хотя факторы имеют чисто математический характер, предполагается, что они репрезентируют скрытые переменные (теоретически постулируемые конструкты или понятия), поэтому названия факторов нередко отражают сущность изучаемого гипотетического конструкта.

В настоящее время факторный анализ широко используется в дифференциальной психологии и психодиагностике. С его помощью можно разрабатывать тесты, устанавливать структуру связей между отдельными психологическими характеристиками, измеряемыми набором тестов или заданиями теста.

Факторный анализ используется также для стандартизации тестовых методик, которая проводится на репрезентативной выборке испытуемых.

Заключение

Если данные, полученные в эксперименте, качественного характера, то правильность делаемых на основе их выводов полностью зависит от интуиции, эрудиции и профессионализма исследователя, а также от логики его рассуждений. Если же эти данные количественного типа, то сначала проводят их первичную, а затем вторичную статистическую обработку. Первичная статистическая обработка заключается в определении необходимого числа элементарных математических статистик. Такая обработка почти всегда предполагает как минимум определение выборочного среднего значения. В тех случаях, когда информативным показателем для экспериментальной проверки предложенных гипотез является разброс данных относительного среднего, вычисляется дисперсия или квадратическое отклонение. Значение медианы рекомендуется вычислять тогда, когда предполагается использовать методы вторичной статистической обработки, рассчитанные на нормальное распределение, Для такого рода распределения выборочных данных медиана, а также мода совпадают или достаточно близки к средней величине. Этим критерием можно воспользоваться для того, чтобы приблизительно судить о характере полученного распределения первичных данных.

Вторичная статистическая обработка (сравнение средних, дисперсий, распределений данных, регрессионный анализ, корреляционный анализ, факторный анализ и др.) проводится в том случае, если для решения задач или доказательства предложенных гипотез необходимо определить статистические закономерности, скрытые в первичных экспериментальных данных. Приступая к вторичной статистической обработке, исследователь прежде всего должен решить, какие из различных вторичных статистик ему следует применить для обработки первичных экспериментальных данных. Решение принимается на основе учета характера проверяемой гипотезы и природы первичного материала, полученного в результате проведения эксперимента. Приведем несколько рекомендаций на этот счет.

Рекомендация 1. Если экспериментальная гипотеза содержит предположение о том, что в результате проводимого психолого-педагогического исследования возрастут (или уменьшатся) показатели какого-либо качества, то для сравнения до - и постэкспериментальных данных рекомендуется использовать критерий Стъюдента или ч2-критерий. К последнему обращаются в том случае, если первичные экспериментальные данные относительны и выражены, например, в процентах.

Рекомендация 2. Если экспериментально проверяемая гипотеза включает в себя утверждение о причинно-следственной зависимости между некоторыми переменными, то её целесообразно проверять, обращаясь к коэффициентам линейной или ранговой корреляции. Линейная корреляция используется в том случае, когда измерения независимой и зависимой переменных производятся при помощи интервальной шкалы, а изменения этих переменных до и после эксперимента небольшие. К ранговой корреляции обращаются тогда, когда достаточно оценить изменения, касающиеся порядка следования друг за другом по величине независимых и зависимых переменных, или когда их изменения достаточно велики, или когда измерительный инструмент был порядковым, а не интервальным.

Рекомендация 3. Иногда гипотеза включает предположение о том, что в результате эксперимента возрастут или уменьшатся индивидуальные различия между испытуемыми. Такое предположение хорошо проверяется с помощью критерия Фишера, позволяющего сравнить дисперсии до и после эксперимента. Заметим, что, пользуясь критерием Фишера, можно работать только с абсолютными значениями показателей, но не с их рангами.

Размещено на Allbest.ru

...

Подобные документы

    Основные приемы и методы обработки и анализа статистических данных. Исчисление арифметической, гармонической и геометрической средних величин. Ряды распределения, их основные характеристики. Методы выравнивания рядом динамики. Система национальных счетов.

    курсовая работа , добавлен 24.10.2014

    Понятие экономического анализа как науки, его сущность, предмет, общая характеристика методов и социально-экономическая эффективность. Основные группы эконометрических методов анализа и обработки данных. Факторный анализ экономических данных предприятия.

    реферат , добавлен 04.03.2010

    Среднее арифметическое выборки, дисперсия, среднеквадратическое отклонение. Отбраковка по критерию Шовене. Правило "трех сигм". Оценка значимости различия средних значений двух выборок. Парный, множественные регрессионные анализы. Полный факторный анализ.

    курсовая работа , добавлен 05.12.2012

    Применение различных способов представления и обработки статистических данных. Пространственные статистические выборки. Парная регрессия и корреляция. Временные ряды. Построение тренда. Практические примеры и методика их решения, формулы и их значение.

    курс лекций , добавлен 26.02.2009

    Статистическая обработка результатов измерений; среднее арифметическое, квадратичное, дисперсия. Определение параметров выборки: закон трех сигм, гистограмма, контрольные карты, диаграмма Исикавы. Применение инструментов качества при изготовлении диванов.

    курсовая работа , добавлен 17.10.2014

    Средняя величина в статистике, ее сущность и условия применения. Виды и формы средних: по наличию признака-веса, по форме расчета, по охвату совокупности. Мода, медиана. Статистическое изучение динамики прибыли и рентабельности на примере ОАО "Башмебель".

    контрольная работа , добавлен 14.06.2008

    Принципы статистической обработки данных, используемые в данном процессе методы и приемы. Методика и основные этапы построения контрольных карт, их классификация и типы, функциональные особенности, определение преимуществ и недостатков применения.

    курсовая работа , добавлен 23.08.2014

    Расчет числовых характеристик и обработка результатов выборочных наблюдений. Исчисление и анализ статистических показателей в экономике. Национальное богатство: элементы, оценка; баланс активов и пассивов; основные фонды, показатели оборотных средств.

    курсовая работа , добавлен 25.12.2012

    Дескриптивная статистика и статистический вывод. Способы отбора, обеспечивающие репрезентативность выборки. Влияние вида выборки на величину ошибки. Задачи при применении выборочного метода. Распространение данных наблюдения на генеральную совокупность.

    контрольная работа , добавлен 27.02.2011

    Раскрытие понятия: интервальной шкалы, среднего арифметического, уровня статистической значимости. Как интерпретировать моду, медиану и среднее. Решение задач с использованием критерия Фридмана, Розенбаума. Расчет коэффициента корреляции Спримена.

Методами статистической обработки результатов экспери­мента называются математические приемы, формулы, способы количественных расчетов, с помощью которых показатели, по­лучаемые в ходе эксперимента, можно обобщать, приводить в си­стему, выявляя скрытые в них закономерности.

Речь идет о та­ких закономерностях статистического характера, которые су­ществуют между изучаемыми в эксперименте переменными ве­личинами.

Данные – это основные элементы, подлежащие классифицированию или разбитые на категории с целью обработки 26 .

Некоторые из методов математико-статистического анализа позволяют вычислять так называемые элементарные математические статистики, характеризующие выборочное распреде­ление данных, например:

Выборочное среднее,

Выборочная диспер­сия,

Медиана и ряд других.

Иные методы математической статистики позволяют судить о динамике изменения отдельных статис­тик выборки, например:

Дисперсионный анализ,

Регрессионный ана­лиз.

С помощью третьей группы методов выборочных данных, можно достоверно судить о статистических связях, существующих между переменными величинами, кото­рые исследуют в данном эксперименте:

Кор­реляционного анализа;

Факторного анализа;

Методов сравнения.

Все методы математико-статистического анализа условно де­лятся на первичные и вторичные 27 .

Первичными называют мето­ды, с помощью которых можно получить показатели, непосред­ственно отражающие результаты производимых в эксперимен­те измерений.

Вторичными называются методы статистической обработки, с помощью которых на базе первичных данных выявляют скры­тые в них статистические закономерности.

К первичным методам статистической обработки относят, на­пример:

Определение выборочной средней величины;

Выбороч­ной дисперсии;

Выборочной моды;

Выборочной медианы.

В чис­ло вторичных методов обычно включают:

Корреляционный ана­лиз;

Регрессионный анализ;

Методы сравнения первичных ста­тистик у двух или нескольких выборок.

Рассмотрим методы вычисления элементарных математичес­ких статистик, начав с выборочного среднего.

Среднее арифметическое значение – это отношение суммы всех значений данных к числу слагаемых 28 .

Среднее значение как статистический показатель представляет собой среднюю оценку изучаемого в эксперименте психологического качества.

Эта оценка характеризует степень его развития в целом у той группы испытуемых, которая была под­вергнута психодиагностическому обследованию. Сравнивая не­посредственно средние значения двух или нескольких выборок, мы можем судить об относительной степени развития у людей, составляющих эти выборки, оцениваемого качества.

Выборочное среднее определяется при помощи следующей формулы 29:

где х ср -выборочная средняя величина или среднее арифметичес­кое значение по выборке;

п - количество испытуемых в выбор­ке или частных психодиагностических показателей, на основе ко­торых вычисляется средняя величина;

x k - частные значения по­казателей у отдельных испытуемых. Всего таких показателей п, поэтому индекс k данной переменной принимает значения от 1 до п;

∑ - принятый в математике знак суммирования величин тех переменных, которые находятся справа от этого знака.

Дисперсия – это мера разброса данных относительно среднего значения 30 .

Чем больше дисперсия, тем больше отклонения или разброс данных. Ее определяют для того, чтобы можно было отличать друг от друга величины, име­ющие одинаковую среднюю, но разный разброс.

Дисперсия определяется по следую­щей формуле:

где - выборочная дисперсия, или просто дисперсия;

Выражение, означающее, что для всех x k от перво­го до последнего в данной выборке необходимо вычислить раз­ности между частными и средними значениями, возвести эти раз­ности в квадрат и просуммировать;

п - количество испытуемых в выборке или первичных зна­чений, по которым вычисляется дисперсия.

Медианой называется значение изучаемого признака, кото­рое делит выборку, упорядоченную по величине данного призна­ка, пополам.

Знание медианы полезно для того, чтобы установить, явля­ется ли распределение частных значений изученного признака симметричным и приближающимся к так называемому нормаль­ному распределению. Средняя и медиана для нормального рас­пределения обычно совпадают или очень мало отличаются друг от друга.

Если выборочное распределение признаков нормаль­но, то к нему можно применять методы вторичных статистичес­ких расчетов, основанные на нормальном распределении данных. В противном случае этого делать нельзя, так как в расчеты могут вкрасться серьезные ошибки.

Мода еще одна элементар­ная математическая статистика и характеристика распределе­ния опытных данных. Модой называют количественное зна­чение исследуемого признака, наиболее часто встречающееся в выборке.

Для симметричных распределений признаков, в том числе для нормального распределения, значения моды совпадают со значениям среднего и медианы. Для других типов распре­делений, несимметричных, это не характерно.

Метод вторичной статистической обработки, по­средством которого выясняется связь или прямая зависимость между двумя рядами экспериментальных данных, носит назва­ние метод корреляционного анализа. Он показывает, каким образом одно яв­ление влияет на другое или связано с ним в своей динамике. По­добного рода зависимости существуют, к примеру, между вели­чинами, находящимися в причинно-следственных связях друг с другом. Если выясняется, что два явления статистически досто­верно коррелируют друг с другом и если при этом есть уверен­ность в том, что одно из них может выступать в качестве причи­ны другого явления, то отсюда определенно следует вывод о на­личии между ними причинно-следственной зависимости.

Имеется несколько разновидностей данного метода:

Линейный корреля­ционный анализ позволяет устанавливать прямые связи между переменными величинами по их абсолютным значениям. Эти связи графически выражаются прямой линией, отсюда название «линейный».

Коэффициент линейной корреляции определяется при по­мощи следующей формулы 31:

где r xy - коэффициент линейной корреляции;

х, у - средние выборочные значения сравниваемых величин;

х i i - частные выборочные значения сравниваемых величин;

п - общее число величин в сравниваемых рядах показателей;

Дисперсии, отклонения сравниваемых величин от средних значений.

Ранговая корреляция определяет зависимость не между абсолютными значениями переменных, а между поряд­ковыми местами, или рангами, занимаемыми ими в упорядочен­ном по величине ряду. Формула коэффициента ран­говой корреляции следующая 32:

где R s - коэффициент ранговой корреляции по Спирмену;

d i - разница между рангами показателей одних и тех же ис­пытуемых в упорядоченных рядах;

п - число испытуемых или цифровых данных (рангов) в кор­релируемых рядах.

Атюшева Анна

В работе на примере обработки данных по успеваемости учащихся 7 класса рассмотрены основные статистические характеристики, проведен сбор и группировка статистических данных, наглядно представлена статистическая информация, проведен анализ полученных данных.

Работа содержит сопроводительную презентацию.

Скачать:

Предварительный просмотр:

Муниципальное автономное общеобразовательное учреждение «Гимназия № 24»

XXII научная конференция МАГНИ

Статистическая обработка данных

МАОУ «Гимназия №24» Атюшева Анна

Консультант: учитель математики

Щетинина Наталья Сергеевна

Магадан, 2016

Введение…………………………………………………………………………………………………3

  1. Основные понятия, используемые в статистической обработке данных……………………….5
  2. Исследовательская часть……………………………………………………..................................7

2.1.Статистическая обработка данных поуспеваемости учащихся 7 «В» класса…………………..7

2.2.Наглядное представление данных при помощигистограмм……………………………………18

2.3. Сравнительная характеристика учебной деятельности учащихся по результатам I и II четвертей………………………………………………………………………………………………..21

2.4. Анализ анкетирования учащихся 7 «В» класса на предмет контроля родителями за успеваемостью детей…………………………………………………………………………………...23

Заключение……………………………………………………………………………………………...27

Литература………………………………………………………………………………………………28

Введение

Любой из нас, открывая книгу или газету, включая телевизор или попадая на вокзал, постоянно сталкивается с табличной формой представления информации. Это расписание уроков, расписание движения поездов, таблица умножения и многое другое. Вся информация представляется в виде диаграмм или графиков.

Нужно уметь обрабатывать и анализировать такую информацию. Без обработки данных, сравнении событий нельзя проследить развитие той или иной проблемы.

В курсе алгебры нами были изучены статистические характеристики, имеющие широкое применение в различных исследованиях. Меня заинтересовало практическое применение изученных характеристик, и возможность обработать данные так чтобы представленная информация наглядно определяла ход развития той или иной проблемы и как следствие результат ее решение. В качестве такой проблемы я решила рассмотреть успеваемость своего класса по четвертям первого полугодия.

Объектная область исследования – алгебра

Объект исследования – статистические характеристики

Предмет исследования – успеваемость учащихся 7 «В» класса по четвертям I полугодия

Гипотеза: Мы полагаем, что на примере обработки данных по успеваемости учащихся 7В класса мы не только познакомимся с основными статистическими характеристиками, но и научимся самостоятельно:

  • проводить сбор и группировку статистических данных;
  • наглядно представлять статистическую информацию;
  • проводить анализ полученных данных.

Цель: научится обрабатывать, анализировать, наглядно представлять имеющуюся информацию.

Задачи:

  • изучить статистические характеристики;
  • собрать информацию об успеваемости учащихся 7 В класса по четвертям

первого полугодия;

  • обработать информацию;
  • провести наглядное представление информации при помощи гистограмм;
  • провести анализ полученных данных, сделать соответствующие выводы.

Основные понятия, используемые в статистической обработке данных

Статистика – наука, которая занимается получением, обработкой и анализом количественных данных о разнообразных массовых явлениях, происходящих в природе и обществе. Слово «статистика» происходит от латинского слова «status», которое означает «состояние, положение вещей».

Простейшие статистические характеристики это среднее арифметическое, медиана, размах, мода.

  • Средним арифметическим ряда чисел называется частное от деления суммы этих чисел на число слагаемых. Обычно среднее арифметическое находят тогда, когда хотят определить среднее значение для некоторого ряда данных: среднюю урожайность пшеницы с 1 га в районе, среднюю выработку одного рабочего бригады за смену, средний балл аттестата, среднюю температуру воздуха в полдень в эту декаду и т.д.
  • Медианой упорядоченного ряда чисел с нечетным числом членов называется число, записанное посередине, а медианой упорядоченного ряда чисел с четным числом членов называется средней арифметической двух чисел, записанных посередине. Заметим, что удобнее и быстрее работать с числовым рядом, если он упорядоченный, т.е. такой ряд, в котором каждое последующее число не меньше (или не больше) предыдущего.
  • Модой ряда чисел называется число, наиболее часто встречающиеся в данном ряду. Ряд чисел может иметь более одной моды или не иметь моды совсем. Моду ряда данных обычно находят тогда, когда хотят выявить некоторый типичный показатель. Заметим, что среднее арифметическое ряда чисел может не совпадать ни с одним из этих чисел, а мода, если она существует, обязательно совпадает с двумя или более числами ряда. Кроме того, в отличие от среднего арифметического, понятие «мода» относиться не только к числовым данным.
  • Размахом ряда чисел называется разность между наибольшим и наименьшим из этих чисел. Размах ряда находят тогда, когда хотят определить как велик разброс данных в ряду.

Покажем определение каждой из характеристик на примере ряда чисел: 47,46,52,47,52,47,52,49,45,43,53,53,47,52.

Средним арифметическим 48,7.

Находится так: определяем сумму чисел и делим ее на их количество.

(47+46+52+47+52+47+52+49+45+43+53+53+47+52):14=48,7.

Медианой данного ряда чисел будет являться число 48.

Находится так: упорядочиваем ряд чисел, выбирая то, которое находится посередине. Если количество чисел четное, то находим среднее арифметическое двух, находящихся в середине ряда чисел.

43,45,46,47,47,47, 47,49 ,52,52,52,52,53,53

(47+49):2=48

Модой данного ряда чисел будут являться числа 47 и 52 . Эти числа повторяются чаще всего.

47 ,46, 52 , 47 , 52 , 47 , 52 ,49,45,43,53,53, 47 , 52 .

Размахом данного ряда чисел будет являться 10.

Находится так: выбираем самое большое и самое маленькое число ряда и находим разность между этими числами.

47,46,52,47,52,47,52,49,45, 43, 53 ,53,47,52

53-43=10

Исследовательская часть

Статистическая обработка данных по успеваемости учащихся 7 «В» класса

Перейдем к обработке информации. Составим таблицы по каждому из предметов, состоящие из трех строк, в первой будет ряд данных. Каждая варианта из этого ряда какое-то количество раз реально наблюдалась в выборке. Это количество и называют кратностью варианты. Вот и поставим во вторую строку кратности соответствующих вариант. Получим таблицу распределения выборки.

Если сложим все кратности, то получиться количество всех произведенных при выборке измерений – объем выборки (В нашем случае это число 24, что соответствует количеству учащихся в классе).

В третьей строке отношение, выраженное в процентах, называют частотой варианты.

Частота варианты =

Вообще, если по результатам исследования составлена таблица относительных частот, то сумма относительных частот равна 100%.

I четверть

Русский язык.

Упорядочим данные выборки (отметки): 3,3,3,3,3,3,3,3,3,3,3,3,3,3,4,4,4,4,4,4,4,4,4,5.

Средний балл по предмету: (среднее арифметическое).

Таблица распределения частот

Варианта

Кратность варианты

Нет

Частота %

58.3%

37.5%

4.2%

Литература.

Упорядочим данные выборки (отметки): 3,3,3,3,3,3,3,3,3,4,4,4,4,4,4,4,4,4,4,5,5,5,5,5.

Средний балл по предмету: (среднее арифметическое).

Варианты оценок

кратность

нет

Частота %

37.5%

41.7%

20.8%

Алгебра.

Упорядочим данные выборки (отметки):3,3,3,3,3,3,3,3,3,3,3,4,4,4,4,4,4,4,4,4,4,4,5,5.

Средний балл по предмету: (среднее арифметическое).

Наибольшее количество учеников по предмету имеют «4, 3» (мода)

Примерно половина учащихся по русскому языку учатся на 4 (медиана)

Варианты оценок

кратность

нет

Частота %

45.8%

45.8%

8.3%

История.

Упорядочим данные выборки (отметки):3,3,3,3,3,3,3,3,3,3,3,4,4,4,4,4,4,4,4,4,4,4,4,5

Средний балл по предмету: (среднее арифметическое).

Наибольшее количество учеников по предмету имеют «4» (мода)

Примерно половина учащихся по русскому языку учатся на 4 (медиана)

Варианты оценок

Кратность

нет

Частота %

45.8%

4.2%

Обществознание.

Упорядочим данные выборки (отметки):3,3,3,3,3,3,3,3,3,4,4,4,4,4,4,4,4,4,4,5,5,5,5,5

Средний балл по предмету: (среднее арифметическое).

Наибольшее количество учеников по предмету имеют «4» (мода)

Примерно половина учащихся по русскому языку учатся на 4 (медиана)

Варианты оценок

Кратность

нет

Частота %

37.5%

41.7%

20.8%

География.

Упорядочим данные выборки (отметки):3,3,3,3,3,4,4,4,4,4,4,4,4,4,4,5,5,5,5,5,5,5.5,5

Средний балл по предмету: (среднее арифметическое).

Наибольшее количество учеников по предмету имеют «4» (мода)

Примерно половина учащихся по русскому языку учатся на 4 (медиана)

Варианты оценок

Кратность

нет

Частота %

20.8%

41.7%

37.5%

Физика.

Упорядочим данные выборки (отметки):3,3,3,3,3,3,3,3,3,4,4,4,4,4,4,4,4,4,4,4,4,4,4,5

Средний балл по предмету: (среднее арифметическое).

Наибольшее количество учеников по предмету имеют «4» (мода)

Примерно половина учащихся по русскому языку учатся на 4 (медиана)

Варианты оценок

Кратность

нет

Частота %

37.5%

58.3%

4.2%

Биология.

Упорядочим данные выборки (отметки):3,3,3,3,3,3,4,4,4,4,4,4,4,4,4,4.4,5,5,5,5,5,5,5

Средний балл по предмету: (среднее арифметическое).

Наибольшее количество учеников по предмету имеют «4» (мода)

Примерно половина учащихся по русскому языку учатся на 4 (медиана)

Варианты оценок

Кратность

нет

Частота %

45.8%

29.2%

ОБЖ.

Упорядочим данные выборки (отметки):4,4,4,4,4,4.4.5,5,5,5,5,5,5,5,5,5,5,5,5,5,5,5,5

Средний балл по предмету: (среднее арифметическое).

Варианты оценок

Кратность

нет

нет

Частота %

29.2%

70.8%

Упорядочим данные выборки (отметки):3,4,4,4.4,4,4,4,4,4,5,5,5,5,5,5,5.5,5,5.5,5,5,5

Средний балл по предмету: (среднее арифметическое).

Наибольшее количество учеников по предмету имеют «5» (мода)

Примерно половина учащихся по русскому языку учатся на 5 (медиана)

Варианты оценок

Кратность

нет

Частота %

4.2%

37.5%

58.3%

Английский язык.

Упорядочим данные выборки (отметки):3,3,3,3,3,3,3,3,3,4,4,4,4,4,4,4,4,4,4,5.5,5,5,5

Средний балл по предмету: (среднее арифметическое).

Наибольшее количество учеников по предмету имеют «4» (мода)

Примерно половина учащихся по русскому языку учатся на 4 (медиана)

Варианты оценок

Кратность

нет

Частота %

37.5%

41.7%

20.8%

Информатика.

Упорядочим данные выборки (отметки):3,4,4,4,4.4,4,4,4,4,4,4,4,4,5,5,5,5.5.5,5,5,5,5

Средний балл по предмету: (среднее арифметическое).

Наибольшее количество учеников по предмету имеют «4» (мода)

Примерно половина учащихся по русскому языку учатся на 4 (медиана)

Варианты оценок

Кратность

нет

Частота %

4.2%

54.2%

41.7%

Технология.

Упорядочим данные выборки (отметки):3,3,3,3,3,4,4,4,4,4,4,5,5,5.5,5,5,55,5,5,5,5,5

Средний балл по предмету: (среднее арифметическое).

Наибольшее количество учеников по предмету имеют «5» (мода)

Примерно половина учащихся по русскому языку учатся на 4.5 (медиана)

Варианты оценок

Кратность

нет

Частота %

20.8%

54.2%

Теперь соберем аналогичную информацию по результатам второй четверти.

Русский язык.

Упорядочим данные выборки (отметки):3,3,3.3,3,3,3,3,3,3,4,4,4,4,4,4,4,4,4,4,4,4,4,4

Средний балл по предмету: (среднее арифметическое)

Наибольшее количество учеников по предмету имеют «4» (мода)

Примерно половина учащихся по русскому языку учатся на 4 (медиана)

Варианты оценок

кратность

Нет

нет

Частота %

41.7%

58.3%

Литература.

Упорядочим данные выборки (отметки):3,3,3,3,3,3,3,3,3,3,4,4,4,4,4,4,4,4,5,5,5,5,5,5

Средний балл по предмету: (среднее арифметическое)

Наибольшее количество учеников по предмету имеют «3» (мода)

Примерно половина учащихся по русскому языку учатся на 3 (медиана)

Варианты оценок

кратность

нет

Частота %

41.7%

33.3%

Алгебра.

Упорядочим данные выборки (отметки):3,3,3,3,3,3,3,3,3,3,3,3,4,4,4,4,4,4,4,4,4,5,5,5

Средний балл по предмету: (среднее арифметическое)

Наибольшее количество учеников по предмету имеют «3» (мода)

Примерно половина учащихся по русскому языку учатся на 3 (медиана)

Варианты оценок

кратность

нет

Частота %

37.5%

12.5%

История.

Упорядочим данные выборки (отметки):3,3,3,3,3,3,3,3,3,4.4,4,4,4,4,4,4,4,4,4,4,4,4,5

Средний балл по предмету: (среднее арифметическое)

Наибольшее количество учеников по предмету имеют «4» (мода)

Примерно половина учащихся по русскому языку учатся на 4 (медиана)

Варианты оценок

Кратность

нет

Частота %

37.5%

58.3%

4.2%

Общество.

Упорядочим данные выборки (отметки):3,3,3,3,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,5,5,5

Средний балл по предмету: (среднее арифметическое)

Наибольшее количество учеников по предмету имеют «4» (мода)

Примерно половина учащихся по русскому языку учатся на 4 (медиана)

Варианты оценок

Кратность

нет

Частота %

16.7%

70.8%

12.5%

География.

Упорядочим данные выборки (отметки):3,3,3,4,4,4,4,4,4,4,4,4,4,4,4,4,4,5,5,5,5,5,5,5

Средний балл по предмету: (среднее арифметическое)

Наибольшее количество учеников по предмету имеют «4» (мода)

Примерно половина учащихся по русскому языку учатся на 4 (медиана)

Варианты оценок

Кратность

нет

Частота %

12.5%

58.3%

29.2%

Физика.

Упорядочим данные выборки (отметки):3,3,3,3,3,3,3,3,4,4,4,4,4,4,4,4,4,4,4,44,5,5,5

Средний балл по предмету: (среднее арифметическое)

Наибольшее количество учеников по предмету имеют «4» (мода)

Примерно половина учащихся по русскому языку учатся на 4 (медиана)

Варианты оценок

Кратность

нет

Частота %

33.3%

16.7%

12.5%

Биология.

Упорядочим данные выборки (отметки):3,3,3,4,4,4,4,4,4,4.4,4,4,4,4,4,4,4,5,5,5,5,5,5

Средний балл по предмету: (среднее арифметическое)

Наибольшее количество учеников по предмету имеют «4» (мода)

Примерно половина учащихся по русскому языку учатся на 4 (медиана)

Варианты оценок

Кратность

нет

Частота %

12.5%

62.5%

ОБЖ.

Упорядочим данные выборки (отметки):3,4,4,5,5,5,5,5.5,5,5,5,5,5,5,5,5,5,5,5,5,5,5,5

Средний балл по предмету: (среднее арифметическое)

Наибольшее количество учеников по предмету имеют «5» (мода)

Примерно половина учащихся по русскому языку учатся на 5 (медиана)

Варианты оценок

Кратность

нет

Частота %

4.2%

8.3%

87.5%

История и общество родного края.

Упорядочим данные выборки (отметки):3,3,3,4,4,4,4,4,4,4,4,4,4,4,5,5,5,5,5,5,5,5,5,5

Средний балл по предмету: (среднее арифметическое)

Наибольшее количество учеников по предмету имеют «4» (мода)

Примерно половина учащихся по русскому языку учатся на 4 (медиана)

Варианты оценок

Кратность

нет

Частота %

12.5%

45.8%

41.7%

Английский язык.

Средний балл по предмету: (среднее арифметическое)

Наибольшее количество учеников по предмету имеют «4» (мода)

Примерно половина учащихся по русскому языку учатся на 4 (медиана)

Варианты оценок

Кратность

нет

Частота %

20.8%

29.2%

Информатика.

Упорядочим данные выборки (отметки):3,3,3,3,3,4,4,4,4,4,4,4,4,4,4,4,4,5,5,5,5,5,5,5

Средний балл по предмету: (среднее арифметическое)

Наибольшее количество учеников по предмету имеют «4» (мода)

Примерно половина учащихся по русскому языку учатся на 4 (медиана)

Варианты оценок

Кратность

нет

Частота %

20.8%

29.2%

Технология.

Упорядочим данные выборки (отметки):3,4,4,4,4,4,4,4,5,5,5,5,5,5,5,5,5,5,5,5,5,5,5,5

Средний балл по предмету: (среднее арифметическое)

Наибольшее количество учеников по предмету имеют «5» (мода)

Примерно половина учащихся по русскому языку учатся на 4 (медиана)

Варианты оценок

Кратность

нет

Частота %

4.2%

29.2%

66.7%

Наглядное представление данных при помощи гистограмм

Для наглядного представления данных, полученных в результате статистического исследования, широко используют различные способы их изображения.

Мы для наглядности данных будем использовать гистограммы. Гистограмма представляет собой ступенчатую фигуру, составленную из сомкнутых прямоугольников. Основание каждого прямоугольника равно длине интервала, а высота – кратности варианта или относительной частоте. Таким образом, в гистограмме, в отличие от обычной столбчатой диаграммы, основания прямоугольника выбираются не произвольно, а строго определены длиной интервала.

Сравнительная характеристика успеваемости учащихся по предметам первой четверти

Сравнительная характеристика успеваемости учащихся по предметам второй четверти

Выводы

По результатам первой четверти наглядно видно, что сложнее всего учащиеся справляются с такими предметами как: русский язык и алгебра, предметы по которым «тройка» - оценка, являющаяся приоритетной по отношению к другим отметкам. А значит качество по этим предметам ниже, чем по другим.

Так же видно, что высокий уровень троек по таким предметам, как литература, история, общество, физика, английский язык. Печально и наличие троек по таким предметам, как технология, биология, география.

По результатам второй четверти значительно уменьшилось количество троек и пятерок, то есть учащиеся распределили свои силы по всем предметам, а не по отдельно предпочитаемым.

Гистограмма распределения среднего балла по предметам первой четверти

Гистограмма распределения среднего балла по предметам второй четверти

Вывод

Для создания данных диаграмм мы использовали такую статистическую характеристику, как среднее арифметическое. Наглядно видно, что во II четверти ухудшились знания по русскому языку, истории и обществу родного края, информатики. Улучшились по истории, обществу, физике, биологии, ОБЖ, английскому языку. Но при этом по диаграммам видно, что более существенные изменения в лучшую сторону произошли только по физикеи английскому языку.

Сравнительная характеристика учебной деятельности учащихся по результатам I и II четвертей

Гистограмма качества знаний по предметам первой четверти

Гистограмма качества знаний по предметам второй четверти

Объединив обе гистограммы в одну гораздо проще увидеть картину успеваемости класса в сравнении. А по отдельности проще увидеть по каким предметам качество выше. Например в первой четверти качество менее 60 % по предметам - алгебра, русский язык, история, во второй – русский язык, литература, алгебра, физика. Уже видно, что наиболее сложно учащимся даются русский язык, алгебра. А процент качества по всем предметам не особо отличается 66% - первая четверть, 68% - вторая. То есть скачкообразное качество по предметам, которое наглядно видно на диаграмме сравнения, наводит на мысль о том, что учащиеся не особо стараются повысить уровень своих знаний, и не удерживают своих позиций в том или ином предметном направлении.

Диаграмма сравнения всех предметов по качеству за 1 и 2 четверти

За II четверть значительно увеличилось количество хорошистов и отличников по русскому языку, обществу, биологии, английскому языку, технологии. Незначительно уменьшилось количество по литературе, алгебре, ОБЖ, ИОРК и по информатике. И видно сильное падение качества по физике, что связано с неготовностью учащихся к урокам.

И опять мы приходим к выводу, что дети учатся «скачкообразно», и нет особых предпочтений в направленности обучения (гуманитарные предметы, физико-математические, предметы естественного цикла).

Анализ анкетирования учащихся 7 «В» класса на предмет контроля родителями за успеваемостью детей

По результатам вышеописанного исследования, мы решили провести анкетирование среди учащихся 7 «В» класса на предмет контроля родителей за обучением детей (анкеты, см.приложение)

Объем выборки -22 человека.

Проверка домашнего задания родителями

Вывод

Практически четверть учащихся по данному вопросу без контроля родителей, что конечно же отражается на их успеваемости.

Количество проверок в неделю домашнего задания

Медиана = 0,0,0,0,0,0,1,1,2,2,3,3,3,3,4,4,5,7,7,7,7,7 = (3+3):2 = 3

Среднее арифметическое = 3

Вывод

В среднем задание проверяется три раза в неделю. С учетом скачкообразности в обучении, этого не достаточно.

Медиана = 0,0,0,0,1,1,1,1,1,2,2,2,2,2,2,3,3,3,3,3,5,5,6,7,7,7 = (2+2):2 = 2

Среднее арифметическое = 3(в среднем дневники родителями проверяются 3 раза в неделю)

Количество времени затрачиваемое учащимися на выполнение домашнего задания

Варианты

Меньше 1

Частота %

  • Размах R=x(max) – x(min)= 3,5 – 0,5 = 3часа

(характеризует величину разброса наблюдаемых значений, т.е. показывает разницу между наибольшим и наименьшим временем)

  • Мода M(0) = 2,5часа (показывает значение, встречающиеся чаще других, т.е. показывает время, которое учащиеся затрачивают чаще всего)

Гистограмма Затраченного времени учащимися на выполнение домашнего задания

Вывод

В среднем на выполнение домашнего задания уходит в день 2,5 часа. Что для возраста учащихся считается нормальным показателем.

Заключение

В результате проделанной работы я научилась обрабатывать и анализироватьимеющуюся информацию

Знание статистических характеристик помогли мне определить средний бал по разным предметам, а также моду и размах в тех показателях успеваемости, где, казалось бы,их определитьневозможно. Без обработки данных, сравнении событий нельзя проследить развитие той или иной проблемы. Мы постарались не только проследить за создавшейся проблемой – снижение уровня качества знаний и успеваемости по предметам, но и попробовать выяснить причину, которая на наш взгляд крылась в недостаточном контроле родителей за успеваемостью их детей. Анкетирование и результаты успеваемости показали, что учащиеся 7 «В» класса не достаточно имеют навык в самоконтроле за своим обучением, а родители считают обратное.

Проделанная работа думаю, будет полезнакак классному руководителю в работе с родителями, так и моим одноклассникам для улучшения в дальнейшем своих результатов по отдельным предметам.

Статистика - наука, изучающая, обрабатывающая и анализирующая количественные данные о самых разнообразных массовых явлениях в жизни. Мы только немного раскрыли для себя ее характеристики, а впереди еще много неизведанного и интересного.

Список литературы:

  1. http://www.nado5.ru/e-book/naibolshii-obzchii-delitel
    Предварительный просмотр:

    Чтобы пользоваться предварительным просмотром презентаций создайте себе аккаунт (учетную запись) Google и войдите в него: https://accounts.google.com


    Подписи к слайдам:

    Статистическая обработка данных Подготовила: ученица 7 класса «В» МАОУ «Гимназии № 24» Атюшева Анна Консультант: учитель математики Щетинина Наталья Сергеевна

    Цель: научится обрабатывать, анализировать, наглядно представлять имеющуюся информацию. Задачи: изучить статистические характеристики; собрать информацию об успеваемости учащихся 7 В класса по четвертям первого полугодия; обработать информацию; провести наглядное представление информации при помощи гистограмм; провести анализ полученных данных, сделать соответствующие выводы.

    Гипотеза на примере обработки данных по успеваемости учащихся можно не только познакомимся с основными статистическими характеристиками, но и научится проводить сбор и группировку статистических данных; наглядно представлять статистическую информацию; анализировать полученные данные.

    Статистика – наука, которая занимается получением, обработкой и анализом количественных данных о разнообразных массовых явлениях, происходящих в природе и обществе. Слово «статистика» происходит от латинского слова « status », которое означает «состояние, положение вещей ». Простейшие статистические характеристики: Среднее арифметическое Медиана Размах Мода

    О пределение каждой из характеристик на примере ряда чисел: 47,46,52,47,52,47,52,49,45,43,53,53,47,52. Средним арифметическим данного ряда чисел будет являться число 48,7 . (47+46+52+47+52+47+52+49+45+43+53+53+47+52):14=48,7. Медианой данного ряда чисел будет являться число 48. 43,45,46,47,47,47, 47 , 49 ,52,52,52,52,53,53 (47+49):2=48 Модой данного ряда чисел будут являться числа 47 и 52 . 47 ,46, 52 , 47 , 52 , 47 , 52 ,49,45,43,53,53, 47 , 52. Размахом данного ряда чисел будет являться 10. 47,46,52,47,52,47,52,49,45, 43, 53 ,53,47,52 53-43=10

    Проблемы с успеваемостью в 7 «В» классе

    Варианта 2 3 4 5 Кратность варианты нет 14 9 1 Частота % 0% 58.3% 37.5% 4.2% Русский язык. Упорядочим данные выборки (отметки): 3,3,3,3,3,3,3,3,3,3,3,3,3,3,4,4,4,4,4,4,4,4,4,5. Средний балл по предмету: 14∙3+9∙4+5∙124=8324≈3,5 (среднее арифметическое). Наибольшее количество учеников по предмету имеют «3» (мода) Примерно половина учащихся по русскому языку учатся на 3 (медиана)

    Для наглядного представления данных, полученных в результате статистического исследования, широко используют различные способы их изображения.

    Сравнительная характеристика успеваемости учащихся по предметам I четверти

    Сравнительная характеристика успеваемости учащихся по предметам II четверти

    Гистограмма распределения среднего балла по предметам I и II четверти

    Диаграмма сравнения всех предметов по качеству за I и II четвертях

    Анкетирование среди учащихся 7 «В» класса на предмет контроля родителей за обучением детей АНКЕТА 1. Проверяют ли у вас родители домашнее задание? ___________________________________________________________ 2. Сколько раз в неделю? ___________________________________________________________ 3. Сколько раз в неделю родители смотрят ваш дневник? ___________________________________________________________ 4. Сколько времени в среднем вы уделяете каждый день на выполнение домашнего задания? ___________________________________________________________

    Проверка домашнего задания родителями

    Количество проверок в неделю домашнего задания Медиана = 0,0,0,0,0,0,1,1,2,2,3,3,3,3,4,4,5,7,7,7,7,7 = (3+3):2 = 3 Среднее арифметическое = 3

    Гистограмма з атраченного времени учащимися на выполнение домашнего задания