Елементи на обработка на статистически данни. Статистическа обработка на данни и нейните характеристики Данни за обработка на статистически данни

Лабораторна работа No3. Статистическа обработка на данни в системата MatLab

Общо изложение на проблема

Основната цел на изпълнението лабораторна работае въведение в основите на работата със статистическа обработка на данни в средата MatLAB.

Теоретична част

Обработка на първична статистическа информация

Статистическата обработка на данни се основава на първични и вторични количествени методи. Целта на първичната обработка на статистическите данни е да структурира получената информация, което предполага групирането на данните в централни таблиципо различни параметри. Първичните данни трябва да бъдат представени в такъв формат, че човек да може да направи приблизителна оценка на получения набор от данни и да разкрие информация за разпределението на данните на получената извадка от данни, например хомогенност или компактност на данните. След първичен анализ на данните се прилагат методи за вторична статистическа обработка на данни, въз основа на които се определят статистически закономерности в съществуващия набор от данни.

Извършването на първичен статистически анализ на набор от данни ви позволява да придобиете знания за следното:

Коя е най-представителната стойност за извадката? Да отговоря на този въпроссе определят мерките на централната тенденция.

Голямо ли е разсейването в данните спрямо тази характеристична стойност, т.е. каква е „размазването“ на данните? V този случайсе определят мерки за променливост.

Струва си да се отбележи фактът, че статистическите показатели на мярката за централна тенденция и променливост се определят само на количествени данни.

Мерки за централна тенденция- група от стойности, около които се групират останалите данни. По този начин мерките на централната тенденция обобщават набора от данни, което дава възможност да се направят изводи както за извадката като цяло, така и за извършване на сравнително анализ на различни проби помежду си.

Да предположим, че има извадка от данни, тогава мерките на централната тенденция се оценяват чрез следните показатели:

1. Примерно средноРезултатът е от разделянето на сумата от всички извадкови стойности на техния брой. Определя се по формулата (3.1).

(3.1)

където - ити елемент от извадката;

н- броят на елементите в извадката.

Средната стойност на извадката осигурява най-голяма прецизност при оценката на централната тенденция.

Да кажем, че има извадка от 20 души. Образците са информация за средния месечен доход на всяко лице. Да приемем, че 19 души имат среден месечен доход от 20 tr. и 1 лице с доход от 300 тр. Общият месечен доход на цялата извадка е 680 RUB. Средната извадка в този случай е S = 34.


2. Медиана- генерира стойност, над и под която броят на различните стойности е еднакъв, тоест тя е централната стойност в последователна поредица от данни. Определя се в зависимост от четността/нечетността на броя на елементите в извадката по формули (3.2) или (3.3) Алгоритъмът за оценка на медианата за извадка от данни:

На първо място, данните се класират (сортират) в низходящ/възходящ ред.

Ако подредената извадка има нечетен брой елементи, тогава медианата съвпада с централната стойност.

(3.2)

където н

В случай на четен брой елементи, медианата се определя като средноаритметичната стойност на двете централни стойности.

(3.3)

където е средният елемент от поръчаната извадка;

- следния елемент от подредената селекция;

Броят на елементите в извадката.

Ако всички елементи на извадката са различни, тогава точно половината от елементите на извадката са по-големи от медианата, а другата половина е по-малка. Например, за извадката (1, 5, 9, 15, 16), медианата е същата като точка 9.

При статистическия анализ на данните медианата ви позволява да определите елементите на извадката, които силно влияят върху стойността на средната стойност на извадката.

Да кажем, че има извадка от 20 души. Образците са информация за средния месечен доход на всяко лице. Да приемем, че 19 души имат среден месечен доход от 20 tr. и 1 лице с доход от 300 тр. Общият месечен доход на цялата извадка е 680 RUB. Медианата, след подреждане на извадката, се определя като средноаритметично на десетия и единадесетия елемент на извадката) и е равна на Me = 20 tr. Този резултат се интерпретира по следния начин: медианата разделя извадката на две групи, така че можем да заключим, че в първата група всеки човек има среден месечен доход от не повече от 20 хиляди рубли, а във втората група най-малко 20 тона. В този пример можем да кажем, че медианата се характеризира с това колко печели „средният“ човек. В същото време стойността на средната стойност на извадката е значително надвишена S = 34, което показва неприемливостта на тази характеристика при оценка на средните доходи.

По този начин, колкото по-голяма е разликата между медианата и средната стойност на извадката, толкова по-голямо е разсейването на извадковите данни (в разглеждания пример човек с приходи от 300 хиляди рубли ясно се различава от средните хора в конкретна извадка и има значително влияние върху оценката на средния доход). Какво да се прави с такива елементи се решава във всеки отделен случай. Но в общия случай, за да се гарантира надеждността на извадката, те се изтеглят, тъй като имат силно влияние върху оценката на статистическите показатели.

3. мода (мо)- формира стойността, която се среща най-често в извадката, т.е. стойността с най-висока честота Алгоритъм за оценка на режима:

В случай, че една проба съдържа елементи, които се срещат еднакво често, тогава се казва, че няма мода в такава извадка.

Ако две съседни елементиТъй като пробите имат една и съща честота, която е по-голяма от честотата на останалата част от пробата, тогава режимът се дефинира като средната стойност на тези две стойности.

Ако две проби имат една и съща честота, която е по-висока от честотата на другите проби, и тези елементи не са съседни, тогава се казва, че има два режима в тази проба.

Режимът в статистическия анализ се използва в ситуации, когато е необходимо бързо да се оцени мярката на централната тенденция и не се изисква висока точност. Например, модата (по отношение на размера или марката) е удобна за използване, за да се определят дрехите и обувките, които са най-търсени сред клиентите.

Мерки за разсейване (променливост).- група от статистически показатели, характеризиращи разликите между отделните стойности на извадката. Въз основа на показателите на дисперсионните мерки е възможно да се оцени степента на хомогенност и компактност на елементите на пробата. Мерките за дисперсия се характеризират със следния набор от показатели:

1. Плъзнете -това е интервалът между максималните и минималните стойности на резултатите от наблюдението (извадкови единици). Мярката за промяна показва разпространението на стойностите в популация от данни. Ако диапазонът е голям, тогава стойностите в съвкупността са много разпръснати, в противен случай (диапазонът е малък) се казва, че стойностите в съвкупността лежат близо една до друга. Диапазонът се определя по формула (3.4).

(3.4)

Където - максимален елемент на пробата;

е минималният извадков елемент.

2.Средно отклонение- средноаритметичната разлика (в абсолютна стойност) между всяка стойност в извадката и нейната извадкова средна стойност. Средното отклонение се определя по формулата (3.5).

(3.5)

където - ити елемент от извадката;

Стойността на средната извадка, изчислена по формулата (3.1);

Броят на елементите в извадката.

модул е необходимо поради факта, че отклоненията от средното за всеки конкретен елемент могат да бъдат както положителни, така и отрицателни. Следователно, ако не вземете модула, тогава сумата от всички отклонения ще бъде близка до нула и ще бъде невъзможно да се прецени степента на вариабилност на данните (натрупване на данни около средната стойност на извадката). При извършване на статистически анализ, модът и медианата могат да се вземат вместо средната стойност на извадката.

3. Дисперсия- мярка за дисперсия, описваща сравнителното отклонение между стойностите на данните и средната стойност. Изчислява се като сума от квадратите на отклоненията на всеки елемент на извадката от средната стойност. В зависимост от размера на извадката, дисперсията се оценява различни начини:

За големи проби (n> 30) по формула (3.6)

(3.6)

За малки проби (н<30) по формуле (3.7)

(3.7)

където X i е i-тият елемент от извадката;

S е средната стойност на извадката;

Броят на елементите в извадката;

(X i - S) е отклонението от средната стойност за всяка стойност в набора от данни.

4. Стандартно отклонение-мярка за това колко широко са разпръснати точките от данни спрямо тяхната средна стойност.

Процесът на квадратура на отделните отклонения при изчисляване на дисперсията увеличава степента на отклонение на полученото отклонение от първоначалните отклонения, което от своя страна внася допълнителни грешки. По този начин, за да се приближи оценката на разпространението на точките от данни спрямо тяхната средна стойност до стойността на средното отклонение, квадратният корен се извлича от дисперсията. Извлеченият корен на дисперсията характеризира мярка за променливост, наречена средноквадратично или стандартно отклонение (3.8).

(3.8)

Да приемем, че сте мениджър на проекти за разработка на софтуер. Имате петима програмисти, които са ви подчинени. Като управлявате процеса на изпълнение на проекта, вие разпределяте задачите между програмистите. За простота на примера ще изхождаме от факта, че задачите са еквивалентни по сложност и време за изпълнение. Решихте да анализирате работата на всеки програмист (броя на задачите, извършени през седмицата) за последните 10 седмици, в резултат на което сте получили следните мостри:

Име на седмицата

След като оцените средния брой изпълнени задачи, получавате следния резултат:

Име на седмицата С
22,3
22,4
22,2
22,1
22,5

Въз основа на индикатора S всички програмисти работят средно с еднаква ефективност (около 22 задачи на седмица). Индикаторът за променливост (обхват) обаче е много висок (от 5 задачи на четвъртия програмист до 24 задачи за петия).

Име на седмицата С П
22,3
22,4
22,2
22,1
22,5

Нека преценим стандартното отклонение, което показва как се разпределят стойностите в пробите спрямо средната стойност, а именно в нашия случай да преценим колко голямо е разпространението на задачите от седмица на седмица.

Име на седмицата С П ТАКА
22,3 1,56
22,4 1,8
22,2 2,84
22,1 1,3
22,5 5,3

Получената оценка на стандартното отклонение казва следното (нека изчислим два екстремни случая 4 и 5 програмисти):

Всяка стойност в извадка от 4 програмисти се отклонява средно с 1,3 задачи от средната стойност.

Всяка стойност в извадката 5 на програмиста се отклонява средно с 5,3 задачи от средната стойност.

Колкото по-близо е стандартното отклонение до 0, толкова по-надеждна е средната стойност, тъй като това показва, че всяка стойност на извадката е почти равна на средната (в нашия пример това е 22,5 елемента). Следователно 4-тият програмист е най-последователен за разлика от 5-ия. Променливостта в изпълнението на задачите от седмица до седмица на 5-ти програмист е 5,3 задачи, което показва значително разпределение. В случая с 5-ти програмист не може да се вярва на средната стойност и следователно е трудно да се предвиди броят на изпълнените задачи за следващата седмица, което от своя страна затруднява планирането и спазването на работните графици. Какво управленско решение ще вземете в този курс е без значение. Важно е да получите оценка, въз основа на която могат да се вземат подходящи управленски решения.

По този начин може да се направи общо заключение, че средната стойност не винаги оценява правилно данните. Коректността на оценката на средната стойност може да се прецени по стойността на стандартното отклонение.


1. Инструменти за статистическа обработка на данни в Excel

2. Използване на специални функции

3. Използване на инструмента ANALYSIS PACKAGE

литература:

основното:

1. Бърк. Анализ на данни с помощта на Microsoft Excel. : Пер. от английски / Бърк, Кенет, Кери, Патрик. - М.: Издателство "Уилямс", 2005. - С. 216 - 256.

2. Мишин А.В. Информационни технологии в правната дейност: семинар / A.V. Мишин. - М .: РАП, 2013 .-- С. 2-11.

допълнителен:

3. Информатика за юристи и икономисти: учебник за университети / Изд. С.В. Симонович. - SPb .: Петър, 2004 .-- S. 498-516.

Практически урок номер 30

Тема No11.1. Поддръжка на база данни в СУБД на Access

Урокът се провежда по метода на проекта.

Цел на проекта: разработване на база данни за работата на съда.

Техническа задача:

1. Създайте база данни „Съд“ от две таблици „Съдии“ и „Искове“ съответно със следната структура:

Таблица "Съдии"

Име на полето Съдиен код ПЪЛНО ИМЕ Дни на прием Работно време Работен опит
Тип данни Числова Текст Текст Текст Числова
Размер на полето Дълго цяло число Дълго цяло число
Формат на полето Основен Основен
Десетични знаци
Стойност по подразбиране "ср" "15:00-17:00"
Условие за стойност > 36200 И<36299 пн или вт или ср или чт или пет > 0 И<40
Съобщение за грешка Валидни стойности са Mon, Tue, Wed, Thu или Fri. Моля, влезте отново! ! Валидни стойности са от 1 до 39. Въведете отново!
задължително поле да да Не Не Не
Индексирано поле Не Не Не Не

Забележка. Декларирайте ключовото поле "Код на съдия".

Таблица за искове

Име на полето Номер на делото ищец Отговор-мацка Съдиен код Дата на срещата
Тип данни Числова Текст Текст Числова Време за среща
Свойства на полето: Общи раздел
Размер на полето Дълго цяло число Дълго цяло число Пълен формат на датата
Формат на полето Основен
Десетични знаци
Стойност по подразбиране
Условие за стойност > 0 И<99999 > 36200 И<36299
Съобщение за грешка Грешен запис - повторете! Валидни стойности са от 36201 до 36298. Моля, въведете отново!
задължително поле да Не Не Не Не
Индексирано поле Да (не са разрешени съвпадения) Не Не Да (разрешени съвпадения) Не

2. Въведете следните записи с данни в таблицата на съдиите:

Въведете следните записи с данни в таблицата с претенции:

3. В полето "Код на съдия" установете връзка един към много между таблиците съдиии Съдебни дела... Когато правите това, задайте „Осигуряване на целостта на данните“ и „Каскадно опресняване на свързаните полета“.

литература:

основното:

1. Мишин А.В. Информационни технологии в професионалната дейност: учебник / A.V. Мишин, Л.Е. Мистров, Д.В. Картавцев. - М .: РАП, 2011 .-- С. 259-264.

допълнителен:

Практически урок номер 31

Тема No 11.2. Принципи на създаване на формуляри и заявки в СУБД на Access

1. Разработване на входни форми за въвеждане на данни.

2. Методика за изчисляване и анализиране на въведените данни.

литература:

основното:

1. Мишин А.В. Информационни технологии в професионалната дейност: учебник / A.V. Мишин, Л.Е. Мистров, Д.В. Картавцев. - М .: РАП, 2011 .-- С. 265-271.

допълнителен:

2. Информатика и информационни технологии: учебник за студенти / И.Г. Лесничая, И.В. Липсва, Ю.Д. Романов, V.I. Шестаков. - 2-ро изд. - М .: Ексмо, 2006 .-- 544 с.

3. Михеева Е.В. Информационни технологии в професионалната дейност: учебник за ученици от средните професионални училища / Е.В. Михеева. - 2-ро изд., Изтрито. - М .: Академия, 2005 .-- 384 с.

Изпратете добрата си работа в базата от знания е лесно. Използвайте формуляра по-долу

Студенти, специализанти, млади учени, които използват базата от знания в своето обучение и работа, ще ви бъдат много благодарни.

Публикувано на http://www.allbest.ru/

Обработка на статистически данни

Въведение

корелация на извадката на статистическа дисперсия

Методи за статистическа обработка на резултатите от експеримент са математически техники, формули, методи за количествени изчисления, с помощта на които показателите, получени по време на експеримента, могат да бъдат обобщени, въведени в системата, разкривайки скритите в тях закони. Говорим за такива закономерности от статистическо естество, които съществуват между изследваните в експеримента променливи.

Някои от методите за математически и статистически анализ ви позволяват да изчислите така наречените елементарни математически статистики, които характеризират извадковото разпределение на данните, например средна извадка, дисперсия на извадката, режим, медиана и редица други. Други методи на математическата статистика, например дисперсионен анализ, регресионен анализ, позволяват да се прецени динамиката на промените в отделните статистики на извадката. С помощта на третата група методи, да речем, корелационен анализ, факторен анализ, методи за сравняване на извадкови данни, може надеждно да се прецени статистическите връзки, които съществуват между променливите, които се изследват в този експеримент.

1. Методи за първична статистическа обработка на експерименталните резултати

Всички методи за математически и статистически анализ условно се разделят на първични и вторични. Методите, които могат да се използват за получаване на индикатори, които пряко отразяват резултатите от измерванията, направени в експеримент, се наричат ​​първични методи. Съответно под първичните статистически показатели се разбират тези, които се използват в самите психодиагностични методи и са резултат от първоначалната статистическа обработка на резултатите от психодиагностиката. Методите за статистическа обработка се наричат ​​вторични методи, с помощта на които на базата на първични данни се разкриват скрити в тях статистически закономерности.

Основните методи за статистическа обработка включват например определяне на средната стойност на извадката, дисперсията на извадката, режима на извадката и медианата на извадката. Вторичните методи обикновено включват корелационен анализ, регресионен анализ, методи за сравняване на първична статистика в две или повече извадки.

Помислете за методи за изчисляване на елементарна математическа статистика.

1.1 Мода

Числовата характеристика на извадка, която по правило не изисква изчисления, е т.нар. Модата е количествената стойност на изследваната черта, която най-често се среща в извадката. За симетричните разпределения на характеристиките, включително нормалното разпределение, стойността на режима съвпада със средните и средните стойности. За други видове разпределение, асиметрично, това не е типично. Например, в последователността от стойности на характеристиките 1, 2, 5, 2, 4, 2, 6, 7, 2, режимът е стойността 2, тъй като се среща по-често от другите стойности - четири пъти.

Модата се намира по следните правила:

1) В случай, че всички стойности в извадката се срещат еднакво често, общоприето е, че тази серия от проба няма режим. Например: 5, 5, 6, 6, 7, 7 - няма мода в тази извадка.

2) Когато две съседни (съседни) стойности имат една и съща честота и тяхната честота е по-голяма от честотите на всички други стойности, режимът се изчислява като средноаритметично на тези две стойности. Например, в проба 1, 2, 2, 2, 5, 5, 5, 6, честотите на съседни стойности 2 и 5 съвпадат и са равни на 3. Тази честота е по-голяма от честотата на други стойности 1 и 6 (за което е равно на 1). Следователно режимът на тази серия ще бъде стойността = 3,5

3) Ако две несъседни (не съседни) стойности в извадката имат равни честоти, които са по-високи от честотите на всяка друга стойност, тогава се разграничават два режима. Например в ред 10, 11, 11, 11, 12, 13, 14, 14, 14, 17 режимите са 11 и 14. В този случай се казва, че пробата е бимодална.

Може да има и така наречените мултимодални разпределения с повече от два върха (мода).

4) Ако режимът се оценява от набора от групирани данни, тогава за намиране на режима е необходимо да се определи групата с най-висока честота на характеристиката. Тази група се нарича модална група.

1.2 Медиана

Медианата е стойността на изследваната черта, която разделя извадката, подредена по стойността на този признак, наполовина. Вдясно и вляво от медианата остава същият брой характеристики в подредената серия. Например, за извадката 2, 3, 4, 4, 5, 6, 8, 7, 9, медианата ще бъде 5, тъй като вляво и вдясно от нея има четири индикатора. Ако поредицата включва четен брой характеристики, тогава медианата ще бъде средната, взета като полусума от стойностите на двете централни стойности на серията. За следващия ред 0, 1, 1, 2, 3, 4, 5, 5, 6, 7 медианата ще бъде 3,5.

Познаването на медианата е полезно при определяне дали разпределението на конкретните стойности на изследваната черта е симетрично и близко до така нареченото нормално разпределение. Средната и медианата за нормалното разпределение обикновено съвпадат или се различават много малко една от друга. Ако извадковото разпределение на характеристиките е нормално, тогава към него могат да се приложат методи за вторични статистически изчисления, базирани на нормалното разпределение на данните. В противен случай това не може да се направи, тъй като в изчисленията могат да се промъкнат сериозни грешки.

1.3 Средна извадка

Средната стойност на извадката (средноаритметично) като статистически индикатор е средната оценка на психологическото качество, изследвано в експеримента. Тази оценка характеризира степента на неговото развитие като цяло в тази група субекти, която е била подложена на психодиагностично изследване. Сравнявайки директно средните стойности на две или повече проби, можем да преценим относителната степен на развитие на хората, съставляващи тези проби, оценено качество.

1.4 Разпределение на пробите

Разпределението (понякога тази стойност се нарича диапазон) на извадката се обозначава с буквата R. Това е най-простият индикатор, който може да се получи за извадката - разликата между максималните и минималните стойности на дадена серия от вариации, т.е

R = xmax - xmin

Ясно е, че колкото повече варира измерената характеристика, толкова по-голяма е стойността на R и обратно. Въпреки това може да се случи така, че за две извадкови серии и средната стойност, и диапазонът да съвпадат, но естеството на вариацията на тези серии ще бъде различно. Например са дадени две проби:

X = 10 15 20 25 30 35 40 45 50 X = 30 R = 40

Y = 10 28 28 30 30 30 32 32 50 Y = 30 R = 40

С равенството на средните стойности и разсейването за тези две извадкови серии естеството на тяхното изменение е различно. За да се разбере по-ясно естеството на вариацията на извадките, трябва да се обърнем към техните разпределения.

1.5 Дисперсия

Дисперсията е средноаритметичната стойност на квадратите на отклоненията на стойностите на променлива от нейната средна стойност.

Дисперсията като статистика характеризира доколко конкретните стойности се отклоняват от средната стойност в дадена извадка. Колкото по-голяма е дисперсията, толкова по-голямо е отклонението или разсейването в данните.

Квадратният корен се извлича от сумата на квадратите, разделена на броя на членовете в серията.

Понякога има доста много първоначални частни първични данни, които подлежат на статистическа обработка, и те изискват огромен брой елементарни аритметични операции. За да намалят техния брой и в същото време да поддържат необходимата точност на изчисленията, понякога те прибягват до замяна на оригиналната извадка от конкретни емпирични данни с интервали. Интервалът е група от характерни стойности, сортирани по величина, която се заменя със средната стойност в процеса на изчисление.

2. Методи за вторична статистическа обработка на експерименталните резултати

С помощта на вторични методи за статистическа обработка на експериментални данни, хипотезите, свързани с експеримента, директно се проверяват, доказват или опровергават. Тези методи по правило са по-сложни от методите за първична статистическа обработка и изискват добра подготовка от изследователя в областта на елементарната математика и статистика. (7).

Обсъжданата група методи може да бъде разделена на няколко подгрупи:

1. Регресионно изчисление.

2. Методи за сравняване на две или повече елементарни статистики (средни, дисперсии и др.), свързани с различни извадки.

3. Методи за установяване на статистически връзки между променливи, например тяхната корелация една с друга.

4. Методи за идентифициране на вътрешната статистическа структура на емпиричните данни (например факторен анализ). Нека разгледаме с примери всяка от избраните подгрупи методи за вторична статистическа обработка.

2.1 Регресионно изчисление

Регресионното изчисление е метод на математическата статистика, който ви позволява да намалите частните, разнородни данни до определена линейна графика, приблизително отразяваща вътрешната им взаимовръзка, и да получите способността да оцените грубо вероятната стойност на друга променлива по стойността на една от променливи (7).

Графичният израз на регресионно уравнение се нарича регресионна линия. Регресионната линия изразява най-добрите прогнози за зависимата променлива (Y) за независимите променливи (X).

Регресията се изразява с две регресионни уравнения, които в най-прекия случай изглеждат като прави уравнения.

Y = a 0 + a 1 * X

X = b 0 + b 1 * Y

В уравнение (1) Y е зависимата променлива, X е независимата променлива, 0 е отсечката, 1 е коефициентът на регресия или наклонът, който определя наклона на регресионната линия по отношение на координатните оси.

В уравнение (2) X е зависимата променлива, Y е независимата променлива, b 0 е отсечката, b 1 е коефициентът на регресия или наклонът, който определя наклона на регресионната линия по отношение на координатните оси.

Количественото определяне на връзката (отношението) между X и Y (между Y и X) се нарича регресионен анализ. Основната задача на регресионния анализ е да се намерят коефициентите a 0, b 0, a1 и b 1 и да се определи нивото на значимост на получените аналитични изрази, свързващи променливите X и Y.

За да приложите метода на линеен регресионен анализ, трябва да бъдат изпълнени следните условия:

1. Сравнените променливи X и Y трябва да се измерват по скала от интервали или съотношения.

2. Приема се, че променливите X и Y имат нормално разпределение.

3. Броят на различни характеристики в сравняваните променливи трябва да бъде еднакъв. (5).

2.2 Корелация

Следващият метод на вторична статистическа обработка, чрез който се изяснява връзката или пряката връзка между две серии от експериментални данни, се нарича метод на корелациите. Показва как едно явление влияе на друго или е свързано с него в неговата динамика. Този вид връзка съществува например между количества, които са в причинно-следствена връзка помежду си. Ако се окаже, че две явления статистически надеждно корелират едно с друго и ако в същото време има увереност, че едно от тях може да действа като причина за другото явление, то това определено предполага заключението, че между тях съществува причинно-следствена връзка . (7)

Когато повишаването на нивото на една променлива е придружено от повишаване на нивото на друга, тогава говорим за положителна корелация. Ако растежът на една променлива се случва с намаляване на нивото на другата, тогава се говори за отрицателна корелация. При липса на връзка между променливите, имаме работа с нулева корелация. (1)

Има няколко варианта на този метод: линеен, класиран, сдвоен и множествен. Линейният корелационен анализ ви позволява да установите директни връзки между променливите по техните абсолютни стойности. Тези връзки са графично изразени като права линия, откъдето идва и името "линейни". Ранговата корелация определя зависимостта не между абсолютните стойности на променливите, а между редовите места или ранговете, заети от тях по порядък на величина. Анализът на двойната корелация включва изследване на корелациите само между двойки променливи и множествени, или многовариантни, - между много променливи едновременно. Факторният анализ е широко разпространена форма на многовариантен корелационен анализ в приложната статистика. (5)

Коефициентът на рангова корелация в психолого-педагогическото изследване се разглежда в случаите, когато признаците, между които се установява зависимостта, са качествено различни и не могат да бъдат прецизно оценени с помощта на т. нар. интервална скала за измерване. Интервална скала се нарича скала, която ви позволява да оцените разстоянието между нейните стойности и да прецените коя от тях е по-голяма и колко по-голяма от другата. Например, линийката, използвана за оценка и сравняване на дължините на обекти, е интервална скала, тъй като, използвайки я, можем да заявим, че разстоянието между два и шест сантиметра е два пъти по-голямо от разстоянието между шест и осем сантиметра. Ако с помощта на някакъв измервателен уред можем само да твърдим, че някои показатели са повече от други, но не можем да кажем колко, тогава такъв измервателен уред се нарича не интервален, а порядков.

Повечето от показателите, които се получават в психолого-педагогическите изследвания, се отнасят до редовни, а не до интервални скали (например оценки като "да", "не", "по-скоро не, отколкото да" и други, които могат да бъдат превърнати в точки), следователно , коефициентът на линейна корелация не е приложим за тях.

Методът на множествените корелации, за разлика от метода на двойните корелации, дава възможност да се разкрие общата структура на корелационните зависимости, съществуващи в рамките на многоизмерен експериментален материал, включващ повече от две променливи, и да се представят тези корелационни зависимости под формата на определена система.

За да приложите конкретен коефициент на корелация, трябва да бъдат изпълнени следните условия:

1. Сравнените променливи трябва да се измерват по скала от интервали или съотношения.

2. Приема се, че всички променливи имат нормално разпределение.

3. Броят на различни характеристики в сравняваните променливи трябва да бъде еднакъв.

4. За да се оцени нивото на надеждност на корелационното съотношение на Пиърсън, трябва да се използва формулата (11.9) и таблицата с критичните стойности за t-теста на Студент при k = n - 2. (5)

2.3 Факторен анализ

Факторният анализ е статистически метод, който се използва при обработка на големи масиви от експериментални данни. Задачите на факторния анализ са: намаляване на броя на променливите (редукция на данни) и определяне на структурата на връзките между променливите, т.е. класификация на променливите, поради което факторният анализ се използва като метод за намаляване на данните или като метод за структурна класификация.

Важна разлика между факторния анализ и всички описани по-горе методи е, че той не може да се използва за обработка на първични или, както се казва, "сурови" експериментални данни, т.е. получени директно по време на изследването на субектите. Материалът за факторния анализ са корелационните връзки, или по-скоро корелационните коефициенти на Пиърсън, които се изчисляват между променливите (т.е. психологическите характеристики), включени в изследването. С други думи, корелационните матрици или, както се наричат ​​по друг начин, взаимнокорелационните матрици, се подлагат на факторен анализ. Имената на колоните и редовете в тези матрици са еднакви, тъй като представляват списък с променливи, включени в анализа. Поради тази причина взаимнокорелационните матрици са винаги квадратни, т.е. броят на редовете в тях е равен на броя на колоните, а симетричен, т.е. на симетрични места спрямо главния диагонал има едни и същи коефициенти на корелация.

Основната концепция на факторния анализ е фактор. Това е изкуствен статистически индикатор, който възниква в резултат на специални трансформации на таблицата на коефициентите на корелация между изследваните психологически характеристики или матрицата на интеркорелацията. Процедурата за извличане на фактори от интеркорелационната матрица се нарича матрична факторизация. В резултат на факторизацията от корелационната матрица може да се извлече различен брой фактори, до число, равно на броя на изходните променливи. Въпреки това, факторите, идентифицирани в резултат на факторизацията, по правило са нееднакви по значение. (5)

Идентифицираните фактори обясняват взаимозависимостта на психологическите явления. (7)

Най-често в резултат на факторен анализ се определя не един, а няколко фактора, които по различни начини обясняват взаимнокорелационната матрица на променливите. В този случай факторите се делят на общи, общи и индивидуални фактори. Общи фактори са тези фактори, чиито факториални натоварвания се различават значително от нула (нулево натоварване показва, че тази променлива по никакъв начин не е свързана с другите и не оказва никакво влияние върху тях в живота). Общите фактори са фактори, за които някои от факторните натоварвания са различни от нула. Единичните фактори са фактори, при които само един от натоварванията се различава значително от нула. (7)

Факторният анализ може да е подходящ, ако са изпълнени следните критерии.

1. Невъзможно е да се факторизират качествените данни, получени от скалата на имената, например, като цвят на косата (черен / кафяв / червен) и т.н.

2. Всички променливи трябва да са независими и тяхното разпределение трябва да е близко до нормалното.

3. Връзките между променливите трябва да са приблизително линейни или поне да не са ясно криволинейни.

4. Оригиналната корелационна матрица трябва да има няколко корелации в абсолютна стойност над 0,3. В противен случай е доста трудно да се извлекат каквито и да било фактори от матрицата.

5. Извадката от субекти трябва да е достатъчно голяма. Експертните съвети са различни. Най-строгата гледна точка препоръчва да не се използва факторен анализ, ако броят на субектите е по-малък от 100, тъй като стандартните грешки на корелацията в този случай ще бъдат твърде големи.

Въпреки това, ако факторите са добре дефинирани (например с натоварвания от 0,7 вместо 0,3), експериментаторът се нуждае от по-малка проба, за да ги изолира. Освен това, ако е известно, че получените данни са много надеждни (например се използват валидни тестове), тогава данните могат да бъдат анализирани за по-малък брой субекти. (5).

2.4 Иизползвайки факторен анализ

Факторният анализ се използва широко в психологията в различни посоки, свързани с решаването както на теоретични, така и на практически проблеми.

В теоретичен план използването на факторния анализ е свързано с развитието на така наречения факторно-аналитичен подход за изследване на структурата на личността, темперамента и способностите. Използването на факторен анализ в тези области се основава на общоприетото предположение, че наблюдаваните и директно измерими показатели са само косвени и/или частични външни прояви на по-общи характеристики. Тези характеристики, за разлика от първите, са скрити, така наречените латентни променливи, тъй като те са концепции или конструкции, които не са достъпни за директно измерване. Те обаче могат да бъдат установени чрез факториране на корелациите между наблюдаваните характеристики и идентифициране на фактори, които (при условие, че структурата е добра) могат да се интерпретират като статистически израз на желаната латентна променлива.

Въпреки че факторите са чисто математически по природа, се приема, че представляват скрити променливи (теоретично постулирани конструкции или концепции), следователно имената на факторите често отразяват същността на хипотетичния конструкт, който се изследва.

В момента факторният анализ се използва широко в диференциалната психология и психодиагностиката. С негова помощ можете да разработите тестове, да установите структурата на връзките между индивидуалните психологически характеристики, измерени чрез набор от тестове или тестови елементи.

Факторният анализ се използва и за стандартизиране на тестовите методи, който се извършва върху представителна извадка от субекти.

Заключение

Ако данните, получени в експеримента, са от качествен характер, то правилността на изводите, направени въз основа на техните заключения, зависи изцяло от интуицията, ерудицията и професионализма на изследователя, както и от логиката на неговите разсъждения. Ако тези данни са от количествен тип, тогава първо извършват своята първична, а след това вторична статистическа обработка. Първичната статистическа обработка се състои в определяне на необходимия брой елементарни математически статистики. Такава обработка почти винаги включва най-малкото определяне на средна извадка. В случаите, когато разпространението на относителните средни данни е информативен индикатор за експерименталната проверка на предложените хипотези, се изчислява дисперсията или стандартното отклонение. Препоръчително е да се изчисли стойността на медианата, когато се предполага да се използват методи за вторична статистическа обработка, изчислени по нормално разпределение.За този вид разпределение на извадковите данни, медианата, както и режимът, съвпадат или са достатъчно близки до средната стойност. Този критерий може да се използва, за да се прецени грубо естеството на полученото разпределение на първичните данни.

Вторична статистическа обработка (сравнение на средни, дисперсии, разпределения на данните, регресионен анализ, корелационен анализ, факторен анализ и др.) се извършва, ако за решаване на проблеми или доказване на предложените хипотези е необходимо да се определят скрити статистически модели в първичните експериментални данни. Когато започва вторична статистическа обработка, изследователят първо трябва да реши коя от различните вторични статистически данни да използва за обработка на първичните експериментални данни. Решението се взема въз основа на отчитането на естеството на проверяваната хипотеза и естеството на първичния материал, получен в резултат на експеримента. Ето някои препоръки в това отношение.

Препоръка 1. Ако експерименталната хипотеза съдържа допускането, че в резултат на психолого-педагогическото изследване показателите за всяко качество ще се повишат (или намалеят), тогава се препоръчва да се използва критерият на Студент или критерия ch2 за сравнение на пред. - и следекспериментални данни. Последното се отнася, ако първичните експериментални данни са относителни и изразени, например, като процент.

Препоръка 2. Ако експериментално проверена хипотеза включва твърдение за причинно-следствена връзка между някои променливи, тогава е препоръчително да се тества чрез позоваване на коефициентите на линейна или рангова корелация. Линейната корелация се използва, когато независимите и зависими променливи се измерват с помощта на интервална скала и промените в тези променливи преди и след експеримента са малки. Ранговата корелация се отнася, когато е достатъчно да се оценят промените в реда на последователност от гледна точка на независими и зависими променливи, или когато промените им са достатъчно големи, или когато измервателният инструмент е бил ординален, а не интервален.

Препоръка 3. Понякога хипотезата включва допускането, че в резултат на експеримента индивидуалните различия между субектите ще се увеличат или намаляват. Това предположение е добре проверено с помощта на теста на Фишер, който позволява да се сравняват дисперсии преди и след експеримента. Имайте предвид, че с помощта на критерия на Фишер може да се работи само с абсолютни стойности на индикаторите, но не и с техните рангове.

Публикувано на Allbest.ru

...

Подобни документи

    Основни техники и методи за обработка и анализ на статистически данни. Изчисляване на средни аритметични, хармонични и геометрични стойности. Разпределителни серии, техните основни характеристики. Техники за подравняване близо до динамика. Система от национални сметки.

    курсова работа, добавена на 24.10.2014

    Концепцията за икономическия анализ като наука, неговата същност, предмет, обща характеристика на методите и социално-икономическа ефективност. Основните групи иконометрични методи за анализ и обработка на данни. Факторен анализ на икономическите данни на предприятието.

    резюме, добавено на 04.03.2010

    Средно аритметично на извадката, дисперсия, стандартно отклонение. Отхвърляне по критерия на Шовине. Правилото на трите сигма. Оценка на значимостта на разликата между средните стойности на двете проби. Сдвоени, множествени регресионни анализи. Пълен факторен анализ.

    курсова работа, добавена на 12/05/2012

    Прилагане на различни методи за представяне и обработка на статистически данни. Пространствени статистически извадки. Регресия и корелация по двойки. Времеви серии. Изграждане на тенденция. Практически примери и методи за решаването им, формули и тяхното значение.

    лекционен курс, добавен на 26.02.2009

    Статистическа обработка на резултатите от измерването; средноаритметично, квадратично, дисперсия. Определяне на параметрите на извадката: три сигма закон, хистограма, контролни карти, диаграма на Ишикава. Използването на качествени инструменти при производството на дивани.

    курсова работа, добавена на 17.10.2014

    Средна стойност в статистиката, нейната същност и условия за използване. Видове и форми на средните стойности: според наличието на атрибута-тежест, според формата на изчисление, според обхвата на популацията. Мода, медиана. Статистическо изследване на динамиката на печалбата и рентабилността на примера на OJSC "Bashmebel".

    тест, добавен на 14.06.2008

    Принципите на обработка на статистически данни, методи и техники, използвани в този процес. Методология и основни етапи на конструиране на контролни карти, тяхната класификация и видове, функционални характеристики, идентифициране на предимствата и недостатъците на употреба.

    курсова работа, добавена на 23.08.2014

    Изчисляване на числени характеристики и обработка на резултатите от извадкови наблюдения. Изчисляване и анализ на статистически показатели в икономиката. Национално богатство: елементи, оценка; баланс на активи и пасиви; ДМА, показатели за оборотни средства.

    курсова работа, добавена на 25.12.2012

    Описателна статистика и статистически изводи. Методи за подбор, за да се гарантира, че извадката е представителна. Влиянието на вида на извадката върху големината на грешката. Задачи при прилагане на извадковия метод. Разпространение на данни от наблюдения сред общото население.

    тест, добавен на 27.02.2011

    Разкриване на понятието: интервална скала, средноаритметично ниво, ниво на статистическа значимост. Как да тълкуваме модата, средната и средната. Решаване на проблеми с помощта на критерия Фридман, Розенбаум. Изчисляване на коефициента на корелация на Спримен.

Методи за статистическа обработка на резултатите от експеримент са математически техники, формули, методи за количествени изчисления, с помощта на които показателите, получени по време на експеримента, могат да бъдат обобщени, приведени в система, разкриваща скритите в тях закони.

Говорим за такива закономерности от статистическо естество, които съществуват между изследваните в експеримента променливи.

Данни Основните елементи, които трябва да бъдат класифицирани или категоризирани за обработка 26.

Някои от методите за математически и статистически анализ позволяват изчисляване на така наречените елементарни математически статистики, характеризиращи извадковото разпределение на данните, например:

Примерно средно,

Дисперсия на извадката,

Медиана и редица други.

Други методи на математическата статистика позволяват да се прецени динамиката на промените в отделните статистики на извадката, например:

анализ на дисперсията,

Регресионен анализ.

С помощта на третата група методи на извадкови данни може надеждно да се прецени статистическите връзки, които съществуват между променливите, които се изследват в този експеримент:

Корелационен анализ;

Факторен анализ;

Методи за сравнение.

Всички методи за математически и статистически анализ са условно разделени на първични и вторични 27.

Методите, които могат да се използват за получаване на индикатори, които пряко отразяват резултатите от измерванията, направени в експеримент, се наричат ​​първични методи.

Наричат ​​се вторични методи на статистическа обработка, с помощта на които на базата на първични данни се разкриват скрити в тях статистически закономерности.

Основните методи за статистическа обработка включват например:

Определяне на средната стойност на извадката;

Селективна дисперсия;

Селективна мода;

Средна извадка.

Вторичните методи обикновено включват:

Корелационен анализ;

Регресионен анализ;

Методи за сравняване на първична статистика за две или повече извадки.

Помислете за методите за изчисляване на елементарни математически статистики, като се започне със средната стойност на извадката.

Средноаритметично - това е съотношението на сумата от всички стойности на данните към броя на термините 28.

Средната стойност като статистически показател е средната оценка на психологическото качество, изследвано в експеримента.

Тази оценка характеризира степента на неговото развитие като цяло в тази група субекти, която е била подложена на психодиагностично изследване. Сравнявайки директно средните стойности на две или повече проби, можем да преценим относителната степен на развитие на хората, съставляващи тези проби, оценено качество.

Средната извадка се определя по следната формула 29:

където x cf е извадковата средна или средната аритметична стойност на извадката;

n - броят на субектите в извадката или частните психодиагностични показатели, въз основа на които се изчислява средната стойност;

x k - конкретни стойности на показателите за отделни предмети. Има общо n такива индикатора, следователно индексът k на тази променлива приема стойности от 1 до n;

∑ - приет в математиката знак за сумиране на стойностите на онези променливи, които са вдясно от този знак.

Дисперсия Това е мярка за дисперсията на данните около средната стойност от 30.

Колкото по-голяма е дисперсията, толкова по-голямо е отклонението или разсейването в данните. Определя се, за да може да се разграничат една от друга стойности, които имат една и съща средна стойност, но различно разсейване.

Дисперсията се определя по следната формула:

където е дисперсията на извадката или просто дисперсия;

Израз, който означава, че за всички x k от първото до последното в дадена извадка е необходимо да се изчислят разликите между частните и средните стойности, да се квадратурат тези разлики и да се сумират;

n е броят на субектите в извадката или първичните стойности, за които се изчислява дисперсията.

Медиана се нарича стойността на изследваната черта, която разделя извадката, подредена по стойността на дадения признак, наполовина.

Познаването на медианата е полезно за определяне дали разпределението на конкретните стойности на изследваната черта е симетрично и се доближава до така нареченото нормално разпределение. Средната и медианата за нормалното разпределение обикновено съвпадат или се различават много малко една от друга.

Ако извадковото разпределение на характеристиките е нормално, тогава към него могат да се приложат методи за вторични статистически изчисления, базирани на нормалното разпределение на данните. В противен случай това не може да се направи, тъй като в изчисленията могат да се промъкнат сериозни грешки.

мода още една елементарна математическа статистика и характеристики на разпределението на експерименталните данни. Модата е количествената стойност на изследваната черта, която най-често се среща в извадката.

За симетричните разпределения на характеристиките, включително нормалното разпределение, стойностите на режима съвпадат със средните и средните стойности. За други видове разпределения, асиметрични, това не е типично.

Методът на вторичната статистическа обработка, чрез който се изяснява връзката или пряката връзка между две серии от експериментални данни, се нарича метод за корелационен анализ. Показва как едно явление засяга друго или е свързано с него в неговата динамика. Този вид връзка съществува например между количества, които са в причинно-следствена връзка помежду си. Ако се окаже, че две явления статистически надеждно корелират едно с друго и ако в същото време има увереност, че едно от тях може да действа като причина за другото явление, тогава това определено предполага заключението, че между тях съществува причинно-следствена връзка .

Има няколко варианта на този метод:

Линейният корелационен анализ ви позволява да установите директни връзки между променливите по техните абсолютни стойности. Тези връзки са графично изразени като права линия, откъдето идва и името "линейни".

Коефициентът на линейна корелация се определя по следната формула 31:

където r xy - коефициент на линейна корелация;

x, y -средни извадкови стойности на сравнените стойности;

NS и , при и - частични извадкови стойности на сравняваните стойности;

NS -общият брой стойности в сравняваната серия от показатели;

Дисперсия, отклонения на сравняваните стойности от средните стойности.

Ранговата корелация определя зависимостта не между абсолютните стойности на променливите, а между редовите места или ранговете, заети от тях по порядък на величина. Формулата за коефициента на корелация на ранга е 32:

където R s е коефициентът на корелация на ранга на Спиърман;

д и - разликата между ранговете на показателите на едни и същи предмети в подредени редове;

NS -броят на субектите или цифровите данни (ранговете) в корелираните серии.

Атюшева Анна

В работата, използвайки примера за обработка на данни за напредъка на учениците от 7. клас, се разглеждат основните статистически характеристики, извършва се събирането и групирането на статистически данни, ясно е представена статистическата информация и анализът на получените данни е извършено.

Работата съдържа придружаваща презентация.

Изтегли:

Визуализация:

Общинско автономно учебно заведение "Гимназия №24"

XXII научна конференция MAGNI

Статистическа обработка на данни

МАОУ "Гимназия №24" Атюшева Анна

Консултант: учител по математика

Щетинина Наталия Сергеевна

Магадан, 2016 г

Въведение ……………………………………………………………………………………………………………… 3

  1. Основни понятия, използвани при обработката на статистически данни ……………………………… .5
  2. Изследователска част …………………………………………………………………… ................................. ..... 7

2.1.Статистическа обработка на данни за напредъка на учениците в 7 „В” клас ………………… ..7

2.2 Визуално представяне на данни с помощта на хистограми ……………………………………………………………………………………………………………… 18

2.3. Сравнителна характеристика на учебната дейност на учениците според резултатите от 1-во и 2-ро тримесечие ................................ ................................. 21

2.4. Анализ на анкетната анкета на ученици от 7 "В" клас за родителски контрол върху напредъка на децата ................................ ................................ 23

Заключение ……………………………………………………………………………………………………………… ... 27

Литература …………………………………………………………………………………………………………… 28

Въведение

Всеки от нас, отваряйки книга или вестник, включвайки телевизора или стигайки до гарата, постоянно се сблъсква с таблична форма на представяне на информация. Това са разписанието на уроците, разписанието на влаковете, таблицата за умножение и много други. Цялата информация е представена под формата на диаграми или графики.

Трябва да можете да обработвате и анализирате такава информация. Без обработка на данни, сравнение на събития е невъзможно да се проследи развитието на конкретен проблем.

В хода на алгебрата изучавахме статистически характеристики, които се използват широко в различни изследвания. Интересува ме практическото приложение на изучаваните характеристики и възможността да обработвам данните, така че представената информация ясно да определи хода на развитие на конкретен проблем и като следствие резултата от неговото решение. Като такъв проблем реших да разглеждам представянето на моя клас през тримесечията на първата половина на годината.

Област на изследване на обекта- алгебра

Обект на изследване- статистически характеристики

Предмет на изследване- успеваемост на 7 ученици от "В" клас през тримесечия на първото полугодие

Хипотеза: Вярваме, че използвайки примера за обработка на данни за представянето на ученици от 7В клас, ние не само ще се запознаем с основните статистически характеристики, но и ще научим сами:

  • събиране и групиране на статистически данни;
  • визуално представена статистическа информация;
  • анализирайте получените данни.

Цел: научете се да обработвате, анализирате и визуализирате наличната информация.

задачи:

  • изучаване на статистически характеристики;
  • събира информация за представянето на учениците в 7 клас по тримесечия

първата половина на годината;

  • информация за процеса;
  • извършват визуално представяне на информация с помощта на хистограми;
  • анализирайте получените данни, направете подходящи заключения.

Основни понятия, използвани при обработката на статистически данни

Статистиката е наука, която се занимава с получаване, обработка и анализ на количествени данни за различни масови явления, случващи се в природата и обществото. Думата „статистика“ идва от латинската дума „status“, което означава „състояние, състояние на нещата“.

Най-простите статистически характеристики са средноаритметично, медиана, диапазон, режим.

  • Средноаритметичнопоредица от числа се нарича частно от разделянето на сбора от тези числа на броя на членовете. Обикновено средноаритметичната стойност се намира, когато искат да определят средната стойност за определена серия от данни: среден добив на пшеница от 1 хектар в региона, средна продукция на един работен екип на смяна, среден резултат от сертификата, средната температура на въздуха по обяд през това десетилетие и др.
  • Медиана подредена поредица от числа с нечетен брой членове е числото, изписано в средата, а медианата на подредена серия от числа с четен брой членове е средноаритметичната стойност на две числа, записани в средата. Имайте предвид, че е по-удобно и по-бързо да се работи с числови серии, ако е поръчан, т.е. ред, в който всяко следващо число е не по-малко (или не повече) от предишното.
  • мода поредица от числа се нарича числото, което се среща най-често в дадена серия. Редица номера могат да имат повече от един мод или изобщо да нямат мод. Режимът на серия от данни обикновено се намира, когато човек иска да идентифицира някакъв типичен индикатор. Обърнете внимание, че средноаритметичната стойност на поредица от числа може да не съвпада с нито едно от тези числа, а режимът, ако съществува, задължително трябва да съвпада с две или повече числа в серията. Освен това, за разлика от средното аритметично, понятието "режим" се отнася не само до числови данни.
  • В размах поредица от числа е разликата между най-голямото и най-малкото от тези числа. Обхватът на серия се намира, когато те искат да определят колко голямо е разпространението на данните в серия.

Нека покажем дефиницията на всяка от характеристиките, като използваме примера на поредица от числа: 47,46,52,47,52,47,52,49,45,43,53,53,47,52.

Средноаритметично 48,7.

Намира се така: определяме сбора от числата и го разделяме на техния брой.

(47+46+52+47+52+47+52+49+45+43+53+53+47+52):14=48,7.

Медиана от тази серия от числа ще бъде числото 48.

Намира се така: поръчваме серия от числа, като избираме това, което е в средата. Ако броят на числата е четен, тогава намираме средноаритметичната стойност на двете в средата на редицата от числа.

43,45,46,47,47,47, 47,49 ,52,52,52,52,53,53

(47+49):2=48

мода от тази серия от числа ще бъдат числата 47 и 52 ... Тези числа се повтарят най-често.

47 ,46, 52 , 47 , 52 , 47 , 52 ,49,45,43,53,53, 47 , 52 .

В размах от тази серия от числа ще бъде 10.

Намира се така: изберете най-голямото и най-малкото число от поредицата и намерете разликата между тези числа.

47,46,52,47,52,47,52,49,45, 43, 53 ,53,47,52

53-43=10

Изследователска част

Статистическа обработка на данни за представянето на учениците от 7 "В" клас

Нека да преминем към обработката на информацията. Нека направим таблици за всеки от предметите, състоящи се от три реда, първият ще съдържа серия от данни. Всеки вариант от тази серия действително е наблюдаван в пробата за определен брой пъти. Това число се нарича множественост на опциите. Така че нека поставим на втория ред кратността на съответната опция. Нека вземем таблицата за разпределение на извадката.

Ако съберем всички кратности, тогава получаваме броя на всички измервания, направени по време на извадката - размерът на извадката (В нашия случай това число е 24, което съответства на броя на учениците в класа).

В третия ред съотношението, изразено като процент, се нарича честота на опциите.

Опции за честота =

Като цяло, ако се състави таблица на относителните честоти въз основа на резултатите от изследването, тогава сумата от относителните честоти е 100%.

тримесечия

Руски език.

Нека сортираме примерните данни (маркировки): 3,3,3,3,3,3,3,3,3,3,3,3,3,3,4,4,4,4,4,4,4 ,4 , 4.5.

Среден резултат по темата:(средно аритметично).

Таблица за разпределение на честотите

Вариант

Опции за множественост

Не

Честота%

58.3%

37.5%

4.2%

литература.

Нека сортираме данните на извадката (маркировки): 3,3,3,3,3,3,3,3,3,4,4,4,4,4,4,4,4,4,4,4 ,5,5,5 , 5.5.

Среден резултат по темата:(средно аритметично).

Опции за оценка

множественост

Не

Честота%

37.5%

41.7%

20.8%

алгебра.

Нека сортираме данните на извадката (марки): 3,3,3,3,3,3,3,3,3,3,3,4,4,4,4,4,4,4,4,4 ,4,4,4, 5.5.

Среден резултат по темата:(средно аритметично).

Най-голям брой ученици по предмета имат "4, 3" (мода)

Около половината от учениците на руски език учат на 4 (средно)

Опции за оценка

множественост

Не

Честота%

45.8%

45.8%

8.3%

История.

Нека сортираме данните на извадката (марки): 3,3,3,3,3,3,3,3,3,3,3,4,4,4,4,4,4,4,4,4 ,4,4,4 , 4.5

Среден резултат по темата:(средно аритметично).

Най-голям брой ученици по предмета имат "4" (мода)

Около половината от учениците на руски език учат на 4 (средно)

Опции за оценка

Множество

Не

Честота%

45.8%

4.2%

Социални проучвания.

Нека сортираме данните на извадката (марки): 3,3,3,3,3,3,3,3,3,4,4,4,4,4,4,4,4,4,4,4 ,5,5,5 , 5.5

Среден резултат по темата:(средно аритметично).

Най-голям брой ученици по предмета имат "4" (мода)

Около половината от учениците на руски език учат на 4 (средно)

Опции за оценка

Множество

Не

Честота%

37.5%

41.7%

20.8%

География.

Нека сортираме данните на извадката (маркировки): 3,3,3,3,3,4,4,4,4,4,4,4,4,4,4,4,5,5,5,5 ,5,5,5,5 ,5

Среден резултат по темата:(средно аритметично).

Най-голям брой ученици по предмета имат "4" (мода)

Около половината от учениците на руски език учат на 4 (средно)

Опции за оценка

Множество

Не

Честота%

20.8%

41.7%

37.5%

Физика.

Нека сортираме данните на извадката (марки): 3,3,3,3,3,3,3,3,3,4,4,4,4,4,4,4,4,4,4,4 ,4,4,4 , 4.5

Среден резултат по темата:(средно аритметично).

Най-голям брой ученици по предмета имат "4" (мода)

Около половината от учениците на руски език учат на 4 (средно)

Опции за оценка

Множество

Не

Честота%

37.5%

58.3%

4.2%

Биология.

Нека сортираме данните от извадката (марки): 3,3,3,3,3,3,4,4,4,4,4,4,4,4,4,4,4,4,5,5 ,5,5,5,5 ,5

Среден резултат по темата:(средно аритметично).

Най-голям брой ученици по предмета имат "4" (мода)

Около половината от учениците на руски език учат на 4 (средно)

Опции за оценка

Множество

Не

Честота%

45.8%

29.2%

ОСНОВИ НА БЕЗОПАСНОСТТА НА ЖИВОТА.

Нека сортираме данните на извадката (маркировки): 4,4,4,4,4,4.4.5,5,5,5,5,5,5,5,5,5,5,5,5,5 ,5,5,5 ,5

Среден резултат по темата:(средно аритметично).

Опции за оценка

Множество

Не

Не

Честота%

29.2%

70.8%

Нека сортираме данните на извадката (марки): 3,4,4,4.4,4,4,4,4,4,5,5,5,5,5,5,5,5,5,5,5,5,5 ,5,5

Среден резултат по темата:(средно аритметично).

Най-голям брой ученици по предмета имат "5" (мода)

Около половината от учениците на руски език учат на 5 (средно)

Опции за оценка

Множество

Не

Честота%

4.2%

37.5%

58.3%

Английски.

Нека сортираме данните на извадката (маркировки): 3,3,3,3,3,3,3,3,3,4,4,4,4,4,4,4,4,4,4,4 ,5,5,5,5 ,5

Среден резултат по темата:(средно аритметично).

Най-голям брой ученици по предмета имат "4" (мода)

Около половината от учениците на руски език учат на 4 (средно)

Опции за оценка

Множество

Не

Честота%

37.5%

41.7%

20.8%

Информатика.

Нека сортираме данните на извадката (маркировки): 3,4,4,4,4.4,4,4,4,4,4,4,4,4,4,5,5,5,5.5.5,5 ,5,5,5

Среден резултат по темата:(средно аритметично).

Най-голям брой ученици по предмета имат "4" (мода)

Около половината от учениците на руски език учат на 4 (средно)

Опции за оценка

Множество

Не

Честота%

4.2%

54.2%

41.7%

технология.

Нека сортираме данните на извадката (марки): 3,3,3,3,3,4,4,4,4,4,4,5,5,5,5,5,5,55,5,5 ,5,5,5

Среден резултат по темата:(средно аритметично).

Най-голям брой ученици по предмета имат "5" (мода)

Около половината от учениците по руски език учат на 4,5 (медиана)

Опции за оценка

Множество

Не

Честота%

20.8%

54.2%

Сега нека съберем подобна информация за резултатите от второто тримесечие.

Руски език.

Нека сортираме данните на извадката (маркировки): 3,3,3.3,3,3,3,3,3,3,4,4,4,4,4,4,4,4,4,4,4 ,4,4,4 ,4

Среден резултат по темата:(средно аритметично)

Най-голям брой ученици по предмета имат "4" (мода)

Около половината от учениците на руски език учат на 4 (средно)

Опции за оценка

множественост

Не

Не

Честота%

41.7%

58.3%

литература.

Нека сортираме данните на извадката (маркировки): 3,3,3,3,3,3,3,3,3,3,4,4,4,4,4,4,4,4,4,5 ,5,5,5 , 5.5

Среден резултат по темата:(средно аритметично)

Най-голям брой ученици по предмета имат "3" (мода)

Около половината от учениците по руски език учат 3 (средно)

Опции за оценка

множественост

Не

Честота%

41.7%

33.3%

алгебра.

Нека сортираме данните на извадката (марки): 3,3,3,3,3,3,3,3,3,3,3,3,4,4,4,4,4,4,4,4 ,4,4,5 , 5.5

Среден резултат по темата:(средно аритметично)

Най-голям брой ученици по предмета имат "3" (мода)

Около половината от учениците по руски език учат 3 (средно)

Опции за оценка

множественост

Не

Честота%

37.5%

12.5%

История.

Нека сортираме данните на извадката (марки): 3,3,3,3,3,3,3,3,3,4.4,4,4,4,4,4,4,4,4,4,4 ,4,4,4 ,5

Среден резултат по темата:(средно аритметично)

Най-голям брой ученици по предмета имат "4" (мода)

Около половината от учениците на руски език учат на 4 (средно)

Опции за оценка

Множество

Не

Честота%

37.5%

58.3%

4.2%

обществото.

Нека сортираме данните на извадката (маркировки): 3,3,3,3,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4 ,4,4,5 , 5.5

Среден резултат по темата:(средно аритметично)

Най-голям брой ученици по предмета имат "4" (мода)

Около половината от учениците на руски език учат на 4 (средно)

Опции за оценка

Множество

Не

Честота%

16.7%

70.8%

12.5%

География.

Нека сортираме данните на извадката (марки): 3,3,3,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,5,5 ,5,5,5 , 5.5

Среден резултат по темата:(средно аритметично)

Най-голям брой ученици по предмета имат "4" (мода)

Около половината от учениците на руски език учат на 4 (средно)

Опции за оценка

Множество

Не

Честота%

12.5%

58.3%

29.2%

Физика.

Нека сортираме данните на извадката (маркировки): 3,3,3,3,3,3,3,3,4,4,4,4,4,4,4,4,4,4,4,4 ,44,5,5 ,5

Среден резултат по темата:(средно аритметично)

Най-голям брой ученици по предмета имат "4" (мода)

Около половината от учениците на руски език учат на 4 (средно)

Опции за оценка

Множество

Не

Честота%

33.3%

16.7%

12.5%

Биология.

Нека сортираме данните на извадката (маркировки): 3,3,3,4,4,4,4,4,4,4.4,4,4,4,4,4,4,4,5,5,5 ,5,5 ,5

Среден резултат по темата:(средно аритметично)

Най-голям брой ученици по предмета имат "4" (мода)

Около половината от учениците на руски език учат на 4 (средно)

Опции за оценка

Множество

Не

Честота%

12.5%

62.5%

ОСНОВИ НА БЕЗОПАСНОСТТА НА ЖИВОТА.

Нека сортираме данните на извадката (марки): 3,4,4,5,5,5,5,5.5,5,5,5,5,5,5,5,5,5,5,5,5 ,5,5,5 ,5

Среден резултат по темата:(средно аритметично)

Най-голям брой ученици по предмета имат "5" (мода)

Около половината от учениците на руски език учат на 5 (средно)

Опции за оценка

Множество

Не

Честота%

4.2%

8.3%

87.5%

История и общество на родния край.

Нека сортираме данните от извадката (марки): 3,3,3,4,4,4,4,4,4,4,4,4,4,4,4,5,5,5,5,5 ,5,5,5 , 5.5

Среден резултат по темата:(средно аритметично)

Най-голям брой ученици по предмета имат "4" (мода)

Около половината от учениците на руски език учат на 4 (средно)

Опции за оценка

Множество

Не

Честота%

12.5%

45.8%

41.7%

Английски.

Среден резултат по темата:(средно аритметично)

Най-голям брой ученици по предмета имат "4" (мода)

Около половината от учениците на руски език учат на 4 (средно)

Опции за оценка

Множество

Не

Честота%

20.8%

29.2%

Информатика.

Нека сортираме данните на извадката (марки): 3,3,3,3,3,4,4,4,4,4,4,4,4,4,4,4,4,4,5,5 ,5,5,5 , 5.5

Среден резултат по темата:(средно аритметично)

Най-голям брой ученици по предмета имат "4" (мода)

Около половината от учениците на руски език учат на 4 (средно)

Опции за оценка

Множество

Не

Честота%

20.8%

29.2%

технология.

Нека сортираме данните на извадката (маркировки): 3,4,4,4,4,4,4,4,5,5,5,5,5,5,5,5,5,5,5,5 ,5,5,5 , 5.5

Среден резултат по темата:(средно аритметично)

Най-голям брой ученици по предмета имат "5" (мода)

Около половината от учениците на руски език учат на 4 (средно)

Опции за оценка

Множество

Не

Честота%

4.2%

29.2%

66.7%

Визуализация на данни с хистограми

За визуално представяне на данните, получени в резултат на статистически изследвания, широко се използват различни методи за тяхното представяне.

Ще използваме хистограми за яснота на данните. Хистограмата е стъпаловидна форма, съставена от затворени правоъгълници. Основата на всеки правоъгълник е равна на дължината на интервала, а височината е равна на кратните на варианта или относителната честота. Така в хистограмата, за разлика от конвенционалната лентова диаграма, основите на правоъгълника не се избират произволно, а са строго определени от дължината на интервала.

Сравнителна характеристика на представянето на учениците по учебните предмети от първата четвърт

Сравнителна характеристика на представянето на учениците по учебните предмети от второто тримесечие

заключения

Според резултатите от първото тримесечие ясно се вижда, че е най-трудно за учениците да се справят с предмети като: руски език и алгебра, предмети, за които "три" е оценка, която е приоритетна спрямо други оценки. Това означава, че качеството по тези предмети е по-ниско, отколкото при другите.

Ясно е също, че високото ниво на тройки по предмети като литература, история, общество, физика, английски език. Тъжно е и да има тройки по предмети като технология, биология, география.

Според резултатите от второто тримесечие броят на тройките и петиците значително намаля, тоест учениците разпределиха силите си по всички предмети, а не по отделно предпочитани.

Хистограма на разпределението на средния резултат по предметите от първото тримесечие

Хистограма на разпределението на средния резултат по предметите от второто тримесечие

Изход

За да създадем тези диаграми, използвахме такава статистическа характеристика като средноаритметично. Ясно се вижда, че през второто тримесечие знанията по руския език, историята и обществото на родната земя, компютърните науки се влошиха. Подобрен по история, общество, физика, биология, безопасност на живота, английски език. Но в същото време диаграмите показват, че по-съществени промени към по-добро са настъпили само във физиката и английския език.

Сравнителна характеристика на учебната дейност на учениците според резултатите от първото и второто тримесечие

Хистограма на качеството на знанията по предметите от първото тримесечие

Хистограма на качеството на знанията по предметите от второто тримесечие

Чрез комбиниране на двете хистограми в една, е много по-лесно да се види картината на представянето на класа в сравнение. И поотделно е по-лесно да се види за кои предмети качеството е по-високо. Така например през първото тримесечие качеството е под 60% по предмети – алгебра, руски език, история, през второто – руски език, литература, алгебра, физика. Вече е ясно, че най-трудни за учениците са руският език, алгебрата. И процентът на качество по всички предмети не е много различен 66% - първото тримесечие, 68% - второто. Тоест скачащото качество по предметите, което ясно се вижда на диаграмата за сравнение, предполага, че учениците не се опитват особено да подобрят нивото си на знания и не заемат позиции в една или друга предметна област.

Диаграма, сравняваща всички артикули по качество за 1-во и 2-ро тримесечие

През второто тримесечие значително нарасна броят на добрите и отличниците по руски език, общество, биология, английски и технологии. Леко намалява броят на литературата, алгебрата, безопасността на живота, IORK и информатиката. И се вижда силен спад в качеството на физиката, което е свързано с неподготвеността на учениците за уроци.

И отново стигаме до извода, че децата учат „на скокове и граници“ и няма специални предпочитания в посоката на образованието (хуманитарни предмети, физика и математика, предмети от естествен цикъл).

Анализ на анкетната анкета на 7 ученици „Б” клас за родителски контрол върху напредъка на децата

Въз основа на резултатите от горното проучване решихме да проведем анкета сред ученици от 7 "В" клас за родителски контрол върху обучението на децата (въпросници, вижте Приложението)

Размерът на извадката е 22 души.

Родителите проверяват домашните

Изход

Почти една четвърт от учениците по този въпрос без родителски контрол, което разбира се се отразява на академичното им представяне.

Брой проверки на домашните на седмица

Медиана = 0,0,0,0,0,0,1,1,2,2,3,3,3,3,4,4,5,7,7,7,7,7 = (3 + 3 ): 2 = 3

Средно аритметично = 3

Изход

Средно заданието се проверява три пъти седмично. Като се има предвид спазматична крива на обучение, това не е достатъчно.

Медиана = 0,0,0,0,1,1,1,1,1,2,2,2,2,2,2,2,3,3,3,3,3,5,5,6, 7, 7,7 = (2 + 2): 2 = 2

Средно аритметично = 3 (средно дневниците се проверяват от родителите 3 пъти седмично)

Времето, което учениците прекарват в домашна работа

Варианти

По-малко от 1

Честота%

  • Завъртане R = x (макс.) - x (мин.) = 3,5 - 0,5 = 3 часа

(характеризира големината на разсейването на наблюдаваните стойности, т.е. показва разликата между най-дългото и най-краткото време)

  • Режим M (0) = 2,5 часа ( показва стойността, която се среща по-често от другите, т.е. показва времето, което учениците прекарват най-често)

Хистограма на времето, прекарано на учениците за домашна работа

Изход

Средно домашните отнемат 2,5 часа на ден. Какво се счита за нормален показател за възрастта на учениците.

Заключение

В резултат на извършената работа се научих да обработвам и анализирам наличната информация

Познаването на статистическите характеристики ми помогна да определя GPA по различни предмети, както и модата и обхвата в онези показатели за изпълнение, където изглежда невъзможно да ги определя. Без обработка на данни, сравнение на събития е невъзможно да се проследи развитието на конкретен проблем. Опитахме се не само да проследим възникналия проблем - влошаването на качеството на знанията и академичните постижения по предмети, но и да се опитаме да открием причината, която според нас се крие в недостатъчния родителски контрол върху академичното представяне на децата им. Проучването на въпросника и резултатите от академичното представяне показват, че учениците от 7 "В" клас нямат достатъчно умения за самоконтрол върху обучението си, а родителите вярват обратното.

Свършената работа смятам, че ще бъде полезна както за класния ръководител в работата с родителите, така и за моите съученици, за да подобрят резултатите си по отделните предмети в бъдеще.

Статистиката е наука, която изучава, обработва и анализира количествени данни за голямо разнообразие от масови явления в живота. Само малко разкрихме характеристиките му за себе си, а предстои още много неизвестно и интересно.

Библиография:

  1. http://www.nado5.ru/e-book/naibolshii-obzchii-delitel
    Визуализация:

    За да използвате визуализацията на презентации, създайте си акаунт в Google (акаунт) и влезте в него: https://accounts.google.com


    Надписи на слайдове:

    Обработка на статистически данни Изготвил: ученичка от 7 клас "В" на МАОУ "Гимназия № 24" Анна Атюшева Консултант: учител по математика Наталия Сергеевна Щетинина

    Цел: научете се да обработвате, анализирате и визуализирате наличната информация. Цели: изучаване на статистически характеристики; събира информация за напредъка на учениците от 7 клас през тримесечието на първото полугодие; информация за процеса; извършват визуално представяне на информация с помощта на хистограми; анализирайте получените данни, правете подходящи заключения.

    Една хипотеза, използваща примера за обработка на данни за представянето на учениците, можете не само да се запознаете с основните статистически характеристики, но и да научите как да събирате и групирате статистически данни; визуално представена статистическа информация; анализирайте получените данни.

    Статистиката е наука, която се занимава с получаване, обработка и анализ на количествени данни за различни масови явления, срещащи се в природата и обществото. Думата „статистика“ идва от латинската дума „status“, което означава „състояние, състояние на нещата“. Най-прости статистически характеристики: Средноаритметично Средно аритметично Средно на обхвата

    Определяне на всяка от характеристиките с помощта на примера на поредица от числа: 47,46,52,47,52,47,52,49,45,43,53,53,47,52. Средноаритметичната стойност на тази серия от числа ще бъде числото 48,7. (47 + 46 + 52 + 47 + 52 + 47 + 52 + 49 + 45 + 43 + 53 + 53 + 47 + 52): 14 = 48,7. Медианата на тази серия от числа ще бъде числото 48.43,45,46,47,47,47, 47, 49, 52,52,52,52,53,53 (47 + 49): 2 = 48 Режимът на тази серия от числа ще бъдат числата 47 и 52. 47, 46, 52, 47, 52, 47, 52, 49,45,43,53,53, 47, 52. Обхватът на тази серия от числа ще бъде 10. 47,46,52,47,52,47 ,52, 49,45, 43, 53, 53,47,52 53-43 = 10

    Проблеми с академичното представяне в 7 "В" клас

    Вариант 2 3 4 5 Честота без опции 14 9 1 Честота% 0% 58,3% 37,5% 4,2% Руски език. Нека сортираме примерните данни (маркировки): 3,3,3,3,3,3,3,3,3,3,3,3,3,3,4,4,4,4,4,4,4 ,4 , 4.5. Среден резултат по предмета: 14 ∙ 3 + 9 ∙ 4 + 5 ∙ 124 = 8324≈3,5 (средно аритметично). Най-голям брой ученици по предмета имат "3" (мода) Приблизително половината от учениците по руски език учат на 3 (средно)

    За визуално представяне на данните, получени в резултат на статистически изследвания, широко се използват различни методи за тяхното представяне.

    Сравнителна характеристика на представянето на учениците по учебните предмети от първото тримесечие

    Сравнителна характеристика на представянето на учениците по предмети от второто тримесечие

    Хистограма на разпределението на средния резултат по предметите от I и II тримесечие

    Сравнителна таблица на всички предмети по качество за I и II тримесечие

    Анкетиране на ученици от 7 "Б" клас по темата родителски контрол върху обучението на децата ВЪПРОСНИК 1. Родителите ви проверяват ли домашните ви? ___________________________________________________________ 2. Колко пъти седмично? ___________________________________________________________ 3. Колко пъти седмично родителите ти преглеждат дневника ти? ___________________________________________________________ 4. Колко време отделяте средно всеки ден, за да си пишете домашното? _______________________________________________________________

    Родителите проверяват домашните

    Брой проверки на домашните на седмица Медиана = 0.0.0.0.0.0.1.1.2.2.3.3.3.3.4.4.5.7.7.7.7, 7 = (3 + 3): 2 = 3 Средно аритметично = 3

    Хистограма на времето, прекарано на учениците за домашна работа