Перевірка гіпотези щодо незалежності логарифмічної прибутковості. Перевірка простих гіпотез критерієм хі-квадрат Пірсона в MS EXCEL 2 критерію

лекція 6. Аналіз двох вибірок

6.1 Параметричні критерії. 1

6.1.2 Критерій Стьюдента ( t-критерій) 2

6.1.3 F – критерій Фішера. 6

6.2 Непараметричні критерії. 7

6.2.1 Критерій знаків ( G-критерій) 7

Наступним завданням статистичного аналізу, що вирішується після визначення основних (вибіркових) характеристик та аналізу однієї вибірки, є спільний аналіз кількох вибірок. Найважливішим питанням, що виникає при аналізі двох вибірок, є наявність різниці між вибірками. Зазвичай при цьому проводять перевірку статистичних гіпотез про належність обох вибірок однієї генеральної сукупності чи рівність середніх.

Якщо вид розподілу чи функція розподілу вибірки нам задані, то цьому випадку завдання оцінки відмінностей двох груп незалежних спостережень може вирішуватися з використанням параметричних критеріївстатистики: або критерію Стьюдента ( t ), якщо порівняння вибірок ведеться за середніми значеннями ( X та У), або з використанням критерію Фішера ( F ), якщо порівняння вибірок ведеться з їхньої дисперсіям.

Використання параметричних критеріїв статистики без попередньої перевірки виду розподілу може призвести до певних помилокпід час перевірки робочої гіпотези.

Для подолання зазначених труднощів у практиці педагогічних досліджень слід використати непараметричні критерії статистики , такі, як критерій знаків, двовибірковий критерій Вілкоксона, критерій Ван дер Вардена, критерій Спірмена, вибір яких, хоч і не вимагає великої кількостічленів вибірки та знань, виду розподілу, але все ж таки залежить від цілого ряду умов.

Непараметричні критерії статистики - вільні від припущення закон розподілу вибірок і виходять з припущенні про незалежність спостережень.

6.1 Параметричні критерії

До групи параметричних критеріїв методів математичної статистики входять методи для обчислення описових статистик, побудови графіків на нормальність розподілу, перевірка гіпотез про належність двох вибірок однієї сукупності. Ці методи ґрунтуються на припущенні, що розподіл вибірок підпорядковується нормальному (гаусовому) закону розподілу. Серед параметричних критеріїв статистики нами буде розглянуто критерій Стьюдента та Фішера.

6.1.1 Методи перевірки вибірки на нормальність

Щоб визначити, чи маємо ми справу з нормальним розподілом, можна застосовувати такі методи:

1) у межах осей можна намалювати полігон частоти (емпіричну функцію розподілу) та криву нормального розподілуна основі даних дослідження. Досліджуючи форми кривої нормального розподілу та графіка емпіричної функції розподілу, можна з'ясувати ті параметри, якими остання крива відрізняється від першої;

2) обчислюється середнє, медіанаі мода та на основі цього визначається відхилення від нормального розподілу.Якщо мода, медіана та середнє арифметичне один від одного значно не відрізняються, ми маємо справу з нормальним розподілом. Якщо медіана значно відрізняється від середнього, то маємо справу з асиметричною вибіркою.

3) ексцес кривої розподілу повинен дорівнювати 0. Криві спозитивним ексцесом значно вертикальніший за криву нормального розподілу. Криві з негативним ексцесом є більш покатими порівняно з кривою нормального розподілу;

4) після визначення середнього значення розподілу частоти і стандартного відхилення знаходять наступні чотири інтервали розподілу порівнюють їх із дійсними даними ряду:

а) - до інтервалу має належати близько 25% частоти сукупності,

б) - до інтервалу має належати близько 50% частоти сукупності,

в) - до інтервалу має належати близько 75% частоти сукупності,

г) - до інтервалу має належати близько 100% частоти сукупності.

6.1.2 Критерій Стьюдента ( t-критерій)

Критерій дозволяє знайти ймовірність того, що обидва середні значення у вибірці відносяться до однієї і тієї ж сукупності. Цей критерій найчастіше використовується для перевірки гіпотези: «Середні дві вибірки відносяться до однієї і тієї ж сукупності».

При використанні критерію можна виділити два випадки. У першому випадку його застосовують для перевірки гіпотези про рівність генеральних середніх двох незалежних, непов'язанихвибірок (так званий двовибірковий t-критерій). У цьому випадку є контрольна група та експериментальна (дослідна) група, кількість випробуваних у групах може бути різною.

У другому випадку, коли одна і та ж група об'єктів породжує числовий матеріал для перевірки гіпотез про середні, використовується так званий парний t-критерій. Вибірки при цьому називають залежними, пов'язаними.

а) випадок незалежних вибірок

Статистика критерію для випадку непов'язаних, незалежних вибірок дорівнює:

де , - Середні арифметичні в експериментальній та контрольній групах,

Стандартна помилка різниці середніх арифметичних. Знаходиться з формули:

,(2)

де n 1 та n 2 відповідно величини першої та другої вибірки.

Якщо n 1 =n 2 то стандартна помилкарізниці середніх арифметичних буде вважатися за формулою:

(3)

де величина вибірки.

Підрахунок числа ступенів свободиздійснюється за формулою:

k = n 1 + n 2 - 2. (4)

За чисельної рівності вибірок k = 2 n - 2.

Далі необхідно порівняти отримане значення t емп з теоретичним значенням t-розподілу Стьюдента (див. Додаток до підручників статистики). Якщо t емп

Розглянемо приклад використання t -Крітерія Стьюдента для нескладних і нерівних за чисельністю вибірок

Приклад 1 .У двох групах учнів – експериментальної та контрольної – отримані наступні результати з навчального предмета (тестові бали; див. табл. 1).

Таблиця 1. Результати експерименту

Перша група (експериментальна) N 1 = 11 осіб

Друга група (контрольна)

N 2 = 9 осіб

121413161191315151814

Загальна кількість членів вибірки: n1=11, n2=9.

Розрахунок середніх арифметичних: Х СР = 13,636; Y ср =9,444

Стандартне відхилення: x =2,460; s y =2,186

За формулою (2) розраховуємо стандартну помилку різниці арифметичних середніх:

Вважаємо статистику критерію:

Порівнюємо отримане експериментально значення t з табличним значенням з урахуванням ступенів свободи, рівних за формулою (4) числу піддослідних мінус два (18).

Табличне значення t крит дорівнює 2,1 при допущенні можливості ризику зробити помилкове судження в п'яти випадках зі ста (рівень значущості = 5% або 0,05).

Якщо отримане експерименті емпіричне значення t перевищує табличне, тобто підстави прийняти альтернативну гіпотезу (H 1) у тому, що учні експериментальної групи показують у середньому вищий рівень знань. В експерименті t=3,981, табличне t=2,10, 3,981>2,10, звідки слідує висновок про перевагу експериментального навчання.

Тут можуть виникнути такі питання :

1. Що якщо отримане в досліді значення t виявиться меншим за табличний? Тоді треба прийняти нульову гіпотезу.

2. Чи доведено перевагу експериментального методу? Не так доведено, скільки показано, тому що з самого початку допускається ризик помилитися в п'яти випадках зі ста (р = 0,05). Наш експеримент міг бути одним із цих п'яти випадків. Але 95% можливих випадків каже на користь альтернативної гіпотези, а це досить переконливий аргумент у статистичному доказі.

3. Що якщо в контрольній групі результати виявляться вищими, ніж в експериментальній? Поміняємо, наприклад, місцями, зробивши середньої арифметичної експериментальної групи, а - контрольної:

Звідси випливає, що новий метод поки що не виявив себе з хорошого боку з різних, можливо, причин. Оскільки абсолютне значення 3,9811>2,1 приймається друга альтернативна гіпотеза (Н 2) про перевагу традиційного методу.

б) випадок пов'язаних (парних) вибірок

У разі пов'язаних вибірок з рівним числом вимірювань у кожній можна використовувати простішу формулу t-критерію Стьюдента.

Обчислення значення t здійснюється за такою формулою:

де - різниці між відповідними значеннями змінної X і змінної У, а d - середнє цих різниць;

Sd обчислюється за такою формулою:

(6)

Число ступенів свободи kвизначається за такою формулою k=n -1. Розглянемо приклад використання t-критерію Стьюдента для зв'язкових та, очевидно, рівних за чисельністю вибірок.

Якщо t емп

Приклад 2. Вивчався рівень орієнтації учнів на художньо-естетичні цінності. З метою активізації формування цієї орієнтації в експериментальній групі проводилися бесіди, виставки дитячих малюнків, було організовано відвідування музеїв та картинних галерей, проведено зустрічі з музикантами, художниками та ін. Закономірно постає питання: якою є ефективність проведеної роботи? З метою перевірки ефективності цієї роботи до початку експерименту і після цього давався тест. З методичних міркувань у таблиці 2 наводяться результати невеликої кількості випробуваних.

Таблиця 2. Результати експерименту

Учні

(n = 10)

Бали

Допоміжні розрахунки

до початку експерименту (Х)

в кінці

експерименту (У)

d

d 2

Іванов

Новіков

Сидорів

Пирогів

Агапов

Суворов

Рижиків

Сєров

Сокир

Бистрів

Середнє

14,8

21,1

Спочатку зробимо розрахунок за формулою:

Потім застосуємо формулу (6), отримаємо:

І, нарешті, слід застосувати формулу (5). Отримаємо:

Число ступенів свободи: k =10-1=9 і за таблицею Додатка 1 знаходимо t крит =2.262, експериментальне t=6,678, звідки слід можливість прийняття альтернативної гіпотези (H 1) про достовірні відмінності середніх арифметичних, тобто робиться висновок про ефективності експериментального впливу

У термінах статистичних гіпотез отриманий результат звучатиме так: на 5% рівні гіпотеза Н 0 відхиляється і приймається гіпотеза Н 1 .

6.1.3 F – критерій Фішера

Критерій Фішерадозволяє порівнювати величини вибіркових дисперсій двох незалежних вибірок. Для обчислення F емп потрібно знайти відношення дисперсій двох вибірок, причому так, щоб більша за величиною дисперсія була б у чисельнику, а менша – у знаменнику. Формула обчислення критерію Фішера така:

де - дисперсії першої та другої вибірки відповідно.

Оскільки, згідно з умовою критерію, величина чисельника повинна бути більшою або дорівнює величині знаменника, то значення F емп завжди буде більше або дорівнює одиниці.

Число ступенів свободи визначається також просто:

k 1 =n l - 1для першої вибірки (тобто для тієї вибірки, величина дисперсії якої більша) і k 2 =n 2 - 1для другої вибірки.

У Додатку 1 критичні значення критерію Фішера знаходяться за величинами k 1 (верхній рядок таблиці) та k 2 (лівий стовпець таблиці).

Якщо t эмп >t критий, то нульова гіпотеза приймається, інакше приймається альтернативна.

Приклад 3.У двох третіх класах проводилося тестування розумового розвитку за тестом ТУРМШ 10 учнів. Отримані значення середніх величин достовірно не розрізнялися, проте психолога цікавить питання - чи є відмінності в ступені однорідності показників розумового розвитку між класами.

Рішення. Для критерію Фішера необхідно порівняти дисперсії тестових оцінок у обох класах. Результати тестування представлені у таблиці:

Таблиця 3.

№№ учнів

Перший клас

Другий клас

Суми

Середнє

60,6

63,6

Розрахувавши дисперсії для змінних X та Y, отримуємо:

s x 2 = 572,83; s y 2 = 174,04

Тоді за формулою (8) для розрахунку за F критерієм Фішера знаходимо:

За таблицею з Додатка 1 для F критерію при ступенях свободи в обох випадках рівних k =10 - 1 = 9 знаходимо F крит =3,18 (<3.29), следовательно, в терминах статистических гипотез можно утвер­ждать, что Н 0 (гипотеза о сходстве) может быть отвергнута на уровне 5%, а принимается в этом случае гипотеза Н 1 . Иc следователь может утверждать, что по степени однородности такого показа­теля, как умственное развитие, имеется различие между выбор­ками из двух классов.

6.2 Непараметричні критерії

Порівнюючи на око (по відсотковим співвідношенням) результати до і після будь-якого впливу, дослідник дійшов висновку, що й спостерігаються відмінності, має місце розбіжність у порівнюваних вибірках. Подібний підхід категорично неприйнятний, тому що для відсотків не можна визначити рівень достовірності у відмінностях. Відсотки, взяті власними силами, не дозволяють робити статистично достовірні висновки. Щоб довести ефективність будь-якого впливу, необхідно виявити статистично значиму тенденцію у зміщенні показників. Для вирішення подібних завдань дослідник може використовувати ряд критеріїв відмінності. Нижче буде розглянуто непараметричні критерії: критерій знаків та критерій хі-квадрат.

6.2.1 Критерій знаків ( G-критерій)

Критерій призначений для порівняння стану деякої якості у членів двох залежних вибірокна основі вимірювань, зроблених за шкалою не нижче за рангову.

Є дві серії спостережень над випадковими змінними X та У, отримані при розгляді двох залежних вибірок. На їх основі складено N пар виду (х i , у i ), де х i , у i - результати дворазового виміру однієї й тієї ж властивості в однієї й тієї ж об'єкта.

У педагогічних дослідженнях об'єктами вивчення можуть бути учні, вчителі, адміністрація шкіл. При цьому х i , у i можуть бути, наприклад, баловими оцінками, виставленими вчителем за дворазове виконання однієї і тієї ж або різних робіт однією і тією ж групою учнів до і після застосування деякого педагогічного засобу.

Елементи кожної пари х i , у i порівнюються між собою за величиною, і парі надається знак «+» , якщо х i< у i , знак «-» , якщо х i > у i і «0» , якщо х i = у i.

Нульова гіпотеза формулюються наступним чином: у стані досліджуваної властивості немає значних відмінностей при первинному та вторинному вимірах. Альтернативна гіпотеза: закони розподілу величин X і У різні, тобто стану досліджуваної властивості істотно різні в одній і тій же сукупності при первинному та вторинному вимірах цієї властивості.

Статистика критерію (Т) визначається наступним чином:

припустимо, що з N пар (х, у,) знайшлося кілька пар, у яких значеннях i і у i рівні. Такі пари позначаються знаком «0» і підрахунку значення величини Т не враховуються. Припустимо, що з відрахуванням у складі N числа пар, позначених знаком «0», залишилося всього n пар. Серед тих, що залишилися n пар підрахуємо число пар, позначених знаком «-», тобто пари, в яких x i< y i . Значення величини Т і дорівнює числу пар зі знаком мінус.

Нульова гіпотеза приймається нарівні значимості 0,05, якщо спостерігане значення T< n - t a , где значение n - t a визначається із статистичних таблиць для критерію знаків Додатка 2.

Приклад 4.Учні виконували контрольну роботу, спрямовану перевірку засвоєння деякого поняття. П'ятнадцяти учням потім запропонували електронний посібник, складене з формування даного поняття в учнів з низьким рівнем навчальності. Після вивчення допомоги учні знову виконували ту ж контрольну роботу, яка оцінювалася за п'ятибальною системою.

Результати дворазового виконання роботи становлять виміри за шкалою порядку (п'ятибальна шкала). У умовах можливе застосування знакового критерію виявлення тенденції зміни стану знань учнів після вивчення посібники, оскільки виконуються всі припущення цього критерію.

Результати дворазового виконання роботи (у балах) 15 учнями запишемо у формі таблиці (див. табл. 1).

Таблиця 4.

Учні (№)

Перше виконання

Друге виконання

Знак різниці позначок

Перевіряється гіпотеза H 0 : стан знань учнів не підвищився після вивчення посібника Альтернативна гіпотеза: стан знань учнів збільшився після вивчення посібника.

Підрахуємо значення статистики критерію Т дорівнює кількості позитивних різниць відміток, отриманих учнями. За даними табл. 4 Т = 10, n = 12.

Для визначення критичних значень статистики критерію n-ta використовуємо табл. Додатки 2. Для рівня значущості а = 0,05 при n =12 значення n-ta=9. Отже виконується нерівність Т>n-ta (10>9). Тому відповідно до правила прийняття рішення нульова гіпотеза відхиляється на рівні значущості 0,05 і приймається альтернативна гіпотеза, що дозволяє зробити висновок про покращення знань учнів після самостійного вивчення посібника.

Приклад 5.Передбачається, що вивчення курсу математики сприяє формуванню у учнів однієї з прийомів логічного мислення (наприклад, прийому узагальнення) у тому разі, якщо його формування не проводиться цілеспрямовано. Для перевірки цього припущення було проведено наступний експеримент.

Учням VII класу було запропоновано 5 завдань, розв'язання яких ґрунтується на використанні даного прийому мислення. Вважалося, що учень має цим прийомом, якщо він дає правильну відповідь на 3 і більше завдання.

Було розроблено таку шкалу вимірювань: правильно вирішено 1 або 2 завдання - оцінка «0»; чітко вирішено 3 завдання - оцінка «1»; чітко вирішено 4 завдання-оцінка «2»; чітко вирішено 5 завдань - оцінка «3».

Робота проводилася двічі: наприкінці вересня та наприкінці травня наступного року. Її писали 35 одних і тих самих учнів, відібраних шляхом випадкового відбору з 7 різних шкіл. Результати дворазового виконання роботи запишемо у формі таблиці (див. табл. 5).

Відповідно до цілей експерименту формулюємо нульову гіпотезу наступним чином: Н 0 - вивчення математики не сприяє формуванню досліджуваного прийому мислення. Тоді альтернативна гіпотеза матиме вигляд: Н 1 – вивчення математики сприяє оволодінню цим прийомом мислення.

Таблиця 5.

За даними табл. 5 значення статистики Т=15 - число різниць зі знаком «+». З 35 пар 12 мають знак "0"; значить, n = 35-12 = 23.

За таблицею Додатка 2 для n =23 і рівня значимості 0,025 знаходимо критичне значення статистики критерію, що дорівнює 16. Отже, правильна нерівність Т

Тому відповідно до правила прийняття рішень доводиться зробити висновок про те, що отримані результати не дають достатніх підстав для відхилення нульової гіпотези, тобто ми не маємо достатніх підстав для відхилення твердження про те, що вивчення математики саме по собі не сприяє оволодінню виділеним прийомом мислення.

6.2.2 Критерій χ2 (хі-квадрат)

Критерій χ 2 (хі-квадрат) застосовується для порівняння розподілів об'єктів двох сукупностей на основі вимірювань за шкалою найменувань у двох незалежнихвибірках.

Припустимо, що стан досліджуваної властивості (наприклад, виконання певного завдання) вимірюється у кожного об'єкта за шкалою найменувань, що має лише дві взаємовиключні категорії (наприклад: виконано правильно - виконано неправильно). За результатами вимірювання стану досліджуваної властивості об'єктів двох вибірок складається чотириклітинна таблиця 2X2. (Див. табл. 6).

Таблиця 6.

У цій таблиці Про ij- кількість об'єктів уi-ой вибірці, що потрапили вj-ую категорію за станом досліджуваної якості;i = 1,2- Число вибірок;j = 1,2- Число категорій;; N- загальна кількість спостережень, що дорівнює О 11 + О 12 + О 21 + О 22або n 1 + n 2 .

Тоді на основі даних таблиці 2X2 (див. табл. 6) можна перевірити нульову гіпотезу про рівність ймовірностей попадання об'єктів першої та другої сукупностей у першу (другу) категорію шкали вимірювання властивостей, що перевіряються, наприклад гіпотезу про рівність ймовірностей вірного виконання деякого завдання учнями контрольних та експеримент класів.

При перевірці нульових гіпотез не обов'язково, щоб значення ймовірностей р 1і р 2були відомі, оскільки гіпотези тільки встановлюють між ними деякі співвідношення (рівність, більша або менша).

Для перевірки розглянутих вище нульових гіпотез за даними таблиці 2X2 (див. табл. 6) підраховується значення статистики критерію Тза наступною загальною формулою:

(9)

де n 1 , n 2 - обсяги вибірок,N =n 1 + n 2- загальна кількість спостережень.

Проводиться перевірка гіпотези H 0: p 1 £ p 2- за альтернативи Н 1: р 1 > р 2 .Нехай a - Прийнятий рівень значимості. Тоді значення статистики Т,отримане на основі експериментальних даних порівнюється з критичним значенням статистики х 1-2 a,яке визначається за таблицею c 2 c одним ступенем свободи (див. Додаток 2) з урахуванням обраного значення a . Якщо правильна нерівність T< x 1-2 a , то нульова гіпотеза приймається на рівні a .Якщо ця нерівність не виконується, то ми не маємо достатніх підстав для відхилення нульової гіпотези.

У зв'язку з тим, що заміна точного розподілу статистики Трозподілом c 2 c одним ступенем свободи дає досить хороше наближення лише великих вибірок, застосування критерію обмежена деякими умовами.

1) сума обсягів двох вибірок менше 20;

2)хоча б одна з абсолютних частот у таблиці 2X2, складеній на основі експериментальних даних, менше 5.

Приклад 6.Проводився експеримент, спрямований на виявлення кращого з підручників, написаних двома авторськими колективами відповідно до цілей навчання геометрії та змісту програми IX класу. Для проведення експерименту методом випадкового відбору було обрано два райони, більшість шкіл яких належали до сільських. Учні першого району (20 класів) навчалися за підручником № 1, учні другого району (15 класів) навчалися за підручником №2.

Розглянемо методику порівняння відповідей вчителів експериментальних шкіл двох районів на одне з питань анкети: «Чи доступний підручник в цілому для самостійного читання і чи допомагає він засвоїти матеріал, який вчитель не пояснював у класі (Відповідь: так - ні.)

Ставлення вчителів до досліджуваної якості підручників виміряно за шкалою найменувань, що має дві категорії: так, ні. Обидві вибірки вчителів випадкові та незалежні.

Відповіді 20 вчителів першого району та 15 вчителів другого району розподілимо на дві категорії та запишемо у формі таблиці 2Х2 (табл. 5).

Таблиця 7.

Усі значення табл. 7 не менше 5, тому відповідно до умов використання критеріюз 2 підрахунок статистики критерію провадиться за формулою (9).

За таблицею із додатка 2 для одного ступеня свободи ( v = l ) та рівня значимості a =0,05 знайдемо х 1- a а= Т критич = 3,84. Звідси вірна нерівність Т спостережень<Т критич (1,86<3,84). Согласно правилу принятия ре­шений для критерия з 2 отриманий результат не дає достатніх підстав для відхилення нульової гіпотези, тобто результати проведеного опитування вчителів двох експериментальних районів не дають достатніх підстав для відхилення припущення про однакову доступність підручників. 1 та 2 для самостійного читання учнями.

Застосування критерію хі-квадрат можливе й у тому випадку, коли об'єкти двох вибірок із двох сукупностей за станом вивчається розподіляються більш ніж на дві категорії. Наприклад, учні експериментальних та контрольних класів розподіляються на чотири категорії відповідно до позначок (у балах: 2, 3, 4, 5), отриманих учнями за виконання деякої контрольної роботи.

Результати вимірювання стану досліджуваної властивості об'єктів кожної вибірки розподіляються на Зкатегорій. На основі цих даних складається таблиця 2ХС, в якій два ряди (за кількістю аналізованих сукупностей) і Зколонок (за кількістю різних категорій стану досліджуваної властивості, прийнятих у дослідженні).

Таблиця 8.

На основі даних таблиці 8 можна перевірити нульову гіпотезу про рівність ймовірностей попадання об'єктів першої та другої сукупностей у кожну зi (i = l,2, ..., С) категорій, тобто перевірити виконання всіх наступних рівностей: р 11 = р 21 p 12 = p 22 , …, p 1 c = p 2 c. Можлива, наприклад, перевірка гіпотези про рівність ймовірностей отримання позначок «5», «4», «3» та «2» за виконання учнями контрольних та експериментальних класів певного завдання.

Для перевірки нульової гіпотези за допомогою критеріюз 2 на основі даних таблиці 2ХС підраховується значення статистики критерію Тза наступною формулою:

(10)

де п 1і п 2- Обсяги вибірок.

Значення Т,отримане на основі експериментальних даних, порівнюється з критичним значенням х 1- a,яке визначається за таблицею c 2 з k =С-1 ступенем свободи з урахуванням обраного рівнязначимості a . При виконанні нерівності Т> х 1- a анульова гіпотеза відхиляється на рівні ата приймається альтернативна гіпотеза. Це означає, що розподіл об'єктів на Зкатегорій за станом досліджуваного властивості по-різному у двох аналізованих сукупностях.

Приклад 7. Розглянемо методику порівняння результатів письмової роботи, яка перевіряла засвоєння одного з розділів курсу учнями першого та другого районів.

p align="justify"> Методом випадкового відбору з учнів першого району, що писали роботу, була складена вибірка обсягом 50 осіб, з учнів другого району - вибірка обсягом 50 осіб. Відповідно до спеціально розроблених критеріїв оцінки виконання роботи кожен учень міг потрапити в одну з чотирьох категорій: погано, посередньо, добре, відмінно. Результати виконання роботи двома вибірками учнів використовуємо для перевірки гіпотези про те, що підручник № 1 сприяє кращому засвоєнню розділу курсу, що перевіряється, тобто учні першого експериментального району в середньо отримуватимуть вищі оцінки, ніж учні другого району.

Результати виконання роботи учнями обох вибірок запишемо як таблиці 2X4 (табл. 9 ).

Таблиця 9.

Відповідно до умов використання критеріюз 2 підрахунок статистики критерію провадиться за коригованою формулою (10).

Відповідно до умов застосування двостороннього критерію хі-квадрат за таблицею з додатка 2 для одного ступеня свободи ( k Грабар М.І., Краснянська К.А. Застосування математичної статистики у педагогічних дослідженнях. Непараметричні методи. М., «Педагогіка», 1977, стор 54

Грабар М.І., Краснянська К.А. Застосування математичної статистики у педагогічних дослідженнях. Непараметричні методи. М., «Педагогіка», 1977, стор 57

Нехай Н 0 у тому, що F(x) = F 0 (x); альтернативна гіпотеза Н 1: F(x) ¹ F 0 (x). У критерії згоди Пірсона статистикою береться випадкова величина c 2 , емпіричне значення якої визначається за формулою

де k - Число інтервалів, на які розбивається значення досліджуваної СВ Х; m i - Частота i інтервалу; p i - ймовірність попадання СВ Х в i-тий інтервал, обчислена для теоретичного закону розподілу.

При n ® ¥ СВ прагне розподілу c 2 с l= k – r – 1 ступенями свободи, де k – число інтервалів, r – число параметрів теоретичного розподілу, обчислених за експериментальними даними.

Вимога, щоб n ® ¥, є суттєвою. На практиці достатнім вважається обсяг n ³ 50 та число спостережень у кожному інтервалі m i не менше 5. Якщо в якомусь інтервалі m i< 5, то имеет смысл объединить соседние интервалы.

Викладемо алгоритм застосування критерію c2.

1. Знаходиться величина

2. Для вибраного рівня a за додатком VI знаходять значення , де l= k - r - 1.

3. Якщо £ то гіпотеза Н 0 приймається, тобто. можна вважати, що теоретичний та емпіричний закони розподілів збігаються; якщо
> , гіпотеза Н 0 відкидається.

П р і м е р 29.2. При посіві насіння льону важливим показником є ​​глибина загортання насіння. Для оцінки посіву було виконано 100 вимірювань. Результати вимірювань наведено у таблиці 29.3.

Таблиця 29.3.

За допомогою критерію c 2 перевірити гіпотезу Н 0 про нормальний розподіл СВ Х – глибини закладення насіння на рівні значущості a = 0,01.

Рішення. Знайдемо і S за вибірковими даними

Оскільки в крайніх інтервалах значення m i< 5, объединим их.

Таблиця 29.4.

1. Знайдемо ймовірності p i влучення СВ Х в i інтервал за формулою

де значення знайдемо, використовуючи таблицю II додатків.

Перевірка: .

Обчислимо значення:

2. l= k - r - 1 = 5 - 2 - 1 = 2. По таблиці II знайдемо = 9,21.

3. Оскільки< , то гипотезу Н 0 о нормальном распределении СВ Х отвергать нет оснований.

§ 30. Перевірка гіпотез про однорідність вибірок (непараметричні критерії).

Нехай є дві незалежні вибірки, зроблені з генеральних сукупностей, закони розподілу яких невідомі. Перевірена гіпотеза Н 0: F 1 (x) = F 2 (x), де F 1 (x) та F 2 (x) невідомі функції розподілу. Альтернативна гіпотеза Н1: F1(x) ¹ F2(x).

Критерій Колмогорова – Смирнова. Цей критерій застосовується, якщо можна припустити, що функції F 1 (x) та F 2 (x) безперервні.

Як статистика критерію береться величина

де n 1 , n 2 - обсяги першої та другої вибірок відповідно, F 1, Е (х), F 2, Е (х) - емпіричні функції розподілу першої та другої вибірок.

При справедливості гіпотези Н 0 при досить великих вибірках (n 1 ³ 50, n 2 ³ 50) розподіл схожий на розподіл Колмогорова (таблиця VII додатків). При малих вибірках знаходження D кр використовуються спеціальні таблиці.

Перевірка гіпотези Н 0 здійснюється в такий спосіб. Якщо
> D кр, то гіпотеза відкидається, інакше приймається.

П р і м е р 30.1. Для вивчення впливу деякого препарату на зростання поросят проведено досвід, результати якого наведено у таблиці 30.1.

Таблиця 30.1.

Одночасно велося вигодовування поросят у контрольній групі без застосування препарату (таблиця 30.2).

Таблиця 30.2.

Потрібно лише на рівні значимості a = 0,05 перевірити гіпотезу Н 0 , що обидві вибірки описуються однією й тією ж функцією розподілу, тобто. препарат не чинить на зростання поросят суттєвого впливу.

Рішення. Дані обчислень занесемо до таблиці, враховуючи, що
n 1 = 100, n 2 = 200.

Таблиця 30.3.

Використовуючи таблицю VII додатків, знайдемо

D кр = D 1 – a = D 0,95» K 0,95 = 1,36.

Оскільки D кр< , то гипотезу Н 0 следует принять, т.е. препарат не оказывает существенного влияния на рост поросят.

У випадку, якщо вибірки невеликі, зручно застосовувати критерій Вілкоксона – Вітні.

Сформулюємо правило його застосування (n 1 £ 25, n 2 £ 25). Для перевірки гіпотези Н 0: F 1 (x) = F 2 (x) при альтернативній гіпотезі Н 1: F 1 (x) ¹ F 2 (x) слід:

1. Об'єднати дві вибірки в одну і розташувати варіанти у зростаючому порядку, розрахувати W – суму номерів, варіант менший за обсягом вибірки.

2. Знайти по таблиці VIII додатків w нижн.кр = w( , n 1 , n 2) і w верхн.кр =
= (n 1 + n 2 + 1) n 1 - w нижн.кр.

Якщо w н.кр< W < w в.кр, то нет оснований отвергнуть гипотезу, в противоположном случае гипотеза Н 0 отвергается.

Зауваження 30.1.Якщо серед варіант є збігаються, то кожній з них надають ранги, рівні середньому арифметичному порядкових номерів, що збігаються, варіант у загальному ряді, якими замінюють номери збігаються варінт.

Зауваження 30.2.Критерій Вілкоксона - Уітні можна використовувати і для величезних вибірок. У цьому змінюється розрахунок w н.кр і w в.кр (див. ).

П р і м е р 30.2. Для оцінки заробітної плати(у у.о.) на двох підприємствах зібрано дві вибірки обсягом n 1 = 8 і n 2 = 9:

Перше підприємство 330, 390, 400, 410, 420, 450, 460, 470

II-е підприємство 340, 400, 410, 420, 430, 440, 460, 480, 490

Використовуючи критерій Вілкоксона – Уітні, перевірити нульову гіпотезу Н 0 про однакову оплату праці на двох підприємствах проти гіпотези Н 1: оплата різна (a = 0,05).

Рішення. Сформуємо загальний варіаційний ряд

330 ; 340; 390 ; 400 ; 400; 410 ; 410; 420 ; 420; 430; 440; 450 ; 460 ; 460; 470 ; 480; 490

1 2 34,5 4,5 6,5 6,5 8,5 8,5 10 11 1213,5 13,5 15 16 17

Для застосування викладеного вище критерію Вілкоксону – Уітні як першу вибірку слід взяти ту, яка має найменший обсяг n 1 = 8.

Знайдемо значення W. Для цього підкреслимо порядкові номери варіант меншої за обсягом вибірки та знайдемо їхню суму:

W = 1+3+4,5+6,5+8,5+12+13,5+15=64.

Знайдемо значення w нижн.кр = w(0,025; 8; 9) = 51.

Знайдемо значення w верхн.кр = (n 1 +n 2 + 1) n 1 - w н.кр = (8 + 9 + 1) 8 - 51 = 93.

Оскільки виконується співвідношення н.кр< W < w в.кр (51 < 64 < 93), то нет оснований отвергнуть гипотезу Н 0 , т.е. оплата труда на I-м и II-м предприятиях различается незначительно.

Розглянемо застосування вMSEXCELкритерію хі-квадрату Пірсона для перевірки простих гіпотез.

Після отримання експериментальних даних (тобто коли є якась вибірка) зазвичай проводиться вибір закону розподілу, що найбільш добре описує випадкову величину, представлену даною вибіркою. Перевірка того, наскільки добре експериментальні дані описуються вибраним теоретичним законом розподілу здійснюється з використанням критеріїв згоди. Нульовою гіпотезою, Зазвичай виступає гіпотеза про рівність розподілу випадкової величини деякому теоретичному закону.

Спочатку розглянемо застосування критерію згоди Пірсона Х 2 (хі-квадрат)щодо простих гіпотез (параметри теоретичного розподілу вважаються відомими). Потім - коли задається тільки форма розподілу, а параметри цього розподілу і значення статистики Х 2 оцінюються/розраховуються на підставі однієї і тієї ж вибірки.

Примітка: В англомовній літературі процедура застосування. критерію згоди Пірсона Х 2 має назву The chi-square goodness of fit test.

Нагадаємо процедуру перевірки гіпотез:

  • на основі вибіркиобчислюється значення статистики, яка відповідає типу гіпотези, що перевіряється. Наприклад, для використовується t-статистика(якщо невідомо);
  • за умови істинності нульової гіпотези, розподіл цієї статистикивідомо і може бути використане для обчислення ймовірностей (наприклад, для t-статистикице);
  • обчислене на основі вибіркизначення статистикипорівнюється з критичним для заданого значення ();
  • нульову гіпотезувідкидають, якщо значення статистикибільше критичного (або якщо можливість отримати це значення статистики() менше рівня значущості, що є еквівалентним підходом.

Проведемо перевірку гіпотездля різних розподілів.

Дискретний випадок

Припустимо, що дві людини грають у кістки. Кожен гравець має свій набір кісток. Гравці по черзі кидають одразу по 3 кубики. Кожен раунд виграє той, хто викине за разів більше шісток. Результати записуються. В одного з гравців після 100 раундів з'явилася підозра, що кістки його суперника – несиметричні, т.к. той часто виграє (часто викидає шістки). Він вирішив проаналізувати наскільки ймовірно така кількість наслідків противника.

Примітка: Т.к. кубиків 3, то зараз можна викинути 0; 1; 2 чи 3 шістки, тобто. випадкова величина може набувати 4 значення.

З теорії ймовірності нам відомо, якщо кубики симетричні, то ймовірність випадання шісток підпорядковується . Тому, після 100 раундів частоти випадання шісток можуть бути обчислені за допомогою формули
=БІНОМ.РАСП(A7;3;1/6;БРЕХНЯ)*100

У формулі передбачається, що в осередку А7 міститься відповідна кількість шісток, що випали, в одному раунді.

Примітка: Розрахунки наведені в файл прикладу на листі Дискретне.

Для порівняння спостережених(Observed) та теоретичних частот(Expected) зручно користуватися.

При значному відхиленні спостеріганих частот від теоретичного розподілу, нульова гіпотезапро розподіл випадкової величини за теоретичним законом, має бути відхилена. Тобто, якщо гральні кістки суперника несиметричні, то спостерігані частоти «суттєво відрізнятимуться» від біноміального розподілу.

У нашому випадку на перший погляд частоти досить близькі і без обчислень складно зробити однозначний висновок. Застосуємо критерій згоди Пірсона Х 2, щоб замість суб'єктивного висловлювання «суттєво відрізнятися», яке можна зробити на підставі порівняння гістограм, використовувати математично коректне затвердження

Використовуємо той факт, що в силу закону великих чиселспостерігається частота (Observed) зі зростанням обсягу вибірки n прагне ймовірності, що відповідає теоретичному закону (у нашому випадку, біноміальному закону). У разі обсяг вибірки n дорівнює 100.

Введемо тестову статистику, Яку позначимо Х 2:

де O l – це спостережена частота подій, що випадкова величина набула певних допустимих значень, E l – це відповідна теоретична частота (Expected). L – кількість значень, які може приймати випадкова величина (у разі дорівнює 4).

Як видно з формули, ця статистикає мірою близькості спостеріганих частот до теоретичних, тобто. за допомогою неї можна оцінити «відстань» між цими частотами. Якщо сума цих "відстаней" "занадто велика", то ці частоти "істотно відрізняються". Зрозуміло, якщо наш кубик симетричний (тобто. застосуємо біноміальний закон), то ймовірність того, що сума «відстаней» буде «надто велика» буде малою. Щоб обчислити цю можливість нам необхідно знати розподіл статистикиХ 2 ( статистикаХ 2 обчислена на основі випадкової вибіркитому вона є випадковою величиною і, отже, має своє розподіл ймовірностей).

З багатовимірного аналога інтегральної теореми Муавра-Лапласавідомо, що за n->∞ наша випадкова величина Х 2 асимптотично з L - 1 ступенями свободи.

Отже, якщо обчислене значення статистикиХ 2 (сума «відстаней» між частотами) буде більшою за якесь граничне значення, то у нас буде підстава відкинути нульову гіпотезу. Як і під час перевірки параметричних гіпотез, граничне значення задається через рівень значущості. Якщо ймовірність того, що статистика Х 2 прийме значення менше або дорівнює обчисленому ( p-значення), буде менше рівня значущості, то нульову гіпотезуможна відкинути.

У разі, значення статистики дорівнює 22,757. Імовірність, що статистика Х 2 прийме значення більше або дорівнює 22,757 дуже мала (0,000045) і може бути обчислена за формулами
=ХІ2.РАСП.ПХ(22,757;4-1)або
=ХІ2.ТЕСТ(Observed; Expected)

Примітка: Функція ХІ2.ТЕСТ() спеціально створена для перевірки зв'язку між двома категоріальними змінними (див. ).

Імовірність 0,000045 істотно менша за звичайний рівня значущості 0,05. Отже, гравець має всі підстави підозрювати свого супротивника в нечесності ( нульова гіпотезапро його чесність відкидається).

При застосуванні критерію Х 2необхідно стежити за тим, щоб обсяг вибірки n був досить великий, інакше буде неправомірна апроксимація розподілу статистики Х 2. Зазвичай вважається, що для цього достатньо, щоб спостерігані частоти (Observed) були більшими за 5. Якщо це не так, то малі частоти об'єднуються в одне або приєднуються до інших частот, причому об'єднаному значенню приписується сумарна ймовірність і, відповідно, зменшується число ступенів свободи Х 2 -розподілу.

Для того, щоб покращити якість застосування критерію Х 2(), необхідно зменшувати інтервали розбиття (збільшувати L і, відповідно, збільшувати кількість степенів свободи), однак цьому перешкоджає обмеження на кількість спостережень, що потрапили в кожен інтервал (д.б.>5).

Безперервний випадок

Критерій згоди Пірсона Х 2 можна застосувати так само у випадку.

Розглянемо якусь вибірку, Що складається з 200 значень. Нульова гіпотезастверджує, що вибірказроблена з .

Примітка: Випадкові величини файл прикладу на аркуші Безперервнезгенеровані за допомогою формули =НОРМ.СТ.ОБР(СЛЧИС()). Тому нові значення вибіркигенеруються при кожному перерахунку листа.

Чи відповідає наявний набір даних можна візуально оцінити.

Як видно з діаграми, значення вибірки досить добре укладаються вздовж прямої. Однак, як і для перевірки гіпотезизастосуємо Критерій згоди Пірсона Х2.

Для цього розіб'ємо діапазон зміни випадкової величини на інтервали з кроком 0,5. Обчислимо спостерігані та теоретичні частоти. Наблюденные частоти обчислимо з допомогою функції ЧАСТОТА() , а теоретичні – з допомогою функції НОРМ.СТ.РАСП() .

Примітка: Як і для дискретного випадку, необхідно стежити, щоб вибіркабула досить велика, а інтервал потрапляло >5 значень.

Обчислимо статистику Х 2 та порівняємо її з критичним значенням для заданого рівня значущості(0,05). Т.к. ми розбили діапазон зміни випадкової величини на 10 інтервалів, число ступенів свободи дорівнює 9. Критичне значення можна обчислити за формулою
=ХІ2.ОБР.ПХ(0,05;9) або
= ХІ2.ОБР (1-0,05; 9)

На діаграмі вище видно, що значення статистики дорівнює 8,19, що значно вище критичного значеннянульова гіпотезане відкидається.

Нижче наведена , на якій вибіркаприйняла малоймовірне значення і на підставі критерію згоди Пірсона Х 2нульова гіпотеза була відхилена (не дивлячись те що, що випадкові значення було згенеровано з допомогою формули =НОРМ.СТ.ОБР(СЛЧИС()), що забезпечує вибіркуз стандартного нормального розподілу).

Нульова гіпотезавідхилена, хоча візуально дані розташовуються досить близько до прямої лінії.

Як приклад також візьмемо вибіркуз U(-3; 3). У цьому випадку навіть з графіка очевидно, що нульова гіпотезамає бути відхилена.

Критерій згоди Пірсона Х 2також підтверджує, що нульова гіпотезамає бути відхилена.

Критерій застосовується у двох випадках:

1) для зіставлення емпіричного розподілу ознаки з теоретичним (рівномірним, нормальним чи якимось іншим);

2) для порівняння двох емпіричних розподілів однієї й тієї ж ознаки.

Критерій відповідає питанням тому, з однакової частотою зустрічаються різні значення ознаки в емпіричному і теоретичному розподілах чи двох емпіричних розподілах.

Ознака може бути виміряна за будь-якою шкалою, навіть номінальною.

Обмеження:

2) теоретична частота для кожного осередку таблиці не повинна бути меншою за 5: f³5. Це означає, що якщо кількість розрядів задано заздалегідь і не може бути змінено, то ми можемо застосовувати метод c 2 тільки накопичивши певне мінімальне число спостережень. Так, якщо кількість розрядів ( k) задано заздалегідь, мінімальна кількість спостережень (n min) визначається за такою формулою: n min = 5 k

3) обрані розряди мають «вичерпувати» весь розподіл, тобто охоплювати весь діапазон варіативності ознак. При цьому угруповання на розряди має бути однаковим у всіх зіставних розподілах;

4) необхідно вносити поправку на безперервність при зіставленні розподілів ознак, які застосовують лише 2 значення. При внесенні зміни значення c 2 зменшується;

5) розряди повинні бути такими, що не перехрещуються: якщо спостереження віднесено до одного розряду, то воно вже не може віднесено до жодного іншого розряду.

Обчислення критерію:

1) при порівнянні емпіричного з теоретичним рівномірним розподілом. І тому краще скористатися таблицею 34.

Таблиця 34

Розряди f еj f т (f е j -f т) (f е j -f т) 2 (f е j -f т) / f т

Тут у 1 стовпчику даються найменування розрядів,

у 2 стовпчику даються емпіричні частоти по кожному розряду f j, де j змінюється від 1 до k,

у 3 стовпчику теоретична частота, однакова для кожного розряду та обчислена за формулою f т =n/k,

в 4 стовпчику знаходиться різниця між емпіричною та теоретичною частотами по кожному розряду,

у 5 стовпчику значення 4 стовпчика зводяться у квадрат по кожному розряду,

в 6 стовпчику знаходиться відношення значень 5 стовпчика до теоретичної частоти кожного розряду.

Якщо c 2 >c 2 0,01 , то емпіричний розподіл відрізняється від рівномірного, якщо c 2 £c 2 0,05 , то емпіричний розподіл не відрізняється від рівномірного, якщо c 2 0,05< c 2 £c 2 0,01, то отличие эмпирического распределения от равномерного значимо на 5% уровне.

Таблиця 35

Розподіл учнів за когнітивним стилем «диференціальність-інтегральність» та розрахунок даних за критерієм з 2

приклад.У учнів підліткового віку (60 чоловік 13-14 років) виявлявся когнітивний стиль «диференціальність-інтегральність» за методикою Г.А. Бердичів. У кожному стилі виділяються три стратегії: теоретична, діяльнісна, емоційна. Розподіл учнів за стилями представлені у таблиці 35. Чи можна стверджувати, що у цій групі учнів поступово представлені всі ці стилі?

Рішення: n=60 >

Сформулюємо експериментальну гіпотезу: розподіл учнів за стилями «диференціальність-інтегральність» із трьома стратегіями є рівномірним.

к=6, отже, f т =60/6=10.

Для n=к-1=6-1=5

з 2 0,05 = 11,070 з 2 0,01 = 15,089

c 2 >c 2 0,01 отже експериментальна гіпотеза відкидається.

Відповідь:розподіл учнів за стилями «диференціальність-інтегральність» із трьома стратегіями відрізняється від рівномірного.

2) При порівнянні двох емпіричних розподілів:

Обчислення також зробимо з допомогою таблиці 36.

Таблиця 36

нр f е1 j f е2 j f е1 j +f е2 j f т1 j f т2 j (f е1 j -f т1 j) 2 f т1 j (f е2 j -f т2 j) 2 f т2 j

Тут у 1 стовпці записується найменування розрядів,

у другому стовпці записуються відповідні частоти першого емпіричного розподілу (f е1 j), де j змінюється від 1 до,

у третьому стовпці записуються відповідні частоти другого емпіричного розподілу (f е2 j),

у 4 стовпці знаходиться сума емпіричних частот першого та другого розподілу по кожному розряду окремо (f е1 j +f е2 j),

в 7 стовпці знаходиться квадрат різниці відповідно до емпіричної частоти першого розподілу з його теоретичною частотою по кожному розряду і ділиться на цю теоретичну частоту ((f е1 j -f т1 j) 2 / f т1 j),

в 8 стовпці знаходиться квадрат різниці відповідно до емпіричної частоти другого розподілу з його теоретичною частотою по кожному розряду і ділиться на цю теоретичну частоту ((f е2 j -f т2 j) 2 / f т2 j).

Значення критерію є сума всіх значень 7 та 8 шпальт, тобто.

.

Якщо c 2 >c 2 0,01 , то один емпіричний розподіл відрізняється від іншого, якщо c 2 c 2 0,05 , то перший емпіричний розподіл не відрізняється від другого, якщо c 2 0,05< c 2 £c 2 0,01, то отличие двух эмпирических распределений друг от друга значимо на 5% уровне.

Приклад. У учнів підліткового віку масової школи (25 осіб) та вихованців дитячого будинку (25 осіб) визначалися особливості образу «я» за методикою «Яким я здається собі». Через війну виділилося 7 категорій висловлювань себе. Дані представлені в таблиці 36. Чи відрізняється розподіл кількості висловлювань про себе за категоріями підлітків дитячого будинку та масової школи?

Рішення: n 1 =88 (кількість висловлювань підлітків масової школи себе), n 2 =111 (кількість висловлювань підлітків дитячого будинку себе). n 1 , n 2 >30, отже, застосуємо критерій c 2 .

Сформулюємо експериментальну гіпотезу: розподіл висловлювань підлітків дитячого будинку та масової школи про себе за різними категоріями суттєво відрізняються.

Обчислимо емпіричне значення критерію таблиці 37.

Таблиця 37

Кількість висловлювань підлітків дитячого будинку та масової школи про себе та розрахунок критерію з 2

№ катег. виск. f 1 f 2 f 1 +f 2 f т 1 f т 2 (f 1 -f т 1) 2 f т 1 (f 2 -f т 2) 2 f т2
13,27 16,73 0,81 0,53
19,45 24,54 0,33 0,26
8,84 11,15 1,67 1,33
10,17 12,83 8,27 6,55
12,38 15,62 4,69 3,72
15,48 19,52 0,01 0,01
8,4 10,59 5,19 4,1

1) формально-бібліографічні рольові відомості; 2) відношення до оточуючих людей; 3) ставлення до свого віку, дорослості, самостійності; 4) уміння, інтереси, здібності, інтелект; 5) поведінка; 6) якості особистості; 7) зовнішність, ставлення до однолітків протилежної статі.

χ 2 емп =0,81+0,33+1,67+8,27+4,69+0,01+5,19+0,53+0,26+1,33+6,55+3 72 +0,01 +4,1 = 37,47;

Знайдемо число ступінь свободи = 7-1 = 6.

Для =6 χ 2 0,01 =16,812; χ 2 0,05 = 12,592.

χ 2 емп >

Відповідь:Кількість висловлювань себе, які стосуються різних категорій, у підлітків дитячого будинку від кількості висловлювань підлітків масової школи.

Виправлення на безперервністьвноситься тоді, коли n=1. Формула тоді має такий вигляд:

.

Приклад. У студентів І курсу педагогічного вузу (факультетів фізики та математики, біології та хімії, філології) виявлялася приналежність до когнітивного стилю «полезалежність-поленезалежність» за методикою «Замасковані фігури» Готтшальтда. Результати дослідження представлені у таблиці 37. Чи виявляються статеві відмінності у приналежності до цих стилів?

Рішення: n 1 =49 (кількість юнаків), n 2 =53 (кількість дівчат), n 1 , n 2 >30, отже, застосуємо критерій c 2 .

Сформулюємо експериментальну гіпотезу. Юнаки та дівчата студенти за приналежністю до когнітивного стилю «полезалежність-поленезалежність» розрізняються.

Знайдемо емпіричне значення критерію таблиці 38.

Таблиця 38

Розподіл дівчат та юнаків за приналежністю до стилю «полезалежність-поленезалежність» та розрахунок значення критерію χ 2

к=2, отже, n=1.

Для даного n - 2 0,01 = 6,635; χ 2 0,05 = 3,841.

χ 2 емп > χ 2 0,01 Þ приймається експериментальна гіпотеза.

Відповідь:юнаки та дівчата за приналежністю до когнітивного стилю «полезалежність-полезалежність» відрізняються.

Розглянутий вище метод добре працює, якщо якісна ознака, яка нас цікавить, набуває двох значень (тромбоз є – ні, марсіянін зелений – рожевий). Більше того, оскільки метод є прямим аналогом критерію Стьюдента, число порівнюваних вибірок також має дорівнювати двом.

Зрозуміло, як і число значень ознаки і кількість вибірок може бути більшим двох. Для аналізу таких випадків потрібен інший метод аналогічний до дисперсійного аналізу. На вигляд цей метод, який ми зараз викладемо, сильно відрізняється від критерію z, але насправді між ними багато спільного.

Щоб не ходити далеко за прикладом почнемо з щойно розібраної задачі про тромбоз шунтів. Тепер ми розглядатимемо не частку, а кількість хворих на тромбоз. Занесемо результати випробування таблицю (табл. 5.1). Для кожної групи вкажемо число хворих з тромбозом і без тромбозу. У нас дві ознаки: препарат (аспірин-плацебо) та тромбоз (є-ні); у таблиці вказані всі їхні можливі поєднання, тому така таблиця називається таблицею сполученості. У разі розмір таблиці 2x2.

Подивимося на клітини розташовані, на діагоналі, що йде з верхнього лівого в нижній правий кут. Числа у яких помітно більше чисел у інших клітинах таблиці. Це наводить на думку про зв'язок між прийомом аспірину та ризиком тромбозу.

Тепер подивимося на табл. 5.2. Це таблиця очікуваних чисел, які ми отримали, якби аспірин не впливав на ризик тромбозу. Як розрахувати очікувані числа, ми розберемо трохи нижче, а поки що звернемо увагу на зовнішні особливостітаблиці. Крім трохи лякаючих дробових чисел у клітинах можна побачити ще одне відмінність від табл. 5.1 - це сумарні дані щодо груп у правому стовпці та по тромбозах - у нижньому рядку. У правому нижньому кутку – загальна кількість хворих у випробуванні. Про-



Зверніть увагу, що, хоча числа в клітинах на рис. 5.1 та 5.2 різні, суми по рядках та по стовпцях однакові.

Як розрахувати очікувані числа? Плацебо отримували 25 осіб, аспірин – 19. Тромбоз шунта стався у 24 із 44 обстежених, тобто у 54,55% випадків не відбувся – у 20 із 44, тобто у 45,45% випадків. Приймемо нульову гіпотезу, що аспірин не впливає на ризик тромбозу. Тоді тромбоз повинен з рівною частотою 54,55% спостерігатися у групах плацебо та аспірину. Розрахувавши, скільки становить 54,55% від 25 та 19, отримаємо відповідно 13,64 та 10,36. Це і є очікувані числа хворих із тромбозом у групах плацебо та аспірину. Таким же чином можна отримати очікувані числа хворих без тромбозу у групі плацебо – 45,45% від 25, тобто 11,36 у групі аспірину – 45,45% від 19, тобто 8,64. Зауважте, що очікувані числа розраховуються до другого знака після коми - така точність знадобиться при подальших обчисленнях.

Порівняємо табл. 5.1 та 5.2. Числа в клітинах дуже відрізняються. Отже, реальна картина відрізняється від тієї, яка б спостерігалася, якби аспірин не впливав на ризик тромбозу. Тепер залишилося побудувати критерій, який би характеризував ці відмінності одним числом, і потім знайти його критичне значення, тобто поступити, так як у разі критеріїв F, t або z.

Однак спочатку згадаємо ще один уже знайомий нам при-




мір - роботу Конахана порівняно галотану і морфіну, саме ту частину, де порівнювалася операційна летальність. Відповідні дані наведено у табл. 5.3. Форма таблиці така сама, як і табл. 5.1. У свою чергу, табл. 5.4 подібно до табл. 5.2 містить очікувані числа, тобто числа, обчислені виходячи з припущення, що летальність залежить від анестетика. З усіх 128 оперованих живих залишилося 110, тобто 85,94%. Якби вибір анестезії не впливав на летальність, то в обох групах частка тих, хто вижив, була б такою ж і кількість тих, хто вижив, склало б у групі галотану - 85,94% від 61, тобто 52,42 у групі морфіну - 85,94% від 67. , тобто 57,58. Так само можна отримати і очікувані числа померлих. Порівняємо таблиці 5.3 та 5.4. На відміну від попереднього прикладу, відмінності між очікуваними значеннями, що спостерігаються, дуже малі. Як ми з'ясували раніше, відмінностей у летальності немає. Схоже, ми на правильному шляху.

Критерії х2 для таблиці 2x2

Критерій х2 (читається «хі-квадрат») не вимагає жодних припущень щодо параметрів сукупності, з якої вилучені вибірки, – це перший із непараметричних критеріїв, з яким ми знайомимося. Займемося його шикуванням. По-перше, як і завжди, критерій повинен давати одне число,


яке служило б мірою відхилення даних, що спостерігаються від очікуваних, тобто в даному випадку відмінності між таблицею спостережуваних і очікуваних чисел. По-друге, критерій повинен враховувати, що відмінність, скажімо, у одного хворого має більше значення при малому очікуваному числі, ніж при великому.

Визначимо критерій х2 наступним чином:

де О - число, що спостерігається в клітині таблиці спряженості, Е - очікуване число в тій же клітині. Підсумовування проводиться у всіх клітинах таблиці. Як видно з формули, що більша різниця спостережуваного та очікуваного числа, тим більший внесок робить клітина у величину %2. При цьому клітини з малим очікуваним числом роблять більший внесок. Таким чином, критерій задовольняє обидві вимоги - по-перше, вимірює відмінності і, по-друге, враховує їхню величину щодо очікуваних чисел.

Застосуємо критерії х2 до даних тромбозів шунта. У табл. 5.1 наведені числа, що спостерігаються, а в табл. 5.2 – очікувані.


ло і значення z, отримане за тими самими даними. Можна показати, що з таблиць спряженості розміром 2x2 виконується рівність X2 = z2.

Критичне значення %2 можна знайти добре знайомим нам способом. На рис. 5.7 показано розподіл можливих значень X2 для таблиць сполученості розміром 2x2 для випадку, коли між ознаками, що вивчаються, немає ніякого зв'язку. Величина X2 перевищує 3,84 лише у 5% випадків. Таким чином, 3,84 – критичне значення для 5% рівня значущості. У прикладі з тромбозом шунта ми отримали значення 7,10 тому ми відхиляємо гіпотезу про відсутність зв'язку між прийомом аспірину і утворенням тромбів. Навпаки, дані із табл. 5.3 добре узгоджуються з гіпотезою про однаковий вплив галотану та морфіну на післяопераційний рівень смертності.

Вочевидь, як і критерії значимості, х2 дає ймовірнісну оцінку істинності тієї чи іншої гіпотези. Насправді аспірин може і не впливати на ризик тромбозу. Насправді галотан та морфін можуть по-різному впливати на операційну летальність. Але, як показав критерій, те й інше малоймовірне.

Застосування критерію х2 є правомірним, якщо очікуване число в будь-якій з клітин більше або дорівнює 5. Ця умова аналогічна умові застосування критерію z.

Критичне значення %2 залежить від розмірів таблиці спряженості, тобто від кількості порівнюваних методів лікування (рядок таблиці) та кількості можливих результатів (стовпців таблиці). Розмір таблиці виражається числом ступенів свободи v:

V = (r - 1) (с - 1),

де r – число рядків, а з – число стовпців. Для таблиць розміром 2x2 маємо v = (2 – l) (2 – l) = l. Критичні значення %2 для різних v наведено у табл. 5.7.

Наведена раніше формула для х2 у разі таблиці 2x2 (тобто за 1 ступеня свободи) дає дещо завищені значення (подібна ситуація була з критерієм z). Це викликано тим, що теоретичний розподіл х2 безперервний, тоді як набір обчислених значень х2 дискретний. Насправді це призведе до того що, що нульова гіпотеза відкидатися занадто часто. Щоб компенсувати цей ефект, формулу вводять поправку Йєїтса:(1 O - E - -

Зауважимо, поправка Йєїтса застосовується лише за v = 1, тобто таблиць 2x2.

Застосуємо поправку Йєїтса до вивчення зв'язку між прийомом аспірину та тромбозами шунта (табл. 5.1 та 5.2):


Як ви пам'ятаєте, без виправлення Йейтса значення %2 дорівнювало 7,10. Виправлене значення %2 виявилося меншим за 6,635 - критичного значення для 1% рівня значущості, але, як і раніше, перевищує 5,024 - критичне значення для 2,5% рівня значимості.

Критерій х2 для довільної таблиці сполученості

Тепер розглянемо випадок, коли таблиця сполученості має число рядків чи стовпців, більше двох. Зверніть увагу, що критерій z у таких випадках не застосовується.

У гол. 3 показали, що заняття бігом зменшують кількість менструацій*. Чи спонукають ці зміни звертатися до лікаря? У табл. 5.5 наведено результати опитування учасниць дослідження. Чи підтверджують ці дані гіпотезу про те, що заняття бігом не впливають на можливість звернення до лікаря з приводу нерегулярності менструації?

Зі 165 обстежених жінок 69 (тобто 42%) звернулися до лікаря, решта 96 (тобто 58%) до лікаря не зверталися. Якщо

* При цьому ми для простоти обчислень розміри всіх трьох груп – контрольної, фізкультурниць та спортсменок – вважали однаковими. Тепер ми скористаємося цими даними.


заняття бігом не впливають на можливість звернення до лікаря, то в кожній з груп до лікаря мало звернутися 42% жінок. У табл. 5.6 наведено відповідні очікувані значення. Чи сильно відрізняються від них реальні дані?

Для відповіді на це запитання обчислимо %2:

(14 - 22,58)2 (40 - 31,42)2 (9 - 9,62)2

22,58 31,42 9,62

(14 - 13,38)2 (46 - 36,80)2 (42 - 51,20)2

13,38 36,80 51,20

Число рядків таблиці сполучення дорівнює трьом, стовпців - двом, тому число ступенів свободи v = (3 - 1) (2 - 1) = 2. Якщо гіпотеза про відсутність міжгрупових відмінностей правильна, то, як видно з табл. 5.7 значення %2 перевищить 9,21 не більше ніж у 1% випадків. Отримане значення більше. Тим самим, при рівні значущості 0,01 можна відхилити гіпотезу про відсутність зв'язку між бігом та зверненнями до лікаря щодо менструації. Проте, з'ясувавши, що зв'язок існує ми, тим не менш, не зможемо вказати, які саме групи відрізняються від інших.

Отже, ми познайомилися із критерієм %2. Ось порядок його застосування.

Побудуйте за наявними даними таблицю сполучення.

Підрахуйте число об'єктів у кожному рядку і кожному стовпці і знайдіть, яку частку від загальної кількості об'єктів становлять ці величини.

Знаючи ці частки, підрахуйте з точністю до двох знаків після коми очікувані числа - кількість об'єктів, які
потрапило б у кожну клітинку таблиці, якби зв'язок між рядками та стовпцями не був би

Знайдіть величину, що характеризує відмінності спостережуваних та очікуваних значень. Якщо таблиця парності має розмір 2x2, застосуйте поправку Йєїтса

Обчисліть число ступенів свободи, виберіть рівень значущості та за табл. 5.7, визначте критичне значення %2. Порівняйте його з отриманим для таблиці.

Як ви пам'ятаєте, для таблиць сполученості розміром 2x2 критерій х2 застосовується тільки у випадку, коли всі очікувані числа більше 5. Як йдеться з таблицями більшого розміру? В цьому випадку критерії %2 застосовується, якщо всі очікувані числа не менше 1 і частка клітин з очікуваними числами менше 5 не перевищує 20%. При невиконанні цих умов критерії х2 можуть дати помилкові результати. У такому випадку можна зібрати додаткові дані, проте це не завжди можливо. Є й простіший шлях - об'єднати кілька рядків чи стовпців. Нижче ми покажемо, як це зробити.

Перетворення таблиць сполученості

У попередньому розділі ми встановили існування зв'язку між заняттям бігом та зверненнями до лікаря щодо менструацій або, що, те саме, існування відмінностей між групами за частотою звернення до лікаря. Однак ми не могли визначити, які саме групи відрізняються одна від одної, а які ні. Зі схожою ситуацією ми стикалися в дисперсійному аналізі. При порівнянні декількох груп дисперсійний аналіз дозволяє виявити сам факт існування відмінностей, але не вказує групи, що виділяються. Останнє дозволяють зробити процедури множинного порівняння, про які ми говорили у гол. 4. Щось подібне можна зробити і з таблицями спряженості.

Дивлячись на табл. 5.5 можна припустити, що фізкультурниці та спортсменки зверталися до лікаря частіше, ніж жінки з контрольної групи. Відмінність між фізкультурницями та спортсменками видається незначною.

Перевіримо гіпотезу про те, що фізкультурниці та спортсмен-

V 0,50 0,25 0,10 0,05 0,025 0,01 0,005 0,001
41 40,335 46,692 52,949 56,942 60,561 64,950 68,053 74,745
42 41,335 47,766 54,090 58,124 61,777 66,206 69,336 76,084
43 42,335 48,840 55,230 59,304 62,990 67,459 70,616 77,419
44 43,335 49,913 56,369 60,481 64,201 68,710 71,893 78,750
45 44,335 50,985 57,505 61,656 65,410 69,957 73,166 80,077
46 45,335 52,056 58,641 62,830 66,617 71,201 74,437 81,400
47 46,335 53,127 59,774 64,001 67,821 72,443 75,704 82,720
48 47,335 54,196 60,907 65,171 69,023 73,683 76,969 84,037
49 48,335 55,265 62,038 66,339 70,222 74,919 78,231 85,351
50 49,335 56,334 63,167 67,505 71,420 76,154 79,490 86,661
Рівень значущості

J. H. Zar, Biostatistical Analysis, 2d ed, Prentice-Hall, Englewood Cliffs, NJ, 1984.

ки звертаються до лікаря однаково часто. Для цього виділимо з вихідної таблиці підтаблицю, що містить дані по цих двох групах. У табл. 5.8 наведені спостерігаються та очікувані числа; вони досить близькі.

Роутери