Проверка простых гипотез критерием хи-квадрат Пирсона в MS EXCEL. Критерий Пирсона. Проверка гипотезы о нормальном распределении
Лабораторная работа №6. Проверка гипотезы о нормальном распределении выборки по критерию Пирсона.
Лабораторная работа выполняется в Excel 2007.
Цель работы – дать навыки первичной обработки данных, построении гистограмм, подборе подходящего закона распределения и вычислении его параметров, проверка согласия между эмпирическим и гипотетическим законом распределения по критерию хи-квадрат Пирсона средствами Excel.
1. Формирование выборки нормально распределенных случайных чисел с заданными значениями математического ожидания и среднего квадратического отклонения.
Данные → Анализ данных → Генерация случайных чисел → ОК .
Рис. 1. Диалоговое окно Анализ данных
В появившемся окне Генерация случайных чисел ввести:
Число переменных: 1 ;
Число случайных чисел: 100 ;
Распределение: Нормальное .
Параметры:
Среднее = 15 (математическое ожидание);
Стандартное отклонение = 2 (среднее квадратическое отклонение);
Случайное рассеивание: не заполнять (или заполнить по указанию преподавателя );
Выходной интервал: адрес первой ячейки столбца массива случайных чисел - $ A $1 . ОК .
Рис. 2. Диалоговое окно Генерация случайных чисел с заполненными полями ввода
В результате выполнения операции Генерация случайных чисел появится столбец $ A $1: $A$100 , содержащий 100 случайных чисел.
Рис. 3. Фрагмент листа Excel первых нескольких случайных чисел $A$1: $A$100.
2. Определение параметров выборки, описательные статистики
В главном меню Excel выбрать: Данные → Анализ данных → Описательная статистика → ОК .
В появившемся окне Описательная статистика ввести:
Входной интервал – 100 случайных чисел в ячейках $ A $1: $ A $100 ;
Группирование - по столбцам;
Выходной интервал – адрес ячейки, с которой начинается таблица Описательная статистика - $ C $1 ;
Итоговая статистика – поставить галочку. ОК.
Рис. 4. Диалоговое окно Описательная статистика с заполненными полями ввода.
На листе Excel появится таблица – Столбец 1
Рис. 5. Таблица Столбец 1 с данными процедуры Описательная статистика .
Таблица содержит описательные статистики, в частности:
Среднее – оценка математического ожидания;
Стандартное отклонение – оценка среднего квадратического отклонения;
Эксцесс и Асимметричность – оценки эксцесса и асимметрии.
Приблизительное равенство нулю оценок эксцесса и асимметрии, и приблизительное равенство оценки среднего оценке медианы дает предварительное основание выбрать в качестве основной гипотезы H 0 распределения элементов генеральной совокупности - нормальный закон.
Интервал – размах выборки;
Минимум – минимальное значение случайной величины в выборке;
Максимум – максимальное значение случайной величины в выборке.
В ячейке F 15 - длина частичного интервала h , вычисленная следующим образом:
Число интервалов группировки k в Excel вычисляется автоматически по формуле
где, скобки означают – округление до целой части числа в меньшую сторону.
В рассматриваемом варианте n = 100 , следовательно, k = 11 . Действительно:
Эта формула занесена в ячейку F 15: =($D$13-$D$12)/10
Результаты процедуры Описательная статистика потребуются в дальнейшем при построении теоретического закона распределения.
ЛАБОРАТОРНАЯ РАБОТА
КОРРЕЛЯЦИОННЫЙ АНАЛИЗ В EXCEL
1.1 Корреляционный анализ в MS Excel
Корреляционный анализ состоит в определении степени связи между двумя случайными величинами X и Y. В качестве меры такой связи используется коэффициент корреляции. Коэффициент корреляции оценивается по выборке объема п связанных пар наблюдений (x i , y i) из совместной генеральной совокупности X и Y. Для оценки степени взаимосвязи величин X и Y, измеренных в количественных шкалах, используетсякоэффициент линейной корреляции (коэффициент Пирсона), предполагающий, что выборки X и Y распределены по нормальному закону.
Коэффициент корреляции изменяется от -1 (строгая обратная линейная зависимость) до 1 (строгая прямая пропорциональная зависимость). При значении 0 линейной зависимости между двумя выборками нет.
Общая классификация корреляционных связей (по Ивантер Э.В., Коросову А.В., 1992):
Существует несколько типов коэффициентов корреляции, что зависит от переменных Х иY, которые могут быть измерены в разных шкалах. Именно этот факт и определяет выбор соответствующего коэффициента корреляции (см. табл. 13):
В MS Excel для вычисления парных коэффициентов линейной корреляции используется специальная функция КОРРЕЛ (массив1; массив2),
№ испытуемых | ||
Пример 1: 10 школьникам были даны тесты на наглядно-образное и вербальное мышление. Измерялось среднее время решения заданий теста в секундах. Исследователя интересует вопрос: существует ли взаимосвязь между временем решения этих задач? Переменная X - обозначает среднее время решения наглядно-образных, а переменная Y- среднее время решения вербальных заданий тестов.
Решение: Для выявления степени взаимосвязи, прежде всего, необходимо ввести данные в таблицу MS Excel (см. табл., рис. 1). Затем вычисляется значение коэффициента корреляции. Для этого курсор установите в ячейку C1. На панели инструментов нажмите кнопку Вставка функции (fx).
В появившемся диалоговом окне Мастер функций выберите категорию Статистические и функциюКОРРЕЛ , после чего нажмите кнопку ОК. Указателем мыши введите диапазон данных выборки Х в поле массив1 (А1:А10). В поле массив2 введите диапазон данных выборки У (В1:В10). Нажмите кнопку ОК. В ячейке С1 появится значение коэффициента корреляции - 0,54119. Далее необходимо посмотреть на абсолютное число коэффициента корреляции и определить тип связи (тесная, слабая, средняя и т.д.)
Рис. 1. Результаты вычисления коэффициента корреляции
Таким образом, связь между временем решения наглядно-образных и вербальных заданий теста не доказана.
Задание 1. Имеются данные по 20 сельскохозяйственным хозяйствам. Найтикоэффициент корреляции между величинами урожайности зерновых культур и качеством земли и оценить его значимость. Данные приведены в таблице.
Таблица 2. Зависимость урожайности зерновых культур от качества земли
Номер хозяйства |
Качество земли, балл |
Урожайность, ц/га |
Задание 2. Определите, имеется ли связь между временем работы спортивного тренажера для фитнеса (тыс. часов) и стоимость его ремонта (тыс. руб.):
Время работа тренажера (тыс. часов) |
Стоимость ремонта (тыс. руб.) |
1.2 Множественная корреляция в MS Excel
При большом числе наблюдений, когда коэффициенты корреляции необходимо последовательно вычислять для нескольких выборок, для удобства получаемые коэффициенты сводят в таблицы, называемые корреляционными матрицами .
Корреляционная матрица - это квадратная таблица, в которой на пересечении соответствующих строк и столбцов находятся коэффициент корреляции между соответствующими параметрами.
В MS Excel для вычисления корреляционных матриц используется процедура Корреляция из пакета Анализ данных. Процедура позволяет получить корреляционную матрицу, содержащую коэффициенты корреляции между различными параметрами.
Для реализации процедуры необходимо:
1. выполнить команду Сервис - Анализ данных ;
2. в появившемся списке Инструменты анализа выбрать строку Корреляция и нажать кнопку ОК ;
3. в появившемся диалоговом окне указать Входной интервал , то есть ввести ссылку на ячейки, содержащие анализируемые данные. Входной интервал должен содержать не менее двух столбцов.
4. в разделе Группировка переключатель установить в соответствии с введенными данными (по столбцам или по строкам);
5. указать выходной интервал , то есть ввести ссылку на ячейку, начиная с которой будут показаны результаты анализа. Размер выходного диапазона будет определен автоматически, и на экран будет выведено сообщение в случае возможного наложения выходного диапазона на исходные данные. Нажать кнопку ОК .
В выходной диапазон будет выведена корреляционная матрица, в которой на пересечении каждых строки и столбца находится коэффициент корреляции между соответствующими параметрами. Ячейки выходного диапазона, имеющие совпадающие координаты строк и столбцов, содержат значение 1, так как каждый столбец во входном диапазоне полностью коррелирует сам с собой
Пример 2. Имеются ежемесячные данные наблюдений за состоянием погоды и посещаемостью музеев и парков (см. табл. 3). Необходимо определить, существует ли взаимосвязь между состоянием погоды и посещаемостью музеев и парков.
Таблица 3. Результаты наблюдений
Число ясных дней |
Количество посетителей музея |
Количество посетителей парка |
Решение . Для выполнения корреляционного анализа введите в диапазон A1:G3 исходные данные (рис. 2). Затем в меню Сервис выберите пункт Анализ данных и далее укажите строку Корреляция . В появившемся диалоговом окне укажите Входной интервал (А2:С7). Укажите, что данные рассматриваются по столбцам. Укажите выходной диапазон (Е1) и нажмите кнопку ОК .
На рис. 33 видно, что корреляция между состоянием погоды и посещаемостью музея равна -0,92, а между состоянием погоды и посещаемостью парка - 0,97, между посещаемостью парка и музея - 0,92.
Таким образом, в результате анализа выявлены зависимости: сильная степень обратной линейной взаимосвязи между посещаемостью музея и количеством солнечных дней и практически линейная (очень сильная прямая) связь между посещаемостью парка и состоянием погоды. Между посещаемостью музея и парка имеется сильная обратная взаимосвязь.
Рис. 2. Результаты вычисления корреляционной матрицы из примера 2
Задание 3 . 10 менеджеров оценивались по методике экспертных оценок психологических характеристик личности руководителя. 15 экспертов производили оценку каждой психологической характеристики по пятибальной системе (см. табл. 4). Психолога интересует вопрос, в какой взаимосвязи находятся эти характеристики руководителя между собой.
Таблица 4. Результаты исследования
Испытуемые п/п |
тактичность |
требовательность |
критичность |
Критерий χ 2 Пирсона – это непараметрический метод, который позволяет оценить значимость различий между фактическим (выявленным в результате исследования) количеством исходов или качественных характеристик выборки, попадающих в каждую категорию, и теоретическим количеством, которое можно ожидать в изучаемых группах при справедливости нулевой гипотезы. Выражаясь проще, метод позволяет оценить статистическую значимость различий двух или нескольких относительных показателей (частот, долей).
1. История разработки критерия χ 2
Критерий хи-квадрат для анализа таблиц сопряженности был разработан и предложен в 1900 году английским математиком, статистиком, биологом и философом, основателем математической статистики и одним из основоположников биометрики Карлом Пирсоном (1857-1936).
2. Для чего используется критерий χ 2 Пирсона?
Критерий хи-квадрат может применяться при анализе таблиц сопряженности , содержащих сведения о частоте исходов в зависимости от наличия фактора риска. Например, четырехпольная таблица сопряженности выглядит следующим образом:
Исход есть (1) | Исхода нет (0) | Всего | |
Фактор риска есть (1) | A | B | A + B |
Фактор риска отсутствует (0) | C | D | C + D |
Всего | A + C | B + D | A + B + C + D |
Как заполнить такую таблицу сопряженности? Рассмотрим небольшой пример.
Проводится исследование влияния курения на риск развития артериальной гипертонии. Для этого были отобраны две группы исследуемых - в первую вошли 70 человек, ежедневно выкуривающих не менее 1 пачки сигарет, во вторую - 80 некурящих такого же возраста. В первой группе у 40 человек отмечалось повышенное артериальное давление. Во второй - артериальная гипертония наблюдалась у 32 человек. Соответственно, нормальное артериальное давление в группе курильщиков было у 30 человек (70 - 40 = 30) а в группе некурящих - у 48 (80 - 32 = 48).
Заполняем исходными данными четырехпольную таблицу сопряженности:
В полученной таблице сопряженности каждая строчка соответствует определенной группе исследуемых. Столбцы - показывают число лиц с артериальной гипертонией или с нормальным артериальным давлением.
Задача, которая ставится перед исследователем: имеются ли статистически значимые различия между частотой лиц с артериальным давлением среди курящих и некурящих? Ответить на этот вопрос можно, рассчитав критерий хи-квадрат Пирсона и сравнив получившееся значение с критическим.
3. Условия и ограничения применения критерия хи-квадрат Пирсона
- Сопоставляемые показатели должны быть измерены в номинальной шкале (например, пол пациента - мужской или женский) или в порядковой (например, степень артериальной гипертензии, принимающая значения от 0 до 3).
- Данный метод позволяет проводить анализ не только четырехпольных таблиц, когда и фактор, и исход являются бинарными переменными, то есть имеют только два возможных значения (например, мужской или женский пол, наличие или отсутствие определенного заболевания в анамнезе...). Критерий хи-квадрат Пирсона может применяться и в случае анализа многопольных таблиц, когда фактор и (или) исход принимают три и более значений.
- Сопоставляемые группы должны быть независимыми, то есть критерий хи-квадрат не должен применяться при сравнении наблюдений "до-"после". В этих случаях проводится тест Мак-Немара (при сравнении двух связанных совокупностей) или рассчитывается Q-критерий Кохрена (в случае сравнения трех и более групп).
- При анализе четырехпольных таблиц ожидаемые значения в каждой из ячеек должны быть не менее 10. В том случае, если хотя бы в одной ячейке ожидаемое явление принимает значение от 5 до 9, критерий хи-квадрат должен рассчитываться с поправкой Йейтса . Если хотя бы в одной ячейке ожидаемое явление меньше 5, то для анализа должен использоваться точный критерий Фишера .
- В случае анализа многопольных таблиц ожидаемое число наблюдений не должно принимать значения менее 5 более чем в 20% ячеек.
4. Как рассчитать критерий хи-квадрат Пирсона?
Для расчета критерия хи-квадрат необходимо:
Данный алгоритм применим как для четырехпольных, так и для многопольных таблиц.
5. Как интерпретировать значение критерия хи-квадрат Пирсона?
В том случае, если полученное значение критерия χ 2 больше критического, делаем вывод о наличии статистической взаимосвязи между изучаемым фактором риска и исходом при соответствующем уровне значимости.
6. Пример расчета критерия хи-квадрат Пирсона
Определим статистическую значимость влияния фактора курения на частоту случаев артериальной гипертонии по рассмотренной выше таблице:
- Рассчитываем ожидаемые значения для каждой ячейки:
- Находим значение критерия хи-квадрат Пирсона:
χ 2 = (40-33.6) 2 /33.6 + (30-36.4) 2 /36.4 + (32-38.4) 2 /38.4 + (48-41.6) 2 /41.6 = 4.396.
- Число степеней свободы f = (2-1)*(2-1) = 1. Находим по таблице критическое значение критерия хи-квадрат Пирсона, которое при уровне значимости p=0.05 и числе степеней свободы 1 составляет 3.841.
- Сравниваем полученное значение критерия хи-квадрат с критическим: 4.396 > 3.841, следовательно зависимость частоты случаев артериальной гипертонии от наличия курения - статистически значима. Уровень значимости данной взаимосвязи соответствует p<0.05.
Оценка соответствия нормальному распределению
Этот метод используется для проверки согласия опытного и теоретического распределения, если число испытаний больше 100.
Суть метода заключается в определении критерия Пирсона (c 2 ) с последующим сравнением полученного значения с теоретическим.
Порядок определения критерия Пирсона:
Определяют среднее значение и среднее квадратическое отклонение. Для расчета критерия Пирсона составляют таблицу (таблице 11).
2. Определяют отношение
3. С помощью специальной таблицы (таблица 12) определяют частоту распределения Y 0 .
Таблица 11
Таблица 12
t | 0,00 | 0,01 | 0,02 | 0,03 | 0,04 | 0,05 | 0,06 | 0,07 | 0,08 | 0,09 |
0,0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1,0 1,1 1,2 1,3 1,4 1,5 1,6 1,7 1,8 1,9 2,0 2,1 2,2 2,3 2,4 2,5 2,6 2,7 2,8 2,9 3,0 3,1 3,2 3,3 3,4 3,5 3,6 3,7 3,8 3,9 | 0,3989 0,2420 0,0544 0,0044 |
4. Рассчитывают теоретическое значение частот
(40)
где n - общее число испытаний;
k - классовый интервал;
S - среднее квадратическое отклонение.
5. Определяют разность между фактической и теоретической частотой распределения
y i – U т (41)
рассчитывают
6. Находят критерий Пирсона
(43)
7. Определяют число степеней свободы
С = m-3 (44)
где C - число степеней свободы;
m - число классов или строк.
8. Задаваясь доверительной вероятностью q , определяют теоретическое значение критерия Пирсона.
9. Сравнивают c ф 2 с c т 2. Если c 2 ф < c 2 т , то для принятой доверительной вероятности гипотеза о согласии опытного и теоретического распределения принимается, в противном случае отвергается.
В программе Excel проверка осуществляется с помощью функции ХИ2ТЕСТ (рис. 22). ХИ2ТЕСТ возвращает значение для распределения χ 2 Критерий используется для определения того, подтверждается ли гипотеза экспериментом.
Рис. 22. Функция ХИ2ТЕСТ
ХИ2ТЕСТ (фактический_интервал ;ожидаемый_интервал )
Фактический_интервал - это интервал данных, которые содержат наблюдения, подлежащие сравнению с ожидаемыми значениями.
Ожидаемый_интервал - это интервал данных, который содержит отношение произведений итогов по строкам и столбцам к общему итогу.
Если фактический_интервал и ожидаемый_интервал имеют различное количество точек данных, то функция ХИ2ТЕСТ возвращает значение ошибки #Н/Д.
Критерий χ 2 сначала вычисляет χ 2 статистику, используя формулу:
(45)
где A ij - фактическая частота в i -ой строке, j -ом столбце
E ij - ожидаемая частота в i-ой строке, j-ом столбце
r - число строк
c - число столбцов
Значение критерия χ 2 является индикатором независимости. Как видно из формулы, критерий χ 2 всегда положительный или равен 0, а последнее возможно только, если A ij = E ij при любых значениях i,j .
ХИ2ТЕСТ возвращает вероятность того, что при условии независимости может быть получено значение χ 2 статистики по крайней мере такое же высокое, как полученное из приведенной выше формулы. Чтобы вычислить эту вероятность, ХИ2ТЕСТ использует распределение χ 2 с соответствующим числом степеней свободы (df ). Если r > 1, а c > 1, то df = (r - 1)(c - 1). Если r = 1, а c > 1, то df = c - 1 или если r > 1, а c = 1, то df = r - 1. Равенство, где r = c= 1, не позволительно, поэтому появится сообщение об ошибке #Н/Д.
Функцию ХИ2ТЕСТ можно использовать в тех случаях, когда гипотетическое распределение задано полностью, то есть заданы не только вид гипотетического закона распределения, но и все параметры этого закона. Только в этом случае функция правильно выдает число степеней свободы.
ХИ2РАСП (x;степени_свободы) (рис. 23) возвращает одностороннюю вероятность распределения хи-квадрат. Распределение χ 2 связано с критерием χ 2 . Критерий χ 2 используется для сравнения предполагаемых и наблюдаемых значений. Например, в генетическом эксперименте выдвигается гипотеза, что следующее поколение растений будет обладать определенной окраской. Сравнивая наблюдаемые результаты с предполагаемыми, можно определить, была ли верна исходная гипотеза.
х – значение, для которого требуется вычислить распределение.
Степени_свободы – число степеней свободы.
Рис. 23. Функция ХИ2РАСП
Если какой-либо из аргументов не является числом, функция ХИ2РАСП возвращает значение ошибки #ЗНАЧ!.
Если x отрицательное значение, функция ХИ2РАСП
Если степени_свободы < 1 или степени_свободы > 10^10, функция ХИ2РАСП возвращает значение ошибки #ЧИСЛО!.
ХИ2РАСП вычисляется как ХИ2РАСП = P(X> x), где x - χ 2 случайная величина.
ХИ2ОБР (вероятность;степени_свободы) (рис. 24) возвращает значение, обратное односторонней вероятности распределения хи-квадрат. Если вероятность = ХИ2РАСП (x;...), то ХИ2ОБР (вероятность;...) = x. Данная функция позволяет сравнить наблюдаемые результаты с ожидаемыми, чтобы определить, была ли верна исходная гипотеза.
Вероятность - вероятность, связанная с распределением c2 (хи-квадрат).
Степени_свободы - число степеней свободы.
Если какой-либо из аргументов не является числом, функция ХИ2ОБР возвращает значение ошибки #ЗНАЧ!
Рис. 24. Функция ХИ2ОБР
Если вероятность < 0 или вероятность > 1, функция ХИ2ОБР возвращает значение ошибки #ЧИСЛО!
Если значение аргумента «степени_свободы» не является целым числом, оно усекается.
Если степени_свободы < 1 или степени_свободы ≥ 10^10, ХИ2ОБР возвращает значение ошибки #ЧИСЛО!
Если задано значение вероятности, то функция ХИ2ОБР ищет значение x, для которого функция ХИ2РАСП (x; степень_свободы) = вероятность. Однако точность функции ХИ2ОБР зависит от точности ХИ2РАСП . В функции ХИ2ОБР для поиска применяется метод итераций. Если поиск не закончился после 100 итераций, функция возвращает сообщение об ошибке #Н/Д.
Коэффициент корреляции отражает степень взаимосвязи между двумя показателями. Всегда принимает значение от -1 до 1. Если коэффициент расположился около 0, то говорят об отсутствии связи между переменными.
Если значение близко к единице (от 0,9, например), то между наблюдаемыми объектами существует сильная прямая взаимосвязь. Если коэффициент близок к другой крайней точке диапазона (-1), то между переменными имеется сильная обратная взаимосвязь. Когда значение находится где-то посередине от 0 до 1 или от 0 до -1, то речь идет о слабой связи (прямой или обратной). Такую взаимосвязь обычно не учитывают: считается, что ее нет.
Расчет коэффициента корреляции в Excel
Рассмотрим на примере способы расчета коэффициента корреляции, особенности прямой и обратной взаимосвязи между переменными.
Значения показателей x и y:
Y – независимая переменная, x – зависимая. Необходимо найти силу (сильная / слабая) и направление (прямая / обратная) связи между ними. Формула коэффициента корреляции выглядит так:
Чтобы упростить ее понимание, разобьем на несколько несложных элементов.
Между переменными определяется сильная прямая связь.
Встроенная функция КОРРЕЛ позволяет избежать сложных расчетов. Рассчитаем коэффициент парной корреляции в Excel с ее помощью. Вызываем мастер функций. Находим нужную. Аргументы функции – массив значений y и массив значений х:
Покажем значения переменных на графике:
Видна сильная связь между y и х, т.к. линии идут практически параллельно друг другу. Взаимосвязь прямая: растет y – растет х, уменьшается y – уменьшается х.
Матрица парных коэффициентов корреляции в Excel
Корреляционная матрица представляет собой таблицу, на пересечении строк и столбцов которой находятся коэффициенты корреляции между соответствующими значениями. Имеет смысл ее строить для нескольких переменных.
Матрица коэффициентов корреляции в Excel строится с помощью инструмента «Корреляция» из пакета «Анализ данных».
Между значениями y и х1 обнаружена сильная прямая взаимосвязь. Между х1 и х2 имеется сильная обратная связь. Связь со значениями в столбце х3 практически отсутствует.