Применение χ2-критерия для проверки гипотезы о равенстве двух или нескольких долей. Проверка простых гипотез критерием хи-квадрат Пирсона в MS EXCEL Условия и ограничения применения критерия хи-квадрат Пирсона

Статистический критерий

Правило, по которому гипотеза Я 0 отвергается или принимается, называется статистическим критерием. В названии критерия, как правило, содержится буква, которой обозначается специально составленная характеристика из п. 2 алгоритма проверки статистической гипотезы (см. п. 4.1), рассчитываемая в критерии. В условиях данного алгоритма критерий назывался бы «в -критерий».

При проверке статистических гипотез возможны два типа ошибок:

  • - ошибка первого рода (можно отвергнуть гипотезу Я 0 , когда она на самом деле верна);
  • - ошибка второго рода (можно принять гипотезу Я 0 , когда она на самом деле не верна).

Вероятность а допустить ошибку первого рода называется уровнем значимости критерия.

Если за р обозначить вероятность допустить ошибку второго рода, то (l - р) - вероятность не допустить ошибку второго рода, которая называется мощностью критерия.

Критерий согласия х 2 Пирсона

Существует несколько типов статистических гипотез:

  • - о законе распределения;
  • - однородности выборок;
  • - численных значениях параметров распределения и т.д.

Мы будем рассматривать гипотезу о законе распределения на примере критерия согласия х 2 Пирсона.

Критерием согласия называют статистический критерий проверки нулевой гипотезы о предполагаемом законе неизвестного распределения.

В основе критерия согласия Пирсона лежит сравнение эмпирических (наблюдаемых) и теоретических частот наблюдений, вычисленных в предположении определенного закона распределения. Гипотеза # 0 здесь формулируется так: по исследуемому признаку генеральная совокупность распределена нормально.

Алгоритм проверки статистической гипотезы # 0 для критерия х 1 Пирсона:

  • 1) выдвигаем гипотезу Я 0 - по исследуемому признаку генеральная совокупность распределена нормально;
  • 2) вычисляем выборочную среднюю и выборочное среднее квадратическое отклонение о в;

3) по имеющейся выборке объема п рассчитываем специально составленную характеристику ,

где: я, - эмпирические частоты, - теоретические частоты,

п - объем выборки,

h - величина интервала (разность между двумя соседними вариантами),

Нормализованные значения наблюдаемого признака,

- табличная функция. Также теоретические частоты

могут быть вычислены с помощью стандартной функции MS Excel НОРМРАСП по формуле ;

4) по выборочному распределению определяем критическое значение специально составленной характеристики xl P

5) при гипотеза # 0 отвергается, при гипотеза # 0 принимается.

Пример. Рассмотрим признак X - величину показателей тестирования осужденных в одной из исправительных колоний по некоторой психологической характеристике, представленный в виде вариационного ряда:

На уровне значимости 0,05 проверить гипотезу о нормальном распределении генеральной совокупности.

1. На основе эмпирического распределения можно выдвинуть гипотезу Н 0 : по исследуемому признаку «величина показателя тестирования по данной психологической характеристике» генеральная совокупность осу-

жденных распределена нормально. Альтернативная гипотеза 1: по исследуемому признаку «величина показателя тестирования по данной психологической характеристике» генеральная совокупность осужденных не распределена нормально.

2. Вычислим числовые выборочные характеристики:

Интервалы

х г щ

х} щ

3. Вычислим специально составленную характеристику j 2 . Для этого в предпоследнем столбце предыдущей таблицы найдем теоретические частоты по формуле , а в последнем столбце

проведем расчет характеристики % 2 . Получаем х 2 = 0,185.

Для наглядности построим полигон эмпирического распределения и нормальную кривую по теоретическим частотам (рис. 6).

Рис. 6.

4. Определим число степеней свободы s : к = 5, т = 2, s = 5-2-1 = 2.

По таблице или с помощью стандартной функции MS Excel «ХИ20БР» для числа степеней свободы 5 = 2 и уровня значимости а = 0,05 найдем критическое значение критерия xl P . =5,99. Для уровня значимости а = 0,01 критическое значение критерия х%. = 9,2.

5. Наблюдаемое значение критерия х =0,185 меньше всех найденных значений Хк Р.-> поэтому гипотеза Я 0 принимается на обоих уровнях значимости. Расхождение эмпирических и теоретических частот незначимое. Следовательно, данные наблюдений согласуются с гипотезой о нормальном распределении генеральной совокупности. Таким образом, по исследуемому признаку «величина показателя тестирования по данной психологической характеристике» генеральная совокупность осужденных распределена нормально.

  • 1. Корячко А.В., Куличенко А.Г. Высшая математика и математические методы в психологии: руководство к практическим занятиям для слушателей психологического факультета. Рязань, 1994.
  • 2. Наследов А.Д. Математические методы психологического исследования. Анализ и интерпретация данных: Учеб, пособие. СПб., 2008.
  • 3. Сидоренко Е.В. Методы математической обработки в психологии. СПб., 2010.
  • 4. Сошникова Л.А. и др. Многомерный статистический анализ в экономике: Учеб, пособие для вузов. М., 1999.
  • 5. Суходольский Е.В. Математические методы в психологии. Харьков, 2004.
  • 6. Шмойлова Р.А., Минашкин В.Е., Садовникова Н.А. Практикум по теории статистики: Учеб, пособие. М., 2009.
  • Гмурман В.Е. Теория вероятностей и математическая статистика. С. 465.

ОПР. Эмпирическими частотами называются фактически наблюдаемые частоты.

ПРОВЕРКА ГИПОТЕЗЫ О РАСПРЕДЕЛЕНИИ ГЕНЕРАЛЬНОЙ СОВОКУПНОСТИ. КРИТЕРИЙ ПИРСОНА

Как отмечалось раньше, предположение о виде распределения может быть выдвинуто исходя из теоретических предпосылок. Однако, как бы хорошо ни был подобран теоретический закон распределения, между эмпирическим и теоретическим распределениями неизбежны расхождения. Естественно возникает вопрос: объясняются ли эти расхождения только случайными обстоятельствами, связанными с ограниченным числом наблюдений, или они являются существенными и связаны с тем, что теоретический закон распределения подобран неудачно. Для ответа на этот вопрос и служит критерий согласия, т.е.

ОПР. Критерием согласия называется критерий проверки гипотезы о предполагаемом законе неизвестного распределения.

Для каждого критерия, т.е. соответствующего распределения, обычно составлены таблицы, по которым находят k кр (см. приложения). После того как критическая точка найдена, по данным выборки вычисляют наблюдаемое значение критерия К набл. Если К набл > k кр, то нулевую гипотезу отвергают, если наоборот, то принимают.

Опишем применение критерия Пирсона к проверке гипотезы о нормальном распределении генеральной совокупности. Критерий Пирсона отвечает на вопрос о том, случайно ил расхождение эмпирических и теоретических частот?

Критерий Пирсона, как и любой критерий не доказывает справедливость гипотезы, а лишь устанавливает, на принятом уровне значимости, ее согласие или несогласие с данными наблюдений.

Итак, пусть по выборке объема п получено эмпирическое распределение. При уровне значимости a требуется проверить нулевую гипотезу: генеральная совокупность распределена нормально.

В качестве критерия проверки нулевой гипотезы принимают случайную величину c 2 = , где - эмпирические частоты; - теоретические частоты.

Данная СВ имеет c 2 – распределение с k - степенями свободы. Число степеней свободы находят по равенству k=m –r -1, m – число частичных интервалов выборки; r – число параметров распределения. Для нормального распределения r=2 (а и s), тогда k=m –3.

Для того чтобы при заданном уровне значимости, проверить нулевую гипотезу: генеральная совокупность распределена нормально, надо:

1.Вычислить выборочную среднюю и выборочное среднее квадратическое отклонение.

2.Вычислить теоретические частоты ,

где п – объем выборки; h – шаг(разность между двумя соседними вариантами); ; значения функции смотрят по приложению.

3. Сравнивают эмпирические и теоретические частоты с помощью критерия Пирсона. Для этого:



а) находят наблюдаемое значение критерия ;

б) по таблице критических точек распределения c 2 , по заданному уровню значимости a и числу степеней свободы k находят критическую точку .

Если < - нет оснований отвергнуть нулевую гипотезу. Если > - нулевую гипотезу отвергают.

Замечание. Малочисленные частоты ( <5) следует объединить; в этом случае и соответствующие им теоретические частоты также надо сложить. Если производилось объединение частот, то при определении числа степеней свободы следует в качестве m принять число групп выборки, оставшихся после объединения частот.

ч2-критерий Пирсона

Критерии, с помощью которых определяется удачно или неудачно подобран закон распределения, принято обозначать критериями согласия. Критерий ч2 К. Пирсона - наиболее часто употребляемый критерий для проверки простой гипотезы о законе распределения. Он основан на использовании в качестве меры отклонения экспериментальных данных от гипотетического распределения той же величины, которая служит для построения доверительной области для неизвестной плотности, с заменой неизвестных истинных значений вероятностей попадания в интервалы вероятностями, вычисленными по гипотетическому распределению. Предположим, что область возможных значений случайной величины разбита на r интервалов (многомерных, т.е. прямоугольников, в случае векторной величины). Пусть - случайные частоты попадания в эти интервалы, получаемые в результате n опытов, Р1,…,Рr - вероятности попадания в те же интервалы, вычисленные по гипотетическому распределению.

В общем случае эти вероятности являются функциями оценок неизвестных параметров, получаемых по тем же экспериментальным данным, и потому тоже являются случайными величинами. Предположим, что оценки неизвестных параметров гипотетического распределения вычисляются по той же группированной выборке, что и частоты. Тогда вероятности Р1,…,Рr будут некоторыми функциями частот, и для оценки отклонения экспериментальных данных от гипотетического распределения берут величину

где Р1,…,Рr - определенные функции частот.

Нейман и Пирсон показали, что если для вычисления вероятностей Р1,…,Рr применяется асимптотически эффективная и асимптотически нормальная оценка неизвестного s-мерного параметра гипотетического распределения по группированной выборке, то величина Z, определяемая формулой (1), в пределе при n ->? имеет ч2 -распределение с r-s-1 степенями свободы.

Пользуясь этой теоремой, можно оценивать расхождение экспериментальных данных с гипотетическим распределением с помощью таблиц ч2-распределения. Выберем достаточно малую вероятность р, чтобы событие с такой вероятностью можно было считать практически невозможным, и определим из уравнения

Если реализация =2величины Z, полученная в результате опытов, пре-восходит или равна, =2 , то гипотетическое распределение считают не согласующимся с экспериментальными данными, так как при этом распределении практически невозможно получить при одной выборке =2 . Вероятность такого события при большом числе опытов n приближенно равна р, т.е. пренебрежимо мала. В этом случае говорят, что имеет место значимое отклонение экспериментальных данных от гипотетического распределения. Если же =2, то считают, что гипотетическое распределение не противоречит экспериментальным данным, согласуется с ними.

Величина называется 100р-процетпным уровнем значимости отклонения выборки от гипотетического распределения. Обычно пользуются 5-, 1- и 0,1-процентными уровнями значимости, в зависимости от характера задачи.

Для дополнительной проверки согласованности экспериментальных данных с гипотетическим распределением полезно вычислить вероятность того, что при данном гипотетическом распределении величина Z окажется больше полученной в результате опытов ее реализации =2, P(Z > 2).Чем больше эта вероятность, тем лучше согласуется выборка с гипотетическим распределением, тем меньше значимость полученного расхождения выборки с гипотетическим распределением. Действительно, если вероятность Р(Z > 2) велика, то при повторении данной серии опытов в случае справедливости выбранной гипотезы о распределении часто будут получаться значения величины Z еще большие, чем полученное в результате опытов значение =2.

Обратим внимание на то, что, получив =2 < и даже получив высокую вероятность P(Z > 2), мы не делаем определенного вывода, что выбранная гипотеза о распределении справедлива, а говорим лишь, что эта гипотеза не противоречит полученным результатам опытов, что она согласуется с ними, вследствие чего ее можно принять. Чтобы получить достаточно веское доказательство того, что случайная величина действительно подчинена гипотетическому закону распределения, необходимо повторить данную серию опытов достаточно большое число раз и убедиться в том, что полученное согласование гипотезы с результатами опытов устойчиво.

Критерий Колмогорова

Критерий Колмогорова - вспомогательный критерий

В качестве вспомогательного критерия по проверке равномерности распределения P-значения основного критерия в данной работе используем критерий Колмогорова.

Критерий Колмогорова рассматривает максимальное значение модуля разности между статистической функцией распределения F^* (x) и соответствующей теоретической функцией распределения F(x, т.е. D = max|F^* (x)-F(x)|.

Следующим шагом определяется величина л=D. По статистическим таблицам (в среде matcalc функцией pvKolm(u)) находится вероятность того, что за счет чисто случайных причин максимальное расхождение между F^* (x) и F(x) будет не меньше, чем фактически наблюденное. Если вероятность P(л) сравнительно велика, то гипотезу следует принять, если весьма мала, то отвергнуть как неправдоподобную.

​ Критерий χ 2 Пирсона – это непараметрический метод, который позволяет оценить значимость различий между фактическим (выявленным в результате исследования) количеством исходов или качественных характеристик выборки, попадающих в каждую категорию, и теоретическим количеством, которое можно ожидать в изучаемых группах при справедливости нулевой гипотезы. Выражаясь проще, метод позволяет оценить статистическую значимость различий двух или нескольких относительных показателей (частот, долей).

1. История разработки критерия χ 2

Критерий хи-квадрат для анализа таблиц сопряженности был разработан и предложен в 1900 году английским математиком, статистиком, биологом и философом, основателем математической статистики и одним из основоположников биометрики Карлом Пирсоном (1857-1936).

2. Для чего используется критерий χ 2 Пирсона?

Критерий хи-квадрат может применяться при анализе таблиц сопряженности , содержащих сведения о частоте исходов в зависимости от наличия фактора риска. Например, четырехпольная таблица сопряженности выглядит следующим образом:

Исход есть (1) Исхода нет (0) Всего
Фактор риска есть (1) A B A + B
Фактор риска отсутствует (0) C D C + D
Всего A + C B + D A + B + C + D

Как заполнить такую таблицу сопряженности? Рассмотрим небольшой пример.

Проводится исследование влияния курения на риск развития артериальной гипертонии. Для этого были отобраны две группы исследуемых - в первую вошли 70 человек, ежедневно выкуривающих не менее 1 пачки сигарет, во вторую - 80 некурящих такого же возраста. В первой группе у 40 человек отмечалось повышенное артериальное давление. Во второй - артериальная гипертония наблюдалась у 32 человек. Соответственно, нормальное артериальное давление в группе курильщиков было у 30 человек (70 - 40 = 30) а в группе некурящих - у 48 (80 - 32 = 48).

Заполняем исходными данными четырехпольную таблицу сопряженности:

В полученной таблице сопряженности каждая строчка соответствует определенной группе исследуемых. Столбцы - показывают число лиц с артериальной гипертонией или с нормальным артериальным давлением.

Задача, которая ставится перед исследователем: имеются ли статистически значимые различия между частотой лиц с артериальным давлением среди курящих и некурящих? Ответить на этот вопрос можно, рассчитав критерий хи-квадрат Пирсона и сравнив получившееся значение с критическим.

3. Условия и ограничения применения критерия хи-квадрат Пирсона

  1. Сопоставляемые показатели должны быть измерены в номинальной шкале (например, пол пациента - мужской или женский) или в порядковой (например, степень артериальной гипертензии, принимающая значения от 0 до 3).
  2. Данный метод позволяет проводить анализ не только четырехпольных таблиц, когда и фактор, и исход являются бинарными переменными, то есть имеют только два возможных значения (например, мужской или женский пол, наличие или отсутствие определенного заболевания в анамнезе...). Критерий хи-квадрат Пирсона может применяться и в случае анализа многопольных таблиц, когда фактор и (или) исход принимают три и более значений.
  3. Сопоставляемые группы должны быть независимыми, то есть критерий хи-квадрат не должен применяться при сравнении наблюдений "до-"после". В этих случаях проводится тест Мак-Немара (при сравнении двух связанных совокупностей) или рассчитывается Q-критерий Кохрена (в случае сравнения трех и более групп).
  4. При анализе четырехпольных таблиц ожидаемые значения в каждой из ячеек должны быть не менее 10. В том случае, если хотя бы в одной ячейке ожидаемое явление принимает значение от 5 до 9, критерий хи-квадрат должен рассчитываться с поправкой Йейтса . Если хотя бы в одной ячейке ожидаемое явление меньше 5, то для анализа должен использоваться точный критерий Фишера .
  5. В случае анализа многопольных таблиц ожидаемое число наблюдений не должно принимать значения менее 5 более чем в 20% ячеек.

4. Как рассчитать критерий хи-квадрат Пирсона?

Для расчета критерия хи-квадрат необходимо:

Данный алгоритм применим как для четырехпольных, так и для многопольных таблиц.

5. Как интерпретировать значение критерия хи-квадрат Пирсона?

В том случае, если полученное значение критерия χ 2 больше критического, делаем вывод о наличии статистической взаимосвязи между изучаемым фактором риска и исходом при соответствующем уровне значимости.

6. Пример расчета критерия хи-квадрат Пирсона

Определим статистическую значимость влияния фактора курения на частоту случаев артериальной гипертонии по рассмотренной выше таблице:

  1. Рассчитываем ожидаемые значения для каждой ячейки:
  2. Находим значение критерия хи-квадрат Пирсона:

    χ 2 = (40-33.6) 2 /33.6 + (30-36.4) 2 /36.4 + (32-38.4) 2 /38.4 + (48-41.6) 2 /41.6 = 4.396.

  3. Число степеней свободы f = (2-1)*(2-1) = 1. Находим по таблице критическое значение критерия хи-квадрат Пирсона, которое при уровне значимости p=0.05 и числе степеней свободы 1 составляет 3.841.
  4. Сравниваем полученное значение критерия хи-квадрат с критическим: 4.396 > 3.841, следовательно зависимость частоты случаев артериальной гипертонии от наличия курения - статистически значима. Уровень значимости данной взаимосвязи соответствует p<0.05.

В предыдущих заметках были описаны процедуры проверки гипотез о числовых и категорийных данных: , несколько , а также , позволяющего изучать один или . В настоящей заметке мы рассмотрим методы проверки гипотез о различиях между долями признака в генеральных совокупностях на основе нескольких независимых выборок.

Для иллюстрации применяемых методов используется сценарий, в котором оценивается степень удовлетворенности постояльцев отелей, принадлежащих компании Т. С. Resort Properties. Представьте себе, что вы - менеджер компании, владеющей пятью отелями, расположенными на двух курортных островах. Если гости удовлетворены обслуживанием, велика вероятность, что они вернутся на следующий год и порекомендуют своим друзьям остановиться именно в вашем отеле. Чтобы оценить качество обслуживания, постояльцев просят заполнить анкету и указать, довольны ли они гостеприимством. Вам необходимо проанализировать данные опроса, определить общую степень удовлетворенности запросов постояльцев, оценить вероятность того, что гости приедут вновь в следующем году, а также установить причины возможного недовольства некоторых клиентов. Например, на одном из островов компании принадлежат отели Beachcomber и Windsurfer. Одинаково ли обслуживание в этих отелях? Если нет, как эту информацию можно использовать для улучшения качества работы компании? Более того, если некоторые постояльцы заявили, что больше к вам не приедут, какие причины они указывают чаще других? Можно ли утверждать, что эти причины касаются лишь конкретной гостиницы и не относятся ко всей компании в целом?

Здесь использованы следующие обозначения: X 1 - количество успехов в первой группе, X 2 - количество успехов во второй группе, n 1 X 1 - количество неудач в первой группе, n 2 X 2 - количество неудач во второй группе, X = X 1 + X 2 - общее количество успехов, n X = (n 1 X 1 ) + (n 2 X 2 ) - общее количество неудач, n 1 - объем первой выборки, n 2 - объем второй выборки, n = n 1 + n 2 - суммарный объем выборок. Представленная таблица имеет две строки и два столбца, поэтому она называется факторной таблицей 2×2. Ячейки, образованные пересечением каждой строки и столбца, содержат количество успехов или неудач.

Проиллюстрируем применение таблицы сопряженности признаков на примере сценария, описанного выше. Предположим, что на вопрос «Вернетесь ли вы в следующем году?» утвердительно ответили 163 из 227 постояльцев отеля Beachcomber, и 154 из 262 постояльцев отеля Windsurfer. Существует ли статистически значимая разность между степенью удовлетворенности постояльцев отелей (представляющая собой вероятность того, что постояльцы вернутся в следующем году), если уровень значимости равен 0,05?

Рис. 2. Факторная таблица 2х2 для оценки качества обслуживания постояльцев

В первой строке указывается количество постояльцев каждого отеля, заявивших о своем желании вернуться в следующем году (успех); во второй строке – количество постояльцев, выразивших недовольство (неудача). Ячейки, расположенные в столбце «Итого», содержат общее количество гостей, планирующих вернуться в отель в следующем году, а также общее количество гостей, недовольных обслуживанием. Ячейки, расположенные в строке «Всего», содержат общее количество опрошенных постояльцев каждого отеля. Доля постояльцев, планирующих вернуться, вычисляется путем деления количества постояльцев, заявивших об этом, на общее количество опрошенных гостей данного отеля. Затем для сравнения вычисленных долей применяется χ 2 -критерий.

Чтобы проверить нулевую и альтернативные гипотезы Н 0: р 1 = р 2 ; Н 1: р 1 ≠ р 2 используем тестовую χ 2 -статистику.

Критерий «хи-квадрат» для сравнения двух долей. Тестовая χ 2 -статистика равна сумме квадратов разностей между наблюдаемым и ожидаемым количеством успехов, деленных на ожидаемое количество успехов в каждой ячейке таблицы:

где f 0 - наблюдаемое количество успехов или неудач в конкретной ячейке таблицы сопряженности признаков, f e

Тестовая χ 2 -статистика аппроксимируется χ 2 -распределением с одной степенью свободы.

Или неудач в каждой ячейке таблицы сопряженности признаков, необходимо понимать их смысл. Если нулевая гипотеза является истинной, т.е. доли успехов в двух генеральных совокупностях равны, выборочные доли, вычисленные для каждой из двух групп, могут отличаться друг от друга лишь по случайным причинам, причем обе доли являются оценкой общего параметра генеральной совокупности р . В этой ситуации статистика, объединяющая обе доли в одной общей (средней) оценке параметра р , представляет собой общую долю успехов в объединенных группах (т.е. равна общему количеству успехов, деленному на суммарный объем выборок). Ее дополнение, 1 – , представляет собой общую долю неудач в объединенных группах. Используя обозначения, смысл которых описан в таблице на рис. 1. можно вывести формулу (2) для вычисления параметра :

где – средняя доля признака.

Чтобы вычислить ожидаемое количество успехов f e (т.е. содержимое первой строки таблицы сопряженности признаков), необходимо умножить объем выборки на параметр . Чтобы вычислить ожидаемое количество неудач f e (т.е. содержимое второй строки таблицы сопряженности признаков), необходимо умножить объем выборки на параметр 1 – .

Тестовая статистика, вычисленная по формуле (1), аппроксимируется χ 2 -распределением с одной степенью свободы. При заданном уровне значимости α нулевая гипотеза отклоняется, если вычисленная χ 2 -статистика больше χ U 2 , верхнего критического значения χ 2 -распределения с одной степенью свободы. Таким образом, решающее правило выглядит следующим образом: гипотеза H 0 отклоняется, если χ 2 > χ U 2 , в противном случае гипотеза Н 0 не отклоняется (рис. 3).

Рис. 3. Критическая область χ 2 -критерия для сравнения долей при уровне значимости α

Если нулевая гипотеза является истинной, вычисленная χ 2 -статистика близка к нулю, поскольку квадрат разности между наблюдаемой f 0 и ожидаемой f е величинами в каждой ячейке очень мал. С другой стороны, если нулевая гипотеза Н 0 является ложной и между долями успехов в генеральных совокупностях существует значимая разница, вычисленная χ 2 -статистика должна быть большой. Это объясняется разностью между наблюдаемым и ожидаемым количеством успехов или неудач в каждой ячейке, которая увеличивается при возведении в квадрат. Однако вклады разностей между ожидаемыми и наблюдаемыми величинами в общую χ 2 -статистику могут быть неодинаковыми. Одна и та же фактическая разность между f 0 и f e может оказать большее влияние на χ 2 -статистику, если в ячейке содержатся результаты небольшого количества наблюдений, чем разность, соответствующая большему количеству наблюдений.

Для того чтобы проиллюстрировать χ 2 -критерий для проверки гипотезы о равенстве двух долей, вернемся к сценарию, описанному в ранее, результаты которого приведены на рис. 2. Нулевая гипотеза (Н 0: р 1 = р 2) утверждает, что при сравнении качества обслуживания в двух отелях доли постояльцев, планирующих вернуться в следующем году, практически одинаковы. Для оценки параметра р , представляющего собой долю гостей, планирующих вернуться в отель, если нулевая гипотеза является истинной, используется величина , которая вычисляется по формуле

Доля гостей, оставшихся недовольными обслуживанием = 1 – 0,6483 = 0,3517. Умножая эти две доли на количество опрошенных постояльцев отеля Beachcomber, получаем ожидаемое количество гостей, планирующих вернуться в следующем сезоне, а также число отдыхающих, которые больше не остановятся в этом отеле. Аналогично вычисляются ожидаемые доли постояльцев отеля Windsurfer:

Да - Beachcomber: = 0,6483, n 1 = 227, следовательно, f e = 147,16.
Да - Windsurfer: = 0,6483, n 2 = 262, следовательно, f e = 169,84.
Нет - Beachcomber: 1 – = 0,3517, n 1 = 227, следовательно, f e = 79,84.
Нет - Windsurfer: 1 – = 0,3517, n 2 = 262, следовательно, f e = 92,16.

Расчеты представлены на рис. 4.

Рис. 4. χ 2 -статистика для отелей: (а) исходные данные; (б) факторная таблица 2х2 для сравнения наблюдаемого (f 0 ) и ожидаемого (f e ) количества постояльцев, удовлетворенных и не удовлетворенных обслуживанием; (в) вычисление χ 2 -статистики при сравнении доли постояльцев, удовлетворенных обслуживанием; (г) расчет критического значения тестовой χ 2 -статистики

Для расчета критического значения тестовой χ 2 -статистики применяется функция Excel =ХИ2.ОБР(). Если уровень значимости α = 0,05 (вероятность, подставляемая в функцию ХИ2.ОБР есть 1 –α), а χ 2 -распределение для факторной таблицы 2×2 имеет одну степень свободы, критическое значение χ 2 -статистики равно 3,841. Поскольку вычисленное значение χ 2 -статистики, равное 9,053 (рис. 4в), превышает число 3,841, нулевая гипотеза отклоняется (рис. 5).

Рис. 5. Определение критического значения тестовой χ 2 -статистики с одной степенью свободы при уровне значимости α = 0,05

Вероятность р того, что нулевая гипотеза верна при χ 2 -статистикие равной 9,053 (и одной степени свободы) рассчитывается в Excel с помощью функции =1 – ХИ2.РАСП(9,053;1;ИСТИНА) = 0,0026. р -значение, равное 0,0026, - это вероятность того, что разность между выборочными долями постояльцев, удовлетворенных обслуживанием в отелях Beachcomber и Windsurfer, равна или больше 0,718 – 0,588 = 0,13, если на самом деле их доли в обеих генеральных совокупностях одинаковы. Таким образом, существуют веские основания утверждать, что между двумя отелями есть статистически значимая разница в обслуживании постояльцев. Исследования показывают, что количество гостей, удовлетворенных обслуживанием в отеле Beachcomber, больше количества постояльцев, планирующих снова остановиться в гостинице Windsurfer.

Проверка предположений, касающихся факторной таблицы 2×2. Для получения точных результатов на основе данных, приведенных в таблице 2×2, необходимо, чтобы количество успехов или неудач превышало число 5. Если это условие не выполняется, следует применять точный критерий Фишера .

При сравнении процента клиентов, удовлетворенных качеством обслуживания в двух отелях, критерии Z и χ 2 приводят к одинаковым результатам. Это можно объяснить существованием тесной связи между стандартизованным нормальным распределением и χ 2 -распределением с одной степенью свободы. В этом случае χ 2 -статистика всегда является квадратом Z-статистики. Например, при оценке степени удовлетворенности гостей мы обнаружили, что Z -статистика равна +3,01, а χ 2 -статистика - 9,05. Пренебрегая ошибками округления, легко убедиться, что вторая величина является квадратом первой (т.е. 3,01 2 = 9,05). Кроме того, сравнивая критические значения обеих статистик при уровне значимости α = 0,05, можно обнаружить, что величина χ 1 2 равная 3,841, является квадратом верхнего критического значения Z-статистики, равного +1,96 (т.е. χ 1 2 = Z 2). Более того, р -значения обоих критериев одинаковы.

Таким образом, можно утверждать, что при проверке нулевой и альтернативной гипотез Н 0: р 1 = р 2 ; Н 1: р 1 ≠ р 2 критерии Z и χ 2 являются эквивалентными. Однако, если необходимо не просто обнаружить различия, но и определить, какая доля больше (р 1 > р 2), следует применять Z-критерий с одной критической областью, ограниченной хвостом стандартизованного нормального распределения. Далее будет описано применение критерия χ 2 для сравнения долей признака в нескольких группах. Необходимо отметить, что Z-критерий в этой ситуации применять невозможно.

Применение χ 2 -критерия для проверки гипотезы о равенстве нескольких долей

Критерий «хи-квадрат» можно распространить на более общий случай и применять для проверки гипотезы о равенстве нескольких долей признака. Обозначим количество анализируемых независимых генеральных совокупностей буквой с . Теперь таблица сопряженности признаков состоит из двух строк и с столбцов. Чтобы проверить нулевую и альтернативные гипотезы Н 0: р 1 = р 2 = … = р 2 , Н 1: не все р j равны между собой (j = 1, 2, …, c ), используется тестовая χ 2 -статистика:

где f 0 - наблюдаемое количество успехов или неудач в конкретной ячейке факторной таблицы 2*с , f e - теоретическое, или ожидаемое, количество успехов или неудач в конкретной ячейке таблицы сопряженности признаков при условии, что нулевая гипотеза является истинной.

Чтобы вычислить ожидаемое количество успехов или неудач в каждой ячейке таблицы сопряженности признаков, необходимо иметь в виду следующее. Если нулевая гипотеза является истинной и доли успехов во всех с генеральных совокупностях равны, соответствующие выборочные доли могут отличаться друг от друга лишь по случайным причинам, поскольку все доли представляют собой оценки доли признака р в общей генеральной совокупности. В этой ситуации статистика, объединяющая все доли в одной общей (или средней) оценке параметра р , содержит больше информации, чем каждая из них в отдельности. Эта статистика, обозначаемая символом , представляет собой общую (или среднюю) долю успехов в объединенной выборке.

Вычисление средней доли:

Чтобы вычислить ожидаемое количество успехов f e в первой строке таблицы сопряженности признаков, необходимо умножить объем каждой выборки на параметр . Чтобы вычислить ожидаемое количество неудач f e во второй строке таблицы сопряженности признаков, необходимо умножить объем каждой выборки на параметр 1 – . Тестовая статистика, вычисленная по формуле (1), аппроксимируется χ 2 -распределением. Количество степеней свободы этого распределения задается величиной (r – 1)(c – 1) , где r - количество строк в факторной таблице, с - количество столбцов в таблице. Для факторной таблицы 2*с количество степеней свободы равно (2 – 1)(с – 1) = с – 1 . При заданном уровне значимости α нулевая гипотеза отклоняется, если вычисленная χ 2 -статистика больше верхнего критического значения χ U 2 , присущего χ 2 -распределению с с – 1 степенями свободы. Таким образом, решающее правило выглядит следующим образом: гипотеза Н 0 отклоняется, если χ 2 > χ U 2 (рис. 6), в противном случае гипотеза отклоняется.

Рис. 6. Критическая область χ 2 -критерия для сравнения с долей при уровне значимости α

Проверка предположений, касающихся факторной таблицы 2*с. Для получения точных результатов на основе данных, приведенных в факторной таблице 2*с , необходимо, чтобы количество успехов или неудач было достаточно большим. Некоторые статистики полагают, что критерий дает точные результаты, если ожидаемые частоты превышают 0,5. Более консервативные исследователи требуют, чтобы не более 20% ячеек таблицы сопряженности признаков содержали ожидаемые величины, которые меньше 5, причем ни одна ячейка не должна содержать ожидаемую величину меньше единицы. Последнее условие нам представляется разумным компромиссом между этими крайностями. Чтобы удовлетворить это условие, категории, содержащие небольшие ожидаемые величины, следует объединить в одну. После этого критерий становится более точным. Если по каким-либо причинам объединение нескольких категорий невозможно, следует применять альтернативные процедуры.

Для того чтобы проиллюстрировать χ 2 -критерий для проверки гипотезы о равенстве долей в нескольких группах, вернемся к сценарию, описанному в начале главы. Рассмотрим аналогичный опрос, в котором принимают участие постояльцы трех отелей, принадлежащих компании Т. С. Resort Resources (рис. 7а).

Рис. 7. Факторная таблица 2×3 для сравнения количества постояльцев, удовлетворенных и не удовлетворенных обслуживанием: (а) наблюдаемое количество успехов или неудач – f 0 ; (б) ожидаемое количество успехов или неудач – f e ; (в) вычисление χ 2 -статистики при сравнении долей постояльцев, удовлетворенных обслуживанием

Нулевая гипотеза утверждает, что доли клиентов, планирующих вернуться в следующем году, во всех отелях практически одинаковы. Для оценки параметра р , представляющего собой долю гостей, планирующих вернуться в отель, используется величина р̅ = Х / n = 513 / 700 = 0,733. Доля гостей, оставшихся недовольными обслуживанием, равна 1 – 0,733 = 0,267. Умножая три доли на количество опрошенных постояльцев в каждом из отелей, получаем ожидаемое количество гостей, планирующих вернуться в следующем сезоне, а также число клиентов, которые больше не остановятся в этом отеле (рис. 7б).

Чтобы проверить нулевую и альтернативные гипотезы используют тестовую χ 2 -статистику, вычисленную с помощью ожидаемых и наблюдаемых величин по формуле (1) (рис. 7в).

Критическое значение тестовой χ 2 -статистики определяется по формуле =ХИ2.ОБР(). Поскольку в опросе принимают участие постояльцы трех отелей, χ 2 -статистика имеет (2 – 1)(3 – 1) = 2 степени свободы. При уровне значимости α = 0,05 критическое значение χ 2 -статистики равно 5,991 (рис. 7г). Так как вычисленная χ 2 -статистика, равная 40,236, превышает критическое значение, нулевая гипотеза отклоняется (рис. 8). С другой стороны, вероятность р того, что нулевая гипотеза верна при χ 2 -статистикие равной 40,236 (и двух степенях свободы) рассчитывается в Excel с помощью функции =1-ХИ2.РАСП() = 0,000 (рис. 7г). р -значение равно 0,000 и меньше уровня значимости α = 0,05. Следовательно, нулевая гипотеза отклоняется.

Рис. 8. Области принятия и отклонения гипотезы о равенстве трех долей при уровне значимости, равном 0,05, и двух степенях свободы

Отклоняя нулевую гипотезу при сравнении долей, указанных в факторной таблице 2*с , мы можем утверждать лишь, что доли постояльцев, удовлетворенных обслуживанием в трех отелях, не совпадают. Для того чтобы выяснить, какие доли отличаются от других, необходимо применять иные методы, например процедуру Мараскуило.

Процедура Мараскуило позволяет сравнивать все группы попарно. На первом этапе процедуры вычисляются разности p s j – p s j ’ (где j j ) между с(с – 1)/2 парами долей. Соответствующие критические размахи вычисляются по формуле:


При общем уровне значимости α, величина представляет собой квадратный корень из верхнего критического значения распределения «хи-квадрат», имеющего с – 1 степеней свободы. Для каждой пары выборочных долей необходимо вычислить отдельный критический размах. На последнем этапе каждая из с(с – 1)/2 пар долей сравнивается с соответствующим критическим размахом. Доли, образующие конкретную пару, считаются статистически значимо разными, если абсолютная разность выборочных долей |p s j – p s j | превышает критический размах.

Проиллюстрируем процедуру Мараскуило на примере опроса постояльцев трех отелей (рис 9а). Применяя критерий «хи-квадрат», мы убедились, что между долями постояльцев разных отелей, собирающихся вернуться в следующем году, существует статистически значимая разница. Поскольку в опросе участвуют постояльцы трех отелей, необходимо выполнить 3(3 – 1)/2 = 3 попарных сравнений и вычислить три критических размаха. Для начала вычислим три выборочных доли (рис. 9б). При общем уровне значимости, равном 0,05, верхнее критическое значение тестовой χ 2 -статистики для распределения «хи-квадрат», имеющего (с – 1) = 2 степени свободы определяется по формуле =ХИ2.ОБР(0,95;2) = 5,991. Итак, = 2,448 (рис. 9в). Далее, вычислим три пары абсолютных разностей и соответствующие критические размахи. Если абсолютная разность больше ее критического размаха, то соответствующие доли считаются значимо разными (рис. 9г).

Рис. 9. Результаты выполнения процедуры Мараскуило для проверки гипотезы о равенстве долей удовлетворенных постояльцев трех отелей: (а) данные опроса; (б) выборочных доли; (в) верхнее критическое значение тестовой χ 2 -статистики для распределения «хи-квадрат»; (г) три пары абсолютных разностей и соответствующие критические размахи

Как видим, при уровне значимости, равном 0,05, степень удовлетворенности постояльцев отеля Palm Royal (p s2 = 0,858) выше, чем у постояльцев отелей Golden Palm (p s1 = 0,593) и Palm Princess (p s3 =0,738). Кроме того, степень удовлетворенности постояльцев отеля Palm Princess выше, чем у постояльцев отеля Golden Palm. Эти результаты должны заставить руководство проанализировать причины таких различий и попытаться определить, почему степень удовлетворенности постояльцев отеля Golden Palm значительно ниже, чем у постояльцев других отелей.

Используются материалы книги Левин и др. Статистика для менеджеров. – М.: Вильямс, 2004. – с. 708–730