Содержание
- Тип требуемых данных
- Тест на пригодность
- Расчет статистики хи-квадрат
- Интерпретация статистики хи-квадрат
Эксперименты, тесты прогнозов. Эти прогнозы часто бывают числовыми. Это означает, что когда ученые собирают данные, они ожидают, что цифры будут разбиты определенным образом. Реальные данные редко совпадают с точными прогнозами ученых, поэтому ученым нужен тест, чтобы сказать им, является ли разница между наблюдаемыми и ожидаемыми числами случайной случайностью или непредвиденным фактором, который заставит ученого скорректировать основную теорию. , Тест хи-квадрат - это статистический инструмент, который ученые используют для этой цели.
Тип требуемых данных
Вам нужны категориальные данные, чтобы использовать критерий хи-квадрат. Примером категориальных данных является количество людей, ответивших на вопрос «да», в сравнении с количеством людей, ответивших на вопрос «нет» (две категории), или количеством лягушек в популяции, которые имеют зеленый, желтый или серый цвет ( три категории). Вы не можете использовать критерий хи-квадрат для непрерывных данных, например, которые могут быть получены из опроса, спрашивающего людей, какой у них рост. Из такого опроса вы получите широкий диапазон высот. Однако, если вы разделите высоту на такие категории, как «рост менее 6 футов» и «рост 6 футов и более», вы можете использовать критерий хи-квадрат для данных.
Тест на пригодность
Тест на пригодность является наиболее распространенным и, возможно, самым простым тестом, выполняемым с использованием статистики хи-квадрат. В тесте на пригодность, ученый делает конкретный прогноз о числах, которые она ожидает увидеть в каждой категории своих данных. Затем она собирает реальные данные - так называемые наблюдаемые данные - и использует критерий хи-квадрат, чтобы увидеть, соответствуют ли наблюдаемые данные ее ожиданиям.
Например, представьте, что биолог изучает закономерности наследования у вида лягушки. Генетическая модель биологов заставляет ее ожидать 100 желтых, 50 зеленых и 25 серых детей. На самом деле она наблюдает за 20 желтыми потомками, 52 зелеными потомками и 28 серыми потомками. Поддерживается ли ее предсказание или ее генетическая модель неверна? Она может использовать тест хи-квадрат, чтобы выяснить это.
Расчет статистики хи-квадрат
Начните вычислять статистику хи-квадрат, вычитая каждое ожидаемое значение из соответствующего наблюдаемого значения и возводя в квадрат каждый результат. Расчет для примера потомства лягушки будет выглядеть так:
желтый = (20-25) ^ 2 = 25 зеленый = (52-50) ^ 2 = 4 серый = (28-25) ^ 2 = 9
Теперь разделите каждый результат на соответствующее ожидаемое значение.
желтый = 25 ÷ 25 = 1 зеленый = 4 ÷ 50 = 0,08 серый = 9 ÷ 25 = 0,36
Наконец, сложите ответы из предыдущего шага.
хи-квадрат = 1 + 0,08 + 0,36 = 1,44
Интерпретация статистики хи-квадрат
Статистика хи-квадрат показывает, насколько ваши наблюдаемые значения отличаются от прогнозируемых. Чем выше число, тем больше разница. Вы можете определить, является ли ваше значение хи-квадрат слишком высоким или достаточно низким, чтобы поддержать ваш прогноз, посмотрев, находится ли оно ниже определенного критическое значение на столе распределения хи-квадрат. Эта таблица сопоставляет значения хи-квадрат с вероятностями, называемыми р-значение, В частности, в таблице указана вероятность того, что различия между вашими наблюдаемыми и ожидаемыми значениями просто обусловлены случайной случайностью или наличием какого-либо другого фактора. Для теста на пригодность, если значение p составляет 0,05 или меньше, вы должны отклонить свой прогноз.
Вы должны определить степени свободы (df) в ваших данных, прежде чем вы сможете найти критическое значение хи-квадрат в таблице распределения. Степени свободы рассчитываются путем вычитания 1 из числа категорий в ваших данных. В этом примере есть три категории, поэтому есть 2 степени свободы. Взгляд на эту таблицу распределения хи-квадрат говорит о том, что для 2 степеней свободы критическое значение для вероятности 0,05 составляет 5,99. Это означает, что пока ваше расчетное значение хи-квадрат меньше 5,99, ваши ожидаемые значения и, следовательно, основополагающая теория, действительны и поддерживаются. Поскольку статистика хи-квадрат для потомства лягушки была 1,44, биолог может принять ее генетическую модель.