Содержание
- Меры изменчивости
- Формула дисперсии
- Среднеквадратичное отклонение
- Пример дисперсии и проблема стандартного отклонения
Способность вычислять среднее или среднее значение группы чисел важна в каждом аспекте жизни. Если вы - профессор, присваивающий оценки по буквам на экзаменационных баллах и традиционно ставящий оценку «B» на средний балл, тогда вам явно необходимо знать, как выглядит средний пакет. Вам также нужен способ определить баллы как выбросы, чтобы вы могли определить, когда кто-то заслуживает A или A + (очевидно, за пределами совершенных баллов), а также то, что заслуживает неудовлетворительной оценки.
По этой и смежным причинам полные данные о средних значениях включают информацию о том, насколько тесно кластеризованы средние оценки в целом. Эта информация передается с использованием среднеквадратичное отклонение и, соответственно, дисперсия статистической выборки.
Меры изменчивости
Вы почти наверняка слышали или видели термин «среднее», используемый в отношении набора чисел или точек данных, и у вас, вероятно, есть представление о том, что он переводит на повседневный язык. Например, если вы читаете, что средний рост американской женщины составляет около 5–4 лет », вы сразу же заключаете, что« средний »означает« типичный », и что примерно половина женщин в Соединенных Штатах выше, чем эта, тогда как примерно половина короче.
Математически среднее и среднее значения - это одно и то же: вы добавляете значения в наборе и делите их на количество элементов в наборе. Например, если группа из 25 баллов в тесте из 10 вопросов варьируется от 3 до 10 и суммируется до 196, средний (средний) балл составляет 196/25 или 7,84.
Медиана - это значение средней точки в наборе, число, которое половина значений лежит выше, а половина значений - ниже. Обычно это близко к среднему (среднему), но это не одно и то же.
Формула дисперсии
Если вы просматриваете набор из 25 баллов, подобных приведенным выше, и почти ничего не видите, кроме значений 7, 8 и 9, становится понятным, что среднее значение должно быть около 8. Но что, если вы видите почти ничего, кроме баллов 6 и 10? ? Или пять баллов по 0 и 20 баллов по 9 или 10? Все это может дать одинаковое среднее значение.
Дисперсия - это показатель того, насколько широко точки в наборе данных распределены относительно среднего значения. Чтобы вручную вычислить дисперсию, вы берете арифметическую разницу между каждой из точек данных и среднее значение, возводите их в квадрат, складываете сумму квадратов и делите результат на единицу меньше, чем число точек данных в выборке. Пример этого приведен позже. Вы также можете использовать такие программы, как Excel, или веб-сайты, такие как Rapid Tables (дополнительные сайты см. В разделе «Ресурсы»).
Дисперсия обозначается σ2греческая "сигма" с показателем 2.
Среднеквадратичное отклонение
Стандартное отклонение выборки - это просто квадратный корень из дисперсии. Квадраты причины используются при вычислении дисперсии: если вы просто складываете отдельные различия между средним значением и каждой отдельной точкой данных, сумма всегда равна нулю, потому что некоторые из этих разностей положительны, а некоторые отрицательны, и они взаимно компенсируют , Квадрат каждого термина устраняет эту ловушку.
Пример дисперсии и проблема стандартного отклонения
Предположим, вам даны 10 точек данных:
4, 7, 10, 5, 7, 6, 9, 8, 5, 9
Найти среднее значение, дисперсию и стандартное отклонение.
Сначала сложите вместе 10 значений и разделите на 10, чтобы получить среднее (среднее) значение:
70/10 = 7.0
Чтобы получить дисперсию, возведите в квадрат разницу между каждой точкой данных и средним, сложите их вместе и разделите результат на (10 - 1) или 9:
9 + 0 + 9 + . . . + 4 = 36
σ2= 36/9 = 4.0
Стандартное отклонение σ - это просто квадратный корень из 4,0 или 2,0.