Содержание
- TL; DR (слишком долго; не читал)
- Точки данных заказа
- Определить первую четверть позиции
- Определить позицию третьего квартиля
- Рассчитать межквартильный диапазон
- Преимущества и недостатки IQR
Межквартильный диапазон, часто сокращенно обозначаемый как IQR, представляет диапазон от 25-го процентиля до 75-го процентиля, или середины 50 процентов, любого данного набора данных. Межквартильный диапазон может использоваться для определения того, каким будет средний диапазон производительности теста: вы можете использовать его, чтобы увидеть, где большинство людей получают оценки при определенном падении теста, или определить, сколько денег средний сотрудник в компании зарабатывает каждый месяц. , Межквартильный диапазон может быть более эффективным инструментом анализа данных, чем среднее или медианное значение набора данных, поскольку он позволяет вам определять диапазон дисперсии, а не просто одно число.
TL; DR (слишком долго; не читал)
Межквартильный диапазон (IQR) представляет средние 50 процентов набора данных. Чтобы вычислить его, сначала упорядочите свои точки данных от наименьшего к наибольшему, затем определите свою первую и третью квартиль, используя формулы (N + 1) / 4 и 3 * (N + 1) / 4 соответственно, где N - число точек в наборе данных. Наконец, вычтите первый квартиль из третьего квартиля, чтобы определить межквартильный диапазон для набора данных.
Точки данных заказа
Вычисление межквартирного диапазона является простой задачей, но перед тем, как рассчитывать, вам нужно расположить различные точки вашего набора данных. Для этого начните с упорядочения точек данных от наименьшего к наибольшему. Например, если ваши точки данных были 10, 19, 8, 4, 9, 12, 15, 11 и 20, вы бы переставили их следующим образом: {4, 8, 9, 10, 11, 12, 15, 19, 20}. Как только ваши точки данных были упорядочены таким образом, вы можете перейти к следующему шагу.
Определить первую четверть позиции
Затем определите положение первого квартиля, используя следующую формулу: (N + 1) / 4, где N - количество точек в наборе данных. Если первый квартиль попадает между двумя числами, возьмите среднее значение двух чисел в качестве первого счета за квартиль. В приведенном выше примере, поскольку имеется девять точек данных, вы должны добавить от 1 до 9, чтобы получить 10, а затем разделить на 4, чтобы получить 2,5. Поскольку первый квартиль находится между вторым и третьим значением, вы должны взять в среднем 8 и 9, чтобы получить первую квартиль в 8,5.
Определить позицию третьего квартиля
После того, как вы определили свой первый квартиль, определите положение третьего квартиля, используя следующую формулу: 3 * (N + 1) / 4, где N снова число точек в наборе данных. Точно так же, если третий квартиль попадает между двумя числами, просто возьмите среднее значение, как при расчете первого квартиля. В приведенном выше примере, поскольку имеется девять точек данных, вы должны добавить от 1 до 9, чтобы получить 10, умножить на 3, чтобы получить 30, а затем разделить на 4, чтобы получить 7,5. Так как первый квартиль находится между седьмым и восьмым значением, вам нужно в среднем 15 и 19, чтобы получить третий счет квартиля 17.
Рассчитать межквартильный диапазон
После того, как вы определили свой первый и третий квартили, рассчитайте межквартильный диапазон, вычитая значение первого квартиля из значения третьего квартиля. Чтобы завершить пример, использованный в этой статье, вычтите 8.5 из 17, чтобы найти, что межквартильный диапазон набора данных равен 8.5.
Преимущества и недостатки IQR
Межквартильный диапазон обладает тем преимуществом, что может идентифицировать и устранять выбросы на обоих концах набора данных. IQR также является хорошим показателем вариации в случаях асимметричного распределения данных, и этот метод расчета IQR может работать для сгруппированных наборов данных, если для организации точек данных используется кумулятивное распределение частот. Формула межквартильного диапазона для сгруппированных данных такая же, как и для несгруппированных данных, при этом IQR равно значению первого квартиля, вычтенного из значения третьего квартиля. Однако он имеет ряд недостатков по сравнению со стандартным отклонением: меньшая чувствительность к нескольким экстремальным показателям и стабильность выборки, которая не так сильна, как стандартное отклонение.