Содержание
Кластерный анализ - это метод организации данных в репрезентативные группы на основе сходных характеристик. Каждый член кластера имеет больше общего с другими членами того же кластера, чем с членами других групп. Наиболее представительный пункт в группе называется центроид. Обычно это среднее значение точек данных в кластере.
Организуйте данные. Если данные состоят из одной переменной, гистограмма может быть подходящей. Если задействованы две переменные, отобразите данные на координатной плоскости. Например, если вы смотрели на рост и вес школьников в классе, нарисуйте точки данных для каждого ребенка на графике, где вес будет горизонтальной осью, а рост - вертикальной осью. Если задействовано более двух переменных, могут потребоваться матрицы для отображения данных.
Сгруппируйте данные в кластеры. Каждый кластер должен состоять из точек данных, ближайших к нему. В примере роста и веса сгруппируйте любые точки данных, которые кажутся близкими друг к другу. Количество кластеров и то, должна ли каждая точка данных находиться в кластере, могут зависеть от целей исследования.
Для каждого кластера добавьте значения всех членов.Например, если кластер данных состоит из точек (80, 56), (75, 53), (60, 50) и (68,54), сумма значений будет (283, 213).
Разделите итог на количество членов кластера. В приведенном выше примере 283, разделенное на четыре, равно 70,75, а 213, разделенное на четыре, равно 53,25, поэтому центроид кластера равен (70,75, 53,25).
Постройте центроиды кластера и определите, находятся ли какие-либо точки ближе к центроиду другого кластера, чем к центроиду их собственного кластера. Если какие-либо точки находятся ближе к другому центроиду, перераспределите их в кластер, содержащий более близкий центроид.
Повторяйте шаги 3, 4 и 5, пока все точки данных не окажутся в кластере, содержащем центроид, к которому они ближе всего.