Как найти центроид в кластерном анализе

Posted on
Автор: Judy Howell
Дата создания: 1 Июль 2021
Дата обновления: 15 Ноябрь 2024
Anonim
Кластерный анализ. Иерархическая кластеризация. Метод k-средних.
Видео: Кластерный анализ. Иерархическая кластеризация. Метод k-средних.

Содержание

Кластерный анализ - это метод организации данных в репрезентативные группы на основе сходных характеристик. Каждый член кластера имеет больше общего с другими членами того же кластера, чем с членами других групп. Наиболее представительный пункт в группе называется центроид. Обычно это среднее значение точек данных в кластере.

    Организуйте данные. Если данные состоят из одной переменной, гистограмма может быть подходящей. Если задействованы две переменные, отобразите данные на координатной плоскости. Например, если вы смотрели на рост и вес школьников в классе, нарисуйте точки данных для каждого ребенка на графике, где вес будет горизонтальной осью, а рост - вертикальной осью. Если задействовано более двух переменных, могут потребоваться матрицы для отображения данных.

    Сгруппируйте данные в кластеры. Каждый кластер должен состоять из точек данных, ближайших к нему. В примере роста и веса сгруппируйте любые точки данных, которые кажутся близкими друг к другу. Количество кластеров и то, должна ли каждая точка данных находиться в кластере, могут зависеть от целей исследования.

    Для каждого кластера добавьте значения всех членов.Например, если кластер данных состоит из точек (80, 56), (75, 53), (60, 50) и (68,54), сумма значений будет (283, 213).

    Разделите итог на количество членов кластера. В приведенном выше примере 283, разделенное на четыре, равно 70,75, а 213, разделенное на четыре, равно 53,25, поэтому центроид кластера равен (70,75, 53,25).

    Постройте центроиды кластера и определите, находятся ли какие-либо точки ближе к центроиду другого кластера, чем к центроиду их собственного кластера. Если какие-либо точки находятся ближе к другому центроиду, перераспределите их в кластер, содержащий более близкий центроид.

    Повторяйте шаги 3, 4 и 5, пока все точки данных не окажутся в кластере, содержащем центроид, к которому они ближе всего.

    подсказки