Преимущества и недостатки модели множественной регрессии

Ноябрь 2024

Автор: Laura McKinney

Дата создания: 9 Апрель 2021

Дата обновления: 17 Ноябрь 2024

Содержание

Примеры множественной регрессии
Преимущества множественной регрессии
Недостатки множественной регрессии

Множественная регрессия используется для изучения взаимосвязи между несколькими независимыми переменными и зависимой переменной. Хотя модели множественной регрессии позволяют анализировать относительное влияние этих независимых или предикторных переменных на зависимую или критериальную переменную, эти часто сложные наборы данных могут привести к ложным выводам, если они не проанализированы должным образом.

Примеры множественной регрессии

Агент по недвижимости может использовать множественную регрессию для анализа стоимости домов. Например, она могла бы использовать в качестве независимых переменных размер домов, их возраст, количество спален, среднюю цену на жилье по соседству и близость к школам. Построив их в модели множественной регрессии, она затем могла бы использовать эти факторы, чтобы увидеть их отношение к ценам домов в качестве переменной критерия.

Другим примером использования модели множественной регрессии может быть кто-то в человеческих ресурсах, определяющий оклад руководящих должностей - переменная критерия. Переменными предиктора могут быть стаж работы каждого менеджера, среднее количество отработанных часов, количество управляемых людей и бюджет департамента менеджеров.

Преимущества множественной регрессии

Существует два основных преимущества анализа данных с использованием модели множественной регрессии. Первая - это способность определять относительное влияние одной или нескольких предикторов на значение критерия. Агент по недвижимости может обнаружить, что размер домов и количество спален имеют сильную корреляцию с ценой дома, в то время как близость к школам не имеет никакой корреляции вообще, или даже отрицательной корреляции, если это в основном выход на пенсию сообщества.

Второе преимущество - это способность идентифицировать выбросы или аномалии. Например, просматривая данные, относящиеся к заработной плате менеджеров, менеджер по кадрам мог обнаружить, что количество отработанных часов, размер отдела и его бюджет тесно связаны с заработной платой, а выслуга лет - нет. В качестве альтернативы может быть так, что все перечисленные значения предикторов коррелировали с каждой из рассматриваемых зарплат, за исключением одного менеджера, которому переплачивали по сравнению с другими.

Недостатки множественной регрессии

Любой недостаток использования модели множественной регрессии обычно сводится к используемым данным. Два примера этого - использование неполных данных и ложный вывод о том, что корреляция является причиной.

Например, при пересмотре цен на дома агент по недвижимости рассматривал только 10 домов, семь из которых были куплены молодыми родителями. В этом случае взаимосвязь между близостью школ может привести ее к мысли, что это повлияло на цену продажи всех домов, продаваемых в общине. Это иллюстрирует ловушки неполных данных. Если бы она использовала большую выборку, она могла бы обнаружить, что из 100 проданных домов только десять процентов стоимости дома были связаны с близостью школ. Если бы она использовала возраст покупателей в качестве прогнозирующей величины, она могла бы обнаружить, что более молодые покупатели готовы платить больше за дома в общине, чем более старые покупатели.

В примере с зарплатами менеджеров, предположим, что был один выпадающий, у которого был меньший бюджет, меньший стаж работы и меньше персонала для управления, но он зарабатывал больше, чем кто-либо другой. Менеджер по персоналу может посмотреть на данные и сделать вывод, что этому человеку переплачивают. Тем не менее, этот вывод был бы ошибочным, если бы он не принял во внимание, что этот менеджер отвечал за веб-сайт компании и обладал весьма желанным набором навыков в сетевой безопасности.