Содержание
- Примеры множественной регрессии
- Преимущества множественной регрессии
- Недостатки множественной регрессии
Множественная регрессия используется для изучения взаимосвязи между несколькими независимыми переменными и зависимой переменной. Хотя модели множественной регрессии позволяют анализировать относительное влияние этих независимых или предикторных переменных на зависимую или критериальную переменную, эти часто сложные наборы данных могут привести к ложным выводам, если они не проанализированы должным образом.
Примеры множественной регрессии
Агент по недвижимости может использовать множественную регрессию для анализа стоимости домов. Например, она могла бы использовать в качестве независимых переменных размер домов, их возраст, количество спален, среднюю цену на жилье по соседству и близость к школам. Построив их в модели множественной регрессии, она затем могла бы использовать эти факторы, чтобы увидеть их отношение к ценам домов в качестве переменной критерия.
Другим примером использования модели множественной регрессии может быть кто-то в человеческих ресурсах, определяющий оклад руководящих должностей - переменная критерия. Переменными предиктора могут быть стаж работы каждого менеджера, среднее количество отработанных часов, количество управляемых людей и бюджет департамента менеджеров.
Преимущества множественной регрессии
Существует два основных преимущества анализа данных с использованием модели множественной регрессии. Первая - это способность определять относительное влияние одной или нескольких предикторов на значение критерия. Агент по недвижимости может обнаружить, что размер домов и количество спален имеют сильную корреляцию с ценой дома, в то время как близость к школам не имеет никакой корреляции вообще, или даже отрицательной корреляции, если это в основном выход на пенсию сообщества.
Второе преимущество - это способность идентифицировать выбросы или аномалии. Например, просматривая данные, относящиеся к заработной плате менеджеров, менеджер по кадрам мог обнаружить, что количество отработанных часов, размер отдела и его бюджет тесно связаны с заработной платой, а выслуга лет - нет. В качестве альтернативы может быть так, что все перечисленные значения предикторов коррелировали с каждой из рассматриваемых зарплат, за исключением одного менеджера, которому переплачивали по сравнению с другими.
Недостатки множественной регрессии
Любой недостаток использования модели множественной регрессии обычно сводится к используемым данным. Два примера этого - использование неполных данных и ложный вывод о том, что корреляция является причиной.
Например, при пересмотре цен на дома агент по недвижимости рассматривал только 10 домов, семь из которых были куплены молодыми родителями. В этом случае взаимосвязь между близостью школ может привести ее к мысли, что это повлияло на цену продажи всех домов, продаваемых в общине. Это иллюстрирует ловушки неполных данных. Если бы она использовала большую выборку, она могла бы обнаружить, что из 100 проданных домов только десять процентов стоимости дома были связаны с близостью школ. Если бы она использовала возраст покупателей в качестве прогнозирующей величины, она могла бы обнаружить, что более молодые покупатели готовы платить больше за дома в общине, чем более старые покупатели.
В примере с зарплатами менеджеров, предположим, что был один выпадающий, у которого был меньший бюджет, меньший стаж работы и меньше персонала для управления, но он зарабатывал больше, чем кто-либо другой. Менеджер по персоналу может посмотреть на данные и сделать вывод, что этому человеку переплачивают. Тем не менее, этот вывод был бы ошибочным, если бы он не принял во внимание, что этот менеджер отвечал за веб-сайт компании и обладал весьма желанным набором навыков в сетевой безопасности.