Недостатки линейной регрессии

Posted on
Автор: Peter Berry
Дата создания: 19 Август 2021
Дата обновления: 13 Ноябрь 2024
Anonim
Множественная линейная регрессия в Python. Машинное обучение ПРОСТО! ПРОГНОЗИРУЕМ ЦЕНУ НЕДВИЖИМОСТИ!
Видео: Множественная линейная регрессия в Python. Машинное обучение ПРОСТО! ПРОГНОЗИРУЕМ ЦЕНУ НЕДВИЖИМОСТИ!

Содержание

Линейная регрессия - это статистический метод изучения взаимосвязи между зависимой переменной, обозначаемый как у, и одну или несколько независимых переменных, обозначаемых как Икс, Зависимая переменная должна быть непрерывной, так как она может принимать любое значение или, по крайней мере, быть близкой к непрерывной. Независимые переменные могут быть любого типа. Хотя линейная регрессия сама по себе не может показать причинно-следственную связь, независимые переменные обычно влияют на зависимую переменную.

Линейная регрессия ограничена линейными отношениями

По своей природе линейная регрессия рассматривает только линейные отношения между зависимыми и независимыми переменными. То есть предполагается, что между ними существует прямая связь. Иногда это неверно. Например, соотношение между доходом и возрастом искривлено, то есть доход имеет тенденцию к росту в ранних этапах взрослой жизни, выравнивается в более позднем возрасте и уменьшается после выхода на пенсию. Вы можете сказать, если это проблема, посмотрев на графическое представление отношений.

Линейная регрессия только смотрит на среднее значение зависимой переменной

Линейная регрессия смотрит на соотношение между средним значением зависимой переменной и независимыми переменными. Например, если вы посмотрите на взаимосвязь между весом при рождении младенцев и такими материнскими характеристиками, как возраст, линейная регрессия будет учитывать средний вес детей, рожденных от матерей разных возрастов. Однако иногда вам нужно взглянуть на крайности зависимой переменной, например, дети подвергаются риску, когда их вес низок, поэтому вы хотели бы взглянуть на крайности в этом примере.

Так же как среднее значение не является полным описанием одной переменной, линейная регрессия не является полным описанием отношений между переменными. Вы можете решить эту проблему, используя квантильную регрессию.

Линейная регрессия чувствительна к выбросам

Выбросы - это данные, которые удивляют. Выбросы могут быть одномерными (на основе одной переменной) или многомерными. Если вы смотрите на возраст и доход, одномерные выбросы будут такими, как человек, которому 118 лет, или тот, кто заработал 12 миллионов долларов в прошлом году. Многовариантным выбросом будет 18-летний подросток, заработавший 200 000 долларов. В этом случае ни возраст, ни доход не очень велики, но очень немногие 18-летние люди зарабатывают столько денег.

Выбросы могут иметь огромное влияние на регрессию. Вы можете решить эту проблему, запросив статистику влияния у вашего статистического программного обеспечения.

Данные должны быть независимыми

Линейная регрессия предполагает, что данные независимы. Это означает, что оценки одного субъекта (например, человека) не имеют ничего общего с оценками другого. Это часто, но не всегда, разумно. Два распространенных случая, когда это не имеет смысла, это кластеризация в пространстве и времени.

Классическим примером кластеризации в пространстве являются результаты тестов учащихся, когда у вас есть ученики из разных классов, классов, школ и школьных округов. Ученики в одном и том же классе, как правило, во многом похожи, то есть они часто приезжают из одних и тех же районов, у них одни и те же учителя и т. Д. Таким образом, они не являются независимыми.

Примерами кластеризации во времени являются любые исследования, в которых вы измеряете одни и те же предметы несколько раз. Например, при изучении диеты и веса вы можете измерять каждого человека несколько раз. Эти данные не являются независимыми, потому что то, что человек весит в одном случае, связано с тем, что он или она весит в других случаях. Один из способов справиться с этим - многоуровневые модели.