Линейная регрессия

Линейная регрессия - это способ объяснить связь между зависимой переменной и одной или несколькими объясняющими переменными с помощью прямой линии. Это особый случай регрессионного анализа.

Линейная регрессия была первым типом регрессионного анализа, который был тщательно изучен. Это связано с тем, что модели, которые линейно зависят от неизвестных параметров, легче подгоняются, чем модели, которые нелинейно связаны со своими параметрами. Более того, статистические свойства результирующих оценщиков легче определить.

Линейная регрессия имеет много практического применения. Большинство применений относится к одной из следующих двух широких категорий:

Линейная регрессия может быть использована для подгонки прогностической модели к набору наблюдаемых значений (данных). Это полезно, если целью является предсказание, или прогнозирование, или уменьшение. После разработки такой модели, если затем дается дополнительное значение X без сопровождающего его значения y, то с помощью подогнанной модели можно сделать прогноз значения y.
Учитывая переменную y и ряд переменных X1, ..., Xp, которые могут быть связаны с y, анализ линейной регрессии может быть применен для количественного определения силы связи между y и Xj, для оценки того, какая из подмножеств Xj вообще не имеет связи с y, и для определения того, какие подмножества Xj содержат избыточную информацию об y.

Модели линейной регрессии пытаются сделать вертикальное расстояние между линией и точками данных (например, остатки) как можно меньшим. Это называется "подгонкой линии под данные". Часто модели линейной регрессии пытаются минимизировать сумму квадратов остатков (наименьших квадратов), но существуют и другие способы подгонки. Они включают минимизацию "отсутствия подгонки" в какой-то другой норме (как при регрессии наименьших абсолютных отклонений), или минимизацию оштрафованного варианта функции потерь наименьших квадратов, как при регрессии гребня. Подход по методу наименьших квадратов может также использоваться для подгонки моделей, которые не являются линейными. Как было указано выше, термины "наименьшие квадраты" и "линейная модель" тесно связаны между собой, но не являются синонимами.

Идея состоит в том, чтобы найти красную кривую, синие точки - реальные образцы. С помощью линейной регрессии все точки могут быть соединены одной прямой. В этом примере используется простая линейная регрессия, где квадрат расстояния между красной линией и каждой точкой выборки сведен к минимуму.

Использование

Экономика

Линейная регрессия является основным аналитическим инструментом в экономике. Например, она используется для угадывания потребительских расходов, расходов на фиксированные инвестиции, инвестиций в запасы, покупок экспорта страны, расходов на импорт, спроса на ликвидные активы, спроса на рабочую силу и предложения рабочей силы.

Вопросы и ответы

В: Что такое линейная регрессия?

О: Линейная регрессия - это способ посмотреть с помощью математики, как что-то меняется при изменении других вещей. Она использует зависимую переменную и одну или несколько объясняющих переменных для создания прямой линии, известной как "линия регрессии".

В: Каковы преимущества линейной регрессии?

О: Модели, которые линейно зависят от своих неизвестных параметров, легче подгонять, чем модели, которые нелинейно связаны со своими параметрами. Кроме того, статистические свойства получаемых оценок легче определить.

В: Каковы некоторые практические применения линейной регрессии?

О: Линейная регрессия может быть использована для подгонки прогностической модели к наблюдаемым значениям (данным), чтобы сделать предсказания, прогнозы или сокращения. Она также может быть использована для количественной оценки силы взаимосвязей между переменными и определения подмножеств данных, которые содержат избыточную информацию о другой переменной.

В: Как линейные регрессионные модели пытаются минимизировать ошибки?

О: Модели линейной регрессии стараются сделать вертикальное расстояние между линией и точками данных (остатки) как можно меньше. Это делается путем минимизации либо суммы квадратов остатков (наименьшие квадраты), либо отсутствия соответствия в какой-то другой норме (наименьшие абсолютные отклонения), либо минимизации штрафованной версии функции потерь наименьших квадратов (гребневая регрессия).

В: Возможно ли, чтобы модели линейной регрессии не были основаны на методе наименьших квадратов?

О: Да, возможно, чтобы модели линейной регрессии не основывались на методе наименьших квадратов, а использовали такие методы, как минимизация отсутствия соответствия в какой-либо другой норме (наименьшие абсолютные отклонения) или минимизация пенализированной версии функции потерь наименьших квадратов (гребневая регрессия).

В: Являются ли "линейная модель" и "наименьшие квадраты" синонимами?

О: Нет, это не синонимы. Хотя они тесно связаны, "линейная модель" относится именно к использованию прямой линии, в то время как "наименьшие квадраты" относится именно к попытке минимизировать ошибки путем обеспечения минимального вертикального расстояния между линией и точками данных.