Линейная регрессия

Линейная регрессия (англ. Linear regression) — используемая в статистике регрессионная модель зависимости одной (объясняемой, зависимой) переменной $y$ от другой или нескольких других переменных (факторов, регрессоров, независимых переменных) $x$ с линейной функцией зависимости.

Пример линии (красная), построенной с использованием линейной регрессии

Модель линейной регрессии является часто используемой и наиболее изученной в эконометрике. А именно изучены свойства оценок параметров, получаемых различными методами при предположениях о вероятностных характеристиках факторов, и случайных ошибок модели. Предельные (асимптотические) свойства оценок нелинейных моделей также выводятся исходя из аппроксимации последних линейными моделями. С эконометрической точки зрения более важное значение имеет линейность по параметрам, чем линейность по факторам модели.

Регрессионная модель

y=f(x,b)+\varepsilon ,

где $b$ — параметры модели, $\varepsilon$ — случайная ошибка модели; называется линейной регрессией, если функция регрессии $f(x,b)$ имеет вид

f(x,b)=b_{0}+b_{1}x_{1}+b_{2}x_{2}+...+b_{k}x_{k}

,

где $b_{j}$ — параметры (коэффициенты) регрессии, $x_{j}$ — регрессоры (факторы модели), k — количество факторов модели^[1].

Коэффициенты линейной регрессии показывают скорость изменения зависимой переменной по данному фактору, при фиксированных остальных факторах (в линейной модели эта скорость постоянна):

\forall j\quad ~b_{j}={\frac {\partial f}{\partial x_{j}}}=const

Параметр $b_{0}$ , при котором нет факторов, называют часто константой. Формально — это значение функции при нулевом значении всех факторов. Для аналитических целей удобно считать, что константа — это параметр при «факторе», равном 1 (или другой произвольной постоянной, поэтому константой называют также и этот «фактор»). В таком случае, если перенумеровать факторы и параметры исходной модели с учетом этого (оставив обозначение общего количества факторов — k), то линейную функцию регрессии можно записать в следующем виде, формально не содержащем константу:

f(x,b)=b_{1}x_{1}+b_{2}x_{2}+\ldots +b_{k}x_{k}=\sum _{j=1}^{k}b_{j}x_{j}=x^{T}b

,

где $x^{T}=(x_{1},x_{2},...,x_{k})$ — вектор регрессоров, $b=(b_{1},b_{2},\ldots ,b_{k})^{T}$ — вектор-столбец параметров (коэффициентов).

Линейная модель может быть как с константой, так и без константы. Тогда в этом представлении первый фактор либо равен единице, либо является обычным фактором соответственно.

Парная и множественная регрессия

В частном случае, когда фактор единственный (без учёта константы), говорят о парной или простейшей линейной регрессии:

y_{t}=a+bx_{t}+\varepsilon _{t}

Когда количество факторов (без учёта константы) больше одного, то говорят о множественной регрессии:

Y=b_{0}+b_{1}x_{i1}+...+b_{j}x_{ij}+...+b_{k}x_{ik}+e_{i}

Модель затрат организации (без указания случайной ошибки)

TC=FC+VC=FC+v\cdot Q

$TC$ — общие затраты
$FC$ — постоянные затраты (не зависящие от объёма производства)
$VC$ — переменные затраты, пропорциональные объёму производства
$v$ — удельные или средние (на единицу продукции) переменные затраты
$Q$ — объём производства.

Простейшая модель потребительских расходов (Кейнс)

C=a+bY+\varepsilon

$C$ — потребительские расходы
$Y$ — располагаемый доход
$b$ — «предельная склонность к потреблению»
$a$ — автономное (не зависящее от дохода) потребление.

Пусть дана выборка объёмом n наблюдений переменных y и x. Обозначим t — номер наблюдения в выборке. Тогда $y_{t}$ — значение переменной y в t-м наблюдении, $x_{tj}$ — значение j-го фактора в t-м наблюдении. Соответственно, $x_{t}^{T}=(x_{t1},x_{t2},...,x_{tk})$ — вектор регрессоров в t-м наблюдении. Тогда линейная регрессионная зависимость имеет место в каждом наблюдении:

y_{t}=b_{1}x_{t1}+b_{2}x_{t2}+...+b_{k}x_{tk}=\sum _{j=1}^{k}b_{j}x_{tj}=x_{t}^{T}b+\varepsilon _{t}~,~E(\varepsilon _{t})=0~,~t=1..n

Введём обозначения:

y={\begin{pmatrix}y_{1}\\y_{2}\\...\\y_{n}\\\end{pmatrix}}

— вектор наблюдений зависимой переменой y

X={\begin{pmatrix}x_{11}&x_{12}&...&x_{1k}\\x_{21}&x_{22}&...&x_{2k}\\...\\x_{n1}&x_{n2}&...&x_{nk}\\\end{pmatrix}}

— матрица факторов.

\varepsilon ={\begin{pmatrix}\varepsilon _{1}\\\varepsilon _{2}\\...\\\varepsilon _{n}\\\end{pmatrix}}

— вектор случайных ошибок.

Тогда модель линейной регрессии можно представить в матричной форме:

y=Xb+\varepsilon

В классической линейной регрессии предполагается, что наряду со стандартным условием $E(\varepsilon _{t})=0$ выполнены также следующие предположения (условия Гаусса-Маркова):

Гомоскедастичность (постоянная или одинаковая дисперсия) или отсутствие гетероскедастичности случайных ошибок модели: $V(\varepsilon _{t})=\sigma ^{2}=const$
Отсутствие автокорреляции случайных ошибок: $\forall i,j,~i\not =j~~cov(\varepsilon _{i},\varepsilon _{j})=0$

Данные предположения в матричном представлении модели формулируются в виде одного предположения о структуре ковариационной матрицы вектора случайных ошибок: $V(\varepsilon )=\sigma ^{2}I_{n}$

Помимо указанных предположений, в классической модели факторы предполагаются детерминированными (нестохастическими). Кроме того, формально требуется, чтобы матрица $X$ имела полный ранг ( $k$ ), то есть предполагается, что отсутствует полная коллинеарность факторов.

При выполнении классических предположений обычный метод наименьших квадратов позволяет получить достаточно качественные оценки параметров модели, а именно: они являются несмещёнными, состоятельными и наиболее эффективными оценками.

Регрессионный анализ

[1]
Демиденко, 1981, с. 6.

Е.З. Демиденко. Линейная и нелинейная регрессия. — М.: Финансы и статистика, 1981. — 302 с.
Дж. Себер. Линейный регрессионный анализ. — М.: Мир, 1980. — 456 с. — 13 700 экз.

[_b1b5e0dd2db72945-1] [1]
Демиденко, 1981, с. 6.

[1]

Линейная регрессия

Парная и множественная регрессия

Модель затрат организации (без указания случайной ошибки)

Простейшая модель потребительских расходов (Кейнс)

Wikiwand in your browser!

Линейная регрессия

Парная и множественная регрессия

Модель затрат организации (без указания случайной ошибки)

Простейшая модель потребительских расходов (Кейнс)

Wikiwand in your browser!

Определение

Примеры

Матричное представление

Классическая линейная регрессия

Методы оценки

См. также

Примечания

Литература