Двумерная линейная регрессионная модель

Рассмотрим простейшую двумерную модель регрессионного анализа. Пусть функция регрессии y на x имеет вид:
.
Определению подлежат параметры уравнения регрессии β0 и β1, называемые коэффициентами регрессии, а также - остаточная дисперсия. σост2 .
Остаточной дисперсией называется та часть вариации зависимой переменной, которую нельзя объяснить воздействием объясняющей переменной. Именно поэтому остаточная дисперсия может быть использована для оценки качества модели, точности подбора функции, полноты набора объясняющих переменных.
Обозначим оценки параметров уравнения регрессии β0 и β1 как b0 и b1. В соответствии с методом наименьших квадратов, т.е. показывает воздействие возмущающей переменной.
Для того, чтобы найти минимум функции, сначала рассчитывают частные производные первого порядка, затем каждую из них приравнивают к нулю и решают полученную систему уравнений.
На основе изложенного выведем теперь оценки коэффициентов регрессии:

;

.
Для отыскания экстремума приравниваем эти выражения к нулю и после преобразований получим:
;

.

Рассматривая эти два уравнения как систему двух линейных уравнений, решим их относительно b0 и b1.

Оценку остаточной дисперсии можно получить, используя формулу

Следует отметить, что оценки b0 и b1 коэффициентов регрессии β0 и β1, полученных по методу наименьших квадратов, обладает значением y в точке x=0, экономическая интерпретация его вряд ли возможна. Поэтому на практике обычно больший интерес вызывает коэффициент регрессии b1.

y

b1

x

Рис.1. Регрессионная прямая и ее параметры

Коэффициент регрессии b1 показывает среднюю величину изменения зависимой переменной y при изменении объясняющей переменной x на единицу собственного изменения. Знак при b1 указывает направление этого изменения. Если коэффициент регрессии имеет отрицательный знак, то это говорит об отрицательной регрессии, при которой увеличение значений объясняющей переменной ведет к убыванию значения y. Если коэффициент регрессии имеет положительный знак, то это говорит о положительной регрессии, означающей, что при увеличении значений объясняющей переменной увеличиваются и значения зависимой переменной.
Коэффициент b0 имеет размерность зависимой переменной. Размерность коэффициента регрессии b1 представляет собой отношение размерности зависимой переменной к размерности анализа можно проверить значимость уравнения регрессии, для чего следует проверить нулевую гипотезу H0 : β1=0. В основе проверки лежит идея дисперсионного анализа, состоящая в разложении дисперсии на составляющие. В регрессионном анализе общая сумма Qобщ квадратов отклонений зависимой переменной разлагается на сумму квадратов QR отклонений, обусловленных регрессией, которая характеризует воздействие объясняющей переменной, и сумму квадратов Qост отклонений относительно плоскости регрессии, характеризующую воздействие неучтенных в модели или случайных факторов. При этом Qобщ=QR + Qост , где Qобщ = .
Понятно, что чем меньше Qост, т.е. меньше воздействие неучтенных в модели или случайных факторов, тем точнее соответствует модель фактическим данным.
Для проверки гипотезы используется F-критерий, который имеет распределение Фишера-Снедекора с числом степеней свободы ν1=1 и ν2=n-2.
Задавшись уровнем значимости α и соответствующим числом степеней свободы (используя таблицу F-распределения Фишера-Снедекора), находим Fкр, удовлетворяющее условию P(Fн>Fкр) ≤ α
Если Fн>Fкр, нулевая гипотеза отвергается и уравнение регрессии считается значимым. При Fн ≤. Fкр оснований для отклонения гипотезы нет.
Если уравнение регрессии значимо, то представляет интерес определение с надежностью γ интервальных оценок параметров β0, β1, :

;

;

Доверительную оценку с надежностью γ для интервала предсказания в точке x=x0 определяют по формуле (здесь x ≠ x0, где i=1,2,...,n):

,
где tγ определяют по таблице t-распределения Стьюдента при α =1-γ и ν=n-2.
Одной из наиболее эффективных оценок адекватности построенной модели является коэффициент детерминации r2, определяемый как:

.

Это отношение показывает, какая часть общей дисперсии зависимой переменной y обусловлена вариацией объясняющей переменной x. Чем больше доля дисперсии в общей дисперсии , тем лучше выбранная функция аппроксимирует фактические данные. При этом выбранная функция тем лучше определена, чем меньше величина общей дисперсии, т.е. чем меньше эмпирические значения отклоняются от расчетной линии регрессии.
Величина коэффициента детерминации находится в интервале 0 ≤ r2 ≤ 1. Если r2=0, то это означает, что вариация зависимой переменной полностью обусловлена воздействием неучтенных в модели факторов. В этом случае линия регрессии будет параллельна оси абсцисс: yi = - и никакой причинно-следственной связи не будет наблюдаться.
Если r2=1, то все фактические значения yi лежат на линии регрессии, т.е. . В этом случае говорят о строгой линейной функциональной связи между зависимой и объясняющей переменными.
Легко заметить, что r2 является квадратом выборочного коэффициента корреляции r. Величина 1 - r2 характеризует долю общей дисперсии зависимой переменной, объясненную воздействием неучтенных в модели и случайных факторов.

Powered by Drupal - Design by artinet