8.4 Регрессионный анализ
Регрессия может быть однофакторной (парной) и многофакторной (множественной).
По форме зависимости различают линейную и нелинейную регрессию.
Парная регрессия характеризует связь между двумя признаками: факторным и результативным Аналитическая связь между ними описывается уравнениями:Прямой Ух =а0 + а1х;
Гиперболы Ух = а0 + а1./ х; ( 4 )
Параболы Ух = а0 + а1х + а1х2; и т. д.
Определить тип уравнения можно из следующих соображений
Если результативный и факторный признаки возрастают одинаково, примерно в арифметической прогрессии, то связь между ними - линейная.
Б)_ Если результативный и факторный признаки изменяются в обратной пропорции, то связь - гиперболическая.
Если факторный признак увеличивается в арифметической прогрессии, а результативный - значительно быстрее, то используется параболическая или степенная регрессия.
Оценка параметров уравнений регрессии ( а0, а1, ...ап) производится на основе метода наименьших квадратов,_который изучается в курсе высшей математики.
па 0 + а
1Z х _Z У;
( 5 )
а0^х + ах^х2 ху
Для парной линейной регрессии система нормальных уравнений, полученная на основе метода наименьших квадратов имеет вид
где n - объем исследуемой совокупности число единиц наблюдения) В уравнениях регрессии параметр а0 показывает усредненное влияние на результативный признак неучтенных (не выделенных для исследования) факторов, а параметры ах, ...ап показывают насколько изменяется в среднем значение результативного признака при увеличении факторного.
Пример.
Имеются данные, характеризующие деловую активность акционерных обществ закрытого типа (АОЗТ): прибыль ( тыс. рубл.) и затраты на 1 руб. произведенной продукции (коп.) . Эти данные приведены в таблице 3 Предположим наличие линейной зависимости между рассматриваемыми признаками.Таблица 3 - Исходные данные и промежуточные вычисления № п/п Затраты на 1 руб. произведенной про-дукции, коп., Х Прибыль, тыс. рубл., У Х2 ХУ 1 77 1070 5929 82390 1016 2 77 1001 5929 77077 1016 3 81 789 6561 63909 853 4 82 779 6724 63878 812 5 89 606 7921 53934 527 6 96 221 9216 21216 242 Итого 502 4466 42280 362404 4466 Система нормальных уравнений для данного примера имеет вид (5 ) а в числовом варианте
6ао + 502а1 = 4466;
502 ао + 42280 а1 = 362 404
Откуда: а0 = 4153,88; а1 = - 40,75. Следовательно, уравнение регрессии имеет вид
= 4153,88 - 40, 75х .
Оценка адекватности моделей построенных на основе уравнений регрессии начинается с проверки значимости коэффициентов регрессии с помощью t - критерия Стьюдента
( 6 )
tP =
Я
а
где а Ql - дисперсия коэффициента регрессии.
Параметр модели признается статически значимым, если выполняется условие
tр > tkp (a; n =n-k -1), ( 7 )
где а - уровень значимости критерия проверки гипотезы о равенстве нулю параметров, измеряющих связь, т. е. статистическая существенность связи, утверждается при отклонении нулевой гипотезы об отсутствии связи;
n = (n -k - 1) - число степеней свободы, которое характеризует число свободно варьирующих элементов совокупности.
_2
Дисперсию &at можно определить по зависимости
_ 2
_ 2 а Y
а _~Y, ( 8 )
2
где ау - дисперсия результативного признака; k - число факторных признаков в уравнении.
Проверка адекватности регрессионной модели в целом осуществляется с помощью расчета F - критерия ФИШЕРА и величины средней ошибки
аппроксимации ? .
Расчетное значение критерия Фишера Fp определяется по зависимости
FP _ (9)
Если F^Fa при a = 0,05 или a = 0,01, то H0 - гипотеза о несоответствии заложенных в уравнении регрессии связей реально существующим отвергается. Величина Fa определяется по специальным таблицам, входом в которые являются величины a = 0,05 или a = 0,01 и числа степеней свободы: v1 =k -1, v2 =n - k, где n - число наблюдений, k - число факторных признаков в уравнении.
Значение средней ошибки аппроксимации, определяется по зависимости
1 v- Y - Y,
( 10 )
и не должно превышать (12...15)%