<<
>>

8.4 Регрессионный анализ

Как отмечалось ранее регрессионный анализ заключается в определении аналитического выражения связи, в котором изменение одной величины (называемой зависимой или результативным признаком) обусловлено влиянием одной или нескольких независимых величин ( факторов), а множество всех прочих факторов, также оказывающих влияние на зависимую величину, принимается за постоянные и средние значения.

Регрессия может быть однофакторной (парной) и многофакторной (множественной).

По форме зависимости различают линейную и нелинейную регрессию.

Парная регрессия характеризует связь между двумя признаками: факторным и результативным Аналитическая связь между ними описывается уравнениями:

Прямой Ух =а0 + а1х;

Гиперболы Ух = а0 + а1./ х; ( 4 )

Параболы Ух = а0 + а1х + а1х2; и т. д.

Определить тип уравнения можно из следующих соображений

Если результативный и факторный признаки возрастают одинаково, примерно в арифметической прогрессии, то связь между ними - линейная.

Б)_ Если результативный и факторный признаки изменяются в обратной пропорции, то связь - гиперболическая.

Если факторный признак увеличивается в арифметической прогрессии, а результативный - значительно быстрее, то используется параболическая или степенная регрессия.

Оценка параметров уравнений регрессии ( а0, а1, ...ап) производится на основе метода наименьших квадратов,_который изучается в курсе высшей математики.

па 0 + а

1Z х _Z У;

( 5 )

а0^х + ах^х2 ху

Для парной линейной регрессии система нормальных уравнений, полученная на основе метода наименьших квадратов имеет вид

где n - объем исследуемой совокупности число единиц наблюдения) В уравнениях регрессии параметр а0 показывает усредненное влияние на результативный признак неучтенных (не выделенных для исследования) факторов, а параметры ах, ...ап показывают насколько изменяется в среднем значение результативного признака при увеличении факторного.

Пример.

Имеются данные, характеризующие деловую активность акционерных обществ закрытого типа (АОЗТ): прибыль ( тыс. рубл.) и затраты на 1 руб. произведенной продукции (коп.) . Эти данные приведены в таблице 3 Предположим наличие линейной зависимости между рассматриваемыми признаками.

Таблица 3 - Исходные данные и промежуточные вычисления № п/п Затраты на 1 руб. произведенной про-дукции, коп., Х Прибыль, тыс. рубл., У Х2 ХУ 1 77 1070 5929 82390 1016 2 77 1001 5929 77077 1016 3 81 789 6561 63909 853 4 82 779 6724 63878 812 5 89 606 7921 53934 527 6 96 221 9216 21216 242 Итого 502 4466 42280 362404 4466 Система нормальных уравнений для данного примера имеет вид (5 ) а в числовом варианте

6ао + 502а1 = 4466;

502 ао + 42280 а1 = 362 404

Откуда: а0 = 4153,88; а1 = - 40,75. Следовательно, уравнение регрессии имеет вид

= 4153,88 - 40, 75х .

Оценка адекватности моделей построенных на основе уравнений регрессии начинается с проверки значимости коэффициентов регрессии с помощью t - критерия Стьюдента

( 6 )

tP =

Я

а

где а Ql - дисперсия коэффициента регрессии.

Параметр модели признается статически значимым, если выполняется условие

tр > tkp (a; n =n-k -1), ( 7 )

где а - уровень значимости критерия проверки гипотезы о равенстве нулю параметров, измеряющих связь, т. е. статистическая существенность связи, утверждается при отклонении нулевой гипотезы об отсутствии связи;

n = (n -k - 1) - число степеней свободы, которое характеризует число свободно варьирующих элементов совокупности.

_2

Дисперсию &at можно определить по зависимости

_ 2

_ 2 а Y

а _~Y, ( 8 )

2

где ау - дисперсия результативного признака; k - число факторных признаков в уравнении.

Проверка адекватности регрессионной модели в целом осуществляется с помощью расчета F - критерия ФИШЕРА и величины средней ошибки

аппроксимации ? .

Расчетное значение критерия Фишера Fp определяется по зависимости

FP _ (9)

Если F^Fa при a = 0,05 или a = 0,01, то H0 - гипотеза о несоответствии заложенных в уравнении регрессии связей реально существующим отвергается. Величина Fa определяется по специальным таблицам, входом в которые являются величины a = 0,05 или a = 0,01 и числа степеней свободы: v1 =k -1, v2 =n - k, где n - число наблюдений, k - число факторных признаков в уравнении.

Значение средней ошибки аппроксимации, определяется по зависимости

1 v- Y - Y,

( 10 )

и не должно превышать (12...15)%

<< | >>
Источник: Кошевой О .С .. Основы статистики. 2005

Еще по теме 8.4 Регрессионный анализ: