<<
>>

Корреляционная связь

это связь, проявляющаяся не в каждом отдельном случае, а в массе случаев в средних величинах в форме тенденции.

Статистическое исследование ставит своей конечной целью получение модели зависимости для ее практического использования.

Решение этой задачи осуществляется в следующей последовательности.

Логический анализ сущности изучаемого явления и при- чинно-следственных связей.

В результате устанавливаются результативный показатель (у) и факторы его изменения, характеризуемые показателями (х\, х2, х3, ..., хп). Связь двух признаков (у и х) называется парной корре-ляцией. Влияние нескольких факторов на результативный признак называется множественной корреляцией.

По общему направлению связи могут быть прямыми и обратными. При прямых связях с увеличением признака х увеличивается и признак у, при обратных с увеличением признака х признак у уменьшается.

Сбор первичной информации и проверка ее на однородность и нормальность распределения.

Для оценки однородности совокупности используется коэффициент вариации по факторным признакам:

Vx. = X 100. .

' X,

Ґ Совокупность считается однородной, если коэффициент вариации не превышает 33%. Проверка нормальности распределения исследуемых факторных признаков (х\, х2, ..., хп) проводится с помощью правила «трех сигм». Результаты проверки на нормальность распределения следует представлять в табличной форме (табл. 23.1).

Таблица 23.1 Интервалы значений признака-фактора Число единиц, входящих в интервал Удельный вес единиц, входящих в интервал, в общем их числе, % Удельный мв единиц, входящих * интервал,

при нормальном распределении, % 1 2 3 4 - ах;) ~ (X, + °х,) 68,3 (х, ~ 2сг,.) - (X, ¦ 2о,.) 95,4 (х, - Зах.) - (х, + За,.) 99,7

Сопоставление данных граф 3 и 4 позволяет судить о наличии или об отсутствии нормальности распределения.

На практике часто встречаются случаи отклонения от этих двух предпосылок.

Однако это не означает, что следует отказаться от применения корреляционного анализа.

Исключение из массива первичной информации всех резко выделяющихся Саномальных) единиц по уровню признаков- факторов.

Исключаются все единицы, у которых уровень признака-фактора не попадает в интервал х,- ± Зох. (х,- - Зох. < X; < х,- + ЗаА..), и формируется новый массив для последующего анализа.

Установление факта наличия и направления корреляционной зависимости между результативным (у) и факторным (х) признаками.

Для установления наличия корреляционной связи используется ряд специфических методов: параллельное сопоставление рядов результативного и факторного признаков, графическое изображение фактических данных с помощью поля корреляции, построения корреляционной таблицы.

Основным методом выявления наличия корреляционной связи является метод аналитической группировки и определения групповых средних. Он заключается в том, что все единицы совокупности разбиваются на группы по величине признака-фактора и для каждой группы определяется средняя величина результативного признака. На основе данных аналитической группировки строится график эмпирической линии связи (линии регрессии), вид которой не только позволяет судить о возможном наличии связи, но и дает некоторое представление о форме корреляционной связи. Если эмпирическая линия связи по своему виду приближается к прямой линии, то можно предположить наличие прямолинейной корреляционной связи; если эмпирическая линия приближается к какой-либо кривой, то это связано с наличием криволинейной связи.

После установления факта наличия связи и ее формы измеряется степень тесноты, связи и проводится оценка ее существенности.

Для определения степени тесноты парной линейной зависимости служит линейный коэффициент корреляции (Л); при любой форме зависимости (линейной и криволинейной) — эмпирическое корреляционное отношение (Г|).

Для расчета линейного коэффициента корреляции по несгруппированным данным могут быть использованы следующие формулы:

Г = И(х-х)(у-у).

r = Xdxdy ,

Jy Хху -

г =

пахоу *\[ 2 dx2"2 rfy2

Цх^у

где (х - х) — отклонения вариантов значений признака- фактора от их средней величины; х - х = dx\ (у - у) — отклонения вариантов значений результативного признака от их средней величины; у - у = dy\ п — число единиц в совокупности; о^, оу — среднее квадратическое отклонение соответственно признака-фактора и результативного признака.

Линейный коэффициент корреляции может принимать значения в пределах от -1 до +1. Чем ближе он по абсолютной величине к 1, тем теснее связь. Знак при нем указывает направление связи: знак «+» соответствует прямой зависимости, знак «-» — обратной.

Если коэффициент корреляции равен нулю, то связи между признаками нет; если он равен единице (с любым знаком), то между признаками существует функциональная связь.

Оценка существенности линёйного коэффициента корреляции при большом объеме выборки (свыше 500) проводится с использованием отношения коэффициента корреляции (г) к его средней квадратической ошибке (ог):

И

*расч = . ГДЄ Ог = ¦¦

ог уп-1

Если это отношение окажется больше значения f-критерия Стьюдента, определяемого в установленном в статистике порядке при числе степеней свободы k = п - 2 и с вероятностью (1 - а), то следует говорить о существенности коэффициента корреляции (а-уровень значимости 0,01 или 0,05).

При недостаточно большом объеме выборки величину средней квадратической ошибки коэффициента корреляции определяют по формуле:

В этом случае

^расч

л/« - 2* г Л/ л —

Полненная величина /расч сравнивается с табличным значением ґ-критерия Стьюдента. '

В тех случаях, когда г получен по данным малой выборки, для проверки его существенности целесообразно использовать метод преобразованной корреляции, предложенный Р. Фишером.

Средняя квадратическая ошибка Z-распределения зависит только от объема выборки и определяется по формуле:

1

л/ я — 3

По таблице соотношений между у и Z по специальной таблице находят значение Z, соответствующее рассчитанному коэффициенту корреляции.

Если соотношение Z к средней квадратической ошибке (Z/oz) окажется больше табличного значения критерия Стьюдента при определенном уровне значимости, то можно говорить о наличии связи между признаками в генеральной совокупности.

Корреляционное отношение основано на использовании известной теории сложения дисперсий и определяется по формулам: _ Г б2

ч -

Г) =

'"ІГ

у

где Ь1 — межгрупповая дисперсия результативного признака, вызванная влиянием признака-фактора; о| — общая дисперсия результативного признака; S2 — средняя внутригрупповая дисперсия результативного признака:

§2 = Ш-Vofni.

2 пі

9 ?.(У-Уо)2П1 ,

In ' v §2 . 2а?Пі. 2 п,- '

где уі — среднее значение результативного признака в соответствующих группах, выделенных по величине признака-фактора; у0 — общая средняя для всей совокупности; л,- — число единиц в соответствующих группах; а? — внутригрупповая дисперсия.

Вычисление корреляционного отношения требует достаточно большого объема информации, которая должна быть представлена в форме групповой таблицы или.в форме корреляционной таблицы, то есть обязательным условием является группировка данных по признаку-фактору (изменяется от 0 до 1).

При недостаточном количестве данных в выделенных группах к рассчитанной величине корреляционного отношения вносится поправка:

ті2СК0 = 1-(1-Л2)^1І

"скор І п _ т

где т — число выделенных групп.

Корреляционное отношение в квадрате (г|2) называют коэффициентом детерминации (причинности), он отражает долю факторной дисперсии в общей дисперсии.

В практике могут быть использованы и другие показатели для определения степени тесноты связи.

Элементарной характеристикой степени тесноты связи является коэффициент Фехнера:

„ па - пь

9 Па* пь

где па — количество совпадений знаков отклонений индивидуальных величин факторного признака х и результативного признака у от их средней арифметической величины (например, «плюс» и «плюс», «минус» и «минус», «отсутствие отклонения» и «отсутствие отклонения»); щ — количество несовпадений знаков отклонений индивидуальных значений изучаемых признаков от значения их средней арифметической.

Коэффициент Фехнера целесообразно использовать для установления факта наличия связи при небольшом объеме исходной информации. Он изменяется в пределах -1,0 < Кф < 1,0.

Для определения тесноты связи как между количественными, так и между качественными признаками, при условии, что значения этих признаков могут быть проранжированы по степени убывания или возрастания, используется коэффициент корреляции рангов Спирмэна:

п(п2 - 1)

где di — разность между величинами рангов признака-фактора и результативного признака; п — число показателей (рангов) изучаемого ряда.

Коэффициент корреляции рангов Спирмэна варьирует в пределах от -1,0 до +1,0.

Ранговый коэффициент обычно исчисляется на основе небольшого объема исходной информации, поэтому необходимо выполнить проверку его существенности по таблице предельных значений коэффициента корреляции рангов Спирмэна при условии верности нулевой гипотезы об отсутствии корреляционной связи при заданном уровне значимости и определенном объеме выборочных данных.

Если полученное значение р превышает критическую величину при данном уровне значимости, то нулевая гипотеза может быть отвергнута, то есть величина р не является результатом случайных совпадений рангов.

Для исследования степени тесноты связи между качественными признаками, каждый из которых представлен в виде альтернативных признаков, может быть использован коэффициент ассоциации Д. Юла или коэффициент контингенции К.

Пирсона. Расчетная таблица в этом случае состоит из четырех ячеек (таблица «четырех полей»), статистическое сказуемое которой схематически может быть представлено в следующем виде (табл. 23.2).

Таблица 23.2 Признаки А (да) А (нет) Итого В (да) а Ь a*b В (нет) с d c+d Итого а*с b+d п

В расчетной таблице: а, Ь, с, d — частоты взаимного сочетания _(комбинации) двух альтернативных признаков — А—А и В— В; л — общая сумма частот.

Коэффициент ассоциации исчисляется по формуле:

КА = ad ~ be ad + be

Коэффициент контингенции находится по формуле:

? _ ad - be

л/ (а ¦ b)(b * d\a * с)(с * d)'

где а, Ь, с, d — числа, в четырехклеточной таблице.

Коэффициент контингенции также изменяется от -1 до +1, но всегда его величина для тех же данных меньше коэффициента ассоциации.

Для оценки тесноты связи между альтернативными признаками, принимающими любое число вариантов значений, применяется коэффициент взаимной сопряженности К. Пирсона и коэффициент взаимной сопряженности А. А. Чупрова.

Первичная статистическая информация для исследования этой связи располагается в форме таблицы (табл. 23.3).

Таблица 23.3 Признаки А В С Итого D /и /12 /із Е /21 /22 /23 F . /зі /32 /зз Итого Ах, л2у п

В таблице fij — частоты взаимного сочетания двух атрибутивных признаков; п — число пар наблюдений.

Коэффициент взаимной сопряженности К. Пирсона определяется по формуле;

С

Ф2

где ф2 — показатель средней квадратической сопряженности.

Показатель ф2 определяется как сумма отношений квадратов частот каждой клетки таблицы к произведению итоговых частот соответствующего столбца и строки за минусом единицы.

где fjj — частоты каждой клетки; і — номер строки; Л,- — итоговые частоты по строкам; Aj — итоговые частоты по графам.

Коэффициент взаимной сопряженности А. А. Чупрова исчисляется по формуле:

Ф2

К =-

]^(к1-1хк2~1)'

где ф2 имеет одинаковое значение с показателем Пирсона и явля- етря показателем взаимной сопряженности; К\ — число групп по столбцам таблицы; К2 — число групп по строкам таблицы.

Коэффициент взаимной сопряженности Чупрова (К) является более гибким, поскольку он учитывает число образуемых по каждому признаку групп (К\ и К2), поэтому результат является более точным по сравнению с коэффициентом взаимной сопряженности по формуле Пирсона.

Коэффициент взаимной сопряженности изменяется от 0 до 1.

6.

После установления достаточной степени тесноты связи выполняется построение модели связи (уравнения регрессии).

Тип модели выбирается на основе сочетания теоретического анализа и исследования эмпирических данных посредством пост-роения эмпирической линии регрессии. Чаще всего используются следующие типы функций:

а) линейная — ух = а + Ьх; ,

б) гиперболическая — ух = а + 6 —;

в) параболическая — ух = а + Ьх + сх2;

г) показательная — ух = abx;

Для определения численных значений параметров уравнения связи (линии регрессии) используется метод наименьших квадратов и решается система нормальных уравнений.

Для определения параметров а и Ъ уравнения прямолинейной корреляционной связи система нормальных уравнений (для нес- группированнЫх данных) следующая:

Ху * an + ЬЦх Пух = а?х + ЬПх2

Параметры а и Ь можно определить по следующим формулам:

_ Пху - пху Hdxd4 а = у - Ьх; Ь= - —-2 или b = -f-.

Их - п(х)

Для проверки возможности использования линейной функции определяется разность квадратов (ц - г2). Если она менее 0,1, то считается возможным применение линейной функции. Для решения этой же задачи можно использовать величину со , определяемую по формуле:

т - 2 ' п - т

где т — число групп, на которое разделен диапазон значений факторного признака.

Если со2 окажется меньше табличного значения F-критерия, то нулевая гипотеза о возможности использования в качестве уравнения регрессии линейной функции не опровергается. Значение F-критерия определяется по таблице в зависимости от уровня значимости а = 0,05 (вероятность Р = 0',95) й^числа степеней свободы числителя (k\ = т - 2) и знаменателя (&2 = п - т)}

Для определения параметров гиперболической функции система нормальных уравнений следующая:

' 2 у = an * ЬП1 ¦ as! ¦ йф2

1 См.: Ефимова М. и др. Практикум по общей теории статистики. — М.: Финансы и статистика, 2002 (приложение 5).

Для определения параметров параболы второго порядка система нормальных уравнений такова:

'2 г/ = an + &2* + c2*2 Л, ух = а?х * d>2*2 + с2х3 22х3 + с2*4

В качестве меры достоверности уравнения корреляционной зависимости используется процентное отношение средней квадрати- ческой ошибки уравнения (Se) к среднему уровню результативного признака (у):

2

^•(У-УхУ п - I

= X 100; Se У

где у — фактические значения результативного признака; ух — значения результативного признака, рассчитанные по уравнению, регрессии; I — число параметров в уравнении регрессии.

Если это отношение не превышает 10—15%, то следует считать, что уравнение регрессии достаточно хорошо отображает изучаемую взаимосвязь.

Полученное уравнение регрессии используется для экстраполяции. Однако ее можно применять лишь тогда, когда существенно не изменились условия формирования уровней признаков.

7. Изучение множественной корреляционной зависимости начинается с анализа матрицы парных коэффициентов корреляции. Это позволяет произвести отбор факторов, включаемых в модель множественной зависимости. Матрица имеет следующий вид (табл. 23.4).

Таблица 23.4 Признаки Уо Ч Ч Уо 1 '01 '02 '0 к Ч '01 1 '21 rkl х2 '02 '12 1 гк2 Ч г0к * Пк '2* 1 1

Анализ первой строки матрицы позволяет выявить факторы, у которых степень тесноты связи с результативным показателем значительна, а поэтому они могут быть включены в модель. Однако при построении многофакторных моделей должно соблюдаться требование возможно меньшей коррелированное™ включенных в модель признаков-факторов (отсутствие мультиколлинеарности). В качестве критерия мультиколлинеарности может быть принято соблюдение следующих неравенств:

Гх-,У > r*jk' ГЧУ > Гх1хк

Если приведенные неравенства (или хотя бы одно из них) не выполняются, то исключается тот фактор Xj или х^, связь которого с результативным признаком у будет менее тесной.

Отобранные факторы включаются в модель множественной зависимости. При этом следует учитывать, что число факторов, включаемых в модель, должно быть в 5—б раз меньше, чем число единиц, входящих в совокупность.

Для измерения степени тесноты связи между изменениями величины результативного признака (у) и изменениями значений факторных признаков определяется коэффициент множественной (совокупной) корреляции (R).

Для случая зависимости результативного признака от двух факторных признаков формула совокупного коэффициента корреляции имеет вид:

2 2 _ о,

R

'ух{х2 = Д

гух\ + ryx2 ^'yxiryx2rx1x2

Если число факторов-признаков более двух, то совокупный коэффициент корреляции определяется следующим образом:

R2 =1-^-

где А — матрица парных коэффициентов корреляции; А* соответствует матрице парных коэффициентов корреляции (А) без верх-ней строки и первого столбца.

Величина R называется коэффициентом детерминации; она показывает, в какой мере вариация результативного признака обусловлена влиянием признаков-факторов, включенных в урав-нение множественной зависимости.

Величина совокупного коэффициента корреляции изменяется в пределах от 0 до 1 и численно не может быть меньше, чем любой из образующих его парных коэффициентов корреляции. Чем ближе он к единице, тем меньше роль неучтенных в модели факторов и тем более оснований считать, что параметры регрессионной модели отражают степень эффективности включенных в нее факторов.

Для оценки существенности (значимости) совокупного коэффициента корреляции используется критерий F-Фишера.

Для этого определяется F-расчетное по следующей формуле:

2 , р п-

і п

расч 0 '

а| / - 1

где Ор — факторная дисперсия результативного признака, обусловленная вариацией признаков-факторов;

2 1(у - yf

у~ п

где у — значения результативного признака, рассчитанные по

уравнению регрессии; Of — остаточная дисперсия:

2 2 2 оЕ = оу- о5;

о2у — общая дисперсия результативного признака; п — число дан-ных; I — число параметров уравнения.

10. Для сравнения роли различных факторов в формировании моделируемого показателя определяется коэффициент эластичности (3,) или (3-коэффициент (|3

Частный коэффициент эластичности показывает, на СКОЛЬКО процентов в среднем изменяется результативный признак у с изменением признака-фактора х на 1%, и определяется по формуле:

Э; - bj 1 ' У

где bj — коэффициент регрессии при /-м факторе.

(^коэффициент показывает, на какую часть среднего квадра- тического отклонения изменится результативный показатель при изменении соответствующего фактора (х) на величину его среднего квадратического отклонения. Его формула имеет вид:

<< | >>
Источник: Яковлев Г. А.. Экономика и статистика туризма: Учебное пособие. 2-е изд., перераб. и доп. — М.: Издательство РДЛ,2004. — 376 с.. 2004

Еще по теме Корреляционная связь: