​ Критерий корреляции Пирсона – это метод параметрической статистики, позволяющий определить наличие или отсутствие линейной связи между двумя количественными показателями, а также оценить ее тесноту и статистическую значимость. Другими словами, критерий корреляции Пирсона позволяет определить, есть ли линейная связь между изменениями значений двух переменных. В статистических расчетах и выводах коэффициент корреляции обычно обозначается как r xy или R xy .

1. История разработки критерия корреляции

Критерий корреляции Пирсона был разработан командой британских ученых во главе с Карлом Пирсоном (1857-1936) в 90-х годах 19-го века, для упрощения анализа ковариации двух случайных величин. Помимо Карла Пирсона над критерием корреляции Пирсона работали также Фрэнсис Эджуорт и Рафаэль Уэлдон .

2. Для чего используется критерий корреляции Пирсона?

Критерий корреляции Пирсона позволяет определить, какова теснота (или сила) корреляционной связи между двумя показателями, измеренными в количественной шкале. При помощи дополнительных расчетов можно также определить, насколько статистически значима выявленная связь.

Например, при помощи критерия корреляции Пирсона можно ответить на вопрос о наличии связи между температурой тела и содержанием лейкоцитов в крови при острых респираторных инфекциях, между ростом и весом пациента, между содержанием в питьевой воде фтора и заболеваемостью населения кариесом.

3. Условия и ограничения применения критерия хи-квадрат Пирсона

  1. Сопоставляемые показатели должны быть измерены в количественной шкале (например, частота сердечных сокращений, температура тела, содержание лейкоцитов в 1 мл крови, систолическое артериальное давление).
  2. Посредством критерия корреляции Пирсона можно определить лишь наличие и силу линейной взаимосвязи между величинами. Прочие характеристики связи, в том числе направление (прямая или обратная), характер изменений (прямолинейный или криволинейный), а также наличие зависимости одной переменной от другой - определяются при помощи регрессионного анализа .
  3. Количество сопоставляемых величин должно быть равно двум. В случае анализ взаимосвязи трех и более параметров следует воспользоваться методом факторного анализа .
  4. Критерий корреляции Пирсона является параметрическим , в связи с чем условием его применения служит нормальное распределение сопоставляемых переменных. В случае необходимости корреляционного анализа показателей, распределение которых отличается от нормального, в том числе измеренных в порядковой шкале, следует использовать коэффициент ранговой корреляции Спирмена .
  5. Следует четко различать понятия зависимости и корреляции. Зависимость величин обуславливает наличие корреляционной связи между ними, но не наоборот.

Например, рост ребенка зависит от его возраста, то есть чем старше ребенок, тем он выше. Если мы возьмем двух детей разного возраста, то с высокой долей вероятности рост старшего ребенка будет больше, чем у младшего. Данное явление и называется зависимостью , подразумевающей причинно-следственную связь между показателями. Разумеется, между ними имеется и корреляционная связь , означающая, что изменения одного показателя сопровождаются изменениями другого показателя.

В другой ситуации рассмотрим связь роста ребенка и частоты сердечных сокращений (ЧСС). Как известно, обе эти величины напрямую зависят от возраста, поэтому в большинстве случаев дети большего роста (а значит и более старшего возраста) будут иметь меньшие значения ЧСС. То есть, корреляционная связь будет наблюдаться и может иметь достаточно высокую тесноту. Однако, если мы возьмем детей одного возраста , но разного роста , то, скорее всего, ЧСС у них будет различаться несущественно, в связи с чем можно сделать вывод о независимости ЧСС от роста.

Приведенный пример показывает, как важно различать фундаментальные в статистике понятия связи и зависимости показателей для построения верных выводов.

4. Как рассчитать коэффициента корреляции Пирсона?

Расчет коэффициента корреляции Пирсона производится по следующей формуле:

5. Как интерпретировать значение коэффициента корреляции Пирсона?

Значения коэффициента корреляции Пирсона интерпретируются исходя из его абсолютных значений. Возможные значения коэффициента корреляции варьируют от 0 до ±1. Чем больше абсолютное значение r xy – тем выше теснота связи между двумя величинами. r xy = 0 говорит о полном отсутствии связи. r xy = 1 – свидетельствует о наличии абсолютной (функциональной) связи. Если значение критерия корреляции Пирсона оказалось больше 1 или меньше -1 – в расчетах допущена ошибка.

Для оценки тесноты, или силы, корреляционной связи обычно используют общепринятые критерии, согласно которым абсолютные значения r xy < 0.3 свидетельствуют о слабой связи, значения r xy от 0.3 до 0.7 - о связи средней тесноты, значения r xy > 0.7 - о сильной связи.

Более точную оценку силы корреляционной связи можно получить, если воспользоваться таблицей Чеддока :

Оценка статистической значимости коэффициента корреляции r xy осуществляется при помощи t-критерия, рассчитываемого по следующей формуле:

Полученное значение t r сравнивается с критическим значением при определенном уровне значимости и числе степеней свободы n-2. Если t r превышает t крит, то делается вывод о статистической значимости выявленной корреляционной связи.

6. Пример расчета коэффициента корреляции Пирсона

Целью исследования явилось выявление, определение тесноты и статистической значимости корреляционной связи между двумя количественными показателями: уровнем тестостерона в крови (X) и процентом мышечной массы в теле (Y). Исходные данные для выборки, состоящей из 5 исследуемых (n = 5), сведены в таблице.

Различные экономические явления как на микро-, так и на макроуровне не являются независимыми, а связаны между собой (цена товара и спрос на него, объём производства и прибыль фирмы и.т.д.).

Эта зависимость может быть строго функциональной (детермированной) и статистической.

Зависимость между и
называетсяфункциональной, когда каждому значению одного признака соответствует одно единственное значение другого признака. (Примером такой однозначной зависимости может служить зависимость площади круга от радиуса).

В реальной действительности чаще встречается иная связь между явлениями, когда каждому значению одного признака могут соответствовать несколько значений другого (например, связь между возрастом детей и их ростом).

Форма связи, при которой один или несколько взаимосвязанных показателей (факторов) оказывают влияние на другой показатель (результат) не однозначно, а с определенной долей вероятности, называется статистической . В частности, если при изменении одной из величин изменяется среднее значение другой, то в этом случае статистическую зависимость называют корреляционной .

В зависимости от числа факторов, включаемых в модель, различают парную корреляцию (связь двух переменных) и множественную (зависимость результата от нескольких факторов).

Корреляционный анализ состоит в определении направления, формы и степени связи (тесноты) между двумя (несколькими) случайными признаками
и.

По направлению корреляция бывает положительной (прямой) , если при увеличении значений одной переменной увеличивается значение другой, и отрицательной (обратной) , если при увеличении значений одной переменной, уменьшается значение другой.

По форме корреляционная связь может быть линейной (прямолинейной) , когда изменение значений одного признака приводит к равномерному изменению другого (математически описывается уравнением прямой
), икриволинейной , когда изменение значений одного признака приводит к неодинаковым изменениям другого (математически она описывается уравнениями кривых линий, например гиперболы
, параболы
и т.д.).

Простейшей формой зависимости между переменными является линейная зависимость. И проверка наличия такой зависимости, оценивание её индикаторов и параметров является одним из важнейших направлений эконометрики.

Существуют специальные статистические методы и, соответственно, показатели, значения которых определённым образом свидетельствуют о наличии или отсутствии линейной связи между переменными.

3.1. Коэффициент линейной корреляции

Наиболее простым, приближенным способом выявления корреляционной связи является графический .

При небольшом объеме выборки экспериментальные данные представляют в виде двух рядов связанных между собой значений и. Если каждую пару
представить точкой на плоскости
, то получится так называемоекорреляционное поле (рис.1).

Если корреляционное поле представляет собой эллипс, ось которого расположена слева направо и снизу вверх (рис.1в), то можно полагать, что между признаками существует линейная положительная связь.

Если корреляционное поле вытянуто вдоль оси слева направо и сверху вниз (рис.1г), то можно полагать наличие линейной отрицательной связи.

В случае же если точки наблюдений располагаются на плоскости хаотично, т.е корреляционное поле образует круг (рис.1а), то это свидетельствует об отсутствии связи между признаками.

На рис.1б представлена строгая линейная функциональная связь.

Под теснотой связи между двумя величинами понимают степень сопряженности между ними, которая обнаруживается с изменением изучаемых величин. Если каждому заданному значению
соответствуют близкие друг другу значения, то связь считается тесной (сильной); если же значениясильно разбросаны, то связь считается менее тесной. При тесной корреляционной связи корреляционное поле представляет собой более или менее сжатый эллипс.

Количественным критерием направления и тесноты линейной связи является коэффициент линейной корреляции .

Коэффициент корреляции, определяемый по выборочным данным, называется выборочным коэффициентом корреляции. Онвычисляется по формуле:

где , текущие значения признаков
и;и средние арифметические значения признаков;
- среднее арифметическое произведений вариант,
и
 средние квадратические отклонения этих признаков;  объём выборки.

Для вычисления коэффициента корреляции достаточно принять предположение о линейной связи между случайными признаками. Тогда вычисленный коэффициент корреляции и будет мерой этой линейной связи.

Коэффициент линейной корреляции принимает значения от −1 в случае строгой линейной отрицательной связи, до +1 в случае строгой линейной положительной связи (т.е.
). Близость коэффициента корреляции к 0 свидетельствует об отсутствиилинейной связи между признаками, но не об отсутствии связи между ними вообще.

Коэффициенту корреляции можно дать наглядную графическую интерпретацию.

Если
, то между признаками существует линейная функциональная зависимость вида
, что означаетполную корреляцию признаков. При
, прямая имеет положительный наклон по отношению к оси
, при
 отрицательный (рис. 1б).

Если
, точки
находятся в области ограниченной линией, напоминающей эллипс. Чем ближе коэффициент корреляции к
, тем уже эллипс и тем теснее точки сосредоточены вблизи прямой линии. При
говорят оположительной корреляции . В этом случае значения имеют тенденцию к возрастанию с увеличением(рис.1в). При
говорят оботрицательной корреляции ; значения имеют тенденцию к уменьшению с ростом(рис.1г).

Если
, то точки
располагаются в области, ограниченной окружностью. Это означает, что между случайными признаками
иотсутствует корреляция, и такие признаки называютсянекоррелированными (рис.1а).

При оценке тесноты связи можно использовать следующую условную таблицу:

Теснота связи

Величина коэффициента корреляции при наличии

прямой связи (+)

обратной связи (−)

Связь отсутствует

Связь слабая

Связь умеренная

Связь сильная

Полная функциональная

Заметим, что в числителе формулы для выборочного коэффициента линейной корреляции величин
ис тоит ихпоказатель ковариации :

Этот показатель, как и коэффициент корреляции характеризует степень линейной связи величин
и. Если он больше нуля, то связь между величинами положительная, если меньше нуля, то связь – отрицательная, равен нулю – линейная связь отсутствует.

В отличие от коэффициента корреляции показатель ковариации нормирован – он имеет размерность, и его величина зависит от единиц измерения
и. В статистическом анализе показатель ковариации обычно используется, как промежуточный элемент расчёта коэффициента линейной корреляции. Т.о. формула расчёта выборочного коэффициента корреляции приобретает вид:

характеризует тесноту и направление связи между двумя коррелируемыми признаками в случае наличия между ними линейной зависимости.
Линейный коэффициент корреляции имеет большое значение при исследовании социально - экономических явлений и процессов, распределение которых близко к нормальному.
На практике применяются различные модификации формул для расчета, данного коэффициента. Наиболее простой из них является зависимость вида
_ xy - x y
r (1 >
Физическая интерпретация значений коэффициента корреляции приведена в таблице1 . Таблица 1. Оценка линейного коэф(шциента корреляции Значение линейного коэффициента кор-реляции Характер связи Интерпретация связи г=0 Отсутствует - 0r
л/n - 2
"р _
(2)
i
(n - 2 _
1 - r
r
VT
Если расчетное значение t^ >t^ (табличное), то гипотеза Н0 отвергается, что свидетельствует о значимости линейного коэффициента корреляции, а следовательно, и о статистической существенности зависимости между Х иУ. Примечание! Данный критерий оценки значимости применяется для со-вокупностей nПри большем числе наблюдений (n>100) используется следующая формула для определения t - статистики
r
(3)
t„ = , - Vn
р I- 2
r
Пример. На основе выборочных данных о деловой активности однотипных предприятий оценить тесноту связи с помощью линейного коэффициента корреляции между прибылью У (тыс. руб.) и затратами (Х) в копейках на 1 руб. произведенной продукции (таблица. 2). Алгоритм расчета.
Рассчитываем значения дисперсии
ст2у = 78029,3; =46.
Рассчитываем значение коэффициента корреляции по формуле (1) r= (60400,67 - 744,33*83,67)/(78029,3*46)0"5 = -0,98.
Проверяем значимость коэффициента корреляции, для этого рассчитываем t - статистику Стьюдента
tp = n - 2 = (0,98/V1-(0,98)2)*V6-2 = 14,036.
V1 - r
Таблица № 2. - Исходные данные Предприятие Прибыль, тыс. Затраты, коп, х руб., у 1 221 96 2 1070 77 3 1001 77 4 606 89 5 779 82 6 789 81 Сравниваем полученное значение с табличным при уровне значимости a=0,05 и числе степеней свободы k =6-2=4, которое равно t кр =2,776.
Вывод. Гипотеза Н0 отвергается так как | tF|>t кр =2,776, что свидетельствует о значимости данного коэффициента корреляции.
Следует помнить! Приведенные выше зависимости и результаты практических расчетов относятся к предположениям о наличии линейной связи между оцениваемыми параметрами. В случае если заранее известно, что связь нелинейная то можно воспользоваться эмпирическим корреляционным отношением.

Важнейшей целью статистики является изучение объективно существующих связей между явлениями. В ходе статистического исследования этих связей необходимо выявить причинно-следственные зависимости между показателями, т.е. насколько изменение одних показателей зависит от изменения других показателей.

Существует две категории зависимостей (функциональная и корреляционная) и две группы признаков (признаки-факторы и результативные признаки). В отличие от функциональной связи, где существует полное соответствие между факторными и результативными признаками, в корреляционной связи отсутствует это полное соответствие.

Корреляционная связь - это связь, где воздействие отдельных факторов проявляется только как тенденция (в среднем) при массовом наблюдении фактических данных. Примерами корреляционной зависимости могут быть зависимости между размерами активов банка и суммой прибыли банка, ростом производительности труда и стажем работы сотрудников.

Наиболее простым вариантом корреляционной зависимости является парная корреляция, т.е. зависимость между двумя признаками (результативным и факторным или между двумя факторными). Математически эту зависимость можно выразить как зависимость результативного показателя у от факторного показателя х. Связи могут быть прямые и обратные. В первом случае с увеличением признака х увеличивается и признак у, при обратной связи с увеличением признака х уменьшается признак у.

Важнейшей задачей является определение формы связи с последующим расчетом параметров уравнения, или, иначе, нахождение уравнения связи (уравнения регрессии ).

Могут иметь место различные формы связи :

прямолинейная

криволинейная в виде: параболы второго порядка (или высших порядков)

гиперболы

показательной функции и т.д.

Параметры для всех этих уравнений связи, как правило, определяют из системы нормальных уравнений , которые должны отвечать требованию метода наименьших квадратов (МНК):

Если связь выражена параболой второго порядка (), то систему нормальных уравнений для отыскания параметров a0, a1, a2 (такую связь называют множественной, поскольку она предполагает зависимость более чем двух факторов) можно представить в виде

Другая важнейшая задача - измерение тесноты зависимости - для всех форм связи может быть решена при помощи вычисления эмпирического корреляционного отношения :

где - дисперсия в ряду выравненных значений результативного показателя ;

Дисперсия в ряду фактических значений у.

Для определения степени тесноты парной линейной зависимости служит линейный коэффициент корреляции r, для расчета которого можно использовать, например, две следующие формулы:

Линейный коэффициент корреляции может принимать значения в пределах от -1 до + 1 или по модулю от 0 до 1. Чем ближе он по абсолютной величине к 1, тем теснее связь. Знак указывает направление связи: «+» - прямая зависимость, «-» имеет место при обратной зависимости.

В статистической практике могут встречаться такие случаи, когда качества факторных и результативных признаков не могут быть выражены численно. Поэтому для измерения тесноты зависимости необходимо использовать другие показатели. Для этих целей используются так называемые непараметрические методы .

Наибольшее распространение имеют ранговые коэффициенты корреляции , в основу которых положен принцип нумерации значений статистического ряда. При использовании коэффициентов корреляции рангов коррелируются не сами значения показателей х и у, а только номера их мест, которые они занимают в каждом ряду значений. В этом случае номер каждой отдельной единицы будет ее рангом.

Коэффициенты корреляции, основанные на использовании ранжированного метода, были предложены К. Спирмэном и М. Кендэлом.

Коэффициент корреляции рангов Спирмэна (р) основан на рассмотрении разности рангов значений результативного и факторного признаков и может быть рассчитан по формуле

где d = Nx - Ny , т.е. разность рангов каждой пары значений х и у; n - число наблюдений.

Ранговый коэффициент корреляции Кендэла () можно определить по формуле

где S = P + Q.

К непараметрическим методам исследования можно отнести коэффициент ассоциации Кас и коэффициент контингенции Ккон, которые используются, если, например, необходимо исследовать тесноту зависимости между качественными признаками, каждый из которых представлен в виде альтернативных признаков.

Для определения этих коэффициентов создается расчетная таблица (таблица «четырех полей»), где статистическое сказуемое схематически представлено в следующем виде:

Признаки

Здесь а, b, c, d - частоты взаимного сочетания (комбинации) двух альтернативных признаков ; n - общая сумма частот.

Коэффициент контингенции рассчитывается по формуле

Нужно иметь в виду, что для одних и тех же данных коэффициент контингенции (изменяется от -1 до +1) всегда меньше коэффициента ассоциации.

Если необходимо оценить тесноту связи между альтернативными признаками, которые могут принимать любое число вариантов значений, применяется коэффициент взаимной сопряженности Пирсона (КП).

Для исследования такого рода связи первичную статистическую информацию располагают в форме таблицы:

Признаки

Здесь mij - частоты взаимного сочетания двух атрибутивных признаков; П - число пар наблюдений.

Коэффициент взаимной сопряженности Пирсона определяется по формуле

где - показатель средней квадратической сопряженности:

Коэффициент взаимной сопряженности изменяется от 0 до 1.

Наконец, следует упомянуть коэффициент Фехнера , характеризующий элементарную степень тесноты связи, который целесообразно использовать для установления факта наличия связи, когда существует небольшой объем исходной информации. Данный коэффициент определяется по формуле

где na - количество совпадений знаков отклонений индивидуальных величин от их средней арифметической; nb - соответственно количество несовпадений.

Коэффициент Фехнера может изменяться в пределах -1,0 Кф +1,0.

КОРРЕЛЯЦИОННО-РЕГРЕССИОННЫЙ АНАЛИЗ В

ЭКОНОМИЧЕСКИХ РАСЧЕТАХ

Основные понятия в корреляционном и регрессионном анализе

В математике существуют два понятия, отражающие причинно-следственные связи между признаками: функциональная и корреляционная зависимость.

Под функциональной зависимостью понимается такая связь между величинами, когда значение зависимой величины – функции – полностью определяется значениями зависимых переменных.

Корреляционная зависимость имеет место, когда каждому значекнию одной (результативной) величины соответствует множество случайных значений другой, возникающей с определенной вероятностью.

При изучении экономических явлений мы имеем дело не с функциональной, а с корреляционной зависимостью. С помощью корреляционного и регрессионного анализа можно рассчитать коэффициенты корреляции , которые оценивают силу связи между отдельными показателями, подобрать

уравнение регрессии , которое определяет форму этой связи, и установить достоверность существования этой связи.

Процесс корреляционного и регрессионного анализа экономических процессов состоит из следующих этапов:

Предварительная обработка статистических данных и выбор основных факторных признаков, влияющих на результативный показатель;

Оценка тесноты связи и выявление формы существующей связи между результативным и факторными признаками;

Разработка модели (многофакторной) изучаемого явления и ее анализ;

Применение полученных результатов проведенного анализа для принятия управленческих решений.

Перед корреляцией стоят две основные задачи. Первая заключается в выявлении, как изменяется в среднем результативный признак в связи с изменением факторного. Эта задача решается нахождением уравненимя связи. Вторая задача определяет степень влияния искажающих факторов. Эту задачу решают путем изучения показателей тесноты связи. Такими показателями являются коэффициенты корреляции и корреляционное отношение.



2. Результативный и факторный признаки . При изу­чении влияния одних признаков явлений на другие из цепи признаков, характеризующих данное явление, выделяются два - признака-факторный (влияющий на результат) и результативный. Необходимо установить, какой из признаков является факторным и какой результативным. В этом помогает прежде всего логиче­ский анализ.

Пример . Себестоимость промышленной продукции отдель­ного предприятия зависит от многих факторов, в том числе от объема продукции на данном предприятии. Себестоимость про­дукции выступает в этом случае как результативный признак, а объем продукции - как факториальный.

Другой пример. Чтобы судить о преимуществах круп­ных предприятий перед мелкими, можно рассмотреть, как увеличива­ется производительность труда рабочих крупных предприятий, и выявить зависимость производительности труда от увеличения размеров предприятия.

3. Понятие об уравнение связи. Уравнение этой функции будет уравнением связи между результативным и факториальным признаками.

Уравнение связи находится с помощью способа наименьших квадратов, который требует, чтобы сумма квадратов отклонений эмпирических значений от значений, получаемых на основании уравнения связи, была минимальной.

Применение способа наименьших квадратов позволяет нахо­дить параметры уравнения связи при помощи решения системы так называемых нормальных уравнений, различных для связи каждого вида.

Чтобы отметить, что зависимость между двумя признаками выражается и среднем, значения результативного признака, найденные по уравнению связи, обозначаются Ух.

Зная уравнение связи, можно вычислить заранее среднее значение результативного признака, когда значение. факториального признака известно. Таким образом, уравнение связи яв­ляется методом обобщения наблюдаемых статистических связей, методом их изучения.

Применение той или иной функции в качестве уравнения связи разграничивает связи по их форме: линейную связь и криволинейную связь (параболическую, гиперболическую и др.).

Рассмотрим уравнения связи для зависимостей от одного признака при разных формах связи, (линейной, криволинейной параболической, гиперболической) и для множественной связи.

4. Линейная зависимость между признаками . Уравнение связи как уравнение прямой Ух==ао+а1х применяется в случае равномерного на­растания результативного признака с увеличением признака факториального. Такая зависимость будет зависимостью линей­ной (прямолинейной).

Параметры уравнения прямой линии ао и а1 находятся путем решения системы нормальных уравнений, получаемых по способу наименьших квадратов:

Примером расчета параметров уравнения и средних значе­ний результативного признака Ух может служить следующая таблица, являющаяся результатом группировки по факториальному признаку и подсчета средних по результативному при­знаку.

Группировка предприятий по стоимости основных средств и подсчет сумм необходимы для уравнения связи.

Из таблицы находим: n==6; =18; =39,0; =71,5

132.0. Строим систему двух уравнений с двумя неизвест­ными:

Поделив каждый член в обоих уравнениях на коэффициенты при aо получим:

Вычтем из второго уравнения первое: 0,97а1=0,83; а1==0,86. Подставив значения а1 в первое уравнение aо+3*0,86 =6,5, най­дем ао=6,5-2,58=+3,92.

Уравнение связи примет вид: yx=3,92+0,86х. Подставив в это уравнение соответствующие х, получим значения резуль­тативного признака, отражающие среднюю зависи­мость у от х в виде корреляционной зависимости.

Заметим, что суммы, ис­численные по уравнению и фактические, равны между собой. Изображение факти­ческих и вычисленных зна­чений на рис. 4 показывает, что уравнение связи ото­бражает наблюденную зависимость в среднем.

5. Параболическая зависимость между признаками . Параболическая зависимость, выражаемая уравнением параболы 2-го порядка уx =ао+a1x+a2x 2 , имеет место при ускоренном возрастании или убывании результативного признака в сочетании с равномерным возрастанием факто­риального признака.

Параметры уравнения параболы aо; а1; а2, вычисляются пу­тем решения системы 3 нормальных уравнений:

Возьмем для примера зависимость месячного выпуска про­дукции (у) от величины стоимости основных средств (х). Оба показателя округлены до миллионов рублей. Расчеты необходи­мых сумм приведем в табл. 5.

По данным таблицы составляем систему уравнений:

6. Уравнение гиперболы. Обратная связь указывает на убывание результативного признака при возрастании факториального. Такова линейная связь при отрицательном значении а1. В ряде других случаев обратная связь может быть выражена уравнением гиперболы

Параметры уравнения гиперболы ао и а1 находятся из си­стемы нормальных уравнений:

7. Корреляционная таблица. При большом объеме наблюдений, когда число взаимосвязанных пар велико, парные данные легко могут быть располо­жёны в корреляционной таблице, являющейся наиболее удобной фор­мой представления значительного количества пар чисел.

В корреляционной таблице один признак располагается в строках, а другой - в колонках таблицы. Чис­ло, расположенное в клетке на пе­ресечении графы и колонки, пока­зывает, как часто встречается дан­ное значение результативного при­знака в сочетании с данным значе­нием факториального признака.

Для простоты расчета возьмем небольшое число наблюдений на 20 предприятиях за средней месячной выработкой продукции на одного рабочего (тыс. руб.-у) и за стоимостью основных производст­венных средств (млн. руб.-.х).

В обычной парной таблице эти сведения располагаются так:

Итоги строк у показывают частоту признака nу, итоги граф х - частоту признака nx. Числа, стоящие в клетках корреля­ционной таблицы, являются частотами, относящимися к обоим признакам и обозначаются, nxy.

Корреляционная таблица даже при поверхностном знакомст­ве дает общее представление о прямой и обратной связи. Если частоты расположены по диагонали вниз направо, то связь между признаками прямая (при увеличивающихся значениях признака в строках и графах). Если же частоты расположены по диагонали вверх направо, то связь обратная.

8. Корреляционное отношение. Если произведено измере­ние явления по двум признакам, то имеется возможность находить меры рассеяния (главным образом дисперсию) по результативному признаку для одних и тех же значений факториального признака.

Дана, например, корреляционная таблица двух взаимозави­симых рядов, в которых для простоты имеется лишь три.значе­ния факториального признака количества внесенных удобрений (х), а результативный признак-урожайность (у)-значитель­но колеблется. Таблица 16

Каждая группа участков с разной урожайностью имела раз­ное количество внесенных удобрений. Так, когда вносилось удобрений по 20 г/ урожайность" на разных участках была рав­ной: на одном участке она составила 0,8 т, на двух участках- 0,9 т, на трех- 1,0 т и на одном - 1,1 т. Найдем среднюю уро­жайность и дисперсию по урожайности для этой группы уча­стков.

Для группы участков с количеством внесенных удобрений 30,0 г средняя урожайность составит:

Вычислим аналогичные характеристики для группы участ­ков. получивших удобрений по 40 т:

Из этих данных можно определить также средний урожай всех 20 участков, независимо от количества внесенных удобре­ний, т. е. общую среднюю:

и меру колеблемости (дисперсию) средней урожайности групп около общей средней. Эту дисперсию называют межгрупповой ^дисперсией и обозначают б 2

где уi-средние урожайности по группам участков, отличаю­щихся количеством внесенных удобрений; m1,m2,m3,-числен­ности групп. Межгрупповая дисперсия для данного примера составит:

Межгрупповая дисперсия показывает рассеяние, возникаю­щее за счет факториального признака. В данном примере У= == 0,01&247 является показателем рассеяния урожайности, возникшего за счет разности в количестве внесенных удобрений.

Однако, кроме межгрупповой дисперсии, можно вычислить и дисперсию как показатель рассеяния за счет остальных фак­торов (если называть так все прочие факторы, кроме удоб­рений). Этот показатель явится средней (взвешенной) величи­ной из показателей рассеяния (дисперсий) по группам участков

Это практически означает, что можно получить общую меру рассеяния (дисперсию) для всех 20 участков, если имеются сведения о средних и дисперсиях по группам участков, отличающихся количеством внесенных удобрений. Следовательно, общая дисперсия по урожайности для 20 участков составит;

Формулы для исчисления межгрупповой и средней из груп­повых дисперсий можно сокращенно записать так:

Расчет общей дисперсии, внутригрупповой и межгрупповой дисперсии позволяет делать некоторые выводы о мере влияния факториального признака на колеблемость признака резуль­тативного. Эта мера влияния находится при помощи корреля­ционного отношения:

Значит, колеблемость по урожайности участков на 78% зависит от колеблемости количества внесенных удобрений.

Линейный коэффициент корреляции

При изучении тесноты связи между двумя взаимозависимыми рядами применяется линейный коэффициент корреляции, который показывает, существует ли и насколько велика связь между этими рядами. Он может принимать значения в пределах от –1 до +1.

10.Совокупный коэффициент корреляции :

,

где r – линейные коэффициенты корреляции, а подстрочные знаки показывают, между какими признаками они исчисляются.