Вариация признака определяется различными факторами, часть этих факторов можно выделить, если статистическую совокупность разделить на группы по определенному признаку. Тогда, наряду с изучением вариации признака по совокупности в целом, можно изучить вариацию для каждой из составляющих ее группы и между этими группами. В простом случае, когда совокупность разделена на группы по одному фактору, изучение вариации достигается посредством вычисления и анализа трех видов дисперсий: общей, межгрупповой и внутригрупповой.

Эмпирический коэффициент детерминации

Эмпирический коэффициент детерминации широко применяется в статистическом анализе и является показателем, представляющим долю межгруппопой дисперсии в результативного признака и характеризует силу влияния группировочного признака на образование общей вариации. Он может быть рассчитан по формуле:

Показывает долю вариации результативного признака у под влиянием факторного признака х, он связан с коэффициентом корреляции квадратичной зависимостью. При отсутствии связи эмпирический коэффициент детерминации равен нулю, а при функциональной связи - единице.

Например, когда изучается зависимость производительности труда рабочих от их квалификации коэффициент детерминации равен 0,7, то на 70% вариация производительности труда рабочих обусловлена различиями в их квалификации и на 30% - влиянием прочих факторов.

Эмпирическое корреляционное отношение - это квадратный корень из коэффициента детерминации. Отношение показывает тесноту связи между группировочным и результативным признаками. Эмпирическое корреляционное отношение принимает значения от -1 до 1. Если связи нет, то корреляционное отношение равняется нулю, т.е. все групповые средние равняются между собой и межгрупповой вариации нет. Значит, группировочный признак не влияет на образование общей вариации.

Если связь функциональная, то корреляционное отношение равняется единице. В таком случае дисперсия групповых средних равна общей дисперсии, т.е. внутригрупповой вариации нет. Это значит, что группировочный признак полностью определяет вариацию результативного признака.

Чем ближе значение корреляционного отношения к единице, тем сильнее и ближе к функциональной зависимости связь между признаками. Для качественной оценки силы связи на основе показателя эмпирического коэффициента корреляции можно использовать соотношение Чэддока.

Соотношение Чэддока

  • Связь весьма тесная — коэффициент корреляции находится в интервале 0,9 — 0,99
  • Связь тесная — Rxy = 0,7 — 0,9
  • Связь заметная — Rxy = 0,5 — 0,7
  • Связь умеренная — Rxy = 0,3 — 0,5
  • Связь слабая — Rxy = 0,1 — 0,3

Одним из показателей, описывающих качество построенной модели в статистике, является коэффициент детерминации (R^2), который ещё называют величиной достоверности аппроксимации. С его помощью можно определить уровень точности прогноза. Давайте узнаем, как можно произвести расчет данного показателя с помощью различных инструментов программы Excel.

В зависимости от уровня коэффициента детерминации, принято разделять модели на три группы:

  • 0,8 – 1 — модель хорошего качества;
  • 0,5 – 0,8 — модель приемлемого качества;
  • 0 – 0,5 — модель плохого качества.

В последнем случае качество модели говорит о невозможности её использования для прогноза.

Выбор способа вычисления указанного значения в Excel зависит от того, является ли регрессия линейной или нет. В первом случае можно использовать функцию КВПИРСОН , а во втором придется воспользоваться специальным инструментом из пакета анализа.

Способ 1: вычисление коэффициента детерминации при линейной функции

Прежде всего, выясним, как найти коэффициент детерминации при линейной функции. В этом случае данный показатель будет равняться квадрату коэффициента корреляции. Произведем его расчет с помощью встроенной функции Excel на примере конкретной таблицы, которая приведена ниже.


Способ 2: вычисление коэффициента детерминации в нелинейных функциях

Но указанный выше вариант расчета искомого значения можно применять только к линейным функциям. Что же делать, чтобы произвести его расчет в нелинейной функции? В Экселе имеется и такая возможность. Её можно осуществить с помощью инструмента «Регрессия» , который является составной частью пакета «Анализ данных» .

  1. Но прежде, чем воспользоваться указанным инструментом, следует активировать сам «Пакет анализа» , который по умолчанию в Экселе отключен. Перемещаемся во вкладку «Файл» , а затем переходим по пункту «Параметры» .
  2. В открывшемся окне производим перемещение в раздел «Надстройки» при помощи навигации по левому вертикальному меню. В нижней части правой области окна располагается поле «Управление» . Из списка доступных там подразделов выбираем наименование «Надстройки Excel…» , а затем щелкаем по кнопке «Перейти…» , расположенной справа от поля.
  3. Производится запуск окна надстроек. В центральной его части расположен список доступных надстроек. Устанавливаем флажок около позиции «Пакет анализа» . Вслед за этим требуется щелкнуть по кнопке «OK» в правой части интерфейса окна.
  4. Пакет инструментов «Анализ данных» в текущем экземпляре Excel будет активирован. Доступ к нему располагается на ленте во вкладке «Данные» . Перемещаемся в указанную вкладку и клацаем по кнопке «Анализ данных» в группе настроек «Анализ» .
  5. Активируется окошко «Анализ данных» со списком профильных инструментов обработки информации. Выделяем из этого перечня пункт «Регрессия» и клацаем по кнопке «OK» .
  6. Затем открывается окно инструмента «Регрессия» . Первый блок настроек – «Входные данные» . Тут в двух полях нужно указать адреса диапазонов, где находятся значения аргумента и функции. Ставим курсор в поле «Входной интервал Y» и выделяем на листе содержимое колонки «Y» . После того, как адрес массива отобразился в окне «Регрессия» , ставим курсор в поле «Входной интервал Y» и точно таким же образом выделяем ячейки столбца «X» .

    Около параметров «Метка» и «Константа-ноль» флажки не ставим. Флажок можно установить около параметра «Уровень надежности» и в поле напротив указать желаемую величину соответствующего показателя (по умолчанию 95%).

    В группе «Параметры вывода» нужно указать, в какой области будет отображаться результат вычисления. Существует три варианта:

    • Область на текущем листе;
    • Другой лист;
    • Другая книга (новый файл).

    Остановим свой выбор на первом варианте, чтобы исходные данные и результат размещались на одном рабочем листе. Ставим переключатель около параметра «Выходной интервал» . В поле напротив данного пункта ставим курсор. Щелкаем левой кнопкой мыши по пустому элементу на листе, который призван стать левой верхней ячейкой таблицы вывода итогов расчета. Адрес данного элемента должен высветиться в поле окна «Регрессия» .

    Группы параметров «Остатки» и «Нормальная вероятность» игнорируем, так как для решения поставленной задачи они не важны. После этого клацаем по кнопке «OK» , которая размещена в правом верхнем углу окна «Регрессия» .

  7. Программа производит расчет на основе ранее введенных данных и выводит результат в указанный диапазон. Как видим, данный инструмент выводит на лист довольно большое количество результатов по различным параметрам. Но в контексте текущего урока нас интересует показатель «R-квадрат» . В данном случае он равен 0,947664, что характеризует выбранную модель, как модель хорошего качества.

Способ 3: коэффициент детерминации для линии тренда

Кроме указанных выше вариантов, коэффициент детерминации можно отобразить непосредственно для линии тренда в графике, построенном на листе Excel. Выясним, как это можно сделать на конкретном примере.

  1. Мы имеем график, построенный на основе таблицы аргументов и значений функции, которая была использована для предыдущего примера. Произведем построение к нему линии тренда. Кликаем по любому месту области построения, на которой размещен график, левой кнопкой мыши. При этом на ленте появляется дополнительный набор вкладок – «Работа с диаграммами» . Переходим во вкладку «Макет» . Клацаем по кнопке «Линия тренда» , которая размещена в блоке инструментов «Анализ» . Появляется меню с выбором типа линии тренда. Останавливаем выбор на том типе, который соответствует конкретной задаче. Давайте для нашего примера выберем вариант «Экспоненциальное приближение» .
  2. Эксель строит прямо на плоскости построения графика линию тренда в виде дополнительной черной кривой.
  3. Теперь нашей задачей является отобразить собственно коэффициент детерминации. Кликаем правой кнопкой мыши по линии тренда. Активируется контекстное меню. Останавливаем выбор в нем на пункте «Формат линии тренда…» .

    Для выполнения перехода в окно формата линии тренда можно выполнить альтернативное действие. Выделяем линию тренда кликом по ней левой кнопки мыши. Перемещаемся во вкладку «Макет» . Клацаем по кнопке «Линия тренда» в блоке «Анализ» . В открывшемся списке клацаем по самому последнему пункту перечня действий – «Дополнительные параметры линии тренда…» .

  4. После любого из двух вышеуказанных действий запускается окошко формата, в котором можно произвести дополнительные настройки. В частности, для выполнения нашей задачи необходимо установить флажок напротив пункта «Поместить на диаграмму величину достоверности аппроксимации (R^2)» . Он размещен в самом низу окна. То есть, таким образом мы включаем отображение коэффициента детерминации на области построения. Затем не забываем нажать на кнопку «Закрыть» внизу текущего окна.
  5. Значение достоверности аппроксимации, то есть, величина коэффициента детерминации, будет отображено на листе в области построения. В данном случае эта величина, как видим, равна 0,9242, что характеризует аппроксимацию, как модель хорошего качества.
  6. Абсолютно точно таким образом можно устанавливать показ коэффициента детерминации для любого другого типа линии тренда. Можно менять тип линии тренда, произведя переход через кнопку на ленте или контекстное меню в окно её параметров, как было показано выше. Затем уже в самом окне в группе «Построение линии тренда» можно переключиться на другой тип. Не забываем при этом контролировать, чтобы около пункта «Поместить на диаграмму величину достоверности аппроксимации» был установлен флажок. Завершив вышеуказанные действия, щелкаем по кнопке «Закрыть» в нижнем правом углу окна.
  7. При линейном типе линия тренда уже имеет значение достоверности аппроксимации равное 0,9477, что характеризует эту модель, как ещё более достоверную, чем рассматриваемую нами ранее линию тренда экспоненциального типа.
  8. Таким образом, переключаясь между разными типами линии тренда и сравнивая их значения достоверности аппроксимации (коэффициент детерминации), можно найти тот вариант, модель которого наиболее точно описывает представленный график. Вариант с самым высоким показателем коэффициента детерминации будет наиболее достоверным. На его основе можно строить самый точный прогноз.

    Например, для нашего случая опытным путем удалось установить, что самый высокий уровень достоверности имеет полиномиальный тип линии тренда второй степени. Коэффициент детерминации в данном случае равен 1. Это говорит о том, что указанная модель абсолютно достоверная, что означает полное исключение погрешностей.

    Но, в то же время, это совсем не значит, что для другого графика тоже наиболее достоверным окажется именно этот тип линии тренда. Оптимальный выбор типа линии тренда зависит от типа функции, на основании которой был построен график. Если пользователь не обладает достаточным объемом знаний, чтобы «на глаз» прикинуть наиболее качественный вариант, то единственным выходом определения лучшего прогноза является как раз сравнение коэффициентов детерминации, как было показано на примере выше.

Сoefficient of determination

Синонимы: Коэффициент смешанной корреляции

Статистический показатель, отражающий объясняющую способность уравнения регрессии и равный отношению суммы квадратов регрессии SSR к общейвариации SST:

где – уровень ряда,– смоделированное значение,– среднее по всем уровням ряда.

Данный показатель является статистической мерой согласия, с помощью которой можно определить, насколько уравнение регрессии соответствует реальным данным.

Коэффициент детерминации изменяется в диапазоне от 0 до 1. Если он равен 0, это означает, что связь между переменными регрессионной модели отсутствует, и вместо нее для оценки значения выходной переменной можно с таким же успехом использовать простое среднее ее наблюдаемых значений. Напротив, если коэффициент детерминации равен 1, это соответствует идеальной модели, когда все точки наблюдений лежат точно налинии регрессии , т.е. сумма квадратов их отклонений равна 0. На практике, если коэффициент детерминации близок к 1, это указывает на то, что модель работает очень хорошо (имеет высокую значимость), а если к 0, то это означает низкую значимость модели, когдавходная переменная плохо "объясняет" поведение выходной, т.е. линейная зависимость между ними отсутствует. Очевидно, что такая модель будет иметь низкую эффективность.

Коэффициент детерминации (R 2 )- это долядисперсии отклонений зависимой переменной от еёсреднего значения , объясняемая рассматриваемоймоделью связи (объясняющими переменными). Модель связи обычно задается как явная функция от объясняющих переменных. В частном случае линейной связиR 2 является квадратомкоэффициента корреляции между зависимой переменной и объясняющими переменными.

Общая формула для вычисления коэффициента детерминации:

где y i - наблюдаемое значение зависимой переменной, аf i - значение зависимой переменной предсказанное по уравнению регрессии-среднее арифметическое зависимой переменной.

При проверке гипотезы о наличии связи модель связи может быть неизвестна. Тогда ее задают в виде кусочно-постоянной функции (в этом случае коэффициент детерминации равен квадрату корреляционного отношения) либо оценивают неизвестные значения функции связи, используя методы сглаживания эмпирической зависимости (напримерметод скользящих средних ) .

Предположим, что экономические предпосылки и анализ расположения точек на корреляционном поле позволил нам выдвинуть гипотезу о том, что зависимость результирующего признака у от фактора х может быть описана следующей моделью:

Причем, как не раз мы уже отмечали коэффициенты 0 и 1 в этом уравнении неизвестны. Используя МНК, мы можем найти оценки этих коэффициентов в 0 и в 1 и записать следующее выражение для у:

На приведенном рисунке (Рис.4) изображены фактические значения переменной у, график гипотетической функции регрессии (которая, вообще говоря, нам неизвестна!) и график эмпирической функции регрессии, коэффициенты которой найдены из условия минимума суммы квадратов ошибок.

Рис.4.

Исходя из логики наших действий, возникают два вопроса:

  • ?Можно ли с той или иной вероятностью найти подтверждение, что вид функциональной зависимости (речь пока идет только о линейной функции) выбран корректно.
  • ?Насколько хорошо, со статистической точки зрения, оценки неизвестных параметров, полученные по МНК, приближают неизвестные коэффициенты.

Для ответов на поставленные вопросы нам понадобится, в частности, понятие коэффициента детерминации. Перед тем как ввести это понятие рассмотрим следующую сумму:

Покажем, что ее можно представить в виде:

Действительно,

Через обозначена функция регрессии, полученная по МНК: .

Покажем, что последнее слагаемое в (1) равно нулю, для этого запишем его в виде:

Рассмотрим слагаемое

В силу равенства (2), можно утверждать, что оно равно 0. Преобразуем теперь первое слагаемое:

Оба слагаемых равны нулю в силу равенств (2) и (3).

Таким образом, мы показали, что имеет место, следующее представление для рассматриваемой суммы:

Величину е i равную:

будем называть остатком. Следовательно, первое слагаемое в правой части (2) есть сумма квадратов остатков:

Ее называют остаточной суммой квадратов и обозначают RSS (residual sum of squares).

Вторая сумма это сумма квадратов отклонений точек, расположенных на регрессионной прямой от прямой у =. Эту сумму называют суммой квадратов отклонений, объясненной регрессией ЕSS (explained sum of squares).

В левой части равенства (2) находится сумма квадратов отклонений фактических значений переменной у от прямой у =. Такую сумму называют полной суммой квадратов и обозначают TSS (total sum of squares).

Таким образом, полная сумма квадратов TSS разбилась на две составляющие:

TSS= RSS+ ESS. (3)

  • ? ESS- сумму квадратов, обусловленных влиянием основного фактора х;
  • ? RSS - сумму квадратов, обусловленных влиянием других, в том числе и случайных факторов.

Замечание 1. Следует иметь в виду, что в литературе по эконометрике, в частности в , эту же систему обозначений используют с точностью до наоборот, давая ей другое объяснение. Сумму, которая выше обозначена как ЕSS обозначают через RSS и расшифровывают так: regression sum of squares. И наоборот, сумму, обозначенную нами как RSS называют ЕSS: error sum of squares. Мы будем придерживаться введенной выше терминологии. ^

Замечание 2.Рассмотрим два частных случая. Предположим, что x не оказывает никакого влияния на y, тогда выборочное условное среднее совпадает с выборочным средним, в такой ситуации ЕSS =0 и

В том случае, когда на зависимую переменную у не оказывает влияния никакие другие факторы, кроме х, сумма RSS будет равняться нулю и будет выполняться следующее равенство:

В общем же случае, если оценки параметров функции регрессии найдены по МНК, всегда будет иметь место равенство (3).^

Определение 1. Парным коэффициентом детерминации (выборочным) называют отношение:

Говорят, что «коэффициент детерминации показывает, какая доля дисперсии величины y определяется (детерминируется) изменчивостью (дисперсией) соответствующей функции регрессии y от x» .

Поясним сказанное. Для этого вернемся к равенству (2) и разделим обе части равенства на n, получим:

Тогда выражение для парного коэффициента детерминации можно представить в виде:

Следует отметить, что введенный нами парный коэффициент детерминации также относится к выборочным числовым характеристикам и рассчитывается по эмпирическим данным. Теоретический коэффициент детерминации будем обозначать R xy .

Рассмотрим, в каком диапазоне изменяется значение коэффициента детерминации. Очевидно, что эта величина всегда неотрицательна. Найдем верхнюю границу. Из равенства (3) следует следующее равенство:

Следовательно,

Отсюда очевидно, что в силу того, что наименьшее значение RSS =0, наибольшее значение коэффициента детерминации равно 1. Таким образом,

Отметим, что значение коэффициента детерминации тем ближе к 1, чем меньше остаточная сумма квадратов. В этом случае говорят, что уравнение регрессии статистически значимо и фактор х оказывает сильное воздействие на результирующий признак у (последний тезис справедлив только для модели парной линейной регрессии!).

Покажем, как связаны коэффициент парной детерминации с выборочным коэффициентом корреляции, чтобы аргументировать последнее утверждение.

Подставим это выражение в числитель формулы (5):

Следовательно, в случае парной линейной регрессии, коэффициент детерминации равен квадрату выборочного коэффициента корреляции:

Замечание 1. Из теории вероятностей известно следующее свойство коэффициента корреляции. Коэффициент корреляции двух случайных величин равен 1 или -1 тогда и только тогда, когда случайные величины связаны между собой линейно, т.е. у = ах + в. Классификация силы связи двух случайных величин в зависимости от величины коэффициента корреляции (теоретического!) может производиться следующим образом.

Если то связь между случайными величинами классифицируют как слабую; если то силу связи между двумя случайными величинами классифицируют как среднюю и, наконец, если, то говорят, что имеет место сильная стохастическая зависимость. Причем, если коэффициент корреляции положительный, то связь классифицируют как прямую, то есть значение обеих случайных величин увеличиваются, или уменьшаются одновременно. Отрицательное значение коэффициента корреляции говорит об обратной связи, то есть, например, увеличение значений одной случайной величины ведет к уменьшению значений другой. Следует иметь в виду, что использование выборочного коэффициента корреляции для подобной классификации, требует вдумчивого подхода. Эта характеристика является по своей сути случайной величиной и нельзя по ее значению делать категоричные выводы, подобные тем, которые производят, ориентируясь на. Все суждения, должны носить уже в этом случае более осторожный характер.

Тем не менее, и выборочный коэффициент корреляции и парный коэффициент детерминации служат хорошим индикатором, позволяющим нам делать предположение о том, что зависимость между х и у имеет место, и она носит вид линейной функциональной зависимости.

Вернемся к парному коэффициенту детерминации. Если модуль выборочного коэффициента корреляции близок к 1, то из формулы (6) следует, что близок к 1 и. Таким образом, близость коэффициента детерминации или абсолютной величины выборочного коэффициента корреляции к 1, служит ещё одним основанием в поддержку предположения, что функция регрессии линейна.

При анализе модели парной линейной регрессии будем делать следующие предварительные выводы о качестве модели.

  • ?Если , то будем считать, что использование регрессионной модели для аппроксимации зависимости между у и х статистически необоснованно.
  • ?Если (0,09; 0,49], то использование регрессионной модели возможно, но после оценивания параметров, модель подлежит дальнейшему многостороннему статистическому анализу.
  • ?Если (0,49; 1], то будем считать, что у нас есть основания для использования регрессионной модели, при анализе поведения переменной у.

Пример 1. Вычислим коэффициент детерминации и сделаем предварительный вывод о качестве аппроксимации доходности акций компании Glenwood City Properties моделью линейной регрессии (пример 1).

Решение. Так как значение выборочного коэффициента корреляции нам уже известно, то для нахождения воспользуемся формулой (6):

И значение, и значение, говорят о слабой зависимости между доходностью рыночного индекса и доходностью акций указанной компании. Такая слабая зависимость обычно характерна для компаний с низкой рыночной капитализацией, которые не участвуют в формировании рыночного индекса. ^

Так, например, индекс S&P 500 (Standard & Poors Stock Price Index) представляет средневзвешенную величину курсов акций 500 наиболее крупных компаний. Наиболее часто цитируемым рыночным индексом является индекс Доу Джонса (DJIA), основанный на показателях всего 30 акций. Впервые этот индекс был вычислен в 1884 как среднеарифметическое 11 акций, с 1928 для расчета индекса используется 30 ценных бумаг. Состав бумаг, входящих в индекс, периодически меняется.

Суть состоит в следующем: этот показатель измеряет меру зависимости вариации одной величины от многих других. Он применяется для оценки качества линейной регрессии.

Формула расчета:

R^2 \equiv 1-{\sum_i (y_i — f_i)^2 \over \sum_i (y_i-\bar{y})^2},

  • \bar{y} – ср. арифметическое зависимой переменной;
  • fi – знач. зависимой переменной, предполагаемое по уравнению регрессии;
  • yi – значение исследуемой зависимой переменной.

Детерминация, что это такое — определение

Коэффициент детерминации – часть дисперсии переменной (зависимой), которая обуславливается конкретной моделью зависимости. Так эта единица поможет вычесть долю необъясненной дисперсии в дисперсии зависимой переменной.

Данный показатель может принимать значения в пределах от 0 до 1. Чем его значение ближе к 1, тем связаннее результативный признак с исследуемыми факторами.

Т.к. преступление является результатом связи поведения и личностных качеств, этот показатель в деятельности заинтересованных органов рассчитывается для оценки качества преступного поведения, дает представление, что послужило вероятностной причиной преступления, что является мотивацией, какие этому были причины и условия.

Коэффициент детерминации, что показывает?

Этот коэффициент показывает варианты результативного признака от влияния факторного признака, он тесно связан с числом корреляции. Если связь отсутствует, то показатель равняется нулю, при ее наличии – единице.
Есть определение детерминизма как принципа устройства мира. Основой этого представления является взаимосвязанность всех явления. Это учение отрицает существование вещей вне взаимосвязи с миром.

Противоположностью является индетерминизм, он связан с отрицанием объективных отношений детерминации, или отрицанием причинности.

Генетический детерминизм – вера в то, что любой организм развивается под генетическим контролем.

Под детерминантами преступности в криминологии понимают социальные явления, действия которых могут вызвать преступность.

С помощью расчетов такого рода можно оценить вероятностное социокультурное влияние различных факторов на развитие личности и предположить, как себя будет вести человек, например, в деловом общении, объективно оценить, подходит ли он для государственного управления, или воинской службы.

Так же коэффициент определяет, правильно ли выбран индекс для подсчета коэффициентов бета и альфа. Если в % цифра ниже 75 к определенному индексу, значения бета и альфа к нему будут некорректны.

Индекс детерминации

Индекс детерминации – это квадрат инд. корреляции нелинейных связей. Этим значением характеризуют, на какое количество процентов моделью регрессии объясняются варианты показателей результативной переменной по отношению к своему среднему уровню.

Формула



Коэффициент детерминации скорректированный

Суть данного понятия состоит в следующем: этот индекс показывает долю дисперсии (общей) результативной переменной, объясняющей вариантами факторных переменных, включаемых в модель регрессии: (с увеличением, уменьшением).