2.4. Проверка адекватности регрессионной модели

2.4.1. Коэффициент детерминации

В классическом регрессионном анализе предполагается, что функция регрессии известна (специфицирована) с точностью до параметров, то есть набор регрессоров (независимых переменных) определен. В эмпирических исследованиях экономических и социальных процессов, из множества возможных вариантов регрессионных уравнений, которые отличаются набором регрессоров, необходимо выбрать наиболее адекватную модель (регрессионную функцию). Такая модель наилучшим образом объясняет поведение реального процесса. Для оценки качества модели линейной регрессии в классическом регрессионном анализе используется показатель, который называется коэффициентом детерминации R 2 (читается R - квадрат). Коэффициент детерминации играет важную роль в регрессионном анализе. Ниже приведены три эквивалентных определения этого показателя, которые отличаются формой записи и способом интерпретации.

Представим отклонение зависимой переменной от ее выборочного среднего в виде

Рассмотрим последнее слагаемое в правой части этого выражения. Имеем:

получим, что

Сумму, стоящую в левой части этого выражения, называют полной суммой квадратов , первая сумма в правой части () называется суммой квадратов, объясненной моделью , вторая сумма правой части называется остаточной суммой квадратов . Далее, используя выражение (), можно записать

Здесь мы использовали следующие соотношения:

(это следует из первого уравнения системы нормальных уравнений (2.11 ), (2.12 ), (здесь использовано свойство (2.20 ) остатков). Из () следует, что полную вариацию переменной y можно разложить на две составляющие: - это часть полной вариации, объясненная регрессией, и - необъясненная часть полной вариации, которая обусловлена случайной составляющей модели. Разложения () и () используются для определения коэффициента детерминации.

Первое представление коэффициента детерминации

Определим коэффициент детерминации следующим соотношением

В знаменателе стоит полная сумма квадратов (total sum of squares) , для ее обозначения будем использовать аббревиатуру TSS , так что

При построении модели парной линейной регрессии следует добиваться, чтобы значение коэффициента детерминации было как можно ближе к единице. Для его вычисления проще и удобнее использовать формулу ().

Пример 2.4.

Вычисление коэффициента детерминации для модели примера 2.1 . Вычисления по формуле () дают следующее значение коэффициента детерминации для модели примера 2.1: R 2 = 0,9965 . Таким образом, коэффициент детерминации близок к единице, что указывает на хорошее качество аппроксимации наблюдаемых данных построенной моделью.

Пример 2.5.

Вычисление коэффициентов детерминации для моделей товарооборота филиалов примера 2.2 . Для первой регрессии примера 2.2., описывающей зависимость товарооборота от торговой площади, коэффициент детерминации R 1 2 = 0,96886 . Для второй регрессии, описывающей зависимость товарооборота от среднедневной интенсивности потока покупателей R 2 2 = 0,42433 .

Таким образом, полученные объективные показатели качества регрессионных моделей - коэффициенты детерминации, подтверждают сделанное ранее предположение (см. пример 2.2) о том, что первая регрессия лучше объясняет поведение зависимой переменной.

2.4.2. Построение доверительных интервалов для коэффициентов регрессии

Рассмотренный в предыдущем разделе показатель адекватности - коэффициент детерминации используется для оценки качества регрессионных моделей в целом, при сравнении альтернативных моделей. В данном разделе рассматриваются процедуры, позволяющие сделать вывод о качестве оценок истинных значений отдельных параметров уравнения.

Оценки дисперсий МНК-оценок коэффициентов

Одной из важных характеристик качества оценки является ее дисперсия, как мера отклонения относительно ожидаемого значения. Полученные ранее уравнения (2.22 ), (2.23 ) (или (2.24 )) для дисперсий оценок зависят от неизвестной дисперсии случайной составляющей регрессионной модели u . Для того, что бы эти уравнения можно было использовать в практических расчетах, необходимо определить оценку величины . Это еще один параметр модели. Несмещенной оценкой дисперсии случайного члена u является оценка вида

Выражение () используется для вычисления оценок дисперсий оценок a и b коэффициентов регрессии. Для этого в уравнениях (2.22 ), (2.23 ), (2.24 ) теоретическая дисперсия заменяется ее оценкой (). Таким образом, оценки дисперсий имеют вид

Определение доверительных интервалов оценок параметров модели

Полученные оценки параметров и модели являются точечными . Формулы (2.13 ), (2.14 ) определяют оценки в виде случайных чисел, зависящих от конкретной выборки наблюдений. Эти числа могут в отдельных случаях существенно отклонятся от истинных значений параметров. В связи с этим возникает вопрос - возможно ли определить с достаточной степенью надежности, насколько полученные оценки близки к истинным значениям параметров, или точнее, определить интервалы, в пределах которых с заданной вероятностью могут находиться истинные значения параметров. Оказывается, такие интервалы можно построить, используя так называемые t -тесты. Для построения t -тестов необходимо предположение о нормальности случайной составляющей, то есть t -тест применяется в рамках предположений классической нормальной линейной регрессии . С помощью t-тестов можно проверить гипотезы как об отдельных числовых значениях коэффициентов регрессии, так и о значениях их линейных комбинаций. Последнее особенно важно для суждения об адекватности моделей множественной линейной регрессии. t - тесты позволяют также построить доверительные интервалы для коэффициентов регрессии и прогнозных значений зависимой переменной.

t -тесты основаны на следующем важном утверждении: случайные переменные

подчиняются центральному распределению Стьюдента (t-распределению, отсюда название - t - тесты) с (n-2) степенями свободы .

Замечание относительно степеней свободы.

Количество степеней свободы равно количеству наблюдений переменных минус количество оцениваемых коэффициентов модели. В модели парной линейной регрессии таких коэффициентов всего два. Увеличение количества коэффициентов в модели регрессии при фиксированном размере выборки соответственно уменьшает количество степеней свободы.

Очевидно, что погрешности точечных оценок коэффициентов равны соответственно , . Это случайные величины, поскольку случайными являются сами оценки. Поэтому о точности оценок (об их погрешности) можно судить только в вероятностном смысле. Зададим ширину интервала погрешности (не случайную величину), и определим надежность оценки, как вероятность, с которой ошибка точечной оценки попадет в этот фиксированный интервал. Формально это можно записать так

где - вероятность того, что ошибка точечной оценки попала в заданный интервал . Можно сказать, что вероятность характеризует степень доверия к заданному интервалу, поэтому она называется доверительной вероятностью или надежностью . Величина - вероятность того, что ошибка выйдет за пределы данного интервала, называется уровнем значимости .

Соотношения (), () можно переписать в виде

Интерпретация доверительных интервалов.

Выражения (), () интерпретируются следующим образом: величина - это вероятность того, что оцениваемые неслучайные параметры и покрываются соответственно интервалами , со случайными концами, зависящими от случайных величин - оценок a и b .

Эти интервалы называются доверительными интервалами . Доверительные интервалы называют также интервальными оценками и они дополняют точечные оценки параметров. Интервальные оценки дают дополнительную, ценную информацию о надежности точечных оценок и позволяют повысить надежность суждений о точечных оценках.

Определение доверительных интервалов.

Для определения доверительных интервалов используются t - статистики Стьюдента вида (), (). Для статистики t (имеющей t -распределение) можно определить значение (из таблицы t -критерия) , соответствующее заданному уровню значимости и данному числу степеней свободы, (здесь p - количество степеней свободы, при двух параметрах p = 2 ), такое, что

с вероятностью накрывают неизвестные истинные значения параметров регрессии и . Расположение и ширина доверительных интервалов меняются от выборки к выборке. Действительно, их расположение и ширина зависят как от оценок коэффициентов, которые являются переменными (случайными величинами), так и от случайных значений выборочных оценок среднеквадратичных отклонений s a и s b . При построении эконометрических регрессионных моделей доверительные интервалы обычно определяют для двух уровней значимости - и . Соответственно говорят о 5%-ом уровне значимости или об 1% - ом уровне значимости . Доверительные вероятности (уровни доверия) при этом будут равны и . Соответственно говорят о 95%-ом или о 99%-ом уровне доверия (надежности) . Подчеркнем, что чем меньше уровень значимости (больше уровень доверия), тем шире соответствующий доверительный интервал (при прочих равных условиях).

Можно сказать, что при 95% - ом уровне доверия доверительный интервал в среднем в 95 случаях из 100 накрывает истинное значение параметра, при 99% - ом - в 99 случаях из ста.

Пример 2.6.

Определение доверительных интервалов для модели примера 2.1. Определим границы доверительных интервалов для коэффициентов модели примера 2.1. Будем предполагать, что регрессор x - не случайная величина. Тогда оценки дисперсий остатков и коэффициентов регрессии вычисляются по формулам (), (), (). Они равны соответственно: , , . Табличное значение t - статистики для 13 степеней свободы и уровня значимости равно 2,160. Используя эти данные, легко вычислить границы доверительных интервалов для коэффициентов и : ;. Таким образом, можно утверждать, что истинные значения коэффициентов с вероятностью 0,95 находятся в пределах указанных границ.

Пример 2.7.

Доверительные интервалы для моделей примера 2.2. Аналогично предыдущему примеру, можно определить границы доверительных интервалов для двух регрессий примера 2.2. Критическое значение t - статистики при уровне значимости 0,05 и p = 12 - 2 = 10 степеней свободы равно 2,228 . Оцененные среднеквадратичные отклонения оценок коэффициентов первой регрессии равны s a = 0,2887, s b = 0,2961 . Доверительные интервалы для коэффициентов: , . Для второй регрессии s a = 2,7334, s b = 0,2516 . Доверительные интервалы: , .

Постройте доверительные интервалы для моделей примеров 2.1, 2.2. при уровне значимости .

2.4.3. Точечный и интервальный прогноз зависимой переменной

Определим прогноз среднего значения зависимой переменной как оценку теоретической взаимосвязи с помощью эмпирической (оцененной) регрессионной функции

где x - некоторое значение независимой переменной, вообще говоря, несовпадающее со значениями переменных из выборки, по которой оценены параметры регрессии. Поскольку оценки a и b - случайные величины, то и прогноз будет случайной величиной.

Замечание. Прогноз среднего значения и прогноз индивидуального значения зависимой переменной.

Следует различать прогноз среднего значения регрессанда как оценку его математического ожидания с учетом предпосылки M(u i) = 0 (первого условия Гаусса - Маркова), и прогноз как оценку возможного индивидуального значения (реализации) y i регрессанда y . В этом случае в уравнение () следовало бы добавить прогноз случайной составляющей модели. В качестве прогнозного значения случайной составляющей берут ее математическое ожидание, которое равно нулю. Это различие в понимании смысла прогноза существенно, так как соответствующие дисперсии ошибок прогноза и доверительные интервалы будут различны.

Рассмотрим сначала прогноз среднего зависимой переменной.

Дисперсия прогноза среднего зависимой переменной и ее оценка

При выводе уравнений для дисперсии и ее оценки мы будем использовать правила преобразования теоретических вариаций (дисперсий) и ковариаций случайных величин. Эти правила такие же как и для соответствующих выборочных характеристик, которые были установлены в разделе 2.3.2 . Для записи теоретических значений вариаций и ковариаций мы будем использовать обозначения var(,), cov(,) .

Получим выражение для дисперсии прогноза. Имеем

Таким образом, окончательно имеем

Обратим внимание, что в выражении () переменная x - это значение регрессора (независимой переменной), для которого определяется прогноз среднего значения зависимой переменной (регрессанда). Поскольку в () теоретическое значение дисперсии случайной составляющей модели неизвестно, то что бы получить оценку дисперсии прогноза, заменим ее оценкой по формуле (). Тогда получим

Определение доверительных интервалов для прогноза среднего значения зависимой переменной

Определим доверительный интервал для прогноза () зависимой переменной. Этот интервал с вероятностью накрывает среднее значение зависимой переменной. Построение доверительного интервала основано на применении t-статистики вида

верхняя граница

Очевидно, что

Доверительный интервал для индивидуальных значений зависимой переменной

Доверительный интервал для индивидуальных значений строится с использованием t -статистики вида

верхняя граница

где количество степеней свободы p = n-2 .

Пример 2.8. Доверительные границы прогнозов среднего и индивидуального значений зависимой переменной в модели примера 2.1.

Определим прогноз доходности акций компании для момента t = 3 , то есть для значения x = x 3 = 0,07 и построим доверительные интервалы прогнозов среднего и индивидуального значений, предполагая, что регрессор x - не случайная величина.

Используя уравнение регрессии с оцененными коэффициентами (см. пример 1.1.), получим

Для определения доверительных интервалов необходимо предварительно вычислить оценки дисперсий прогноза среднего и индивидуального значений зависимой переменной. Используя формулы () и (), соответственно получим: , . Границы для среднего значения равны:

нижняя

верхняя

Постройте интервальные прогнозы средних и индивидуальных значений зависимой переменной для регрессий примера 2.2.

2.4.4. Проверка статистических гипотез относительно коэффициентов регрессии

Двусторонний t-тест
(t - тест двусторонней пары гипотез)

Помимо определения доверительных интервалов для коэффициентов, при построении регрессионных моделей важным является вопрос о проверке гипотез относительно некоторых конкретных значений отдельных коэффициентов регрессии. Такой вопрос возникает, например, если необходимо проверить, статистически значимо ли влияние регрессора (независимой переменной) на регрессанд (зависимую переменную). В этом случае можно сформулировать и попытаться проверить две гипотезы:

нулевая гипотеза

В общем случае, если на основе анализа объекта моделирования можно заранее (то есть еще до проведения наблюдений) предположить (высказать гипотезу), что регрессионный коэффициент равен некоторому значению , то для проверки этого предположения гипотезы формулируются следующим образом:

Правило принятия решений на основе статистики статистики () следующее: гипотеза H 0 отклоняется , если

(эквивалентная запись этого условия );

гипотеза H 0 принимается , если

(эквивалентная запись).

Область значений t-статистики, задаваемая выражением () называется областью отклонения гипотезы H 0 , а область () - областью принятия гипотезы H 0 , при уровне значимости .

Ошибки I и II рода.

При проверке и принятии гипотез существует риск допущения ошибок I и II рода . Ошибка I рода возникает, если нулевая гипотеза истинна, но она отвергается. Ошибка II рода возникает, когда нулевая гипотеза ложна, но она не отвергается. Поскольку t - статистика - величина случайная, то она может случайно принять значение из области отклонения нулевой гипотезы, даже если эта гипотеза верна. Так как вероятность попадания t -статистики в область принятия гипотезы равна , а вероятность попадания в область отклонения равна , то уровень значимости и будет вероятностью ошибки первого рода. Чем меньше уровень значимости, тем с большим основанием (с большей надежностью) можно принять нулевую гипотезу. Такой уровень значимости называют более высоким . Однако, если нулевая гипотеза на самом деле ложна, в этом случае возрастает вероятность ошибки второго рода. Если же выбрать низкий уровень значимости (это соответствует большему значению ), то вероятность ошибки первого рода будет выше. На практике идут на компромисс, и проверяют гипотезы для двух уровней значимости: низкого , обычно 5% - го и высокого , обычно 1% - го.

Главная > Реферат

Доверительные интервалы для параметров линейной модели.

Для значимых коэффициентов регрессии можно построить доверительные интервалы, используя формулу: , (2.20) где t находят по таблице распределения Стьюдента для значимости =1- и числа степеней свободы =n-k-1. Интервальная оценка в точке, определяемой вектором начальных условий х 0 , определяется по формуле: , (2.21) где = (x 0) т b; x 0 =
- вектор-столбец начальных условий размерности (k+1) t определяется по таблице распределения Стьюдента для уровня значимости  и числа степеней свободы =n -k -1.

Для построения модели будет использован метод пошаговой регрессии. Сложность взаимосвязи факторов в модели, характеризующих экономические явления, необходимо упростить с целью выделения наиболее существенных связей. Нужно найти оптимальный вариант модели, отражающий основные закономерности исследуемого явления с достаточной степенью статистической надежности. В модель должны быть включены все факторы, которые с экономической точки зрения оказывают влияние на зависимую переменную, однако, количество факторов, включаемых в модель, не должно быть очень большим. Невыполнение этого условия приведет к ряду затруднений, среди которых - снижение точности оценок, сложность интерпретации модели и трудности ее практического использования.

Можно выделить два различных подхода к решению проблемы сокращения количества исходных переменных. Один из них основывается на том, что отсеиваются менее существенные факторы в процессе построения исходной модели, а второй - на замене исходного набора переменных меньшим числом эквивалентных факторов, полученных в результате преобразований исходного набора. Процедура отсева несущественных факторов в процессе построения регрессионной модели получила название многошагового регрессионного анализа. Этот метод основан на вычислении нескольких промежуточных уравнений регрессии, в результате анализа которых получают конечную модель, включающую только оказывающие тесное статистически существенное влияние факторы на исследуемую зависимую переменную. В данной задаче мною использовался многошаговый регрессионный анализ, основанный на оценке значимости коэффициентов регрессии с помощью t-критерия Стьюдента. Уравнение регрессии строится по максимально возможному количеству объясняющих переменных, предположительно влияющих на исследуемую переменную. После этого с помощью определенных критериев исключают те переменные, которые оказывают статистически несущественное влияние. Схема отбора значимых факторов в уравнении регрессии с помощью t-критерия выглядит так: если все коэффициенты регрессии значимы, то уравнение регрессии признается окончательным и принимается в качестве модели исследуемого признака; если среди коэффициентов регрессии имеются незначимые, то соответствующие объясняющие переменные следует исключать из уравнения. Однако предварительно следует проранжировать коэффициенты регрессии по величине t набл и в первую очередь исключить такой фактор, для которого коэффициент регрессии незначим и t набл имеет наименьшее значение по абсолютной величине. Значение уравнения регрессии пересчитывается снова без исключенного фактора и затем производится оценка коэффициентов регрессии по t-критерию. Это повторяется до тех пор, пока коэффициенты регрессии в уравнении не станут значимыми. Простейшая схема проверки значимости коэффициентов регрессии сводится к построению доверительного интервала для каждого из них и проверки гипотезы о том, находится ли ноль в внутри построенного интервала. Если гипотеза не отвергается, то этот коэффициент регрессии считается незначимым или его значимость подвергается сомнению и выясняется на следующих этапах анализа. При данном методе на каждом шаге, кроме формальной статистической проверки значимости коэффициентов регрессии, поводится также экономический анализ несущественных факторов и устанавливается порядок их исключения. В некоторых случаях значение t набл находится вблизи t кр, и с точки зрения содержательности модели этот фактор можно оставить для последующей проверки его значимости в сочетании с другими наборами факторов. Не существенность коэффициента регрессии по t-критерию не всегда является основанием для исключения переменной из дальнейшего анализа. Поэтому в некоторых случаях нужно использовать некоторые дополнительные эмпирические процедуры исключать переменную из уравнения регрессии лишь в том случае, когда средняя квадратическая ошибка коэффициента регрессии превышает абсолютный размер вычисленного коэффициента, когда t набл 1.5. 3. Построение многомерной регрессионной модели дохода для цирков Российской Федерации. 3.1 Выбор факторов для построения многомерной регрессионной модели дохода цирков Российской Федерации. Для построения многомерной регрессионной модели доходов цирков Российской Федерации были выбраны цирки 34-х городов РФ. На основании статистических данных предоставленных Росгосцирком и Госкомстатом РФ был проведен предварительный анализ исходных данных. В качестве факторов характеризующих деятельность цирков, были рассмотрены: население города, количество мест в цирке, количество представлений, количество зрителей, посетивших цирк, доходы, расходы, прибыль и посещаемость. Для получения однородной статистической совокупности был проведен кластерный анализ, в результате которого были получены кластеры, обладающие достаточной статистической однородностью для построения многомерной регрессионной модели. Кластерный анализ был проведен по 8 показателям, однако для построения многомерной регрессионной модели все эти показатели использованы быть не могут, так как объем выборки должен быть значительно больше числа факторов, включаемых в регрессионную модель n>>k .

Такие факторы как количество зрителей, количество мест и количество представлений входят в формулу расчета численных значений фактора посещение формула (3.1):

Количество зрителей * 100% = % посещения. (3.1)

Количество мест * количество представлений

Данная формула применяется для расчета посещаемости в бухгалтерском учете Росгосцирка. Следовательно, фактор количество зрителей и количество представлений нецелесообразно включать в регрессионную модель, так как возникает опасность мультиколлинеарности и, как следствие, статистической не надежности модели. Фактор количество мест решено включить в модель из экономических соображений. Построение уравнения регрессии предполагает решение двух основных задач. Первая задача заключается в выборе независимых переменных, в нашем примере расход, количество мест, посещение, оказывающих существенное влияние на зависимую переменную (доход), а также в определении вида уравнения регрессии. Вторая задача построения уравнения регрессии – оценивание параметров уравнения. Она решается с помощью того или иного математико-статистического метода обработки данных. Для анализа статистически данных был применен пакет прикладных программ Статистика 5,0 - ППП “Statistica”. Переменные, которые будут использоваться в многомерном статистическом анализе, имеют различные единицы измерения. Поэтому перед проведением статистического анализа данные стандартизировались, то есть приводились к единой шкале измерений. В пакете прикладных программ Статистика 5,0, команда Standardize Rows Columns (стандартизация строк), позволяет выполнить стандартизацию значений в каждой строке выделенного блока. Значения переменных в блоке изменяются на стандартизированные, которые вычисляются по следующей формуле (3.2): новое значение = (старое значение – среднее в выделенной строке)/стандартное отклонение, t = x x . (3.2) s Далее, с целью получения однородных статистических совокупностей, был проведен кластерный анализ. Кластерный анализ - это общее название множества вычислительных процедур, используемых при создании классификации. Это многомерная статистическая процедура, выполняющая сбор данных, содержащая информацию о выборке объектов, и затем упорядочивающая объекты в сравнительно однородные группы. В качестве расстояния между объектами принимались различные расстояния, обычное евклидово расстояние, взвешенное евклидового расстояния. При объединении в группы в кластерном анализе были рассмотрены дендограммы (приложение № 4.) сделанные, двумя иерархическими методами: методом дальнего соседа (Complete Linkage) и методом Уорда (Ward"s method). Графическое представление результатов кластерного анализа будет осуществляться с помощью ППП “Statistica”. Кластерный анализ проводится в одном, выше рассмотренном, статистическом пакете прикладных программ. Все дендограммы представлены в приложении № 4. Таким образом, используя несколько алгоритмов кластерного анализа, отдадим предпочтение разбиению на два кластера методом Уорда. В методе «Уорда» в данной дипломной работе будет применяться взвешенное евклидовое расстояние. На рис. 3.1 представлена дендограмма классификации городов на основе взвешенного евклидового расстояния и принципа Уорда.

Рис. 3.1. Дендограмма. Классификация городов на основе взвешенного евклидового расстояния и принципа Уорда.

Классификация проводилась по различным алгоритмам кластерного анализа, но наилучшими в содержательном плане оказались результаты, полученные методом Уорда при разбиении на два кластера, первый: состоящий из 18 городов, и второй: из 16 городов. Таким образом, были получены две статистически однородные группы. В нашем примере, следует остановиться на применении именно этого метода, как наилучшего варианта классификации. Результаты кластерного анализа представлены в таблице № 3.1. Таблица № 3.1. Города, вошедшие в первый и второй кластеры.

№ п/п 1 кластер № п/п 2 кластер
1 Владивосток 1 Астрахань
2 Волгоград 2 Брянск
3

Воронеж

3

Иваново

4 Иркутск 4 Кемерово
5 Краснодар 5 Киров
6 Красноярск 6 Кисловодск
7 Тверь 7 Кострома
8 Екатеринбург 8 Курск
9

Самара

9 Сочи
10 Новосибирск 10 Магнитогорск
11 Омск 11 Нижний Тагил
12 Пермь 12 Новокузнецк
13 Ростов Дон 13 Оренбург
14 Рязань 14 Пенза
15 Саратов 15 Ставрополь
16 Тула 16 Тюмень
17 Челябинск
18 Ярославль
3.2. Построение многомерной регрессионной модели. Применение кластерного анализа позволило представить статистические данные в виде двух статистически однородных групп, для понимания которых, целесообразно построить регрессионную модель для кластера № 1. Применение методов корреляционного и регрессионного анализа, позволило исследовать зависимость доходов от следующих показателей производственно-хозяйственной деятельности:
    у – доход; х1 – количество мест; х2 – расход; х3 – посещение.
Исходные статистические данные для анализа представлены в приложении №5. Анализ матрицы парных коэффициентов корреляции позволил оценить тесноту взаимосвязи между факторами, включенными в модель, а также оценить возможность возникновения мультиколлиниарности. Наличие мультиколлиниарности в данной модели не обнаружено. По результатам анализа матрицы парных коэффициентов корреляции, сделан вывод, использовать такие факторы как: количество мест, расход, посещение. В качестве результативного признака - доход. В таблице № 3.2 представлены результаты построения регрессионной модели доходов для кластера № 1 в зависимости от факторов: количество мест, расход, посещение и доход. Таблица № 3.2. Статистическая оценка параметров многомерной регрессионной модели доходов цирков для кластера № 1.
F(3,14)=32,512 p<,00000 Std.Error of estimate: ,40801 RІ= ,87447834
Intercpt
КОЛИЧЕСТВО МЕСТ
РАСХОДЫ
ПОСЕЩЕНИЕ
Durbin-Watson d =2,1974158
Применение пакета прикладных программ Статистика 5,0 - ППП «Statistica», позволило построить регрессионную модель доходов для кластера № 1: Y = +0,04547-0,04079*Х1+0,99053*Х2+0,07429*Х3. (3.3) Статистическая надежность модели была оценена с помощью следующих параметров адекватности (таблица № 3.2): множественного коэффициента детерминации R 2 = 0,87447, свидетельствующего о том, что 87,4% вариации доходов объединяет вошедшими в модель показателями (Х1, Х2, Х3), относительной ошибки аппроксимации δ = 0,40801, расчетным значением F - критерия F набл = 32,512. Уравнение регрессии значимо, так как F набл = 32,512 > F кр =3,11, найденного по таблице F – распределения при уровне значимости α = 0,05 и числах степеней свободы ν 1 =4 и ν 1 =14. Для проверки гипотезы о значимости отдельных коэффициентов регрессии Н0: θ j = 0, где j = 1,2,3, сравнивают критическое значение tкр =2,145 при α = 0,05 и числе степеней свободы и ν 1 =14. Из уравнения следует, что статистически значимым является только один коэффициент регрессииt 2 , так как расчетное значениеt 2  = 8,69883 > tкр = 2,145. Расчетные значения t j  для остальных коэффициентов регрессии меньше tкр =2,145 при α = 0,05 и числе степеней свободы ν 1 =14. Для получения регрессии со значимыми коэффициентами используем пошаговый алгоритм регрессионного анализа. Первоначально используем пошаговый алгоритм с исключением переменных. Исключим из модели переменную Х1 - количество мест, которой соответствует минимальное по абсолютной величине значение коэффициента t 1  = 0,34465. Для оставшихся переменных вновь построим уравнение регрессии: Y = +0,03001+0,97113*Х2+0,08843*Х3. (3.4) В таблице № 3.3 представлены результаты построения регрессионной модели доходов для кластера № 1 в зависимости от факторов: расход, посещение и доход. Таблица № 3.3. Статистическая оценка параметров многомерной регрессионной модели доходов цирков для кластера № 1.
R= ,93456584 RІ= ,87341332 Adjusted RІ= ,85653509

F(2,15)=51,748 p<,00000 Std.Error of estimate: ,39585

Intercpt
РАСХОДЫ
ПОСЕЩЕНИЕ

Durbin-Watson d =2,1400127

Полученное уравнение значимо, так как F набл = 51,748 > F кр =3,29 при уровне значимости α = 0,05 и числах степеней свободы ν 1 =3 и ν 1 =15, найденного по таблице F –распределения. Однако в уравнении значим только один коэффициент регрессии t 2  = 10,11286 при tкр (0,05;15)=1,753. Расчетное значение t 3  = 0,95991 меньше tкр (0,05;15)=1,753, найденного по таблице t – распределения при tкр =2,145 при α = 0,05 и числе степеней свободы и ν 1 =15. Исключим из модели переменную Х3 - посещение, которой соответствует минимальное по абсолютной величине значение коэффициента t 3  = 0,95991. Для оставшихся переменных вновь построим уравнение регрессии:

Как правило, в линейной регрессии обычно оценивается значимость не только уравнения в целом, но и отдельных его параметров.Показатели корреляционной связи, вычисленные по ограничен­ной совокупности (по выборке), являются лишь оценками той или иной статистической закономерности, поскольку в любом парамет­ре сохраняется элемент не полностью погасившейся случайности, присущей индивидуальным значениям признаков. Поэтому необхо­дима статистическая оценка степени точности и надежности пара­метров корреляции. Под надежностью здесь понимается вероятность того, что значение проверяемого параметра не равно нулю, не вклю­чает в себя величины противоположных знаков.

Вероятностная оценка параметров корреляции производится по общим правилам проверки статистических гипотез, разработанным математической статистикой, в частности путем сравнения оцени­ваемой величины со средней случайной ошибкой оценки. Для ко­эффициента парной регрессии b средняя ошибка оценки вычисля­ется как:

где D ост – остаточная дисперсия на одну степень свободы.

Для нашего примера величина стандартной ошибки коэффициента регрессии составила:

.

Для оценки того, насколько точные значения показателей могут отличаться от рассчитанных, осуществляется построение доверительных интервалов. Они определяют пределы, в которых лежат точные значения определяемых показателей с заданной степенью точности, соответствующей заданному уровню значимости α (α – вероятность отвергнуть правильную гипотезу при условии, что она верна, обычно принимается равной 0,05 или 0,01 ).

Для оценки статистической значимости коэффициента линейной регрессии и линейного коэффициента парной корреляции, а также для расчета доверительных интервалов b, применяется t – критерий Стьюдента.

Для оценки существенности коэффициента регрессии его величина сравнивается с его стандартной ошибкой, т.е. определяется фактическое значение t-критерия Стьюдента: , которое затем сравнивается с табличным значением при определенном уровне значимости а и числе степеней свободы (n - 2).

В рассматриваемом примере фактическое значение t-критерия для коэффициента регрессии составило:

.

Этот же результат получим, извлекая квадратный корень из найденного F-критерия, т.е.

Действительно, справедливо равенство .

При (для двустороннего критерия) и числе степеней свободы 13 табличное значение t b = 2,16. Так как фактическое значение t‑критерия превышает табличное, то, следовательно, гипотезу о несущественности коэффициента регрессии можно отклонить.

Для расчета доверительных интервалов для параметров a и b уравнения линейной регрессии определяем предельную ошибку для каждого показателя:

∆ а = t табл · m a , ∆ b = t табл · m b .

Формулы для расчета доверительных интервалов имеют вид:

γ a = a ± ∆ а γ amin = a - ∆ а γ amin = a + ∆ а

γ b = b ± ∆ b γ bmin = b - ∆ b γ bmin = b + ∆ b

Если границы интервала имеют разные знаки, т.е. в эти границы попадает ноль, то оцениваемый параметр принимается нулевым.

Доверительный интервал для коэффициента регрессии определяется как . Для коэффициента регрессии b в примере 95%-ные границы составят:

0,022 ± 2,16·0,0026 = 0,022 ± 0,0057 , т.е.

0,016 ≤ b ≤ 0,027.

Поскольку коэффициент регрессии в эконометрических исследованиях имеет четкую экономическую интерпретацию, то доверительные границы интервала для коэффициента регрессии не должны содержать противоречивых результатов, например, -10 ≤ b ≤ 40 . Такого рода запись указывает, что истинное значение коэффициента регрессии одновременно содержит положительные и отрицательные величины и даже ноль, чего не может быть.

Стандартная ошибка параметра а определяется по формуле:

Процедура оценивания существенности данного параметра не отличается от рассмотренной выше для коэффициента регрессии; вычисляется t-критерий: , его величина сравнивается с табличным значением при df = n - 2 степенях свободы. В нашем примере m a составила 0,032.

Значимость линейного коэффициента корреляции проверяется на основе величины ошибки коэффициента корреляции m r :

Фактическое значение t-критерия Стьюдента определяется как

Данная формула свидетельствует, что в парной линейной регрессии , ибо, как уже указывалось, Кроме того, Следовательно,

Таким образом, проверка гипотез о значимости коэффициентов регрессии и корреляции равносильна проверке гипотезы о существенности линейного уравнения регрессии.

В рассматриваемом примере t r совпало с t b . Величина t r =8,37 значительно превышает табличное значение 2,16 при а=0,05. Следовательно, коэффициент корреляции существенно отличен от нуля и зависимость является достоверной.

Прогноз, полученный подстановкой в уравнение регрессии ожи­даемого значения фактора, называют точечным прогнозом. Вероят­ность точной реализации такого прогноза крайне мала. Необходимо сопроводить его значением средней ошибки прогноза или довери­тельным интервалом прогноза с достаточно большой вероятностью.



Точечный прогноз заключается в получении прогнозного значения y p , которое определяется путем подстановки в уравнение регрессии

соответствующего прогнозного значения x p:

y p = a +b·x p .

Интервальный прогноз заключается в построении доверительного интервала прогноза, т.е. верхней и нижней границы y pmin , y pmax интервала, содержащего точную величину для прогнозного значения
(y pmin < y p < y pmax ) . Доверительный интервал всегда определяется с заданной вероятностью, соответствующей принятому значению уровня значимости α.

Предварительно вычисляется стандартная ошибка прогноза .

И затем строится доверительный интервал прогноза, т.е. определяется нижняя и верхняя границы интервала прогноза

, ,

где .

Предположим, в нашем примере необходимо найти прогнозное значение результата, при условии, что прогнозное значение фактора х увеличится на 15% от своего среднего уровня и определить доверительный интервал прогноза.

Увеличение прогнозного значения фактора х даст величину

Подставляя ее в формулу, находим

,

прогнозное значение результата при заданном условии

y p = a+b∙x p = 6,63+0,022∙149,99 = 9,95.

Т.о. доверительный интервал прогноза составит

9,73 < y p <10,18.

В случае нелинейной регрессии оценка существенности индекса корреляции проводится, так же как и оценка надежности коэффициента корреляции. Индекс детерминации используется для проверки существенности в целом уравнения нелинейной регрессии по F-критерию Фишера:

где R 2 – индекс детерминации;

n – число наблюдений;

m – число параметров при переменных х .

Величина m характеризует число степеней свободы для факторной суммы квадратов, а (n – m - 1) – число степеней свободы для остаточной суммы квадратов.

Для степенной функции и формула F – критерия примет тот же вид, что и при линейной зависимости:

Для параболы второй степени y=a + b·x + c·x 2 + ε m=2 и .

Для оценки качества построенной модели используется также средняя ошибка аппроксимации . Фактические значения результативного признака отличаются от теоретических, рассчитанных по уравнению регрессии, т.е. у и . Чем меньше это отличие, тем ближе теоретические значения подходят к эмпирическим данным, лучше качество модели. Величина отклонений фактических и расчетных значений результативного признака (у - ) по каждому наблюдению представляет собой ошибку аппроксимации. Их число соответствует объему совокупности. В отдельных случаях ошибка аппроксимации может оказаться равной нулю. Для сравнения берутся величины отклонений, выраженные в процентах к фактическим значениям. Так, если для первого наблюдения у=20 , а для второго у=50 , ошибка аппроксимации составит 25% для первого наблюдения и 20% - для второго.

Поскольку (у - ) может быть как величиной положительной, так и отрицательной, то ошибки аппроксимации для каждого наблюдения принято определять в процентах по модулю.

Чтобы иметь общее суждение о качестве модели из относительных отклонений по каждому наблюдению, определяют среднюю ошибку аппроксимации как среднюю арифметическую простую:

.

Для нашего примера представим расчет средней ошибки аппроксимации в таблице 4.