Если выбранная в качестве объясняющей переменной величина представляет собой действительно доминирующий фактор, то соответствующая парная регрессия достаточно полно описывает механизм причинно-следственной связи. Часто изменение y связано с влиянием не одного, а нескольких факторов. В этом случае в уравнение регрессии вводятся несколько объясняющих переменных. Такая регрессия называется множественной. Уравнение множественной регрессии позволяет лучше, полнее объяснить поведение зависимой переменной, чем парная регрессия, кроме того, оно дает возможность сопоставить эффективность влияния различных факторов.

Линейная модель множественной регрессии имеет вид:

где m – количество включенных в модель факторов. Коэффициент регрессии показывает, на какую величину в среднем изменится результативный признак y , если переменную увеличить на единицу измерения, т.е. является нормативным коэффициентом.

Уравнение линейной модели множественной регрессии в матричном виде имеет вид:

, (7.11)

где Y n х1 наблюдаемых значений зависимой переменной;

X – матрица размерности n х(m+1) наблюдаемых значений независимых переменных (дополнительно вводится фактор, состоящий из одних единиц для вычисления свободного члена);

α – вектор-столбец размерности (m+1) х1 неизвестных, подлежащих оценке коэффициентов регрессии;

ε – вектор-столбец размерности n х1 случайных отклонений.

Таким образом,

,, ,.

При применении МНК относительно случайной составляющей в модели (7.10) принимаются предположения, которые являются аналогами предположений, сделанных выше для МНК, применяемого при оценивании параметров парной регрессии. Обычно предполагается:

1. - детерминированные переменные.

2. - математическое ожидание случайной составляющей в любом наблюдении равно нулю.

3. - дисперсия случайного члена постоянна для всех наблюдений.

4. - в любых двух наблюдениях отсутствует систематическая связь между значениями случайной составляющей.

5. ~ - часто добавляется условие о нормальности распределения случайного члена.

Модель линейной множественной регрессии, для которой выполняются данные предпосылки, называется классической нормальной регрессионной моделью (Classical Normal Regression model).

Гипотезы, лежащие в основе модели множественной регрессии удобно записать в матричной форме:

1. Х – детерминированная матрица, имеет максимальный ранг (m+1) , ρ(Х)=m+1. Эта гипотеза означает, что в повторяющихся выборочных наблюдениях единственным источником случайных возмущений вектора Y являются случайные возмущения вектора ε, поэтому свойства оценок обусловлены матрицей наблюдений Х. Предположение относительно матрицы Х, ранг которой принимается равным (m+1) ,означает, что число наблюдений превышает число параметров (иначе невозможна оценка этих параметров) и не существует строгой линейной зависимости между объясняющими переменными. Это соглашение распространяется на все переменные Х, включая переменную, значение которой всегда равно единице, что соответствует первому столбцу матрицы Х. Если, например, одна объясняющая переменная будет равна другой, умноженной на некоторую константу, или одна будет линейно выражаться через несколько других, то ранг матрицы окажется меньше (m+1) , следовательно, ранг матрицы Х Т Х тоже будет меньше (m+1) . Наличие линейной зависимости между столбцами матрицы Х привело бы к вырождению симметрической матрицы Х Т Х, в результате чего перестала бы существовать обратная матрица (Х Т Х) -1 , которая играет решающую роль в процедуре оценивания.



3,4. , где I n – единичная матрица размером n xn . Так как ε - вектор-столбец, размерности n х1 , а ε Т – вектор-строка, произведение εε Т есть симметрическая матрица порядка n . Матрица ковариаций:

,

Элементы, стоящие на главной диагонали, свидетельствуют о том, что для всех i , это означает, что все имеют постоянную дисперсию . Элементы, не стоящие на главной диагонали дают нам для , так что значения попарно некоррелированы.

Парная регрессия используется при моделировании, если влиянием других факторов, воздействующих на объект исследования можно пренебречь.

Например, при построении модели потребления того или иного товара от дохода, исследователь предполагает, что в каждой группе дохода одинаково влияние на потребление таких факторов, как цена товара, размер семьи, ее состав. Однако, уверенности в справедливости данного утверждения нет.

Прямой путь решения такой задачи состоит в отборе единиц совокупности с одинаковыми значениями всех других факторов, кроме дохода. Он приводит к планированию эксперимента – метод, который используется в естественнонаучных исследованиях. Экономист лишен возможности регулировать другие факторы. Поведение отдельных экономических переменных контролировать нельзя, т.е. не удается обеспечить равенство прочих условий для оценки влияния одного исследуемого фактора.

Как поступить в этом случае? Надо выявить влияние других факторов, введя их в модель, т.е. построить уравнение множественной регрессии.

Такого рода уравнения используется при изучении потребления.

Коэффициенты b j – частные производные у по факторами х i

При условии, что все остальные х i = const

Рассмотрим современную потребительскую функцию (впервые 30е годы предложил Кейнс Дж.М.) как модель вида С = f(y,P,M,Z)

c- потребление. у – доход

P – цена, индекс стоимости.

M – наличные деньги

Z – ликвидные активы

При этом

Множественная регрессия широко используется в решении проблем спроса, доходности акций, при изучении функций издержек производства, в макроэкономических вопросах и других вопросах эконометрики.

В настоящее время множественная регрессия – один из наиболее распространенных методов в эконометрике.

Основная цель множественной регрессии – построить модель с большим числом факторов, определив при этом влияние каждого их них в отдельности, а также совокупное воздействие на моделируемый показатель.

Построение уравнения множественной регрессии начинается с решения вопроса о спецификации модели. Она включает в себя два круга вопросов:

1. Отбор факторов;

2. Выбор уравнения регрессии.

Включение в уравнение множественной регрессии того или иного набора факторов связано с представлением исследователя о природе взаимосвязи моделируемого показателя с другими экономическими явлениями. Требования к факторам, включаемым во множественную регрессию:

1. они должны быть количественно измеримы, если необходимо включить в модель качественный фактор, не имеющий количественного измерения, то ему нужно придать количественную определенность (например, в модели урожайности качество почвы задается в виде баллов; в модели стоимости объектов недвижимости: районы должны быть проранжированы).

2. факторы не должны быть интеркоррелированы и тем более находиться в точной функциональной связи.

Включение в модель факторов с высокой интеркорреляцией, когда R у x 1

Если между факторами существует высокая корреляция, то нельзя определить их изолированное влияние на результативный показатель и параметры уравнения регрессии оказываются интерпретируемыми.

В уравнение предполагается, что факторы х 1 и х 2 независимы друг от друга, r х1х2 = 0, тогда параметр b 1 измеряет силу влияния фактора х 1 на результат у при неизменном значении фактора х 2 . Если r х1х2 =1, то с изменением фактора х 1 фактор х 2 не может оставаться неизменным. Отсюда b 1 и b 2 нельзя интерпретировать как показатели раздельного влияния х 1 и х 2 и на у.

Пример, рассмотрим регрессию себестоимости единицы продукции у (руб.) от заработной платы работника х (руб.) и производительности труда z (ед. в час).

у = 22600 - 5x - 10z + e

коэффициент b 2 = -10, показывает, что с ростом производительности труда на 1 ед. себестоимость единицы продукции снижается на 10 руб. при постоянном уровне оплаты.

Вместе с тем параметр при х нельзя интерпретировать как снижение себестоимости единицы продукции за счет роста заработной платы. Отрицательное значение коэффициента регрессии при переменной х обусловлено высокой корреляцией между х и z (r х z = 0,95). Поэтому роста заработной платы при неизменности производительности труда (не учитывая инфляции) быть не может.

Включенные во множественную регрессию факторы должны объяснить вариацию независимой переменной. Если строиться модель с набором р факторов, то для нее рассчитывается показатель детерминации R 2 , которая фиксирует долю объясненной вариации результативного признака за счет рассматриваемых в регрессии р факторов. Влияние других неучтенных в модели факторов оценивается как 1-R 2 c соответствующей остаточной дисперсией S 2 .

При дополнительном включении в регрессию р+1 фактора коэффициент детерминации должен возрастать, а остаточная дисперсия уменьшается.

R 2 p +1 ≥ R 2 p и S 2 p +1 ≤ S 2 p .

Если же этого не происходит и данные показатели практически мало отличаются друг от друга, то включенный в анализ фактор x р+1 не улучшает модель и практически является лишним фактором.

Если для регрессии, включающей 5 факторов R 2 = 0,857, и включенный 6 дало R 2 = 0,858, то нецелесообразно включать в модель этот фактор.

Насыщение модели лишними факторами не только не снижает величину остаточной дисперсии и не увеличивает показатель детерминации, но и приводит к статистической не значимости параметров регрессии по критерию t-Стьюдента.

Таким образом, хотя теоретически регрессионная модель позволяет учесть любое число факторов, практически в этом нет необходимости.

Отбор факторов производиться на основе теоретико-экономического анализа. Однако, он часто не позволяет однозначно ответить на вопрос о количественной взаимосвязи рассматриваемых признаков и целесообразности включения фактора в модель. Поэтому отбор факторов осуществляется в две стадии:

на первой – подбирают факторы, исходя из сущности проблемы.

на второй – на основе матрицы показателей корреляции определяют t-статистики для параметров регрессии.

Коэффициенты интеркоррелиции (т.е. корреляция между объясняющими переменными) позволяют исключить из моделей дублирующие факторы. Считается, что две переменные явно коллинеарны, т.е. находятся между собой в линейной зависимости, если r xixj ≥0,7.

Поскольку одним из условий построения уравнения множественной регрессии является независимость действия факторов, т.е. r х ixj = 0, коллинеарность факторов нарушает это условие. Если факторы явно коллинеарны, то они дублируют друг друга и один из них рекомендуется исключить из регрессии. Предпочтение при этом отдается не фактору, более тесно связанному с результатом, а тому фактору, который при достаточно тесной связи с результатом имеет наименьшую тесноту связи с другими факторами. В этом требовании проявляется специфика множественной регрессии как метода исследования комплексного воздействия факторов в условиях их независимости друг от друга.

Рассмотрим матрицу парных коэффициентов корреляции при изучении зависимости у = f(x, z, v)

y x z V
Y
X 0,8
Z 0,7 0,8
V 0,6 0,5 0,2

Очевидно, факторы x и z дублируют друг друга. В анализ целесообразно включит фактор z, а не х, так как корреляция z с у слабее чем корреляция фактора х с у (r у z < r ух), но зато слабее межфакторная корреляция (r zv < r х v)

Поэтому в данном случае в уравнение множественной регрессии включает факторы z и v . По величине парных коэффициентов корреляции обнаруживается лишь явная коллинеарность факторов. Но наиболее трудности возникают при наличии мультиколлинеарности факторов, когда более чем два фактора связаны между собой линейной зависимостью, т.е. имеет место совокупное воздействие факторов друг на друга. Наличие мультиколлинеарности факторов может означать, что некоторые факторы будут всегда действовать в унисон. В результате вариация в исходных данных перестает быть полностью независимой, и нельзя оценить воздействие каждого фактора в отдельности. Чем сильнее мультиколлинеарности факторов, тем менее надежна оценка распределения суммы объясненной вариации по отдельным факторам с помощью МНК. Если рассмотренная регрессия у = a + bx + cx + dv + e, то для расчета параметров, применяется МНК:

S y = S факт +S e

или
=
+

общая сумма = факторная + остаточная

Квадратов отклонений

В свою очередь, при независимости факторов друг от друга, выполнимо равенство:

S = S x +S z + S v

Суммы квадратов отклонения, обусловленных влиянием соответствующих факторов.

Если же факторы интеркоррелированы, то данное равенство нарушается.

Включение в модель мультиколлинеарных факторов нежелательно в силу следующего:

· затрудняется интерпретация параметров множественной регрессии как характеристик действия факторов в «чистом» виде, ибо факторы коррелированы; параметры линейной регрессии теряют экономический смысл;

· оценки параметров ненадежны, обнаруживают большие стандартные ошибки и меняются с изменением объема наблюдений (не только по величине, но и по знаку), что делает модель непригодной для анализа и прогнозирования.

Для оценки мультиколлинеарных факторов будем использовать определитель матрицы парных коэффициентов корреляции между факторами. Если бы факторы не коррелировали между собой, то матрица парных коэффициентов была бы единичной.

y = a + b 1 x 1 + b 2 x 2 + b 3 x 3 + e

Если же между факторами существует полная линейная зависимость, то:

Чем ближе к 0 определитель, тем сильнее межколлинеарность факторов и ненадежны результаты множественной регрессии. Чем ближе к 1, тем меньше мультиколлинеарность факторов.

Оценка значимости мультиколлинеарности факторов может быть проведена методами испытания гипотезы 0 независимости переменных H 0:

Доказано, что величина
имеет приближенное распределение с степенями свободы. Если фактически значение превосходит табличное (критическое) то гипотеза H 0 отклоняется. Это означает, что , недиагональные коэффициенты указывают на коллинеарность факторов. Мультиколлинеарность считается доказанной.

Через коэффициенты множественной детерминации можно найти переменные, ответственные за мультиколлинеарность факторов. Для этого в качестве зависимой переменной рассматривается каждый из факторов. Чем ближе значение R 2 к 1, тем сильнее проявляется мультиколлинеарность. Сравнивая между собой коэффициенты множественной детерминации и т.п.

Можно выделить переменные, ответственные за мультиколлинеарность, следовательно, решить проблему отбора факторов, оставляя в уравнения факторы с минимальной величиной коэффициента множественной детерминации.

Существует ряд походов преодоления сильной межфакторной корреляции. Самый простой путь устранения МК состоит в исключении из модели одного или несколько факторов.

Другой подход связан с преобразованием факторов, при котором уменьшается корреляция между ними.

Если y = f(x 1 , x 2 , x 3), то возможно построение следующего совмещенного уравнения:

у = a + b 1 x 1 + b 2 x 2 + b 3 x 3 + b 12 x 1 x 2 + b 13 x 1 x 3 + b 23 x 2 x 3 + e.

Это уравнение включает взаимодействие первого порядка (взаимодействие двух факторов).

Возможно включение в уравнение взаимодействий и более высокого порядка, если будет доказано их статистически значимость по F-критерию

b 123 x 1 x 2 х 3 – взаимодействие второго порядка.

Если анализ совмещенного уравнения показал значимость только взаимодействия факторов х 1 и х 3 , то уравнение будет имеет вид:

у = a + b 1 x 1 + b 2 x 2 + b 3 x 3 + b 13 x 1 x 3 + e.

Взаимодействие факторов х 1 и х 3 означает, что на разных уровнях фактора х 3 влияние фактора х 1 на у будет неодинаково, т.е. оно зависит от значения фактора х 3 . На рис. 3.1 взаимодействие факторов представляет непараллельными линями связи с результатом у. И наоборот, параллельные линии влияние фактора х 1 на у при разных уровнях фактора х 3 означают отсутствие взаимодействия факторов х 1 и х 3 .

(х 3 =В 2)
(х 3 =В 1)
(х 3 =В 1)
(х 3 =В 2)
у
у
1
х 1
а
б
у
у
Х 1
Х 1

Рис 3.1. Графическая иллюстрация взаимодействия факторов.

а - х 1 влияет на у, причем это влияние одинаково при х 3 =В 1 , так и при х 3 =В 2 (одинаковый наклон линий регрессии), что означает отсутствие взаимодействия факторов х 1 и х 3 ;

б – с ростом х 1 результативный признак у возрастает при х 3 =В 1 , с ростом х 1 результативный признак у снижается при х 3 =В 2 . Между х 1 и х 3 существует взаимодействие.

Совмещенные уравнения регрессии строятся, например, при исследовании эффекта влияния на урожайность разных видов удобрений (комбинации азота и фосфора).

Решению проблемы устранения мультиколлинеарности факторов может помочь и переход к устранениям приведенной формы. С этой целью в уравнение регрессии производится подстановка рассматриваемого фактора через выражение его из другого уравнения.

Пусть, например, рассматривается двухфакторная регрессия вида a + b 1 x 1 + b 2 x 2 , для которой x 1 и x 2 обнаруживают высокую корреляцию. Если исключить один из факторов, то мы придем к уравнению парной регрессии. Вместе с тем можно оставить факторы в модели, но исследовать данное двухфакторное уравнение регрессии совместно с другим уравнением, в котором фактор (например х 2) рассматривается как зависимая переменная. Предположим, известно, что . Постановляя это уравнение в искомое вместо х 2 , получим:

Если , то разделив обе части равенства на , получаем уравнение вида:

,

которое представляет собой приведенную форму уравнения для определения результативного признака у. Это уравнение может быть представлено в виде:

К нему для оценки параметров может быть применен МНК.

Отбор факторов, включаемых в регрессию, является одним из важнейших этапов практического использования методов регрессии. Походы к отбору факторов на основе показателей корреляции могут быть разные. Они приводят построение уравнения множественной регрессии соответственно разным методикам. В зависимости от того, какая методика построение уравнения регрессии принята, меняется алгоритм ее решения на ЭВМ.

Наиболее широкое применение получили следующие методы построение уравнения множественной регрессии :

· метод исключения;

· метод включения;

· шаговый регрессионный анализ.

Каждый из этих методов по-своему решает проблему отбора факторов, давая в целом близкие результаты – отсев факторов из полного его отбора (метод исключение), дополнительное введение фактора (метод включения), исключение ранее введенного фактора (шаговый регрессионный анализ).

На первый взгляд может показаться, что матрица парных коэффициентов корреляции играет главную роль в отборе факторов. Вместе с тем вследствие взаимодействия факторов парные коэффициенты корреляции не могут в полной мере решать вопрос о целесообразности включения в модель того или иного фактора. Эту роль выполняют показатели частной корреляции, оценивающие в чистом виде тесноту связи фактора с результатом. Матрица частных коэффициентов корреляции наиболее широко используется процедура отсева фактора. При отборе факторов рекомендуется пользоваться следующим правилом: число включаемых факторов обычно в 6-7 раз меньше объема совокупности, по которой строит регрессии. Если это отношение нарушено, то число степеней свободы остаточной вариаций очень мало. Это приводит к тому, что параметры уравнения регрессии оказываются статистически незначимыми, а F-критерий меньше табличного значения.

Классическая линейная модель множественной регрессии (КЛММР):

где y – регрессанд; x i – регрессоры; u – случайная составляющая.

Модель множественной регрессии является обобщением модели парной регрессии на многомерный случай.

Независимые переменные (х) предполагаются не случайными (детерминированными) величинами.

Переменная х 1 = x i 1 = 1 называется вспомогательной переменной для свободного члена и еще в уравнениях она называется параметром сдвиги.

«y» и «u» в (2) являются реализациями случайной величины.

Называется также параметром сдвига.

Для статистической оценки параметров регрессионной модели необходим набор (множество) данных наблюдений независимых и зависимых переменных. Данные могут быть представлены в виде пространственных данных или временных рядов наблюдений. Для каждого из таких наблюдений согласно линейной модели можно записать:

Векторно-матричная запись системы (3).

Введем следующие обозначения:

вектор-столбец независимой переменной (регрессанда)

размерность матрицы (n·1)

Матрица наблюдений независимых переменных (регрессоров):

размер (n×k)

Вектор-столбец параметров:

- матричная запись системы уравнений (3). Она проще и компактнее.

Сформируем предпосылки, которые необходимы при выводе уравнении для оценок параметров модели, изучения их свойств и тестирования качества модели. Эти предпосылки обобщают и дополняют предпосылки классической модели парной линейной регрессии (условия Гаусса – Маркова).

Предпосылка 1. независимые переменныене случайны и измеряются без ошибок. Это означает, что матрица наблюдений Х – детерминированная.

Предпосылка 2. (первое условие Гаусса – Маркова): Математическое ожидание случайной составляющей в каждом наблюдении равно нулю.

Предпосылка 3. (второе условие Гаусса – Маркова): теоретическая дисперсия случайной составляющей одинакова для всех наблюдений.

(Это гомоскедастичность)

Предпосылка 4. (третье условие Гаусса – Маркова): случайные составляющие модели не коррелированны для различных наблюдений. Это означает, что теоретическая ковариация

Предпосылки (3) и (4) удобно записать, используя векторные обозначения:

матрица - симметричная матрица. - единичная матрица размерности n, верхний индекс Т – транспонирование.

Матрица называется теоретической матрицей ковариаций (или ковариационной матрицей).

Предпосылка 5. (четвертое условие Гаусса – Маркова): случайная составляющая и объясняющие переменные не коррелированны (для модели нормальной регрессии это условие означает и независимость). В предположении, что объясняющие переменные не случайные, эта предпосылка в классической регрессионной модели всегда выполняется.

Предпосылка 6 . коэффициенты регрессии – постоянные величины.

Предпосылка 7 . уравнение регрессии идентифицируемо. Это означает, что параметры уравнения в принципе оцениваемы, или решение задачи оценивания параметров существует и единственно.

Предпосылка 8 . регрессоры не коллинеарны. В таком случае матрица наблюдений регрессоров должна быть полного ранга. (ее столбцы должны быть линейно независимы). Данная предпосылка тесно связана с предыдущей, так как при применении для оценивания коэффициентов МНК ее выполнение гарантирует идентифицируемость модели (если количество наблюдений больше количества оцениваемых параметров).

Предпосылка 9. Количество наблюдений больше количества оцениваемых параметров, т.е. n>k.

Все эти 1-9 предпосылки одинаково важны, и только при их выполнении можно применять классическую регрессионную модель на практике.

Предпосылка о нормальности случайной составляющей . При построении доверительных интервалов для коэффициентов модели и прогнозов зависимой переменной, проверки статистических гипотез относительно коэффициентов, разработке процедур для анализа адекватности (качества) модели в целом необходимо предположение о нормальном распределении случайной составляющей. С учетом этой предпосылки модель (1) называется классической многомерной линейной моделью регрессии.

Если предпосылки не выполняются, то необходимо строить так называемые обобщенные модели линейной регрессии. От того, насколько корректно (правильно) и осознанно используются возможности регрессионного анализа, зависит успех эконометрического моделирования, и, в конечном счете, обоснованность принимаемых решений.

Для построения уравнения множественной регрессии чаще используются следующие функции

1. линейная: .

2. степенная: .

3. экспоненциальная: .

4. гипербола:

В виду четкой интерпретации параметров наиболее широко используются линейная и степенная функции. В линейной множественной регрессии параметры при Х называются коэффициентами «чистой» регрессии. Они характеризуют среднее изменение результата с изменением соответствующего фактора на единицу при неизменном значении других факторов, закрепленных на среднем уровне.

Пример . Предположим, что зависимость расходов на продукты питания по совокупности семей характеризуется следующим уравнением:

где у – расходы семьи за месяц на продукты питания, тыс.руб.;

х 1 – месячный доход на одного члена семьи, тыс.руб.;

х 2 – размер семьи, человек.

Анализ данного уравнения позволяет сделать выводы – с ростом дохода на одного члена семьи на 1 тыс. руб. расходы на питание возрастут в среднем на 350 руб. при томже размере семьи. Иными словами, 35% дополнительных семейных расходов тратится на питание. Увеличение размера семьи при тех же ее доходах предполагает дополнительный рост расходов на питание на 730 руб. Параметр а - не имеет экономической интерпретации.

При изучении вопросов потребления коэффициенты регрессии рассматривают как характеристики предельной склонности к потреблению. Например, если функции потребления С t имеет вид:

С t = a+b 0 R t + b 1 R t -1 +e,

то потребление в период времени t зависит от дохода того же периода R t и от дохода предшествующего периода R t -1 . Соответственно коэффициент b 0 обычно называют краткосрочной предельной склонностью к потреблению. Общим эффектом возрастания как текущего, так и предыдущего дохода будет рост потребления на b= b 0 + b 1 . Коэффициент b рассматривается здесь как долгосрочная склонность к потреблению. Так как коэффициенты b 0 и b 1 >0, то долгосрочная склонность к потреблению должна превосходить краткосрочную b 0 . Например, за период 1905 – 1951 гг. (за исключением военных лет) М.Фридман построил для США следующую функцию потребления: С t = 53+0,58 R t +0,32 R t -1 с краткосрочной предельной склонностью к потреблению 0,58 и с долгосрочной склонностью к потреблению 0,9.

Функция потребления может рассматриваться также в зависимости от прошлых привычек потребления, т.е. от предыдущего уровня потребления

С t-1: С t = a+b 0 R t +b 1 С t-1 +e,

В этом уравнении параметр b 0 также характеризует краткосрочную предельную склонность к потреблению, т.е. влияние на потребление единичного роста доходов того же периода R t . Долгосрочную предельную склонность к потреблению здесь измеряет выражение b 0 /(1- b 1).

Так, если уравнение регрессии составило:

С t = 23,4+0,46 R t +0,20 С t -1 +e,

то краткосрочная склонность к потреблению равна 0,46, а долгосрочная – 0,575 (0,46/0,8).

В степенной функции
коэффициенты b j являются коэффициентами эластичности. Они показывают, на сколько процентов изменяется в среднем результат с изменением соответствующего фактора на 1% при неизменности действия других факторов. Этот вид уравнения регрессии получил наибольшее распространение в производственных функциях, в исследованиях спроса и потребления.

Предположим, что при исследовании спроса на мясо получено уравнение:

где у – количество спрашиваемого мяса; х 1 – его цена; х 2 – доход.

Следовательно, рост цен на 1% при том же доходе вызывает снижение спроса на мясо в среднем на 2.63%. Увеличение дохода на 1% обуславливает при неизменных ценах рост спроса на 1.11%.

В производственных функциях вида:

где P – количество продукта, изготавливаемого с помощью m производственных факторов (F 1 , F 2 , ……F m).

b – параметр, являющийся эластичностью количества продукции по отношению к количеству соответствующих производственных факторов.

Экономический смысл имеют не только коэффициенты b каждого фактора, но и их сумма, т.е. сумма эластичностей: В = b 1 +b 2 +……+b m . Эта величина фиксирует обобщенную характеристику эластичности производства. Производственная функция имеет вид

где Р – выпуск продукции; F 1 – стоимость основных производственных фондов; F 2­ ­ - отработано человеко-дней; F 3 – затраты на производство.

Эластичность выпуска по отдельным факторам производства составляет в среднем 0,3% с ростом F 1 на 1% при неизменном уровне других факторов; 0,2% - с ростом F 2­ ­ на 1% также при неизменности других факторов производства и 0,5% с ростом F 3 на 1% при неизменном уровне факторов F 1 и F 2 . Для данного уравнения В = b 1 +b 2 +b 3 = 1. Следовательно, в целом с ростом каждого фактора производства на 1% коэффициент эластичности выпуска продукции составляет 1%, т.е. выпуск продукции увеличивается на 1%, что в микроэкономике соответствует постоянной отдаче на масштаб.

При практических расчетах не всегда . Она может быть как больше, так и меньше 1. В этом случае величина В фиксирует приближенную оценку эластичности выпуска с ростом каждого фактора производства на 1% в условиях увеличивающейся (В>1) или уменьшающейся (В<1) отдачи на масштаб.

Так, если
, то с ростом значений каждого фактора производства на 1% выпуск продукции в целом возрастает приблизительно на 1.2%.

При оценке параметров модели по МНК мерой (критерием) количества подгонки эмпирической регрессионной модели к наблюдаемой выборке служит сумма квадратов ошибок (остатков).

Где е = (e1,e2,…..e n) T ;

Для уравнения применили равенство: .

Скалярная функция;

Система нормальных уравнений (1) содержит k линейных уравнений относительно k неизвестных i = 1,2,3……k

= (2)

Перемножив (2) получим развернутую форму записи систем нормальных уравнений

Оценка коэффициентов

Стандартизированные коэффициенты регрессии, их интерпретация. Парные и частные коэффициенты корреляции. Множественный коэффициент корреляции. Множественный коэффициент корреляции и множественный коэффициент детерминации. Оценка надежности показателей корреляции.

Параметры уравнения множественной регрессии оцениваются, как и в парной регрессии, методом наименьших квадратов (МНК). При его применении строится система нормальных уравнений, решение которой и позволяет получить оценки параметров регрессии.

Так, для уравнения система нормальных уравнений составит:

Ее решение может быть осуществлено методом определителей:

, ,…, ,

где D – главный определитель системы;

Dа, Db 1 , …, Db p – частные определители.

а Dа, Db 1 , …, Db p получаются путем замены соответствующего столбца матрицы определителя системы данными левой части системы.

Возможен и иной подход в определении параметров множественной регрессии, когда на основе матрицы парных коэффициентов корреляции строится уравнение регрессии в стандартизованном масштабе:

где - стандартизованные переменные , для которых среднее значение равно нулю , а среднее квадратическое отклонение равно единице: ;

Стандартизованные коэффициенты регрессии.

Применяя МНК к уравнению множественной регрессии в стандартизованном масштабе, после соответствующих преобразований получим систему нормальных вида

Решая ее методом определителей, найдем параметры – стандартизованные коэффициенты регрессии (b-коэффициенты).

Стандартизованные коэффициенты регрессии показывают, на сколько сигм изменится в среднем результат, если соответствующий фактор х i изменится на одну сигму при неизменном среднем уровне других факторов. В силу того, что все переменные заданы как центрированные и нормированные, стандартизованные коэффициенты регрессии b I сравнимы между собой. Сравнивая их друг с другом, можно ранжировать факторы по силе их воздействия. В этом основное достоинство стандартизованных коэффициентов регрессии в отличие от коэффициентов «чистой» регрессии, которые несравнимы между собой.

Пример. Пусть функция издержек производства у (тыс. руб.) характеризуется уравнением вида

где х 1 – основные производственные фонды;

х 2 – численность занятых в производстве.

Анализируя его, мы видим, что при той же занятости дополнительный рост стоимости основных производственных фондов на 1 тыс. руб. влечет за собой увеличение затрат в среднем на 1,2 тыс. руб., а увеличение численности занятых на одного человека способствует при той же технической оснащенности предприятий росту затрат в среднем на 1,1 тыс. руб. Однако это не означает, что фактор х 1 оказывает более сильное влияние на издержки производства по сравнению с фактором х 2 . Такое сравнение возможно, если обратиться к уравнению регрессии в стандартизованном масштабе. Предположим, оно выглядит так:

Это означает, что с ростом фактора х 1 на одну сигму при неизменной численности занятых затрат на продукцию увеличиваются в среднем на 0,5 сигмы. Так как b 1 < b 2 (0,5 < 0,8), то можно заключить, что большее влияние оказывает на производство продукции фактор х 2 , а не х 1 , как кажется из уравнения регрессии в натуральном масштабе.

В парной зависимости стандартизованный коэффициент регрессии есть не что иное, как линейный коэффициент корреляции r xy . Подобно тому, как в парной зависимости коэффициент регрессии и корреляции связаны между собой, так и в множественной регрессии коэффициенты «чистой» регрессии b i связаны со стандартизованными коэффициентами регрессии b i , а именно:

(3.1)

Это позволяет от уравнения регрессии в стандартизованном масштабе

(3.2)

переход к уравнению регрессии в натуральном масштабе переменных.

Множественный регрессионный анализ является расширением парного регрессионного анализа. О применяется в тех случаям, когда поведение объясняемой, зависимой переменной необходимо связать с влиянием более чем одной факторной, независимой переменной. Хотя определенная часть многофакторного анализа представляет собой непосредственное обобщение понятий парной регрессионной модели, при выполнении его может возникнуть ряд принципиально новых задач.

Так, при оценке влияния каждой независимой переменной необходимо уметь разграничивать ее воздействие на объясняемую переменную от воздействия других независимых переменных. При этом множественный корреляционный анализ сводится к анализу парных, частных корреляций. На практике обычно ограничиваются определением их обобщенных числовых характеристик, таких как частные коэффициенты эластичности, частные коэффициенты корреляции, стандартизованные коэффициенты множественной регрессии.

Затем решаются задачи спецификации регрессионной модели, одна из которых состоит в определении объема и состава совокупности независимых переменных, которые могут оказывать влияние на объясняемую переменную. Хотя это часто делается из априорных соображений или на основании соответствующей экономической (качественной) теории, некоторые переменные могут в силу индивидуальных особенностей изучаемых объектов не подходить для модели. В качестве наиболее характерных из них можно назвать мультиколлинеарность или автокоррелированность факторных переменных.

3.1. Анализ множественной линейной регрессии с помощью

метода наименьших квадратов (МНК)

В данном разделе полагается, что рассматривается модель регрессии, которая специфицирована правильно. Обратное, если исходные предположения оказались неверными, можно установить только на основании качества полученной модели. Следовательно, этот этап является исходным для проведения множественного регрессионного анализа даже в самом сложном случае, поскольку только он, а точнее его результаты могут дать основания для дальнейшего уточнения модельных представлений. В таком случае выполняются необходимые изменения и дополнения в спецификации модели, и анализ повторяется после уточнения модели до тех пор, пока не будут получены удовлетворительные результаты.

На любой экономический показатель в реальных условиях обычно оказывает влияние не один, а несколько и не всегда независимых факторов. Например, спрос на некоторый вид товара определяется не только ценой данного товара, но и ценами на замещающие и дополняющие товары, доходом потребителей и многими другими факторами. В этом случае вместо парной регрессии M (Y / Х = х ) = f (x ) рассматривается множественная регрессия

M (Y / Х1 = х1, Х2 = х2, …, Хр = Хр ) = f (x 1 , х 2 , …, х р ) (2.1)

Задача оценки статистической взаимосвязи переменных Y и Х 1 , Х 2 , ..., Х Р формулируется аналогично случаю парной регрессии. Уравнение множественной регрессии может быть представлено в виде

Y = f (B , X ) + 2

где X - вектор независимых (объясняющих) переменных; В - вектор параметров уравнения (подлежащих определению); - случайная ошибка (отклонение); Y - зависимая (объясняемая) переменная.

Предполагается, что для данной генеральной совокупности именно функция f связывает исследуемую переменную Y с вектором независимых переменных X .

Рассмотрим самую употребляемую и наиболее простую для статистического анализа и экономической интерпретации модель множественной линейной регрессии. Для этого имеются, по крайней мере, две существенные причины.

Во-первых, уравнение регрессии является линейным, если система случайных величин (X 1 , X 2 , ..., Х Р , Y ) имеет совместный нормальный закон распределения. Предположение о нормальном распределении может быть в ряде случаев обосновано с помощью предельных теорем теории вероятностей. Часто такое предположение принимается в качестве гипотезы, когда при последующем анализе и интерпретации его результатов не возникает явных противоречий.

Вторая причина, по которой линейная регрессионная модель предпочтительней других, состоит в том, что при использовании ее для прогноза риск значительной ошибки оказывается минимальным.

Теоретическое линейное уравнение регрессии имеет вид:

или для индивидуальных наблюдений с номером i :

где i = 1, 2, ..., п.

Здесь В = (b 0 , b 1 ,b Р) - вектор размерности (р+1) неизвестных параметров b j , j = 0, 1, 2, ..., р , называется j -ым теоретическим коэффициентом регрессии (частичным коэффициентом регрессии). Он характеризует чувствительность величины Y к изменению X j . Другими словами, он отражает влияние на условное математическое ожидание M (Y / Х1 = х1, Х2 = х2, …, Хр = x р ) зависимой переменной Y объясняющей переменной Х j при условии, что все другие объясняющие переменные модели остаются постоянными. b 0 - свободный член, определяющий значение Y в случае, когда все объясняющие переменные X j равны нулю.

После выбора линейной функции в качестве модели зависимости необходимо оценить параметры регрессии.

Пусть имеется n наблюдений вектора объясняющих переменных X = (1 , X 1 , X 2 , ..., Х Р ) и зависимой переменной Y :

(1 , х i1 , x i2 , …, x ip , y i ), i = 1, 2, …, n.

Для того чтобы однозначно можно было бы решить задачу отыскания параметров b 0 , b 1 , … , b Р (т.е. найти некоторый наилучший вектор В ), должно выполняться неравенство n > p + 1 . Если это неравенство не будет выполняться, то существует бесконечно много различных векторов параметров, при которых линейная формула связи между X и Y будет абсолютно точно соответствовать имеющимся наблюдениям. При этом, если n = p + 1 , то оценки коэффициентов вектора В рассчитываются единственным образом - путем решения системы p + 1 линейного уравнения:

где i = 1, 2, ..., п.

Например, для однозначного определения оценок параметров уравнения регрессии Y = b о + b 1 X 1 + b 2 X 2 достаточно иметь выборку из трех наблюдений (1 , х i 1 , х i 2 , y i), i = 1, 2, 3. В этом случае найденные значения параметров b 0 , b 1 , b 2 определяют такую плоскость Y = b о + b 1 X 1 + b 2 X 2 в трехмерном пространстве, которая пройдет именно через имеющиеся три точки.

С другой стороны, добавление в выборку к имеющимся трем наблюдениям еще одного приведет к тому, что четвертая точка (х 41 , х 42 , х 43 , y 4) практически всегда будет лежать вне построенной плоскости (и, возможно, достаточно далеко). Это потребует определенной переоценки параметров.

Таким образом, вполне логичен следующий вывод: если число наблюдений больше минимально необходимой величины, т.е. n > p + 1 , то уже нельзя подобрать линейную форму, в точности удовлетворяющую всем наблюдениям. Поэтому возникает необходимость оптимизации, т.е. оценивания параметров b 0 , b 1 , …, b Р , при которых формула регрессии дает наилучшее приближение одновременно для всех имеющихся наблюдений.

В данном случае число  = n - p - 1 называется числом степеней свободы. Нетрудно заметить, что если число степеней свободы невелико, то статистическая надежность оцениваемой формулы невысока. Например, вероятность надежного вывода (получения наиболее реалистичных оценок) по трем наблюдениям существенно ниже, чем по тридцати. Считается, что при оценивании множественной линейной регрессии для обеспечения статистической надежности требуется, чтобы число наблюдений превосходило число оцениваемых параметров, по крайней мере, в 3 раза.

Прежде чем перейти к описанию алгоритма нахождения оценок коэффициентов регрессии, отметим желательность выполнимости ряда предпосылок МНК, которые позволят обосновать характерные особенности регрессионного анализа в рамках классической линейной многофакторной модели.

100 р бонус за первый заказ

Выберите тип работы Дипломная работа Курсовая работа Реферат Магистерская диссертация Отчёт по практике Статья Доклад Рецензия Контрольная работа Монография Решение задач Бизнес-план Ответы на вопросы Творческая работа Эссе Чертёж Сочинения Перевод Презентации Набор текста Другое Повышение уникальности текста Кандидатская диссертация Лабораторная работа Помощь on-line

Узнать цену

Парная регрессия может дать хороший результат при моделировании, если влиянием других факторов, воздействующих на объект исследования, можно пренебречь. Поведение отдельных экономических переменных контролировать нельзя, т. е. не удается обеспечить равенство всех прочих условий для оценки влияния одного исследуемого фактора. В этом случае следует попытаться выявить влияние других факторов, введя их в модель, т. е. построить уравнение множественной регрессии:

Такого рода уравнение может использоваться при изучении потребления. Тогда коэффициенты - частныепроизводные потребления по соответствующим факторам :

в предположении, что все остальные постоянны.

В 30-е гг. XX в. Кейнс сформулировал свою гипотезу потребительской функции. С того времени исследователи неоднократно обращались к проблеме ее совершенствования. Современная потребительская функция чаще всего рассматривается как модель вида:

где С - потребление; у - доход; Р - цена, индекс стоимости жизни; М - наличные деньги; Z - ликвидные активы.

При этом

Множественная регрессия широко используется в решении проблем спроса, доходности акций; при изучении функции издержек производства, в макроэкономических расчетах и целого ряда других вопросов эконометрики. В настоящее время множественная регрессия – один из наиболее распространенных методов эконометрики. Основная цель множественной регрессии - построить модель с большим числом факторов, определив при этом влияние каждого из них в отдельности, а также совокупное их воздействие на моделируемый показатель.

Построение уравнения множественной регрессия начинается с решения вопроса о спецификации модели. Спецификация модели включает в себя два круга вопросов: отбор факторов и выбор вида уравнения регрессии.

Требования к факторам.

1 Они должны быть количественно измеримы.

2.Факторы не должны быть интеркоррелированы и тем более находиться в точной функциональной связи.

Разновидностью интеркоррелированности факторов является мультиколлинеарность - наличие высокой линейной связи между всеми или несколькими факторами.

Причинами возникновения мультиколлинеарности между призанками являются:

1. Изучаемые факторные признаки, характеризуют одну и ту же сторону явления или процесса. Например, показатели объема производимой продукции и среднегодовой стоимости основных фондов одновременно включать в модель не рекомендуется, так как они оба характеризуют размер предприятия;

2. Использование в качестве факторных признаков показателей, суммарное значение которых представляет собой постоянную величину;

3. Факторные признаки, являющиеся составными элементами друг друга;

4. Факторные признаки, по экономическому смыслу дублирующие друг друга.

5. Одним из индикаторов определения наличия мультиколлинеарности между признаками является превышение парным коэффициентом корреляции величины 0,8 (rxi xj) и др.

Мультиколлинеарность может привести к нежелательным последствиям:

1) оценки параметров становятся ненадежными, обнаруживают большие стандартные ошибки и меняются с изменением объема наблюдений (не только в величине, но и по знаку), что делает модель непригодной для анализа и прогнозирования.

2) затрудняется интерпретация параметров множественной регрессии как характеристик действия факторов в «чистом» виде, ибо факторы коррелированны; параметры линейной регрессии теряют экономический смысл;

3) нельзя определить изолированное влияние факторов на результативный показатель.

Включение в модель факторов с высокой интеркорреляцией (Ryx1Rx1x2) может привести к ненадежности оценок коэф-ов регрессии. Если между факторами существует высокая корреляция, то нельзя определить их изолированное влияние на результативный показатель и параметры уравнения регрессии оказываются неинтерпретированными. Включаемые во множ.регрессию факторы должны объяснить вариацию независимой переменной. Отбор факторов производится на основе качественного теоретико-экономического анализа, который обычно осуществляется в две стадии: на первой подбираются факторы исходя из сущности проблемы; на второй – на основе матрицы показателей корреляции определяют t-статистики для параметров регрессии.

Если факторы коллинеарны, то они дублируют друг друга и один из них рекомендуется исключить из регрессии. Предпочтение при этом отдается тому фактору, который при достаточно тесной связи с результатом имеет наименьшую тесноту связи с другими факторами. В этом требовании проявляется специфика множественной регрессии как метода исследования комплексного воздействия факторов в условиях их независимости друг от друга.

Ответы на экзаменационные билеты по эконометрике Яковлева Ангелина Витальевна

26. Линейная модель множественной регрессии

Построение модели множественной регрессии является одним из методов характеристики аналитической формы связи между зависимой (результативной) переменной и несколькими независимыми (факторными) переменными.

Модель множественной регрессии строится в том случае, если коэффициент множественной корреляции показал наличие связи между исследуемыми переменными.

Общий вид линейной модели множественной регрессии:

yi=?0+?1x1i+…+?mxmi+?i,

где yi – значение i-ой результативной переменной,

x1i…xmi – значения факторных переменных;

?0…?m – неизвестные коэффициенты модели множественной регрессии;

?i – случайные ошибки модели множественной регрессии.

При построении нормальной линейной модели множественной регрессии учитываются пять условий:

1) факторные переменные x1i…xmi – неслучайные или детерминированные величины, которые не зависят от распределения случайной ошибки модели регрессии ?i;

3) дисперсия случайной ошибки модели регрессии постоянна для всех наблюдений:

4) между значениями случайных ошибок модели регрессии в любых двух наблюдениях отсутствует систематическая взаимосвязь, т.е. случайные ошибки модели регрессии не коррелированны между собой (ковариация случайных ошибок любых двух разных наблюдений равна нулю):

Это условие выполняется в том случае, если исходные данные не являются временными рядами;

5) на основании третьего и четвёртого условий часто добавляется пятое условие, заключающееся в том, что случайная ошибка модели регрессии – это случайная величина, подчиняющейся нормальному закону распределения с нулевым математическим ожиданием и дисперсией G2: ?i~N(0, G2).

Общий вид нормальной линейной модели парной регрессии в матричной форме:

Y=X* ?+?,

– случайный вектор-столбец значений результативной переменной размерности (n*1);

– матрица значений факторной переменной размерности (n*(m+1)). Первый столбец является единичным, потому что в модели регрессии коэффициент ?0 умножается на единицу;

– вектор-столбец неизвестных коэффициентов модели регрессии размерности ((m+1)*1);

– случайный вектор-столбец ошибок модели регрессии размерности (n*1).

Включение в линейную модель множественной регрессии случайного вектора-столбца ошибок модели обусловлено тем, что практически невозможно оценить связь между переменными со 100-процентной точностью.

Условия построения нормальной линейной модели множественной регрессии, записанные в матричной форме:

1) факторные переменные x1j…xmj – неслучайные или детерминированные величины, которые не зависят от распределения случайной ошибки модели регрессии ?i . В терминах матричной записи Х называется детерминированной матрицей ранга (k+1), т.е. столбцы матрицы X линейно независимы между собой и ранг матрицы Х равен m+1

2) математическое ожидание случайной ошибки модели регрессии равно нулю во всех наблюдениях:

3) предположения о том, что дисперсия случайной ошибки модели регрессии является постоянной для всех наблюдений и ковариация случайных ошибок любых двух разных наблюдений равна нулю, записываются с помощью ковариационной матрицы случайных ошибок нормальной линейной модели множественной регрессии:

G2 – дисперсия случайной ошибки модели регрессии?;

In – единичная матрица размерности (n*n ).

4) случайная ошибка модели регрессии? является независимой и независящей от матрицы Х случайной величиной, подчиняющейся многомерному нормальному закону распределения с нулевым математическим ожиданием и дисперсией G2: ??N(0;G2In.

В нормальную линейную модель множественной регрессии должны входить факторные переменные, удовлетворяющие следующим условиям:

1) данные переменные должны быть количественно измеримыми;

2) каждая факторная переменная должна достаточно тесно коррелировать с результативной переменной;

3) факторные переменные не должны сильно коррелировать друг с другом или находиться в строгой функциональной зависимости.

Из книги Большая Советская Энциклопедия (ЛИ) автора БСЭ

Из книги Пикап. Самоучитель по соблазнению автора Богачев Филипп Олегович

Из книги Ответы на экзаменационные билеты по эконометрике автора Яковлева Ангелина Витальевна

Из книги автора

Из книги автора

Из книги автора

9. Общая модель парной (однофакторной) регрессии Общая модель парной регрессии характеризует связь между двумя переменными, которая проявляется как некоторая закономерность лишь в среднем в целом по совокупности наблюдений.Регрессионным анализом называется

Из книги автора

10. Нормальная линейная модель парной (однофакторной) регрессии Общий вид нормальной (традиционной или классической) линейной модели парной (однофакторной) регрессии (Classical Normal Regression Model):yi=?0+?1xi+?i,где yi– результативные переменные, xi – факторные переменные, ?0, ?1 – параметры

Из книги автора

14. Оценка коэффициентов модели парной регрессии с помощью выборочного коэффициента регрессии Помимо метода наименьших квадратов, с помощью которого в большинстве случаев определяются неизвестные параметры модели регрессии, в случае линейной модели парной регрессии

Из книги автора

27. Классический метод наименьших квадратов для модели множественной регрессии. Метод Крамера В общем виде линейную модель множественной регрессии можно записать следующим образом:yi=?0+?1x1i+…+?mxmi+?i, где yi – значение i-ой результативной переменной,x1i…xmi – значения факторных

Из книги автора

28. Линейная модель множественной регрессии стандартизированного масштаба Помимо классического метода наименьших квадратов для определения неизвестных параметров линейной модели множественной регрессии?0…?m используется метод оценки данных параметров через

Из книги автора

31. Частные коэффициенты корреляции для модели множественной регрессии с тремя и более факторными переменными Частные коэффициенты корреляции для модели множественной регрессии с тремя и более факторными переменными позволяют определить степень зависимости между

Из книги автора

32. Построение частных коэффициентов корреляции для модели множественной регрессии через показатель остаточной дисперсии и коэффициент множественной детерминации Помимо рекуррентных формул, которые используются для построения частных коэффициентов корреляции для

Из книги автора

33. Коэффициент множественной корреляции. Коэффициент множественной детерминации Если частные коэффициенты корреляции модели множественной регрессии оказались значимыми, т. е. между результативной переменной и факторными модельными переменными действительно

Из книги автора

35. Проверка гипотезы о значимости коэффициентов регрессии и модели множественной регрессии в целом Проверка значимости коэффициентов регрессии означает проверку основной гипотезы об их значимом отличии от нуля.Основная гипотеза состоит в предположении о незначимости

Из книги автора

46. Проверка гипотезы о значимости нелинейной модели регрессии. Проверка гипотезы о линейной зависимости между переменными модели регрессии На нелинейные модели регрессии, которые являются внутренне линейными, т. е. сводимыми к линейному виду, распространяются все

Из книги автора

65. Обобщённая модель регрессии. Обобщённый метод наименьших квадратов. Теорема Айткена МНК-оценки неизвестных коэффициентов модели регрессии, чьи случайные ошибки подвержены явлениям гетероскедастичности или автокорреляции, не будут удовлетворять теореме