В трех предыдущих заметках описаны регрессионные модели, позволяющие прогнозировать отклик по значениям объясняющих переменных. В настоящей заметке мы покажем, как с помощью этих моделей и других статистических методов анализировать данные, собранные на протяжении последовательных временных интервалов. В соответствии с особенностями каждой компании, упомянутой в сценарии, мы рассмотрим три альтернативных подхода к анализу временных рядов.

Материал будет проиллюстрирован сквозным примером: прогнозирование доходов трех компаний . Представьте себе, что вы работаете аналитиком в крупной финансовой компании. Чтобы оценить инвестиционные перспективы своих клиентов, вам необходимо предсказать доходы трех компаний. Для этого вы собрали данные о трех интересующих вас компаниях - Eastman Kodak, Cabot Corporation и Wal-Mart. Поскольку компании различаются по виду деловой активности, каждый временной ряд обладает своими уникальными особенностями. Следовательно, для прогнозирования необходимо применять разные модели. Как выбрать наилучшую модель прогнозирования для каждой компании? Как оценить инвестиционные перспективы на основе результатов прогнозирования?

Обсуждение начинается с анализа ежегодных данных. Демонстрируются два метода сглаживания таких данных: скользящее среднее и экспоненциальное сглаживание. Затем демонстрируется процедура вычисления тренда с помощью метода наименьших квадратов и более сложные методы прогнозирования. В заключение, эти модели распространяются на временные ряды, построенные на основе ежемесячных или ежеквартальных данных.

Скачать заметку в формате или , примеры в формате

Прогнозирование в бизнесе

Поскольку экономические условия с течением времени изменяются, менеджеры должны прогнозировать влияние, которое эти изменения окажут на их компанию. Одним из методов, позволяющих обеспечить точное планирование, является прогнозирование. Несмотря на большое количество разработанных методов, все они преследуют одну и ту же цель - предсказать события, которые произойдут в будущем, чтобы учесть их при разработке планов и стратегии развития компании.

Современное общество постоянно испытывает необходимость в прогнозировании. Например, чтобы выработать правильную политику, члены правительства должны прогнозировать уровни безработицы, инфляции, промышленного производства, подоходного налога отдельных лиц и корпораций. Чтобы определить потребности в оборудовании и персонале, директора авиакомпаний должны правильно предсказать объем авиаперевозок. Для того чтобы создать достаточное количество мест в общежитии, администраторы колледжей или университетов хотят знать, сколько студентов поступят в их учебное заведение в следующем году.

Существуют два общепринятых подхода к прогнозированию: качественный и количественный. Методы качественного прогнозирования особенно важны, если исследователю недоступны количественные данные. Как правило, эти методы носят весьма субъективный характер. Если статистику доступны данные об истории объекта исследования, следует применять методы количественного прогнозирования. Эти методы позволяют предсказать состояние объекта в будущем на основе данных о его прошлом. Методы количественного прогнозирования разделяются на две категории: анализ временных рядов и методы анализа причинно-следственных зависимостей.

Временной ряд - это набор числовых данных, полученных в течение последовательных периодов времени. Метод анализа временных рядов позволяет предсказать значение числовой переменной на основе ее прошлых и настоящих значений. Например, ежедневные котировки акций на Нью-Йоркской фондовой бирже образуют временной ряд. Другим примером временного ряда являются ежемесячные значения индекса потребительских цен, ежеквартальные величины валового внутреннего продукта и ежегодные доходы от продаж какой-нибудь компании.

Методы анализа причинно-следственных зависимостей позволяют определить, какие факторы влияют на значения прогнозируемой переменной. К ним относятся методы множественного регрессионного анализа с запаздывающими переменными, эконометрическое моделирование, анализ лидирующих индикаторов, методы анализа диффузионных индексов и других экономических показателей. Мы расскажем лишь о методах прогнозирования на основе анализа временны х рядов.

Компоненты классической мультипликативной модели временны х рядов

Основное предположение, лежащее в основе анализа временных рядов, состоит в следующем: факторы, влияющие на исследуемый объект в настоящем и прошлом, будут влиять на него и в будущем. Таким образом, основные цели анализа временных рядов заключаются в идентификации и выделении факторов, имеющих значение для прогнозирования. Чтобы достичь этой цели, были разработаны многие математические модели, предназначенные для исследования колебаний компонентов, входящих в модель временного ряда. Вероятно, наиболее распространенной является классическая мультипликативная модель для ежегодных, ежеквартальных и ежемесячных данных. Для демонстрации классической мультипликативной модели временных рядов рассмотрим данные о фактических доходах компании Wm.Wrigley Jr. Company за период с 1982 по 2001 годы (рис. 1).

Рис. 1. График фактического валового дохода компании Wm.Wrigley Jr. Company (млн. долл. в текущих ценах) за период с 1982 по 2001 годы

Как видим, на протяжении 20 лет фактический валовой доход компании имел возрастающую тенденцию. Эта долговременная тенденция называется трендом. Тренд - не единственный компонент временного ряда. Кроме него, данные имеют циклический и нерегулярный компоненты. Циклический компонент описывает колебание данных вверх и вниз, часто коррелируя с циклами деловой активности. Его длина изменяется в интервале от 2 до 10 лет. Интенсивность, или амплитуда, циклического компонента также не постоянна. В некоторые годы данные могут быть выше значения, предсказанного трендом (т.е. находиться в окрестности пика цикла), а в другие годы - ниже (т.е. быть на дне цикла). Любые наблюдаемые данные, не лежащие на кривой тренда и не подчиняющиеся циклической зависимости, называются иррегулярными или случайными компонентами . Если данные записываются ежедневно или ежеквартально, возникает дополнительный компонент, называемый сезонным . Все компоненты временных рядов, характерных для экономических приложений, приведены на рис. 2.

Рис. 2. Факторы, влияющие на временные ряды

Классическая мультипликативная модель временного ряда утверждает, что любое наблюдаемое значение является произведением перечисленных компонентов. Если данные являются ежегодными, наблюдение Y i , соответствующее i -му году, выражается уравнением:

(1) Y i = T i * C i * I i

где T i - значение тренда, C i i -ом году, I i i -ом году.

Если данные измеряются ежемесячно или ежеквартально, наблюдение Y i , соответствующее i-му периоду, выражается уравнением:

(2) Y i = T i *S i *C i *I i

где T i - значение тренда, S i - значение сезонного компонента в i -ом периоде, C i - значение циклического компонента в i -ом периоде, I i - значение случайного компонента в i -ом периоде.

На первом этапе анализа временных рядов строится график данных и выявляется их зависимость от времени. Сначала необходимо выяснить, существует ли долговременное возрастание или убывание данных (т.е. тренд), или временной ряд колеблется вокруг горизонтальной линии. Если тренд отсутствует, то для сглаживания данных можно применить метод скользящих средних или экспоненциального сглаживания.

Сглаживание годовых временных рядов

В сценарии мы упомянули о компании Cabot Corporation. Имея штаб-квартиру в Бостоне, штат Массачусеттс, она специализируется на производстве и продаже химикатов, строительных материалов, продуктов тонкой химии, полупроводников и сжиженного природного газа. Компания имеет 39 заводов в 23 странах. Рыночная стоимость компании составляет около 1,87 млрд. долл. Ее акции котируются на Нью-Йоркской фондовой бирже под аббревиатурой СВТ. Доходы компании за указанный период приведены на рис. 3.

Рис. 3. Доходы компании Cabot Corporation в 1982–2001 годах (млрд. долл.)

Как видим, долговременная тенденция повышения доходов затемнена большим количеством колебаний. Таким образом, визуальный анализ графика не позволяет утверждать, что данные имеют тренд. В таких ситуациях можно применить методы скользящего среднего или экспоненциального сглаживания.

Скользящие средние. Метод скользящих средних весьма субъективен и зависит от длины периода L , выбранного для вычисления средних значений. Для того чтобы исключить циклические колебания, длина периода должна быть целым числом, кратным средней длине цикла. Скользящие средние для выбранного периода, имеющего длину L , образуют последовательность средних значений, вычисленных для последовательностей длины L . Скользящие средние обозначаются символами MA(L) .

Предположим, что мы хотим вычислить пятилетние скользящие средние значения по данным, измеренным в течение n = 11 лет. Поскольку L = 5, пятилетние скользящие средние образуют последовательность средних значений, вычисленных по пяти последовательным значениям временного ряда. Первое из пятилетних скользящих средних значений вычисляется путем суммирования данных о первых пяти годах с последующим делением на пять:

Второе пятилетнее скользящее среднее вычисляется путем суммирования данных о годах со 2-го по 6-й с последующим делением на пять:

Этот процесс продолжается, пока не будет вычислено скользящее среднее для последних пяти лет. Работая с годовыми данными, следует полагать число L (длину периода, выбранного для вычисления скользящих средних) нечетным. В этом случае невозможно вычислить скользящие средние для первых (L – 1)/2 и последних (L – 1)/2 лет. Следовательно, при работе с пятилетними скользящими средними невозможно выполнить вычисления для первых двух и последних двух лет. Год, для которого вычисляется скользящее среднее, должен находиться в середине периода, имеющего длину L . Если n = 11, a L = 5, первое скользящее среднее должно соответствовать третьему году, второе - четвертому, а последнее - девятому. На рис. 4 показаны графики 3- и 7-летних скользящих средних, вычисленные для доходов компании Cabot Corporation за период с 1982 по 2001 годы.

Рис. 4. Графики 3- и 7-летних скользящих средних, вычисленные для доходов компании Cabot Corporation

Обратите внимание на то, что при вычислении трехлетних скользящих средних проигнорированы наблюдаемые значения, соответствующие первому и последнему годам. Аналогично при вычислении семилетних скользящих средних нет результатов для первых и последних трех лет. Кроме того, семилетние скользящие средние намного больше сглаживают временной ряд, чем трехлетние. Это происходит потому, что семилетним скользящим средним соответствует более долгий период. К сожалению, чем больше длина периода, тем меньшее количество скользящих средних можно вычислить и представить на графике. Следовательно, больше семи лет для вычисления скользящих средних выбирать нежелательно, поскольку из начала и конца графика выпадет слишком много точек, что исказит форму временного ряда.

Экспоненциальное сглаживание. Для выявления долговременных тенденций, характеризующих изменения данных, кроме скользящих средних, применяется метод экспоненциального сглаживания. Этот метод позволяет также делать краткосрочные прогнозы (в рамках одного периода), когда наличие долговременных тенденций остается под вопросом. Благодаря этому метод экспоненциального сглаживания обладает значительным преимуществом над методом скользящих средних.

Метод экспоненциального сглаживания получил свое название от последовательности экспоненциально взвешенных скользящих средних. Каждое значение в этой последовательности зависит от всех предыдущих наблюдаемых значений. Еще одно преимущество метода экспоненциального сглаживания над методом скользящего среднего заключается в том, что при использовании последнего некоторые значения отбрасываются. При экспоненциальном сглаживании веса, присвоенные наблюдаемым значениям, убывают со временем, поэтому после выполнения вычислений наиболее часто встречающиеся значения получат наибольший вес, а редкие величины - наименьший. Несмотря на громадное количество вычислений, Excel позволяет реализовать метод экспоненциального сглаживания.

Уравнение, позволяющее сгладить временной ряд в пределах произвольного периода времени i , содержит три члена: текущее наблюдаемое значение Y i , принадлежащее временному ряду, предыдущее экспоненциально сглаженное значение E i –1 и присвоенный вес W .

(3) E 1 = Y 1 E i = WY i + (1 – W)E i–1 , i = 2, 3, 4, …

где E i – значение экспоненциально сглаженного ряда, вычисленное для i -го периода, E i –1 – значение экспоненциально сглаженного ряда, вычисленное для (i – 1)-гo периода, Y i – наблюдаемое значение временного ряда в i -ом периоде, W – субъективный вес, или сглаживающий коэффициент (0 < W < 1).

Выбор сглаживающего коэффициента, или веса, присвоенного членам ряда, является принципиально важным, поскольку он непосредственно влияет на результат. К сожалению, этот выбор до некоторой степени субъективен. Если исследователь хочет просто исключить из временного ряда нежелательные циклические или случайные колебания, следует выбирать небольшие величины W (близкие к нулю). С другой стороны, если временной ряд используется для прогнозирования, необходимо выбрать большой вес W (близкий к единице). В первом случае четко проявляются долговременные тенденции временного ряда. Во втором случае повышается точность краткосрочного прогнозирования (рис. 5).

Рис. 5 Графики экспоненциально сглаженного временного ряда (W=0,50 и W=0,25) для данных о доходах компании Cabot Corporation за период с 1982 по 2001 годы; формулы расчета см. в файле Excel

Экспоненциально сглаженное значение, полученное для i -го временного интервала, можно использовать в качестве оценки предсказанного значения в (i +1)-м интервале:

Для предсказания доходов компании Cabot Corporation в 2002 году на основе экспоненциально сглаженного временного ряда, соответствующего весу W = 0,25, можно использовать сглаженное значение, вычисленное для 2001 года. Из рис. 5 видно, что эта величина равна 1651,0 млн. долл. Когда станут доступными данные о доходах компании в 2002 году, можно применить уравнение (3) и предсказать уровень доходов в 2003 году, используя сглаженное значение доходов в 2002 году:

Пакет анализа Excel способен построить график экспоненциального сглаживания в один клик. Пройдите по меню Данные Анализ данных и выберите опцию Экспоненциальное сглаживание (рис. 6). В открывшемся окне Экспоненциальное сглаживание задайте параметры. К сожалению, процедура позволяет построить только один сглаженный ряд, поэтому, если вы хотите «поиграть» с параметром W , повторите процедуру.

Рис. 6. Построение графика экспоненциального сглаживания с помощью Пакета анализа

Вычисление трендов с помощью метода наименьших квадратов и прогнозирование

Среди компонентов временного ряда чаще других исследуется тренд. Именно тренд позволяет делать краткосрочные и долгосрочные прогнозы. Для выявления долговременной тенденции изменения временного ряда обычно строят график, на котором наблюдаемые данные (значения зависимой переменной) откладываются на вертикальной оси, а временные интервалы (значения независимой переменной) - на горизонтальной. В этом разделе мы опишем процедуру выявления линейного, квадратичного и экспоненциального тренда с помощью метода наименьших квадратов.

Модель линейного тренда является простейшей моделью, применяемой для прогнозирования: Y i = β 0 + β 1 X i + ε i . Уравнение линейного тренда:

При заданном уровне значимости α нулевая гипотеза отклоняется, если тестовая t -статистика больше верхнего или меньше нижнего критического уровня t -распределения. Иначе говоря, решающее правило формулируется следующим образом: если t > t U или t < t L , нулевая гипотеза Н 0 отклоняется, в противном случае нулевая гипотеза не отклоняется (рис. 14).

Рис. 14. Области отклонения гипотезы для двустороннего критерия значимости параметра авторегрессии А р , имеющего наивысший порядок

Если нулевая гипотеза (А р = 0) не отклоняется, значит, выбранная модель содержит слишком много параметров. Критерий позволяет отбросить старший член модели и оценить авторегрессионную модель порядка р–1 . Эту процедуру следует продолжать до тех пор, пока нулевая гипотеза Н 0 не будет отклонена.

  1. Выберите порядок р оцениваемой авторегрессионной модели с учетом того, что t -критерий значимости имеет n –2р–1 степеней свободы.
  2. Сформируйте последовательность переменных р «с запаздыванием» так, чтобы первая переменная запаздывала на один временной интервал, вторая - на два и так далее. Последнее значение должно запаздывать на р временных интервалов (см. рис. 15).
  3. Примените Пакет анализа Excel для вычисления регрессионной модели, содержащей все р значений временного ряда с запаздыванием.
  4. Оцените значимость параметра А Р , имеющего наивысший порядок: а) если нулевая гипотеза отклоняется, в авторегрессионную модель можно включать все р параметров; б) если нулевая гипотеза не отклоняется, отбросьте р -ю переменную и повторите п.3 и 4 для новой модели, включающей р–1 параметр. Проверка значимости новой модели основана на t -критерии, количество степеней свободы определяется новым количеством параметров.
  5. Повторяйте п.3 и 4, пока старший член авторегрессионной модели не станет статистически значимым.

Чтобы продемонстрировать авторегрессионное моделирование, вернемся к анализу временного ряда реальных доходов компании Wm. Wrigley Jr. На рис. 15 показаны данные, необходимые для построения авторегрессионных моделей первого, второго и третьего порядка. Для построения модели третьего порядка необходимы все столбцы этой таблицы. При построении авторегрессионной модели второго порядка последний столбец игнорируется. При построении авторегрессионной модели первого порядка игнорируются два последних столбца. Таким образом, при построении авторегрессионных моделей первого, второго и третьего порядка из 20 переменных исключаются одна, две и три соответственно.

Выбор наиболее точной авторегрессионной модели начинается с модели третьего порядка. Для корректной работы Пакета анализа следует в качестве входного интервала Y указать диапазон В5:В21, а входного интервала для Х – С5:Е21. Данные анализа приведены на рис. 16.

Проверим значимость параметра А 3 , имеющего наивысший порядок. Его оценка а 3 равна –0,006 (ячейка С20 на рис. 16), а стандартная ошибка равна 0,326 (ячейка D20). Для проверки гипотез Н 0: А 3 = 0 и Н 1: А 3 ≠ 0 вычислим t -статистику:

t -критерия с n–2p–1 = 20–2*3–1 = 13 степенями свободы равны: t L =СТЬЮДЕНТ.ОБР(0,025;13) = ­–2,160; t U =СТЬЮДЕНТ.ОБР(0,975;13) = +2,160. Поскольку –2,160 < t = –0,019 < +2,160 и р = 0,985 > α = 0,05, нулевую гипотезу Н 0 отклонять нельзя. Таким образом, параметр третьего порядка не имеет статистической значимости в авторегрессионной модели и должен быть удален.

Повторим анализ для авторегрессионной модели второго порядка (рис. 17). Оценка параметра, имеющего наивысший порядок, а 2 = –0,205, а ее стандартная ошибка равна 0,276. Для проверки гипотез Н 0: А 2 = 0 и Н 1: А 2 ≠ 0 вычислим t -статистику:

При уровне значимости α = 0,05, критические величины двухстороннего t -критерия с n–2p–1 = 20–2*2–1 = 15 степенями свободы равны: t L =СТЬЮДЕНТ.ОБР(0,025;15) = ­–2,131; t U =СТЬЮДЕНТ.ОБР(0,975;15) = +2,131. Поскольку –2,131 < t = –0,744 < –2,131 и р = 0,469 > α = 0,05, нулевую гипотезу Н 0 отклонять нельзя. Таким образом, параметр второго порядка не является статистически значимым, и его следует удалить из модели.

Повторим анализ для авторегрессионной модели первого порядка (рис. 18). Оценка параметра, имеющего наивысший порядок, а 1 = 1,024, а ее стандартная ошибка равна 0,039. Для проверки гипотез Н 0: А 1 = 0 и Н 1: А 1 ≠ 0 вычислим t -статистику:

При уровне значимости α = 0,05, критические величины двухстороннего t -критерия с n–2p–1 = 20–2*1–1 = 17 степенями свободы равны: t L =СТЬЮДЕНТ.ОБР(0,025;17) = ­–2,110; t U =СТЬЮДЕНТ.ОБР(0,975;17) = +2,110. Поскольку –2,110 < t = 26,393 < –2,110 и р = 0,000 < α = 0,05, нулевую гипотезу Н 0 следует отклонить. Таким образом, параметр первого порядка является статистически значимым, и его нельзя удалять из модели. Итак, модель авторегрессии первого порядка лучше других аппроксимирует исходные данные. Используя оценки а 0 = 18,261, а 1 = 1,024 и значение временного ряда за последний год - Y 20 = 1 371,88, можно предсказать величину реальных доходов компании Wm. Wrigley Jr. Company в 2002 г.:

Выбор адекватной модели прогнозирования

Выше были описаны шесть методов прогнозирования значений временного ряда: модели линейного, квадратичного и экспоненциального трендов и авторегрессионные модели первого, второго и третьего порядков. Существует ли оптимальная модель? Какую из шести описанных моделей следует применять для прогнозирования значения временного ряда? Ниже перечислены четыре принципа, которыми необходимо руководствоваться при выборе адекватной модели прогнозирования. Эти принципы основаны на оценках точности моделей. При этом предполагается, что значения временного ряда можно предсказать, изучая его предыдущие значения.

Принципы выбора моделей для прогнозирования:

  • Выполните анализ остатков.
  • Оцените величину остаточной ошибки с помощью квадратов разностей.
  • Оцените величину остаточной ошибки с помощью абсолютных разностей.
  • Руководствуйтесь принципом экономии.

Анализ остатков. Напомним, что остатком называется разность между предсказанным и наблюдаемым значением. Построив модель для временного ряда, следует вычислить остатки для каждого из n интервалов. Как показано на рис. 19, панель А, если модель является адекватной, остатки представляют собой случайный компонент временного ряда и, следовательно, распределены нерегулярно. С другой стороны, как показано на остальных панелях, если модель не адекватна, остатки могут иметь систематическую зависимость, не учитывающую либо тренд (панель Б), либо циклический (панель В), либо сезонный компонент (панель Г).

Рис. 19. Анализ остатков

Измерение абсолютной и среднеквадратичной остаточных погрешностей. Если анализ остатков не позволяет определить единственную адекватную модель, можно воспользоваться другими методами, основанными на оценке величины остаточной погрешности. К сожалению, статистики не пришли к консенсусу относительно наилучшей оценки остаточных погрешностей моделей, применяемых для прогнозирования. Исходя из принципа наименьших квадратов, можно сначала провести регрессионный анализ и вычислить стандартную ошибку оценки S XY . При анализе конкретной модели эта величина представляет собой сумму квадратов разностей между фактическим и предсказанным значениями временного ряда. Если модель идеально аппроксимирует значения временного ряда в предыдущие моменты времени, стандартная ошибка оценки равна нулю. С другой стороны, если модель плохо аппроксимирует значения временного ряда в предыдущие моменты времени, стандартная ошибка оценки велика. Таким образом, анализируя адекватность нескольких моделей, можно выбрать модель, имеющую минимальную стандартную ошибку оценки S XY .

Основным недостатком такого подхода является преувеличение ошибок при прогнозировании отдельных значений. Иначе говоря, любая большая разность между величинами Y i и Ŷ i при вычислении суммы квадратов ошибок SSE возводится в квадрат, т.е. увеличивается. По этой причине многие статистики предпочитают применять для оценки адекватности модели прогнозирования среднее абсолютное отклонение (mean absolute deviation - MAD):

При анализе конкретных моделей величина MAD представляет собой среднее значение модулей разностей между фактическим и предсказанными значениями временного ряда. Если модель идеально аппроксимирует значения временного ряда в предыдущие моменты времени, среднее абсолютное отклонение равно нулю. С другой стороны, если модель плохо аппроксимирует такие значения временного ряда, среднее абсолютное отклонение велико. Таким образом, анализируя адекватность нескольких моделей, можно выбрать модель, имеющую минимальное среднее абсолютное отклонение.

Принцип экономии. Если анализ стандартных ошибок оценок и средних абсолютных отклонений не позволяет определить оптимальную модель, можно воспользоваться четвертым методом, основанным на принципе экономии. Этот принцип утверждает, что из нескольких равноправных моделей следует выбирать простейшую.

Среди шести рассмотренных в главе моделей прогнозирования наиболее простыми являются линейная и квадратичная регрессионные модели, а также авторегрессионная модель первого порядка. Остальные модели намного сложнее.

Сравнение четырех методов прогнозирования. Для иллюстрации процесса выбора оптимальной модели вернемся к временному ряду, состоящему из величин реального дохода компании Wm. Wrigley Jr. Company. Сравним четыре модели: линейную, квадратичную, экспоненциальную и авторегрессионную модель первого порядка. (Авторегрессионные модели второго и третьего порядка лишь незначительно улучшают точность прогнозирования значений данного временного ряда, поэтому их можно не рассматривать.) На рис. 20 показаны графики остатков, построенные при анализе четырех методов прогнозирования с помощью Пакета анализа Excel. Делая выводы на основе этих графиков, следует быть осторожным, поскольку временной ряд содержит только 20 точек. Методы построения см. соответствующий лист Excel-файла.

Рис. 20. Графики остатков, построенные при анализе четырех методов прогнозирования с помощью Пакета анализа Excel

Ни одна модель, кроме авторегрессионой модели первого порядка, не учитывает циклический компонент. Именно эта модель лучше других аппроксимирует наблюдения и характеризуется наименее систематической структурой. Итак, анализ остатков всех четырех методов показал, что наилучшей является авторегрессионная модель первого порядка, а линейная, квадратичная и экспоненциальная модели имеют меньшую точность. Чтобы убедиться в этом, сравним величины остаточных погрешностей этих методов (рис. 21). С методикой расчетов можно ознакомиться, открыв Excel-файл. На рис. 21 указаны фактические значения Y i (колонка Реальный доход ), предсказанные значения Ŷ i , а также остатки е i для каждой из четырех моделей. Кроме того, показаны значения S YX и MAD . Для всех четырех моделей величинs S YX и MAD примерно одинаковые. Экспоненциальная модель является относительно худшей, а линейная и квадратичная модели превосходят ее по точности. Как и ожидалось, наименьшие величины S YX и MAD имеет авторегрессионная модель первого порядка.

Рис. 21. Сравнение четырех методов прогнозирования с помощью показателей S YX и MAD

Выбрав конкретную модель прогнозирования, необходимо внимательно следить за дальнейшими изменениями временного ряда. Помимо всего прочего, такая модель создается, чтобы правильно предсказывать значения временного ряда в будущем. К сожалению, такие модели прогнозирования плохо учитывают изменения в структуре временного ряда. Совершенно необходимо сравнивать не только остаточную погрешность, но и точность прогнозирования будущих значений временного ряда, полученную с помощью других моделей. Измерив новую величину Y i в наблюдаемом интервале времени, ее необходимо тотчас же сравнить с предсказанным значением. Если разница слишком велика, модель прогнозирования следует пересмотреть.

Прогнозирование временны х рядов на основе сезонных данных

До сих пор мы изучали временные ряды, состоящие из годовых данных. Однако многие временные ряды состоят из величин, измеряемых ежеквартально, ежемесячно, еженедельно, ежедневно и даже ежечасно. Как показано на рис. 2, если данные измеряются ежемесячно или ежеквартально, следует учитывать сезонный компонент. В этом разделе мы рассмотрим методы, позволяющие прогнозировать значения таких временных рядов.

В сценарии, описанном в начале главы, упоминалась компания Wal-Mart Stores, Inc. Рыночная капитализация компании 229 млрд. долл. Ее акции котируются на Нью-Йоркской фондовой бирже под аббревиатурой WMT. Финансовый год компании заканчивается 31 января, поэтому в четвертый квартал 2002 года включаются ноябрь и декабрь 2001 года, а также январь 2002 года. Временной ряд квартальных доходов компании приведен на рис. 22.

Рис. 22. Квартальные доходы компании Wal-Mart Stores, Inc. (млн. долл.)

Для таких квартальных рядов, как этот, классическая мультипликативная модель, кроме тренда, циклического и случайного компонента, содержит сезонный компонент: Y i = T i * S i * C i * I i

Прогнозирование месячных и временны х рядов с помощью метода наименьших квадратов. Регрессионная модель, включающая сезонный компонент, основана на комбинированном подходе. Для вычисления тренда применяется метод наименьших квадратов, описанный ранее, а для учета сезонного компонента - категорийная переменная (подробнее см. раздел Регрессионные модели с фиктивной переменной и эффекты взаимодействия ). Для аппроксимации временных рядов с учетом сезонных компонентов используется экспоненциальная модель. В модели, аппроксимирующей квартальный временной ряд, для учета четырех кварталов нам понадобились три фиктивные переменные Q 1 , Q 2 и Q 3 , а в модели для месячного временного ряда 12 месяцев представляются с помощью 11 фиктивных переменных. Поскольку в этих моделях в качестве отклика используется переменная logY i , а не Y i , для вычисления настоящих регрессионных коэффициентов необходимо выполнить обратное преобразование.

Чтобы проиллюстрировать процесс построения модели, аппроксимирующей квартальный временной ряд, вернемся к доходам компании Wal-Mart. Параметры экспоненциальной модели, полученные с помощью Пакета анализа Excel, показаны на рис. 23.

Рис. 23. Регрессионный анализ квартальных доходов компании Wal-Mart Stores, Inc.

Видно, что экспоненциальная модель довольно хорошо аппроксимирует исходные данные. Коэффициент смешанной корреляции r 2 равен 99,4% (ячейки J5), скорректированный коэффициент смешанной корреляции - 99,3% (ячейки J6), тестовая F -статистика - 1 333,51 (ячейки M12), а р -значение равно 0,0000. При уровне значимости α = 0,05, каждый регрессионный коэффициент в классической мультипликативной модели временного ряда является статистически значимым. Применяя к ним операцию потенцирования, получаем следующие параметры:

Коэффициенты интерпретируются следующим образом.

Используя регрессионные коэффициенты b i , можно предсказать доход, полученный компанией в конкретном квартале. Например, предскажем доход компании для четвертого квартала 2002 года (X i = 35):

log = b 0 + b 1 Х i = 4,265 + 0,016*35 = 4,825

= 10 4,825 = 66 834

Таким образом, согласно прогнозу в четвертом квартале 2002 года компания должна была получить доход, равный 67 млрд. долл. (вряд ли следует делать прогноз с точностью до миллиона). Для того чтобы распространить прогноз на период времени, находящийся за пределами временного ряда, например, на первый квартал 2003 года (X i = 36, Q 1 = 1), необходимо выполнить следующие вычисления:

logŶ i = b 0 + b 1 Х i + b 2 Q 1 = 4,265 + 0,016*36 – 0,093*1 = 4,748

10 4,748 = 55 976

Индексы

Индексы используются в качестве индикаторов, реагирующих на изменения экономической ситуации или деловой активности. Существуют многочисленные разновидности индексов, в частности, индексы цен, количественные индексы, ценностные индексы и социологические индексы. В данном разделе мы рассмотрим лишь индекс цен. Индекс - величина некоторого экономического показателя (или группы показателей) в конкретный момент времени, выраженный в процентах от его значения в базовый момент времени.

Индекс цен. Простой индекс цен отражает процентное изменение цены товара (или группы товаров) в течение заданного периода времени по сравнению с ценой этого товара (или группы товаров) в конкретный момент времени в прошлом. При вычислении индекса цен прежде всего следует выбрать базовый промежуток времени - интервал времени в прошлом, с которым будут производиться сравнения. При выборе базового промежутка времени для конкретного индекса периоды экономической стабильности являются более предпочтительными по сравнению с периодами экономического подъема или спада. Кроме того, базовый промежуток не должен быть слишком удаленным во времени, чтобы на результаты сравнения не слишком сильно влияли изменения технологии и привычек потребителей. Индекс цен вычисляется по формуле:

где I i - индекс цен в i -м году, Р i - цена в i -м году, Р баз - цена в базовом году.

Индекс цен - процентное изменение цены товара (или группы товаров) в заданный период времени по отношению к цене товара в базовый момент времени. В качестве примера рассмотрим индекс цен на неэтилированный бензин в США в промежутке времени с 1980 по 2002 г. (рис. 24). Например:

Рис. 24. Цена галлона неэтилированного бензина и простой индекс цен в США с 1980 по 2002 г. (базовые годы - 1980 и 1995)

Итак, в 2002 г. цена неэтилированного бензина в США была на 4,8% больше, чем в 1980 г. Анализ рис. 24 показывает, что индекс цен в 1981 и 1982 гг. был больше индекса цен в 1980 г., а затем вплоть до 2000 года не превышал базового уровня. Поскольку в качестве базового периода выбран 1980 г., вероятно, имеет смысл выбрать более близкий год, например, 1995 г. Формула для пересчета индекса по отношению к новому базовому промежутку времени:

где I новый - новый индекс цен, I старый - старый индекс цен, I новая база – значение индекса цен в новом базовом году при расчете для старого базового года.

Предположим, что в качестве новой базы выбран 1995 год. Используя формулу (10), получаем новый индекс цен для 2002 года:

Итак, в 2002 г. неэтилированный бензин в США стоил на 13,9% больше, чем в 1995 г.

Невзвешенные составные индексы цен. Несмотря на то что индекс цен на любой отдельный товар представляет несомненный интерес, более важным является индекс цен на группу товаров, позволяющий оценить стоимость и уровень жизни большого количества потребителей. Невзвешенный составной индекс цен, определенный формулой (11), приписывает каждому отдельному виду товаров одинаковый вес. Составной индекс цен отражает процентное изменение цены группы товаров (часто называемой потребительской корзиной) в заданный период времени по отношению к цене этой группы товаров в базовый момент времени.

где t i - номер товара (1, 2, …, n ), n - количество товаров в рассматриваемой группе, - сумма цен на каждый из n товаров в период времени t , - сумма цен на каждый из n товаров в нулевой период времени, - величина невзвешенного составного индекса в период времени t .

На рис. 25 представлены средние цены на три вида фруктов за период с 1980 по 1999 гг. Для вычисления невзвешенного составного индекса цен в разные годы применяется формула (11), считая базовым 1980 год.

Итак, в 1999 г. суммарная цена фунта яблок, фунта бананов и фунта апельсинов на 59,4% превышала суммарную цену на эти фрукты в 1980 г.

Рис. 25. Цены (в долл.) на три вида фруктов и невзвешенный составной индекс цен

Невзвешенный составной индекс цен выражает изменения цен на всю группу товаров с течением времени. Несмотря на то что этот индекс легко вычислять, у него есть два явных недостатка. Во-первых, при вычислении этого индекса все виды товаров считаются одинаково важными, поэтому дорогие товары приобретают излишнее влияние на индекс. Во-вторых, не все товары потребляются одинаково интенсивно, поэтому изменения цен на мало потребляемые товары слишком сильно влияют на невзвешенный индекс.

Взвешенные составные индексы цен. Из-за недостатков невзвешенных индексов цен более предпочтительными являются взвешенные индексы цен, учитывающие различия цен и уровней потребления товаров, образующих потребительскую корзину. Существуют два типа взвешенных составных индексов цен. Индекс цен Лапейрэ , определенный формулой (12), использует уровни потребления в базовом году. Взвешенный составной индекс цен позволяет учесть уровни потребления товаров, образующих потребительскую корзину, присваивая каждому товару определенный вес.

где t - период времени (0, 1, 2, …), i - номер товара (1, 2, …, n ), n i в нулевой период времени, - значение индекса Лапейрэ в период времени t .

Вычисления индекса Лапейрэ показаны на рис. 26; в качестве базового используется 1980 год.

Рис. 26. Цены (в долл.), количество (потребление в фунтах на душу населения) трех видов фруктов и индекс Лапейрэ

Итак, индекс Лапейрэ в 1999 г. равен 154,2. Это свидетельствует от том, что в 1999 году эти три вида фруктов были на 54,2% дороже, чем в 1980 году. Обратите внимание на то, что этот индекс меньше невзвешенного индекса, равного 159,4, поскольку цены на апельсины - фрукты, потребляемые меньше остальных, - выросли больше, чем цена яблок и бананов. Иначе говоря, поскольку цены на фрукты, потребляемые наиболее интенсивно, выросли меньше, чем цены на апельсины, индекс Лапейрэ меньше невзвешенного составного индекса.

Индекс цен Пааше использует уровни потребления товара в текущем, а не базовом периоде времени. Следовательно, индекс Пааше более точно отражает полную стоимость потребления товаров в заданный момент времени. Однако этот индекс имеет два существенных недостатка. Во-первых, как правило, текущие уровни потребления трудно определить. По этой причине многие популярные индексы используют индекс Лапейрэ, а не индекс Пааше. Во-вторых, если цена некоторого конкретного товара, входящего в потребительскую корзину, резко возрастает, покупатели снижают уровень его потребления по необходимости, а не вследствие изменения вкусов. Индекс Пааше вычисляется по формуле:

где t - период времени (0, 1, 2, …), i - номер товара (1, 2, …, n ), n - количество товаров в рассматриваемой группе, - количество единиц товара i в нулевой период времени, - значение индекса Пааше в период времени t .

Вычисления индекса Пааше показаны на рис. 27; в качестве базового используется 1980 год.

Рис. 27. Цены (в долл.), количество (потребление в фунтах на душу населения) трех видов фруктов и индекс Пааше

Итак, индекс Пааше в 1999 г. равен 147,0. Это свидетельствует от том, что в 1999 году эти три вида фруктов были на 47,0% дороже, чем в 1980 году.

Некоторые популярные индексы цен. В бизнесе и экономике используется несколько индексов цен. Наиболее популярным является индекс потребительских цен (Consumer Index Price - CPI). Официально этот индекс называется CPI-U, чтобы подчеркнуть, что он вычисляется для городов (urban), хотя, как правило, его называют просто CPI. Этот индекс ежемесячно публикуется Бюро статистики труда (U. S. Bureau of Labor Statistics) в качестве основного инструмента для измерения стоимости жизни в США. Индекс потребительских цен является составным и взвешенным по методу Лапейрэ. При его вычислении используются цены 400 наиболее широко потребляемых продуктов, видов одежды, транспортных, медицинских и коммунальных услуг. В данный момент при вычислении этого индекса в качестве базового используется период 1982–1984 гг. (рис. 28). Важной функцией индекса CPI является его использование в качестве дефлятора. Индекс CPI используется для пересчета фактических цен в реальные путем умножения каждой цены на коэффициент 100/CPI. Расчеты показывают, что за последние 30 лет среднегодовые темпы инфляции в США составили 2,9%.

Рис. 28. Динамика Consumer Index Price; полные данные см. Excel-файл

Другим важным индексом цен, публикуемым Бюро статистики труда, является индекс цен производителей (Producer Price Index - PPI). Индекс PPI является взвешенным составным индексом, использующим метод Лапейрэ для оценки изменения цен товаров, продаваемых их производителями. Индекс PPI является лидирующим индикатором для индекса CPI. Иначе говоря, увеличение индекса PPI приводит к увеличению индекса CPI, и наоборот, уменьшение индекса PPI приводит к уменьшению индекса CPI. Финансовые индексы, такие как индекс Доу-Джонса для акций промышленных предприятий (Dow Jones Industrial Average - DJIA), S&P 500 и NASDAQ, используются для оценки изменения стоимости акций в США. Многие индексы позволяют оценить прибыльность международных фондовых рынков. К таким индексам относятся индекс Nikkei в Японии, Dax 30 в Германии и SSE Composite в Китае.

Ловушки, связанные с анализом временны х рядов

Значение методологии, использующей информацию о прошлом и настоящем для того, чтобы прогнозировать будущее, более двухсот лет назад красноречиво описал государственный деятель Патрик Генри: «У меня есть лишь одна лампа, освещающая путь, - мой опыт. Только знание прошлого позволяет судить о будущем».

Анализ временных рядов основан на предположении, что факторы, влиявшие на деловую активность в прошлом и влияющие в настоящем, будут действовать и в будущем. Если это правда, анализ временных рядов представляет собой эффективное средство прогнозирования и управления. Однако критики классических методов, основанных на анализе временных рядов, утверждают, что эти методы слишком наивны и примитивны. Иначе говоря, математическая модель, учитывающая факторы, действовавшие в прошлом, не должна механически экстраполировать тренды в будущее без учета экспертных оценок, опыта деловой активности, изменения технологии, а также привычек и потребностей людей. Пытаясь исправить это положение, в последние годы специалисты по эконометрии разрабатывали сложные компьютерные модели экономической активности, учитывающие перечисленные выше факторы.

Тем не менее, методы анализа временных рядов представляют собой превосходный инструмент прогнозирования (как краткосрочного, так и долгосрочного), если они применяются правильно, в сочетании с другими методами прогнозирования, а также с учетом экспертных оценок и опыта.

Резюме. В заметке с помощью анализа временных рядов разработаны модели для прогнозирования доходов трех компаний: Wm. Wrigley Jr. Company, Cabot Corporation и Wal-Mart. Описаны компоненты временного ряда, а также несколько подходов к прогнозированию годовых временных рядов - метод скользящих средних, метод экспоненциального сглаживания, линейная, квадратичная и экспоненциальная модели, а также авторегрессионная модель. Рассмотрена регрессионная модель, содержащая фиктивные переменные, соответствующие сезонному компоненту. Показано применение метода наименьших квадратов для прогнозирования месячных и квартальных временных рядов (рис. 29).

Р степеней свободы утрачиваются при сравнении значений временного ряда.

Скачать полный текст диссертации в формате PDF (2.9 Мб).

Глава 1. Постановка задачи и обзор моделей прогнозирования временных рядов

В текст диссертации включены вставки со ссылками на полезные записи блога, в которых я простым языком рассказываю о моделях прогнозирования и привожу примеры реализации.

Нейронные сети рассмотрены в наборе записей по тэгу .
- Модель ARIMAX подробно описана в четырех записях по тэгу .
- Описание и примеры реализации экспоненциального сглаживания приведены по тэгу .
- Опубликованы записи по вопросам .
- Полный перечень материалов о моделях прогнозирования смотри по тэгу .

Слово прогноз возникло от греческого , что означает предвидение, предсказание. Под прогнозированием понимают предсказание будущего с помощью научных методов . Процессом прогнозирования называется специальное научное исследование конкретных перспектив развития какого-либо процесса. Согласно работе процессы, перспективы которых необходимо предсказывать, чаще всего описываются временными рядами , то есть последовательностью значений некоторых величин, полученных в определенные моменты времени. Временной ряд включает в себя два обязательных элемента - отметку времени и значение показателя ряда, полученное тем или иным способом и соответствующее указанной отметке времени. Каждый временной ряд рассматривается как выборочная реализация из бесконечной популяции, генерируемой стохастическим процессом, на который оказывают влияние множество факторов . На представлен пример временного ряда цен на электроэнергию европейской территории РФ.


Рис. 1.1 Временной ряд цен на электроэнергию

Простым языком о видах временных рядов смотри запись блога Характеристики прогнозируемых временных рядов

Одна из классификаций временных рядов приведена в работе . Согласно этой работе, временные ряды различаются способом определения значения, временным шагом, памятью и стационарностью.

  • интервальные временные ряды ,
  • моментные временные ряды .

Интервальный временной ряд представляет собой последовательность, в которой уровень явления (значение временного ряда) относят к результату, накопленному или вновь произведенному за определенный интервал времени. Интервальным, например, является временной ряд показателя выпуска продукции предприятием за неделю, месяц или год; объем воды, сброшенной гидроэлектростанцией за час, день, месяц; объем электроэнергии, произведенной за час, день, месяц и другие.

Если же значение временного ряда характеризует изучаемое явление в конкретный момент времени, то совокупность таких значений образует моментный временной ряд . Примерами моментных рядов являются последовательности финансовых индексов, рыночных цен; физические показатели, такие как температура окружающего воздуха, влажность, давление, измеренные в конкретные моменты времени, и другие.

В зависимости от частоты определения значений временного ряда, они делятся на

  • равноотстоящие временные ряды ,
  • неравноотстоящие временные ряды .

Равноотстоящие временные ряды формируются при исследовании и фиксации значений процесса в следующие друг за другом равные интервалы времени. Большинство физических процессов описываются при помощи равноотстоящих временных рядов. Неравноотстоящими временными рядами называются те ряды, для которых принцип равенства интервалов фиксации значений не выполняется. К таким рядам относятся, например, все биржевые индексы в связи с тем, что их значения определяются лишь в рабочие дни недели.

В зависимости от характера описываемого процесса временные ряды разделяются на

  • временные ряды длинной памяти ,
  • временные ряды короткой памяти .

Задача отнесения временного ряда к рядам с короткой или длинной памятью описана в статье . В целом, говоря о временных рядах с длинной памятью , подразумеваются временные ряды, для которых автокорреляционная функция, введенная в книге , убывает медленно. К временным рядам с короткой памятью относят временные ряды, автокорреляционная функция которых убывает быстро. Скорость потока транспорта по дорогам, а также многие физические процессы, такие как потребление электроэнергии, температура воздуха, относятся к временным рядам с длинной памятью . К временным рядам с короткой памятью относятся, например, временные ряды биржевых индексов.

Дополнительно временные ряды принято разделять на

  • стационарные временные ряды ,
  • нестационарные временные ряды .

Стационарным временным рядом называется такой ряд, который остается в равновесии относительно постоянного среднего уровня. Остальные временные ряды являются нестационарными . В книге указано, что и в промышленности, и в торговле, и в экономике, где прогнозирование имеет важное значение, многие временные ряды являются нестационарными, то есть не имеющими естественного среднего значения. Нестационарные временные ряды для решения задачи прогнозирования часто приводятся к стационарным при помощи разностного оператора .

Горизонты прогнозирования рассмотрены также в записи блога Горизонты прогнозирования временных рядов
  • ультра: до 3 – 4 часа;
  • краткосрочное прогнозирование : до 5 – 8 часов;
  • : до 16 – 24 часов.

Для задачи прогнозирования энергопотребления классификация задач предложена в работе :

  • : до одного дня;
  • краткосрочное прогнозирование : от одного дня до недели;
  • среднесрочное прогнозирование : от одной недели до года;
  • долгосрочное прогнозирование : более чем на год вперед.

То есть для различных временных рядов , с различным временным разрешением классификация срочности задач прогнозирования индивидуальна .

Говоря о прогнозировании временных рядов, необходимо различить два взаимосвязанных понятия - метод прогнозирования и .

Метод прогнозирования представляет собой последовательность действий , которые нужно совершить для получения модели прогнозирования временного ряда.

Метод прогнозирования содержит последовательность действий, в результате выполнения которой определяется конкретного временного ряда. Кроме того, метод прогнозирования содержит действия по оценке качества прогнозных значений. Общий итеративный подход к построению модели прогнозирования состоит из следующий шагов .

Шаг 1. На первом шаге на основании предыдущего собственного или стороннего опыта выбирается общий класс моделей для прогнозирования временного ряда на заданный горизонт.

Шаг 2. Определенный общий класс моделей обширен. Для непосредственной подгонки к исходному временному ряду, развиваются грубые методы идентификации подклассов моделей. Такие методы идентификации используют качественные оценки временного ряда.

Шаг 3. После определения подкласса модели, необходимо оценить ее параметры , если модель содержит параметры, или структуру, если модель относится к категории структурных моделей (). На данном этапе обычно используется итеративные способы, когда производится оценка участка (или всего) временного ряда при различных значениях изменяемых величин. Как правило, данный шаг является наиболее трудоемким в связи с тем, что часто в расчет принимаются все доступные исторические значения временного ряда.

Шаг 4. Далее производится диагностическая проверка полученной модели прогнозирования . Чаще всего выбирается участок или несколько участков временного ряда, достаточных по длине для проверочного прогнозирования и последующей оценки точности прогноза. Выбранные для диагностики модели прогнозирования участки временного ряда называются контрольными участками (периодами).

Шаг 5. В случае если точность диагностического прогнозирования оказалась приемлемой для задач, в которых используются прогнозные значения, то модель готова к использованию . В случае если точность прогнозирования оказалось недостаточной для последующего использования прогнозных значений, то возможно итеративное повторение всех описанных выше шагов, начиная с первого.

Моделью прогнозирования временного ряда является функциональное представление, адекватно описывающее временной ряд.

При прогнозировании временных рядов возможны два варианта постановки задачи . В первом варианте для получения будущих значений исследуемого временного ряда используются доступные значения только этого ряда . Во втором варианте для получения прогнозных значений возможно использование не только фактических значений искомого ряда, но и значений набора внешних факторов, представленных в виде временных рядов . В общем случае временные ряды внешних факторов могут иметь разрешение по времени отличное от разрешения искомого временного ряда. Например, в работе подробно обсуждаются внешние факторы, оказывающие влияние на временной ряд энергопотребления. К таким внешним факторам относят температуру окружающей среды, влажность воздуха, а также сезонность, т. е. час суток, день недели, месяц года. В общем случае внешние факторы могут быть дискретными , т. е. представленными временными рядами, например, температура воздуха; или категориальными , т. е. состоящими из подмножеств, например, в зависимости от веса тела человека можно отнести к трем категориям: «легкий», «средний», «тяжелый». Лишь некоторые модели прогнозирования позволяют учитывать категориальные внешние факторы, большинство моделей позволяют учитывать только дискретных ().

При прогнозировании временного ряда , адекватно описывающую временной ряд, которая называется моделью прогнозирования . Цель создания модели прогнозирования состоит в получении такой модели, для которой среднее абсолютное отклонение истинного значения от прогнозируемого стремится к минимальному для заданного горизонта, который называется временем упреждения. После того, как модель прогнозирования временного ряда определена, требуется вычислить будущие значения временного ряда, а также их доверительный интервал.

1.2. Формальная постановка задачи

Прогнозирование без учета внешних факторов . Пусть значения временного ряда доступны в дискретные моменты времени t = 1,2,...,T . Обозначим временной ряд Z(t) = Z(1), Z(2),...,Z(T) . В момент времени T необходимо определить значения процесса Z(t) в моменты времени T+1,...,T+P . Момент времени T называется моментом прогноза, а величина P - временем упреждения .

1) Для вычисления значений временного ряда в будущие моменты времени требуется определить функциональную зависимость , отражающую связь между прошлыми и будущими значениями этого ряда


Рис. 1.2. Иллюстрация задачи прогнозирования временного ряда без учета внешних факторов

Прогнозирование с учетом внешних факторов . Пусть значения исходного временного ряда Z(t) доступны в дискретные моменты времени t = 1,2,...,T . Предполагается, что на значения Z(t) оказывает влияние набор внешних факторов. Пусть первый внешний фактор X 1 (t 1) доступен в дискретные моменты времени t 1 = 1,2,...,T 1 , второй внешний фактор X 2 (t 2) доступен в моменты времени t 2 = 1,2,...,T 2 и т.д.

В случае, если дискретность исходного временного ряда и внешних факторов, а также значения T,T 1 ,...,T S различны, то временные ряды внешних факторов X 1 (t 1) ,...,X S (t S) необходимо привести к единой шкале времени t .

В момент прогноза T необходимо определить будущие значения исходного процесса Z(t) в моменты времени T+1,...,T+P , учитывая влияние внешних факторов X 1 (t) ,...,X S (t) . При этом считаем, что значения внешних факторов в моменты времени X 1 (T+1) ,...,X 1 (T+P) ,...,X S (T+1) ,...,X S (T+P) являются доступными.

1) Для вычисления будущих значений процесса Z(t) в указанные моменты времени требуется определить функциональную зависимость , отражающую связь между прошлыми значениями Z(t) и будущими, а также принимающую во внимание влияние внешних факторов X 1 (t) ,...,X S (t) на исходный временной ряд

2) Кроме получения будущих значений требуется определить доверительный интервал возможных отклонений этих значений.

Задача прогнозирования временного ряда с учетом одного внешнего фактора представлена на


Рис. 1.3. Иллюстрация задачи прогнозирования временного ряда с учетом внешнего фактора

1.3. Обзор моделей прогнозирования

Перед тем как перейти к обзору моделей, необходимо отметить, что названия моделей и соответствующих методов как правило совпадают . Например, работы , , , посвящены одной из самых распространенных моделей прогнозирования авторегрессия проинтегрированного скользящего среднего с учетом внешнего фактора (auto regression moving average external, ). Эту модель и соответствующий ей метод обычно называют . В настоящее время принято использовать английские аббревиатуры названий как моделей, так и методов.

Набор понятных для чтения материалов по вопросу классификации моделей и методов прогнозирования временных рядов можно найти по тегу .

Линейная регрессионная модель . Самым простым вариантом регрессионной модели является линейная регрессия. В основу модели положено предположение, что существует дискретный внешний фактор X(t) , оказывающий влияние на исследуемый процесс Z(t) , при этом связь между процессом и внешним фактором линейна. Модель прогнозирования на основании линейной регрессии описывается уравнением

где α 0 и α 1 - коэффициенты регрессии; ε t - ошибка модели. Для получения прогнозных значений Z(t) в момент времени t необходимо иметь значение X(t) в тот же момент времени t , что редко выполнимо на практике.

Множественная регрессионная модель . На практике на процесс Z(t) оказывают влияние целый ряд дискретных внешних факторов X 1 (t) ,…,X S (t) . Тогда модель прогнозирования имеет вид

Недостатком данной модели является то, что для вычисления будущего значения процесса Z(t) необходимо знать будущие значения всех факторов X 1 (t) ,…,X S (t) , что почти невыполнимо на практике.

В основу нелинейной регрессионной модели положено предположение о том, что существует известная функция, описывающая зависимость между исходным процессом Z(t) и внешним фактором X(t)

В рамках построения модели прогнозирования необходимо определить параметры функции A . Например, можно предположить, что

Для построения модели достаточно определить параметры . Однако на практике редко встречаются процессы, для которых вид функциональной зависимости между процессом Z(t) и внешним фактором X(t) заранее известен. В связи с этим нелинейные регрессионные модели применяются редко .

Модель группового учета аргументов (МГУА) была разработана Ивахтенко А.Г. . Модель имеет вид


(1.9)

Другой тип модели имеет большое значение в описании временных рядов и часто используется совместно с авторегрессией называется моделью скользящего среднего порядка q и описывается уравнением

Авторегрессионнная модель с распределенным лагом (autoregressive distributed lag models, ARDLM) недостаточно подробно описана в литературе. Основное внимание данной модели уделяется в книгах по эконометрике .

Часто при моделировании процессов на изучаемую переменную влияют не только текущие значения процесса, но и его лаги, то есть значения временного ряда, предшествующие изучаемому моменту времени. Модель авторегрессии распределенного лага описывается уравнением

Здесь φ 0 ,..., φ p - коэффициенты, l - величина лага. Модель () называется ARDLM(p,l) и чаще всего применяется для моделирования экономических процессов .

1.3.3. Модели экспоненциального сглаживания

Примеры реализации экспоненциального сглаживания можно найти по тэгу .

Модели экспоненциального сглаживания разработаны в середине XX века и до сегодняшнего дня являются широко распространенными в силу их простоты и наглядности.

Модель экспоненциального сглаживания (exponential smoothing, ES) применяется для моделирования финансовых и экономических процессов . В основу экспоненциального сглаживания заложена идея постоянного пересмотра прогнозных значений по мере поступления фактических. Модель ES присваивает экспоненциально убывающие веса наблюдениям по мере их старения. Таким образом, последние доступные наблюдения имеют большее влияние на прогнозное значение, чем старшие наблюдения.

Функция модели ES имеет вид

где α - коэффициент сглаживания, 0 < α < 1 ; начальные условия определяются как S(1) = Z(0) . В данной модели каждое последующее сглаженное значение S(t) является взвешенным средним между предыдущим значением временного ряда Z(t) и предыдущего сглаженного значения S(t-1) .

Модель Хольта или двойное экспоненциальное сглаживание применяется для моделирования процессов, имеющих тренд . В этом случае в модели необходимо рассматривать две составляющие: уровень и тренд . Уровень и тренд сглаживаются отдельно


(1.17)

Здесь α - коэффициент сглаживания уровня, как и в модели (1.16), γ - коэффициент сглаживания тренда.

Модель Хольта-Винтерса или тройное экспоненциальное сглаживание применяется для процессов, которые имеют тренд и сезонную составляющую

Здесь R(t) - сглаженный уровень без учета сезонной составляющей

G(t) - сглаженный тренд

а S(t) - сезонная составляющая

Величина L определяется длиной сезона исследуемого процесса. Модели экспоненциального сглаживания наиболее популярны для долгосрочного прогнозирования .

1.3.4. Нейросетевые модели

Набор читабельных материалов с примерами реализации нейронных сетей можно найти по тэгу

В настоящее время самой популярной среди структурных моделей является модель на основе искусственных нейронных сетей (artificial neural network, ANN) . Нейронные сети состоят из нейронов ().


Рис. 1.4. Нелинейная модель нейрона

Модель нейрона можно описать парой уравнений

(1.22)

где Z(t-1) ,...,Z(t-m) - входные сигналы; ω 1 ,...,ω m - синаптические веса нейрона; p - порог; φ(U(t)) - функция активации.

Функция активации бывают трех основных типов :

  • функция единичного скачка ;
  • кусочно-линейная функция ;
  • сигмоидальная функция .

Способ связи нейронов определяет архитектуру нейронной сети . Согласно работе , в зависимости от способа связи нейронов сети делятся на

  • однослойные нейронные сети прямого распространения ,
  • многослойные нейронные сети прямого распространения ,
  • рекуррентные нейронные сети .

Рис. 1.5. Трехслойная нейронная сеть прямого распространения

Таким образом, при помощи нейронных сетей возможно моделирование нелинейной зависимости будущего значения временного ряда от его фактических значений и от значений внешних факторов. Нелинейная зависимость определяется структурой сети и функцией активации.

Пример реализации в MATLAB трехслойной нейронной сети для прогнозирования энергопотребоения на 24 значения вперед можно найти в записи блога Создаем нейронную сеть для прогнозирования временного ряда .

1.3.5. Модели на базе цепей Маркова

Модели прогнозирования на основе цепей Маркова (Markov chain model) предполагают, что будущее состояние процесса зависит только от его текущего состояния и не зависит от предыдущих . В связи с этим процессы, моделируемые цепями Маркова, должны относиться к процессами с короткой памятью.

Пример цепи Маркова для процесса, имеющего три состояния , представлен на .

Рис. 1.6. Цепь Маркова с тремя состояниями

Здесь S 1 ,...,X 3 - состояния процесса Z(t) ; λ 12 S 1 в состояние S 2 , λ 23 - вероятность перехода из состояния S 2 в состояние S 3 и т.д. При построении цепи Маркова определяется множество состояний и вероятности переходов. Есть текущее состояние процесса S i , то качестве будущего состояния процесса выбирается такое состояние S i , вероятность перехода в которое (значение λ ij ) максимальна.

Таким образом, структура цепи Маркова и вероятности перехода состояний определяют зависимость между будущим значением процесса и его текущим значением .

1.3.6. Модели на базе классификационно-регрессионных деревьев

Классификационно-регрессионные деревья (classification and regression trees, CART) являются еще одной популярной структурной моделью прогнозирования временных рядов . Структурные модели CART разработаны для моделирования процессов, на которые оказывают влияние как непрерывные внешние факторы, так и категориальные. Если внешние факторы, влияющие на процесс Z(t) , непрерывны, то используются регрессионные деревья; если факторы категориальные, то - классификационные деревья. В случае, если необходимо учитывать факторы обоих типов, то используются смешанные классификационно-регрессионные деревья.


Рис. 1.7. Бинарное классификационно-регрессионное дерево

Согласно модели CART, прогнозное значение временного ряда зависит от предыдущих значений, а также некоторых независимых переменных. На приведенном на примере сначала предыдущее значение процесса сравнивается с константой Z 0 . Если значение Z(t-1) меньше Z 0 , то выполняется следующая проверка: X(t) > X 11 . Если неравенство не выполняется, то Z(t) = C 3 , иначе проверки продолжаются до того момента, пока не будет найден лист дерева, в котором происходит определение будущего значения процесса Z(t) . Важно, что при определении значения в расчет принимаются как непрерывные переменные, например, X(t) , так и категориальные Y , для которых выполняется проверка присутствия значения в одном из заранее определенных подмножеств. Значения пороговых констант, например, Z 0 , X 11 , а также подмножеств Y 11 ,Y 12 выполняется на этапе обучения дерева .

Таким образом, CART моделирует зависимость будущей величины процесса Z(t) при помощи структуры дерева, а также пороговых констант и подмножеств .

1.1.1. Другие модели и методы прогнозирования

Кроме классов моделей прогнозирования , рассмотренных выше, существуют менее распространенные модели и методы прогнозирования . Главным недостатком моделей и методов , упомянутых в настоящем разделе, является недостаточная методологическая база , т. е. недостаточно подробное описание возможностей как моделей, так и путей определения их параметров. Кроме того, в открытом доступе можно найти лишь небольшое количество статей, посвященных применению данных методов.

Метод опорных векторов (support vector machine, SVM) применяется, например, для прогнозирования движения рынков и цен на электроэнергию . В основу метода положена классификация, производимая за счет перевода исходных временных рядов, представленных в виде векторов, в пространство более высокой размерности и поиска разделяющей гиперплоскости с максимальным зазором в этом пространстве. Алгоритм SVM работает в предположении, что чем больше разница или расстояние между этими параллельными гиперплоскостями, тем меньше будет средняя ошибка классификатора . При этом задача прогнозирования решается таким образом, что на этапе обучения классификатора выявляются независимые переменные (внешние факторы), будущие значения которых определяют в какой из определенных ранее подклассов попадет прогноз Z(t) .

Генетический алгоритм (genetic algorithm, GA) был разработан и часто применяется для решения задач оптимизации, а также поисковых задач. Однако некоторые модификации GA позволяют решать задачи прогнозирования.

Важными являются их простота и прозрачность моделирования. Еще одним достоинством является единообразие анализа и проектирования, заложенное в работе . На сегодняшний день данный класс моделей является одним из наиболее популярных , а потому в открытом доступе легко найти примеры применения авторегрессионных моделей для решения задач прогнозирования временных рядов различных предметных областей.

Недостатками данного класса моделей являются: большое число параметров модели, идентификация которых неоднозначна и ресурсоемка ; низкая адаптивность моделей, а также линейность и, как следствие, отсутствие способности моделирования нелинейных процессов, часто встречающихся на практике .

. Достоинствами данного класса моделей являются простота и единообразие их анализа и проектирования. Данный класс моделей чаще других используется для долгосрочного прогнозирования .

Недостатком данного класса моделей прогнозирования является отсутствие гибкости .

Нейросетевые модели и методы . Основным достоинством нейросетевых моделей является нелинейность, т.е. способность устанавливать нелинейные зависимости между будущими и фактическими значениями процессов. Другими важными достоинствами являются: адаптивность, масштабируемость (параллельная структура ANN ускоряет вычисления) и единообразие их анализа и проектирования .

При этом недостатками ANN являются отсутствие прозрачности моделирования; сложность выбора архитектуры, высокие требования к непротиворечивости обучающей выборки; сложность выбора алгоритма обучения и ресурсоемкость процесса их обучения .

Простота и единообразие анализа и проектирования являются достоинствами моделей на базе цепей Маркова .

Недостатком данных моделей является отсутствие возможности моделирования процессов с длинной памятью .

Модели на базе классификационно-регрессионных деревьев . Достоинствами данного класса моделей являются: масштабируемость, за счет которой возможна быстрая обработка сверхбольших объемов данных; быстрота и однозначность процесса обучения дерева (в отличие от ANN) , а также возможность использовать категориальные внешние факторы.

Недостатками данных моделей являются неоднозначность алгоритма построения структуры дерева; сложность вопроса останова т.е. вопроса о том, когда стоит прекратить дальнейшие ветвления; отсутствие единообразия их анализа и проектирования .

Достоинства и недостатки моделей и методов систематизированы в таблице 1.

Таблица 1. Сравнение моделей и методов прогнозирования

Модель и метод Достоинства Недостатки
Регрессионные модели и методы простота, гибкость, прозрачность моделирования; единообразие анализа и проектирования сложность определения функциональной зависимости; трудоемкость нахождения коэффициентов зависимости; отсутствие возможности моделирования нелинейных процессов (для нелинейной регрессии)
Авторегрессионные модели и методы простота, прозрачность моделирования; единообразие анализа и проектирования; множество примеров применения трудоемкость и ресурсоемкость идентификации моделей; невозможность моделирования нелинейностей; низкая адаптивность
Модели и методы экспоненциального сглаживания недостаточная гибкость; узкая применимость моделей
Нейросетевые модели и методы нелинейность моделей; масштабируемость, высокая адаптивность; единообразие анализа и проектирования; множество примеров применения отсутствие прозрачности; сложность выбора архитектуры; жесткие требования к обучающей выборке; сложность выбора алгоритма обучения; ресурсоемкость процесса обучения
Модели и методы на базе цепей Маркова простота моделирования; единообразие анализа и проектирования невозможность моделирования процессов с длинной памятью; узкая применимость моделей
Модели и методы на базе классификационно-регрессионных деревьев масштабируемость; быстрота и простота процесса обучения; возможность учитывать категориальные переменные неоднозначность алгоритма построения дерева; сложность вопроса останова

Нужно дополнительно отметить, что ни для одной из рассмотренных групп моделей (и методов) в достоинствах не указана точность прогнозирования . Это сделано в связи с тем, что точность прогнозирования того или иного процесса зависит не только от модели , но и от опыта исследователя , от доступности данных , от располагаемой аппаратной мощности и многих других факторов. Точность прогнозирования будет оцениваться для конкретных задач , решаемых в рамках данной работы.

В ряде работ , , указано, что на сегодняшний день наиболее распространенными моделями прогнозирования являются авторегрессионные модели (ARIMAX), а также нейросетевые модели (ANN) . В статье , в частности, утверждается: «Without a doubt ARIMA(X) and GRACH modeling methodologies are the most popular methodologies for forecasting time series. Neural networks are now the biggest challengers to conventional time series forecasting methods» . (Без сомнений модели ARIMA(X) и GARCH являются самыми популярными для прогнозирования временных рядов. В настоящее время главную конкуренцию данным моделям составляют модели на основе ANN .)

1.4.2. Комбинированные модели

Одной из популярных современных тенденций в области создания моделей прогнозирования является создание комбинированных моделей и методов . Подобный подход дает возможность компенсировать недостатки одних моделей при помощи других и направлен на повышение точности прогнозирования, как одного из главных критериев эффективности модели.

Одной из первых работ в этой области является статья . В ней предлагается подход, в котором прогнозирование временного ряда осуществляется в два этапа . На первом этапе на основании моделей распознавания образов (pattern recognition) выделяются гомогенные группы (patterns) временного ряда . На следующем этапе для каждой группы строится отдельная модель прогнозирования . В статье указывается, что при комбинированном подходе удается повысить точность прогнозирования временных рядов .

В работе предлагается модель для прогнозирования цен на электроэнергию Испании. При помощи вейвлет преобразования (wavelet transform) доступные значения временного ряда разделяются на несколько последовательностей, для каждой из которых строится отдельная модель ARIMA.

В обзоре моделей прогнозирования энергопотребления рассматривается следующие типы комбинаций:

  • нейронные сети + нечеткая логика ;
  • нейронные сети + ARIMA ;
  • нейронные сети + регрессия ;
  • нейронные сети + GA + нечеткая логика ;
  • регрессия + нечеткая логика .

В большинстве комбинаций модели на основе нейронных сетей применяются для решения задачи кластеризации , а далее для каждого кластера строиться отдельная модель прогнозирования на основе ARIMA, GA, нечеткой логики и др. В работе утверждается, что применение комбинированных моделей , выполняющих предварительную кластеризации и последующее прогнозирование внутри определенного кластера, является наиболее перспективным направлением развития моделей прогнозирования .

Работа посвящена вопросам кластеризации временных рядов для того, чтобы на основании полученных кластеров выполнять прогнозирование. Для кластеризации предлагается два метода: метод K- cредних (K-mean) и метод нечетких C-средних (fuzzy C-mean). Целью обоих алгоритмов кластеризации является извлечение полезной информации из временного ряда для последующего прогнозирования. Авторы утверждают, что применение кластеризации дает возможность повысить точность прогнозирования.

Применение комбинированных моделей является направлением, которое при корректном подходе позволяет повысить точность прогнозирования . Главным недостатком комбинированных моделей является сложность и ресурсоемкость их разработки : нужно разработать модели таким образом, чтобы компенсировать недостатки каждой из них, не потеряв достоинств.

Ряд исследователей пошли по альтернативному пути и разработали авторегрессионные модели , в основе которых лежит предположение о том, что временной ряд есть последовательность повторяющихся кластеров (patterns). Однако при этом разработчики не создавали комбинированных моделей, а определяли кластеры и выполняли прогноз на основании одной модели . Рассмотрим эти модели подробнее.

В работе предложена модель прогнозирования направления движения индексов рынка (index movement), учитывающая кластеры временного ряда. Пусть временной ряд содержит три значения -1, 0 и 1, которые характеризуют спад, стабильное состояние и подъем рынка соответственно. Кластером (pattern) называется последовательность для i = 1,2,...,N-M , где N - число доступных отчетов временного ряда Z(t) . Для определения прогнозного значения рассмотрена последняя доступная информация, а именно последовательность Z(N,M) = Z(N-M+1),Z(N-M+2),...,Z(N) , для которой определена ближайшая похожая (closet match) Z(Q,M) = Z(Q+1),Z(Q+2),...,Z(Q+M) . При этом функция, определяющая близость, имеет вид

т.е. близость кластеров определяется простым сравнением. Далее вычисляется прогнозное значение

Таким образом, в данной модели предполагается, что если в некоторый момент времени в прошлом рынок вел себя определенным образом, то в будущем его поведение повторится в связи с тем, что временной ряд является последовательностью кластеров.

Еще в двух работах , предложена модель прогнозирования, основанная на модели авторегрессии, но принимающая во внимание кусочки временного ряда . Здесь прогнозное значение временного ряда определено выражением

которое является линейной авторегрессией порядка M . При этом коэффициенты авторегрессии α 0 ,α 1 ,…,α M определяются следующим образом. Предполагается, что существует K кусочков (векторов) длины M временного ряда, для которых выполняется выражение


(1.28)

При определении ближайших векторов (closest vectors) Z(i 1 -1) ,Z(i 1 -2) ,…,Z(i 1 -M) ,...,Z(i K -1) ,Z(i K -2) ,…,Z(i K -M) в статье использовано значение линейной корреляции Пирсона между всеми возможными векторами и новейшим вектором (last available vector) Z(t-1) , а также, , является перспективным в области создания моделей прогнозирования временных рядов . Предложенная в диссертации модель прогнозирования развивает модели , , и устраняет все перечисленные выше недостатки: модель позволяет учитывать влияния внешних факторов; формулируется критерий определения похожей выборки для двух видов постановок задачи прогнозирования (); количество параметром модели сокращается до одного, что существенно упрощает идентификацию модели.

1.5. Выводы

1) Задача прогнозирования временных рядов имеет высокую актуальность для многих предметных областей и является неотъемлемой частью повседневной работы многих компаний.

2) Установлено, что к настоящему времени разработано множество моделей для решения задачи прогнозирования временного ряда , среди которых наибольшую применимость имеют авторегрессионные и нейросетевые модели .

3) Выявлены достоинства и недостатки рассмотренных моделей . Установлено, что существенным недостатком авторегрессионных моделей является большое число свободных параметров, требующих идентификации; недостатками нейросетевых моделей является ее непрозрачность моделирования и сложность обучения сети.

4) Определено, что наиболее перспективным направлением развития моделей прогнозирования с целью повышения точности является создание комбинированных моделей , выполняющих на первом этапе кластеризацию, а затем прогнозирование временного ряда внутри установленного кластера.

Привет.
Я хочу рассказать об одной задаче, которая очень заинтересовала меня в свое время, а именно, о задаче прогнозирования временных рядов и решении этой задачи методом муравьиного алгоритма.

Для начала вкратце о задаче и о самом алгоритме:

Прогнозирование временных рядов подразумевает, что известно значение некой функции в первых n точках временного ряда. Используя эту информацию необходимо спрогнозировать значение в n+1 точке временного ряда. Существует множество различных методов прогнозирования, но на сегодняшний день одними из самых распространенных являются метод Винтерса и ARIMA модель. Подробнее о них можно почитать .

О том что такое муравьиный алгоритм говорилось уже довольно много. Для тех кому лень лезть, например, сюда , перескажу. Вкратце, муравьиный алгоритм это моделирование поведения муравьиной колонии в их стремлении найти кратчайший путь к источнику еды. Муравьи, при движении оставляют за собой след феромона, который влияет на вероятность выбора муравьем данного пути. Учитывая то, что муравьи будут за один и тот же промежуток времени пройти короткий путь бОльшее количество раз, на нем будет оставаться больше феромона. Таким образом, с течением времени, все больше муравьев будут выбирать кратчайший путь к источнику пищи.
Для наглядности, вставлю картинку:

Теперь, перейдем непосредственно к решению задачи прогнозирования методом муравьиных колоний.
Первая проблема с которой мы сталкиваемся - необходимо представить временной ряд в виде графа, на котором будем запускать муравьиный алгоритм.
Было найдено два возможных решения:
1. Представить временной ряд в виде мультиграфа где из каждой точки временного ряда можно перейти в каждую набором определенных приростов. (Для облегчения задачи будем брать нормализованные значения на промежутке от -1 до 1). Это был первый подход, который мы попробовали. Он показал неплохой результат на временных рядах малой размерности, но с увеличением размерности стала резко падать как точность прогноза, так и производительность, поэтому от этого варианта отказались.
2. Представить временной ряд в виде набора сцепленых графов, где каждый граф отвечает за свою величину прироста значения временного ряда. иначе говоря, имеем граф который отвечает за прирост -1, -0,9… и так до 1. Шаг, естественно, можно уменьшить, или увеличить, что скажется на точности прогноза и ресурсоемкости задачи.(в конечном итоге этот вариант оказался наиболее удачным.)

На этом наборе сцепленных графов, запускался муравьиный алгоритм(на каждом графе свой), который откладывал феромон на ребрах, соответствующих известным значениям временного ряда. Причем, при откладывании феромона на графе i, феромон также откладывался на графах i-1и i+1, но в гораздо меньшем количестве(в нашем случае 1/10 от базового количества феромона) таким образом, муравьи выделяли наиболее часто встречающиеся последовательности прироста значения временного ряда, а за счет откладывания феромона на смежные графы, нивелировалась возможная погрешность и изначальная зашумленность временного ряда.

Данный алгоритм мы тестировали на искусственно подготовленных временных рядах с разным уровнем периодичности и шума. Результат получился двояким. С одной стороны, при уровнях шума до 0,3 алгоритм показывает высокие результаты прогноза, сравнимые с результатами ARIMA модели. На более высоких уровнях шума возникает большой разброс результатов: прогноз то очень точный, то совершенно неправильный.

В настоящий момент мы работаем над подбором оптимального значения параметров алгоритма и некоторыми методами его улучшения, о которых я напишу как только они будут в достаточной степени проверены.

Спасибо всем за внимание.

Upd: Постараюсь ответить на возникшие вопросы.
Мультиграф - это граф, каждая вершина которого соединена с каждой.

Хаотические ряды, как уже писали ниже, не случайны. Вы можете посмотреть на изображения ряда Лоренца в 3-х мерном пространстве и увидите цикличность движения. Просто определить эту цикличность сложно, и на первый взгляд ряд выглядит случайным.

Значения временного ряда нормализуются на промежутке -1...1 и записываются в граф. Граф - в данном случае таблица переходов из вершины в вершину. Феромон откладывается на ребра(в ячейки таблицы).

В случае со сцепленными графами используется несколько таблиц, каждая из которых отвечает только за свою величину перехода.

В зависимости от количества феромона в той, или иной ячейке, выбирается то, или иное значение временного ряда, как результат прогноза.

Алгоритм тестировали, преимущественно, на ряде Лоренца.

На данный момент рано говорить о том насколько он лучше или хуже. Похоже, что алгоритм подвержен нахождению псевдопериодов и с ростом уровня шума количество ложных периодов возрастает.
С другой стороны, при удачно подборе параметров точность прогноза достаточно высокая(отклонение до 7-10 процентов, что для хаотического ряда неплохо.)

К тестированию на реальных данным перейдем позже. Картинки постараюсь подготовить и добавить в ближайшее время.

Спасибо за внимание.

Анализ временных рядов (АВР) – простейший метод восстановления зависимости в детерминированном случае, исходя из заданного временного ряда. Основная задача – экстраполяция (прогноз) – самый постой способ прогноза рыночной ситуации. Суть его – распространение тенденций, сложившихся в прошлом и будущем.

Многие рыночные процессы обладают инертностью, что учитывают при прогнозах. На определенный период следует максимально принимать во внимание вероятность изменения условий функционирования рынка. Делается предположение, что система эволюционирует в достаточно стабильных условиях. Чем система крупнее, тем вероятнее сохранение параметров без изменения, но не на большой срок. Рекомендуется, чтобы период прогноза не превышал 1/3 длительности исходной временной базы.

Временной ряд – серия числовых величин, полученных через регулярные промежутки времени Основное положение, на котором базируется использование временных рядов на предприятии – факторы, влияющие на отклик изучаемой системы, действующие в прошлом, настоящем и подобным образом будут действовать в недалеком будущем.

Цель анализа – оценка и выделение факторов с целью прогноза дальнейшего поведения системы и выработки рациональных УР. Прогноз на основе АВР – краткосрочный, в отношении периода, которого принимается, характеристики изучаемого явления существенно не изменяются. Большинство прогнозных ошибок связано с тем, что прогноз предполагает сохранение прошлых тенденций в будущем. Эта гипотеза редко оправдывается в экономической и общественной жизни.

ВР могут стать плохой основой для разработки прогноза, поэтому методы прогнозирования и АВР применяют для краткосрочного прогнозирования достаточно стабильных и хорошо изученных процессов. Прогнозируемый период не превышает 25-30% исходной временной базы. При использовании уравнения регрессии прогнозные расчеты проводят для оптимистических и пессимистических оценок исходных параметров. Отсюда получают 2 вида прогнозов: оптимистический и пессимистический. Прогнозную оценку, получаемую на основе методов прогнозирования, используют как индикатор желаемой величины прогнозного параметра.

ВР включает в себя:

1) тренд – показывает общий тип изменений, долгосрочного уменьшения и увеличения ряда,

2) сезонные колебания – колебания вокруг тренда, которые возникают на регулярной основе.

Обычно регулярные колебания возникают в период до года. Могут отслеживаться при ежеквартальных, ежемесячных, еженедельных и т.д. наблюдениях.

3) циклические колебания – возникают в периоды свыше года. Часто присутствуют в финансовых данных и связаны с резким спадом, бурным ростом и периодом застоя.


4) случайные колебания – непредсказуемые колебания в большинстве реальных ВР.

Требования к данным временного ряда

Все методы прогнозирования используют математическую статистику, поэтому необходимо, чтобы все данные были сопоставимы, достаточно представлены для проявления закономерности однородные и устойчивые. Невыполнение одного из этих требований делает бессмысленным применение математической статистики.

1. Сопоставимость достигается в результате одинакового подхода, к наблюдениям на разных этапах формирования временного ряда. Данные во временных рядах должны выражаться в одних и тех же единицах измерениях, иметь одинаковый шаг наблюдений, рассчитываться для одного и того же интервала времени по одной и той же методике, охватывать одни и те же элементы, принадлежащие одной территории и относящиеся к неизменной совокупности.

Несопоставимость данных чаще всего проявляется в стоимостных показателях. Даже в тех случаях когда значения этих показателей фиксируются в неизменных ценах. Такого рода несопоставимость временных рядов невозможно устранить чисто формальными методами.

2. Представительность данных характеризуется, прежде всего, полнотой представленных данных. Достаточное число наблюдений определяется в зависимости от цели проводимого исследования. Если целью является описательный статистический анализ, то в качестве изучаемого интервала времени можно выбрать любой интервал по своему усмотрению. Если же цель исследования - построение модели прогнозирования, то число данных исходного временного ряда должно не менее чем в 3 раза превышать период прогноза и не должно быть менее 7 данных. В случае использования квартальных или месячных данных для исследования сезонности и прогнозирования сезонных процессов, исходный временной ряд должен содержать квартальные либо месячные данные не менее чем за 4 года, даже если прогноз требуется на 1 или 2 месяца.

3.Однородность – отсутствие нетипичных аномальных наблюдений, а так же изломов тенденций (изменение). Аномальность приводит к смещению оценок и как следствие к искажению результатов анализа. Формально аномальность проявляется как сильный скачок или спад с последующим приблизительным восстановлением предыдущего уровня. Для диагностики аномальных наблюдений разработаны различные стандартные критерии.

4. Устойчивость – это свойство отражает преобладание закономерности над случайностью в изменениях уровня и ряда. На графиках устойчивых временных рядов даже визуально прослеживается закономерность. А на графиках неустойчивых временных рядов – изменения представлены хаотично. Поэтому поиск закономерностей в таких временных рядах не имеет смысла.

Модели временных рядов

Статистические методы исследования исходят из предположения возможности представления значений временного ряда в виде комбинации нескольких компонентов, отражающих закономерность и случайность развития. В частности для краткосрочных прогнозов применяется аддитивная (адаптивная) и мультипликативная модели.

1. Адаптивная (аддитивная)

Y(t) = T(t) +S(t) + F(t)

t - номер временного интервала

T(t) – тренд развития (долговременная тенденция)

S(t) – сезонная компонента

Е(t) – остаточная компонента

2. Мультипликативная

Y(t) = T(t)*S(t)*F(t)

При односильном постоянстве амплитуды сезонной волны целесообразно использовать аддитивную модель. При изменении амплитуды сезонной волны соответствие с тенденцией среднего уровня используется мультипликативная модель. Иногда используются модели смешанного типа, они дают более точный результат, но содержательно плохо интерпретируются. Применение мультипликативной модели обусловлено тем что в некоторых временных рядах значение сезонной компоненты представляет собой определенную долю трендового значения. Практика показывает что случаи, когда сезонные колебания исследуемого процесса велики и не очень стабильны, мультипликативная модель дает плохие результаты. Сезонная компонента характеризует устойчивые и внутригодичные колебания уровней – она проявляется в некоторых показателях представленных квартальными или месячными данными.

В моделях с аддитивной и мультипликативной компонентой общая процедура анализа примерно одинаковая.

Надо сделать:

1) расчет значений сезонной компоненты

2) вычитание сезонной компоненты из фактических значений – этот процесс называется десезонализации (устранение сезонности)

3) расчет ошибок как разности между фактическими и трендовыми значениями

4) расчет среднего отклонения или средней квадратической ошибки

В прогнозировании также применяются модели кривых роста.

Кривые роста – математические функции предназначенные для аналитического выравнивания временного ряда.

Для описания кривых роста используются следующие функции

2. Парабола Y(t) = a+bt =ct 2

3. Гипербола Y(t) = a +b/t

4. Степенная

5. Показательная

6. Логарифмическая

7. Кривая Джонсона

8. Модифицированная экспонента

Сглаживание временных рядов

Выявление основной тенденции развития называется выравниванием или сглаживание временного ряда. Методы выявления основной тенденции – это методы выравнивания.

Один из наиболее простых приемов обнаружения общей тенденции развития явления – это укрупнение интервала динамического ряда. Для выявления тенденций развития используется метод скользящего среднего или метод экспоненциального сглаживания. Оба метода субъективны в отношении выбора параметров сглаживания. И именно в корректном выборе параметров проявляется интуиция исследователя.

Метод скользящего среднего – крайне субъективен и на результаты сглаживания сильно влияет длина периода сглаживаний. При небольших периодах не удается выявить трендовую компоненту. При больших периодах происходят значительные потери данных на концах анализируемого интервала.

Скользящая средняя порядка L – это временной ряд состоящий из среднеарифметических и среднеарифметических L в соседних значениях функции Y по всем возможным значениям времени. В качестве L – нечетное число, 3, 5,7 - трехточечные, пятиточечные и семиточечные.

Трехточечная схема : среднее значение будет рассчитываться по 3м значениям Yi, одно из которых относится к прошлому периоду, второе к искомому и 3 к будущему периоду. При i = 1 не существует прошлого значение, то в первой точке невозможно рассчитать сглаженное значение. При i = 2 то среднее значение будет средним арифметическим.

В последней точке исходного интервала скользящее среднее также невозможно рассчитать из-за отсутствия будущего значения по отношению к рассчитываемому.

Метод экспоненциального сглаживания – в отличие от скользящего среднего может быть использован для краткосрочным прогнозов в будущей тенденции на один период вперед. Именно поэтому метод обладает явным преимуществом перед предыдущим.

Алгоритм расчета сглаженных значений в любой точке ряда основан на 3х величинах: наблюдаемом значении Yi в данной точке, рассчитанном сглаженном значении для предшествующей точки ряда и некоторым заранее заданным коэффициентам сглаживания, постоянным по всему ряду.

Fi = α*Yi +(α-1)*Fi

Yi –фактическое значение итой точки ряда.

Сглаженное значение для предшествующей точки ряда - (альфа-1)

Альфа может принимать любые значения от 0 до1, но обычно на практике ограничиваются интервалом от 0,2 до 0.5

Метод Хольта. L t =k*Y t +(1-k)*(L t-1 -T t-1), где

L t – сглаженная величина на текущий период;

K – коэффициент сглаживания ряда;

Y t – текущие значение ряда (например, объём продаж);

L t-1 – сглаженная величина за предыдущий период;

T t-1 – значение тренда за предыдущий период.

Данные за прошлые периоды можно использовать для прогнозирования.

Множество данных, где время является независимой переменной, называется временным рядом .

Общее изменение со временем результативного признака называется трендом . Мы рассмотрим модели линейного тренда , то есть параметры тренда модно рассчитать с помощью модели линейной регрессии.

Сезонная вариация – это повторение данных через небольшой промежуток времени. Под «сезоном» можно понимать день, и неделю, и месяц, и квартал. Если же промежуток времени будет длительным, то это – циклическая вариация . Мы остановимся на изучении данных для небольших интервалов времени, поэтому циклическую вариацию исключим из рассмотрения.

Сначала на основании прошлых данных определяется сезонная вариация. Исключив сезонную вариацию (проведя так называемую десезонализацию данных ), с помощью модели линейной регрессии находим уравнение тренда. По уравнению тренда и прошлым данным вычисляем величины ошибок. Это среднее абсолютное отклонение
, где - это разность фактического и прогнозного значений в момент времениt , n – число наблюдений.

Анализ аддитивной модели.

Для аддитивной модели фактическое значение фактическое значение A = трендовое значение T + сезонная вариация S + ошибка E .

Пример 50 . Предположим, что нам известен объем прожаж (тыс. руб.) за последние 11 кварталов. Дадим на основании этих данных прогноз объема продаж на следующие два квартала.

Номер квартала

Объем продаж

Оценка сезонной вариации

Заполним следующую таблицу. Оценки сезонной вариации запишем под соответствующим номером квартала году. В каждом столбце вычисляем среднее значение оценок сезонной вариации = (сумма чисел в столбце)/ (количество чисел в столбце). Результат запишем в строке «Среднее» (округления взяты до одной цифры после запятой). Сумма чисел в строке «Среднее» = -1.

Скорректируем значения в строке «Среднее», чтобы общая сумма была равна 0. Это необходимо, чтобы усреднить значения сезонной вариации в целом за год. Корректирующий фактор вычисляется следующим образом: сумма оценок сезонных вариаций (-1) делится на число кварталов в году (4). Поэтому из каждого числа этой строки нужно вычесть -1/4= -0,25. Так как у нас округления до одной цифры после запятой, то из нечетных столбцов вычтем -0,3, а из четных столбцов вычтем -0,2. В последней строке получены значения сезонной вариации для соответствующего квартала года.

Номер квартала в году

Номер квартала

Объем продаж

Сезонная вариация

A - S = T + E

Уравнение линии тренда T = a + b * x , где - номерi - го квартала.

Найдем коэффициенты a и b

где - номерi - го квартала, а - значение сезонной вариацииi - го квартала.

Номер квартала

x 2

a =1,9 и b =1,1.

T = 1,9+ 1,1 x .

i

, где - объем продаж,- сезонная вариация,- трендовое значение вi -ом квартале.

i x

Составим таблицу

Объем продаж A

Десезонализированный объем продаж A - S = T + E

Трендовое значение

Ошибка

И среднеквадратическая ошибка

Прогноз объема продаж в 12-м квартале: (1,9+1,1*12)+(-0,9)=14,2 тыс.руб.

Прогноз объема продаж в 13-м квартале: (1,9+1,1*13)+2=18,2 тыс.руб.

Задача 50. В таблице указан объем продаж (тыс. руб.) за последние 11 кварталов. Дать на основании этих данных прогноз объема продаж на следующие два квартала.

На первом шаге нужно исключить влияние сезонной вариации. Воспользуемся методом скользящей средней. Заполним таблицу.

Номер квартала

Объем продаж

Скользящая средняя за 4 квартала

Центрированная скользящая средняя

Оценка сезонной вариации

1 год = 4 квартала. Поэтому найдем среднее значение объема продаж за 4 последовательных квартала. Для этого нужно сложить 4 последовательных числа из 2-го столбца (объем продаж), эту сумму умножить на 4 (количество слагаемых) и результат записать в 3-й столбец напротив 3-го слагаемого.

Если при заполнении 3-го скользящая средняя вычислялась для четного числа сезонов, то вычисляется центрированная скользящая средняя по следующему правилу: полусумму двух соседних чисел из 3-го столбца запишем в четвертый столбец напротив верхнего из них. В противном случае (если скользящая средняя вычислялась для нечетного числа сезонов) центрированную скользящую среднюю вычислять не надо.

5-й столбец (оценка сезонной вариации) – это разность объема продаж и скользящей средней, в случае если последняя вычислялась для нечетно числа сезонов или разность объема продаж и центрированной скользящей средней в противном случае.

Заполним следующую таблицу. Оценки сезонной вариации запишем под соответствующим номером квартала году. В каждом столбце вычисляем среднее значение оценок сезонной вариации = (сумма чисел в столбце)/ (количество чисел в столбце). Результат запишем в строке «Среднее» (округления взяты до одной цифры после запятой). Сумма чисел в строке «Среднее» .

Скорректируем значения в строке «Среднее», чтобы общая сумма была равна 0. Это необходимо, чтобы усреднить значения сезонной вариации в целом за год. Корректирующий фактор вычисляется следующим образом: сумма оценок сезонных вариаций. Поэтому из каждого числа этой строки нужно вычесть = 0,593. В последней строке получены значения сезонной вариации для соответствующего квартала года.

Номер квартала в году

Скорректированная сезонная вариация

Исключим сезонную вариацию из фактических данных. Проведем десезонализацию данных.

Номер квартала

Объем продаж

Сезонная вариация

Десезонализированный объем продаж

A - S = T + E

Из чисел 2-го столбца вычитаем числа 3-го столбца и результат пишем в 4-м столбце.

Уравнение линии тренда T = a + b * x , где - номерi - го квартала.

Найдем коэффициенты a и b по данным следующим формулам:

где - номерi - го квартала, а - значение сезонной вариацииi - го квартала.

Для упрощения расчетов по указанным формулам заполним таблицу

Номер квартала

x 2

Подставляя соответствующие данные из таблицы в приведенные выше формулы получим: a =1,97 и b =1,12.

Итак, уравнение тренда запишется так T = 1,97+ 1,12 x .

Теперь займемся расчетом ошибок.

Для этого необходимо найти величины - разность фактического и прогнозного значения вi -ом квартале по следующей формуле:

, где - объем продаж,- сезонная вариация,- трендовое значение вi -ом квартале.

Чтобы вычислить трендовое значение в i -ом квартале воспользуемся соответствующей формулой приведенной выше подставляя в нее вместо x номер соответствующего квартала.

Составим таблицу

Объем продаж A

Десезонализированный объем продаж A - S = T + E

Трендовое значение

Ошибка

Среднее абсолютное отклонение и среднеквадратическая ошибка . Мы видим, что ошибки достаточно велики. Это скажется на качестве прогноза.

Дадим прогноз объема продаж на следующие два квартала.

прогноз = трендовое значение + скорректированная сезонная вариация.

Мы считаем, что тенденция, выявленная по прошлым данным, сохранится и в ближайшем будущем. Подставляем номера кварталов в формулу и учитываем скорректированную сезонную вариацию. T = 1,97+ 1,12 x .

Прогноз объема продаж в 12-м квартале: (1,97+1,12*12)+(-0,453)=14,957 тыс.руб.

Прогноз объема продаж в 13-м квартале: (1,97+1,12*13)+ 1,047=17,577 тыс.руб.