Диссертация «Модель прогнозирования временных рядов по выборке максимального подобия». Глава 4. Программная реализация и оценка эффективности модели экстраполяции по выборке максимального подобия

Аватар пользователя chuchueva
Диссертация «Модель прогнозирования временных рядов по выборке максимального подобия». Глава 4. Программная реализация и оценка эффективности модели экстраполяции по выборке максимального подобия

Скачать полный текст диссертации в формате PDF (2.9 Мб).

Глава 1. Постановка задачи и обзор моделей прогнозирования временных рядов
Глава 2. Модели экстраполяции временных рядов по выборке максимального подобия
Глава 3. Метод прогнозирования на модели экстраполяции по выборке максимального подобия
Глава 4. Программная реализация и оценка эффективности модели экстраполяции по выборке максимального подобия
Список литературы

Глава 4. Программная реализация и оценка эффективности модели экстраполяции по выборке максимального подобия

4.1 Прогнозирование показателей энергорынка РФ
4.1.1. Программная реализация
4.1.2. Прогнозирование цен на электроэнергию
4.1.3. Прогнозирование энергопотребления
4.2. Прогнозирование других временных рядов
4.2.1. Уровень сахара крови человека
4.2.2. Скорость движения транспорта по дорогам Москвы
4.2.3. Финансовые временные ряды
4.3. Выводы
4.4. Выводы по диссертации

4.1. Прогнозирование показателей энергорынка РФ

Оптовый рынок электроэнергии и мощности РФ существует с сентября 2009 года. Как и всякий либерализованный энергорынок рынок РФ устроен таким образом, чтобы каждый его участник — генерирующая компания или потребитель электроэнергии, планировали как можно точнее объемы своей выработки и энергопотребления. От точности планирования своей работы на рынке зависит финансовый результат участника. Во многих компаниях существуют подразделения планирования или прогнозирования, которые решают поставленные рынком задачи. Для более эффективного решения задач планирования в качестве входной информации требуются не только показатели собственного потребления или выработки, но и общерыночные.

Одним из поставщиков общерыночной информации является ЗАО «РусПауэр», созданное в 2008 году. Компания предоставляет участникам энергорынка информацию в виде специальных отчетов, сгруппированных по так называемым продуктам. На сегодняшний день одним из продуктов «РусПауэр» являются «Прогнозы» — набор отчетов, содержащих прогнозные значения по 19 временным рядам общих показателей энергорынка РФ для трех горизонтов [49]. Разработка программного комплекса для прогнозирования общих показателей рынка с целью формирования продукта «Прогнозы» по заказу компании «РусПауэр» является частью настоящей диссертации.

4.1.1. Программная реализация

Для создания аналитического продукта «Прогнозы», содержащего прогнозные значения 19 показателей оптового рынка электроэнергии РФ, компанией «РусПаэур» была поставлена задача реализации алгоритмов прогнозирования как самостоятельного серверного приложения, способного работать без вмешательства экспертов. На сегодняшний день подавляющее большинство серверов используют семейство операционных систем UNIX. При выборе языка программирования и системы управления базами данных (СУБД) принимались в расчет следующие требования:

  • разработка и эксплуатация серверного приложения под управлением широкого набора операционных систем;
  • наличие готовых библиотек, содержащих реализацию известных математических функций, а также библиотек, реализующих взаимодействие приложения с различными источниками данных, без лицензионных ограничений;
  • наличие библиотек для обращения к серверу системы управления базами данных без лицензионных ограничений.

Для разработки был выбран компилируемый язык программирования JAVA [50], который

  • работает под управлением наибольшего числа операционных систем,
  • широко применяется для создания серверных приложений и имеет в открытом доступе набор требуемых документированных библиотек без лицензионных ограничений,
  • предоставляет средства для разработки приложений.

В качестве сервера СУБД был выбран MySQL [51], также работающий по управлением широкого набора операционных систем и имеющий высокую производительность. На сегодняшний день MySQL является наиболее распространенной сервером СУБД, не имеющим лицензионных ограничений.

Согласно требованиям компании «РусПауэр» был создан программный комплекс, состоящий из функциональных блоков, представленных на рисунке 4.1.

Структура программного комплекса для прогнозирования показателей энергорынка РФ

Рис. 4.1. Структура программного комплекса для прогнозирования показателей энергорынка РФ

Блок «Scheduler» выполняет управление процессом ежедневного прогнозирования. Для каждого временного ряда и каждого времени упреждения (сутки, неделя и месяц вперед) создаются три программные задачи:

  • импорт фактических данных временного ряда за прошедшие сутки из XML-макетов с сайта биржи;
  • прогнозирование временного ряда на модели EMMSP;
  • экспорт прогнозных значений ряда в формат CSV.

Блок «Scheduler» управляет запуском по времени и проверкой корректности завершения каждой задачи в текущих сутках, а также создает новые задачи для расчета в будущих сутках. Созданная система прогнозирования не имеет графического интерфейса, работает автономно и не требует вмешательства эксперта.

Блок «TimeSeries Import» извлекает из XML формата фактические значения для всех временных рядов энергопотребления и цен на электроэнергию, и загружает полученные значения временных рядов в базу данных.

Блок «Forecast» выполняет прогнозирование 19 временных рядов показателей энергорынка РФ при помощи модели EMMSP. В рамках данного модуля реализованы алгоритмы экстраполяции временных рядов с учетом и без учета внешних факторов (разделы 3.1., 3.2.). На сегодняшний день в виду текущей постановки задачи прогнозирования используется только модель EMMSP. Однако блок «Forecast» содержит реализованный алгоритм для прогнозирования на модели EMMSPX, который планируется использовать в дальнейшем.

Алгоритмы идентификации модели и оценки доверительных интервалов (3.3. и 3.4.) реализованы в программной среде MATLAB. Согласно требованиям компании «РусПауэр», разработанное серверное приложение должно предоставлять лишь прогнозные значения показателей энергорынка без оценки доверительного интервала.

Блок «TimeSeries Export» создает CSV файл, содержащий прогнозные значения временных рядов показателей энергорынка РФ и размещает файлы на FTP-сервере.

Разработанная система отвечает требованиям ЗАО «РусПауэр». В разделах 4.1.2. и 4.1.3. представлены результаты прогнозирования показателей энергорынка РФ, в том числе результаты прогнозирования выполнены по заказу компании «РусПауэр».

4.1.2. Прогнозирование цен на электроэнергию

Целью прогнозирования цен на электроэнергию – цен рынка на сутки вперед и цен балансирующего рынка – является определение будущих значений, которые необходимы участникам энергорынка для планирования работы. Генерирующие компании на основании прогноза цен на месяц вперед планируют расход топлива (в первую очередь газа и угля) на выработку электроэнергии; на основании прогноза цен на неделю вперед генерирующие компании планируют состав включенного оборудования и на основании прогноза на сутки вперед планируют краткосрочный график нагрузки станции [52]. Компаниям-потребителям прогноз цен необходим для финансового планирования [53]. Обоим типам компаний прогноз цен на электроэнергию необходим для оценки и хеджирования (скрытия) финансовых рисков.

Задача прогнозирования цен на электроэнергию является новой для России в связи с тем, что отечественный рынок является одним из самых молодых рынков электроэнергии и мощности. Особенность задачи прогнозирования цен для России состоит в том, что по мере реформирования энергорынка алгоритм расчета цен подвергается изменениям. Цены с 01.09.2006 до 01.01.2008 рассчитывались по одному алгоритму, затем алгоритм был изменен.

Исходные временные ряды цен энергорынка РФ предоставлены Открытым акционерным обществом «Системный оператор Единой энергетической системы» (далее «СО ЕЭС») и компанией «РусПауэр».

Временные ряды цен рынка на сутки вперед содержат почасовые равноотстоящие значения в руб/МВт·ч за период с 01.09.2006 по 07.08.2011, их параметры приведены в таблице 7 (№1 – 7). Временные ряды индексов хабов, т. е·цен в специально определенных зонах, (№8 – 12 таблицы 7) содержат значения за период с 15.06.2010 по 15.06.2011. Временные ряды цен балансирующего рынка для европейской территории содержат значения за период 01.01.2007 по 15.12.2009 (№13 таблицы 7), для сибирской территории за период с 21.02.2008 по 15.12.2009 (№14 таблицы 7)

Таблица 7. Параметры временных рядов цен на электроэнергию в руб/МВт·ч

Временной ряд Длина ряда Среднее значение Стандарт. отклонение Мин. знач. Макс. знач.
1 Цена РСВ ЕЦЗ 43224 717 237 0 2135
2 Цена РСВ СЦЗ 43224 423 168 0 1030
3 Цена РСВ ОЭС Урала 43224 696 217 0 2715
4 Цена РСВ ОЭС Средней Волги 43224 717 251 0 2128
5 Цена РСВ ОЭС Юга 43224 795 272 0 2396
6 Цена РСВ ОЭС Северо-Запада 43224 686 247 0 2220
7 Цена РСВ ОЭС Центра 43224 728 255 0 2268
8 Индекс Центр 10032 971 171 48 2216
9 Индекс Юг 10032 1044 198 9 2366
10 Индекс Урал 10032 907 144 530 1879
11 Индекс Восточная Сибирь 10032 484 74 87 726
12 Индекс Западная Сибирь 10032 563 87 282 955
13 Цена БР ЕЦЗ 25920 629 250 0 3309
14 Цена БР СЦЗ 15936 481 173 0 1372
15 Цена БР ОЭС Урала 25920 622 242 0 3046
16 Цена БР ОЭС Средней Волги 25920 621 258 0 3095
17 Цена БР ОЭС Юга 25920 702 300 0 4033
18 Цена БР ОЭС Северо-Запада 25920 616 270 0 3401
19 Цена БР ОЭС Центра 25920 634 265 0 3172

Абб.: РСВ – рынок на сутки вперед; ЕЦЗ – европейская ценовая зона; СЦЗ – сибирская ценовая зона; ОЭС – объединенная энергосистема; БР – балансирующий рынок.

Прогнозирование временных рядов цен осуществлялось на неделю вперед и на сутки вперед. Время упреждения указано в таблице 8, содержащей результаты расчетов:

  • время упреждения P = 24 – прогнозирование на сутки вперед;
  • время упреждения P = 168 – прогнозирование на неделю вперед.

Прогнозирование цен на электроэнергию и энергопотребления на месяц вперед выполняется на модели ARIMA и не является частью диссертации. Контрольный период для каждого временного ряда указан в таблице 8.

Наборы моделей №1–12 созданы по дням недели: каждый день недели имеет собственный параметр модели M (приложение 1, таблицы 17 – 28).

Таблица 8. Результаты прогнозирования цен рынка на сутки вперед

Временной ряд Контрольный период Время упреждения Параметр модели M MAE (MAPE)
1 Цена РСВ ЕЦЗ 01.09.10 – 07.08.11 (более 8000 значений) 24 Набор №1 47 (4.84%)
168 288 50 (5.07%)
2 Цена РСВ CЦЗ 24 Набор №2 39 (7.22%)
168 228 56 (10.14%)
3 Цена РСВ ОЭС Урала 01.04.11 – 07.08.11 (более 3000 значений) 24 Набор №3 45 (4.69%)
168 384 60 (6.32%)
4 Цена РСВ ОЭС Средней Волги 24 Набор №4 42 (4.21%)
168 216 54 (5.49%)
5 Цена РСВ ОЭС Юга 24 Набор №5 61 (15.85%)
168 264 84 (17.61%)
6 Цена РСВ ОЭС Северо-Запада 24 Набор №6 72 (7.86%)
168 216 102 (11.14%)
7 Цена РСВ ОЭС Центра 24 Набор №7 45 (5.58%)
168 144 61 (7.01%)
8 Индекс Центр 01.04.11 – 07.08.11 (более 3000 значений) 24 Набор №8 44 (5.16%)
168 96 62 (6.98%)
9 Индекс Юг 24 Набор №9 60 (9.3%)
168 240 83 (11.8%)
10 Индекс Урал 24 Набор №10 44 (4.64%)
168 216 57 (6.01%)
11 Индекс Восточная Сибирь 01.04.11 – 07.08.11 (более 3000 значений) 24 Набор №11 42 (8.25%)
168 360 52 (10.47%)
12 Индекс Западная Сибирь 24 Набор №12 50 (8.55%)
168 144 78 (13.45%)

Полученные для краткосрочного прогнозирования цен значения MAPE лежат в диапазоне от 4.21% до 15.85% для прогнозирования на сутки вперед; в диапазоне от 5.07% до 17.61% для прогнозирования на неделю вперед.

Прогнозирование цен балансирующего рынка выполнено двумя моделями: EMMSP и EMMSPX. Бизнес-процессы энергорынка РФ устроены таким образом, что при прогнозировании цен балансирующего рынка доступны фактические значения цен рынка на сутки вперед, а также объем планового энергопотребления. Прогнозирование осуществлялось на 24 значения вперед, контрольным периодом являлся период с 01.03.2009 по 30.09.2009 (более 5 000 значений). Результаты прогнозирования представлены в таблице 9.

Таблица 9. Результаты прогнозирования цен балансирующего рынка

Временной ряд Модель Параметр Внешний фактор MAE (MAPE)
1 Цена БР ЕЦЗ EMMSP 360 81.45 (13%)
EMMSPX 312 Цена РСВ ЕЦЗ 44.71 (7%)
156 Энергопотребление ЕЦЗ 63.16 (10%)
708 Цена РСВ ЕЦЗ и энергопотребление ЕЦЗ 42.59 (7%)
2 Цена БР CЦЗ EMMSP 84 100.01 (21%)
EMMSPX 336 Цена РСВ ЕЦЗ 81.79 (17%)
288 Энергопотребление ЕЦЗ 96.25 (20%)
444 Цена РСВ ЕЦЗ и энергопотребление ЕЦЗ 80.63 (17%)
3 Цена БР ОЭС Урала EMMSP 360 73.2 (12%)
EMMSPX 192 Цена РСВ ЕЦЗ 53.77 (9%)
168 Энергопотребление ЕЦЗ 64.06 (10%)
612 Цена РСВ ЕЦЗ и энергопотребление ЕЦЗ 52.1 (8%)
4 Цена БР ОЭС Средней Волги EMMSP 72 80.55 (13%)
EMMSPX 360 Цена РСВ ЕЦЗ 44.76 (7%)
228 Энергопотребление ЕЦЗ 62.25 (10%)
708 Цена РСВ ЕЦЗ и энергопотребление ЕЦЗ 44.94 (7%)
5 Цена БР ОЭС Центра EMMSP 360 74.39 (12%)
EMMSPX 312 Цена РСВ ЕЦЗ 50.15 (8%)
204 Энергопотребление ЕЦЗ 67.16 (11%)
684 Цена РСВ ЕЦЗ и энергопотребление ЕЦЗ 46.08 (7%)
6 Цена БР ОЭС Северо-Запада EMMSP 348 80.32 (13%)
EMMSPX 348 Цена РСВ ЕЦЗ 59.18 (10%)
228 Энергопотребление ЕЦЗ 69.46 (11%)
468 Цена РСВ ЕЦЗ и энергопотребление ЕЦЗ 58.02 (9%)
7 Цена БР ОЭС Юга EMMSP 336 112.48 (16%)
EMMSPX 360 Цена РСВ ЕЦЗ 71.23 (10%)
244 Энергопотребление ЕЦЗ 82.86 (12%)
612 Цена РСВ ЕЦЗ и энергопотребление ЕЦЗ 69.77 (10%)

Абб.: БР – балансирующий рынок, ЕЦЗ – европейская ценовая зона, СЦЗ – сибирская ценовая зона, РСВ – рынок на сутки вперед.

Результаты прогнозирования цен балансирующего рынка показывают, что учет внешних факторов в модели благоприятно сказывается на точности прогнозирования. Для всех временных рядов из таблицы 9 ошибка прогнозирования снизилась на 4 – 7% при учете двух внешних факторов в сравнению с моделью без учета внешних факторов. Таким образом, утверждается, что разработанная модель экстраполяции временных рядов, как и некоторые другие модели (1.3.1. , 1.3.2., 1.3.4. и 1.3.6.) способны эффективно учитывать влияние внешних факторов, повышая точность прогнозирования.

На сегодняшний день результаты прогнозирования цен энергорынка РФ, представленные в диссертации, являются одними из первых, находящихся в открытом доступе. Кроме результатов, приведенных в таблицах 8 и 9, в статьях [54],[55], [56], [57] приведены результаты краткосрочного прогнозирования цен на электроэнергию за другие контрольные периоды.

Сравнение эффективности EMMLS с моделью ANN. Очевидно, что корректно сравнить эффективность различных моделей прогнозирования можно только при условии, что эти модели используются для прогнозирования одного и того же временного ряда при единой постановке задачи и едином контрольном периоде. В рамках диссертации в ряде случаев такое сравнение проводилось.

Точность прогнозирования модели EMMSP сравнивалась с аналогичной точность прогнозирования модели ANN, разработанной Обществом с ограниченной ответственностью «BIGROUP LABS», (далее BIGroup Labs). Компания BIGroup Labs была создана в 2004 году для продвижения новейших информационных технологий на энергорынок РФ. В 2009 году BIGroup Labs разработала и программно реализовала специализированную модель на базе нейронных сетей (ANN) для прогнозирования цен РСВ и энергопотребления, которая внедрена в ряде энергосбытовых компаний, а также на промышленных предприятиях.

Временной ряд цен РСВ ЕЦЗ (временной ряд №1 в таблице 7) прогнозировался на обеих моделях на 24 значения вперед на контрольном периоде с 01.03.2009 по 30.09.2009 (более 5 000 значений). Программный комплекс прогнозирования цен РСВ, разработанный «BIGroup Labs», носит название BI EnergoPrice [58]. Сравнение точности прогнозирования двух моделей представлено в таблице 10.

Таблица 10. Сравнение точности EMMSP и ANN для цен РСВ ЕЦЗ

Модель Параметр MAE, руб/МВт·ч MAPE, % Кол-во часов точнее
1 EMMSP 360 36.98 6.68
2 EMMSP Набор №13 31.88 5.97 48%
3 ANN 31.27 6.10 52%
4 ANN + EMMSP Формула (4.1) 28.22 5.40

Модель №1 в таблице 10 имеет один параметр M = 360, ее точность ниже остальных моделей. Модель №2 является набором моделей, представленной в приложении (таблица 29); ошибка данной модели ниже на 0.71% ошибки модели №1. Результаты прогнозирования подтверждают, что применение наборов способно повысить точность прогнозирования (раздел 3.3.3.). Модель №3 разработана «BIGroup Labs».

Сравнение ошибок проводилось между моделью №2 и №3 и показало, что

  • значения MAE моделей №2 и №3 практически одинаковы,
  • значения MAPE моделей №2 и №3 также практически одинаковы,
  • в 52% часов исследуемого периода модель №3 была точнее, в 48% часов – была точнее модель №2.

Модель №4 представленная в таблице 10 является суммой прогнозных значений модели №2 и №3. Исследование ошибки показало, что наибольшую точность имеет комбинация

          (4.1)

Здесь окончательный результат прогнозирования получается как линейная комбинация результатов прогнозирования моделей №2 и №3. Модель №4 имеет максимальную точность, что показывает высокую эффективность подхода использования двух различных моделей для прогнозирования временного ряда цен рынка на сутки вперед европейской территории РФ.

Аналогичный подход к прогнозированию часто применяется в экономике, политике и других предметных областях и называется консенсус-прогноз (consensus forecast) [59]. При формировании консенсус-прогноза в расчет принимают два и более прогноза, выполняемых независимыми организациями или моделями. В работе [59] утверждается, что точность консенсус-прогноза может быть выше точности каждого из прогнозов, принимаемых во внимание. В рассмотренном случае консенсус-прогноз определяется как линейная комбинация двух независимых прогнозов.

На основании результатов работы по сравнению эффективности моделей заключим, что если две модели прогнозирования имеют приблизительно одинаковую точность, то имеет смысл исследовать модели, являющейся суммой прогнозных значений аналогично модели №4. Данный подход к прогнозированию энергопотребления продемонстрирован в разделе 4.1.3. ; к прогнозированию сахара крови – в разделе 4.2.. Во всех трех случаях линейная комбинация прогнозных значений двух различных моделей давала результат точнее, чем каждая из моделей в отдельности.

Сравнение точности прогнозирования цен на электроэнергию с точностью прогнозирования цен энергорынков Испании, Скандинавии и Онтарио (Канада) проводилось в рамках оценки эффективности предложенной модели прогнозирования. Выше отмечалось, что задача экстраполяции цен энергорынка РФ является новой, потому нет возможности выполнить широкое сравнение точности краткосрочного прогнозирования.

В работах [13], [60], [61], [62] исследуются цены энергорынка Испании. В работе [60] полученные значения MAPE при прогнозировании временного ряда цен 2000 года при помощи модели GARCH на 24 значения вперед колеблются от 2.90% до 10.40%. Во второй работе [61], также относящейся к ценам энергорынка Испании 2000 года приведены значения MAPE в диапазоне от 4.62% до 19.93%. В более поздней работе [62] для краткосрочного прогнозирования цен энергорынка Испании в 2001 году применялась регрессионная модель. Значения MAPE, полученные автором [62], колеблются в диапазоне от 4.93% до 8.31%. В самой поздней работе из рассматриваемых [13] использовалась комбинированная модель на основании ARIMA и вейвлет-преобразования. Значения MAPE для цен Испании 2002 года находятся в пределах от 4.78% до 13.78% для различных недель года.

В работе [5] проводилось исследование цен рынка Скандинавии Nordpool 2004 года. Полученные значения MAPE находятся в диапазоне от 2.54% до 13.40% для различных недель. В работе заключается, что полученные оценки MAPE подтверждают эффективность разработанной модели прогнозирования для цен энергорынка Nordpool.

В двух работах [63], [64] исследуются цены энергорынка Онтарио 2004 года (Ontario electricity market, Канада). В первой работе [63] исследовались как линейные так и нелинейные модели. Наибольшую адекватность показала модель, для которой при краткосрочном прогнозировании значение MAPE составило 16.10%. Во второй работе [64] для аналогичного контрольного периода, что и в работе [63], применялась модель на основании адаптивных регрессионных сплайнов. Оценка MAPE для второй модели находится в диапазоне от 8.60% до 13.90%, что точнее, чем в первой работе.

Во всех указанных работах отмечается, что прогноз цен на электроэнергию с оценкой MAPE до 10 – 15% является достаточно эффективным для использования в планировании. Таким образом сравнение с западными оценками для аналогичных задач показывает, что разработанная в диссертации модель EMMSP эффективна для прогнозирования цен на электроэнергию, так как полученные значения MAPE практически для всех исследованных временных рядов находится в пределах указанного диапазона (таблицы 8, 9 и 10). Отдельно отметим, что в рассмотренных работах о прогнозировании цен западных рынков оценки MAPE давались, как правило, для контрольного периода, содержащего несколько десятков или сотен значений (отдельно взятые дни или недели); в рамках диссертации оценки MAPE приводятся для контрольных периодов в несколько тысяч значений.

По итогам прогнозирования цен на электроэнергию можно сделать следующие выводы.

1) Модели EMMSP и EMMSPX применялись для прогнозирования 19 временных рядов цен энергорынка РФ общей длиной более 500 000 значений. Точности прогнозирования указанных временных рядов, представленные в работе, являются первыми полными опубликованными в открытом доступе по энергорынку РФ.

2) Сравнение эффективности разработанной в диссертации модели с программным комплексом компании BIGroup Labs показало сравнимую эффективность модели EMMSP и ANN для исследуемого временного ряда.

3) Сравнение точности прогнозирования цен рынка на сутки вперед с точностью аналогичных западных рынков показало высокую эффективность разработанной модели. В большинстве случаев ошибка краткосрочного прогнозирования цен при помощи EMMSP не выходит за границы 10%, что по оценкам западных специалистов является высокоэффективным.

4) В настоящее время ежедневно компания «РусПауэр» при помощи разработанного в рамках диссертации программного комплекса формирует прогнозы по 12 временным рядам (№1 — 12 таблицы 7) цен рынка на сутки вперед в виде аналитического продукта, используемого участниками энергорынка РФ в повседневной работе [49].

4.1.3. Прогнозирование энергопотребления

Целью прогнозирования энергопотребления является поддержание надежной работы единой энергосистемы РФ. Прогноз энергопотребления необходим, в первую очередь, системному оператору для балансирования энергосистемы РФ. С введением рынка электроэнергии и мощности взамен общему планированию каждая компания-потребитель самостоятельно прогнозирует собственное энергопотребление. Система финансовых расчетов на энергорынках устроена таким образом, чтобы мотивировать потребителей как можно точнее планировать собственное потребление: чем точнее прогноз энергопотребления, тем выше финансовый результат. В связи с этим каждая компания-потребитель заинтересована в предельно точном прогнозе собственного потребления.

Задача прогнозирования энергопотребления отличается от задачи прогнозирования цен на электроэнергию. При прогнозировании цен существует экспертно полученная оценка точности (значение MAPE 10 – 15%, 4.1.), при достижении которой прогнозные значения можно использовать для решения последующих задач и далее не заниматься усовершенствованием модели. При прогнозировании энергопотребления борьба за десятые доли процентов ведется постоянно, так как расходы компании на покупку электроэнергии напрямую зависят от точности прогноза собственного энергопотребления. В работе [53] отмечается, что при повышении средней точности прогнозирования энергопотребления ОАО «СахаЭнерго» с 5% до 4.3% предприятие в год экономит 20.4 млн. руб.

Исходные временные ряды энергопотребления предоставлены «АТС», «СО ЕЭС», «РусПауэр» и Открытым акционерным обществом «Сибирьэнерго» (далее «Сибирьэнерго»).

Временные ряды энергопотребления содержат почасовые равноотстоящие значения в МВт·ч за период с 01.09.2006 по 07.08.2011, их параметры приведены в таблице 11 (№1 – 7). Временной ряд энергопотребления «Сибирьэнерго» (№8 таблицы 11) содержит значения за период с 01.01.2005 по 19.05.2008.

Таблица 11. Параметры временных рядов энергопотребления в МВт·ч

Временной ряд Длина ряда Среднее значение Стандарт. отклонение Мин. знач. Макс. знач.
1 Энергопотребление ЕЦЗ 43224 82348 11133 57847 111723
2 Энергопотребление СЦЗ 43224 22373 3070 15329 30666
3 Энергопотребление ОЭС Урала 43224 27347 2969 19959 35099
4 Энергопотребление ОЭС Средней Волги 43224 11179 1947 6085 16640
5 Энергопотребление ОЭС Юга 43224 8726 1409 5757 12990
6 Энергопотребление ОЭС Северо-Запада 43224 7614 1249 4825 11374
7 Энергопотребление ОЭС Центра 43224 24559 4194 15604 36171
8 Энергопотребление «Сибирьэнерго» 29640 1300 369 516 2 312

Аббревиатуры: ЕЦЗ – европейская ценовая зона; СЦЗ – сибирская ценовая зона; ОЭС – объединенная энергосистема.

Прогнозирование временных рядов энергопотребления осуществлялось на два горизонта – на неделю вперед и на сутки вперед. Для каждой модели в таблице 12 указано время упреждения. Наборы моделей приведены в приложении (таблицы 30 – 37).

Таблица 12. Результаты прогнозирования временных рядов энергопотребления

Временной ряд Контрольный период Время упреждения Параметр модели M MAE (MAPE)
1 Энергопотребление ЕЦЗ 01.09.10 – 07.08.11 (более 8000 значений) 24 Набор №14 970 (1.12%)
168 264 1011 (1.31%)
2 Энергопотребление CЦЗ 24 Набор №15 373 (1.65%)
168 120 391 (1.99%)
3 Энергопотребление ОЭС Урала 01.04.11 – 07.08.11 (более 3000 значений) 24 Набор №16 234 (0.91%)
168 360 324 (1.26%)
4 Энергопотребление ОЭС Средней Волги 24 Набор №17 170 (1.65%)
168 144 193 (1.8%)
5 Энергопотребление ОЭС Юга 01.04.11 – 07.08.11 (более 3000 значений) 24 Набор №18 152 (1.83%)
168 168 280 (3.3%)
6 Энергопотребление ОЭС Северо-Запада 24 Набор №19 117 (1.67%)
168 264 216 (3.04%)
7 Энергопотребление ОЭС Центра 24 Набор №20 327 (1.53%)
168 264 643 (2.9%)
8 Энергопотребление «Сибирьэнерго» 19.05.07 – 19.05.08 (более 8000 значений) 24 Набор №21 41 (3.19%)

Полученные для краткосрочного прогнозирования энергопотребления значения MAPE лежат в диапазоне от 0.91% до 1.83% для прогнозирования на сутки вперед; в диапазоне от 1.26% до 3.30% для прогнозирования на неделю вперед.

Кроме результатов, приведенных в таблице 12, в статьях [54-57] приведены результаты краткосрочного прогнозирования энергопотребления за другие контрольные периоды.

Сравнение достигнутой точности с оценками точности прогнозирования энергопотребления, представленными в научных работах за последние годы. На сегодняшний день существует множество моделей для решения задачи прогнозирования энергопотребления, например:

Во всех указанных работах отмечена важность задачи прогнозирования энергопотребления.

Таблица 13. Обзор работ по прогнозированию энергопотребления

Работа, год публикации Временной ряд энергопотребления Полученная точность, MAPE
1 [9], 2006 Шанхайская энергосистема (Shanghai Power Grid) 2.8 – 3.4% в зависимости от модели
2 Подстанции Франкфурта (Frankfurt Substation) 2.04%
3 [65], 2010 Обзор методов прогнозирования 1.26 – 4.81% в зависимости от модели
4 [29], 2009 Энергосистема Виктории (Victorian Power System, Австралия) 2.64%
5 [48], 2008 Энергосистема штата Орисса (Восточная Индия) 2.96 – 5.27% в зависимости от алгоритма обучения модели
6 [67], 2008 Энергосистемы различных стран Европы (10 стран) 0.80 – 2.90% для различных моделей, стран и времени упреждения
7 [11], 2010 Энергосистема Малайзии 0.99%
8 [68], 2010 Энергосистема Костромской области 2 – 5% в зависимости от модели
9 [53], 2009 Потребление поселка Жиганск, Республика Саха (Якутия) 3 – 5% для различных моделей
10 [69], 2011 Энергопотребление ОАО «Мордовская энергосбытовая компания» 1.43 – 2.75% для различных дней недели
11 [70], 2007 Энергопотребление ОАО «Костромская энергосбытовая компания» 2 – 5% для различных дней недели

Из таблицы видно, что в настоящее время задача краткосрочного прогнозирования энергопотребления актуальна для различных стран. Приведенные в работах оценки значений MAPE колеблются в диапазоне от 0.80% до 5.27% в то время как точности, достигнутые с использованием EMMSP, колеблются в диапазоне от 0.91% до 1.83%. На этом основании заключим, что разработанная в диссертации модель прогнозирования энергопотребления является высокоэффективной.

Сравнение EMMSP с моделью ARIMA от компании iRM (www.irm.at, Австрия) производилось на основании результатов конкурса «Сибирьэнерго» в 2008 году.

В рамках конкурсной задачи компания «Сибирьэнерго» предоставляла данные по собственному энергопотреблению, а участники конкурса на ежедневной основе формировали прогнозные значения. Закрытое акционерное общество «Верисел Проекты» (www.vp.ru, Россия) принимало участие в данном конкурсе с продуктом компании iRM для решения задачи прогнозирования энергопотребления iOPT PRO на базе модели ARIMAX. Компания iRM со своим продуктом iOPT является одним из европейских лидеров по разработке программных продуктов для автоматизации торговли, прогнозирования, управления рисками на энергорынках Европы. Контрольный период длился с 5 по 19 мая 2008 года, то есть составил 360 часов. В рамках диссертации произведен прогноз указанного временного диапазона на разработанной модели EMMSP.

По итогам конкурса по оценке «Сибирьэнерго» продукт iOPT PRO занял второе место среди участников конкурса, уступив 0.1% компании-победителю. Таким образом, модель ARIMAX показала высокую эффективность при прогнозе энергопотребления «Сибирьэнерго».

Сравнение результатов прогнозирования продукта iOPT PRO и результатов прогнозирования на EMMSP представлены в таблице 14.

Таблица 14. Сравнение точности EMMSP и ARIMAX при прогнозе энергопотребления «Сибирьэнерго»

Модель Параметр MAE,МВт·ч MAPE, % Кол-во часов точнее
1 EMMSP 132 46.20 4.48%
2 EMMSP Набор №21 45.05 4.32% 50%
3 ARIMAX 44.63 4.21% 50%
4 ARIMA + EMMSP Формула (4.2) 31.79 3.01%

Модель №1 из таблицы 14 имеет один параметр , эта модель показала наименее точный результат. Модель №2 является набором моделей, представленным в приложении (таблица 37). Как и в случае с ценами энергорынка модель №2 имеет более высокую точность прогнозирования, что показывает эффективность применения наборов. Результаты прогнозирования модели №3 предоставлены компанией iRM.

Сравнение ошибок проводилось между моделью №2 и №3 и показало, что

  • значения MAE моделей №2 и №3 практически одинаковы,
  • значения MAPE модели №2 немного выше значения MAPE модели №3,
  • ровно в половине часов исследуемого периода модель №3 была точнее, в другой половине – была точнее модель №2.

Модель №4, представленная в таблице 14, является консенсус-прогнозом моделей №2 и №3. Исследование ошибки показало, что наибольшую точность имеет комбинация

          (4.2)

В модели №4 окончательный результат прогнозирования получается как линейная комбинация результатов прогнозирования моделей №2 и №3. Как и в случае с ценами, рассмотренном в предыдущем разделе, консенсус-прогноз имеет максимальную точность, значительно улучшая показатели модели №2 и №3.

Проведенные исследования показали, что модель прогнозирования, являющаяся линейной комбинацией двух независимых моделей имеет наибольшую эффективность при прогнозировании энергопотребления.

По итогам прогнозирования энергопотребления можно сделать следующие выводы.

1) В рамках диссертации были исследованы 8 временных рядов энергопотребления, общая длина которых составляет более 300 000 значений.

2) Полученные значения MAPE при краткосрочном прогнозировании энергопотребления лежат в диапазоне от 0.91% до 1.83% и доказывают высокую эффективность применения EMMSP для решения данной задачи.

3) Значения MAPE для среднесрочного прогнозирования лежат в диапазоне от 1.26% до 3.30% и сравнимы со значениями MAPE краткосрочного прогнозирования, приведенными в ряде новейших работ: 0.80 — 5.27%. Произведенные оценки точности результатов доказывают высокую эффективность применения разработанной модели для среднесрочного прогнозирования энегопотребления.

4) Сравнение результатов прогнозирования EMMSP и модели ARIMAX от компании iRM показало сравнимую эффективность моделей.

5) В настоящее время ежедневно компания «РусПауэр» при помощи разработанного в рамках диссертации программного комплекса формирует прогнозы по 8 временным рядам (№1 — 7 таблицы 11) энергопотребления в виде аналитического продукта, используемого участниками энергорынка РФ в повседневной работе [49].

4.2. Прогнозирование других временных рядов

В рамках диссертации были решены задачи прогнозирования других временных рядов:

  • уровня сахара крови человека;
  • скорости движения транспорта по городу Москва;
  • финансовых показателей.

Программная реализация. Для решения задач по прогнозированию каждого из приведенных выше временных рядов было разработано отдельное программное обеспечение на базе специализированного комплекса MATLAB. Программный продукт MATLAB содержит пакеты прикладных программ для решения задач технических вычислений и одноимённый язык программирования, используемый в этом пакете. MATLAB используют более 1 000 000 инженерных и научных работников, он работает на большинстве современных операционных систем, включая Linux, Mac OS, Solaris. На сегодняшний день MATLAB является наиболее широко применяемой математической средой для реализации технических вычислений, не требующих интеграции в информационное пространство предприятия [46].

4.2.1. Уровень сахара крови человека

Сахарный диабет первого типа – это метаболическое заболевание, вызванное абсолютным дефицитом секреции инсулина и характеризующееся неспособностью организма поддерживать уровень глюкозы в крови (BG – Blood Glucose) в целевом интервале 4 – 6 ммоль/л – в обычном состоянии и до 9 ммоль/л – после еды. Диабет вызывает множество опасных осложнений, избежать которые можно только путем контроля уровня BG и его удержания в физиологичном интервале. Основным путем решения этой задачи в настоящее время является введение в кровь пациента искусственных препаратов (генноинженерных человеческих инсулинов), которые могут симулировать действие эндогенного инсулина, вырабатываемого -клетками здоровой поджелудочной железы [8].

Для решения задачи созданы системы непрерывного измерения уровня BG – Continuous Glucose Monitoring Systems (CGM-системы), а также системы непрерывного подкожного введения инсулина (инсулиновые помпы – insulin pumps). На основе CGM-систем и инсулиновых помп разработаны и интенсивно разрабатываются системы автоматического управления уровнем глюкозы в крови пациента. С алгоритмической точки зрения эти системы включают в себя две следующие основные подсистемы: подсистема прогнозирования уровня BG; подсистема определения оптимального времени и требуемой дозы инсулина.

В рамках настоящей работы проводилось сравнение эффективности прогнозирования двух моделей – модели на основе нейронных сетей и модель экстраполяции временных рядов по выборке максимального подобия [71].

При прогнозе с помощью нейронных сетей используется одна нейронная сеть, на вход которой подаются предыдущие значения глюкозы, инсулина, принятых с пищей углеводов и физической нагрузки. На выходе нейронной сети получаем прогнозируемое значение глюкозы [71]. При прогнозе на EMMSP используются только фактические значения временного ряда BG без учета остальных показателей.

Рассматривался временной ряд уровней BG. Характеристики временного ряда приведены в таблице 15. Ставилась задача прогноза значений этого ряда на 20, 60 и 90 минут вперед (на 4, 12, 18 отсчетов).

Для сравнения моделей был произведен прогноз контрольного периода длиной около 3 800 значений на модели EMMSP и модели искусственной нейронной сети (ANN).

ANN-модель представляла собой нейронную сеть прямого распространения, принимающая на вход пять параметров (BG, инсулин, углеводы, гликемический индекс и физическую нагрузку) с использованием разреженно-суммирующей линии задержки длинной, равной три (т.е. общее число входов равно 15). Сеть обучалась алгоритмом Левенберга-Маркадта.

Таблица 15. Параметры временного ряда BG

Временное разрешение Временной ряд Длина ряда Среднее значение Стандарт. отклонение Мин. знач. Макс. знач.
5 мин BG, ммоль/л 29640 2.25 14.24 2.20 21.90

Сравнение результатов прогнозирования моделей приведено в таблице 16.

Прогноз на моделях EMMSP(18) и EMMSP(78) для времени упреждения 20 минут и час, соответственно, в среднем имеет точность выше аналогичного прогноза с использованием ANN. Как видно из таблицы 16, значение MAPE для модели EMMSP(18) при P = 4 составляет 5.07%, а при P = 12 – 11.33%. Аналогично, MAPE для модели ANN при P = 4 составляют 8.09%, а при P = 12 – 13.21%. Важно отметить, что результаты прогнозирования позволяют выявить сильные изменения уровня BG (резкие увеличения и снижения этого уровня).

Таблица 16. Точность прогноза моделей ANN и EMMSP

Модель P MAE, ммоль/л MAPE, % Число точек точнее, % Время экстраполяции, час Время идентификации, час
EMMSP(18) 4 0.36 5.07 45 0.35 0.5
ANN 0.30 4.12 55 80 80
EMMSP(78) 12 0.79 11.33 52 0.52 0.85
ANN 0.91 12.21 48 80 80
EMMSP(180) 18 0.97 14.70 58 0.10 2.5
ANN 1.12 17.02 42 80 80

При прогнозировании на полтора часа модель EMMSP(180) показала точность более, чем на 2% превышающую точность, достигнутую с помощью ANN.

В рамках работы с временным рядом BG для прогнозирования на полтора часа вперед исследовалась модель вида

          (4.3)

Здесь, как и в разделах 4.1.2. и 4.1.3., консенсус-прогноз является линейной комбинацией результатов прогнозирования, полученных на моделях EMMSP и ANN соответственно. Исследование показало, что использованием комбинации (4.3) при прогнозировании на полтора часа позволяет существенно повысить точность и обеспечивает значение MAPE, равное 12.13%; значение MAE, равное 0.77 ммоль/л.

Проведенное сравнение моделей показало, что при краткосрочном прогнозировании уровня BG более точный результат дает нейронная сеть, при увеличении горизонта прогнозированиямодель EMMSP.

Важно отметить, что на качественном уровне прогнозирование, как с помощью нейронной сети, так и с помощью модели EMMSP, верно предсказывает факт роста/снижения уровня BG, а также скорость и пределы изменения этого уровня.

По результатам исследования можно сделать вывод, что экстраполяция методом максимального подобия, особенно в комбинации с прогнозированием с помощью нейронных сетей, дает достаточно точный прогноз уровня глюкозы в крови пациента. Этот прогноз может быть использован для принятии решения об оптимальной дозе инсулина, которая должна быть введена в данный момент времени [71].

4.2.2. Скорость движения транспорта по дорогам Москвы

С 1 марта по 16 мая 2010 года в рамках проекта «Интернет-Математика 2010» компания «Яндекс» проводила математический конкурс. В качестве конкурсной была предложена задача прогнозирования скорости движения транспорта по автомобильным дорогам города Москвы внутри одного дня на основе исторических данных [72].

По условиям конкурса исторические данные о скорости движения транспорта (СДТ) охватывали 31 день: первые 30 дней содержали данные за период с 16:00 до 22:00 часов, для последнего дня — с 16:00 до 18:00. Файл с исходными данными содержал около 30 млн. значений СДТ. Согласно заданию необходимо было спрогнозировать около 700 тыс. значений СДТ для 29 335 дорог за период с 18:00 до 22:00 для последнего дня.

При использовании EMMSP для решения данной задачи каждая дорога рассматривалась как отдельный временной ряд без учета их взаимного влияния. Для каждого временного ряда из задания была создана модель прогнозирования EMMSP, после чего определены прогнозные значения. Точность прогнозирования участников конкурса компания «Яндекс» оценивала специальным индексом. Точность, которую удалось достичь при использовании EMMSP, составила 64.93 единицы.

В конкурсе «Интернет-Математика 2010» приняла участие 191 команда. Лучшим оказался результат с итоговой оценкой 58.92 единицы, алгоритм расчетов описан в статье [73]. По итогам конкурса результат EMMSP, равный 64.93, занял 38 место среди всех участников. Экспертная оценка точности прогнозирования СДТ аналитиков компании «Яндекс», так называемая Baseline, составляет 77.88 единиц. Таким образом, модель экстраполяции по выборке максимального подобия, не являющаяся специализированной моделью для решения поставленной задачи, показала эффективность, сравнимую с эффективностью специализированных решений для данной отрасли.

Постановка задачи прогнозирования СДТ, исходные файлы, а также итоговый рейтинг участников находится в открытом доступе [72].

4.2.3. Финансовые временные ряды

В рамках диссертации были также исследованы финансовые временные ряды:

1) фьючерсные цены на природный газ на Нью-Йоркской товарной бирже (NYMEX, www.nymex.com) за период с 01.10.2007 по 01.05.2009 (около 7 месяцев);

2) валютная пара GBP/USD (www.forex.com) за период с 03.11.2008 по 06.11.2009 (12 месяцев).

Результаты прогнозирования упомянутых временных рядов приведены в работах [74], [75].

4.3. Выводы

1) Разработанный метод прогнозирования на базе модели экстраполяции по выборке максимального подобия реализован в виде серверного приложения, выполняющего прогнозирование показателей энергорынка РФ без участия эксперта на ежедневной основе.

2) Прогнозирование временных рядов цен на электроэнергию энергорынка РФ показало, что ошибка прогнозирования в большинстве случаев лежит в диапазоне 5 — 9%, что по оценкам специалистов западных рынков является высокоэффективным. Сравнение точности прогнозирования разработанной модели и нейросетевой модели от компании BIGroup Labs показало сравнимую эффективность моделей.

3) Прогнозирование временных рядов энергопотребления показало высокую эффективность реализованной модели: значения оценок ошибки краткосрочного и среднесрочного прогнозирования лежат в диапазоне от 0.91% до 3.30%, что сравнимо и точнее значений аналогичных оценок точности прогнозирования энергопотребления, приведенных в ряде новейших работ.

4) Реализация предложенной модели прогнозирования при помощи математического пакета MATLAB показала высокую точность прогнозирования временного ряда уровня сахара крови человека на один и полтора часа вперед в сравнении с нейросетевой моделью. Реализация предложенной модели при помощи MATLAB для прогнозирования скорости движения транспорта показала сравнимую со специализированными моделями точность прогнозирования.

4) Проведенные эксперименты по формированию консенсус-прогноза на основании линейной комбинации двух независимых исследуемых прогнозов во всех трех случаях приводили к существенному повышению точности прогнозирования.

4.4. Выводы по диссертации

1) Задача прогнозирования временных рядов актуальна и решается на основании модели прогнозирования. Одним из наиболее используемых классов моделей прогнозирования является класс авторегресионных моделей. Установлено, что основным недостатком данного класса является большое число свободных параметров, требующих определения. Определено перспективное направление развития моделей прогнозирования, позволяющее устранить указанный недостаток.

2) Разработана новая модель прогнозирования временных рядов по выборке максимального подобия для двух видов постановки задачи прогнозирования временного ряда — с учетом и без учета внешних факторов. Новая модель относится к авторегрессионному классу моделей и имеет единственный параметр, что упрощает задачу идентификации модели, устраняя основной недостаток моделей данного класса.

3) Разработан новый метод прогнозирования на основе предложенной модели, содержащий набор алгоритмов для экстраполяции временных рядов, идентификации модели и построения доверительного интервала прогнозных значений. Произведена оценка времени последовательных вычислений при решении задач экстраполяции временного ряда и идентификации модели. Предложена схема параллельных вычислений, позволяющая сократить время расчета при решении задачи идентификации.

4) Выполнена программная реализация разработанных алгоритмов средствами математического пакета MATLAB. По заказу компании «РусПауэр» создано специализированное серверное приложения для прогнозирования показателей энергорынка РФ на ежедневной основе. Приложение работает в автоматическом режиме и предоставляет прогнозные значения показателей без вмешательства эксперта.

5) Произведена оценка эффективности новой модели прогнозирования. Применение новой модели для прогнозирования показателей энергорынка РФ показало высокую эффективность предложенной модели. Применение новой модели для прогнозирования временных рядов уровня сахара крови больных сахарным диабетом первого типа и скорости движения транспорта по дорогам г. Москва показали эффективность, сравнимую со специализированными моделями для данных областей.

Глава 1. Постановка задачи и обзор моделей прогнозирования временных рядов
Глава 2. Модели экстраполяции временных рядов по выборке максимального подобия
Глава 3. Метод прогнозирования на модели экстраполяции по выборке максимального подобия
Глава 4. Программная реализация и оценка эффективности модели экстраполяции по выборке максимального подобия
Список литературы
Для добавления комментариев войдите или зарегистрируйтесь

2010 - 2018 © Математическое бюро

Все права защищены в соответствии с законодательством РФ

При полном или частичном использовании материалов ссылка на сайт обязательна