Математическое бюро
Прогнозирование на ОРЭМ
The Short-term Electricity Consumption Forecast Competition Under COVID-19 Lockdown Conditions

Аннотация

Представьте, что вы отвечаете за прогноз потребления электроэнергии на сутки вперед, а с завтрашнего дня в вашей стране введен официальный карантин — грядет новая реальность. Нужно ли менять подход к прогнозированию? Как «объяснить» вашей модели, что завтра необычный день? Что делать, если карантин затягивается? Я попала именно в такую историю: несла ответственность за качество краткосрочного прогноза потребления электроэнергии в течение двухмесячного соревнования по прогнозированию, начало которого совпало с началом карантина. Разработанный мною сервис прогнозирования победил в соревновании. В настоящей статье я делюсь выводами, которые извлекла из этого экстремального опыта, а также даю свои ответы на указанные выше вопросы.

Благодарности

Работа посвящается моему дорогому другу, учителю, профессору, д.т.н. Юрию Павлову (1934 – 2019).

Я признательна ООО «АналитиксХаб» за приглашение к участию в проекте, а также коллеге Евгении Мальцевой за ежедневную техническую и эмоциональную поддержку и помощь в процессе соревнований.

Отдельно благодарю своего научного наставника профессора МГТУ им. Н.Э. Баумана А.П. Карпенко за помощь в редактировании данной рукописи.

I. Вступление

Краткосрочное прогнозирование энергопотребления для участников-потребителей российского оптового рынка электроэнергии состоит в подаче заявок на рынок на сутки вперед. Такая заявка должна содержать плановое почасовое потребление в группе точек поставки на следующие сутки в почасовом разрешении. Заявка должна быть отправлена на биржу до 13:30 (Рис. 1).

Отметки времени при подаче заявок на рынок на сутки вперед
Рис. 1. Отметки времени при подаче заявок на рынок на сутки вперед
1 Все отметки времени даны по московскому времени; единицы измерения энергопотребления — МВт·ч; разрешение энергопотребления — 1 час.

Отклонения фактического потребления от планового, заявленного на рынок на сутки вперед, будут оплачены потребителем по заведомо невыгодной цене балансируюшего рынка, пропуская фазу непрерывной торговли. В процессе непрерывной торговли участники рынка заключают двусторонние биржевые сделки на основании общей книги заявок (shared order book). Эти сделки помогают участникам сбалансировать объемы купленной и фактически потребленной электроэнергии, снизив величину отклонений. Поскольку в России отсутствует фаза непрерывной торговли, качество прогнозирования при формировании заявок на рынке на сутки вперед становится критичным. Подробности организации оптовой торговли электроэнергией в России доступны в моей предыдущей статье [1].

В таких рыночных условиях для выбора поставщика системы прогнозирования потребители организуют соревнования по прогнозированию энергопотребления на сутки вперед.

Правила соревнований состоят в следующем. В течение оговоренного периода по рабочим дням до 13:00 потребитель присылает доступные фактические значения энергопотребления за прошедшие периоды. Фактические значения могут запаздывать и величина лага обычно составляет 48, 72, 96, …, 168 часов (Рис. 1). В течение 30 минут участники соревнований должны сделать прогнозы на сутки вперед: понедельник – четверг на одни сутки вперед, пятница — на трое суток вперед. Прогнозы температуры, осадков и других внешних факторов, влияющих на энергопотребление, участники соревнований должны, как правило, загружать самостоятельно из доступных в сети Интернет ресурсов. Таким образом, правила соревнования соответствуют бизнес-процессу подачи заявок на рынок на сутки вперед.

Цель участия в соревновании — сделать самый точный прогноз. Участники таких соревнований имеют уже разработанную систему прогнозирования. Обучение или калибровка моделей прогнозирования под конкретного потребителя делается на этапе подготовки к соревнованию. Потребитель-организатор заранее предоставляет архив фактических значений за длительный период.

Энергокомпания, организовавшая соревнования, осуществляет торговую деятельность для ряда крупных потребителей. Каждый потребитель осуществляет покупку электроэнергии на оптовом рынке. Купленную электроэнергию такой потребитель продает промышленным предприятиям и населению на розничном рынке. Среднее часовое потребление рассматриваемых в работе потребителей составляет сотни МВтч и имеет регулярный профиль потребления (Рис. 2).

В течение 2019 — 2020 годов упомянутая энергокомпания провела два этапа соревнования по прогнозированию для четырех потребителей, расположенных в различных регионах России, обозначу их A, B, C, D:

  • Этап 1: 1 сентября — 30 ноября 2019
  • Этап 2: 1 апреля — 31 мая 2020

Начало второго этапа соревнования по краткосрочному прогнозу энергопотребления совпало с началом официального нерабочего режима в России, вступившего в силу 30 марта 2020 года. В отличие от развитых стран, где был объявлен официальный карантин, в России период с 30 марта до 11 мая был объявлен нерабочим, в течение которого запрещались все виды деятельности, кроме критичных. Далее в период с 12 по 31 мая в России действовал период полного или частичного разрешения некоторых видов деятельности. Россия сняла ограничения, связанные с карантином, 1 июня 2020 года.

Average daily profile for 2019
Рис. 2. Среднечасовое энергопотребление в 2019 году

Я принимала участие в обоих этапах соревнования в сотрудничестве с ООО «АналитиксХаб» и ООО «ИНФОПРО». Моей задачей была разработка алгоритмов прогнозирования с целью победы в этом соревновании. По окончании соревнований энергокомпания устно объявила о победе моих алгоритмов на обоих этапах по совокупности четырех потребителей 2. Результаты соревнования остаются закрытыми в соответствии с подписанными участниками соглашениями о конфиденциальности.

2 Мои модели не были точнее для каждого потребителя в каждом дне/месяце, однако общая средняя ошибка у моих моделей была минимальной на обоих этапах.

Наиболее значимый опыт я получила во время второго этапа соревнования, назову его карантинным соревнованием. Основной сложностью данного этапа была параметризация нерабочего режима, другими словами: как «объяснить» модели, что наступает «карантин», которого в обозримом для модели прошлом не случалось? В данной работе я формулирую ответ на этот вопрос.

Структура работы такова: в следующем, втором, разделе приведен обзор доступной литературы; в третьем — представлена система прогнозирования до и после карантинных соревнований; в четвертом — обсуждаю численные результаты.

II. Литература

A. До начала карантина

До 31 марта 2020 в сети Интернет были доступны лишь блоговые сообщения об изменении энергопотребления в связи с карантином. Например, в Италии в связи с началом карантина потребление на третьей неделе марта упало почти на 20% по сравнению со второй неделей марта [2]. В Испании аналогичное снижение энергопотребления было ниже и составило около 6%, однако здесь наблюдалось существенное изменение профиля: утренние пиковые часы сдвинулись на 2-3 часа [3].

B. В течение карантина

Пандемия COVID-19 является уникальным мировым явлением. На текущий момент, февраль 2021 года, доступен ряд исследований о влиянии пандемии на энергопотребление в различных странах. В работе [4] рассматривают вопрос изменения качества прогнозирования на сутки вперед для трех регионов США. Проведенный анализ подтвердил заметное повышение ошибки прогноза для двух штатов из трех — Нью-Йорк и Флорида — в течение действия режима «сидим дома» («stay-at-home» order). В работе [5] авторы обсуждают существенное снижение энергопотребления на 7-8% по сравнению с аналогичным периодом предыдущих лет для Польши в период 1 апреля — 15 мая 2020 года.

В публикации [6] авторы показывают, что снижение энергопотребления в первую неделю карантина в Индии стало наиболее драматичным и составило 46%. Более того, существенно изменился недельный профиль: с началом карантина потребление электроэнергии в рабочие дни по своим характеристикам совпадало с выходными. Предложенная в работе [6] компактная модель прогнозирования в условиях начала карантина имеет два преимущества: требует минимальное число фактических дней для обучения; является более эффективной, чем ряд моделей, которые авторы называют стандартными (метод похожего дня, множественная регрессия, авторегрессия, экспоненциальное сглаживание). На мой взгляд, наиболее уязвимой гипотезой авторов является предположение об отсутствии влияния температуры окружающей среды на уровень энергопотребления во время карантина. Блоги [2], [3] и исследования [4], [7] говорят об обратном.

В работе [7], авторы делают оценку ошибки прогноза энергопотребления итальянского системного оператора Terna на сутки вперед: в первые дни с момента введения карантина средняя ошибка повысилась почти в четыре раза по сравнению с обычным значением. Падение энергопотребления на севере Италии в первые недели карантина доходило до 35%. Аналогичные оценки падения потребления для других стран Европы даны в работе [8].

В заключение раздела стоит добавить, что всесторонний обзор исследований в области прогнозирования энергопотребления дан в работе [9] Приведенные в [9] рекомендации по исследованиям в данной области не учитывают влияние пандемии COVID-19.

III. Сервис прогнозирования

В период с апреля до августа 2019 года по заказу ООО «АналитиксХаб» я разработала программный сервис краткосрочного прогнозирования энергопотребления с целью формирования заявок на рынок на сутки вперед «Аналитическая система построения прогнозов потребления в электроэнергетике AHUB-Прогнозирование. Версия 2.0», регистрационное свидетельство на территории РФ №2019619309 (далее сервис прогнозирования)3.

3 Сервис прогнозирования разработан на языке программирования Python как Software-as-a-Service. Сервис упакован в отдельный docker container и общается с источниками данных и пользовательским приложением при помощи набора API методов.

Входными данными для сервиса прогнозирования являются:

  • энергопотребление;
  • температура окружающей среды;
  • профиль светового дня.

Профиль светового дня — синтетический временной ряд с часовым разрешением. Его значения равны 0 в темное время суток, линейно растут от 0 до 1 с рассвета до зенита, линейно убывают с 1 до 0 с зенита до заката.

A. До начала карантинного соревнования

Сервис прогнозирования содержит набор математических моделей. Модели применяю последовательно. Последовательность моделей задаю при помощи настроек, хранящихся в специальном файле формата json. В этом же файле храню гиперпараметры каждой модели. Для добавления потребителя в сервис прогнозирования необходимо:

  1. указать источники исходных данных,
  2. задать последовательность моделей, их гиперпараметры и обучить модель.

В рамках подготовки к карантинному соревнованию обучение моделей производилось на архиве данных длиной около 50 000 значений энергопотребления (6 лет). Данный набор был разбит на тестовую и проверочную выборки: 4.5 и 1.5 года соответственно.

В настоящее время в сервисе функционируют пять моделей (Таблица 1).

Таблица 1. Список моделей прогнозирования

Модель, обозначение Тип, предикторы Python library
1 Seasonality,
S
Multiple linear regression, predictors: trend, sin-like sequences scikit-learn
2 Temperature,
T
Piece-wise linear regression, predictors: temperature, trend, sin-like sequences scikit-learn
3 Holiday,
H
Average value, predictors: reduction of electricity consumption (details below) Numpy
4 Autoregression,
A
Multiple linear regression, predictors: actual consumption lags scikit-learn
5 Neural network,
N
Feed-forward neural network (Keras layer type is Dense), predictors: up to 150 generated from the input data Keras, TensorFlow

В процессе разработки сервиса прогнозирования, подготовки и участия в соревнованиях в 2019 году я определила два набора моделей, которые, с одной стороны, показывают сопоставимую ошибку, с другой — обладают разнообразием и позволяют снижать ошибку прогнозирования за счет комбинирования.

Таблица 2. Наборы моделей

Набор Three regressions, R3 Python library
Последовательность
моделей
1) Seasonality
2) Temperature
3) Holiday
4) Autoregression
1) Seasonality
2) Neural network
3) Autoregression
Обозначение
результата
LR3 LRNR

В процессе обучения набора моделей ошибки (остатки) одной модели являются входными данными для последующей. Например, остатки от модели сезонности подаю на вход температурной модели; в свою очередь остатки от температурной модели являются входными данными для модели праздников и т.д. Таким образом, при обучении модели временной ряд энергопотребления разбивается на компоненты.

В процессе прогнозирования на вход каждой модели подаю необходимые предикторы. Итоговый прогноз является суммой прогнозов всех моделей в наборе:

Здесь L(t) — значение энергопотребления в момент времени t; XS(t), XN(t), XA(t) — векторы предикторов для момента времени t; ε(t) — ошибка прогнозирования. В настоящей работе оценки ошибки приведены в значениях MAPE, % [10].

Каждый набор обучается индивидуально для каждого потребителя. Задержка фактических значений энергопотребления (величина lag на рис. 1) колеблется от 48 до 168. Лаговые предикторы, то есть фактические значения энергопотребления с учетом задержки, используются в авторегрессии и нейронной сети. В связи с этим каждый набор обучается для каждого лага индивидуально. Другими словами, я обучаю набор R3 для лага=48, далее обучаю тот же набор для лага=72 и т.д. В процессе прогнозирования на первом этапе сервис вычисляет величину лага, а далее применяет набор, соответствующий полученному лагу. Чем выше значение лага, тем выше ошибка прогноза.

По итогам соревнований по прогнозированию в 2019 году стало ясно, что наиболее точный результат получался комбинированием результатов двух наборов:

(1)

где L(t) — прогноз энергопотребления для момента времени t. Величина &aplha; задается экспертно на основании анализа поведения наборов за предыдущие периоды.

Моделирование праздничных дней.

В сервисе прогнозирования праздники и соответствующие переносы рабочих дней задаю в отдельном файле (структура в Таблице 3).

Таблица 3. Календарь: настройки праздничных дней

Дата Тип Группа Номер в группе
23.02.2020 2 4 1
24.02.2020 1 4 2
08.03.2020 2 5 1
09.03.2020 1 5 2
30.03.2020
(карантин)
1 5 1
31.03.2020
(карантин)
1 5 2

В Таблице 3 приняты следующие обозначения:

  • Тип указывает, действительно ли день праздничный или перенесенный/добавленный выходной день, например, 23.02.2020 — праздничный день, пришедшийся на воскресенье, а 24.02.2020 — перенесенный выходной понедельник;
  • Группа определяет последовательность праздничных дней; даты 23.02.2020 и 24.02.2020 являются соседними и объединены в одну группу;
  • Номер в группе задает номер праздничного дня внутри группы для каждого года.

В нейронной сети указанные свойства календаря являются предикторами. В модели праздничных дней снижение энергопотребления, связанное с праздником, вычисляю как среднее часовое отклонение для группы праздников. Напомню, что модель праздничных дней следует после моделей сезонности и температуры, таким образом, на ее вход подается временной ряд, «очищенный» от сезонного и температурного эффекта. Например, для часа 0 это отклонение вычисляется как

Здесь N — число праздничных дней для заданной группы; выражение εT(t | h(t)=0) означает остатки от температурной модели для отметок времени, соответствующих часу 0.

Из блогов [2], [3] было ясно, что в связи с карантином потребление будет существенно снижаться. В процессе подготовки к карантинным соревнованиям я приняла решения:

  1. a) моделировать ожидаемое снижение энергопотребления как перенесенные праздничные дни в марте (параметризация приведена в таблице 3);
  2. b) в выражении (1), принять α = 0.5 для B, C, D; α = 0 для A.

Это плохо сработало.

B. Усовершенствование сервиса в процессе соревнования

Главной особенностью карантинного соревнования оказался непредвиденный уровень стресса. Как только стали доступны 4-7 дней с фактическими значениями потребления за период карантина, стало ясно, что принятые решения оказались неверными. Шаг за шагом мне удалось заставить модель прогнозировать точнее.

Шаг 1. Неэффективность набора R3

За первые 4-7 дней соревнований для всех четырех потребителей набор R3 дал заметно худший результат, чем набор RNR. Визуальное сопоставление снижений энергопотребления, характерных для мартовских праздников, и снижений энергопотребления вследствие карантина показало их несоответствие (Рис. 3). Отклонения между этими снижениями составили для A – 3%, B – 1%, C – 6%, D – 3% от среднего энергопотребления в первую неделю карантина.

Я приняла решение отказаться от набора R3 и далее работать только при помощи RNR, что означает в выражении (1) принять α = 0 для всех потребителей.

Average hourly consumption decreases for C-consumer: March holidays vs lockdown
Рис. 3. Среднечасовое снижение потребления для потребителя C: мартовские праздники vs карантин

Шаг 2. Кросс-валидация нейронных сетей

В первые же дни соревнований визуальное исследование результатов прогнозирования RNR выявило существенную «рябь» в профиле прогнозируемого дня (Рис. 4). Данный эффект является следствием несбалансированности обучающей выборки: число праздничных дней, пришедшихся на март, составило 10, что недостаточно для качественного обучения модели.

Ripples on daily consumption profile for A-consumer
Рис. 4. «Рябь» в прогнозе для потребителя A

Разработанные нейронные сети имеют три слоя: число нейронов входного слоя составляет от 2000 до 3500 (зависит от числа предикторов), скрытого слоя — от 48 до 96 (зависит от потребителя), выходного слоя — 24; функция потерь – MAE [11].

Для устранения данного эффекта я приняла решение использовать кросс-валидированные нейронные сети. Библиотека KFold позволяет разбить обучающую выборку на k выборок. При обучении модели исходные данные разбиваются на k частей, одна из которых используется для тестирования, а остальные — для обучения. Таким образом, в результате обучения получается k нейронных сетей, обученных на перетасованных выборках. Такие кросс-валидированные модели широко применяют в моделях деревьев решений с использованием библиотек XGBoost, LightGBM, CatBoost[12].

Для определения параметра k предложила следующий алгоритм:

  1. установили k = 3;
  2. обучили две кросс-валидированные сети на двух разных компьютерах;
  3. сделали прогноз на заданную дату;
  4. посчитали разность между двумя прогнозами;
  5. если среднее абсолютное значение разности больше 1 МВтч, то увеличивали число k и повторяли шаги 2-4.

Для рассматриваемых в работе потребителей итоговое значение k = 5.

Шаг 3. Комбинирование календарей

Спустя неделю с начала соревнований возник вопрос: «Как сработал бы набор RNR, если бы нейронная сеть ничего не знала о карантине?»

В результате анализа обнаружила, что при доступных фактических значениях энергопотребления за 7-8 дней карантина набор RNR с нейронной сетью, обученной без учета карантина, сравнялся по ошибке с карантинной сетью. Обе сети уже стали кросс-валидированными.

Дополнительно обнаружила, что ошибка комбинации результатов RNR и RNRLD ниже обоих исходных прогнозов (Таблица 7). Для обучения набора RNRLD внесла изменения в параметризацию карантина — выделила его в отдельную группу. Номером в группе является номер дня недели с 1 до 7. Параметризация остальных праздничных дней осталась без изменения.

Таблица 4. Обновленные наборы моделей

Набор RNR RNRLD
Последовательность моделей 1) Seasonality
2) Neural network (5-fold, календарь без карантинных дней)
3) Autoregression
1) Seasonality
2) Neural network (5-fold, календарь с карантинными днями)
3) Autoregression

Сервис прогнозирования был доработан с тем, чтобы позволять комбинировать два набора из таблицы 4 аналогично (1). Обращаю внимание, что значения гиперпараметров не изменились.

Три описанных шага были реализованы к 10 апреля для потребителя B, далее, в течение периода 13-14 апреля, для остальных потребителей и позволили существенно снизить ошибку прогнозирования.

IV. Численные результаты

Как уже отмечено во вступлении, общие результаты всех участников карантинных соревнований являются закрытыми. Я публикую исключительно оценки ошибки прогнозирования, полученные с использованием разработанного сервиса прогнозирования.

A. Подготовка к карантинному соревнованию

В процессе подготовки к соревнованиям были обучены два набора моделей (Таблица 2). Результаты ошибок для тестовой и проверочной выборок приведены в таблице 5. Ошибка модели авторегрессии является ошибкой всего набора.

Применение α позволяет гибко комбинировать наборы. Например, для потребителя А очевиден заметный выигрыш RNR (1.53%) против R3 (2.09%), следовательно, для этого потребителя α = 0; для потребителя B ошибки стеков одинаковые, его α = 0.5.

таблица 5. MAPE обучающей и проверочной выборок, lag = 48

Набор Модель MAPE для обучающей и проверочной выборок, %
R3 S 4.57 / 6.55 8.26 / 7.87 4.82 / 8.19 5.68 / 7.56
T 3.14 / 4.84 4.21 / 4.16 3.87 / 7.63 4.15 / 5.40
H 2.84 / 4.18 4.09 / 4.01 3.48 / 6.84 3.90 / 4.89
A 1.99 / 2.09 2.30 / 2.07 2.23 / 2.53 1.97 / 1.97
RNR S 4.57 / 6.55 8.26 / 7.87 4.82 / 8.19 5.68 / 7.56
N 1.28 / 1.80 1.82 / 3.40 1.65 / 2.37 1.49 / 1.98
A 1.27 / 1.53 1.65 / 2.07 1.65 / 2.15 1.47 / 1.67

B. Результаты карантинного соревнования

Средняя ошибка прогнозирования по итогам соревнования представлена в таблице 6.

Таблица 6. MAPE соревновательного прогноза

Месяц A B C D
Апрель 2.7 2.2 4.1 3.4
Май 2.4 2.5 4.2 3.6

Из таблицы 6 видно, что средняя ошибка в карантин в 1.5 – 2 раза выше ошибки для проверочной выборки (Таблица 5). Отчасти это связано с тем, что в таблице 5 приведены значения ошибок для минимального значения лага, тогда как в процессе соревнования лаг может принимать значения в диапазоне 48 – 168.

На рис. 5 заметны три периода с высокими ошибками прогнозирования, рассмотрим их отдельно.

1) Начальный период

Как уже сказано выше, первые 10 дней апреля происходила постоянная доработка сервиса прогнозирования, для этого периода средняя по всем потребителям ошибка прогноза составила 3.3%.

2) Переходный период и отключение центрального отопления

10 апреля был сделан первый прогноз на обновленном сервисе только для потребителя B. В течение 13-14 апреля обновленные модели были развернуты для остальных потребителей. Ошибка в течение этого периода снизилась до 2.8%.

В течение 15-18 апреля произошло отключение центрального водяного отопления в трех регионах из четырех. Процесс отключения продолжается в течение 1-3 дней и зависит от особенностей функционирования котельных и ТЭЦ на территории, обслуживаемой потребителем. Данный период характеризуется повышенной волатильностью потребления в связи с тем, что те, кому становится холодно, отапливают помещения при помощи электрических обогревателей. В период, когда происходит включение центрального отопления, аналогичная волатильность наблюдается в течение нескольких дней накануне включения. Ошибка прогноза в эти дни составила 2.9%.

В течение заключительной трети апреля ошибка прогноза снизилась до 1.8%.

3) Майские праздники

Майские праздники в России являются двумя последовательными наборами выходных дней. В частности, в 2020 году праздничными были 1-5 мая (День труда), далее 6-8 мая были карантинными, 9-11 мая — праздничными (День Победы). Параметризация календаря на эти даты приведена в таблице 7. Отмечу, что в связи с праздниками горизонт прогнозирования изменился: 30 апреля прогноз делали на 6 дней вперед (1 – 6 мая, лаги 48 – 168), а 8 мая на 4 дня вперед (9 – 12 мая, лаги до 120).

Forecast MAPE for April and May 2020
Рис. 5. Ошибка прогноза за апрель и май 2020 года
May holiday for C-consumer
Рис. 6. Энергопотребление в майские праздники 2020 года для потребителя С

Средняя ошибка прогнозирования в течение майских праздников составила 4.2%.

Рассмотрим потребителя С, его ошибка была рекордной и составила 6.9%. На рис. 6 представлены значения его фактического и прогнозного потребления. Из графика видно, что снижение потребления в карантинные майские выходные составило рекордную величину за последние годы. Праздничное снижение в майские дни 2020 года в 2 раза больше, чем аналогичное среднее снижение потребления в майские дни 2017–2019 гг. Напомню, что данное снижение вычисляю после удаления сезонной и температурной компонент энергопотребления. Глядя на рис. 6, понимаешь, что сложно учесть такое радикальное падение, принимая в расчет величину лага.

Таблица 7. Настройки календаря для майских праздников 2020

Дата Тип Группа Номер в группе
30.04.2020 1 20 4
01.05.2020 2 7 1
... ... ... ...
05.05.2020 1 7 4
06.05.2020 1 20 3
07.05.2020 1 20 4
08.05.2020 1 20 5
09.05.2020 2 7 5
10.05.2020 1 20 7
11.05.2020 1 7 6
12.05.2020 1 20 2

Для остальных потребителей ошибка в майские праздники составила A – 3.0%, B – 1.8%, D – 5.1%.

Средняя ошибка прогноза во второй половине мая составила 2.6%.

V. Заключение

Настало время ответить на три вопроса, заданных во введении данной статьи. Приведенные ниже рекомендации касаются исключительно применения регрессионных и нейросетевых моделей для краткосрочного прогнозирования энергопотребления.

A. Нужно ли менять подход к прогнозированию?

Если вы делаете прогноз с помощью регрессионных моделей и моделируете праздники аналогично подходу, представленному в статье, то стоит изменить подход. Возможно, следует обратить внимание на компактную модель [6].

Если вы делаете прогноз с помощью нейросетевых моделей, то модель можно не менять, но следует обратить внимание на параметризацию дней новой реальности.

B. Как «объяснить» модели, что завтра наступает новая реальность?

На первом этапе, когда недоступны фактические значения энергопотребления для новой реальности, стоит параметризовать дни как ближайшие выходные или дни оставшегося для нас в прошлом карантина 2020. Следует ожидать, что ошибка прогнозирования на первом этапе существенно возрастет.

После того, как становятся доступными фактические значения потребления электроэнергии за 5-7 дней новой реальности, следует изменить параметры календаря, выделив даты новой реальности в отдельную группу, и переобучить сеть.

Применяйте кросс-валидированные сети, это повысит точность вашего прогноза. На первом этапе переобучайте сети не реже чем раз в неделю.

C. Что делать, если карантин затягивается?

Новая реальность может характеризоваться этапами, например, как было с карантином в Индии [6] и России, ограничения которого снимались поэтапно. В таком случае имеет смысл работать с каждым этапом как с отдельной группой праздников.

Обязательно продолжайте следить за тем, как ведет себя нейронная сеть, обученная на календаре без учета новой реальности. Когда ошибка прогноза двух сетей будет сопоставима, можно 1) применять их комбинацию для повышения точности прогнозирования, 2) оставить одну из моделей для упрощения процесса.

По моему мнению, даже в случае драматического развития событий, как в Индии с падением потребления на 46%, разработанный набор RNRLD за несколько дней догнал бы новую реальность. Разработанная нейросетевая модель, входящая в набор RNRLD, широко использует лаговые переменные энергопотребления и обладает способностью быстро подстраиваться под изменения.

Список литературы

[1] I. Chuchueva “The Three-Headed Dragon: Electricity, Trading, Analysis”, “Energo-Info” Journal, No. 6, October 2018, pp 32-47

[2] M.-A. Puica “Italian Power Demand Development”, published on 17.03.2020, URL: https://www.linkedin.com/pulse/italian-power-demand-development-mihaela-alexandra-puica/

[3] M.-A. Puica “Spanish Power Demand Development”, published on 18.03.2020, URL: https://www.linkedin.com/pulse/spanish-power-demand-development-mihaela-alexandra-puica/

[4] D. Agdas and P. Barooah, "Impact of the COVID-19 Pandemic on the U.S. Electricity Demand and Supply: An Early View From Data," in IEEE Access, vol. 8, pp. 151523-151534, 2020, doi: 10.1109/ACCESS.2020.3016912.

[5] M. Czosnyka, B. Wnukowska and K. Karbowa, "Electrical energy consumption and the energy market in Poland during the COVID-19 pandemic," 2020 Progress in Applied Electrical Engineering (PAEE), Koscielisko, Poland, 2020, pp. 1-5, doi: 10.1109/PAEE50669.2020.9158771.

[6] S. Lokhande, S. A. Soman and N. Hiremath, "Quick Learn Approach for load forecasting during COVID 19 lockdown," 2020 21st National Power Systems Conference (NPSC), Gandhinagar, India, 2020, pp. 1-6, doi: 10.1109/NPSC49263.2020.9331869.

[7] P. Scarabaggio, M. La Scala, R. Carli, and M. Dotoli, "Analyzing the Effects of COVID-19 Pandemic on the Energy Demand: the Case of Northern Italy," 2020 AEIT International Annual Conference (AEIT), Catania, Italy, 2020, pp. 1-6, doi: 10.23919/AEIT50178.2020.9241136.

[8] Narajewski, Michał & Ziel, Florian. (2020). “Changes in electricity demand pattern in Europe due to COVID-19 shutdowns”.

[9] T. Hong, P. Pinson, Y. Wang, R. Weron, D. Yang and H. Zareipour, "Energy Forecasting: A Review and Outlook," in IEEE Open Access Journal of Power and Energy, vol. 7, pp. 376-388, 2020, doi: 10.1109/OAJPE.2020.3029979.

[10] Mean Absolute Percentage Error. URL: https://en.wikipedia.org/wiki/Mean_absolute_percentage_error

[11] Mean Absolute Error. URL: https://en.wikipedia.org/wiki/Mean_absolute_error

[12] J. Brownlee “XGBoost With Python: Gradient Boosted Trees with XGBoost and scikit-learn,” Machine Learning Mastery, 2016, 115 p.

Комментарии