Поиск параметра М в при идентификации модели экстраполяции

17 сообщений / 0 новых
Последнее сообщение
Поиск параметра М в при идентификации модели экстраполяции

 

Добрый день.

При изучении моделей EMMSP и EMMSP(X) возникли следующие вопросы:

1) Для чего нужен Контрольный период временного ряда при нахождении параметра М? Просто для проверки полученной модели?

2) При нахождении относительной и абсолютной ошибок экстраполяционной модели (МАРЕ и МАЕ), сумма ведется по К точкам, попавшим в тестовый период. Имеется в виду Р прогнозных точек?

Заранее спасибо.

Поиск параметра М в при идентификации модели экстраполяции

Добрый день!

Egor wrote:
Для чего нужен Контрольный период временного ряда при нахождении параметра М? Просто для проверки полученной модели?

Да, совершенно верно. Когда вы делаете реальную модель, то тестовый период может совпадать с контрольным. С точки зрения исследования важно показать, что модель подгонялась (определялся ее параметр М) на одной части временного ряда, а финальная проверка осуществлялась на другой. Для нейронных сетей если не разделять эти периоды, то результаты будут некорректны.

Egor wrote:
При нахождении относительной и абсолютной ошибок экстраполяционной модели (МАРЕ и МАЕ), сумма ведется по К точкам, попавшим в тестовый период. Имеется в виду Р прогнозных точек?

Поясню. Например, мы делаем прогноз на 2 отметки времени вперед. Тогда сначала прогнозируем T+1 и T+2, потом сдвигаем момент прогноза T на 2 отметки времени, т.е. T = T+2 и снова прогнозируем уже T+1 и T+2.

В моей работе при прогнозе на сутки вперед в тестовом и контрольном периодах у меня содержалось несколько сотен суток, то есть общее количество отметок времени тестового периода могло составлять 24 часа * 200 суток = 4800 значений, а также 4800 на контрольный период. При это P = 24, то есть прогноз каждый раз делался на сутки вперед.

----------------------
Ирина Чучуева,
команда Математического бюро

Спасибо. То есть грубо говоря

Спасибо. То есть грубо говоря: K = Ttest/P, где Ttest - общее количество точек, содержащееся в тестовом париоде?

А вот еще такой вопрос: в Вашей диссертации в разделе о нахождении параметра М представлены результаты для модели, учитывающей внешние факторы? Или для модели без внешних параметров?

Насколько я понимаю, модель с внешними факторами должна быть точнее?

Egor wrote:То есть грубо
Egor wrote:
То есть грубо говоря: K = Ttest/P, где Ttest - общее количество точек, содержащееся в тестовом париоде?

Да, можно так считать! В целом это корректно.

Egor wrote:
в Вашей диссертации в разделе о нахождении параметра М представлены результаты для модели, учитывающей внешние факторы? Или для модели без внешних параметров?

В разделе 3.3 приведен график и описание для идентификации без внешнего фактора, вы правильно разобрались.

Если нужен учет внешнего фактора, то принцип такой же, просто математическая зависимость (сама модель) будет с внешним фактором, а шаги те же: 1) делим на периоды, 2) делаем прогноз внутри тестового периода, 3) оцениваем MAE, 4) находим искомое значение M.

Egor wrote:
Насколько я понимаю, модель с внешними факторами должна быть точнее?

На первый взгляд, это кажется очевидным, но только на первый взгляд. В действительности это не так.

Во-первых, для прогноза нужно в подавляющем большинстве случаев иметь значения внешнего фактора на тот же самый период (я в диссертации писала об этом в разделе 2.3, посмотрите чуть выше). То есть если мы делаем прогноз энергопотребления с учетом температуры, то нам нужен прогноз температуры. Если мы сильно врем в этом «внешнем» прогнозе, то он способен самым худшим образом отразиться на прогнозе искомой величины, в моем примере, прогнозе энергопотребления.

Во-вторых, для работы с моделью (для ее построения и идентификации) необходимы значения внешнего фактора для каждой отметки времени, для которых у нас есть значения исходного временного ряда. Такое условие не всегда выполняется.

В-третьих, оценить действительное влияние того или иного внешнего фактора на глаз нельзя! Только эмпирическая оценка, то есть результаты реальных расчетов, смогут ответить железобетонно на вопрос о том, стоит ли этот фактор в прогнозе учитывать. Делать это без цифр нельзя, так как результаты могут быть очень неожиданными и введение в модель внешнего фактора, легко может ухудшать точность прогноза. В записи блога про модель ARIMAX я подробно об этом писала (см ниже).

----------------------
Ирина Чучуева,
команда Математического бюро

Спасибо за подробный ответ.

Спасибо за подробный ответ.

Но, возвращаясь к тестовому периоду, хочу спросить: получается мы строим сначала прогноз на P значений, лежащих внутри тестового периода (Z(T+1), Z(T+2),..., Z(P)), затем прогоняем модель снова, но теперь строим прогноза на следующие Р значений (Z(P+1),...,Z(2P))? При этом же у нас Новая История тоже сместилась (на Р значений)?

Тогда получается в результате прогона по всему тестовому периоду у нас будет Ttest/P прогнозов. Но ведь при этом МАЕ надо получать, суммируя все Ttest разностей между прогнозом и реальными данными (иными словами по всему тестовому периоду)? Значит все-таки сумма (3.15) в диссертации ведется по всем Ttest слагаемым, то есть все-таки K = Ttest?

 

Как-то так...

Egor wrote: При этом же у нас
Egor wrote:
При этом же у нас Новая История тоже сместилась (на Р значений)?

Конечно сместилась. Мы каждый раз представляем, что отметка времени Т — это наша текущая отметка. У нас есть история до T, нам нужно спрогнозировать дальше T на P значений вперед. Когда мы прогноз сделали, то мы сдвинули T и снова представляем, что это наша текущая дата. И так мы делаем, пока T не упрется в окончание тестового периода.

как только мы прогоним наш алгоритм при одном M по всем точкам внутри тестового периода, то у нас будет массив из фактических значений и прогноза, длинною в тестовый период. И все, далее мы просто получаем абсолютную ошибку MAE.

Вы действительно делаете расчет? Или пока только прикидываете? Такое ощущение, что прикидываете. Когда возьметесь считать, то все быстро встанет на свои места. Я пишу в диссертации формулы очень формально (там иначе нельзя), в приведенной формуле делится на количество значений внутри тестового периода, но значения эти MAE(M) можно получить еще пятью вариантами.

----------------------
Ирина Чучуева,
команда Математического бюро

Спасибо большое! Теперь

Спасибо большое! Теперь полностью все встало на свои места.

Да, я действительно делаю рассчет.

Добрый день еще раз.

Добрый день еще раз.

Столкнулся с такой проблемой: если при расчетах kmax (без звездочки), наибольший коэффициент корреляции относится к kmax = 1, то получается, что прогнозная модель будет строиться на данных, которых нет: (Z(T+1) = a1*Z(T-M+1-kmax+M) + a0 = a1*Z(T) + a1. То есть на Р данных, начинающихся с T... Получается при поиске kmax нужно начинать с k = 1+P?

Да, совершенно верно: нужно

Да, совершенно верно: нужно сразу отступить на P значений назад, а после начинать перебирать T. Этот отступ позволяет нам корректно сформировать Базовую историю.

Вы что прогнозируете-то? Длинный у вас ряд?

----------------------
Ирина Чучуева,
команда Математического бюро

Ряд почти в 30 тыс. точек.

Ряд почти в 30 тыс. точек. Прогнозирую потрбление. Пока без учета температуры

У вас архив солидный, так что

У вас архив солидный, так что такое смещение не критично. Бывает, что ряд короткий, а P — значительное число, тогда мою модель применять нельзя.

Напишите, как сделаете, какие у вас результаты вышли. Интересно :-)

----------------------
Ирина Чучуева,
команда Математического бюро

Ну пока что разброс приличный

Ну пока что разброс приличный. Бывает точность МАРЕ = 3-4%, а бывает и 30... Ну это я в случайное место в выборке тыкаю, прогнозирую его и сравниваю... Причем 30 % обычно в середине всех имеющихся точек, так что наверное там М нужно другое подбирать... И еще бывает, что прогноз по своей форме идеальный, но смещен вниз или вверх от реальных значений. Наверное как раз из-за температуры.

MAPE = 3-4% для начала совсем

MAPE = 3-4% для начала совсем не плохо! Так что вы на правильном пути. Конечно, в каждом временном ряде свои нюансы, свои особенности, порой к ним нужно просто приспособится. Со временем сможете оценить, что вызывает такие скачки. Если они существенные, то обязательно нужно дополнительные исследования проводить, например, глянуть на зависимость от температуры.

А вы делаете какое-то исследование в рамках учебы или реальную систему прогноза для ГТП?

----------------------
Ирина Чучуева,
команда Математического бюро

Пока в рамках учебы, но

Пока в рамках учебы, но возможно и дальнейшее использование. Пока не знаю, зависит от результатов)

Ирина, а Вы не сталкивались

Ирина, а Вы не сталкивались со случаем, когда в модели EMMSP(X) при нахождении обратной матрицы Zx, ее определитель равнялся нулю? Насколько я понимаю, это означает, что один из регрессоров может быть линейно выражен через другие?

Спасибо.

Сталкивалась, особенно часто

Сталкивалась, особенно часто это случается, если данные временного ряда сформированы некорректно и изначально имелись пропущенные куски ряда, которые просто затыкались имеющимися похожими датами. В таких случаях, действительно, определитель равен нулю. Надо делать дополнительную проверку, чтобы программа такие куски не учитывала и работала корректно.

Вообще замечу, что в диссертации дано самое общее описание — так положено, чтобы описание было общее и формальное. Но в реальной системе столько нюансов, что голову сломать на первом этапе можно. Вы пока только с одним столкнулись. Другим нюансом для вас точно прогнозирование праздников и переносов рабочих дней, потому что тут полезут самые большие ошибки и их снижение здорово влияет на среднюю оценку ошибки. Третьи нюансы появятся, если изменится горизонт прогнозирования и нужно будет делать прогноз, например, на неделю вместо суток. Словом, пробуйте! Это и есть исследовательская работа :-)

Кое-какие (далеко не все) модификации EMMSP я простым языком описала в записи Модификации модели по выборке максимального подобия. Когда на базовой модели руку набьете, то можете обратиться туда и посмотреть, как прогноз можно сделать точнее!

----------------------
Ирина Чучуева,
команда Математического бюро

Спасибо большое!

Спасибо большое!

У меня как раз кусок ряда копировался из имеющихся данных. Буду работать дальше)

2010 - 2018 © Математическое бюро

Все права защищены в соответствии с законодательством РФ

При полном или частичном использовании материалов ссылка на сайт обязательна