Loading AI tools
З Вікіпедії, вільної енциклопедії
Часовий ряд (англ. time series) — це ряд точок даних[en], проіндексованих (або перелічених, або відкладених на графіку) в хронологічному порядку. Найчастіше часовий ряд є послідовністю, взятою на рівновіддалених точках в часі, які йдуть одна за одною. Таким чином, він є послідовністю даних дискретного часу[en]. Прикладами часових рядів є висоти океанських припливів, кількості сонячних плям, та щоденне середньозважене значення індексу ПФТС на момент закриття торгів.
Часові ряди дуже часто представляють за допомогою лінійних діаграм. Часові ряди використовуються в статистиці, обробці сигналів, розпізнаванні образів, економетриці, фінансовій математиці, прогнозуванні погоди, розумному транспорті та передбаченні траєкторій,[1] передбаченні землетрусів, електроенцефалографії, автоматичному керуванні, астрономії, технологіях зв'язку[en], а також значною мірою в будь-якій області прикладної науки та інженерії, яка включає часові вимірювання.
Аналіз часових рядів (англ. time series analysis) включає методи аналізу даних часових рядів з метою витягування значимих статистик та інших характетистик даних. Прогнозування часових рядів (англ. time series forecasting) — це застосування моделі для передбачування майбутніх значень на основі значень попередньо спостережених. І хоча регресійний аналіз часто застосовують для перевірки теорій про те, що поточні значення одного чи більше незалежних часових рядів впливають на поточне значення іншого часового ряду, цей тип аналізу часових рядів не називають «аналізом часових рядів», який натомість зосереджується на порівнянні значень одного часового ряду або багатьох залежних часових рядів у різні моменти часу.[2]
Дані часових рядів мають природний часовий порядок. Це робить аналіз часових рядів відмінним від поперечних досліджень, у яких не існує природного порядку спостережень (наприклад, пояснення заробітної платні людей через посилання на їхні рівні освіти, де дані осіб можуть вводитися у будь-якому порядку). Аналіз часових рядів відрізняється також і від аналізу просторових даних, де спостереження зазвичай відносяться до географічних розташувань (наприклад, підрахунок цін на будинки за розташуванням, а також за власними характеристиками цих будинків). Стохастична модель часового ряду, як правило, відображатиме той факт, що спостереження, які знаходяться близько в часі, будуть пов'язані тісніше, ніж спостереження, які знаходяться далі одне від одного. Крім того, моделі часових рядів часто застосовують природне односпрямоване впорядкування часу, так, що значення для заданого періоду виражено як похідні від минулих значень, а не від майбутніх (див. зворотність часу[en]).
Аналіз часових рядів може застосовуватися до дійснозначних неперервних даних, дискретних числових даних, та дискретних символьних даних (наприклад, послідовностей символів, таких як літери та слова української мови).[3]
Методи аналізу часових рядів може бути розділено на два класи: методи частотної області, та методи часової області. Перші включають спектральний та вейвлетний аналіз, другі — аналіз автокореляції та взаємної кореляції. У часовій області кореляція та аналіз можуть здійснюватися фільтроподібним чином із застосуванням масштабної кореляції[en], зменшуючи таким чином потребу діяти в частотній області.
Методики аналізу часових рядів можуть додатково поділятися на параметричні[en] та непараметричні[en]. Параметричні підходи[en] передбачають, що стаціонарний стохастичний процес, який лежить в основі даних, має певну структуру, яку може бути описано із застосуванням невеликого числа параметрів (наприклад, із застосуванням авторегресійної моделі, або моделі ковзного середнього). В цих підходах задачєю є оцінити параметри моделі, яка описує цей стохастичний процес. На противагу цьому, непараметричні підходи[en] явно оцінюють коваріацію або спектр процесу без припущення про наявність у цього процесу якоїсь певної структури.
Методи аналізу часових рядів також може бути розділено на лінійні й нелінійні[en], та на одновимірні й багатовимірні.
Часові ряди є одним із типів панельних даних[en]. Панельні дані є загальним класом, багатовимірним набором даних, тоді як набір даних часового ряду є одновимірною панеллю (як і набір перехресних даних[en]). Набір даних може демонструвати характеристики як панельних даних, так і даних часового ряду. Одним зі способів сказати це, є спитати, що робить один запис даних унікальним відносно інших записів. Якщо відповіддю буде поле даних часу, то цей набір даних є кандидатом до наборів даних часових рядів. Якщо визначення унікального запису вимагає поля даних часу та додаткового ідентифікатора, не пов'язаного з часом (ідентифікатора студента, тікерної назви, коду країни), то цей набір даних є кандидатом до панельних даних. Якщо розмежування покладається на нечасовий ідентифікатор, то такий набір даних є кандидатом до наборів перехресних даних.
Прогнозні оцінки за допомогою методів екстраполяції розраховуються в кілька етапів:
Для отримання об'єктивного прогнозу розвитку досліджуваного явища дані базової лінії повинні відповідати таким вимогам:
Якщо у спостереженнях відсутні результати за незначний відрізок часу, то для забезпечення повноти базової лінії необхідно їх заповнити приблизними даними, наприклад, використовувати середнє значення сусідніх відрізків.
Коректування отриманого прогнозу виконується для уточнення отриманих довгострокових прогнозів з урахуванням впливу сезонності або стрибкоподібності розвитку досліджуваного явища.
Для часових рядів існує кілька типів задач і типів аналізу даних, які підходять для різних цілей тощо.
В контексті статистики, економерії, фінансової математики, сейсмології, метеорології та геофізики головною метою аналізу часових рядів є прогнозування. В контексті обробки сигналів, автоматичного керування та технологій зв'язку[en] він застосовується для виявлення та оцінювання сигналу, тоді як у контексті добування даних, розпізнавання образів та машинного навчання аналіз часових рядів може застосовуватися для кластерування, класифікації, запитів за вмістом, виявлення аномалій, а також і для прогнозування.
Найясніший спосіб вивчення регулярних часових рядів вручну — це Лінійна діаграма, така, як показана діаграма захворюваності на сухоти в США, зроблена за допомогою електронних таблиць. Число випадків захворювання нормалізовано до рівня на 100 000, і обчислено відсоткову зміну цього рівня за рік. Майже неухильно спадна лінія показує, що захворюваність на сухоти знижувалася в більшості років, але відсоткова зміна цього рівня коливалася аж на +/- 10 %, зі «сплесками» 1975 року та приблизно на початку 1990-х років. Застосування обох вертикальних осей уможливлює порівняння двох часових рядів на одному графіку.
До інших методик належать:
Детальніші відомості з цієї теми ви можете знайти в статті Допасовування кривої[en].
Допасовування кривої (англ. curve fitting)[9][10] — це процес побудови кривої, або математичної функції, яка має найкращу допасованість до ряду точок даних,[11] можливо, з урахуванням обмежень.[12][13] Допасовування кривої може включати або інтерполювання,[14][15] коли вимагається точна допасованість до даних, або згладжування[en],[16][17] в якому будується «плавна» функція, яка допасовується до даних наближено. Пов'язаною темою є регресійний аналіз,[18][19] що зосереджується більше на питаннях статистичного висновування, таких як скільки невизначеності є в кривій, яку допасовано до даних, спостережених із випадковими помилками. Допасовані криві можуть використовуватися як допомога для унаочнення даних,[20][21] для отримування висновків про значення функції там, де дані відсутні,[22] та для підбиття взаємозв'язку між двома чи більше змінними.[23] Екстраполювання стосується застосування допасованої кривої за межами області спостережених даних,[24] і є предметом ступеню невизначеності,[25] оскільки воно може відображати метод, використаний для побудови кривої, настільки ж, наскільки воно відображає спостережені дані.
Побудова економічних часових рядів включає оцінювання деяких складових на деякі дати шляхом інтерполювання між значеннями («орієнтирами») для раніших й пізніших дат. Інтерполювання є оцінюванням невідомого значення між двома відомими значеннями (історичні дані), або здійсненням висновків про відсутню інформацію з інформації доступної («читання між рядками»).[26] Інтерполювання є корисним тоді, коли дані навколо відсутніх є доступними, і їхня тенденція, сезонність та довготривалі цикли є відомими. Воно часто здійснюється за допомогою застосуванням пов'язаних рядів, відомих для всіх відповідних дат.[27] Як альтернативу застосовують поліномну або сплайнову інтерполяцію, коли кусенево-поліномні функції допасовуються до часових інтервалів таким чином, що вони допасовуються плавно й одна до одної. Іншою задачею, тісто пов'язаною з інтерполюванням, є наближення складної функції простою (що також називають регресією. Основною відмінністю між регресією та інтерполюванням є те, що поліноміальна регресія дає єдиний поліном, що моделює весь набір даних. Сплайнове інтерполювання ж, натомість, для моделювання набору даних видає кусенево-неперервну функцію, складену з багатьох поліномів.
Екстраполювання — це процес оцінювання значення змінної за межами первинної області спостереження на основі її взаємозв'язку з іншою змінною. Воно є подібним до інтерполювання, що виробляє оцінки між відомими спостереженнями, але екстраполювання є предметом більшої невизначеності, й вищого ризику вироблення безглуздих результатів.
Детальніші відомості з цієї теми ви можете знайти в статті Наближення функцій[en].
Загалом, задача наближення функції полягає у виборі функції з чітко окресленого класу, яка близько підходить до цільової функції («наближує» її), характерним для цієї задачі способом. Можна розділяти два основні класи задач наближення функцій: По-перше, для відомих цільових функцій, Теорія наближення є галуззю чисельного аналізу, яка досліджує, як певні відомі функції (наприклад, спеціальні функції) можна наближувати певним класом функцій (наприклад, поліномами, або раціональними функціями), які часто мають бажані властивості (невитратне обчислення, неперервність, значення інтегралів та границь тощо).
По-друге, цільова функція, назвімо її g, може бути невідомою; замість явної формули, може бути надано лише набір точок (часовий ряд) вигляду (x, g(x)). В залежності від структури області визначення та множини значень g, можуть застосовуватися кілька методик наближення g. Наприклад, якщо g є оператором над дійсними числами, то можуть застосовуватися методики інтерполювання, екстраполювання, регресійного аналізу та допасовування кривих[en]. Якщо множина (область) значень g є скінченною множиною, то ми натомість маємо справу із задачею класифікації. Пов'язаною задачею оперативного наближення часових рядів (англ. online time series approximation)[28] є узагальнення даних за один прохід, та побудова наближеного представлення, яке може підтримувати різноманітні запити до часових рядів з обмеженою найгіршою похибкою.
У якійсь мірі ці різні задачі (регресії, класифікації, наближення допасованості[en]) отримали уніфіковане трактування в теорії статистичного навчання, де їх розглядають як задачі керованого навчання.
У статистиці передбачення є частиною статистичного висновування. Один із конкретних підходів до такого висновування відомий як передбачувальне висновування[en], але передбачення може проводитися з будь-яким із підходів до статистичного висновування. Справді, одним із описів статистики є те, що вона забезпечує засоби перенесення знань про вибірку із сукупності на всю сукупність, і на інші пов'язані сукупності, що не обов'язково є тим же, що й передбачення в часі. При перенесенні інформації в часі, часто на конкретні моменти часу, цей процес називається прогнозуванням.
Віднесення зразків часових рядів до певної категорії, наприклад, ідентифікування слова на основі ряду рухів рук мовою жестів.
Оцінювання майбутнього значення сигналу на основі його попередньої поведінки, наприклад, передбачування ціни акцій MSICH на основі попереднього руху їхньої ціни протягом цієї години, дня або місяця, або передбачування положення космічного корабля Аполлон-11 у певний майбутній момент на основі його поточної траєкторії (тобто, часового ряду його попередніх положень).[29] Регресійний аналіз зазвичай ґрунтується на статистичній інтерпретації властивостей часових рядів у часовій області визначення, започаткованій статистиками Джорджем Боксом[en] та Ґвилимом Дженкінсом[en] у 1950-х роках: див. метод Бокса — Дженкінса[en].
Цей підхід ґрунтується на гармонічному аналізі та фільтруванні сигналів у частотній області із застосуванням перетворення Фур'є та оцінки спектральної густини[en], розробку яких було значно прискорено під час Другої світової війни математиком Норбертом Вінером, електроінженерами Рудольфом Калманом, Деннісом Габором та іншими для відфільтровування сигналу від шуму та передбачування значень сигналу на певний момент часу. Див. фільтр Калмана, теорію оцінювання та цифрову обробку сигналів.
Детальніші відомості з цієї теми ви можете знайти в статті Сегментування часових рядів[en].
Поділ часових рядів на послідовність сегментів. Часто трапляється так, що часовий ряд може бути представлено як послідовність окремих сегментів, кожен зі своїми характерними властивостями. Наприклад, звуковий сигнал із телефонної конференції може бути розділено на частини, які відповідають проміжкам часу, протягом яких говорила кожна з осіб. Метою сегментування часових рядів є визначити межові точки сегментів у часовому ряді, та охарактеризувати динамічні властивості, пов'язані з кожним із сегментів. Можна підходити до цієї задачі, застосовуючи виявлення точок змін[en], або моделювання часових рядів як складніших систем, таких як лінійні системи марковських стрибків.
Моделі даних часових рядів можуть мати багато форм, і представляти різні стохастичні процеси. Три широкі класи, що становлять практичний інтерес при моделюванні змін рівня якогось процесу, складають авторегресійні моделі (англ. autoregressive models, AR models), інтегровані моделі (англ. integrated models, I models) та моделі ковзного середнього[en] (англ. moving average models, MA models). Ці три класи залежать від попередніх точок даних лінійно.[30] Поєднання цих ідей дає модель авторегресії — ковзного середнього (англ. autoregressive–moving-average model, ARMA model) та модель авторегресії — інтегрованого ковзного середнього (англ. autoregressive integrated moving average model, ARIMA model). Модель авторегресії — дробово інтегрованого ковзного середнього[en] (англ. autoregressive fractionally integrated moving average model, ARFIMA model) узагальнює три перші. Розширення цих методів для роботи з векторнозначними даними доступні під назвою багатовимірних моделей часових рядів (англ. multivariate time-series models), і іноді попередні абревіатури розширюються включенням початкової літери V від англ. vector (вектор), як у VAR для векторної авторегресії. Існує додатковий набір розширень цих моделей для застосування у випадках, коли спостережуваний часовий ряд ведеться певним «примушувальним» часовим рядом (який може не мати причинного впливу на спостережуваний ряд): відмінність від багатовимірного випадку полягає в тому, що змушувальний ряд може бути детермінованим, або перебувати під керуванням експериментатора. Для цих моделей акроніми розширюються завершувальною літерою X, від англ. exogenous (екзогенний).
Зацікавлення складає й нелінійна залежність рівня ряду від попередніх точок даних, почасти через можливість отримання хаотичних часових рядів. Проте, що важливіше, емпіричні дослідження можуть показувати переваги застосування передбачень, отриманих від нелінійних моделей, над отриманими від лінійних моделей, як, наприклад, у нелінійних авторегресійних екзогенних моделях. Додаткові посилання про аналіз нелінійних часових рядів: Канц і Шряйбер,[31] та Абарбанель.[32]
Серед інших типів нелінійних моделей часових рядів є моделі для представлення змін дисперсії протягом часу (гетероскедастичність). Ці моделі представляють авторегресійну умовну гетероскедастичність (англ. autoregressive conditional heteroskedasticity, ARCH), і це зібрання обіймає широку різноманіть представлень (GARCH, TARCH, EGARCH, FIGARCH, CGARCH тощо). Тут зміни дисперсії ставляться у відповідність до, або передбачуються через нещодавні попередні значення спостережуваного ряду. Це протиставляється іншим можливим представленням локально змінної мінливості, де мінливість може моделюватися як ведена окремим змінним у часі процесом, як у бістохастичній моделі[en].
В нещодавній праці з безмодельного аналізу набули прихильності методи на основі вейвлетного перетворення (наприклад, локально стаціонарні вейвлети та вейвлетно-розкладені нейронні мережі). Полімасштабні (англ. multiscale, часто згадувані як поліроздільнісні, англ. multiresolution) методики розкладають заданий часовий ряд, намагаючись проілюструвати часову залежність на декількох масштабах. Див. також поліфрактальні методики з марковським перемиканням[en] (англ. markov switching multifractal, MSMF) для моделювання процесу зміни волатильності.
Прихована марковська модель (ПММ, англ. hidden Markov model, HMM) — це статистична марковська модель, у якій модельована система розглядається як марковський процес із неспостережуваними (прихованими) станами. ПММ можна розглядати як найпростішу динамічну баєсову мережу. ПММ широко застосовуються в розпізнаванні мовлення, для перетворення часових рядів вимовлених слів на текст.
Для аналізу часових рядів використовується ряд різних позначень. Звичне позначення, яке визначає часовий ряд X, проіндексований натуральними числами, записується як
Іншим поширеним позначенням є
де T є індексною множиною.
Є два набори умов, за яких побудовано більшу частину цієї теорії:
Проте, ідеї стаціонарності мусить бути розкрито для розгляду двох важливих ідей: строгої стаціонарності та стаціонарності другого порядку. Як моделі, так і застосування може бути розроблено за кожної з цих умов, хоча моделі в другому випадку можуть розглядатися як лише частково визначені.
Крім того, аналіз часових рядів може застосовуватися там, де ряди є сезонно стаціонарними[en] або не стаціонарними. Ситуації, коли амплітуди частотних складових змінюються з часом, можуть оброблятися в частотно-часовому аналізі[en], що застосовує частотно-часове представлення[en] часового ряду або сигналу.[33]
Детальніші відомості з цієї теми ви можете знайти в статті Авторегресійна модель.
Загальним представленням авторегресійної моделі (англ. autoregressive model), добре відомої як AR(p), є
де член εt є джерелом випадковості, й називається білим шумом. Вважається, що він має наступні характеристики:
За цих припущень процес є визначеним до моментів другого порядку, і, за умови дотримання умов на коефіцієнти, може мати стаціонарність другого порядку.
Якщо також і шум має нормальний розподіл, то він називається нормальним або ґаусовим білим шумом. В такому разі авторегресійний процес може бути строго стаціонарним, знов-таки, за умови дотримання умов на коефіцієнти.
Цей розділ має вигляд переліку, який краще подати прозою. (січень 2017) |
До інструментів для дослідження даних часових рядів належать:
Міри або ознаки часових рядів, які можуть застосовуватися для їхнього класифікаційного або регресійного аналізу:[37]
Часові ряди може бути унаочнювано за допомогою двох категорій графіків: накладених графіків, та відокремлених графіків. Накладені графіки відображають всі часові ряди на одному компонуванні, в той час як відокремлені графіки представляють їх на різних компонуваннях (але вирівняних з метою порівняння).[40]
Робота з даними часових рядів є відносно поширеним застосуванням для програмного забезпечення статистичного аналізу. В результаті цього, існує багато пропозицій як комерційного, так і відкритого програмного забезпечення. До деяких прикладів належать:
Seamless Wikipedia browsing. On steroids.
Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.
Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.