Loading AI tools
це породжувальна стохастична штучна нейронна мережа, здатна навчатися розподілу ймовірностей над набором її входів З Вікіпедії, вільної енциклопедії
Обме́жена маши́на Бо́льцмана (ОМБ, англ. restricted Boltzmann machine, RBM) — це породжувальна стохастична штучна нейронна мережа, здатна навчатися розподілу ймовірностей над набором її входів.
ОМБ було спочатку винайдено під назвою Гармоніум (англ. Harmonium — фісгармонія) Полом Смоленським[en] 1986 року,[1] а популярності вони набули після винайдення Джефрі Гінтоном зі співавторами у середині 2000-х років алгоритмів швидкого навчання для них. ОМБ знайшли застосування у зниженні розмірності,[2] класифікації,[3] колаборативній фільтрації,[4] навчанні ознак,[5] тематичному моделюванні[6] та навіть квантовій механіці багатьох тіл[en].[7][8] Їх можна тренувати як керованим, так і некерованим чином, залежно від завдання.
Як випливає з їхньої назви, ОМБ є варіантом машин Больцмана, з тим обмеженням, що їхні нейрони мусять формувати двочастковий граф: пара вузлів з кожної з двох груп вузлів (що, як правило, називають «видимим» та «прихованим» вузлами відповідно) можуть мати симетричне з'єднання між ними, але з'єднань між вузлами в межах групи не існує. На противагу, «необмежені» машини Больцмана можуть мати з'єднання між прихованими вузлами. Це обмеження уможливлює ефективніші алгоритми тренування, ніж доступні для загального класу машин Больцмана, зокрема, алгоритм контра́стового розхо́дження (англ. contrastive divergence) на основі градієнтного спуску.[9]
Обмежені машини Больцмана можливо також застосовувати в мережах глибокого навчання. Зокрема, глибокі мережі переконань можуть утворюватися «складанням» ОМБ та, можливо, тонким настроюванням отримуваної глибокої мережі за допомогою градієнтного спуску та зворотного поширення.[10]
Стандартний тип ОМБ має бінарновозначні (булеві) приховані та видимі вузли, і складається з матриці вагових коефіцієнтів розміру . Кожен ваговий елемент цієї матриці пов'язано зі з'єднанням між видимим (вхідним) вузлом та прихованим вузлом . Крім того, є вагові коефіцієнти упереджень (зміщення) для та для . З урахуванням цих ваг та упереджень, енергію конфігурації (пари булевих векторів) (v,h) визначають як
або, в матричному записі,
Ця функція енергії аналогічна функції енергії мережі Гопфілда. Як і з загальними машинами Больцмана, спільний розподіл імовірності для видимих та прихованих векторів визначають у термінах функції енергії наступним чином:[11]
де є статистичною сумою[en], визначеною як сума над усіма можливими конфігураціями, що можливо інтерпретувати як нормувальну сталу[en] для забезпечення того, щоби ймовірності давали в сумі 1. Відособлена ймовірність видимого вектора є сумою над усіма можливими конфігураціями прихованого шару,[11]
і навпаки. Оскільки графова структура в основі ОМБ двочасткова (тобто, без з'єднань усередині шарів), збудження прихованих вузлів є взаємно незалежними[en] для заданих збуджень видимих вузлів. І навпаки, збудження видимих вузлів є взаємно незалежними для заданих збуджень прихованих вузлів.[9] Тобто, для m видимих вузлів та n прихованих вузлів умовною ймовірністю конфігурації видимих вузлів v для заданої конфігурації прихованих вузлів h є
І навпаки, умовною ймовірністю h для заданої v є
Імовірності окремих збуджень задаються як
де позначає логістичну сигмоїду.
Незважаючи на те, що приховані вузли є бернуллієвими, видимі вузли обмеженої машини Больцмана можуть бути багатозначними.[прояснити: ком.] В такому випадку логістична функція для видимих вузлів замінюється нормованою експоненційною функцією (англ. Softmax function)
де K є кількістю дискретних значень, які мають видимі значення. Вони застосовуються в тематичному моделюванні[6] та рекомендаційних системах.[4]
Обмежені машини Больцмана є особливим випадком машин Больцмана та марковських випадкових полів.[12][13] Їхня графова модель відповідає моделі факторного аналізу.[14]
Обмежені машини Больцмана тренуються максимізувати добуток ймовірностей, призначених певному тренувальному наборові (матриця, кожен рядок якої розглядається як видимий вектор ),
або, рівноцінно, максимізувати математичне сподівання логарифмічної ймовірності тренувального зразка , вибраного випадково з :[12][13]
Алгоритмом, що найчастіше застосовують для тренування ОМБ, тобто для оптимізації матриці вагових коефіцієнтів , є алгоритм контрастового розходження (КР, англ. contrastive divergence, CD), що належить Гінтонові, первинно розроблений для тренування моделей добутку експертів[en] (англ. product of experts, PoE).[15][16] Цей алгоритм здійснює вибірку за Ґіббзом[en], і використовується всередині процедури градієнтного спуску (подібного до того, як зворотне поширення використовується всередині такої процедури при тренуванні нейронних мереж прямого поширення) для обчислення уточнення вагових коефіцієнтів.
Елементарну, однокрокову процедуру контрастового розходження (КР-1, англ. CD-1) для єдиного зразка може бути описано таким чином:
Практичну настанову з тренування ОМБ, написану Гінтоном, можна знайти на його домашній сторінці.[11]
Цей розділ написано занадто професійним стилем зі специфічною термінологією, що може бути незрозумілим для більшості читачів. (серпень 2023) |
Seamless Wikipedia browsing. On steroids.
Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.
Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.