Loading AI tools
З Вікіпедії, вільної енциклопедії
Розпізнавання мовця — це ідентифікація людини залежно від характеристик її голосу. Існує різниця між розпізнаванням диктора (розпізнавання того, хто говорить) і розпізнавання мови (розпізнавання того, що було сказано). Ці два терміни часто плутають, і «розпізнавання мови» може бути використане для обох. Крім того, існує різниця між актом аутентифікації (зазвичай він називається верифікацією диктора або аутентифікацією диктора) та ідентифікації. І, нарешті, існує різниця між розпізнаванням диктора (розпізнавання того, хто говорить) і діаризацією (розпізнавання, коли ж оратор говорить). Розпізнавання мовця може спростити завдання перекладу мови в системах, які були навчені на голоси конкретної людини або воно може бути використане для перевірки автентичності чи перевірки особистості мовця як частина процесу забезпечення безпеки.
Ця стаття містить правописні, лексичні, граматичні, стилістичні або інші мовні помилки, які треба виправити. |
Ця стаття не містить посилань на джерела. (листопад 2023) |
Процес розпізнавання мовця має історію, що йде назад приблизно на чотири десятиліття і використовує акустичні особливості мови з метою розрізняти окремих людей. Ці акустичні моделі відображають анатомію (наприклад, розмір і форма горла чи рота) і вивчають поведінкові моделі (наприклад, голос основного тону, стиль говоріння). Перевірка мовця заробила класифікацію «поведінкової біометрії».
Кожна система розпізнавання мовця має дві фази: реєстрації та верифікації. Під час реєстрації голос мовця записується і, як правило, ряд особливостей голосу витягується для формування голосового друку, шаблону або моделі. На етапі перевірки, зразок мови порівнюється з раніше створеним голосовим друком. Для систем ідентифікації вимова порівнюється з декількома голосовими відбитками з метою визначення найкращої відповідності. Завдяки процесу, що використовується, верифікація виконується швидше, ніж ідентифікація.
Системи розпізнавання акустичних систем діляться на дві категорії: текстово-залежні й текстово-незалежні.[1]
Текстово-залежна категорія:
Якщо текст повинен бути однаковим для реєстрації та верифікації, це називається текстово-залежним розпізнаванням. У текстово-залежній системі підказки можуть бути або загальними для всіх акустичних систем (наприклад, загальна парольна фраза), або унікальними.
Текстово-незалежна категорія:
Текстові незалежні системи найчастіше використовуються для ідентифікації диктора, оскільки вони вимагають дуже мало. Насправді реєстрація може відбуватися без відома користувача, як у випадку для багатьох судових додатків. Так, як текстові незалежні технології не порівнюють те, що було сказано під час реєстрації й верифікації, як правило, також використовують розпізнавання мови, щоб визначити, що користувач говорить в момент аутентифікації.
У текстових незалежних системах використовуються обидва методи аналізу: акустичний і мовний.
Перший міжнародний патент був зареєстрований в 1983 році, виходячи з досліджень зв'язку в CSELT[2] як основи для майбутніх телекомунікаційних послуг і поліпшення методів шумозаглушення через всю мережу.
У травні 2013 року було оголошено, що Barclays Wealth буде використовувати пасивне розпізнавання акустичних систем для перевірки справжності телефонних клієнтів протягом 30 секунд розмови.[3]
Приватний банківський підрозділ Barclays став першим, хто застосував голосову біометрію як основний засіб для аутентифікації клієнтів.
У серпні 2014 року GoVivace Inc. почала використовувати таку нормативну акустичну систему, яка дозволила в телекомунікаційній базі клієнтів успішно шукати людину серед мільйонів носіїв, використовуючи тільки один приклад запису свого голосу.
Розпізнавання мовця також може бути використане при проведенні кримінальних розслідувань.[4]
Seamless Wikipedia browsing. On steroids.
Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.
Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.