음성 인식 - Wikiwand

음성 인식(speech recognition)은 컴퓨터 과학과 전산언어학의 방법론과 기술을 개발하는 학제간 하위 분야로, 음성 언어를 컴퓨터가 인식하고 텍스트로 번역할 수 있도록 한다. 자동 음성 인식(automatic speech recognition, ASR), 컴퓨터 음성 인식(computer speech recognition) 또는 음성-텍스트(speech-to-text, STT)라고도 한다. 컴퓨터 과학, 언어학, 컴퓨터 공학 분야의 지식과 연구를 통합한다. 반대 과정은 음성 합성이다.

일부 음성 인식 시스템은 "훈련"(또는 "등록")이 필요하며, 개별 화자가 시스템에 텍스트나 특정 어휘를 읽어준다. 시스템은 해당 화자의 특정 목소리를 분석하고 이를 사용하여 해당 화자의 음성 인식을 미세 조정하여 정확도를 높인다. 훈련을 사용하지 않는 시스템은 "화자 독립"^[1] 시스템이라고 한다. 훈련을 사용하는 시스템은 "화자 종속"이라고 한다.

음성 인식 애플리케이션에는 음성 다이얼링(예: "집으로 전화"), 통화 라우팅(예: "수신자 부담 전화 걸겠습니다"), 가정 자동화 기기 제어, 검색 키워드(예: 특정 단어가 말해진 팟캐스트 찾기), 간단한 데이터 입력(예: 신용카드 번호 입력), 구조화된 문서 작성(예: 방사선 보고서), 화자 특성 결정,^[2] 음성-텍스트 처리(예: 워드 프로세서 또는 이메일), 항공기 (일반적으로 직접 음성 입력이라고 불림)의 음성 사용자 인터페이스가 포함된다. 자동 발음 평가는 구어 학습과 같은 교육에 사용된다.

음성 인식^[3]^[4]^[5] 또는 화자 인식^[6]^[7]^[8]는 화자가 무엇을 말하는지가 아니라 화자를 식별하는 것을 의미한다. 화자를 인식하면 특정 화자의 목소리로 훈련된 시스템의 음성 번역 작업이 단순화되거나, 보안 프로세스의 일부로 화자의 신원을 인증하거나 확인할 수 있다.

기술적인 관점에서 음성 인식은 몇 가지 주요 혁신의 물결과 함께 오랜 역사를 가지고 있다. 가장 최근에는 이 분야가 딥 러닝과 빅 데이터의 발전으로 혜택을 받았다. 이러한 발전은 이 분야에서 발표된 학술 논문의 급증뿐만 아니라, 더 중요하게는 전 세계 산업계에서 다양한 딥 러닝 방법을 사용하여 음성 인식 시스템을 설계하고 배포하는 데 채택된 것으로 입증된다.

Remove ads

역사

요약

관점

성장의 핵심 영역은 어휘 크기, 화자 독립성, 처리 속도였다.

1970년 이전

1952 – 벨 연구소의 연구원 3명인 스티븐 발라셰크,^[9] R. 비덜프, K. H. 데이비스가 단일 화자 숫자 인식을 위한 "오드리"(Audrey)^[10]라는 시스템을 만들었다. 이 시스템은 각 발화의 전력 스펙트럼에서 포먼트를 찾았다.^[11]
1960 – 군나르 판트가 음성 생성의 소스-필터 모델을 개발하고 발표했다.
1962 – IBM은 1962년 세계 박람회에서 16개 단어 "슈박스"(Shoebox) 기계의 음성 인식 기능을 시연했다.^[12]
1966 – 음성 부호화 방법인 선형 예측 부호화 (LPC)가 음성 인식 연구를 진행하던 나고야 대학의 이타쿠라 후미타다와 일본전신전화 (NTT)의 사이토 슈조에 의해 처음 제안되었다.^[13]
1969 – 1969년, 영향력 있는 존 피어스가 음성 인식 연구를 비판하고 자금 지원을 중단하는 공개 서한을 작성하자 벨 연구소의 자금 지원이 몇 년 동안 중단되었다.^[14] 이러한 자금 중단은 Pierce가 은퇴하고 제임스 L. 플래너건이 인계할 때까지 지속되었다.

라지 레디는 1960년대 후반 스탠퍼드 대학교의 대학원생으로서 연속 음성 인식을 처음으로 수행했다. 이전 시스템은 사용자가 각 단어 뒤에 잠시 멈춰야 했다. Reddy의 시스템은 체스를 두기 위한 음성 명령을 발행했다.

이 무렵 소련 연구원들은 동적 시간 워핑 (DTW) 알고리즘을 발명하고 이를 사용하여 200개 단어 어휘에서 작동할 수 있는 인식기를 만들었다.^[15] DTW는 음성을 짧은 프레임, 예를 들어 10ms 세그먼트로 나누고 각 프레임을 단일 단위로 처리하여 음성을 처리했다. DTW는 이후의 알고리즘에 의해 대체되었지만 이 기술은 계속 사용되었다. 화자 독립성 달성은 이 시기에도 여전히 해결되지 않은 문제였다.

1970–1990

1971 – DARPA는 음성 이해 연구에 5년간 자금을 지원하여 최소 1,000개 단어 어휘를 목표로 하는 음성 인식 연구를 진행했다. 그들은 음성 이해가 음성 인식 발전에 핵심이 될 것이라고 생각했지만, 나중에 이것은 사실이 아닌 것으로 밝혀졌다.^[16] BBN, IBM, 카네기 멜런 대학교, 스탠퍼드 연구소 모두 이 프로그램에 참여했다.^[17]^[18] 이것은 존 피어스의 서한 이후 음성 인식 연구를 부활시켰다.
1972 – IEEE 음향, 음성 및 신호 처리 그룹이 매사추세츠주 뉴턴에서 학회를 개최했다.
1976 – 첫 ICASSP가 필라델피아에서 개최되었으며, 그 이후로 음성 인식 연구 발표의 주요 장소가 되었다.^[19]

1960년대 후반 레너드 바움은 국방 분석 연구소에서 마르코프 연쇄의 수학을 개발했다. 10년 후, 카네기 멜런 대학교에서 라지 레디의 제자인 제임스 베이커와 자넷 M. 베이커는 음성 인식을 위해 은닉 마르코프 모형 (HMM)을 사용하기 시작했다.^[20] 제임스 베이커는 학부 교육 중 국방 분석 연구소에서 여름 아르바이트를 통해 HMM에 대해 배웠다.^[21] HMM의 사용으로 연구원들은 음향, 언어, 구문과 같은 다양한 지식 출처를 통일된 확률 모델로 결합할 수 있게 되었다.

1980년대 중반까지 IBM의 프레더릭 옐리넥 팀은 20,000개 단어 어휘를 처리할 수 있는 탕고라(Tangora)라는 음성 활성화 타자기를 만들었다.^[22] Jelinek의 통계적 접근 방식은 인간 두뇌가 음성을 처리하고 이해하는 방식을 모방하는 데는 덜 강조하고, 대신 HMM과 같은 통계 모델링 기술을 사용하는 데 중점을 두었다. (Jelinek의 그룹은 HMM을 음성에 적용하는 것을 독립적으로 발견했다.^[21]) 이는 HMM이 인간 언어의 많은 공통적인 특징을 설명하기에는 너무 단순하기 때문에 언어학자들에게는 논란의 여지가 있었다.^[23] 그러나 HMM은 음성 모델링에 매우 유용한 방법으로 판명되었고, 1980년대에는 동적 시간 워핑을 대체하여 지배적인 음성 인식 알고리즘이 되었다.^[24]^[25]
1982 – 제임스와 Janet M. Baker가 설립한 드래곤 시스템즈(Dragon Systems)^[26]는 IBM의 몇 안 되는 경쟁사 중 하나였다.

실용적인 음성 인식

1980년대에는 N-그램 언어 모델도 도입되었다.

1987 – 백오프 모델은 언어 모델이 여러 길이의 N-그램을 사용할 수 있도록 했고, CSELT^[27]는 HMM을 사용하여 언어를 인식했다 (소프트웨어 및 하드웨어 전문 프로세서 모두, 예: RIPAC).

이 분야의 발전은 컴퓨터 기능의 급속한 증가에 기인한다. 1976년 DARPA 프로그램이 끝났을 때 연구원들이 사용할 수 있는 최고의 컴퓨터는 4MB 램의 PDP-10이었다.^[28] 음성 30초를 해독하는 데 최대 100분이 걸릴 수 있었다.^[29]

두 가지 실용적인 제품은 다음과 같다.

1984 – 최대 4096개 단어를 지원하는 Apricot Portable이 출시되었으며, 이 중 64개만 RAM에 한 번에 담을 수 있었다.^[30]
1987 – 커즈와일 응용 인텔리전스(Kurzweil Applied Intelligence)의 인식기
1990 – 1990년에 출시된 소비자 제품 드래곤 딕테이트(Dragon Dictate)^[31]^[32] AT&T는 1992년에 사람 교환원을 사용하지 않고 전화 통화를 라우팅하는 음성 인식 통화 처리 서비스를 배포했다.^[33] 이 기술은 Lawrence Rabiner와 벨 연구소의 다른 연구원들에 의해 개발되었다.

이 시점에는 일반적인 상업용 음성 인식 시스템의 어휘가 평균 인간 어휘보다 더 많았다.^[28] 라지 레디의 전 학생인 쉐둥 황은 카네기 멜런 대학교에서 Sphinx-II 시스템을 개발했다. Sphinx-II 시스템은 화자 독립적인 대규모 어휘 연속 음성 인식을 수행한 최초의 시스템이었으며, 1992년 DARPA 평가에서 최고의 성능을 보였다. 대규모 어휘를 갖춘 연속 음성을 처리하는 것은 음성 인식 역사에서 중요한 이정표였다. Huang은 1993년에 Microsoft의 음성 인식 그룹을 설립했다. 라지 레디의 학생 Kai-Fu Lee는 애플에 입사하여 1992년에 캐스퍼(Casper)로 알려진 애플 컴퓨터의 음성 인터페이스 프로토타입 개발을 도왔다.

벨기에 기반 음성 인식 회사인 Lernout & Hauspie는 1997년에 Kurzweil Applied Intelligence, 2000년에 Dragon Systems를 포함한 여러 회사를 인수했다. L&H 음성 기술은 윈도우 XP 운영 체제에 사용되었다. L&H는 2001년 회계 스캔들로 인해 회사가 종료될 때까지 업계 선두 주자였다. L&H의 음성 기술은 ScanSoft에 의해 인수되었고, 2005년에 Nuance가 되었다. Apple은 원래 Nuance로부터 소프트웨어를 라이선스하여 Siri 디지털 비서에게 음성 인식 기능을 제공했다.^[34]

2000년대

2000년대에 DARPA는 두 가지 음성 인식 프로그램인 2002년의 효과적이고 경제적이며 재사용 가능한 음성-텍스트 변환(EARS)과 글로벌 자율 언어 활용(GALE)에 자금을 지원했다. EARS 프로그램에는 IBM, BBN과 LIMSI 및 Univ. of Pittsburgh가 주도하는 팀, 케임브리지 대학교, ICSI, SRI 및 워싱턴 대학교로 구성된 팀 등 4개 팀이 참여했다. EARS는 500명 이상의 화자로부터 260시간의 녹음된 대화를 포함하는 스위치보드 전화 말뭉치 수집에 자금을 지원했다.^[35] GALE 프로그램은 아랍어 및 표준 만다린 방송 뉴스 음성에 중점을 두었다. Google의 첫 번째 음성 인식 노력은 Nuance에서 일부 연구원을 고용한 후 2007년에 시작되었다.^[36] 첫 번째 제품은 전화 기반 디렉토리 서비스인 GOOG-411이었다. GOOG-411의 녹음 자료는 Google이 인식 시스템을 개선하는 데 도움이 되는 귀중한 데이터를 제공했다. 구글 음성 검색은 이제 30개 이상의 언어를 지원한다.

미국에서는 미국 국가안보국이 최소 2006년부터 키워드 탐지 유형의 음성 인식을 사용하고 있다.^[37] 이 기술을 통해 분석가는 대량의 녹음된 대화를 검색하고 키워드 언급을 분리할 수 있다. 녹음 자료는 색인화되어 분석가가 데이터베이스에서 관심 있는 대화를 찾기 위한 쿼리를 실행할 수 있다. 일부 정부 연구 프로그램은 DARPA의 EARS 프로그램 및 IARPA의 바벨 프로그램과 같이 음성 인식의 정보 애플리케이션에 중점을 두었다.

2000년대 초반에는 음성 인식이 은닉 마르코프 모형과 전방향 인공 신경망을 결합한 전통적인 접근 방식이 여전히 지배적이었다.^[38] 그러나 오늘날 음성 인식의 많은 측면은 Sepp Hochreiter와 Jürgen Schmidhuber가 1997년에 발표한 순환 신경망의 일종인 장단기 메모리 (LSTM)라는 딥 러닝 방법으로 대체되었다.^[39] LSTM RNN은 기울기 소실 문제를 피하고 수천 개의 이산 시간 단계 전에 발생한 이벤트에 대한 기억이 필요한 "매우 깊은 학습" 작업을 학습할 수 있으며, 이는 음성 인식에 중요하다.^[40] 2007년경, Connectionist Temporal Classification(CTC)^[41]으로 훈련된 LSTM이 특정 애플리케이션에서 전통적인 음성 인식을 능가하기 시작했다.^[42] 2015년, Google의 음성 인식은 CTC로 훈련된 LSTM을 통해 49%의 극적인 성능 향상을 경험했으며, 이는 현재 모든 스마트폰 사용자에게 Google Voice를 통해 제공되고 있다.^[43] 순수히 "어텐션"을 기반으로 하는 신경망 유형인 트랜스포머는 컴퓨터 비전^[44]^[45] 및 언어 모델링^[46]^[47]에 널리 채택되어 음성 인식과 같은 새로운 영역에 이러한 모델을 적용하는 데 대한 관심을 불러일으켰다.^[48]^[49]^[50] 일부 최신 논문에서는 트랜스포머 모델을 사용한 음성 인식에서 뛰어난 성능 수준을 보고했지만, 이러한 모델은 높은 성능 수준에 도달하기 위해 일반적으로 대규모 훈련 데이터셋이 필요하다.

음향 모델링을 위한 깊은 전방향(비순환) 신경망 사용은 2009년 후반에 Geoffrey Hinton과 토론토 대학교의 그의 학생들, 그리고 Microsoft Research의 Li Deng^[51]과 동료들에 의해 도입되었으며, 초기에는 Microsoft와 Toronto 대학 간의 공동 작업으로 시작되어 이후 IBM과 Google을 포함하도록 확장되었다(따라서 2012년 검토 논문의 "4개 연구 그룹의 공유된 관점"이라는 부제가 붙었다).^[52]^[53]^[54] Microsoft 연구 책임자는 이 혁신을 "1979년 이후 정확도의 가장 극적인 변화"라고 불렀다.^[55] 지난 몇십 년간의 꾸준한 점진적 개선과 달리, 딥 러닝의 적용은 단어 오류율을 30% 감소시켰다.^[55] 이 혁신은 이 분야 전반에 걸쳐 빠르게 채택되었다. 연구원들은 언어 모델링에도 딥 러닝 기술을 사용하기 시작했다.

음성 인식의 오랜 역사에서 인공 신경망의 얕은 형태와 깊은 형태(예: 순환 신경망)는 1980년대, 1990년대 및 2000년대 초반까지 수년 동안 탐구되었다.^[56]^[57]^[58] 그러나 이러한 방법은 판별적으로 훈련된 생성적 음성 모델을 기반으로 하는 비균일 내부 수동 제작 가우시안 혼합 모델/은닉 마르코프 모형(GMM-HMM) 기술을 결코 이기지 못했다.^[59] 1990년대에는 기울기 소실^[60] 및 신경 예측 모델의 약한 시간 상관 구조를 포함하여 여러 가지 주요 난이도가 방법론적으로 분석되었다.^[61]^[62] 이러한 난이도는 모두 초기에는 대규모 훈련 데이터와 대규모 컴퓨팅 파워의 부족에 추가되었다. 이러한 장벽을 이해한 대부분의 음성 인식 연구원들은 따라서 신경망에서 벗어나 생성적 모델링 접근 방식을 추구하다가 2009-2010년경부터 시작된 딥 러닝의 최근 부흥으로 이 모든 어려움을 극복했다. Hintonet al. 및 Deng et al.는 서로 간의 협력과 이후 4개 그룹(토론토 대학교, Microsoft, Google 및 IBM)의 동료들과의 협력이 음성 인식에 대한 깊은 전방향 신경망 애플리케이션의 르네상스를 어떻게 촉발했는지에 대한 최근 역사의 일부를 검토했다.^[53]^[54]^[63]^[64]

2010년대

2010년대 초반까지 음성 인식은 음성 인식이라고도 불리며,^[65]^[66]^[67] 화자 인식과 명확하게 구분되었고, 화자 독립성은 중요한 돌파구로 여겨졌다. 그때까지 시스템은 "훈련" 기간이 필요했다. 1987년 인형 광고에는 "드디어 당신을 이해하는 인형"이라는 태그라인이 붙었지만, "아이들이 자신의 목소리에 반응하도록 훈련할 수 있는 인형"으로 묘사되었다.^[12]

2017년, 마이크로소프트 연구원들은 널리 벤치마킹되는 스위치보드 작업에서 대화형 전화 음성을 전사하는 역사적인 인간 수준의 이정표에 도달했다. 음성 인식 정확도를 최적화하기 위해 여러 딥 러닝 모델이 사용되었다. 음성 인식 단어 오류율은 동일한 작업에 대해 IBM 왓슨 음성 팀이 자금을 지원한 전문 인간 전사자 4명이 함께 작업한 것과 동일하게 낮은 것으로 보고되었다.^[68]

Remove ads

모델, 방법 및 알고리즘

요약

관점

음향 모델링과 언어 모델링은 현대 통계 기반 음성 인식 알고리즘의 중요한 부분이다. 은닉 마르코프 모형(HMM)은 많은 시스템에서 널리 사용된다. 언어 모델링은 문서 분류 또는 통계적 기계 번역과 같은 다른 자연어 처리 애플리케이션에서도 사용된다.

은닉 마르코프 모형

현대 범용 음성 인식 시스템은 은닉 마르코프 모형을 기반으로 한다. 이들은 기호 또는 양의 시퀀스를 출력하는 통계 모델이다. HMM은 음성 신호가 조각별 정상 신호 또는 단시간 정상 신호로 볼 수 있기 때문에 음성 인식에서 사용된다. 짧은 시간 스케일(예: 10밀리초)에서 음성은 정상 과정으로 근사할 수 있다. 음성은 많은 확률적 목적에 대해 마르코프 모형으로 생각할 수 있다.

HMM이 인기 있는 또 다른 이유는 자동으로 훈련할 수 있고 사용하기 쉽고 계산적으로 실현 가능하다는 것이다. 음성 인식에서 은닉 마르코프 모형은 n차원 실수 벡터(n은 10과 같은 작은 정수)의 시퀀스를 출력하며, 매 10밀리초마다 하나씩 출력한다. 벡터는 켑스트럼 계수로 구성되며, 이는 음성의 짧은 시간 창에 대한 푸리에 변환을 수행하고 코사인 변환을 사용하여 스펙트럼을 분리한 다음 처음(가장 중요한) 계수를 취하여 얻는다. 은닉 마르코프 모형은 각 상태에 대각 공분산 가우시안의 혼합인 통계 분포를 가지는 경향이 있으며, 이는 각 관측 벡터에 대한 가능성을 제공한다. 각 단어 또는 (더 일반적인 음성 인식 시스템의 경우) 각 음소는 다른 출력 분포를 갖는다. 단어 또는 음소 시퀀스에 대한 은닉 마르코프 모형은 별도의 단어 및 음소에 대해 개별적으로 훈련된 은닉 마르코프 모형을 연결하여 만들어진다.

위에 설명된 것은 가장 일반적인 HMM 기반 음성 인식 접근 방식의 핵심 요소이다. 현대 음성 인식 시스템은 위에 설명된 기본 접근 방식에 비해 결과를 개선하기 위해 여러 표준 기술을 조합하여 사용한다. 일반적인 대규모 어휘 시스템은 문맥 의존성이 있는 음소 (다른 왼쪽 및 오른쪽 문맥을 가진 음소가 다른 HMM 상태로 실현되도록 함)가 필요할 것이다. 다른 화자와 녹음 조건에 대해 정규화하기 위해 켑스트럼 정규화를 사용할 것이다. 추가적인 화자 정규화를 위해 남성-여성 정규화를 위한 성도 길이 정규화(VTLN) 및 더 일반적인 화자 적응을 위한 최대 가능도 선형 회귀(MLLR)를 사용할 수 있다. 특징은 음성 역학을 포착하기 위해 소위 델타 계수 및 델타-델타 계수를 가질 것이며, 추가적으로 이분산 선형 판별 분석(HLDA)을 사용할 수 있다. 또는 델타 및 델타-델타 계수를 생략하고 스플라이싱 및 LDA 기반 투영을 사용한 다음 이분산 선형 판별 분석 또는 글로벌 세미 타이드 공분산 변환(최대 가능도 선형 변환, MLLT로도 알려짐)을 사용할 수 있다. 많은 시스템은 HMM 매개변수 추정에 대한 순수 통계적 접근 방식을 포기하고 대신 훈련 데이터의 일부 분류 관련 측정을 최적화하는 소위 판별 훈련 기술을 사용한다. 예를 들어 최대 상호정보 (MMI), 최소 분류 오류 (MCE), 최소 음소 오류 (MPE)가 있다.

음성 디코딩(시스템에 새로운 발화가 제시되었을 때 가장 가능성 있는 소스 문장을 계산하는 것을 의미)은 최상의 경로를 찾기 위해 아마도 비터비 알고리즘을 사용할 것이며, 여기서 음향 및 언어 모델 정보를 모두 포함하는 조합 은닉 마르코프 모형을 동적으로 생성하는 것과 미리 정적으로 결합하는 것 (유한 상태 변환기, 또는 FST, 접근 방식) 중에서 선택할 수 있다.

디코딩의 가능한 개선은 최상의 후보만을 유지하는 대신 좋은 후보 집합을 유지하고, 더 나은 점수 함수(재점수 매기기)를 사용하여 이러한 좋은 후보를 평가하여 이 개선된 점수에 따라 최상의 후보를 선택할 수 있도록 하는 것이다. 후보 집합은 목록(N-최상 목록 접근 방식) 또는 모델의 하위 집합(격자)으로 유지될 수 있다. 재점수 매기기는 일반적으로 베이즈 위험^[69] (또는 그 근사치)를 최소화하여 수행된다. 최대 확률을 가진 소스 문장을 취하는 대신, 가능한 모든 전사에 대해 주어진 손실 함수 의 기대값을 최소화하는 문장을 취하려고 한다(즉, 추정된 확률로 가중된 다른 가능한 문장과의 평균 거리를 최소화하는 문장을 취함). 손실 함수는 일반적으로 레벤슈타인 거리이지만 특정 작업에 따라 다른 거리가 될 수 있다. 가능한 전사 집합은 물론 처리 가능성을 유지하기 위해 가지치기된다. 특정 가정을 검증하는 편집 거리를 나타내는 유한 상태 변환기로 표현된 가중 유한 상태 변환기로 표현된 격자를 재점수 매기기 위한 효율적인 알고리즘이 고안되었다.^[70]

동적 시간 워핑 (DTW) 기반 음성 인식

동적 시간 워핑은 역사적으로 음성 인식에 사용되었지만, 현재는 더 성공적인 HMM 기반 접근 방식에 의해 크게 대체된 접근 방식이다.

동적 시간 워핑은 시간이나 속도가 다를 수 있는 두 시퀀스 간의 유사성을 측정하는 알고리즘이다. 예를 들어, 한 비디오에서 사람이 천천히 걷고 다른 비디오에서 더 빨리 걷더라도, 또는 한 관찰 과정 중에 가속과 감속이 있더라도 걸음 패턴의 유사성이 감지될 것이다. DTW는 비디오, 오디오, 그래픽에 적용되었다. 실제로 선형 표현으로 변환될 수 있는 모든 데이터는 DTW로 분석할 수 있다.

잘 알려진 응용 분야는 다양한 말하기 속도를 처리하기 위한 자동 음성 인식이다. 일반적으로 이는 컴퓨터가 특정 제약 조건 하에서 두 개의 주어진 시퀀스(예: 시계열) 사이에서 최적의 일치를 찾을 수 있도록 하는 방법이다. 즉, 시퀀스는 비선형적으로 "워핑"되어 서로 일치하게 된다. 이 시퀀스 정렬 방법은 종종 은닉 마르코프 모형의 맥락에서 사용된다.

신경망

신경망은 1980년대 후반 ASR에서 매력적인 음향 모델링 접근 방식으로 부상했다. 이후 신경망은 음소 분류,^[71] 다목적 진화 알고리즘을 통한 음소 분류,^[72] 고립어 인식,^[73] 시청각 음성 인식, 시청각 화자 인식 및 화자 적응과 같은 음성 인식의 많은 측면에 사용되었다.

신경망은 HMM보다 특징 통계적 특성에 대한 명시적인 가정을 적게 하며, 음성 인식에 대한 더 매력적인 인식 모델이 되게 하는 여러 특성을 가지고 있다. 음성 특징 세그먼트의 확률을 추정하는 데 사용될 때, 신경망은 자연스럽고 효율적인 방식으로 판별 훈련을 허용한다. 그러나 개별 음소 및 고립어와 같은 단시간 단위 분류의 효과에도 불구하고,^[74] 초기 신경망은 시간적 의존성을 모델링하는 능력이 제한되어 연속 인식 작업에는 거의 성공하지 못했다.

이러한 한계를 해결하는 한 가지 접근 방식은 HMM 기반 인식 이전에 신경망을 전처리, 특징 변환 또는 차원 축소^[75] 단계로 사용하는 것이었다. 그러나 최근에는 LSTM 및 관련 순환 신경망(RNN),^[39]^[43]^[76]^[77] 시간 지연 신경망(TDNN),^[78] 및 트랜스포머^[48]^[49]^[50]는 이 분야에서 향상된 성능을 보여주었다.

깊은 전방향 및 순환 신경망

깊은 신경망과 잡음 제거 오토인코더^[79]도 연구 중이다. 깊은 전방향 신경망(DNN)은 입력 및 출력 계층 사이에 여러 개의 은닉 계층이 있는 인공 신경망이다.^[53] 얕은 신경망과 마찬가지로 DNN은 복잡한 비선형 관계를 모델링할 수 있다. DNN 아키텍처는 하위 계층의 특징을 구성할 수 있는 추가 계층을 통해 구성 가능한 모델을 생성하여 거대한 학습 능력을 제공하므로 복잡한 음성 데이터 패턴을 모델링할 잠재력을 가지고 있다.^[80]

대규모 어휘 음성 인식에서 DNN의 성공은 2010년에 산업 연구원들이 학술 연구원들과 협력하여 발생했으며, 의사 결정 트리에 의해 구성된 문맥 의존적 HMM 상태를 기반으로 하는 DNN의 대규모 출력 계층이 채택되었다.^[81]^[82] ^[83] 이 개발과 2014년 10월 현재 최신 기술에 대한 포괄적인 검토는 Microsoft Research의 최근 Springer 서적에서 볼 수 있다.^[84] 또한 자동 음성 인식의 관련 배경과 다양한 기계 학습 패러다임, 특히 딥 러닝의 영향은 최근 개요 기사에서 볼 수 있다.^[85]^[86]

딥 러닝의 근본적인 원칙 중 하나는 수작업으로 특징 공학을 수행하는 것을 없애고 원시 특징을 사용하는 것이다. 이 원칙은 "원시" 스펙트로그램 또는 선형 필터뱅크 특징에 대한 깊은 오토인코더 아키텍처에서 처음 성공적으로 탐구되었다.^[87] 이는 스펙트로그램에서 여러 단계의 고정 변환을 포함하는 멜-캡스트럼 특징보다 우수함을 보여주었다. 음성의 진정한 "원시" 특징인 파형은 최근에 우수한 대규모 음성 인식 결과를 산출하는 것으로 나타났다.^[88]

종단 간 자동 음성 인식

2014년 이후 "종단 간" ASR에 대한 연구 관심이 높아졌다. 전통적인 음소 기반(HMM 기반 모델) 접근 방식은 발음, 음향 및 언어 모델에 대한 별도의 구성 요소와 훈련이 필요했다. 종단 간 모델은 음성 인식기의 모든 구성 요소를 공동으로 학습한다. 이는 훈련 과정과 배포 과정을 단순화하므로 가치가 있다. 예를 들어, 모든 HMM 기반 시스템에는 n-그램 언어 모델이 필요하며, 일반적인 n-그램 언어 모델은 종종 몇 기가바이트의 메모리를 차지하여 모바일 장치에 배포하기에는 비실용적이다.^[89] 결과적으로 Google과 Apple Inc.의 현대 상업용 ASR 시스템(2017년 현재)은 클라우드에 배포되어 장치 자체와 달리 네트워크 연결이 필요하다.

종단 간 ASR에 대한 첫 번째 시도는 Google DeepMind의 Alex Graves와 토론토 대학교의 Navdeep Jaitly가 2014년에 도입한 Connectionist Temporal Classification(CTC) 기반 시스템이었다.^[90] 이 모델은 순환 신경망과 CTC 계층으로 구성되었다. RNN-CTC 모델은 발음과 음향 모델을 함께 학습하지만, HMM과 유사한 조건부 독립성 가정을 때문에 언어는 학습할 수 없다. 결과적으로 CTC 모델은 음성 음향을 영어 문자로 직접 매핑하는 것을 학습할 수 있지만, 모델은 많은 일반적인 맞춤법 오류를 범하며 전사를 정리하기 위해 별도의 언어 모델에 의존해야 한다. 나중에 Baidu는 매우 큰 데이터셋으로 작업을 확장하고 중국 만다린어와 영어에서 상업적인 성공을 거두었다.^[91] 2016년, University of Oxford는 시공간 컨볼루션과 RNN-CTC 아키텍처를 결합한 최초의 종단 간 문장 수준 립리딩 모델인 LipNet^[92]를 발표하여 제한된 문법 데이터셋에서 인간 수준의 성능을 능가했다.^[93] 2018년 Google DeepMind에서 대규모 CNN-RNN-CTC 아키텍처가 발표되었으며, 인간 전문가보다 6배 더 나은 성능을 달성했다.^[94] 2019년, Nvidia는 Jasper와 QuarzNet이라는 두 가지 CNN-CTC ASR 모델을 출시했으며, 전체 성능 WER은 3%였다.^[95]^[96] 다른 딥 러닝 애플리케이션과 유사하게, 전이 학습 및 도메인 적응은 딥 러닝 모델의 기능을 재사용하고 확장하는 중요한 전략이다. 이는 특히 처음부터 모델을 훈련하는 데 드는 높은 비용과 많은 언어 및 특정 도메인에서 사용할 수 있는 코퍼스의 작은 크기 때문이다.^[97]^[98]^[99]

CTC 기반 모델에 대한 대안적인 접근 방식은 어텐션 기반 모델이다. 어텐션 기반 ASR 모델은 2016년에 카네기 멜런 대학교 및 구글 브레인의 Chan et al.과 University of Montreal의 Bahdanau et al.에 의해 동시에 도입되었다.^[100]^[101] "듣고, 집중하고, 철자"(LAS)라는 이름의 이 모델은 말 그대로 음향 신호를 "듣고", 신호의 다른 부분에 "집중"하고, 한 번에 한 글자씩 전사를 "철자"한다. CTC 기반 모델과 달리 어텐션 기반 모델은 조건부 독립성 가정을 하지 않으며, 발음, 음향 및 언어 모델을 포함한 음성 인식기의 모든 구성 요소를 직접 학습할 수 있다. 즉, 배포 시 메모리가 제한된 애플리케이션에는 언어 모델을 휴대할 필요가 없어 매우 실용적이다. 2016년 말까지 어텐션 기반 모델은 CTC 모델(외부 언어 모델 유무에 관계없이)을 능가하는 등 상당한 성공을 거두었다.^[102] 원래 LAS 모델 이후 다양한 확장 기능이 제안되었다. 카네기 멜런 대학교, MIT, Google Brain은 영어 문자보다 더 자연스러운 하위 단어 단위를 직접 방출하기 위해 잠재 시퀀스 분해(LSD)를 제안했다.^[103] 옥스퍼드 대학교와 Google DeepMind는 인간 수준 성능을 능가하는 립리딩을 처리하기 위해 LAS를 "보고, 듣고, 집중하고, 철자"(WLAS)로 확장했다.^[104]

Remove ads

응용 분야

요약

관점

차량 내 시스템

일반적으로 스티어링 휠의 손가락 제어와 같은 수동 제어 입력은 음성 인식 시스템을 활성화하며, 이는 오디오 프롬프트로 운전자에게 신호가 전달된다. 오디오 프롬프트에 이어 시스템에는 인식할 음성 입력을 수락할 수 있는 "듣기 창"이 있다.

간단한 음성 명령은 전화 걸기, 라디오 방송국 선택 또는 호환 가능한 스마트폰, MP3 플레이어 또는 음악이 담긴 플래시 드라이브에서 음악 재생을 시작하는 데 사용될 수 있다. 음성 인식 기능은 자동차 제조사 및 모델에 따라 다르다. 일부 최신 자동차 모델은 고정된 명령 집합 대신 자연어 음성 인식을 제공하여 운전자가 완전한 문장과 일반적인 구문을 사용할 수 있도록 한다. 이러한 시스템을 사용하면 사용자가 고정된 명령 단어 집합을 암기할 필요가 없다.

교육

자동 발음 평가는 음성 인식을 사용하여 발음된 음성의 정확성을 확인하는 것으로,^[105] 강사나 감독관에 의한 수동 평가와 구별된다.^[106] 음성 확인, 발음 평가, 발음 점수 매기기라고도 불리는 이 기술의 주요 응용 분야는 컴퓨터 지원 교육과 결합될 때 컴퓨터 보조 언어 학습(CALL), 음성 교정 또는 악센트 감소를 위한 컴퓨터 지원 발음 교육(CAPT)이다. 발음 평가는 알 수 없는 음성(받아쓰기 또는 자동 전사와 같이)을 결정하지 않고, 대신 미리 예상되는 단어를 알고 있을 때 학습자의 발음 정확성과 이상적으로는 청취자에게 명료도를 확인하려고 시도하며,^[107]^[108] 때로는 종종 무관한 운율(억양, 음높이, 템포, 리듬, 강세 등)과 함께 평가한다.^[109] 발음 평가는 독서 교정에도 사용되며, 예를 들어 Microsoft Teams^[110] 및 Amira Learning의 제품에서 볼 수 있다.^[111] 자동 발음 평가는 실어증과 같은 언어 장애를 진단하고 치료하는 데도 사용될 수 있다.^[112]

진정한 청취자의 명료도를 평가하는 것은 악센트 편향으로 인한 부정확성을 방지하는 데 필수적이며, 특히 중요한 평가에서는 더욱 그렇다.^[113]^[114]^[115] 여러 정확한 발음이 있는 단어,^[116] 그리고 기계 판독 가능한 발음 사전의 음소 코딩 오류^[117]에서 발생할 수 있다. 2022년, 연구원들은 오디오 신호를 직접 단어로 매핑하기 위한 종단 간 강화 학습을 기반으로 하는 일부 최신 음성-텍스트 변환 시스템이 실제 청취자 명료도와 매우 밀접하게 연관된 단어 및 구문 신뢰도 점수를 생성한다는 것을 발견했다.^[118] 유럽 언어 공통 기준(CEFR)의 "전반적인 음운론적 제어" 평가 기준에서 명료도는 모든 수준에서 공식적으로 정확한 발음보다 우선한다.^[119]

건강 관리

의료 문서

의료 분야에서 음성 인식은 의료 문서화 과정의 전면 또는 후면에 구현될 수 있다. 전면 음성 인식은 제공자가 음성 인식 엔진에 받아쓰면 인식된 단어가 말하는 대로 표시되고 받아쓰기한 사람이 문서를 편집하고 서명하는 책임이 있다. 후면 또는 지연 음성 인식은 제공자가 디지털 받아쓰기 시스템에 받아쓰면 음성이 음성 인식 기계를 통해 라우팅되고 인식된 초안 문서가 원래 음성 파일과 함께 편집기로 라우팅되어 초안이 편집되고 보고서가 최종 확정된다. 지연 음성 인식은 현재 업계에서 널리 사용되고 있다.

의료 분야에서 음성 인식 사용과 관련된 주요 문제 중 하나는 미국 회복 및 재투자 법안 2009(ARRA)가 "의미 있는 사용" 표준에 따라 EMR을 활용하는 의사에게 상당한 재정적 혜택을 제공한다는 것이다. 이러한 표준은 EMR(현재는 일반적으로 전자 건강 기록 또는 EHR로 더 자주 언급됨)에 상당한 양의 데이터가 유지되어야 한다. 음성 인식 사용은 방사선/병리학적 해석, 진행 노트 또는 퇴원 요약의 일부로 내러티브 텍스트 생성에 더 자연스럽게 적합하다. 보는 능력과 키보드 및 마우스를 조작할 수 있는 사람에게는 구조화된 개별 데이터(예: 목록 또는 통제 어휘집의 숫자 값 또는 코드)를 입력하기 위해 음성 인식을 사용하는 인체공학적 이득이 상대적으로 미미하다.

더 중요한 문제는 대부분의 EHR이 음성 인식 기능을 활용하도록 명시적으로 맞춤화되지 않았다는 것이다. 임상의가 EHR과 상호 작용하는 대부분은 메뉴와 탭/버튼 클릭을 사용하여 사용자 인터페이스를 탐색하는 것을 포함하며 키보드와 마우스에 크게 의존한다. 음성 기반 탐색은 미미한 인체공학적 이득만 제공한다. 대조적으로, 방사선 또는 병리학적 받아쓰기를 위한 많은 고도로 맞춤화된 시스템은 음성 "매크로"를 구현한다. 여기서 특정 구문 사용(예: "정상 보고서")은 많은 수의 기본값을 자동으로 채우거나 상용구를 생성하며, 이는 방사선 시스템의 흉부 X선 검사 또는 위장 조영 검사와 같은 검사 유형에 따라 달라진다.

치료적 사용

워드 프로세서와 함께 음성 인식 소프트웨어를 장기간 사용하면 뇌 동정맥 기형 환자의 단기 기억력 강화에 도움이 되는 것으로 나타났다. 혈관 기형이 방사선 기술을 사용하여 치료된 개인의 인지적 이점에 대해서는 추가 연구가 필요하다.

군사

고성능 전투기

지난 10년 동안 전투기에서 음성 인식 테스트 및 평가에 상당한 노력이 기울여졌다. 특히 미국 프로그램인 고급 전투 기술 통합(AFTI)/F-16 항공기(F-16 VISTA)의 음성 인식 프로그램, 프랑스의 미라지 항공기 프로그램, 그리고 영국의 다양한 항공기 플랫폼을 다루는 다른 프로그램들이 주목할 만하다. 이 프로그램들에서 음성 인식기는 전투기에서 무선 주파수 설정, 자동 조종 시스템 명령, 조종점 좌표 및 무기 발사 매개변수 설정, 비행 디스플레이 제어 등을 포함한 응용 분야에서 성공적으로 작동되었다.

JAS-39 그리펜 조종석에서 비행하는 스웨덴 조종사들과 함께 작업한 Englund(2004)는 G 부하가 증가함에 따라 인식률이 저하된다는 것을 발견했다. 보고서는 또한 모든 경우에 적응이 결과를 크게 개선했으며, 호흡 모델의 도입이 인식 점수를 크게 향상시킨다는 것을 보여주었다. 예상과는 달리 화자의 서툰 영어 영향은 발견되지 않았다. 자발적인 음성이 인식기에 문제를 일으킨다는 것이 명백했으며, 이는 예상할 수 있었다. 따라서 제한된 어휘와 무엇보다도 적절한 구문이 인식 정확도를 크게 향상시킬 수 있을 것으로 예상된다.^[120]

현재 영국 RAF에서 운용 중인 유로파이터 타이푼은 화자 종속 시스템을 사용하여 각 조종사가 템플릿을 생성해야 한다. 이 시스템은 무기 발사 또는 착륙 장치 내리기와 같은 안전 필수 또는 무기 필수 작업에는 사용되지 않지만, 다양한 다른 조종석 기능에는 사용된다. 음성 명령은 시각적 및 청각적 피드백으로 확인된다. 이 시스템은 조종사의 작업 부하를 줄이는 주요 설계 기능으로 간주되며,^[121] 조종사가 간단한 음성 명령 두 개로 자신의 항공기에 표적을 할당하거나 간단한 명령 다섯 개로 자신의 동반기에게 할당할 수도 있다.^[122]

화자 독립 시스템도 F-35 라이트닝 II(JSF) 및 M-346 마스터 초도입 전투기 훈련기에 대해 개발 및 테스트 중이다. 이러한 시스템은 98% 이상의 단어 정확도 점수를 기록했다.^[123]

헬리콥터

스트레스와 소음 하에서 높은 인식 정확도를 달성하는 문제는 제트 전투기 환경뿐만 아니라 헬리콥터 환경에서도 특히 중요하다. 음향 소음 문제는 헬리콥터 환경에서 실제로 더 심각하다. 높은 소음 수준 때문만이 아니라 헬리콥터 조종사가 일반적으로 안면 마스크를 착용하지 않아 마이크로폰의 음향 소음을 줄일 수 없기 때문이다. 지난 10년 동안 미국 육군 항공전자 연구 개발 활동(AVRADA)과 영국 왕립 항공우주국(RAE)에 의해 헬리콥터의 음성 인식 시스템 응용 분야에서 상당한 테스트 및 평가 프로그램이 수행되었다. 프랑스의 작업에는 Puma 헬리콥터의 음성 인식이 포함되었다. 캐나다에서도 많은 유용한 작업이 있었다. 결과는 고무적이었고, 음성 응용 분야에는 통신 라디오 제어, 항법 시스템 설정, 자동화된 목표물 인계 시스템 제어가 포함되었다.

전투기 애플리케이션과 마찬가지로 헬리콥터에서 음성 인식의 가장 중요한 문제는 조종사 효율성에 미치는 영향이다. AVRADA 테스트에서는 고무적인 결과가 보고되었지만, 이는 테스트 환경에서 실현 가능성 시연에 불과하다. 운영 환경에서 지속적으로 성능 향상을 달성하기 위해서는 음성 인식 및 전반적인 음성 기술 분야에서 아직 해야 할 일이 많다.

항공 관제사 훈련

항공 관제사(ATC) 훈련은 음성 인식 시스템에 대한 훌륭한 응용 분야를 나타낸다. 현재 많은 ATC 훈련 시스템은 훈련생 관제사와 음성 대화를 통해 실제 ATC 상황에서 관제사가 조종사와 수행해야 하는 대화를 시뮬레이션하는 "가상 조종사" 역할을 하는 사람을 요구한다. 음성 인식 및 합성 기술은 가상 조종사 역할을 하는 사람의 필요성을 없애 훈련 및 지원 인력을 줄일 수 있는 잠재력을 제공한다. 이론적으로 항공 관제 작업은 관제사의 주요 출력으로 고도로 구조화된 음성을 특징으로 하므로 음성 인식 작업의 난이도를 줄일 수 있어야 한다. 실제로는 거의 그렇지 않다. FAA 문서 7110.65는 항공 관제사가 사용해야 하는 구문을 자세히 설명한다. 이 문서는 그러한 구문의 150개 미만의 예시를 제공하지만, 한 시뮬레이션 공급업체의 음성 인식 시스템에서 지원하는 구문의 수는 500,000개를 초과한다.

미국 공군, 미 해병대, 미 육군, 미 해군 및 FAA뿐만 아니라 왕립 호주 공군 및 이탈리아, 브라질, 캐나다의 민간 항공 당국과 같은 여러 국제 ATC 훈련 기관은 현재 여러 공급업체의 음성 인식이 포함된 ATC 시뮬레이터를 사용하고 있다.

전화 통신 및 기타 도메인

ASR은 이제 전화 통신 분야에서 흔하며, 컴퓨터 게임 및 시뮬레이션 분야에서 더욱 널리 보급되고 있다. 전화 통신 시스템에서 ASR은 현재 IVR 시스템과 통합하여 콜센터에서 주로 사용되고 있다. 일반 개인용 컴퓨터의 워드 프로세싱과의 높은 수준의 통합에도 불구하고 문서 생성 분야에서 ASR은 예상만큼 사용이 증가하지 않았다.

모바일 프로세서 속도의 향상으로 스마트폰에서 음성 인식이 실용화되었다. 음성은 주로 사용자 인터페이스의 일부로, 미리 정의되거나 사용자 정의된 음성 명령을 생성하는 데 사용된다.

장애인

장애인은 음성 인식 프로그램의 혜택을 받을 수 있다. 청각 장애가 있는 개인의 경우 음성 인식 소프트웨어가 회의실 토론, 교실 강의 및 종교 의식과 같은 대화의 자막을 자동으로 생성하는 데 사용된다.^[124]

시각 장애 학생 또는 시력이 매우 낮은 학생은 기술을 사용하여 단어를 전달한 다음 컴퓨터가 읽어주는 것을 듣는 것뿐만 아니라 화면과 키보드를 보지 않고도 음성 명령으로 컴퓨터를 사용할 수 있어 혜택을 받을 수 있다.^[125]

신체 장애가 있는 학생은 반복 사용 긴장성 손상/상지 부상으로 인해 음성-텍스트 프로그램 사용으로 학업 과제를 손글씨로 작성하거나, 타이핑하거나, 필기사와 함께 작업하는 것에 대한 걱정을 덜 수 있다. 또한 음성 인식 기술을 활용하여 물리적으로 마우스와 키보드를 조작하지 않고도 집에서 인터넷을 검색하거나 컴퓨터를 사용할 수 있다.^[125]

음성 인식은 학습 장애가 있는 학생들이 더 나은 작가가 될 수 있도록 한다. 단어를 소리 내어 말함으로써 글쓰기의 유창성을 높일 수 있으며, 철자, 구두점 및 기타 글쓰기 메커니즘에 대한 걱정을 덜 수 있다.^[126] 또한 학습 장애를 참조하십시오.

음성 인식 소프트웨어를 디지털 오디오 레코더 및 워드 프로세싱 소프트웨어가 실행되는 개인용 컴퓨터와 함께 사용하면 뇌졸중 및 개두술 환자의 손상된 단기 기억 용량을 복원하는 데 긍정적인 것으로 입증되었다.

음성 인식은 경미한 반복 사용 긴장성 손상부터 기존 컴퓨터 입력 장치를 사용하지 못하게 하는 장애까지 다양한 손 사용에 어려움을 겪는 사람들에게 매우 유용하다. 실제로 키보드를 많이 사용하여 RSI를 겪은 사람들은 음성 인식의 긴급한 초기 시장이 되었다.^[127]^[128] 음성 인식은 음성 사서함 텍스트 변환, 릴레이 서비스, 캡션 전화와 같은 청각 장애 전화 통신에 사용된다. 생각에서 종이로의 의사소통에 문제가 있는 학습 장애가 있는 개인은 소프트웨어의 혜택을 받을 수 있지만 이 기술은 버그가 없는 것은 아니다.^[129] 또한 지적 장애가 있는 사람에게는 말하기-텍스트 변환의 전체 아이디어가 어려울 수 있는데, 이는 장애가 있는 사람에게 기술을 가르치려고 하는 경우가 드물기 때문이다.^[130]

이러한 유형의 기술은 난독증 환자에게 도움이 될 수 있지만 다른 장애에 대해서는 여전히 의문이다. 제품의 효과성은 그것이 효과적이 되는 것을 방해하는 문제이다. 아이가 단어를 말할 수 있더라도 얼마나 명확하게 말하는지에 따라 기술은 다른 단어를 말한다고 생각하고 잘못된 단어를 입력할 수 있다. 이는 수정해야 할 더 많은 작업을 제공하여 잘못된 단어를 수정하는 데 더 많은 시간이 걸리게 한다.^[131]

추가 응용 프로그램

항공우주 (예: 우주 탐사, 우주선 등) NASA의 마스 폴라 랜더는 랜더의 화성 마이크로폰에서 Sensory, Inc.의 음성 인식 기술을 사용했다.^[132]
음성 인식을 이용한 자동 같은 언어 자막
자동 감정 인식^[133]
시청각 제작물의 자동 숏 목록 작성
자동 번역
전자 증거 개시 (법적 발견)
핸즈프리 컴퓨팅: 음성 인식 컴퓨터 사용자 인터페이스
가정 자동화
대화식 음성 응답
이동 통신, 모바일 이메일 포함
멀티모달 인터페이스^[64]
실시간 자막^[134]
로봇공학
보안, 다요소 인증을 위한 기타 생체 인식 스캐너 사용 포함^[135]
음성-텍스트 변환 (음성-텍스트 전사, 실시간 비디오 자막, 법정 기록)
텔레매틱스 (예: 차량 내비게이션 시스템)
전사 (디지털 음성-텍스트 변환)
비디오 게임, 작동하는 예시로는 톰 클랜시의 엔드워와 라이프라인이 있다.
가상 비서 (예: Apple의 Siri)

Remove ads

성능

요약

관점

음성 인식 시스템의 성능은 일반적으로 정확도와 속도로 평가된다.^[136]^[137] 정확도는 일반적으로 단어 오류율 (WER)로 평가되는 반면, 속도는 실시간 계수로 측정된다. 다른 정확도 측정값에는 단일 단어 오류율(SWER) 및 명령 성공률(CSR)이 있다.

기계에 의한 음성 인식은 매우 복잡한 문제이다. 발성은 억양, 발음, 조음, 거칠기, 비음, 음높이, 음량, 속도에 따라 다양하다. 음성은 배경 소음과 메아리, 전기적 특성에 의해 왜곡된다. 음성 인식의 정확도는 다음과 같은 요인에 따라 달라질 수 있다.^[138]

어휘 크기 및 혼동성
화자 종속성 대 화자 독립성
고립된, 불연속적인 또는 연속적인 음성
작업 및 언어 제약
읽기 음성 대 자발적인 음성
불리한 조건

정확도

이 문서에서 이전에 언급했듯이 음성 인식의 정확도는 다음과 같은 요인에 따라 달라질 수 있다.

어휘 크기가 커짐에 따라 오류율이 증가한다:

예를 들어 "영"부터 "구"까지 10개 숫자는 본질적으로 완벽하게 인식할 수 있지만, 어휘 크기가 200, 5000 또는 100000인 경우 오류율은 각각 3%, 7%, 또는 45%가 될 수 있다.

혼동되는 문자를 포함하면 어휘를 인식하기 어렵다:

예를 들어 영어 알파벳 26자는 혼동되는 단어이기 때문에 구별하기 어렵다(가장 악명 높은 E 세트: "B, C, D, E, G, P, T, V, Z"—"Z"가 영어 지역에 따라 "zee"가 아닌 "zed"로 발음될 때). 이 어휘에 대해 8%의 오류율은 좋은 것으로 간주된다.^[139]

화자 종속성 대 화자 독립성:

화자 종속 시스템은 단일 화자가 사용하도록 설계되었다.

화자 독립 시스템은 모든 화자가 사용하도록 설계되었다(더 어렵다).

고립된, 불연속적인 또는 연속적인 음성

고립된 음성은 단일 단어가 사용되므로 음성을 인식하기가 더 쉬워진다.

불연속적인 음성은 침묵으로 구분된 전체 문장이 사용되므로 고립된 음성뿐만 아니라 음성 인식이 더 쉬워진다.
연속적인 음성은 자연스럽게 말하는 문장이 사용되므로 음성 인식이 더 어려워진다. 이는 고립된 음성 및 불연속적인 음성 모두와 다르다.

작업 및 언어 제약
- 예를 들어 질의 응용 프로그램은 "The apple is red." 가설을 기각할 수 있다.
- 예를 들어 제약은 의미적일 수 있으며, "The apple is angry."는 거부한다.
- 예를 들어 구문론적 제약이며, "Red is apple the."는 거부한다.

제약은 종종 문법으로 표현된다.

읽기 음성 대 자발적인 음성 – 사람이 읽을 때 이전에 준비된 맥락에서 읽는 것이 일반적이지만, 사람이 자발적인 음성을 사용할 때는 유창하지 않은 부분(예: "uh", "um", 잘못 시작, 불완전한 문장, 말더듬, 기침, 웃음)과 제한된 어휘 때문에 음성 인식이 어렵다.
불리한 조건 – 환경 소음(예: 자동차 또는 공장의 소음). 음향 왜곡(예: 메아리, 방 음향)

음성 인식은 다단계 패턴 인식 작업이다.

음향 신호는 음소, 단어, 구문, 문장과 같은 단위의 계층 구조로 구성된다.
각 수준은 추가 제약을 제공한다.

예: 알려진 단어 발음 또는 유효한 단어 시퀀스로, 하위 수준의 오류 또는 불확실성을 보상할 수 있다.

이러한 제약의 계층 구조가 활용된다. 모든 하위 수준에서 확률적으로 결정을 결합하고, 최고 수준에서만 더 확정적인 결정을 내림으로써 기계에 의한 음성 인식은 여러 단계로 나뉘는 과정이다. 계산적으로는 음향 패턴이 인간에게 의미를 나타내는 범주로 인식되거나 분류되어야 하는 문제이다. 모든 음향 신호는 더 작고 기본적인 하위 신호로 분해될 수 있다. 더 복잡한 음향 신호가 더 작은 하위 소리로 분해될 때, 상위 수준에는 하위 수준의 더 단순한 소리로 구성된 복잡한 소리가 있고, 더 낮은 수준으로 내려가면 훨씬 더 기본적이고 짧고 단순한 소리가 생성되는 여러 수준이 생성된다. 소리가 가장 근본적인 최하위 수준에서는 기계가 어떤 소리가 나타내야 하는지에 대한 간단하고 더 확률적인 규칙을 확인할 것이다. 이러한 소리가 상위 수준에서 더 복잡한 소리로 합쳐지면 새로운 더 확정적인 규칙 세트가 새로운 복잡한 소리가 나타내야 하는 것을 예측해야 한다. 확정적인 규칙의 가장 상위 수준은 복잡한 표현의 의미를 파악해야 한다. 음성 인식에 대한 지식을 확장하기 위해 신경망을 고려해야 한다. 신경망 접근 방식에는 네 가지 단계가 있다.
인식하려는 음성을 디지털화한다.

전화 음성의 경우 샘플링 속도는 초당 8000개 샘플이다.

음성의 스펙트럼 영역 특징을 계산한다(푸리에 변환 이용).

10밀리초마다 계산되며, 10밀리초 구간 하나를 프레임이라고 한다.

4단계 신경망 접근 방식에 대한 분석은 추가 정보로 설명할 수 있다. 소리는 공기(또는 다른 매질) 진동에 의해 생성되며, 이를 귀로는 등록하지만 기계는 수신기로 등록한다. 기본 소리는 두 가지 설명이 있는 파동을 생성한다: 진폭 (얼마나 강한가) 및 진동수 (초당 얼마나 자주 진동하는가). 정확도는 단어 오류율(WER)을 통해 계산할 수 있다. 단어 오류율은 동적 문자열 정렬을 사용하여 인식된 단어와 참조 단어를 정렬하여 계산할 수 있다. 인식된 단어와 참조 단어의 시퀀스 길이 차이로 인해 단어 오류율을 계산하는 동안 문제가 발생할 수 있다.

단어 오류율(WER)을 계산하는 공식은 다음과 같다.

$WER={(s+d+i) \over n}$

여기서 s는 치환의 수, d는 삭제의 수, i는 삽입의 수, n은 참조 단어의 수이다.

계산 시 단어 인식률(WRR)이 사용된다. 공식은 다음과 같다.

WRR=1-WER={(n-s-d-i) \over n}={h-i \over n}

여기서 h는 올바르게 인식된 단어의 수이다.

h=n-(s+d).

보안 문제

음성 인식은 공격, 절도 또는 우발적인 작동의 수단이 될 수 있다. 예를 들어, 오디오 또는 비디오 방송에서 말하는 "Alexa"와 같은 활성화 단어는 가정과 사무실의 기기가 부적절하게 입력을 듣기 시작하거나 원치 않는 동작을 취하게 할 수 있다.^[140] 음성 제어 장치는 건물 방문객이나 심지어 내부에서 들릴 수 있다면 건물 밖 사람들도 접근할 수 있다. 공격자는 캘린더, 주소록 내용, 개인 메시지 및 문서와 같은 개인 정보에 접근할 수 있다. 그들은 또한 사용자를 사칭하여 메시지를 보내거나 온라인 구매를 할 수도 있다.

두 가지 공격이 인공적인 소리를 사용하여 시연되었다. 하나는 초음파를 전송하여 근처 사람들이 알아차리지 못하게 명령을 보내려고 시도한다.^[141] 다른 하나는 다른 음성이나 음악에 작지만 들리지 않는 왜곡을 추가하여 특정 음성 인식 시스템을 혼란시켜 음악을 음성으로 인식하거나 인간에게는 하나의 명령처럼 들리는 것을 시스템에는 다른 명령처럼 들리게 만드는 것이다.^[142]

Remove ads

추가 정보

요약

관점

학회 및 저널

매년 또는 격년으로 개최되는 인기 있는 음성 인식 학회로는 SpeechTEK 및 SpeechTEK Europe, ICASSP, Interspeech/Eurospeech, IEEE ASRU가 있다. 자연어 처리 분야의 학회, 예를 들어 ACL, NAACL, EMNLP, HLT는 음성 처리에 대한 논문을 포함하기 시작했다. 중요한 저널로는 IEEE Transactions on Speech and Audio Processing (나중에 IEEE Transactions on Audio, Speech and Language Processing으로 이름이 바뀌었고 2014년 9월부터 ACM 출판물과 합병된 후 IEEE/ACM Transactions on Audio, Speech and Language Processing으로 이름이 바뀌었다), Computer Speech and Language, Speech Communication이 있다.

도서

Lawrence Rabiner의 "Fundamentals of Speech Recognition"과 같은 책은 기본적인 지식을 습득하는 데 유용하지만 최신 내용은 아닐 수 있다(1993년). 또 다른 좋은 자료는 Frederick Jelinek의 "Statistical Methods for Speech Recognition"과 쉐둥 황 등의 "Spoken Language Processing (2001)", Manfred R. Schroeder의 "Computer Speech" (2004년 제2판), 그리고 Li Deng과 Doug O'Shaughnessey가 2003년에 출판한 "Speech Processing: A Dynamic and Optimization-Oriented Approach"이다. Jurafsky와 Martin의 업데이트된 교과서 "Speech and Language Processing (2008)"은 ASR의 기본 및 최신 기술을 제시한다. 화자 인식도 동일한 특징, 거의 동일한 전처리, 그리고 음성 인식에서 수행되는 것과 동일한 분류 기술을 사용한다. 포괄적인 교과서 "Fundamentals of Speaker Recognition"은 이론 및 실습에 대한 최신 세부 정보에 대한 심층 자료이다.^[143] 최고의 현대 시스템에서 사용되는 기술에 대한 좋은 통찰력은 DARPA가 주최하는 정부 지원 평가(2007년 현재 진행 중인 가장 큰 음성 인식 관련 프로젝트는 음성 인식 및 번역 구성 요소가 모두 포함된 GALE 프로젝트이다)에 주의를 기울임으로써 얻을 수 있다.

음성 인식 기술 및 그 역사에 대한 좋고 접근하기 쉬운 입문서는 Roberto Pieraccini (2012)의 일반 독자 대상 서적 "The Voice in the Machine. Building Computers That Understand Speech"에서 제공된다.

음성 인식에 대한 가장 최근 책은 Microsoft 연구원 D. Yu와 L. Deng이 저술하고 2014년 말에 출판된 "Automatic Speech Recognition: A Deep Learning Approach"(출판사: Springer)로, DNN 및 관련 딥 러닝 방법을 기반으로 하는 현대 음성 인식 시스템에서 딥 러닝 방법이 도출 및 구현되는 방법에 대한 매우 수학적 지향적인 기술적 세부 사항을 제공한다.^[84] 2014년 초에 출판된 관련 책인 L. Deng 및 D. Yu의 "Deep Learning: Methods and Applications"는 2009-2014년 동안의 DNN 기반 음성 인식에 대한 덜 기술적이지만 더 방법론 중심적인 개요를 제공하며, 음성 인식뿐만 아니라 이미지 인식, 자연어 처리, 정보 검색, 멀티모달 처리 및 다중 작업 학습을 포함하는 딥 러닝 응용 분야의 더 넓은 맥락에서 제시된다.^[80]

소프트웨어

무료로 사용할 수 있는 리소스 측면에서 카네기 멜런 대학교의 Sphinx 도구 키트는 음성 인식에 대해 배우고 실험을 시작하기에 좋은 곳이다. 또 다른 리소스(무료이지만 저작권이 있는)는 HTK 서적(및 동반 HTK 도구 키트)이다. 더 최근의 최신 기술을 위해서는 Kaldi 도구 키트를 사용할 수 있다.^[144] 2017년 Mozilla는 Common Voice^[145]라는 오픈 소스 프로젝트를 시작하여 Google의 오픈 소스 플랫폼 TensorFlow를 사용하여 무료 음성 인식 프로젝트 DeepSpeech(깃허브에서 무료로 사용 가능)^[146]를 구축하는 데 도움이 되는 큰 음성 데이터베이스를 수집했다.^[147] Mozilla가 2020년에 프로젝트 자금 지원을 중단했을 때, 원래 개발자들이 Coqui STT^[148]로 포크하여 동일한 오픈 소스 라이선스를 사용했다.^[149]^[150]

Google Gboard는 모든 Android 애플리케이션에서 음성 인식을 지원한다. 마이크로폰 icon을 통해 활성화할 수 있다.^[151] 음성 인식은 Windows 로고 키 + Ctrl + S를 눌러 Microsoft Windows 운영 체제에서 활성화할 수 있다.^[152]

상업용 클라우드 기반 음성 인식 API는 널리 사용 가능하다.

더 많은 소프트웨어 리소스는 음성 인식 소프트웨어 목록을 참조하십시오.

Remove ads

같이 보기

화자 인식
음성 합성: Text-to-Speech, TTS

각주

Loading content...

추가 자료

Loading content...

Loading related searches...

Wikiwand - on

Seamless Wikipedia browsing. On steroids.

Remove ads