From Wikipedia, the free encyclopedia
WaveNet یک شبکه عصبی عمیق برای تولید صدای خام است. WaveNet توسط محققان شرکت هوش مصنوعی مستقر در لندن DeepMind ایجاد شدهاست. این تکنیک که در مقالهای در سپتامبر ۲۰۱۶ بیان شد،[1] میتواند با مدلسازی مستقیم شکل موجها با استفاده از روش شبکه عصبی آموزشدیده با ضبط گفتار واقعی، صداهایی شبیه به انسان با صدای نسبتاً واقعی ایجاد کند. طبق گزارشها، آزمایشها با انگلیسی US و مَندرین نشان داد که این سیستم از بهترین سیستمهای تبدیل متن به گفتار (TTS) گوگل بهتر عمل میکند، اگرچه تا سال ۲۰۱۶ ترکیب متن به گفتار آن هنوز کمتر از گفتار واقعی انسان قانعکننده بود.[2] توانایی WaveNet برای تولید شکلهای موج خام به این معنی است که میتواند هر نوع صوتی از جمله موسیقی را مدلسازی کند.[3]
به لطف محبوبیت نرمافزارهایی مانند سیری اپل، کورتانای مایکروسافت، آمازون الکسا و دستیار گوگل، تولید گفتار از متن بهطور فزاینده ای در حال گسترش است.[4]
اکثر این سیستمها از تکنیکی استفاده میکنند که شامل قطعات صوتی به هم پیوسته برای ایجاد صداها و کلمات قابل تشخیص است.[5] رایجترین آنها TTS پیوسته نامیده میشود. این شامل کتابخانه بزرگی از قطعات گفتاری است که از یک بلندگو ضبط شده و سپس برای تولید کلمات و صداهای کامل به هم متصل میشوند. نتیجه غیرطبیعی به نظر میرسد، با آهنگ و آهنگ عجیب و غریب.[6] اتکا به کتابخانه ضبط شده نیز تغییر یا تغییر صدا را دشوار میکند.[7]
تکنیک دیگری که به عنوان TTS پارامتریک[8] میشود، از مدلهای ریاضی برای بازآفرینی صداها استفاده میکند که سپس در کلمات و جملات جمع میشوند. اطلاعات مورد نیاز برای تولید صداها در پارامترهای مدل ذخیره میشود. ویژگیهای گفتار خروجی از طریق ورودیهای مدل کنترل میشود، در حالی که گفتار معمولاً با استفاده از یک ترکیبکننده صدا به نام Vocoder ایجاد میشود. این همچنین میتواند منجر به صدای غیرطبیعی شود.
WaveNet نوعی شبکه عصبی پیشخور است که به عنوان یک شبکه عصبی پیچشی عمیق (CNN) شناخته میشود. در WaveNet, CNN یک سیگنال خام را به عنوان ورودی میگیرد و یک نمونه خروجی را در یک زمان ترکیب میکند. این کار را با نمونهبرداری از یک توزیع softmax (یعنی طبقهای) از یک مقدار سیگنال انجام میدهد که با استفاده از تبدیل ترکیبی μ-قانون کدگذاری شده و به ۲۵۶ مقدار ممکن کوانتیزه میشود.[10]
طبق مقاله اولیه سپتامبر 2016 DeepMind WaveNet: A Generative Model for Raw Audio،[11] شبکه با شکل موجهای واقعی گفتار به زبان انگلیسی و مندرین تغذیه شد. همانطور که اینها از طریق شبکه عبور میکنند، مجموعه ای از قوانین را میآموزد که چگونه شکل موج صوتی در طول زمان تکامل مییابد. سپس میتوان از شبکه آموزش دیده برای ایجاد شکل موجهای گفتاری جدید با سرعت ۱۶۰۰۰ نمونه در ثانیه استفاده کرد. این شکل موجها شامل نفسهای واقع گرایانه و لبها میشود - اما با هیچ زبانی مطابقت ندارد.[12]
WaveNet قادر به مدلسازی دقیق صداهای مختلف است، با لهجه و لحن ورودی که با خروجی ارتباط دارد؛ مثلاً اگر با زبان آلمانی آموزش داده شود، گفتار آلمانی تولید میکند.[13] این قابلیت همچنین به این معنی است که اگر WaveNet از ورودیهای دیگر تغذیه شود - مانند موسیقی – خروجی آن موزیکال خواهد بود. در زمان انتشار، DeepMind نشان داد که WaveNet میتواند شکل موجهایی تولید کند که شبیه موسیقی کلاسیک باشد.[14]
بر اساس مقاله ژوئن 2018 Disentangled Sequential Autoencoder ,[15] DeepMind با موفقیت از WaveNet برای "تبادل محتواً صدا و صدا استفاده کردهاست: شبکه میتواند صدا را در یک ضبط صوتی با صدای دیگری که از قبل موجود است تعویض کند در حالی که متن و سایر موارد را حفظ میکند. ویژگیهای ضبط اصلی ما همچنین روی دادههای توالی صوتی آزمایش میکنیم. بازنمایی از هم گسیخته ما به ما این امکان را میدهد که هویتهای گوینده را به یکدیگر تبدیل کنیم، در حالی که به محتوای گفتار مشروط میشویم." (ص. ۵) "برای صدا، این به ما امکان میدهد یک بلندگوی مرد را به یک بلندگوی زن تبدیل کنیم و بالعکس [...] ." (پ. ۱) طبق این مقاله، حداقل دو رقمی ساعت (حدود ۵۰ ساعت) از ضبطهای گفتاری از قبل موجود هم از صدای منبع و هم صدای هدف باید به WaveNet وارد شود تا برنامه ویژگیهای فردی خود را قبل از آن یاد بگیرد. میتواند تبدیل از یک صدا به صدای دیگر را با کیفیت رضایت بخشی انجام دهد. نویسندگان تأکید میکنند که «[a] n مزیت مدل این است که ویژگیهای دینامیکی را از استاتیک جدا میکند [...]». (پ. ۸) یعنی WaveNet قادر است بین متن گفتاری و حالتهای ارسال (مدولاسیون، سرعت، زیر و بم، حالت و غیره) برای حفظ در حین تبدیل از یک صدا به صدای دیگر از یک طرف، و ویژگیهای اساسی صداهای منبع و هدف تمایز قائل شود. که لازم است با دیگری مبادله شود.
مقاله بعدی ژانویه ۲۰۱۹، یادگیری بازنمایی گفتار بدون نظارت با استفاده از رمزگذارهای خودکار WaveNet[16] روشی را برای افزایش موفقیتآمیز تشخیص خودکار مناسب و تمایز بین ویژگیهای پویا و ایستا برای «تبادل محتوا»، به ویژه از جمله تعویض صداها در ضبطهای صوتی موجود، شرح میدهد. به منظور قابل اعتمادتر کردن آن مقاله بعدی دیگر، Sample Efficient Adaptive Text-to-Speech[17] مورخ سپتامبر ۲۰۱۸ (آخرین ویرایش ژانویه ۲۰۱۹)، بیان میکند که DeepMind با موفقیت حداقل میزان ضبط واقعی مورد نیاز برای نمونه صدای موجود را از طریق WaveNet کاهش دادهاست. به «فقط چند دقیقه داده صوتی» در حالی که نتایج با کیفیت بالا حفظ میشود.
توانایی آن در شبیهسازی صداها نگرانیهای اخلاقی را در مورد توانایی WaveNet در تقلید صدای افراد زنده و مرده ایجاد کردهاست. طبق مقالهای در سال ۲۰۱۶ بیبیسی، شرکتهایی که روی فناوریهای شبیهسازی صدای مشابه (مانند Adobe Voco) کار میکنند، قصد دارند برای جلوگیری از جعل، واترمارکی غیرقابل شنیدن برای انسان درج کنند، در حالی که شبیهسازی صدا، برای مثال، نیازهای صنعت سرگرمی را برآورده میکند. پیچیدگی بسیار کمتری داشته باشد و از روشهای متفاوتی نسبت به روشهای مورد نیاز برای فریب دادن روشهای شواهد پزشکی قانونی و دستگاههای شناسایی الکترونیکی استفاده کند، به طوری که صداها و صداهای طبیعی شبیهسازی شده برای اهداف سرگرمی-صنعتی هنوز هم میتوانند به راحتی با تجزیه و تحلیل فنآوری از هم جدا شوند.
در زمان انتشار، DeepMind گفت که WaveNet به قدرت پردازش محاسباتی زیادی برای استفاده در برنامههای کاربردی دنیای واقعی نیاز دارد.[18] از اکتبر ۲۰۱۷، گوگل بهبود عملکرد ۱۰۰۰ برابری همراه با کیفیت صدای بهتر را اعلام کرد. سپس WaveNet برای تولید صداهای دستیار Google برای انگلیسی و ژاپنی ایالات متحده در تمام پلتفرمهای Google استفاده شد.[19] در نوامبر ۲۰۱۷، محققان DeepMind یک مقاله تحقیقاتی منتشر کردند که در آن روش پیشنهادی «تولید نمونههای گفتاری با وفاداری بالا با بیش از ۲۰ برابر سریعتر از زمان واقعی» به نام «تقطیر چگالی احتمال» را شرح میداد.[20] در کنفرانس سالانه توسعهدهندگان I/O در ماه می ۲۰۱۸، اعلام شد که صداهای جدید دستیار Google در دسترس بوده و توسط WaveNet امکانپذیر شدهاست. WaveNet تعداد ضبطهای صوتی مورد نیاز برای ایجاد یک مدل صوتی را با مدلسازی صدای خام نمونههای صداپیشه، بسیار کاهش داد.[21]
Seamless Wikipedia browsing. On steroids.
Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.
Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.