Deep learning speech synthesis
یادگیری ماشین و دادهکاوی |
---|
حوزههای یادگیری ماشین |
(این مقاله در حال ترجمه از ویکی انگلیسی است
لطفا حذف نشود.)
سنتز گفتار یادگیری عمیق از شبکههای عصبی عمیق (DNN) برای تولید گفتار مصنوعی از متن (متن به گفتار) یا طیف (کدصدا) استفاده میکند. شبکه های عصبی عمیق با استفاده از مقدار زیادی گفتار ضبط شده و در مورد سیستم تبدیل متن به گفتار، برچسب های مرتبط و/یا متن ورودی آموزش داده می شوند.
برخی از سنتز کننده های گفتار مبتنی بر DNN رویکرد طبیعی بودن صدای انسان را در پیش می گیرند.
فرمول ها[ویرایش]
با توجه به یک متن ورودی یا یک سری از واحدهای زبانی ، گفتار هدف را می توان توسط رابطه ی زیر به دست آورد:
جایی که پارامتر مدل است.
به طور معمول، متن ورودی ابتدا به یک مولد ویژگی صوتی ارسال می شود، سپس ویژگی های آکوستیک به رمزگذارهای صوتی عصبی فرستاده می شود. برای مولد ویژگی صوتی، تابع زیان معمولاً L1 loss یا L2 loss است. محدودیتی که این توابع زیان دارند این است که توزیع ویژگی های صوتی خروجی باید از نوع گاوسی یا لاپلاسی باشد. در عمل، از آنجایی که محدوده ی صدای انسان در حدود 300 تا 4000 هرتز متغیر است، تابع هرینه طوری طراحی می شود که جریمه بیشتری در این محدوده داشته باشد:
جایی که تلفات محدوده ی صدای انسان و یک اسکالر(مقدار عددی) معمولاً حدود 0.5 است. ویژگی آکوستیک معمولاً طیف نگار یا طیف نگار در مقیاس Mel است . این ویژگیها رابطه زمان-فرکانس سیگنال گفتار را ضبط میکنند و بنابراین، تولید خروجیهای هوشمند با این ویژگیهای صوتی کافی است. ویژگی Mel-frequency cepstrum مورد استفاده در کار تشخیص گفتار، برای سنتز گفتار مناسب نیست؛ زیرا اطلاعات زیادی را کاهش می دهد.
تاریخچه مختصر[ویرایش]
در سپتامبر 2016، شرکت DeepMind، مدل WaveNet را پیشنهاد کرد، یک مدل مولد عمیق از شکلهای موج صوتی خام، که نشان میدهد مدلهای مبتنی بر یادگیری عمیق قادر به مدلسازی شکل موج خام و تولید گفتار از ویژگیهای آکوستیک مانند طیفنگارها یا طیفنگارهای مل هستند . اگرچه WaveNet در ابتدا از نظر محاسباتی بسیار گران و کند در نظر گرفته میشد که در آن زمان این امکان وجود نداشت که از این مدل در محصولات مصرفی استفاده شود، اما یک سال پس از انتشار، DeepMind نسخه اصلاحشده WaveNet را به نام «Paralel WaveNet» معرفی کرد که مدلی تولیدی ۱۰۰۰ سریعتر از نسخه اصلی بود. [۱]
در اوایل سال 2017، میلا char2wav را پیشنهاد کرد که مدلی برای تولید شکل موج خام در یک روش end-to-end بود. در همان سال، گوگل و فیسبوک به ترتیب Tacotron و VoiceLoop را برای تولید ویژگیهای صوتی مستقیماً از متن ورودی پیشنهاد کردند. ماهها بعد، گوگل Tacotron2 را پیشنهاد کرد، که کدصدای WaveNet را با معماری اصلاحشده Tacotron ترکیب کرد تا سنتز گفتار سرتاسر را انجام دهد. Tacotron2 می تواند گفتاری با کیفیت بالا تولید کند که نزدیک به صدای انسان است. از آن زمان، روشهای end-end تبدیل به داغترین موضوع تحقیقاتی شدهاند، زیرا بسیاری از محققان در سراسر جهان متوجه قدرت ترکیبکنندههای گفتار end-end شدهاند. [۲] [۳]
یادگیری نیمه نظارتی[ویرایش]
در حال حاضر، یادگیری خود نظارتی به دلیل استفاده بهتر از داده های بدون برچسب، توجه زیادی را به خود جلب کرده است. تحقیقات [۴] [۵] نشان داده است که با کمک تلفات خود نظارتی، نیاز به داده های جفت کاهش می یابد.
سازگاری اسپیکر صفر شات[ویرایش]
سازگاری بلندگو با شات صفر امیدوارکننده است زیرا یک مدل واحد می تواند گفتاری با سبک ها و ویژگی های مختلف بلندگو تولید کند. در ژوئن 2018، گوگل پیشنهاد کرد که از مدلهای تایید بلندگوهای از پیش آموزشدیده بهعنوان رمزگذار بلندگو برای استخراج تعبیههای بلندگو استفاده کند. [۶] رمزگذارهای بلندگو سپس بخشی از مدل های عصبی متن به گفتار می شوند، به طوری که می توانند سبک و ویژگی های گفتار خروجی را تعیین کنند. این رویه به جامعه نشان داده است که می توان تنها از یک مدل برای تولید گفتار با سبک های متعدد استفاده کرد.
صداگذار عصبی[ویرایش]
در سنتز گفتار مبتنی بر یادگیری عمیق، رمزگذارهای صوتی عصبی نقش مهمی در تولید گفتار با کیفیت بالا از ویژگیهای صوتی دارند. مدل WaveNet که در سال 2016 ارائه شد، عملکرد بسیار خوبی در کیفیت گفتار دارد. Wavenet احتمال مشترک یک شکل موج را فاکتور گرفت به عنوان حاصل ضرب احتمالات مشروط به صورت زیر
جایی که پارامتر مدل شامل بسیاری از لایه های پیچشی اتساع یافته است. بنابراین، هر نمونه صوتی ، مشروط به نمونه ها در تمام مراحل قبلی است. با این حال، ماهیت رگرسیون خودکار WaveNet روند استنتاج را به طور چشمگیری کند می کند. برای حل این مشکل، Parallel WaveNet [۷] پیشنهاد شد. WaveNet موازی یک مدل مبتنی بر جریان اتورگرسیو معکوس است که با knowledge distillationبا یک مدل WaveNet معلم از قبل آموزش دیده آموزش داده می شود. از آنجایی که چنین مدلهای مبتنی بر جریان اتورگرسیو معکوس هنگام انجام استنتاج غیر رگرسیون خودکار هستند، سرعت استنتاج سریعتر از زمان واقعی است. در همین حال، Nvidia مدل WaveGlow [۸] مبتنی بر جریان را پیشنهاد کرد که میتواند گفتار را سریعتر از زمان واقعی تولید کند. با این حال، علی رغم سرعت استنتاج بالا، WaveNet موازی محدودیت نیاز به یک مدل WaveNet از پیش آموزش دیده را دارد، به طوری که WaveGlow هفته ها طول می کشد تا با دستگاه های محاسباتی محدود همگرا شود. این مشکل توسط موازی WaveGAN حل شده است، [۹] که یاد می گیرد گفتار را از طریق از دست دادن طیفی با وضوح چندگانه و استراتژی های یادگیری GAN تولید کند.
منابع[ویرایش]
- ↑ ۱٫۰ ۱٫۱ van den Oord, Aäron (2017-11-12). "High-fidelity speech synthesis with WaveNet". DeepMind. Retrieved 2022-06-05.صفحه پودمان:Citation/CS1/en/styles.css محتوایی ندارد.van den Oord, Aäron (2017-11-12). "High-fidelity speech synthesis with WaveNet". DeepMind. Retrieved 2022-06-05. خطای یادکرد: برچسب
<ref>
نامعتبر؛ نام «deepmind» چندین بار با محتوای متفاوت تعریف شده است - ↑ Hsu. "Hierarchical Generative Modeling for Controllable Speech Synthesis". arXiv:1810.07217.
- ↑ Habib. "Semi-Supervised Generative Modeling for Controllable Speech Synthesis". arXiv:1910.01709.
- ↑ Chung. "Semi-Supervised Training for Improving Data Efficiency in End-to-End Speech Synthesis". arXiv:1808.10128.
- ↑ Ren. "Almost Unsupervised Text to Speech and Automatic Speech Recognition". arXiv:1905.06791.
- ↑ Jia. "Transfer Learning from Speaker Verification to Multispeaker Text-To-Speech Synthesis". arXiv:1806.04558.
- ↑ van den Oord. "Parallel WaveNet: Fast High-Fidelity Speech Synthesis". arXiv:1711.10433.
- ↑ Prenger. "WaveGlow: A Flow-based Generative Network for Speech Synthesis". arXiv:1811.00002.
- ↑ Yamamoto. "Parallel WaveGAN: A fast waveform generation model based on generative adversarial networks with multi-resolution spectrogram". arXiv:1910.11480.
This article "Deep learning speech synthesis" is from Wikipedia. The list of its authors can be seen in its historical and/or the page Edithistory:Deep learning speech synthesis. Articles copied from Draft Namespace on Wikipedia could be seen on the Draft Namespace of Wikipedia and not main one.