Deep learning speech synthesis

(این مقاله در حال ترجمه از ویکی انگلیسی است

لطفا حذف نشود.)

سنتز گفتار یادگیری عمیق از شبکه‌های عصبی عمیق (DNN) برای تولید گفتار مصنوعی از متن (متن به گفتار) یا طیف (کدصدا) استفاده می‌کند. شبکه های عصبی عمیق با استفاده از مقدار زیادی گفتار ضبط شده و در مورد سیستم تبدیل متن به گفتار، برچسب های مرتبط و/یا متن ورودی آموزش داده می شوند.

برخی از سنتز کننده های گفتار مبتنی بر DNN رویکرد طبیعی بودن صدای انسان را در پیش می گیرند.

فرمول ها[ویرایش]

با توجه به یک متن ورودی یا یک سری از واحدهای زبانی $Y$ ، گفتار هدف $X$ را می توان توسط رابطه ی زیر به دست آورد:

$X=\arg \max P(X|Y,\theta )$

جایی که $\theta$ پارامتر مدل است.

به طور معمول، متن ورودی ابتدا به یک مولد ویژگی صوتی ارسال می شود، سپس ویژگی های آکوستیک به رمزگذارهای صوتی عصبی فرستاده می شود. برای مولد ویژگی صوتی، تابع زیان معمولاً L1 loss یا L2 loss است. محدودیتی که این توابع زیان دارند این است که توزیع ویژگی های صوتی خروجی باید از نوع گاوسی یا لاپلاسی باشد. در عمل، از آنجایی که محدوده ی صدای انسان در حدود 300 تا 4000 هرتز متغیر است، تابع هرینه طوری طراحی می شود که جریمه بیشتری در این محدوده داشته باشد:

$loss=\alpha {\text{loss}}_{\text{human}}+(1-\alpha ){\text{loss}}_{\text{other}}$

جایی که ${\text{loss}}_{\text{human}}$ تلفات محدوده ی صدای انسان و $\alpha$ یک اسکالر(مقدار عددی) معمولاً حدود 0.5 است. ویژگی آکوستیک معمولاً طیف نگار یا طیف نگار در مقیاس Mel است . این ویژگی‌ها رابطه زمان-فرکانس سیگنال گفتار را ضبط می‌کنند و بنابراین، تولید خروجی‌های هوشمند با این ویژگی‌های صوتی کافی است. ویژگی Mel-frequency cepstrum مورد استفاده در کار تشخیص گفتار، برای سنتز گفتار مناسب نیست؛ زیرا اطلاعات زیادی را کاهش می دهد.

تاریخچه مختصر[ویرایش]

پرونده:WaveNet animation.gif

مجموعه ای از لایه های پیچشی معمولی اتساع یافته که در WaveNet استفاده می شود ^[۱]

در سپتامبر 2016، شرکت DeepMind، مدل WaveNet را پیشنهاد کرد، یک مدل مولد عمیق از شکل‌های موج صوتی خام، که نشان می‌دهد مدل‌های مبتنی بر یادگیری عمیق قادر به مدل‌سازی شکل موج خام و تولید گفتار از ویژگی‌های آکوستیک مانند طیف‌نگارها یا طیف‌نگارهای مل هستند . اگرچه WaveNet در ابتدا از نظر محاسباتی بسیار گران و کند در نظر گرفته می‌شد که در آن زمان این امکان وجود نداشت که از این مدل در محصولات مصرفی استفاده شود، اما یک سال پس از انتشار، DeepMind نسخه اصلاح‌شده WaveNet را به نام «Paralel WaveNet» معرفی کرد که مدلی تولیدی ۱۰۰۰ سریع‌تر از نسخه اصلی بود. ^[۱]

در اوایل سال 2017، میلا char2wav را پیشنهاد کرد که مدلی برای تولید شکل موج خام در یک روش end-to-end بود. در همان سال، گوگل و فیس‌بوک به ترتیب Tacotron و VoiceLoop را برای تولید ویژگی‌های صوتی مستقیماً از متن ورودی پیشنهاد کردند. ماه‌ها بعد، گوگل Tacotron2 را پیشنهاد کرد، که کدصدای WaveNet را با معماری اصلاح‌شده Tacotron ترکیب کرد تا سنتز گفتار سرتاسر را انجام دهد. Tacotron2 می تواند گفتاری با کیفیت بالا تولید کند که نزدیک به صدای انسان است. از آن زمان، روش‌های end-end تبدیل به داغ‌ترین موضوع تحقیقاتی شده‌اند، زیرا بسیاری از محققان در سراسر جهان متوجه قدرت ترکیب‌کننده‌های گفتار end-end شده‌اند. ^[۲] ^[۳]

یادگیری نیمه نظارتی[ویرایش]

در حال حاضر، یادگیری خود نظارتی به دلیل استفاده بهتر از داده های بدون برچسب، توجه زیادی را به خود جلب کرده است. تحقیقات ^[۴] ^[۵] نشان داده است که با کمک تلفات خود نظارتی، نیاز به داده های جفت کاهش می یابد.

سازگاری اسپیکر صفر شات[ویرایش]

سازگاری بلندگو با شات صفر امیدوارکننده است زیرا یک مدل واحد می تواند گفتاری با سبک ها و ویژگی های مختلف بلندگو تولید کند. در ژوئن 2018، گوگل پیشنهاد کرد که از مدل‌های تایید بلندگوهای از پیش آموزش‌دیده به‌عنوان رمزگذار بلندگو برای استخراج تعبیه‌های بلندگو استفاده کند. ^[۶] رمزگذارهای بلندگو سپس بخشی از مدل های عصبی متن به گفتار می شوند، به طوری که می توانند سبک و ویژگی های گفتار خروجی را تعیین کنند. این رویه به جامعه نشان داده است که می توان تنها از یک مدل برای تولید گفتار با سبک های متعدد استفاده کرد.

صداگذار عصبی[ویرایش]

Speech synthesis example using the HiFi-GAN neural vocoder

در سنتز گفتار مبتنی بر یادگیری عمیق، رمزگذارهای صوتی عصبی نقش مهمی در تولید گفتار با کیفیت بالا از ویژگی‌های صوتی دارند. مدل WaveNet که در سال 2016 ارائه شد، عملکرد بسیار خوبی در کیفیت گفتار دارد. Wavenet احتمال مشترک یک شکل موج را فاکتور گرفت $\mathbf {x} =\{x_{1},...,x_{T}\}$ به عنوان حاصل ضرب احتمالات مشروط به صورت زیر

$p_{\theta }(\mathbf {x} )=\prod _{t=1}^{T}p(x_{t}|x_{1},...,x_{t-1})$

جایی که $\theta$ پارامتر مدل شامل بسیاری از لایه های پیچشی اتساع یافته است. بنابراین، هر نمونه صوتی $x_{t}$ ، مشروط به نمونه ها در تمام مراحل قبلی است. با این حال، ماهیت رگرسیون خودکار WaveNet روند استنتاج را به طور چشمگیری کند می کند. برای حل این مشکل، Parallel WaveNet ^[۷] پیشنهاد شد. WaveNet موازی یک مدل مبتنی بر جریان اتورگرسیو معکوس است که با knowledge distillationبا یک مدل WaveNet معلم از قبل آموزش دیده آموزش داده می شود. از آنجایی که چنین مدل‌های مبتنی بر جریان اتورگرسیو معکوس هنگام انجام استنتاج غیر رگرسیون خودکار هستند، سرعت استنتاج سریع‌تر از زمان واقعی است. در همین حال، Nvidia مدل WaveGlow ^[۸] مبتنی بر جریان را پیشنهاد کرد که می‌تواند گفتار را سریع‌تر از زمان واقعی تولید کند. با این حال، علی رغم سرعت استنتاج بالا، WaveNet موازی محدودیت نیاز به یک مدل WaveNet از پیش آموزش دیده را دارد، به طوری که WaveGlow هفته ها طول می کشد تا با دستگاه های محاسباتی محدود همگرا شود. این مشکل توسط موازی WaveGAN حل شده است، ^[۹] که یاد می گیرد گفتار را از طریق از دست دادن طیفی با وضوح چندگانه و استراتژی های یادگیری GAN تولید کند.

	[[:Image:{{{نام پرونده}}}\|{{{عنوان}}}]] [[Image:{{{نام پرونده}}}\|220px\|noicon\|alt=]]
آیا مشکلی با شنیدن این پرونده دارید؟ راهنمای رسانه را ببینید.

منابع[ویرایش]

↑ ^۱٫۰ ^۱٫۱ van den Oord, Aäron (2017-11-12). "High-fidelity speech synthesis with WaveNet". DeepMind. Retrieved 2022-06-05.صفحه پودمان:Citation/CS1/en/styles.css محتوایی ندارد.van den Oord, Aäron (2017-11-12). "High-fidelity speech synthesis with WaveNet". DeepMind. Retrieved 2022-06-05. خطای یادکرد: برچسب <ref> نامعتبر؛ نام «deepmind» چندین بار با محتوای متفاوت تعریف شده است
↑ Hsu. "Hierarchical Generative Modeling for Controllable Speech Synthesis". arXiv:1810.07217.
↑ Habib. "Semi-Supervised Generative Modeling for Controllable Speech Synthesis". arXiv:1910.01709.
↑ Chung. "Semi-Supervised Training for Improving Data Efficiency in End-to-End Speech Synthesis". arXiv:1808.10128.
↑ Ren. "Almost Unsupervised Text to Speech and Automatic Speech Recognition". arXiv:1905.06791.
↑ Jia. "Transfer Learning from Speaker Verification to Multispeaker Text-To-Speech Synthesis". arXiv:1806.04558.
↑ van den Oord. "Parallel WaveNet: Fast High-Fidelity Speech Synthesis". arXiv:1711.10433.
↑ Prenger. "WaveGlow: A Flow-based Generative Network for Speech Synthesis". arXiv:1811.00002.
↑ Yamamoto. "Parallel WaveGAN: A fast waveform generation model based on generative adversarial networks with multi-resolution spectrogram". arXiv:1910.11480.

This article "Deep learning speech synthesis" is from Wikipedia. The list of its authors can be seen in its historical and/or the page Edithistory:Deep learning speech synthesis. Articles copied from Draft Namespace on Wikipedia could be seen on the Draft Namespace of Wikipedia and not main one.

Facebook Page

Follow us on Twitter !

Read or create/edit this page in another language[ویرایش]

Deep learning speech synthesis in English

[deepmind-1] ۱٫۰ ^۱٫۱ van den Oord, Aäron (2017-11-12). "High-fidelity speech synthesis with WaveNet". DeepMind. Retrieved 2022-06-05.صفحه پودمان:Citation/CS1/en/styles.css محتوایی ندارد.van den Oord, Aäron (2017-11-12). "High-fidelity speech synthesis with WaveNet". DeepMind. Retrieved 2022-06-05. خطای یادکرد: برچسب <ref> نامعتبر؛ نام «deepmind» چندین بار با محتوای متفاوت تعریف شده است

[2] Hsu. "Hierarchical Generative Modeling for Controllable Speech Synthesis". arXiv:1810.07217.

[3] Habib. "Semi-Supervised Generative Modeling for Controllable Speech Synthesis". arXiv:1910.01709.

[4] Chung. "Semi-Supervised Training for Improving Data Efficiency in End-to-End Speech Synthesis". arXiv:1808.10128.

[5] Ren. "Almost Unsupervised Text to Speech and Automatic Speech Recognition". arXiv:1905.06791.

[6] Jia. "Transfer Learning from Speaker Verification to Multispeaker Text-To-Speech Synthesis". arXiv:1806.04558.

[7] van den Oord. "Parallel WaveNet: Fast High-Fidelity Speech Synthesis". arXiv:1711.10433.

[8] Prenger. "WaveGlow: A Flow-based Generative Network for Speech Synthesis". arXiv:1811.00002.

[9] Yamamoto. "Parallel WaveGAN: A fast waveform generation model based on generative adversarial networks with multi-resolution spectrogram". arXiv:1910.11480.

[۱]

[۲]

[۳]

[۴]

[۵]

[۶]

[۷]

[۸]

[۹]