Dərin öyrənmə alqoritmlərinin nitq sintezinə (mətnin səsləndirilməsi) tətbiq olunması

Nitq sintezi texnologiyasına ənənəvi yanaşmalar

Nitq sintezində niyə dərin öyrənmə alqoritmləri istifadə olunduğunu başa düşmək üçün əvvəlcə mətnin səsləndirilməsi probleminin həllinə ənənəvi yanaşmalara baxaq. Nitq sintezi üçün iki spesifik metod var. Parametrik TTS və Birləşdirici TTS (Concatenative). Bundan başqa TTS-in keyfiyyətinin ölçülməsi üçün 2 anlayışı da başa düşməliyik. Anlaşılma (Intelligibility) və təbiilik (Naturalness). Anlaşılma generasiya olunan audionun keyfiyyətidir, yəni audio təmizdir, qulaq asıla biləndir? Lakin təbiilik generasiya olunan nitqin keyfiyyətidir. Nitqdə emosionallıq varmı, tələffüz doğrudurmu və s.

Birləşdirici TTS: Adından da göründüyü kimi, bu yanaşma yüksək keyfiyyətli audio kliplərin (parçaların) yazılması və onların yekun nitq formasında birləşdirilməsi ilə səciyyələnir. Baxmayaraq ki alınan nitq təmizdir, lakin emosional deyil. Daha doğrusu, anlaşılandır ancaq təbii deyil. Belə olmağının səbəbi də aydındır, çünki bütün mümkün söz kombinasiyalarının yazılması, üstəlik müxtəlif emosiyalarda, vurğularda və s. mümkün deyil.

Parametrik TTS: Birləşdirici TTS çox böyük data tələb etdiyi üçün imkanları məhduddur. Ona görə də, bunun əvəzinə daha statistik metod təklif olunur. Bu metod fundamental tezlik, spektr və s. kimi parametrləri bir yerə yığıb proses etməklə nitq generasiya edir. Parametrik TTS-in qurulması 2 addımdan ibarətdir:
- Birincisi mətni işləyərək oradan fonemlər, uzanmalar və s. kimi linqvistik parametrlərin çıxarılmasıdır.
- İkincisi səslə bağlı olan akustik parametrlərdir. Bunlara audio prosesdə istifadə olunan səsin daxili xassələri - fundamental tezliklər, kepstralar, spektoqramlar daxildir. Məsələn, kepstra insan nitqində transfer funksiyasının aproksimasiyasıdır.
Bu parametrlər insan tərəfindən müəyyənləşdirilir, sonra isə qiymətləndirilməsi üçün qaydalar - düstur verilir, yəni əllə-mühəndislik (hand engineered) edilir. Başqa sözlə işin əsas hissəsi əllə görülür.

Əllə-mühəndislik parametrləri linqvistik parametrlərlə birlikdə Vocoder adlanan riyazi modelə göndərilir. Vocoder bu parametrləri götürüb üzərində mürəkkəb çevirmələr aparmaqla səs dalğası generasiya edir və bunu edərkən eyni zamanda ritm, vurğu, intonasiya və s. kimi bəzi nitq parametrlərini də qiymətləndirir. Bəli, nəzəri cəhətdən hər şey əla görünür, hətta Parametrik TTS-i öyrətmək üçün daha az data lazımdır, lakin praktikaya keçdikdə alınan nəticə heç də yaxşı olmur. Generasiya olunan səs boğuq, uğultulu və küylü olur, nəticə etibarilə nə təbii, nə də ki anlaşılan olmur. Baxmayaraq ki, çoxlu kod yazırıq, hansı parametrləri istifadə edəcəyimizi özümüz müəyyənləşdiririk, lakin bu insan səsinə bənzər nitq generasiya etmək üçün yetərli olmur. Bu isə dərin öyrənmə alqoritmlərinin istifadəsini aktuallaşdırır.

Dərin öyrənmə ilə nitq sintezi

Andrew Gibiansky-nin dediyi kimi, biz dərin öyrənmə tədqiqatçılarıyıq, nə vaxt ki, tonlarla başa düşmədiyimiz əllə-mühəndislik işi olan problemlə qarşılaşırıq, onda neyron şəbəkələr istifadə edirik və arxitektura mühəndisliyi işi görürük. Artıq sübut olunub ki, dərin öyrənmə datanın təbii xassələrini öyrənməkdə fövqəladə effektlidir. Bu xassələri insan görə bilmir, lakin maşın onu oxuyur hansı ki, modelin öyrədilməsi üçün daha əhəmiyyətlidir. Bu isə dərin öyrənmə modeli giriş X-i çıxış Y-ə inikas etdirən funksiyanı öyrənir deməyin başqa yoludur. Bu ideyaya əsasən təbii səs generasiya edən TTS-in giriş X-i mətn, çıxış Y-i isə səs dalğası olur və heç bir əllə-mühəndislik parametrləri olmur. Əksinə insan nitqi generasiya etmək üçün yeni böyük ölçülü parametrləri verilən səs datasından öyrənir. Bu da generasiya olunan nitqin həm anlaşılan, həm də təbii olmasına gətirib çıxarır.

AzReco mətnin məsləndirilməsi sisteminə dərin öyrənmə alqoritmlərini tətbiq etməklə yüksək keyfiyyətli nəticə əldə etmişdir. Çox hallarda insan səsindən seçilməyən TTS bir çox sahələrdə müvəffəqiyyətlə istifadə olunur.