Mašininis mokymasis kalbos technologijoms (ML²)

Mašininio mokymo kalbos technologijoms grupė yra SITTI tarpdisciplininė tyrėjų grupė, kuri vykdo mokslinius tyrimus ir eksperimentinę plėtrą, tirdama, kurdama ir taikydama naujausius mašininio mokymosi metodus, skirtus natūraliai kalbai (tekstui ir šnekai) analizuoti ir apdoroti, ypač daug dėmesio skiriant intelektualioms technologijoms.

I. Pagrindinės tyrimų kryptys

ML2 tyrimų grupės mokslinių tyrimų ir eksperimentinės plėtros kryptys apima, bet neapsiribojašnekamosios kalbos atpažinimo ir analizės tyrimai ir taikymai (angl, speech-to-text); šnekamosios kalbos sintezės (angl. text-to-speech), taikant neuroninius tinklus, tyrimai ir taikymai; kalbos neuroninis modeliavimas; tarimo ir akustinio modeliavimo tyrimai; automatizuoto kirčiavimo metodų tyrimai; morfologiškai turtingų kalbų įterptinių žodžių vektorių modelių kūrimas ir tyrimai;  bendravimo robotų, rekomendacijų ir klausimų-atsakymų sistemų tyrimai ir taikymai; aspektais grįsta sentimentų analizė; neuroninis įvardytų esybių atpažinimas; skaitmeninių išteklių (garsynai, kalbos modeliai, tarimo modeliai, akustiniai modeliai, įterptinių žodžių vektorių modeliai,  neuroninių kalbos modelių ir kt.) kūrimas.

Ištekliai (duomenys ir duomenų rinkiniai). Skaitmeniniai duomenys ir duomenų rinkiniai yra neatsiejama mašininio mokymosi srities dalis visuose su mašininiu mokymusi susijusiuose tyrimų etapuose (life cycle of research): duomenų analizė formuojant tyrimo hipotezę, duomenų parengimas (įskaitant) kaip įžanginis eksperimento etapas ir t.t. ML2 tyrimuose ir eksperimentuose kuriami ir naudojami duomenys bei duomenų rinkiniai skirstomi į keturias grupes: pradiniai (tekstynai, garsynai, žodynai), tarpiniai, išvestiniai (iš pradinio tekstyno pagal tyrimui naudojamo neuroninio tinklo įeigos specifiką parengtas ir segmentuotas tekstynas, įterptinių žodžių vektorių modeliai iš tekstynų, kalbos modeliai iš tekstynų, akustiniai modeliai iš garsynų, kiti), galutiniai (kalbos neuroniniai modeliai, akustiniai modeliai, kiti).

Technologijos/priemonės/įrankiai/sprendimai neuroninėms kalbos technologijoms: Mašininis ir gilusis mokymas, gilieji neuroniniai tinklai (rekurentiniai neuroniniai tinklai, dvipusiai rekurentiniai neuroniniai tinklai, transformeriais grįsti BERT šeimos ir GPT modeliai, kt.), intelektualios technologijos.

II. ML2 grupės mokslinių tyrimų ir eksperimentinės plėtros taikymų sritys

ML2 mokslinių tyrimų ir eksperimentinės plėtros taikymų sritys: bendrinės kalbos, teisės sritis, medicinos sritis, žiniasklaidos (įskaitant socialinę žiniasklaidą), ekonomikos, kitos.