Liepa-3

Didžiojo lietuvių kalbos garsyno sukūrimas

  • Projekto trukmė: 2024 m. rugpjūtis – 2026 m. balandis
  • Projekto kodas: Nr. 02-023-K-0001
  • Projekto vykdytojai: Vilniaus Universitetas (pareiškėjas), Vytauto Didžiojo universitetas, Lietuvių kalbos institutas (partneriai)
  • Projekto vadovas: dr. Gražina Korvel
  • VDU projekto dalies vadovas: prof. dr. Daiva Vitkutė-Adžgauskienė
  • Projekto biudžetas: 4 015 289 EUR (su PVM); projektas finansuojamas Ekonomikos gaivinimo ir atsparumo didinimo plano „Naujos kartos Lietuva“ lėšomis.

Apie projektą

Projekto tikslas – sudaryti galimybes ir geresnes sąlygas skaitmeninimo plėtrai ir naujomis technologijomis pagrįstiems sprendimams, kuriant pažangias skaitmenines paslaugas visuomenei.

Numatoma, kad projekto metu bus sukurtas 10 tūkst. valandų apimties anotuotas lietuvių kalbos garsynas (iš jų: 5000 val. skaitytinės šnekos stiliumi, 4900 val. – spontaninės šnekos stiliumi, 100 val. – pagrindinių Lietuvos tarmių kalba), skirtas pirmiausia šnekos atpažinimo, o taip pat ir kitoms inovatyvioms dirbtinio intelekto (DI) technologijoms plėtoti. Garsyno įrašai bus saugomi/laisvai platinamu atviruoju formatu. Garsynas bus pateikiamas mažiausiai dviejose atviros prieigos platformose (pvz., „Hugging Face“, CLARIN ar kt.), Lietuvos atvirų duomenų portale (data.gov.lt) ir prieinamas nemokamai.

Anotuotas garsynas yra šnekos atpažinimo bei kitų susijusių dirbtinio intelekto technologijų pagrindas. Anotuotas garsynas – tai nėra tik garso įrašų sankaupa, bet susieti garso įrašų ir juos atitinkančių tekstų pavyzdžiai, iš kurių DI algoritmai gali išmokti atlikti darbą – automatiškai paversti naujus, nematytus garso įrašus tekstu. Kuo didesnė pavyzdžių (garsyno) apimtis ir įvairovė, tuo tikslesnį ir žmogui priimtiną rezultatą duoda DI technologijos. Garsynų apimtis kitoms labiau paplitusioms kalboms jau seniai viršijo 10 tūkst. valandų ribą, tuo tarpu lietuvių kalba neturi tokios apimties, detalaus, įvairiapusio ir viešai prieinamo anotuoto garsyno, kuris atspindėtų įvairias kalbos vartojimo sritis. Taigi, šis projektas užpildys spragą, skiriančią lietuvių kalbą nuo kitų technologiškai pažengusių kalbų.

Tikimasi, kad projekto įgyvendinimo metu sukurtas rezultatas ir jo dėka plėtojamos naujos kalbos įvestį naudojančios technologijos užtikrins lietuvių šnekos aktyvų gyvavimą pasaulio elektroninėje terpėje, supaprastins darbo eigą ir padės našiau dirbti, pagerins sąveiką su skaitmeninių elektroninių paslaugų naudotojais ir pagerins bendrą naudotojų patirtį, gaunant ir teikiant paslaugas, didins e. paslaugų prieinamumą ir brandos lygį, mažins socialinę atskirtį, priartins DI technologijas prie visuomenės.

Projekto eiga

Medžiaga ruošiama

Kiti dokumentai

VDU Asmens duomenų valdymo taisyklės;

VDU projekto „Didžiojo lietuvių kalbos garsyno sukūrimas“ (LIEPA-3) poveikio duomenų apsaugai vertinimas;

Informacinis lapas tyrimo dalyviui;

Informuoto sutikimo forma;

VDU Skaitmeninių išteklių ir tarpdisciplininių tyrimų instituto atitikties pagrindiniams tyrimų profesionalumo ir etikos principams vertinimo komiteto protokolas;

Kontaktiniai asmenys

VDU asmens duomenų pareigūnas: Ingrida Bukantaitė, ingrida.bukantaite eta vdu.lt

VDU projekto dalies vadovas: prof. dr Daiva Vitkutė-Adžgauskienė, daiva.vitkute eta vdu.lt