- Projekto trukmė:
- 2024 m. gruodis – 2026 m. balandis (21 mėnuo).
- Projekto vykdytojas: Valstybės skaitmeninių sprendimų agentūra (VSSA)
- Projekto vadovas: Arminas Rakauskas
- Pirkimo vertė: 5 100 000 eurų
- Tiekėjų grupė: VDU, UAB Neurotechnology, UAB Tilde Lietuva, MB Krilas
- Tiekėjų grupės vadovas: Andrius Utka
Projekto pagrindinis tikslas – surinkti reikiamus lingvistinius išteklius, juos tinkamai sutvarkyti ir parengti išsamų, stambios apimties, kokybišką lietuvių kalbos tekstyną, tenkinantį dirbtinio intelekto technologijų vystymo ir skaitmeninių bei statistinių kalbos tyrimų poreikius. Panaudojant sukurtą tekstyną, sukurti iš anksto apmokytus (angl. pre-trained) neuroninius lietuvių kalbos modelius, turinčius išsamias faktines žinias apie lietuvių kalbą
1.1. Projekto uždaviniai ir rezultatai
- Sukaupti Bendrąjį lietuvių kalbos tekstyną (BLKT).
- Sukurti du lietuvių kalbos vektorizuotus modelius.
- Sukurti programinės įrangos sprendimą, kuris leistų generuoti tekstą.
1.2. Pirkimo uždaviniai ir rezultatai
- Sukurti tinkamos apimties ir tinkamo išsamumo Bendrąjį lietuvių kalbos tekstyną (BLKT); apimtis 3,5 mlrd. žodžių.
- Tekstyno pagrindu sukurti 2 lietuvių kalbos vektorizuotus modelius (mažąjį ir didįjį).
- Sukurti techninėje specifikacijoje nustatytas validavimo priemones.
- Projekto rezultatus pateikti atviroje prieigoje, kaip nustatyta techninėje specifikacijoje.
- Projekto rezultatus pateikti vartotojams kaip atvirus išteklius, kuriais laisvai ir nemokamai galės naudotis visi norintys;.
- Suteikti aukščiausios kokybės paslaugas, laikantis techninės specifikacijos reikalavimų, projekto vykdymo grafiko.
Projekto vykdytojas
Pirkimo vykdytojai