ALKSNIS – sintaksiškai anotuotas tekstynas

ALKSNIS – lietuvių kalbos sintaksiškai anotuotas tekstynas (angl. treebank). Tai viena iš projekto Lietuvos narystė tarptautinėje mokslinių tyrimų infrastruktūroje – Bendrosios kalbos išteklių ir technologijų infrastruktūra Europos mokslinių tyrimų infrastruktūros konsorciumas veiklų.

ALKSNIS yra toliau plečiamas projekte „Lietuvių kalbos teksto sintaksinės-semantinės analizės informacinės sistemos viešųjų paslaugų vystymas (SEMANTIKA 2)“.

ALKSNIS (3.0 versija)

ALKSNIS 3.0  sudaro 3 643 sintaksiškai anotuoti sakiniai PML formatu (Prague Mark-up Language). Šis formatas leidžia atvaizduoti ir redaguoti sintaksinius medžius naudojant TrED[1] redaktorių. Šioje versijoje taip pat pateikiami failai CONLLU formatu.

ALKSNĮ 3.0 galima laisvai parsisiųsti iš  CLARIN LT saugyklos adresu:

http://hdl.handle.net/20.500.11821/21

(Pastaba: Kai kurie vartotojai negali pasiekti saugyklos dėl DNS klaidos; reikėtų kliento kompiuterio konfigūravime naudoti DNS serveriui 8.8.8.8 .)


ALKSNIS (2.1 versija)

ALKSNĮ 2.1 sudaro 2 355 sintaksiškai anotuoti sakiniai (iš bendrosios ir specialiosios periodikos, grožinės ir administracinės literatūros).  ALKSNIO pagrindas – lietuvių kalbos sintaksiniu analizatoriumi sugeneruoti sintaksinių priklausomybių medžiai (angl. dependency trees) PML (angl. Prague Markup Language) formatu. Šis formatas leidžia atvaizduoti ir redaguoti sintaksinius medžius naudojant TrED[1] redaktorių.

ALKSNĮ 2.1 galima laisvai parsisiųsti iš CLARIN-LT saugyklos adresu:

http://hdl.handle.net/20.500.11821/10

Kiekviena medžio viršūnė atitinka sakinio žodį, skyrybos ženklą ar kitą sakinio vienetą (simbolį, skaitmenį ir pan.). Prie visų žodžių tokia eilės tvarka nurodoma: 1) konkreti sakinyje pavartota žodžio forma, 2) antraštinė, t. y. žodyninė, forma, dar kitaip vadinama lema, 3) morfologinės pažymos (kalbos dalis ir gramatiniai požymiai) ir 4) sintaksinė funkcija (subjektas, objektas ir t. t.). Priklausomybės ryšiai tarp žodžių yra nurodomi briaunomis.

ALKSNYJE 2.1 nurodomos morfologinės pažymos, sudarytos remiantis MULTEXT-East formato[2] pavyzdžiu. Sintaksiškai anotuoti sakiniai tvarkomi pagal VDU KLC rengiamas gaires, kurios sudarytos remiantis Prahos priklausomybių medžių banko (angl. Prague Dependency Treebank) anotavimo taisyklėmis. Visi automatiškai anotuoti sakiniai yra tikrinami ir rankomis taisomi kalbininkų grupės.

Norint atsidaryti failus su plėtiniu .pml, reikia įsidiegti TrED redaktorių, prie anotuotų failų įsikelti šio redaktoriaus stiliaus failą „antisDplus_schema“. Įsidiegus ir pirmą kartą atsidarius TrED redaktorių, reikia nurodyti, kokią informaciją norite matyti prie kiekvienos sintaksinio medžio viršūnės. Reikia paspausti burtų lazdelės paveiksliuką dešiniame kampe viršuje prie „Style:“) ir surašyti tokį kodą:

context: .*
hint:
node:${lemma}
node:${form}
node:${ana}
node:${syfun}
text:${form}

Išsaugokite šią  informaciją, kad nereikėtų kiekvieną kartą iš naujo rašyti kodo.

Neturintiems minėto redaktoriaus rekomenduojame peržiūrėti pdf failus.

[1] Žr. https://ufal.mff.cuni.cz/tred/ (rekomenduojame atsisiųsti ir įsidiegti versiją kartu su Strawberry Perl)

[2] Žr. http://nl.ijs.si/ME/V4/msd/html/index.html