MATAS – morfologiškai anotuotas tekstynas

MATAS pradėtas rengti Kompiuterinės lingvistikos centre 2000–2005 m. Tekstyno parengimą rėmė Valstybinė lietuvių kalbos komisija, Valstybinis mokslo ir studijų fondas. Vėliau tekstynas pildytas SEMANTIKA ir SEMANTIKA-2 projektuose.

MATAS 1.0

MATO 1.0 versiją galima parsisiųsti iš CLARIN repozitoriumo čia:

https://clarin.vdu.lt/xmlui/handle/20.500.11821/33.

Tai reikšmingai atnaujinta MATAS 0.2 versija. Pagrindiniai skirtumaI:

  • Pataisyta daug pastebėtų netikslumų;
  • Pažymėta nestandartinė ir necenzūrinė kalba;
  • Tekstai pateikiami dviem formatais TAB-WPL ir CONLLU;
  • Naudojami trys žymų formatai: Multext-EAST, UD ir Jablonskis.

MATAS 0.2

MATĄ 0.2 galima parsisiųsti iš CLARIN repozitoriumo čia:

http://hdl.handle.net/20.500.11821/9

Tekstyno apimtis yra 1,6 mln. žodžių (publicistikos tekstai sudaro 36 proc., mokslinės literatūros tekstai – 24 proc., grožinės literatūros tektai – 19 proc., administracinio stiliaus tekstai – 2,8 proc., Lietuvos Respublikos Seimo stenogramos – 6,8 proc.).

Tekstynas sudarytas pusiau automatiškai: naudota Vytauto Zinkevičiaus sukurta morfologinio anotavimo programa. Gauti rezultatai peržiūrėti lingvistų: sutvarkytos blogai anotuotų žodžių pažymos, prie morfologinio anotatoriaus neatpažintų žodžių įrašyta reikalinga informacija.

Morfologiškai anotuotame tekstyne išryškėja didelis lietuvių kalbos morfologinis daugiareikšmiškumas. Paaiškėjo, kad beveik pusė visų formų yra morfologiškai daugiareikšmės, t. y. gali turėti dvi ar daugiau lemų (pvz., laužo – daiktavardis laužas arba veiksmažodis laužyti) arba dvi ar daugiau gramatinių pažymų (pvz., prekės – daiktavardžio prekė vienaskaitos kilmininkas arba daugiskaitos vardininkas).

Išsamiau apie lietuvių kalbos morfologiškai anotuotą tekstyną galite paskaityti E. Rimkutės 2006 m. apgintoje disertacijoje „Morfologinio daugiareikšmiškumo ribojimas kompiuteriniame tekstyne“.