VERSIJA 2.0
2024-01-13
Erika Rimkutė, Agnė Bielinskienė, Loïc Boizou, Andrius Utka, Virginijus Dadurkevičius
Skaitmeninių išteklių ir tarpdisciplininių tyrimų institutas (SITTI), Vytauto Didžiojo universitetas
Informacija taip pat preinama CLARIN-LT saugykloje – https://clarin.vdu.lt/xmlui/handle/20.500.11821/56
Šis standartas pirmą kartą panaudotas 2019 m. Kompiuterinės lingvistikos centre rengiant sintaksiškai anotuotą tekstyną ALKSNIS. Vėliau naudotas ir kitiems tekstynams anotuoti. 2023 m. įdiegtas morfologinės analizės įrankyje Morfuoklis.
Turinys
Standarto principai
1 lentelė. Morfologinės kategorijos ir žymėjimas
2 lentelė. Morfologinių pažymų tvarka ir pavyzdžiai
3 lentelė. Anotuoto teksto pavyzdžiai
Standarto principai
- „Jablonskio“ standartas parengtas remiantis lietuvių kalbotyros darbuose (pvz., žodynuose, gramatikose) įprastai vartojamais kalbos dalių ir kitų gramatinių kategorijų sutrumpinimais (žr. 1 lentelę).
- Pažymos sujungiamos taškais, tarp pažymų nedaromi tarpai, nerašomi jungimo / skyrimo ženklai pvz.: dkt.tikr.mot.vns.Vt.
- Kalbos dalims prilygsta šios kategorijos: skyrybos ženklas (skyr.); akronimas (akr.) – kai santrumpa sudaryta iš pirmųjų pavadinimo raidžių, pvz.: VDU, NATO, BVP; sutrumpinimas (sutr.), sudarytas iš vienos ar kelių žodžio raidžių, pvz.: Eur, m., m, gerb.; užsienio kalbos žodis (užs.); kiti vienetai (kt.), pvz.: el. pašto adresas, interneto svetainės nuoroda, raidiniai pavadinimai (vitaminas A, B grupė), numeravimas raidėmis (a), b), c)…; i), ii), iii)…).
- Jei gramatinė kategorija yra dvinarė, nurodomas tik žymėtasis tos kategorijos narys: tikriniai daiktavardžiai (bendriniams nieko nenurodoma), tik įvardžiuotinės, tik sangrąžinės, tik neigiamosios formos.
- Sudarant morfologinių pažymų kombinacijas, turi būti laikomasi išdėstymo tvarkos (žr. 2 lentelę).
- „Jablonskio“ standartas gali būti naudojamas skirtinguose anotavimo modeliuose, pvz., Universals dependencies (CoNLL-U), SketchEngine ar NoSketch (žr. 3 lentelę).
1 lentelė. Morfologinės kategorijos ir žymėjimas
Kategorija | Kategoriją sudarantys elementai | Morfologinės pažymos sutrumpinimas |
Kalbos dalis (ir jai prilyginti vienetai) | daiktavardis | dkt. |
veiksmažodis | vksm. | |
būdvardis | bdv. | |
įvardis | įv. | |
skaitvardis | sktv. | |
prieveiksmis | prv. | |
prielinksnis | prl. | |
jungtukas | jng. | |
dalelytė | dll. | |
jaustukas | jst. | |
ištiktukas | išt. | |
sutrumpinimas | sutr. | |
akronimas | akr. | |
skyrybos ženklas | skyr. | |
užsienio kalbos žodis | užs. | |
kita | kt. | |
Daiktavardžių rūšis | tikrinis | tikr. |
Tikrinių daiktavardžių porūšiai | vardas | vrd. |
pavardė | pvrd. | |
vietovardis | vtvrd. | |
Sangrąžiškumas | sangrąžinis | sngr. |
Veiksmažodžių poliariškumas | neigiamas | neig. |
Kalbos standartiškumas | substandartinis | substnd. |
vulgarizmas | vulg. | |
Skaitvardžių rūšis | kiekinis pagrindinis | kiek. |
kiekinis kuopinis | kuopin. | |
kiekinis dauginis | daugin. | |
kelintinis | kelint. | |
Skaitvardžių forma | arabiškas skaičius | arab. |
romėniškas skaičius | rom. | |
mišrus skaitvardis | mišr. | |
žodžiu užrašytas skaitvardis | raid. | |
Giminė | vyriškoji | vyr. |
moteriškoji | mot. | |
bendroji | bendr. | |
bevardė | bev. | |
Skaičius | vienaskaita | vns. |
daugiskaita | dgs. | |
dviskaita | dvisk. | |
Linksnis | vardininkas | V. |
kilmininkas | K. | |
naudininkas | N. | |
galininkas | G. | |
įnagininkas | Įn. | |
vietininkas | Vt. | |
šauksmininkas | Š. | |
iliatyvas | Il. | |
Apibrėžtumas | įvardžiuotinis | įvardž. |
Įvardžio kilmininko savybinė forma | savybinis | savyb. |
Laipsnis | aukštėlesnysis | aukštėl. |
aukštesnysis | aukšt. | |
aukščiausiasis | aukšč. | |
nelyginamasis | nelygin. | |
Veiksmažodžio forma | asmenuojamoji | asm. |
bendratis | bndr. | |
dalyvis | dlv. | |
padalyvis | pad. | |
pusdalyvis | pusd. | |
būdinys | būdn. | |
siekinys | siekn. | |
Dalyvio rūšis | veikiamoji | veik. |
neveikiamoji | neveik. | |
reikiamybės | reik. | |
Nuosaka | tiesioginė | tiesiog. |
liepiamoji | liep. | |
tariamoji | tar. | |
geidžiamoji | geidž. | |
Laikas | esamasis | es. |
būtasis | būt. | |
būtasis kartinis | būt-k. | |
būtasis dažninis | būt-d. | |
būsimasis | būs. | |
Asmuo | pirmasis | 1. |
antrasis | 2. | |
trečiasis | 3. | |
Trumpinimo forma | sutrumpintas variantas | trump. |
ilgasis variantas | ilg. | |
Vartojimo ypatybės | reta, nevartotina forma | vrnt. |
2 lentelė. Morfologinių pažymų tvarka ir pavyzdžiai
Kalbos dalis | Morfologinių pažymų išdėstymo tvarka | Pavyzdžiai |
Daiktavardis | daiktavardžių rūšis, tikrinio daiktavardžio porūšis, sangrąžiškumas, giminė, skaičius, linksnis, kalbos standartiškumas, sutrumpinta forma, vartojimo ypatybės | Lietuvos: dkt.tikr.vtvrd.mot.vns.K. Gediminas: dkt.tikr.vrd.vyr.vns.V. Jonaiti: dkt.tikr.pvrd.vyr.vns.Š. vyriausybė: dkt.mot.vns.V. įsipareigojimų: dkt.sngr.vyr.dgs.K. žmonėm: dkt.vyr.dgs.N.trump. šūdas: dkt.vyr.vns.V.substnd. ofisas: dkt.vyr.vns.V.substnd. bibsargis: dkt.vyr.vns.V.vulg. kelyj: dkt.vyr.vns.Vt.trump.vrnt. |
Būdvardis | laipsnis, apibrėžtumas, giminė, skaičius, linksnis, standartiškumas, sutrumpinta forma, vartojimo ypatybės | naudingas: bdv.nelygin.vyr.vns.V. gerojo: bdv.nelygin.įvardž.vyr.vns.K. aukščiausiasis: bdv.aukšč.įvardž.vyr.vns.V. geriem: bdv.nelygin.vyr.dgs.N.trump. šipuotos: bdv.nelygin.mot.dgs.V.substnd. |
Įvardis | apibrėžtumas, giminė, skaičius, linksnis, standartiškumas, sutrumpinta forma, vartojimo ypatybės | kurio: įv.vyr.vns.K. tasai: įv.įvardž.vyr.vns.V. savo (lema savęs): įv.savyb.K. tavim: įv.vns.Įn.trump. mudu: įv.vyr.dvisk.V. kožnu: įv.vyr.vns.Įn.substnd. viens: įv.vyr.vns.V.trump.vrnt. |
Skaitvardis | skaičių forma, skaitvardžių rūšis, apibrėžtumas, giminė, skaičius, linksnis, standartiškumas, sutrumpinta forma, vartojimo ypatybės | penki: sktv.raid.kiek.vyr.dgs.V. penkeri: sktv.raid.daugin.vyr.dgs.dgs.V. penketą: sktv.raid.kuopin.vyr.vns.G. pirmasis: sktv.raid.kelint.įvardž.vyr.vns.V. pirmiem: sktv.raid.kelint.vyr.dgs.N.trump. tūkstantom: sktv.raid.kelint.mot.dgs.Įn.trump.vrnt. kem: sktv.raid.kiek.substnd. 704: sktv.arab. 2-ojo: sktv.mišr.kelint.įvardž.vyr.vns.K. XXI: sktv.rom. |
Veiksmažodis | asmenuojamosios formos: veiksmažodžio forma (asm.), poliariškumas, sangrąžiškumas, nuosaka, laikas, skaičius, asmuo, standartiškumas, sutrumpinta forma, vartojimo ypatybės | buvo: vksm.asm.tiesiog.būt-k.3. tebūnie: vksm.asm.geidž. nėra: vksm.asm.neig.tiesiog.es.3. nusikalto: vksm.asm.sngr.tiesiog.būt-k.3. užeikit: vksm.asm.liep.dgs.2. bliuznijo: vksm.asm.tiesiog.būt-k.3.substnd. kalbėtume: vksm.asm.tar.dgs.1.trump. suptute: vksm.asm.tar.dgs.2.trump.vrnt. |
dalyviai: veiksmažodžio forma (dlv.), poliariškumas, sangrąžiškumas, rūšis, laikas, laipsnis, apibrėžtumas, giminė, skaičius, linksnis, standartiškumas, sutrumpinta forma, vartojimo ypatybės | numatyti: vksm.dlv.neveik.būt.vyr.dgs.V. suaugusieji: vksm.dlv.veik.būt-k.įvardž.vyr.dgs.V. buvusį: vksm.dlv.veik.būt-k.vyr.vns.G. pasislėpusi: vksm.dlv.sngr.veik.būt-k.mot.vns.V. mylimiausias: vksm.dlv.neveik.es.aukšč.vyr.vns.V. mylimasai: vksm.dlv.neveik.es.įvardž.vyr.vns.V.vrnt. frizuota: vksm.dlv.neveik.būt.mot.vns.V.substnd. veršią: vksm.dlv.veik.būs.mot.dgs.V.trump. |
|
padalyviai: veiksmažodžio forma (pad.), poliariškumas, sangrąžiškumas, laikas, standartiškumas | neatsisukant: vksm.pad.neig.sngr.es. atburzgiant: vksm.pad.es. bevelijant: vksm.pad.es.substnd. |
|
pusdalyviai: veiksmažodžio forma (pusd.), poliariškumas, sangrąžiškumas, giminė, skaičius, standartiškumas | pradėdami: vksm.pusd.vyr.dgs. nedelsdamas: vksm.pusd.neig.vyr.vns. prasimanydamas: vksm.pusd.sngr.vyr.vns. mozodamas: vksm.pusd.vyr.vns.substnd. |
|
bendratys: veiksmažodžio forma (bndr.), poliariškumas, sangrąžiškumas, standartiškumas, sutrumpinta forma, vartojimo ypatybės | išlaikyti: vksm.bndr. pasišnekėti: vksm.bndr.sngr. nepaslysti: vksm.bndr.neig. bėgt: vksm.bndr.trump. arenduoti: vksm.bndr.substnd. |
|
būdiniai: veiksmažodžio forma (būdn.), poliariškumas, standartiškumas | bėgte: vksm.būdn. nebėgte: vksm.būdn.neig. perste: vksm.būdn.substnd. |
|
siekiniai: veiksmažodžio forma (siekn.), poliariškumas, standartiškumas | darytų: vksm.siekn. smožytų: vksm.siekn.substnd. |
|
Prieveiksmis | laipsnis, standartiškumas, sutrumpinta forma, vartojimo ypatybės | dažnai: prv.nelygin. daugiau: prv.aukšt. iš karto: prv.nelygin. ubagiškai: prv.nelygin.substnd. daugiausia: prv.aukšč. daugiausiai: prv.aukšč.ilg. |
Prielinksnis | valdomas linksnis, standartiškumas | link: prl.K. apie: prl.G. su: prl.Įn. apart: prl.K.substnd. |
3 lentelė. Anotuoto teksto pavyzdžiai
Pradinis tekstas | Rezultato standartas | Anotuotas tekstas „Jablonskio“ standartu |
Šis tekstas anotuotas naudojant „Jablonskio“ standartą. | CoNLL-U | # sent_id = 1 # text = Šis tekstas anotuotas naudojant „Jablonskio“ standartą. 1 Šis šis PRON įv.vyr.vns.V. Case=Nom|Gender=Masc|Number=Sing _ _ _ _ 2 tekstas tekstas NOUN dkt.vyr.vns.V. Case=Nom|Gender=Masc|Number=Sing _ _ _ _ 3 anotuotas anotuoti VERB vksm.dlv.neveik.būt.vyr.vns.V. Case=Nom|Gender=Masc|Number=Sing|Tense=Past|VerbForm=Part|Voice=Pass _ _ _ _ 4 naudojant naudoti VERB vksm.pad.es. Tense=Pres|VerbForm=Ger _ _ _ _ 5 „ „ PUNCT skyr. _ _ _ SpaceAfter=No 6 Jablonskio Jablonskis PROPN dkt.tikr.pvrd.vyr.vns.K. Case=Gen|Gender=Masc|NameType=Sur|Number=Sing _ _ _ SpaceAfter=No 7 “ “ PUNCT skyr. _ _ _ _ 8 standartą standartas NOUN dkt.vyr.vns.G. Case=Acc|Gender=Masc|Number=Sing _ _ _ SpaceAfter=No 9 . . PUNCT skyr. _ _ _ _ |
Sketch Engine | <doc> <p> <s> Šis šis įv.vyr.vns.V. šis-p tekstas tekstas dkt.vyr.vns.V. tekstas-n anotuotas anotuoti vksm.dlv.neveik.būt.vyr.vns.V. anotuoti-v naudojant naudoti vksm.pad.es. naudoti-v „ „ skyr. „-t <g/> Jablonskio Jablonskis dkt.tikr.pvrd.vyr.vns.K. Jablonskis-n <g/> “ “ skyr. “-t standartą standartas dkt.vyr.vns.G. standartas-n <g/> . . skyr. .-t </s> </p> </doc> |
|
NoSketch Engine | <doc> <p> <s> Šis įv.vyr.vns.V. šis tekstas dkt.vyr.vns.V. tekstas anotuotas vksm.dlv.neveik.būt.vyr.vns.V. anotuoti naudojant vksm.pad.es. naudoti „ skyr. „ <g/> Jablonskio dkt.tikr.pvrd.vyr.vns.K. Jablonskis <g/> “ skyr. “ standartą dkt.vyr.vns.G. standartas <g/> . skyr. . </s> </p> </doc> |