Version 2.0
2024-01-13
Erika Rimkutė, Agnė Bielinskienė, Loïc Boizou, Andrius Utka, Virginijus Dadurkevičius
Institute of Digital Resources and Interdisciplinary Research (SITTI), Vytautas Magnus university
The information is also accessible in CLARIN-LT repository: https://clarin.vdu.lt/xmlui/handle/20.500.11821/56.
The tagset was firstly used in 2019 at The Centre of Computational Linguistics in the preparation of syntactically annotated corpus ALKSNIS. It was later adapted for annotation of other corpora and in 2023 it was implemented in the morphological analysis tool Morfuoklis.
Contents
Principles
Table 1. Morphological categories and tags
Table 2. Ordering and examples
Table 3. Examples of annotated text in different frameworks
Principles
- The JABLONSKIS standard is prepared based on the abbreviations of parts of speech and other grammatical categories commonly used in Lithuanian linguistic works (e.g., dictionaries, grammars) (see Table 1).
- Tags a connected by a period without space, e.g..: dkt.tikr.mot.vns.Vt.
- The first element designates a part of speech. The following categories are treated as parts of speech: punctuation marks (skyr.); acronym (acr.) – when the abbreviation consists of the first letters of the name, e.g.: VDU, NATO, BVP; abbreviation (sutr.), consisting of one or more letters of the word, e.g.: Eur, m., m, gerb.; foreign language word (užs.); other units (kt.), e.g.: e-mail, website link, letter names (vitamin A, group B), letter numbering (a), b), c)…; i), ii), iii)…).
- Only a marked category member is marked, when grammatical category is binary. For example, proper nouns are marked (dkt.tikr.), while common nouns (dkt.) not marked.
- When forming a full tag of morphological categories, the arrangement order must be followed (see Table 2).
- JABLONSKIS can be used in other annotation frameworks, e.g., Universals dependencies (CoNLL-U), SketchEngine or NoSketch (see Table 3).
Table 1. Morphological categories and tags
Category | Elements of the Category (LT) | Elements of the Category (EN) | Tag |
POS and other categories | daiktavardis | noun | dkt. |
veiksmažodis | verb | vksm. | |
būdvardis | adjective | bdv. | |
įvardis | pronoun | įv. | |
skaitvardis | numeral | sktv. | |
prieveiksmis | adverb | prv. | |
jaustukas | interjection | išt. | |
ištiktukas | onomatopoeia | jng. | |
dalelytė | particle | dll. | |
prielinksnis | preposition | prl. | |
jungtukas | conjunction | jst. | |
akronimas | abbreviation | sutr. | |
sutrumpinimas | acronym | akr. | |
samplaikos tęsinys | punctuation | skyr. | |
užsienio kalbos žodis | foreign word | užs. | |
kiti | other | kt. | |
Noun type | tikrinis | proper | tikr. |
Proper noun subtype | vardas | first name | vrd. |
pavardė | surname | pvrd. | |
vietovardis | geographical name | vtvrd. | |
Reflexiveness | sangrąžinis | reflexive | sngr. |
Verb polarity | neigiamas | negative | neig. |
Language standard | substandartinis | substandard | substnd. |
vulgarizmas | vulgar | vulg. | |
Numeral type | kiekinis pagrindinis | cardinal main | kiek. |
kiekinis kuopinis | cardinal collective | kuopin. | |
kiekinis dauginis | cardinal multiple | daugin. | |
kelintinis | ordinal | kelint. | |
Numeral form | arabiškas | Arabic | arab. |
romėniškas | Roman | rom. | |
mišrus | mixed numeral (e.g. 2-oji, 50-ies) | mišr. | |
žodžiu užrašytas | literal | raid. | |
Gender | vyriškoji | masculine | vyr. |
moteriškoji | feminine | mot. | |
bendroji | common | bendr. | |
bevardė | neuter | bev. | |
Number | vienaskaita | singular | vns. |
daugiskaita | plural | dgs. | |
dviskaita | dual | dvisk. | |
Case | vardininkas | nominative | V. |
kilmininkas | genitive | K. | |
naudininkas | dative | N. | |
galininkas | accusative | G. | |
įnagininkas | instrumental | Įn. | |
vietininkas | locative | Vt. | |
šauksmininkas | vocative | Š. | |
iliatyvas | illative | Il. | |
Definiteness | įvardžiuotinis | pronominal | įvardž. |
Possessive pronoun form | savybinis | possessive | savyb. |
Degree | aukštėlesnysis | comparative diminutive | aukštėl. |
aukštesnysis | comparative | aukšt. | |
aukščiausiasis | superlative | aukšč. | |
nelyginamasis | positive | nelygin. | |
Verb form | asmenuojamoji | conjugated | asm. |
bendratis | infinitive | bndr. | |
dalyvis | participle | dlv. | |
padalyvis | gerund | pad. | |
pusdalyvis | half particle | pusd. | |
būdinys | verbal adverb | būdn. | |
siekinys | supine | siekn. | |
Participle type | veikiamoji | active | veik. |
neveikiamoji | passive | neveik. | |
reikiamybės | necessity | reik. | |
Mood |
tiesioginė | indicative | tiesiog. |
liepiamoji | imperative | liep. | |
tariamoji | subjective | tar. | |
geidžiamoji | optative | geidž. | |
Tense |
esamasis | present | es. |
būtasis | past | būt. | |
būtasis kartinis | past | būt-k. | |
būtasis dažninis | past frequentative | būt-d. | |
būsimasis | future | būs. | |
Person | pirmasis | I | 1. |
antrasis | II | 2. | |
trečiasis | III | 3. | |
Shortened form | sutrumpintas variantas | shortened | trump. |
ilgasis variantas | long | ilg. | |
Usage type | reta, nevartotina forma | rare | vrnt. |
Table 2. Ordering and examples
Part of speech | Ordering of tags | Pavyzdžiai |
Noun | noun type, proper noun subtype, reflexiveness, gender, number case, language standard, shortened form, usage type | Lietuvos: dkt.tikr.vtvrd.mot.vns.K. Gediminas: dkt.tikr.vrd.vyr.vns.V. Jonaiti: dkt.tikr.pvrd.vyr.vns.Š. vyriausybė: dkt.mot.vns.V. įsipareigojimų: dkt.sngr.vyr.dgs.K. žmonėm: dkt.vyr.dgs.N.trump. šūdas: dkt.vyr.vns.V.substnd. ofisas: dkt.vyr.vns.V.substnd. pidaras: dkt.vyr.vns.V.vulg. kelyj: dkt.vyr.vns.Vt.trump.vrnt. |
Adjective | degree, definiteness, gender, number, case, language standard, shortened form, usage type | naudingas: bdv.nelygin.vyr.vns.V. gerojo: bdv.nelygin.įvardž.vyr.vns.K. aukščiausiasis: bdv.aukšč.įvardž.vyr.vns.V. geriem: bdv.nelygin.vyr.dgs.N.trump. šipuotos: bdv.nelygin.mot.dgs.V.substnd. |
Pronoun | definiteness, gender, number, case, language standard, shortened form, usage type | kurio: įv.vyr.vns.K. tasai: įv.įvardž.vyr.vns.V. savo (lema savęs): įv.savyb.K. tavim: įv.vns.Įn.trump. mudu: įv.vyr.dvisk.V. kožnu: įv.vyr.vns.Įn.substnd. viens: įv.vyr.vns.V.trump.vrnt. |
Numeral | numeral form, numeral type, definiteness, gender, number, case, language standard, shortened form, usage type | penki: sktv.raid.kiek.vyr.dgs.V. penkeri: sktv.raid.daugin.vyr.dgs.dgs.V. penketą: sktv.raid.kuopin.vyr.vns.G. pirmasis: sktv.raid.kelint.įvardž.vyr.vns.V. pirmiem: sktv.raid.kelint.vyr.dgs.N.trump. tūkstantom: sktv.raid.kelint.mot.dgs.Įn.trump.vrnt. kem: sktv.raid.kiek.substnd. 704: sktv.arab. 2-ojo: sktv.mišr.kelint.įvardž.vyr.vns.K. XXI: sktv.rom. |
Verb | conjugated forms: verb form (asm.), verb polarity, reflexiveness, mood, tense, number, person, language standard, shortened form, usage type | buvo: vksm.asm.tiesiog.būt-k.3. tebūnie: vksm.asm.geidž. nėra: vksm.asm.neig.tiesiog.es.3. nusikalto: vksm.asm.sngr.tiesiog.būt-k.3. užeikit: vksm.asm.liep.dgs.2. bliuznijo: vksm.asm.tiesiog.būt-k.3.substnd. kalbėtume: vksm.asm.tar.dgs.1.trump. suptute: vksm.asm.tar.dgs.2.trump.vrnt. |
participles: verb form (dlv.), verb polarity, reflexiveness, participle type, tense, degree, definiteness, gender, number, case, language standard, shortened form, usage type | numatyti: vksm.dlv.neveik.būt.vyr.dgs.V. suaugusieji: vksm.dlv.veik.būt-k.įvardž.vyr.dgs.V. buvusį: vksm.dlv.veik.būt-k.vyr.vns.G. pasislėpusi: vksm.dlv.sngr.veik.būt-k.mot.vns.V. mylimiausias: vksm.dlv.neveik.es.aukšč.vyr.vns.V. mylimasai: vksm.dlv.neveik.es.įvardž.vyr.vns.V.vrnt. frizuota: vksm.dlv.neveik.būt.mot.vns.V.substnd. veršią: vksm.dlv.veik.būs.mot.dgs.V.trump. |
|
gerunds: verb form (pad.), verb polarity, reflexiveness, tense, language standard | neatsisukant: vksm.pad.neig.sngr.es. atburzgiant: vksm.pad.es. bevelijant: vksm.pad.es.substnd. |
|
half participles: verb form (pusd.), verb polarity, reflexiveness, gender, number, language standard | pradėdami: vksm.pusd.vyr.dgs. nedelsdamas: vksm.pusd.neig.vyr.vns. prasimanydamas: vksm.pusd.sngr.vyr.vns. mozodamas: vksm.pusd.vyr.vns.substnd. |
|
infinitives: verb form (bndr.), verb polarity, reflexiveness, language standard, shortened form, usage type | išlaikyti: vksm.bndr. pasišnekėti: vksm.bndr.sngr. nepaslysti: vksm.bndr.neig. bėgt: vksm.bndr.trump. arenduoti: vksm.bndr.substnd. |
|
verbal adverbs: verb forms (būdn.), verb polarity, language standard | bėgte: vksm.būdn. nebėgte: vksm.būdn.neig. perste: vksm.būdn.substnd. |
|
supines: verb form (siekn.), verb polarity, language standard | darytų: vksm.siekn. smožytų: vksm.siekn.substnd. |
|
Adverb | degree, language standard, shortened form, usage type | dažnai: prv.nelygin. daugiau: prv.aukšt. daugiausia: prv.aukšč. daugiausiai: prv.aukšč.ilg. iš karto: prv.nelygin. ubagiškai: prv.nelygin.substnd. |
Preposition | governing case, language standard | link: prl.K. apie: prl.G. su: prl.Įn. apart: prl.K.substnd. |
Table 3. Examples of annotated text in different frameworks
Input text | Standard | Annotated text |
Šis tekstas anotuotas naudojant „Jablonskio“ standartą. | CoNLL-U | # sent_id = 1 # text = Šis tekstas anotuotas naudojant „Jablonskio“ standartą. 1 Šis šis PRON įv.vyr.vns.V. Case=Nom|Gender=Masc|Number=Sing _ _ _ _ 2 tekstas tekstas NOUN dkt.vyr.vns.V. Case=Nom|Gender=Masc|Number=Sing _ _ _ _ 3 anotuotas anotuoti VERB vksm.dlv.neveik.būt.vyr.vns.V. Case=Nom|Gender=Masc|Number=Sing|Tense=Past|VerbForm=Part|Voice=Pass _ _ _ _ 4 naudojant naudoti VERB vksm.pad.es. Tense=Pres|VerbForm=Ger _ _ _ _5 „ „ PUNCT skyr. _ _ _ SpaceAfter=No 6 Jablonskio Jablonskis PROPN dkt.tikr.pvrd.vyr.vns.K. Case=Gen|Gender=Masc|NameType=Sur|Number=Sing _ _ _ SpaceAfter=No7 “ “ PUNCT skyr. _ _ _ _8 standartą standartas NOUN dkt.vyr.vns.G. Case=Acc|Gender=Masc|Number=Sing _ _ _ SpaceAfter=No 9 . . PUNCT skyr. _ _ _ _ |
Sketch Engine | <doc> <p> <s> Šis šis įv.vyr.vns.V. šis-p tekstas tekstas dkt.vyr.vns.V. tekstas-n anotuotas anotuoti vksm.dlv.neveik.būt.vyr.vns.V. anotuoti-v naudojant naudoti vksm.pad.es. naudoti-v „ „ skyr. „-t <g/> Jablonskio Jablonskis dkt.tikr.pvrd.vyr.vns.K. Jablonskis-n <g/> “ “ skyr. “-t standartą standartas dkt.vyr.vns.G. standartas-n <g/> . . skyr. .-t </s> </p> </doc> |
|
NoSketch Engine | <doc> <p> <s> Šis įv.vyr.vns.V. šis tekstas dkt.vyr.vns.V. tekstas anotuotas vksm.dlv.neveik.būt.vyr.vns.V. anotuoti naudojant vksm.pad.es. naudoti „ skyr. „ <g/> Jablonskio dkt.tikr.pvrd.vyr.vns.K. Jablonskis <g/> “ skyr. “ standartą dkt.vyr.vns.G. standartas <g/> . skyr. . </s> </p> </doc> |