Morphological tagset JABLONSKIS

Version 2.0

2024-01-13

Erika Rimkutė, Agnė Bielinskienė, Loïc Boizou, Andrius Utka, Virginijus Dadurkevičius

Institute of Digital Resources and Interdisciplinary Research (SITTI), Vytautas Magnus university

The information is also accessible in CLARIN-LT repository: https://clarin.vdu.lt/xmlui/handle/20.500.11821/56.

The tagset was firstly used in 2019 at The Centre of Computational Linguistics in the preparation of syntactically annotated corpus ALKSNIS. It was later adapted for annotation of other corpora and in 2023 it was implemented in the morphological analysis tool Morfuoklis.

Contents

Principles
Table 1. Morphological categories and tags
Table 2. Ordering and examples
Table 3. Examples of annotated text in different frameworks

Principles

  • The JABLONSKIS standard is prepared based on the abbreviations of parts of speech and other grammatical categories commonly used in Lithuanian linguistic works (e.g., dictionaries, grammars) (see Table 1).
  • Tags a connected by a period without space, e.g..: dkt.tikr.mot.vns.Vt.
  • The first element designates a part of speech. The following categories are treated as parts of speech: punctuation marks (skyr.); acronym (acr.) – when the abbreviation consists of the first letters of the name, e.g.: VDU, NATO, BVP; abbreviation (sutr.), consisting of one or more letters of the word, e.g.: Eur, m., m, gerb.; foreign language word (užs.); other units (kt.), e.g.: e-mail, website link, letter names (vitamin A, group B), letter numbering (a), b), c)…; i), ii), iii)…).
  • Only a marked category member is marked, when grammatical category is binary. For example, proper nouns are marked (dkt.tikr.), while common nouns (dkt.) not marked.
  • When forming a full tag of morphological categories, the arrangement order must be followed (see Table 2).
  • JABLONSKIS can be used in other annotation frameworks, e.g., Universals dependencies (CoNLL-U), SketchEngine or NoSketch (see Table 3).

 

Table 1. Morphological categories and tags

Category Elements of the Category (LT) Elements of the Category (EN) Tag
POS and other categories daiktavardis noun dkt.
veiksmažodis verb vksm.
būdvardis adjective bdv.
įvardis pronoun įv.
skaitvardis numeral sktv.
prieveiksmis adverb prv.
jaustukas interjection išt.
ištiktukas onomatopoeia jng.
dalelytė particle dll.
prielinksnis preposition prl.
jungtukas conjunction jst.
akronimas abbreviation sutr.
sutrumpinimas acronym akr.
samplaikos tęsinys punctuation skyr.
užsienio kalbos žodis foreign word užs.
kiti other kt.
Noun type tikrinis proper tikr.
Proper noun subtype vardas first name vrd.
pavardė surname pvrd.
vietovardis geographical name vtvrd.
Reflexiveness  sangrąžinis reflexive sngr.
Verb polarity  neigiamas negative neig.
Language standard substandartinis substandard substnd.
vulgarizmas vulgar vulg.
Numeral type kiekinis pagrindinis cardinal main kiek.
kiekinis kuopinis cardinal collective kuopin.
kiekinis dauginis cardinal multiple daugin.
kelintinis ordinal kelint.
Numeral form  arabiškas Arabic arab.
romėniškas Roman rom.
mišrus mixed numeral (e.g. 2-oji, 50-ies) mišr.
žodžiu užrašytas literal raid.
Gender vyriškoji masculine vyr.
moteriškoji feminine mot.
bendroji common bendr.
bevardė neuter bev.
Number  vienaskaita singular vns.
daugiskaita plural dgs.
dviskaita dual dvisk.
Case vardininkas nominative V.
kilmininkas genitive K.
naudininkas dative N.
galininkas accusative G.
įnagininkas instrumental Įn.
vietininkas locative Vt.
šauksmininkas vocative Š.
iliatyvas illative Il.
Definiteness įvardžiuotinis pronominal įvardž.
Possessive pronoun form savybinis possessive savyb.
Degree  aukštėlesnysis comparative diminutive aukštėl.
aukštesnysis comparative aukšt.
aukščiausiasis superlative aukšč.
nelyginamasis positive nelygin.
Verb form  asmenuojamoji conjugated asm.
bendratis infinitive bndr.
dalyvis participle dlv.
padalyvis gerund pad.
pusdalyvis half particle pusd.
būdinys verbal adverb būdn.
siekinys supine siekn.
Participle type veikiamoji active veik.
neveikiamoji passive neveik.
reikiamybės necessity reik.
 

Mood

tiesioginė indicative tiesiog.
liepiamoji imperative liep.
tariamoji subjective tar.
geidžiamoji optative geidž.
 

Tense

esamasis present es.
būtasis past būt.
būtasis kartinis past būt-k.
būtasis dažninis past frequentative būt-d.
būsimasis future būs.
Person pirmasis I 1.
antrasis II 2.
trečiasis III 3.
Shortened form sutrumpintas variantas shortened trump.
ilgasis variantas long ilg.
Usage type reta, nevartotina forma rare vrnt.

Table 2. Ordering and examples

Part of speech Ordering of tags Pavyzdžiai
Noun noun type, proper noun subtype, reflexiveness, gender, number case, language standard, shortened form, usage type Lietuvos: dkt.tikr.vtvrd.mot.vns.K.
Gediminas: dkt.tikr.vrd.vyr.vns.V.
Jonaiti: dkt.tikr.pvrd.vyr.vns.Š.
vyriausybė: dkt.mot.vns.V.
įsipareigojimų: dkt.sngr.vyr.dgs.K.
žmonėm: dkt.vyr.dgs.N.trump.
šūdas: dkt.vyr.vns.V.substnd.
ofisas: dkt.vyr.vns.V.substnd.
pidaras: dkt.vyr.vns.V.vulg.
kelyj: dkt.vyr.vns.Vt.trump.vrnt.
Adjective degree, definiteness, gender, number, case, language standard, shortened form, usage type naudingas: bdv.nelygin.vyr.vns.V.
gerojo: bdv.nelygin.įvardž.vyr.vns.K.
aukščiausiasis: bdv.aukšč.įvardž.vyr.vns.V.
geriem: bdv.nelygin.vyr.dgs.N.trump.
šipuotos: bdv.nelygin.mot.dgs.V.substnd.
Pronoun definiteness, gender, number, case, language standard, shortened form, usage type kurio: įv.vyr.vns.K.
tasai: įv.įvardž.vyr.vns.V.
savo (lema savęs): įv.savyb.K.
tavim: įv.vns.Įn.trump.
mudu: įv.vyr.dvisk.V.
kožnu: įv.vyr.vns.Įn.substnd.
viens: įv.vyr.vns.V.trump.vrnt.
Numeral numeral form, numeral type, definiteness, gender, number, case, language standard, shortened form, usage type penki: sktv.raid.kiek.vyr.dgs.V.
penkeri: sktv.raid.daugin.vyr.dgs.dgs.V.
penketą: sktv.raid.kuopin.vyr.vns.G.
pirmasis: sktv.raid.kelint.įvardž.vyr.vns.V.
pirmiem: sktv.raid.kelint.vyr.dgs.N.trump.
tūkstantom: sktv.raid.kelint.mot.dgs.Įn.trump.vrnt.
kem: sktv.raid.kiek.substnd.
704: sktv.arab.
2-ojo: sktv.mišr.kelint.įvardž.vyr.vns.K.
XXI: sktv.rom.
Verb conjugated forms: verb form (asm.), verb polarity, reflexiveness, mood, tense, number, person, language standard, shortened form, usage type buvo: vksm.asm.tiesiog.būt-k.3.
tebūnie: vksm.asm.geidž.
nėra: vksm.asm.neig.tiesiog.es.3.
nusikalto: vksm.asm.sngr.tiesiog.būt-k.3.
užeikit: vksm.asm.liep.dgs.2.
bliuznijo: vksm.asm.tiesiog.būt-k.3.substnd.
kalbėtume: vksm.asm.tar.dgs.1.trump.
suptute: vksm.asm.tar.dgs.2.trump.vrnt.
participles: verb form (dlv.), verb polarity, reflexiveness, participle type, tense, degree, definiteness, gender, number, case, language standard, shortened form, usage type numatyti: vksm.dlv.neveik.būt.vyr.dgs.V.
suaugusieji: vksm.dlv.veik.būt-k.įvardž.vyr.dgs.V.
buvusį: vksm.dlv.veik.būt-k.vyr.vns.G.
pasislėpusi: vksm.dlv.sngr.veik.būt-k.mot.vns.V.
mylimiausias: vksm.dlv.neveik.es.aukšč.vyr.vns.V.
mylimasai: vksm.dlv.neveik.es.įvardž.vyr.vns.V.vrnt.
frizuota: vksm.dlv.neveik.būt.mot.vns.V.substnd.
veršią: vksm.dlv.veik.būs.mot.dgs.V.trump.
gerunds: verb form (pad.), verb polarity, reflexiveness, tense, language standard neatsisukant: vksm.pad.neig.sngr.es.
atburzgiant: vksm.pad.es.
bevelijant: vksm.pad.es.substnd.
half participles: verb form (pusd.), verb polarity, reflexiveness, gender, number, language standard pradėdami: vksm.pusd.vyr.dgs.
nedelsdamas: vksm.pusd.neig.vyr.vns.
prasimanydamas: vksm.pusd.sngr.vyr.vns.
mozodamas: vksm.pusd.vyr.vns.substnd.
infinitives: verb form (bndr.), verb polarity, reflexiveness, language standard, shortened form, usage type išlaikyti: vksm.bndr.
pasišnekėti: vksm.bndr.sngr.
nepaslysti: vksm.bndr.neig.
bėgt: vksm.bndr.trump.
arenduoti: vksm.bndr.substnd.
verbal adverbs: verb forms (būdn.), verb polarity, language standard bėgte: vksm.būdn.
nebėgte: vksm.būdn.neig.
perste: vksm.būdn.substnd.
supines: verb form (siekn.), verb polarity, language standard darytų: vksm.siekn.
smožytų: vksm.siekn.substnd.
Adverb degree, language standard, shortened form, usage type dažnai: prv.nelygin.
daugiau: prv.aukšt.
daugiausia: prv.aukšč.
daugiausiai: prv.aukšč.ilg.
iš karto: prv.nelygin.
ubagiškai: prv.nelygin.substnd.
Preposition governing case, language standard link: prl.K.
apie: prl.G.
su: prl.Įn.
apart: prl.K.substnd.

 

Table 3. Examples of annotated text in different frameworks

Input text Standard Annotated text
Šis tekstas anotuotas naudojant „Jablonskio“ standartą. CoNLL-U # sent_id = 1
# text = Šis tekstas anotuotas naudojant „Jablonskio“ standartą.
1    Šis               šis              PRON    įv.vyr.vns.V.                              Case=Nom|Gender=Masc|Number=Sing       _                           _                           _      _
2    tekstas         tekstas       NOUN   dkt.vyr.vns.V.                            Case=Nom|Gender=Masc|Number=Sing       _                           _                           _      _
3    anotuotas     anotuoti                                                VERB                   vksm.dlv.neveik.būt.vyr.vns.V.      Case=Nom|Gender=Masc|Number=Sing|Tense=Past|VerbForm=Part|Voice=Pass                     _                           _                           _                           _
4    naudojant     naudoti      VERB   vksm.pad.es.                               Tense=Pres|VerbForm=Ger                         _                           _                           _      _5     „                  „                PUNCT skyr.                                           _     _                           _                           SpaceAfter=No
6    Jablonskio    Jablonskis  PROPN dkt.tikr.pvrd.vyr.vns.K.                Case=Gen|Gender=Masc|NameType=Sur|Number=Sing             _                           _      _                  SpaceAfter=No7     “                 “                 PUNCT  skyr.                                                                                                                                                                           _                 _                _            _8     standartą      standartas   NOUN   dkt.vyr.vns.G.                             Case=Acc|Gender=Masc|Number=Sing       _                           _                           _       SpaceAfter=No
9    .                   .                 PUNCT  skyr.                                                                                                                                                                           _                  _                _            _
Sketch Engine <doc>
<p>
<s>
Šis               šis               įv.vyr.vns.V.                               šis-p
tekstas         tekstas        dkt.vyr.vns.V.                             tekstas-n
anotuotas     anotuoti      vksm.dlv.neveik.būt.vyr.vns.V.     anotuoti-v
naudojant     naudoti       vksm.pad.es.                               naudoti-v
„                  „                 skyr.                                          „-t
<g/>
Jablonskio   Jablonskis   dkt.tikr.pvrd.vyr.vns.K.                Jablonskis-n
<g/>
“                  “                 skyr.                                          “-t
standartą      standartas    dkt.vyr.vns.G.                             standartas-n
<g/>
.                   .                  skyr.                                          .-t
</s>
</p>
</doc>
NoSketch Engine <doc>
<p>
<s>
Šis               įv.vyr.vns.V.                               šis
tekstas         dkt.vyr.vns.V.                             tekstas
anotuotas     vksm.dlv.neveik.būt.vyr.vns.V.                     anotuoti
naudojant     vksm.pad.es.                               naudoti
„                  skyr.                                          „
<g/>
Jablonskio   dkt.tikr.pvrd.vyr.vns.K.                Jablonskis
<g/>
“                  skyr.                                          “
standartą      dkt.vyr.vns.G.                             standartas
<g/>
.                   skyr.                                          .
</s>
</p>
</doc>