Tekstynai (angl. corpus (vns.), corpora (dgs.)) – tai didžiuliai elektroninių tekstų rinkiniai, kurie paprastai naudojami tirti natūralios kalbos vartoseną (plačiau apie tekstynus lietuvių kalba žr. žurnalo „Darbai ir dienos“ 24 nr. (2000 m.).
KLC centre sukaupti šie tekstynai:
Vienkalbiai
Tekstynas | Kalba | Anotavimas | Apimtis |
---|---|---|---|
Dabartinės lietuvių kalbos tekstynas | lietuvių | – | 140,9 mln. žodžių |
CORPUS.VDU.LT | lietuvių | morfologiškai | 208,4 mln. žodžių |
MATAS | lietuvių | morfologiškai | 1,6 mln. žodžių |
ALKSNIS 2.0 | lietuvių | sintaksiškai | 2355 sakiniai |
ALKSNIS 3.0 | lietuvių | sintaksiškai | 3643 sakiniai |
DELFI tekstynas | lietuvių | morfologiškai | 70 mln. žodžių |
Dvikalbiai lygiagretūs
Tekstynas | Kalba | Anotavimas | Apimtis |
---|---|---|---|
Lygiagretus tekstynas | anglų-lietuvių | – | 2,025 mln. žodžių |
„ | lietuvių-anglų | – | 0,061 mln. žodžių |
„ | čekų-lietuvių | – | 0,536 mln. žodžių |
„ | lietuvių-čekų | – | 0,021 mln. žodžių |
LILA | lietuvių-latvių-lietuvių | – | 9,360 mln. žodžių |
Lygiagretūs tekstynai – tai originalūs tekstai ir jų vertimų tekstai, sulygiagretinti sakinių lygmeniu. Lygiagrečiuosiuose tekstynuose gali būti sulygiagretinti dviejų ar daugiau kalbų tekstai. Paprastai norint sukaupti lygiagrečiuosius tekstynus reikia skirti daugiau laiko nei sudarant vienakalbius ar palyginamuosius tekstynus, nes neužtenka tik surinkti ir sutvarkyti elektroninius tekstus, bet juos reikia sulygiagretinti.
Anotuoti tekstynai – tai tekstynai, kuriuose struktūriniai, gramatiniai ar semantiniai kalbiniai požymiai pažymimi specialiomis metakalbinėmis pažymomis (arba anotacijomis).