Tekstynas
Tekstynas (angl. corpus, pl. corpora) (kalbotyra) – plačiąja prasme tekstynas yra tam tikru būdu organizuota tekstų sankaupa, pritaikyta kiekybinei ir (arba) kokybinei analizei, paprastai saugoma elektroniniu formatu.
Tekstynai plačiai naudojami kalbotyroje – tekstynų lingvistikoje, sociolingvistikoje, leksikografijoje, dialektologijoje, istorinėje kalbotyroje, diskurso analizėje, pokalbio analizėje – kur reikalinga remtis realios vartosenos duomenimis. Tekstynai naudojami statistinei kalbos faktų analizei, hipotezių testavimui, renkant pavartojimo atvejus, nustatant kolokacijas (dažnai vartojamus žodžių junginius) ar tikrinant kalbos taisyklių pagrįstumą. Tekstynų duomenimis taip pat remiasi kompiuterinė lingvistika, natūralios kalbos atpažinimo ir automatinio vertimo įrankiai[1].
Tekstynų rūšys
[redaguoti | redaguoti vikitekstą]Tipologiškai tekstynus galima skirstyti pagal:
- komunikacijos kanalą – į rašytinės kalbos tekstynus ir sakytinės kalbos tekstynus;
- pateikimo ir saugojimo formą – į tekstinius ir multimodalinius (sudarytus iš garso ar vaizdo įrašų ir jų transkripcijų);
- pagal kalbų skaičių – į vienkalbius, dvikalbius, keliakalbius tekstynus, paralelinius (lygiagrečiuosius) tekstynus;
- pagal kalbos anotavimą – į neanotuotus, morfologiškai, fonetiškai ar sintaksiškai anotuotus tekstynus;
- pagal aprėptį – į bendruosius tekstynus ir specializuotus tekstynus[2];
- pagal reprezentuojamos kalbos pobūdį – į sinchroninius tekstynus ir diachroninius tekstynus[3].
Tekstynų anotavimas
[redaguoti | redaguoti vikitekstą]Siekiant palengvinti lingvistinę analizę, tekstynai anotuojami, t. y. tam tikrais sutartiniais ženklais ar santrumpomis koduojama įvairi lingvistinė informacija. Pavyzdžiui, pažymima kurie žodžiai priklauso kuriai kalbos daliai (veiksmažodžiams, daiktavardžiams, būdvardžiams, prieveiksmiams ir pan.) arba nurodomos jų lemos, pagrindinės formos (veiksmažodžių bendratis, daiktavardžių ar būdvardžių vienaskaitos vardininkas ir kt.). Kai kurie tekstynai rengiami taikant dar sudėtingesnius struktūrinės analizės lygmenis – nustatoma ir anotuojama morfologinė žodžių sandara, sintaksinė sakinio struktūra, semantinė ir pragmatinė sakinio struktūra.
Sakytinės kalbos tekstynuose taip pat gali būti anotuojama fonetinė informacija (kalbos garsų kiekybė ir kokybė, pavyzdžiui, balsių ilgumas ar įtemptumas, priebalsių aspiracija ar palatalizacija), diskurso lygmens elementai (pauzės, pertraukimai, persidengimai, pasitaisymai), ekstralingvistinė informacija (juokas, gestai), intonacija (kylanti, krintanti) ir pan. Anotuojamų elementų pasirinkimas ir anotavimo detalumas priklauso nuo to, kokiu tikslu rengiamas konkretus tekstynas.
Sakytinės kalbos tekstynai
[redaguoti | redaguoti vikitekstą]Nors tekstynuose paprastai saugomi rašytinės kalbos tekstai, tačiau transkribavus garso įrašus gali būti sukurti sakytinės kalbos tekstynai.
Sakytinės kalbos tekstynai paprastai būna multimodaliniai, t. y. jie apima duomenų bazes su vaizdo ar garso įrašais ir jų transkripcijomis, kartais šalia pateikiami ir fonetinės analizės (PRAAT) failai. Sakytinės kalbos tekstynai būna dviejų rūšių – skaitomos sakytinės kalbos ir spontaniškos sakytinės kalbos. Į pirmą grupę įeina perskaitytos knygų ištraukos, televizijos ar radijo naujienų pranešimai, perskaityti žodžių sąrašai, skaičių sekos. Į antrąją, spontaniškos sakytinės kalbos, grupę įeina įvairūs dialogai ir pokalbiai tarp dviejų ir daugiau asmenų, įrašyti žmonių pasakojimai, žemėlapių užduotys (kai vieno asmens prašoma pagal tam tikrą žemėlapį nupasakoti kelią kitam asmeniui) ir kt. Atskirą grupę sudaro negimtakalbių sakytinės kalbos tekstynai, kurie teikia duomenų apie užsienietiškų akcentų įvairovę.
Tekstynai Lietuvoje
[redaguoti | redaguoti vikitekstą]- Dabartinės lietuvių kalbos tekstynas (140,9 mln. žodžių)
- Dabartinės lietuvių kalbos tekstynas (anotuotas) (208 mln. žodžių)
- Lietuvių mokslo kalbos tekstynas CorALit (9 mln. žodžių)
- Lygiagretusis tekstynas (anglų, lietuvių, čekų kalbomis; iš viso apie 3 mln. žodžių)
- LILA lygiagretusis tekstynas (lietuvių, latvių kalbomis; iš viso apie 8 mln. žodžių)
- Sakytinės lietuvių kalbos tekstynas (apie 230 tūkst. žodžių)
- Sakytinės žiniasklaidos tekstynas 1960–2010 m. Archyvuota kopija 2014-04-15 iš Wayback Machine projekto. (apie 300 tūkst. žodžių)
- SACODEYL tekstynas (13–18 m. jaunuolių sakytinės kalbos tekstynas – metodinė priemonė)
- Sakytinės Vilniaus kalbos tekstynas
- Tarmių tekstyno duomenų bazė Archyvuota kopija 2014-01-31 iš Wayback Machine projekto.
- .lt corpus (automatiškai iš lietuviško interneto šaltinių sugeneruotas tekstynas)
Literatūra
[redaguoti | redaguoti vikitekstą]- Marcinkevičienė, Rūta. 2000. Tekstynų lingvistika (teorija ir praktika) (Corpus Linguistics in Theory and Practice). Darbai ir Dienos 24. p. 7-64.
Nuorodos
[redaguoti | redaguoti vikitekstą]Šaltiniai
[redaguoti | redaguoti vikitekstą]- ↑ Crystal, David. 2003. A Dictionary of Linguistics and Phonetics. Oxford: Blackwell, p. 112.
- ↑ Kompiuterinės lingvistikos centras – http://donelaitis.vdu.lt/main.php?id=4 Archyvuota kopija 2012-08-17 iš Wayback Machine projekto. (tikrinta 2013-05-12).
- ↑ Ibid.