Tekstynas

Straipsnis iš Vikipedijos, laisvosios enciklopedijos.
Peršokti į: navigaciją, paiešką
 Broom icon.svg  Šį puslapį ar jo dalį reikia sutvarkyti pagal Vikipedijos standartus.
Jei galite, sutvarkykite; apie sutvarkymą galite pranešti specialiame Vikipedijos projekte.

Tekstynas (kalbotyra) – plačiąja prasme tekstynas yra tam tikru būdu organizuota tekstų sankaupa, pritaikyta kiekybinei ir (arba) kokybinei analizei, paprastai saugoma elektroniniu formatu.

Tekstynai plačiai naudojami kalbotyroje – tekstynų lingvistikoje, sociolingvistikoje, leksikografijoje, dialektologijoje, istorinėje kalbotyroje, diskurso analizėje, pokalbio analizėje , – kur reikalinga remtis realios vartosenos duomenimis. Tekstynai naudojami statistinei kalbos faktų analizei, hipotezių testavimui, renkant pavartojimo atvejus, kolokacijas (dažnai vartojamus žodžių junginius) ar tikrinant kalbos taisyklių pagrįstumą. Tekstynų duomenimis taip pat remiasi kompiuterinė lingvistika, natūralios kalbos atpažinimo ir automatinio vertimo įrankiai[1].

Tekstynų rūšys[taisyti | redaguoti kodą]

Tipologiškai tekstynus galima skirstyti pagal:

  • komunikacijos kanalą – į rašytinės kalbos tekstynus ir sakytinės kalbos tekstynus;
  • pateikimo ir saugojimo formą – į tekstinius ir multimodalinius (sudarytus iš garso ar vaizdo įrašų ir jų transkripcijų);
  • pagal kalbų skaičių – į vienkalbius, dvikalbius, keliakalbius tekstynus, paralelinius (lygiagrečiuosius) tekstynus;
  • pagal kalbos anotavimą – į neanotuotus, morfologiškai, fonetiškai ar sintaksiškai anotuotus tekstynus;
  • pagal aprėptį – į bendruosius tekstynus ir specializuotus tekstynus[2];
  • pagal reprezentuojamos kalbos pobūdį – į sinchroninius tekstynus ir diachroninius tekstynus[3].

Tekstynų anotavimas[taisyti | redaguoti kodą]

Siekiant palengvinti lingvistinę analizę, tekstynai anotuojami, t. y. tam tikrais sutartiniais ženklais ar santrumpomis koduojama įvairi lingvistinė informacija. Pavyzdžiui, pažymima kurie žodžiai priklauso kuriai kalbos daliai (veiksmažodžiams, daiktavardžiams, būdvardžiams, prieveiksmiams ir pan.) arba nurodomos jų lemos, pagrindinės formos (veiksmažodžių bendratis, daiktavardžių ar būdvardžių vienaskaitos vardininkas ir kt.). Kai kurie tekstynai rengiami taikant dar sudėtingesnius struktūrinės analizės lygmenis – nustatoma ir anotuojama morfologinė žodžių sandara, sintaksinė sakinio struktūra, semantinė ir pragmatinė sakinio struktūra. Sakytinės kalbos tekstynuose taip pat gali būti anotuojama fonetinė informacija (kalbos garsų kiekybė ir kokybė, pavyzdžiui, balsių ilgumas ar įtemptumas, priebalsių aspiracija ar palatalizacija), diskurso lygmens elementai (pauzės, pertraukimai, persidengimai, pasitaisymai), ekstralingvistinė informacija (juokas, gestai), intonacija (kylanti, krintanti) ir pan. Anotuojamų elementų pasirinkimas ir anotavimo detalumas priklauso nuo to, kokiu tikslu rengiamas konkretus tekstynas.

Sakytinės kalbos tekstynai[taisyti | redaguoti kodą]

Sakytinės kalbos tekstynai paprastai būna multimodaliniai, t. y. jie apima duomenų bazes su vaizdo ar garso įrašais ir jų transkripcijomis, kartais šalia pateikiami ir fonetinės analizės (PRAAT) failai. Sakytinės kalbos tekstynai būna dviejų rūšių – skaitomos sakytinės kalbos ir spontaniškos sakytinės kalbos. Į pirmą grupę įeina perskaitytos knygų ištraukos, televizijos ar radijo naujienų pranešimai, perskaityti žodžių sąrašai, skaičių sekos. Į antrąją, spontaniškos sakytinės kalbos, grupę įeina įvairūs dialogai ir pokalbiai tarp dviejų ir daugiau asmenų, įrašyti žmonių pasakojimai, žemėlapių užduotys (kai vieno asmens prašoma pagal tam tikrą žemėlapį nupasakoti kelią kitam asmeniui) ir kt. Atskirą grupę sudaro negimtakalbių sakytinės kalbos tekstynai, kurie teikia duomenų apie užsienietiškų akcentų įvairovę.

Tekstynai Lietuvoje[taisyti | redaguoti kodą]

Šaltiniai[taisyti | redaguoti kodą]

  1. Crystal, David. 2003. A Dictionary of Linguistics and Phonetics. Oxford: Blackwell, p. 112.
  2. Kompiuterinės lingvistikos centras – http://donelaitis.vdu.lt/main.php?id=4 (tikrinta 2013-05-12).
  3. Ibid.

Nuorodos[taisyti | redaguoti kodą]