Automatinis vertimas

Straipsnis iš Vikipedijos, laisvosios enciklopedijos.
Peršokti į: navigaciją, paiešką

Automatinis vertimas - teksto vertimas iš vienos natūralios kalbos į kitą, kurį automatiškai atlieka kompiuteris, naudodamas specializuotą programinę įrangą.

Automatinius vertimus tiria atskira kompiuterinės lingvistikos sritis.

Paprasčiausias automatinio vertimo būdas - tiesioginis vienos natūralios kalbos žodžių keitimą kitos kalbos žodžiais, toks būdas buvo būdingas ankstyvosioms vertimo sistemoms. Naudojant įvairių technikų rinkinius galima bandyti sudėtingesnius vertimus, apimant skirtingas lingvistines tipologijas, frazių atpažinimą, idiomų vertimą bei anomalijų izoliaciją.

Šiuolaikinė automatinio vertimo programinė įranga dažnai leidžia nurodyti verčiamo teksto sritį ar profesiją (pvz., oro prognozės), taip sumažinant galimų keitimų sritį ir pagerinant rezultatą. Tokia technika ypač efektyvi tose srityse, kurioms būdinga formali ar šabloniška kalba. Todėl automatinis vertimas labiau tinkamas versti valstybinius ar teisinius dokumentus, nei pokalbius ar mažai standartizuotą tekstą.

Pagerinti rezultatų kokybę taip pat galima įsikišant žmogui – kai kurios sistemos verčia tekstą daug tiksliau, jei vartotojas aiškiai pažymi, kurie žodžiai tame tekste yra pavadinimai. Naudojant šias technikas įrodyta automatinio vertimo nauda asistuojant vertėjams ir kai kuriais atvejais net pilnai panaudojant jų pateiktą rezultatą. Visgi tokios sistemos dar negali pateikti tokio pat rezultato, kaip žmogus vertėjas, ypač kai verčiamas tekstas yra kasdieninė kalba.

Įvadas[taisyti | redaguoti kodą]

Vertimo procesas gali būti apibrėžtas kaip:

  1. Pirminio teksto prasmės iššifravimas;
  2. Šios reikšmės perkodavimas į galutinę kalbą.

Už šios, tariamai paprastos procedūros, slypi sudėtinga pažinimo operacija. Kad iššifruotų pirminio teksto prasmę, vertėjas turi suprasti ir išanalizuoti visas teksto ypatybes, privalo gerai žinoti tos kalbos gramatiką, semantiką, sintaksę, idiomas ir t. t. bei kalbėtojų kultūrą. Tokias pat žinias vertėjas privalo turėti ir apie kalbą, į kurią verčia pirminį tekstą.

Čia ir glūdi automatinio vertimo iššūkis: kaip užprogramuoti kompiuterį, kad šis „suprastų“ tekstą kaip žmogus ir „sukurtų“ naują tekstą kita kalba, kuris „skambėtų“ taip, tarsi jį būtų parašęs žmogus.

Ši problema gali būti sprendžiama įvairiais būdais.

Požiūriai[taisyti | redaguoti kodą]

Automatinis vertimas gali naudoti metodą, paremtą lingvistinėmis taisyklėmis. Tai reiškia, kad žodžiai bus verčiami lingvistiniu būdu – patys tinkamiausi adresato kalbos žodžiai pakeičia atitinkamus žodžius pirminėje kalboje.

Dažnai diskutuojama dėl to, kad automatinio vertimo sėkmė priklauso nuo to ar pirmiausia bus išspręsta natūralios kalbos supratimo problema. Bendromis taisyklėmis paremti metodai išnagrinėja tekstą, dažniausiai sukurdami tarpinį, simbolinį vaizdą, iš kurio sugeneruojamas adresato kalbos tekstas. Pagal tarpinio vaizdo prigimtį, toks požiūris apibūdinamas kaip „vidinės kalbos automatinis vertimas“ arba „perkėlimu paremtas automatinis vertimas“. Šie metodai reikalauja plataus leksikono, turinčio morfologinės, semantinės ir sintaksinės informacijos bei didelio taisyklių rinkinį.

Gavusios pakankamai duomenų automatinio vertimo programos dažnai pakankamai gerai atlieka darbą ir pateikia artimą variantą to, kas buvo parašyta kita kalba. Sunkumas yra gauti pakankamai reikiamų duomenų padedančių atitinkamam metodui. Pavyzdžiui, didelis įvairiakalbis rinkinys duomenų, reikalingų statistiniams metodams, nebūtinas gramatika paremtiems metodams. Tačiau gramatiniai metodai reikalauja patyrusio lingvisto tiksliai sudaryti gramatikai, kurią jie naudoja.

Versti tarp labai panašių kalbų naudojama technika, vadinama paviršutiniško perdavimo automatiniu vertimu.

Paremtas žodynu[taisyti | redaguoti kodą]

Automatinis vertimas gali naudoti metodą paremtą žodyno įrašais. Tai reiškia, kad žodžiai bus verčiami kaip žodyne – žodis po žodžio, dažniausiai be jokio prasminio jų susiejimo.

Statistinis[taisyti | redaguoti kodą]

Statistinis automatinis vertimas bando sugeneruoti vertimus naudodamas statistinius metodus paremtus dvikalbio teksto rinkiniais. Jei tokie rinkiniai egzistuoja, pasiekiami nuostabūs rezultatai verčiant panašaus tipo tekstus. Tačiau tokių rinkinių dar labai mažai. Pirmoji statistinė automatinė vertimo programa buvo CANDIDE sukurta IBM. Šiuo metu Google naudoja SYSTRAN, bet ateityje siekia visas mašinas pervesti prie statistinio metodo. Neseniai jie pagerino savo vertimo galimybes įvesdami apie 200 milijardų žodžių iš Jungtinių Tautų šaltinių. Dėl to vertimo tikslumas smarkiai pagerėjo.

Paremti pavyzdžiais[taisyti | redaguoti kodą]

Pavyzdžiais paremtas automatinio vertimo būdas dažnai apibūdinamas pagal dvikalbio rinkinio naudojimą veikimo metu. Pagrinde tai vertimas pagal analogijas ir gali būti laikomas atvejais paremtu automatinio vertimo variantu.

Vidinės kalbos[taisyti | redaguoti kodą]

Vidinės kalbos automatinis vertimas yra vienas iš taisyklėmis paremtų automatinio vertimo variantų. Šiuo požiūriu pirminė kalba transformuojama į vidinę kalbą, o po to sugeneruojamas tekstas adresato kalba.

Esminiai klausimai[taisyti | redaguoti kodą]

Dviprasmiškumo pašalinimas[taisyti | redaguoti kodą]

Žodžio prasmės dviprasmiškumo pašalinimas reiškia tinkamo vertinio paiešką, kai žodis gali turėti daugiau nei viena reikšmę. Pirmą kartą šią problemą iškėlė Yehoshua Bar-Hillel 1950 m. Jis pažymėjo, kad be „universalios enciklopedijos“ mašina niekada nesugebės atsirinkti tarp dviejų žodžio reikšmių. Šiais laikais sukurta daug metodų spręsti šiai problemai. Jie gali būti padalinti į paviršutiniškus ir gilius metodus.

Paviršutiniški metodai nekreipia dėmesio į teksto prasmę. Jie paprasčiausiai panaudoja statistinius metodus aplinkiniams žodžiams. Giluminiai metodai daro visapusišką žodžio prasmės prielaidą. Kol kas sėkmingiau naudojami paviršutiniški metodai.

Istorija[taisyti | redaguoti kodą]

Automatinio vertimo istorija prasidėjo šeštajame dešimtmetyje. Džordžtauno eksperimentas (1954) apėmė visiškai automatizuotą daugiau nei 60 rusiškų sakinių vertimą į anglų kalbą. Eksperimentas buvo labai sėkmingas ir pradėjo automatinio vertimo tyrinėjimų finansavimo erą. Mokslininkai teigė, kad per 3-5 metus automatinis vertimas bus išspręsta problema. Tačiau tikrasis progresas buvo kur kas lėtesnis ir po ALPAC ataskaitos (1966), kuri parodė, kad dešimtmetį trukęs tyrimas nepateisino vilčių, finansavimas buvo smarkiai sumažintas. Devintajame dešimtmetyje, kai skaičiavimo galia padidėjo ir tapo pigesnė, vėl buvo skirta daugiau dėmesio statistiniams automatinio vertimo modeliams.

Lietuvių kalbai automatinio vertimo sistemos pradėtos kurti dar 2002 m. Kauno technologijos universiteto (KTU) magistro M. Žemaičio tuomet sukurta LAAL anglų-lietuvių kalbos vertimo programa dar neatliko visų vertimui reikalingų funkcijų ir neturėjo tinkamo morfologijos įrankio. 2002 m. G. Barisevičiaus, E. Černio ir A. Veiverio pradėta kurti automatinio vertimo žodynų duomenų valdymo bazė. 2004 m. šis projektas G. Barisevičiaus ir E. Černio perprojektuotas ir sukurtas patobulintas šios sistemos variantas, bei pateiktas kaip baigiamasis bakalauro darbas. 2005 - 2006 m. Valstybinės lietuvių kalbos komisijos (VLLK) užsakymu pradėta kurti automatinio vertimo sistema iš anglų į lietuvių kalbą. Projektui vadovavo KTU doc. B. Tamulynas, o projektavimo ir kūrimo darbus atliko G. Barisevičius. 2006 m. buvo pateiktas galutinis taisyklėmis paremtas vertimo sistemos variantas. Dėl per menkos žodynų bazės (~10 tūkst. žodžių) vertimas nebuvo tikslus. Tiesa, sistema turėjo savybę nudaugiareikšminti daugiaprasmius vertimus ir surasti labiausiai tinkamą. Šios problemos sprendimas buvo pateiktas G. Barisevičiaus baigiamajame magistro darbe. 2007 m. pabaigoje, finansuojama Europos Sąjungos lėšomis, Vytauto Didžiojo universiteto sukurta automatinio vertimo sistema TWAS, kuri naudoja PROMPT vertimo varikliuką. Galima teigti, kad didžiąja dalimi sistema sukurta Rusijoje. Lietuvių indėlis aprašant lietuvių kalbos modelius ir taisykles. Tiesa, sistema veikia labai nestabiliai ir internetinė paslauga ne visada prieinama. 2006 m. lygiagrečiai su TWAS pasirodė ir "Tildės Biuro 2006" vertimo vedlys, kuris buvo iš dalies automatinio vertimo užuomazga.

Taikomosios programos[taisyti | redaguoti kodą]

Sukurta daug taikomųjų programų natūraliai kalbai versti, kai kurios veikia internete, kaip SYSTRAN sistema, kuria remiasi ir Google, ir AltaVista vertimų programos. Nors nei viena sistema negali pasigirti tobulu vertimu, daugelis jų pateikia tenkinamą rezultatą. Nepaisant jų paveldėtų apribojimų, automatinio vertimo programos naudojamos visame pasaulyje. Tikriausiai didžiausia institucija, naudojanti vieną tokių, yra Europos komisija. Jos poreikiams yra pritaikyta komercinė SYSTRAN sistemos versija, kuri gali automatiškai išversti didelius kiekius preliminarių dokumentų šablonų vidiniam naudojimui.

Viena JAV vertimo agentūra (Global Translations) kuria specialius žodynus automatiniam vertimui, sudarytus iš telekomunikacijų kompanijų pasiūlymų. Dėl didelio tokių dokumentų techninio žodyno lygio, kuris dažnai yra ir didelės apimties, automatinio vertimo kokybė gerėja proporcingai teksto rinkiniams, kurie įtraukiami į tuos žodynus.

Danų vertimo agentūra (Lingtech) verčia patentų paraiškas iš anglų kalbos į danų nuo 1993 m. naudodama firminę taisyklėmis paremtą automatinio vertimo sistemą PaTrans, veikiančią kartu su komerciniu atmintimi paremtu vertimo įrankiu Trados CAT.

Ispanų dienraštis „Periodico de Catalunya“ yra verčiamas iš ispanų į katalonų kalbą naudojat automatinio vertimo sistemą. Internetinė programa „Toggletext“ naudoja perdavimais paremtą vertimo sistemą Kataku versti tarp anglų ir indoneziečių kalbų. Google tvirtina, kad gauti daug žadantys rezultatai naudojantis jų firminiu statistiniu automatinio vertimo varikliu. Jis buvo panaudotas Google kalbų įrankiuose verčiant tarp arabų – anglų ir kinų – anglų kalbų bei surinko 0,4281 balo, o tai daugiau nei IBM įrankis BLEU-4, kurio rezultatas tik 0,3954 balo, pasiektas Nacionaliniame Standartų ir Technologijų institute testų metu. Uwe Muegge sukūrė demonstracinį tinklalapį, kuris naudoja kontroliuojamą kalbą kartu su Google įrankių, kad pateikti visiškai automatizuotą, aukštos kokybės jo angliškų, vokiškų ir prancūziškų tinklalapių vertimą.

Daug dėmesio paskutiniu metu skiriant kovai su terorizmu, Jungtinės Valstijos investuoja didelius pinigus į natūralios kalbos inžineriją. Šiuo metu karinė valdžia domisi vertimu ir apdorojimu tokių kalbų kaip: arabų, pashto ir dari. Informacijos Apdorojimo Technologijų Biuras taiko tokias programas kaip TIDES ir „Babylon Translator“. Jungtinių Valstijų oro pajėgos skiria 1 milijono dolerių kontraktą kurti kalbos vertimo technologijoms.

Įvertinimas[taisyti | redaguoti kodą]

Automatinio vertimo sistemas vertinti galima įvairiais būdais. Seniausias yra naudojantis žmogumi teisėju, kuris įvertina vertimo kokybę. Labiau šiuolaikiški būdai yra naudojantis įrankiais: BLEU, NIST ir METEOR.

Pasikliaujant vien automatiniu vertimu ignoruojama tai, kad žmogaus kalba yra paremta kontekstu ir, kad reikia būti žmogumi, kad adekvačiai suvokti originalaus teksto prasmę. Netgi tobulai žmogų imituojantis kompiuterinis vertėjas yra linkęs į klaidas. Todėl, kad užtikrinti automatinio vertimo sugeneruoto teksto kokybę ir naudą žmogui, jį turi peržiūrėti ir pakoreguoti gyvas žmogus.

Visgi tvirtinama, kad kai kurių taikomųjų programų išverstas tekstas nereikalauja žmogiško įsikišimo. Tai atvejai kai, tarkime, verčiami produktų aprašymai ir naudojama kontroliuojanti kalba, sistema turi žodynu paremtą įrankį ir produkcinę aplinką.

Nuorodos[taisyti | redaguoti kodą]

Norvegu «» lietuvių[taisyti | redaguoti kodą]

Lietuvių «» anglų[taisyti | redaguoti kodą]

Daugiakalbės vertyklės[taisyti | redaguoti kodą]