Vertimo atmintis

Straipsnis iš Vikipedijos, laisvosios enciklopedijos.

Vertimo atmintis (VA) (angl. translation memory, TM) – duomenų bazės tipas, naudojamas programinėje įrangoje, padedančioje žmogui versti tekstus. Programos, naudojančios vertimo atmintį, yra žinomos kaip vertimo atminties sistemos (angl. translation memory systems, TMs).

Vertimo atmintis yra dažniausiai naudojama kartu su kita kompiuterio įranga bei ištekliais: su mašininio vertimo sistemomis, terminologijos tvarkymo sistemomis, daugiakalbiais žodynais, kokybės užtikrinimo sistemomis ir kt.

Vertimo atmintis sudaryta iš teksto segmentų originalo kalba ir jų vertimo į kelias kitas kalbas. Tie segmentai gali būti išdėstyti blokais, paragrafais, sakiniais arba frazėmis. Atskiri žodžiai yra terminų bazės dalis ir dėl to nepriklauso vertimo atminčiai.

Vertimo atmintis palengvina ir pagreitina darbą. Tyrimai parodė, kad didelė dalis profesionalių vertėjų naudoja vertimo atmintis[1].

Vertimo atminčių naudojimas[redaguoti | redaguoti vikitekstą]

VA sistema originalo tekstą (t. y. tekstą, kuris bus verčiamas) suskaido į segmentus ir tada ieško tokių pačių arba panašių segmentų vertimo atmintyje. Sutampantys arba panašūs sakiniai yra pateikiami vertėjui kaip galimi vertimo vienetai. Vertėjas gali priimti siūlomą vertimo vienetą, pakeisti jį nauju vertimu ar modifikuoti jį taip, kad atitiktų originalą. Naujas arba pakeistas vertimas papildo vertimo atmintį.

Kai kurios VA sistemos ieško tik visiškų atitikimų (angl. exact match); tai reiškia, kad jos gali rasti tik tuos teksto segmentus, kurie tiksliai atitinka segmentus esančius duomenų bazėje. Kitos VA sistemos naudoja apytikslio atitikimo (angl. fuzzy match) algoritmus tam, kad rastų panašius segmentus, kurie pateikiami vertėjui su pažymėtais skirtumais.

Segmentus, kuriems nerastas atitikmuo, turės išversti pats vertėjas. Šie naujai išversti segmentai įkeliami į duomenų bazę, kur galės būti naudojami vertimams ateityje, taip pat ir to segmento pasikartojimams dabartiniame tekste.

Vertimo atmintys geriausiai veikia labai tekstuose, kuriuose yra daug pasikartojimų, pvz., techniniuose žinynuose. Taip pat jie naudingi verčiant pavienius segmentus seniau išverstame dokumente, pvz., verčiant šiek tiek pakeistą ataskaitos versiją.

Tradiciškai VA nelaikomos tinkamomis versti grožiniams tekstams dėl paprastos priežasties: juose yra mažai pasikartojimų. Vis dėlto, kiti įžvelgia VA naudą net ir tekstuose su mažai pasikartojimų, nes sukurti duomenų bazės resursai yra naudingi konkordanso paieškai, nustatant tinkamą terminų vartojimą, siekiant užtikrinti kokybę (kad neliktų tuščių segmentų) ir peržiūros procesui supaprastinti (originalo ir verčiamo teksto segmentai visada rodomi drauge).

Pagrindinė nauda[redaguoti | redaguoti vikitekstą]

VA įrankiai tinkamiausi versti techninę dokumentaciją ir dokumentus, kuriuose yra specializuotos leksikos. Jų privalumai:

  • Užtikrinama, kad dokumentas yra visiškai išverstas (vertimo atmintys nepriima tuščių verčiamų segmentų).
  • Užtikrinama, jog išversti dokumentai yra nuoseklūs, įskaitant bendruosius apibrėžimus, formuluotes ir terminologiją. Tai svarbu, kai skirtingi vertėjai dirba prie vieno projekto.
  • Leidžia vertėjams versti įvairių formatų dokumentus, neturint programinės įrangos, paprastai reikalingos tokiems formatams tvarkyti.
  • Paspartina bendrą vertimo procesą; kadangi vertimo atmintys „prisimena“ anksčiau išverstą medžiagą, vertėjai turi ją išversti tik vieną kartą.
  • Sumažina ilgalaikių vertimo projektų kainą; pavyzdžiui, instrukcijos, įspėjamieji pranešimai ar ataskaitos išverčiami tik vieną kartą ir gali būti naudojami kelis kartus.
  • Dėl VA sistemos naudojimo (laiko ar pinigų) sąnaudų sumažėjimas verčiant didelius dokumentus gali būti akivaizdus net ir pirmame naujo projekto vertime, bet paprastai sąnaudų sumažėjimas pastebimas verčiant vėlesnes projekto versijas, kurios buvo prieš tai išverstos naudojant VA.

Pagrindinės problemos[redaguoti | redaguoti vikitekstą]

Žemiau išvadinamos pagrindinės problemos, trukdančios plačiau naudoti VA įrankius:

  • Sąvoka „vertimo atmintis“ yra grindžiama prielaida, kad sakiniai, pavartoti ankstesniuose vertimuose, gali būti „pakartotinai pavartoti“. Tačiau pagrindinis vertimo principas yra tas, kad vertėjas turi išversti teksto turinį, o ne jį sudarančius sakinius.
  • VA įrankiai nelengvai atitinka esamus vertimo ar lokalizacijos procesus. Norint panaudoti VA technologiją, vertimo procesai turi būti pertvarkomi.
  • VA įrankiai šiuo metu nepalaiko visų dokumentų formatų ir ne visuose failų tipuose egzistuoja filtrai.
  • Darbo su VA sistemomis mokymosi pradžia būna sudėtinga.
  • Tais atvejais, kai visas ar dalis vertimo proceso yra užsakomas arba tvarkomas laisvai samdomų vertėjų, jiems tenka suteikti programinę įrangą ir techninį palaikymą, kad jie galėtų dirbti su vertimo atminčių sistemomis.
  • Daugelio VA sistemų pilnos versijos yra gana brangios. Vadinasi, norint jas naudoti gali prireikti nemažų investicijų. Vis dėlto, kai kurie gamintojai pateikia nemokamas arba nebrangias savo įrankių su ribotais funkcijų nustatymais versijas, kad pavieniai vertėjai galėtų jas naudoti. Yra nemokamų VA sistemų, tačiau nė viena iš jų dar neužėmė didesnės rinkos dalies.
  • Vartotojo ankstesnių vertimų paruošimo, įtraukimo į VA duomenų bazę išlaidos, taip pat bet kokie kiti papildomi priedai gali reikalauti nemažų investicijų.
  • VA duomenų bazių palaikymas vis dar dažniausiai yra techninis procesas, o nesugebėjimas išsaugoti VA gali lemti, kad VA bus mažiau naudojamos, o jų kokybė bus prastesnė.
  • Kaip teigta anksčiau, VA įrankiai netinka tekstams, kuriuose nėra pasikartojimų. Techniniai tekstai paprastai geriausiai tinka vertimo atmintims, o rinkodaros ar grožiniai tekstai bus ne tokie tinkami.

Vertimo atmintys ir susiję standartai[redaguoti | redaguoti vikitekstą]

TMX[redaguoti | redaguoti vikitekstą]

Translation Memory eXchange (TMX) suteikia galimybę vertimų teikėjams keistis vertimo atmintimis. Vertėjų bendruomenėje TMX buvo priimtas kaip geriausias būdas importuoti ir eksportuoti vertimo atmintis. Dabartinė, 1.4b, versija leidžia originalo ir vertimo kalbos dokumentus atkurti iš TMX duomenų.

TBX[redaguoti | redaguoti vikitekstą]

TermBase eXchange. Šis LISA standartas, peržiūrėtas ir perleistas kaip ISO 30042, leidžia keistis detalia terminologine ir leksine informacija. TBX struktūra paremta trimis ISO standartais: ISO 12620, ISO 12200 ir ISO 16642. ISO 12620 suteikia aiškų „informacinių kategorijų“ rinkinį su standartizuotais pavadinimais, kurie atlieka informacijos elementų tipų arba iš anksto nustatytų reikšmių funkciją. ISO 12200 (dar žinomas kaip MARTIF) suteikia pagrindą TBX šerdies sąrangai. ISO 16642 (taip pat angliškai vadinamas Terminological Markup Framework) apima struktūrinius terminologijos duomenų aprašymo kalbų metamodelius.

UTX[redaguoti | redaguoti vikitekstą]

Universal Terminology exchange (UTX) standartas sukurtas specialiai automatinio vertimo žodynams, tačiau jį galima naudoti ir bendriems, visiems prieinamiems specializuotiems žodynams. Itin paprastomis ir praktinėmis specifikacijomis pasižyminčio UTX tikslas yra spartinti dalijimąsi žodynais ir jų pakartotinį naudojimą.

SRX[redaguoti | redaguoti vikitekstą]

Segmentation Rules eXchange (SRX) skirtas patobulinti TMX standartą taip, kad būtų galima efektyviau naudoti tarp aplikacijų pasidalytais VA duomenimis. Gebėjimas tiksliai apibrėžti ankstesniame vertime naudotas segmentacijos taisykles gali padidinti pasiekiamą programos veiksmingumą.

GMX[redaguoti | redaguoti vikitekstą]

GILT rodikliai (angl. GILT metrics). GILT (globalizacija, internacionalizacija, lokalizacija ir vertimas) rodikliai susideda iš trijų dalių: apimties rodikliams skirtos GMX-V, sudėtingumo rodikliams skirtos GMX-C, o kokybės rodiklius pateikia GMX-Q. Pasiūlyti GILT rodiklių standartai turi apskaičiuoti kiekvienos GILT užduoties darbo krūvį ir kokybės reikalavimus.

OLIF[redaguoti | redaguoti vikitekstą]

Open Lexicon Interchange standartas. OLIF yra atvirojo kodo, su XML suderinamas standartas, skirtas keistis terminologiniais ir leksiniais duomenimis. Nors iš pradžių buvo sumanytas kaip priemonė keistis duomenimis tarp privačių automatinio vertimo leksikonų, bet vėliau jis išplėtotas kaip ne toks specializuotas terminologinių duomenų mainų standartas.

XLIFF[redaguoti | redaguoti vikitekstą]

XML Localistion Interchange File Format (XLIFF) tikslas suteikti vieną pakeičiamą dokumentų standartą, kurį suprastų bet kuris lokalizacijos teikėjas. XLIFF yra vertimo industrijoje populiariausias XML formato duomenų apsikeitimo būdas.

TransWS[redaguoti | redaguoti vikitekstą]

Translation Web paslaugos. TransWS tenkina poreikį naudoti interneto paslaugas su lokalizacijos projektais susijusių failų ir žinučių pateikimui bei paieškai. Tai yra detali dabartinių lokalizacijos procesų automatizavimo sistema, pasitelkianti internetines paslaugas.

xml:tm formatas[redaguoti | redaguoti vikitekstą]

XML formato VA grindžiamos teksto atminties konceptu, apimančiu autoriaus ir vertimo atmintį. XML-INTL šį teksto atminties standartą perdavė Lisa OSCAR.

PO[redaguoti | redaguoti vikitekstą]

Gettext Portable Object standartas. Nors dažnai nelaikomi VA standartu, Gettext PO dokumentai yra dvikalbiai ir lygiai taip pat naudojami vertimo atmintyse. PO paprastai susideda iš įvairių atskirų failų katalogo medžio struktūroje. Tarp įprastai šiuos failus apdorojančių įrankių yra GNU Gettext Tools ir Translate Toolkit. Taip pat egzistuoja dar kelios programos, kurios PO failus apdoroja tarsi jie būtų gryni originalo teksto failai.

Toliau žiūrėti[redaguoti | redaguoti vikitekstą]

Išnašos[redaguoti | redaguoti vikitekstą]

  1. Elina Lagoudaki (2006), "Translation Memory systems: Enlightening users' perspective. Key finding of the TM Survey 2006 carried out during July and August 2006. (Imperial College London, Translation Memories Survey 2006), p.16 „Archived copy“ (PDF). Suarchyvuotas originalas (PDF) 2007-03-25. Nuoroda tikrinta 2007-03-25.{{cite web}}: CS1 priežiūra: archived copy as title (link)

Nuorodos[redaguoti | redaguoti vikitekstą]

  • DGT Translation Memory – laisvai prieinama ES dokumentų teisinės bazės (Acquis Communautaire) vertimo atmintis. Vertimo atmintis sudaryta 24 ES kalbų lygiagretūs tekstai.