Natūralios kalbos generavimas

Straipsnis iš Vikipedijos, laisvosios enciklopedijos.
Peršokti į: navigaciją, paiešką

Natūralios kalbos generavimas yra viena iš natūralios kalbos apdorojimo užduočių – natūralios kalbos generavimas naudojantis sistemos duomenų baze.

Natūralios kalbos generavimą galima įsivaizduoti kaip Natūralios kalbos suvokimo atvirkštinį procesą. Skirtumą galima aprašyti taip: natūralios kalbos suvokimui sistema turi nustatyti įvedamų duomenų prasmę, o natūralios kalbos generavimui sistema ieško būdo kaip „mintį“ išreikšti žodžiais.

Etapai[taisyti | redaguoti kodą]

Teksto generavimo procesas gali būti paprasčiausiu teksto dalių kopijavimu iš iš anksto sudaryto sąrašo, galbūt naudojant jungiamuosius žodelius. Rezultatas gali būti patenkinamas horoskopų arba verslo laiškų sudarymui, tačiau sudėtinga natūralios kalbos generavimo sistema reikalauja planavimo ir informacijos suliejimo etapų tam, kad sugeneruotas tekstas atrodytų natūralus ir nebūtų pasikartojimų. Tipiniai etapai yra:

Turinio nustatymas: nustatyti svarbiausius požymius, kuriuos verta paminėti. Metodai naudojami šiame etape yra susiję su duomenų išgavimo (data mining).

Pranešimo planavimas: Bendras pateikiamos informacijos organizavimas.

Sakinio paruošimas: Panašių sakinių suliejimas natūralumui ir skaitomumui pagerinti. Pavyzdžiui, sakiniai „Kitas traukinys važiuos į Klaipėdą“ ir „Kitas traukinys važiuos 10 valandą“ gali būti sulieti į „Kitas traukinys važiuos į Klaipėdą 10 valandą“.

Leksikalizavimas: Sąvokos žodinis realizavimas.

Susietų sakinių generavimas: Žodžių sujungimas naudojant įvardžius bei kitus būdus.

Sintaksinis ir morfologinis realizavimas: Šis etapas yra atvirkštinis įvedimo apdorojimui: naudojantis prieš tai surinkta informacija, konstruojami sakinių blokai pagal sintaksines ir morfologines taisykles.

Orfografinis realizavimas: Skyrybos ženklų dėliojimas, didžiųjų raidžių sudėjimas, kitas teksto formatavimas.