Bajeso teorema

Straipsnis iš Vikipedijos, laisvosios enciklopedijos.
Peršokti į: navigaciją, paiešką

Bajeso teorematikimybių teorijos teorema, kuri nustato įvykio tikimybę, kai stebint žinoma tik dalis informacijos apie įvykius. Kitaip tariant, pagal Tomą Bajesą galima daug tiksliau nustatyti tikimybę, imant iš anksto žinomą informaciją ir naujų stebėjimų duomenis.

Matematinė formuluotė[taisyti | redaguoti kodą]

\Pr(A|B) = \frac{\Pr(B | A) \Pr(A)}{\Pr(B)},

kur

\Pr(A) – apriorinė A hipotezės tikimybė;
\Pr(A|B)A hipotezės tikimybė, atsirandant B įvykiui (aposteriorinė tikimybė);
\Pr(B|A) – įvykio B atsiradimo tikimybė esant teisingai A hipotezei;
\Pr(B) – įvykio B tikimybė.

Pritaikymas[taisyti | redaguoti kodą]

Kova su spamu[taisyti | redaguoti kodą]

Elektroninio pašto žinučių spamo filtrams sukurti naudojami „mokymosi“ procese sudaryti žodynai. Tam paimamas senas rankiniu būdu išrinktų pranešimų archyvas ir perduodamas programai mokytis ir tolimesnei analizei. Programa nustato kiekvieno tipo pranešime pasikartojančius žodžius – kiek kartų kiekvienas žodis pasirodo laiškuose iš nurodytos bylos. Kai žodynai galutinai sudaryti, tikimybė, kad nauja žinutė yra spamas, apskaičiuojama pagal Bajesą kiekvienam žodžiui iš laiško. Normalizuojant ir sumuojant žodžių tikimybę gaunama bendra tikimybė, pagal kurią galima priskirti žinutę spamui.

Bajeso teoremos taikymas leidžia apsieiti be pašto dėžučių „juodųjų sąrašų“ sudarymo. Bajeso filtrai gali savarankiškai, nedaug nusileisdami žmogaus sugebėjimams, atpažinti „blogą“ žinutę, kurioje reklaminė informacija pateikiama kaip paprastas tekstas ar HTML. Po mokymo ir didelio įdirbio pasiseka atrinkti iki 95 –97 % spamo.

Bet šiukšlintojai surado būdą apeiti tokius filtrus. Dėl to į laišką įdedamas neutralus tekstas, o reklama pridedama kaip paveikslėlis prie teksto. Atsitiktinis tekstas apgauna filtrą ir neduoda galimybės mokyti. Nors ir yra galimybė pasinaudoti teksto atpažinimo programomis, kuriuos gali iš paveikslėlių išimti tekstą, o paskui jį perduoti Bajeso filtrui, dažniausiai taip programos nedaro. Beje, tokių programų veikimas reikalauja papildomų kompiuterio pajėgumų.

Bajeso statistika[taisyti | redaguoti kodą]

Angliškai "Bayesian Inference", statistikos kryptis, pavadinta Tomo Bajeso garbei. Statistiniai metodai pagal tikimybės interpretaciją gali būti skirstomi į dvi rūšis: klasikiniai ir Bajeso. Klasikinė statistika, tai ta, paremta Didžiausio tikėtinumo metodu "maximum likelihood", mokoma visose mokyklose ir universitetuose (Lietuvoje). Bajeso statistika, paremta Bajeso teorema, mokoma jau gerai žinant klasikinę statistiką, universitetuose su stipriomis matematikos ir statistikos katedromis, yra tarsi alternatyva klasikinei statistikai. Bajeso statistikos atstovai neretai kritikuoja klasikinę statistiką dėl įvairių prielaidų darymo, kurios nieko bendro neturi su tikrove. Bajeso statistika pradėjo ypač populiarėti tik dabar, atsiradus galingiems kompiuteriams, nes dauguma Bajeso statistikos parametrų įvertinimo metodų yra paremti skaitmeniniu modeliavimu, vadinamaisiais Markovo grandininiais Monte Karlo (MCMC - Markov Chain Monte Carlo) metodais.

Literatūra[taisyti | redaguoti kodą]

Nuorodos[taisyti | redaguoti kodą]