Bajeso teorema

Straipsnis iš Vikipedijos, laisvosios enciklopedijos.
Peršokti į: navigaciją, paiešką

Bajeso teorematikimybių teorijos teorema, kuri nustato įvykio tikimybę, kai stebint žinoma tik dalis informacijos apie įvykius. Kitaip tariant, pagal Tomą Bajesą galima daug tiksliau nustatyti tikimybę, imant iš anksto žinomą informaciją ir naujų stebėjimų duomenis.

Matematinė formuluotė[taisyti | redaguoti kodą]

\Pr(A|B) = \frac{\Pr(B | A) \Pr(A)}{\Pr(B)},

kur

\Pr(A) – apriorinė A hipotezės tikimybė;
\Pr(A|B)A hipotezės tikimybė, atsirandant B įvykiui (aposteriorinė tikimybė);
\Pr(B|A) – įvykio B atsiradimo tikimybė esant teisingai A hipotezei;
\Pr(B) – įvykio B tikimybė.

Pritaikymas[taisyti | redaguoti kodą]

Kova su spamu[taisyti | redaguoti kodą]

Elektroninio pašto žinučių spamo filtrams sukurti naudojami „mokymosi“ procese sudaryti žodynai. Tam paimamas senas rankiniu būdu išrinktų pranešimų archyvas ir perduodamas programai mokytis ir tolimesnei analizei. Programa nustato kiekvieno tipo pranešime pasikartojančius žodžius – kiek kartų kiekvienas žodis pasirodo laiškuose iš nurodytos bylos. Kai žodynai galutinai sudaryti, tikimybė, kad nauja žinutė yra spamas, apskaičiuojama pagal Bajesą kiekvienam žodžiui iš laiško. Normalizuojant ir sumuojant žodžių tikimybę gaunama bendra tikimybė, pagal kurią galima priskirti žinutę spamui.

Bajeso teoremos taikymas leidžia apsieiti be pašto dėžučių „juodųjų sąrašų“ sudarymo. Bajeso filtrai gali savarankiškai, nedaug nusileisdami žmogaus sugebėjimams, atpažinti „blogą“ žinutę, kurioje reklaminė informacija pateikiama kaip paprastas tekstas ar HTML. Po mokymo ir didelio įdirbio pasiseka atrinkti iki 95 –97 % spamo.

Bet šiukšlintojai surado būdą apeiti tokius filtrus. Dėl to į laišką įdedamas neutralus tekstas, o reklama pridedama kaip paveikslėlis prie teksto. Atsitiktinis tekstas apgauna filtrą ir neduoda galimybės mokyti. Nors ir yra galimybė pasinaudoti teksto atpažinimo programomis, kuriuos gali iš paveikslėlių išimti tekstą, o paskui jį perduoti Bajeso filtrui, dažniausiai taip programos nedaro. Beje, tokių programų veikimas reikalauja papildomų kompiuterio pajėgumų.

Bajesijinė Statistika[taisyti | redaguoti kodą]

Angliškai "Bayesian Inference", statistikos kryptis, pavadinta Tomo Bajeso garbei. Statistiniai metodai gali būti skirstomi į dvi sritis: klasikiniai ir Bajesijiniai. Klasikinė statistika, tai ta, paremta "maximum likelihood" principu, mokoma visose mokyklose ir universitetuose (Lietuvoje). Bajesijinė statistika, paremta Bajeso teorema, mokoma jau gerai žinant klasikinę statistiką, universitetuose su stipriais matematikos ir statistikos departamentais, yra tarsi alternatyva klasikinei statistikai. Bajesijinės statistikos atstovai neretai kritikuoja klasikinę statistiką dėl įvairių prielaidų darymo, kurie nieko bendro neturi su tikrove. Bajesijinė statistika pradėjo ypač populiarėti tik dabar, atsiradus galingiems kompiuteriams, nes dauguma Bajesijinės statistikos parametrų apskaičiavimo metodų yra paremta skaičių simuliacijomis, vadinamaisiais MCMC (Markov Chain Monte Carlo) metodais.

Literatūra[taisyti | redaguoti kodą]

Nuorodos[taisyti | redaguoti kodą]