Bajeso teorema

Bajeso teorema – tikimybių teorijos teorema, kuri nustato įvykio tikimybę, kai stebint žinoma tik dalis informacijos apie įvykius. Kitaip tariant, pagal šią teoremą galima daug tiksliau nustatyti tikimybę, imant iš anksto žinomą informaciją ir naujų stebėjimų duomenis. Ji pavadinta anglų statistiko Tomo Bajeso garbei.

Matematinė formuluotė[redaguoti | redaguoti vikitekstą]

\Pr(A|B)={\frac {\Pr(B|A)\Pr(A)}{\Pr(B)}}

,

kur

\Pr(A)

– apriorinė A hipotezės tikimybė;

\Pr(A|B)

– A hipotezės tikimybė, atsirandant B įvykiui (aposteriorinė tikimybė);

\Pr(B|A)

– įvykio B atsiradimo tikimybė esant teisingai A hipotezei;

\Pr(B)

– įvykio B tikimybė.

Pritaikymas[redaguoti | redaguoti vikitekstą]

Kova su spamu[redaguoti | redaguoti vikitekstą]

Elektroninio pašto žinučių spamo filtrams sukurti naudojami „mokymosi“ procese sudaryti žodynai. Tam paimamas senas rankiniu būdu išrinktų pranešimų archyvas ir perduodamas programai mokytis ir tolimesnei analizei. Programa nustato kiekvieno tipo pranešime pasikartojančius žodžius – kiek kartų kiekvienas žodis pasirodo laiškuose iš nurodytos bylos. Kai žodynai galutinai sudaryti, tikimybė, kad nauja žinutė yra spamas, apskaičiuojama pagal Bajesą kiekvienam žodžiui iš laiško. Normalizuojant ir sumuojant žodžių tikimybę gaunama bendra tikimybė, pagal kurią galima priskirti žinutę spamui.

Bajeso teoremos taikymas leidžia apsieiti be pašto dėžučių „juodųjų sąrašų“ sudarymo. Bajeso filtrai gali savarankiškai, nedaug nusileisdami žmogaus sugebėjimams, atpažinti „blogą“ žinutę, kurioje reklaminė informacija pateikiama kaip paprastas tekstas ar HTML. Po mokymo ir didelio įdirbio pasiseka atrinkti iki 95 –97 % spamo.

Bet šiukšlintojai surado būdą apeiti tokius filtrus. Dėl to į laišką įdedamas neutralus tekstas, o reklama pridedama kaip paveikslėlis prie teksto. Atsitiktinis tekstas apgauna filtrą ir neduoda galimybės mokyti. Nors ir yra galimybė pasinaudoti teksto atpažinimo programomis, kuriuos gali iš paveikslėlių išimti tekstą, o paskui jį perduoti Bajeso filtrui, dažniausiai taip programos nedaro. Beje, tokių programų veikimas reikalauja papildomų kompiuterio pajėgumų.

Bajeso statistika[redaguoti | redaguoti vikitekstą]

Angliškai "Bayesian Inference", statistikos kryptis, pavadinta Tomo Bajeso garbei. Statistiniai metodai pagal tikimybės interpretaciją gali būti skirstomi į dvi rūšis: klasikiniai ir Bajeso. Klasikinė statistika, paremta Didžiausio tikėtinumo metodu ('maximum likelihood'), mokoma daugumoje mokyklų ir universitetų. Bajeso statistika, paremta Bajeso teorema, mokoma jau gerai žinant klasikinę statistiką, universitetuose su stipriomis matematikos ir statistikos katedromis, yra tarsi alternatyva klasikinei statistikai. Bajeso statistikos šalininkai neretai kritikuoja klasikinę statistiką dėl įvairių prielaidų darymo, kurios neturi nieko bendro su tikrove. Bajeso statistika pradėjo ypač populiarėti atsiradus galingiems kompiuteriams, nes daugelis Bajeso statistikos parametrų įvertinimo metodų yra paremti skaitmeniniu modeliavimu, vadinamaisiais Markovo grandininiais Monte Karlo (MCMC - Markov Chain Monte Carlo) metodais.

Literatūra[redaguoti | redaguoti vikitekstą]

Berdas Kivi. Bajeso teorema. (Rusų kalba) // Žurmalas „Kompiuteriai“, 2001 m. rugpjūčio 24 d.
Paulas Grahamas. A plan for spam (Anglų kalba.). // Paulo Grahamo personali svetainė.

Nuorodos[redaguoti | redaguoti vikitekstą]

Bajeso teoremos pagrindu sukurtos antispamo programos svetainė
http://osu.tpu.ru/GOSY/ES/es_9.htm Archyvuota kopija 2007-01-02 iš Wayback Machine projekto.
http://teorver-online.narod.ru/teorver10.html