Bajeso teorema
Straipsnis iš Vikipedijos, laisvosios enciklopedijos.
Bajeso teorema – tikimybių teorijos teorema, kuri nustato įvykio tikimybę, kai stebint žinoma tik dalis informacijos apie įvykius. Kitaip tariant, pagal Tomą Bajesą galima daug tiksliau nustatyti tikimybę, imant iš anksto žinomą informaciją ir naujų stebėjimų duomenis.
Turinys |
[taisyti] Matematinė formuluotė
,
kur
– apriorinė A hipotezės tikimybė;
– A hipotezės tikimybė, atsirandant B įvykiui (aposteriorinė tikimybė);
– įvykio B atsiradimo tikimybė esant teisingai A hipotezei;
– įvykio B tikimybė.
[taisyti] Pritaikymas
[taisyti] Kova su spamu
Elektroninio pašto žinučių spamo filtrams sukurti naudojami „mokymosi“ procese sudaryti žodynai. Tam paimamas senas rankiniu būdu išrinktų pranešimų archyvas ir perduodamas programai mokytis ir tolimesnei analizei. Programa nustato kiekvieno tipo pranešime pasikartojančius žodžius – kiek kartų kiekvienas žodis pasirodo laiškuose iš nurodytos bylos. Kai žodynai galutinai sudaryti, tikimybė, kad nauja žinutė yra spamas, apskaičiuojama pagal Bajesą kiekvienam žodžiui iš laiško. Normalizuojant ir sumuojant žodžių tikimybę gaunama bendra tikimybė, pagal kurią galima priskirti žinutę spamui.
Bajeso teoremos taikymas leidžia apsieiti be pašto dėžučių „juodųjų sąrašų“ sudarymo. Bajeso filtrai gali savarankiškai, nedaug nusileisdami žmogaus sugebėjimams, atpažinti „blogą“ žinutę, kurioje reklaminė informacija pateikiama kaip paprastas tekstas ar HTML. Po mokymo ir didelio įdirbio pasiseka atrinkti iki 95 –97% spamo.
Bet šiukšlintojai surado būdą apeiti tokius filtrus. Dėl to į laišką įdedamas neutralus tekstas, o reklama pridedama kaip paveikslėlis prie teksto. Atsitiktinis tekstas apgauna filtrą ir neduoda galimybės mokyti. Nors ir yra galimybė pasinaudoti teksto atpažinimo programomis, kuriuos gali iš paveikslėlių išimti tekstą, o paskui jį perduoti Bajeso filtrui, dažniausiai taip programos nedaro. Beje, tokių programų veikimas reikalauja papildomų kompiuterio pajėgumų.
[taisyti] Literatūra
- Berdas Kivi. Bajeso teorema. (Rusų kalba) // Žurmalas „Kompiuteriai“, 2001 m. rugpjūčio 24 d.
- Paulas Grahamas. A plan for spam (Anglų kalba.). // Paulo Grahamo personali svetainė.