Två modeller

Original: http://echo.edres.org:8080/betsy/2models.htm

Det finns två dominerande Bayesianska modeller för textklassificering, båda kallas naiva Bayes modeller eftersom de förutsätter villkorlig självständighet.

Med Multivariat Bernoulli Model är varje essä ses som ett specialfall av alla de kalibrerade funktioner. Som i det illustrerade exemplet, är närvaron eller icke-närvaro av samtliga kalibrerade funktioner undersöktes. En typisk Bayesian Network ansökan, har denna metod använts i textklassificering av Lewis (1992), Kalt och Croft (1996) och andra.

Enligt Bernoullis modellen är den betingade sannolikheten för förekomst av varje mandatperiod uppskattats av andelen dokument inom varje kategori som innehåller ordet. Frekvenserna ympas med 1 för att förhindra noll sannolikheter som är a) förspända, och b) skulle dominera beräkningarna. Detta en Laplace korrigering. De betingade sannolikheter av frånvaron av begreppet är en minus sannolikheten för förekomst termer. Eftersom varje term i vokabulären behöver undersökas, kan denna modell tagaren lång tid att beräkna.

Med Multinominell Model är varje essä ses som ett smakprov på de kalibrerade funktionerna. Sannolikheten för varje poäng för en viss uppsats beräknas som produkten av sannolikheterna för de funktioner som finns i uppsatsen. Används ofta i taligenkänning där det kallas en “unigram språkmodell,” detta tillvägagångssätt har använts i textklassificering av Mitchell (1997), McCallum, Rosenfeld & Mitchell (1998), och andra.

Enligt den Multinominell modellen, är den villkorade sannolikheten för förekomst av varje term uppskattas genom frekvensen av termen inom varje kategori divideras med frekvensen av alla termer i kategorin. Återigen är den Laplace korrigering som används och frekvenserna ympas med 1.

McCallum och Nigam (1998) har visat att flera dataset, är lika exakt som eller mer exakt än Bernoulli modellen Multinominell modellen. Eftersom essäer ofta gjorde baserat på närvaron eller frånvaron av funktioner, behövs forskning innan några slutsatser kan dras när det gäller uppsats scoring.

Villkorlig Självständighet – det Naive Bayes Antaganden

Den naiva Bayes antagande är att ordföljden är irrelevant och följaktligen att förekomsten av ett ord inte påverkar närvaron eller frånvaron av ett annat ord och. Detta är antagande är naturligtvis allvarligt kränks i det engelska språket. Effekten är att bakre klassificerings sannolikheter är extrema – ofta mycket nära noll eller ett. Domingos och Pazzani (1997) har visat att klassificeringsnoggrannhet inte påverkas allvarligt av kränkningar av denna antaganden.