Dwa modele


Original: http://echo.edres.org:8080/betsy/2models.htm

Istnieją dwa dominujące bayesowskie modele klasyfikacji tekstu, zarówno nazywane są naiwne modele Bayes ponieważ zakładają one niezależność warunkową.

Z modelu Bernoulliego wielowymiarowe, każdy esej jest postrzegana jako szczególny przypadek wszystkich skalibrowanych cech. Podobnie jak w przykładzie przedstawionym na rysunku, obecności lub bez obecności wszystkich kalibrowanych funkcji jest badana.Typowym zastosowaniem sieci Bayesa Podejście to zostało wykorzystane w klasyfikacji tekstu przez Lewis (1992), Kalt i Croft (1996) i inne.

W modelu Bernoulliego, warunkowe prawdopodobieństwo obecności każdej kadencji jest szacowana przez część dokumentów w ramach każdej kategorii, które zawierają termin. Częstotliwości są zaszczepiono 1 do zapobiegania zerowe prawdopodobieństwo, które są) stronniczy, oraz b) nie dominują obliczenia. Ten laplasjan korekta. Warunkowe prawdopodobieństwo braku terminu to 1 minus prawdopodobieństw z warunków obecności. Ponieważ każdy termin w słowniku należy zbadać, model ten może taker dużo czasu, aby obliczyć.

Z wielomianowego modelu, każdy esej jest postrzegane jako próby skalibrowane funkcji.Prawdopodobieństwo każdego wyniku w danym eseju jest obliczana jako iloczyn prawdopodobieństw cech zawartych w eseju. Często stosowane w rozpoznawaniu mowy, w których jest on zwany “model języka unigram,” podejście to zostało wykorzystane w klasyfikacji tekstu przez Mitchella (1997), McCallum, Rosenfeld i Mitchell (1998) i inne.

Zgodnie z wielomianem modelu warunkowego prawdopodobieństwa obecności każdego okresu szacuje częstotliwości terminu w każdej kategorii podzielonej przez częstotliwość wszystkich warunków w obrębie kategorii. Ponownie, Laplace’a korekcji jest używany i częstotliwości wysiano 1.

McCallum i Nigam (1998) wykazały, że dla kilku zestawów danych, Wielomianowy model jest tak dokładne, jak i bardziej dokładne niż w modelu Bernoulliego. Ponieważ szkice są często oceniany na podstawie obecności lub nieobecności funkcji konieczne jest badanie zanim jakiekolwiek wnioski można wyciągnąć w odniesieniu do opisowego gola.

Warunkowe Niepodległości – naiwny klasyfikator Bayesa Wniebowzięcie

Naiwny Bayesa zakłada się, że nie ma znaczenia kolejność wyrazów, a tym samym, że obecność jednego słowa nie wpływa na obecność lub brak innego słowa i. To założenie jest oczywiście poważnie naruszone w języku angielskim.Efekt jest taki, że tylne prawdopodobieństwa klasyfikacji są ekstremalne – często bardzo zbliżony do zera lub jednego. Domingos i Pazzani (1997) wykazały, że dokładność klasyfikacji nie jest poważnie uszkodzony w wyniku naruszenia tego założenia.