To modeller

Original: http://echo.edres.org:8080/betsy/2models.htm

Der er to dominerende Bayesianske modeller for tekst klassificering, er begge kaldes naive Bayes modeller, fordi de påtager betinget uafhængighed.

Med Multivariate Bernoulli model er hvert essay ses som et særligt tilfælde af alle de kalibrerede funktioner. Som i det illustrerede eksempel er tilstedeværelsen eller ikke-tilstedeværelsen af ​​alle kalibrerede funktioner undersøges. En typisk Bayesian netværk ansøgning, har denne fremgangsmåde været anvendt i tekst klassifikation af Lewis (1992), Kalt og Croft (1996) og andre.

Under den Bernoulli model er den betingede sandsynlighed for forekomst af hver valgperiode anslået af andelen af ​​dokumenter inden for hver kategori, der indeholder ordet. Frekvenserne podes med 1 for at forhindre nul sandsynligheder, som er a) forudindtaget, og b) vil få dominere beregningerne. Dette er en Laplace korrektion. De betingede sandsynligheder for fraværet af udtrykket er 1 minus sandsynligheden for de vilkår tilstedeværelse. Fordi hver valgperiode i ordforrådet skal undersøges, kan denne model taker lang tid at beregne.

Med Multinomialfordelingen model er hvert essay ses som en prøve af de kalibrerede funktioner. Sandsynligheden for hver score for en given essay beregnes som produktet af sandsynlighederne for de funktioner, der er indeholdt i essay. Ofte brugt i talegenkendelse hvor det kaldes en “unigram sprog model,” denne tilgang er blevet anvendt i tekst klassifikation af Mitchell (1997), McCallum, Rosenfeld & Mitchell (1998), og andre.

Under multinomial model er den betingede sandsynlighed for forekomst af hver term anslået af frekvensen af udtrykket inden for hver kategori divideret med frekvensen af ​​alle betingelser inden for kategorien. Igen er Laplace korrektion anvendes, og de frekvenser podes med 1.

McCallum og Nigam (1998) har vist, at flere datasæt, multinomialfordelingen model er så nøjagtige som eller mere præcis end Bernoulli modellen. Da essays ofte scoret baseret på tilstedeværelsen eller fraværet af funktioner, der er behov for forskning, før der kan drages nogen konklusioner med hensyn til essay scoring.

Betinget uafhængighed – Naive Bayes Assumption

Den naive Bayes antagelse er, at ordstilling er irrelevant og dermed, at tilstedeværelsen af ​​et ord ikke påvirker tilstedeværelsen eller fraværet af et andet ord og. Dette er antagelse er naturligvis alvorligt krænket i det engelske sprog. Effekten er, at sandsynligheder posterior klassifikation er ekstreme – ofte meget tæt på nul eller en. Domingos og Pazzani (1997) har vist, at klassificeringen nøjagtighed ikke er alvorligt berørt af overtrædelser af denne antagelser.