Tre framstående skriva bedömning program


Original: http://echo.edres.org:8080/betsy/three_prominent.htm


Tre framstående skriva bedömning program

Den mest framstående skriva bedömning program är projektet uppsats Grade (PEG), introducerat av Ellis Page 1966, latent semantisk analys (LSA) introducerades för klassificering uppsats 1997 av Thomas Landauer och Peter Foltz och e-rater använt av pedagogiska provning tjänst (ETS) och utvecklats av Jill Burstein. Beskrivningar av dessa synsätt kan hittas i Whittington och Hunt (1999) och Wresch (1993). Andra projekt av programvara nämns kort i Breland och Lytle (1990), Vetterli och Furedy (1997) och Whissel (1994).

PEG-klasserna uppsatser huvudsakligen på grundval av skrivkvalitet (sida, 1966, 1994). Underliggande teorin är att det finns inneboende kvaliteter till en persons skrift stil kallas trins som måste vara mätt, analogt med sann noter i mätning teorin. PEG använder approximationer av dessa variabler, kallas proxes, för att mäta dessa underliggande drag. Särskilda attribut skrivande stil, till exempel genomsnittlig ordlängd, antal semikolon och ordet sällsynthet är exempel på proxes som kan mätas direkt av PEG att generera en grad. Ett givet exempel på uppsatser, mänskliga bedömare grade ett stort antal uppsatser (100 till 400), och fastställa värden för upp till 30 proxes. Betygen då anges som variabeln kriterium i en regressionsekvationen med alla proxes som prediktorer och beta vikter beräknas för varje indikator. Värdena för proxes finns för de återstående unscored uppsatserna, och dessa värden viktas sedan av betas från den grundläggande analysen att beräkna en poäng för uppsatsen.

Sida har över 30 års forskning genomgående visar exceptionellt höga korrelationer. I en mycket relevant studie, Page (1994) analyserade prover av 495 och 599 senior uppsatser från 1998 och 1990 nationell utvärdering av pedagogiska framsteg med svar på en fråga om en rekreation möjlighet: om en regering ska spendera sin rekreation pengar fixa några övergivna järnvägsspåren eller konvertera en gammal lagerlokal till nya användningsområden. Med 20 variabler nådde PEG flera Rs så hög som.87, nära den uppenbara tillförlitligheten riktade domare grupperna.

Först patenterade 1989, utformades LSA för indexering av dokument för informationssökning. Den bakomliggande tanken är att identifiera vilken av flera kalibrering dokument liknar mest den nya dokument som baseras på den mest specifika (dvs. minst frekventa) index villkor. För uppsatser, det genomsnittliga betyget på de mest liknande handlingar som kalibrering är utsedd som den datorgenererade poängen (Landauer, Foltz, Lindström, 1998).

Med LSA arrangeras varje kalibrering dokument som en kolumn i en matris. En lista över varje relevant innehåll term, definieras som ett ord, mening eller punkt, som visas i någon av handlingarna som kalibrering sammanställs och dessa benämner blivet i matrisraderna. Värdet i en viss cell i matrisen är en interaktion mellan förekomsten av termen i källan och vikten som tilldelats den termen. Villkor inte finns i en källa tilldelas cellvärdet 0 för kolumnen. Om en term är närvarande, kan sedan benämna viktas i en mängd olika sätt inklusive en 1 anger att det är närvarande, en sammanställning av antalet gånger ordet visas i källan, eller några andra vikt kriterium ombud om betydelsen av termen i dokumentet som det visas eller övergripande innehåll domänen.

Varje uppsats att graderas omvandlas till en kolumn vektor, med essäen som representerar en ny källa med cellvärden baserade på villkor (rader) från den ursprungliga matrisen. En likhet poäng beräknas därefter för uppsats kolumn vektorn i förhållande till varje kolumn i matrisen rubriken. Den uppsats klass bestäms av genomsnitt likheten poäng från ett förutbestämt antal källor som är mest liknande. Deras system ger också en hel del av diagnostiska och värderande feedback. Som PEG, Foltz, rapporterar Kintsch och Landauer (1998) också anmärkningsvärt höga korrelationer mellan LSA noter och mänskliga gjorde uppsatser.

Den pedagogiska provning tjänst elektroniska uppsats Rater (e-rater) är en sofistikerad “Hybrid funktionen teknik” som använder syntaktiska sort, diskurs struktur (som PEG) och innehållsanalys (som LSA). För att mäta syntaktiska utbud, e-bedömare räknar antalet komplement, underordnad, infinitiv, relativsats och förekomster av modala hjälpverb (vill, kunde) att beräkna nyckeltal dessa syntaktiska funktioner per meningen och uppsats. För strukturanalys använder e-rater 60 olika funktioner, som liknar PEG’S proxes. Två index skapas för att utvärdera likheten av den mål uppsats innehåll till innehållet i kalibrerad uppsatser. Som beskrivs av Burstein, et.al (1998), i deras EssayContent analys modul, för varje poäng kategori omvandlas till en enda vektor vars element representerar den totala frekvensen av varje ord i utbildning uppsatser för att holistisk värdering kategori. Systemet beräknar korrelationer mellan vektorn för ett givet test uppsats och vektorer som företräder de utbildade kategorierna. Den värdering som är mest liknande test uppsatsen tilldelas som utvärderingen av dess innehåll.

E-rater ArgContent analysis-modulen är baserad på den omvänd dokument frekvensen, som LSA. Ordet frekvens vektorer för poäng kategorier konverteras till vektorer av ordet vikter. Den första delen av formeln vikt utgör framträdande av word jag i kategorin poäng och den andra delen är loggen av ordet omvänd dokument frekvens. För varje argument i test uppsatsen, är en vektor av ordet vikter också tillverkade och korrelerade. Som PEG, är analyserade funktioner sedan regredierat för att bygga en modell som förutsäga mänsklig grader noter.

Flera studier har rapporterat gynnsamt på PEG, LSA och e-rater. Programmen har återvänt kvaliteter som korrelerade signifikant och meningsfullt med mänskliga bedömare. En genomgång av forskning om LSA fann att dess ställningar normalt korrelerar också med mänskliga bedömare som bedömare gör med varandra, ibland korrelera mindre bra, men ibland korrelerar bättre (Chung & O’Neil, 1997). Forskning om PEG rapporterar genomgående överlägsen korrelationer mellan PEG och mänskliga klassare i förhållande till korrelationer mellan mänskliga väghyvlar (e. g., Page, Poggio & Keith, 1997). E-rater ansågs så imponerande det är nu fungerande och används för att poäng den allmänna förvaltningen Aptitude Test (GMAT).