Methodik

4 Methodik

 

Wie im vorherigen Abschnitt beschrieben, bestehen unsere Daten aus 239 Proben von unbekannten Autoren (den Kapiteln des Buches Mormon entsprechend) und 217 Proben, die von 7 bekannten Autoren geschrieben wurden. Wir nennen diese Analyse den 'Sieben-Autoren-Fall'. Die Anzahl der Textproben, die für diese Analyse benutzt wurden, stellt sich wie folgt dar: Cowdery (19), Pratt (53), Rigdon (23), Spalding (17), Jesaja-Maleachi (70), Barlow (12) und Longfellow (23). Wir benutzten einen Satz von 110 Wörtern oder 'Features', der in drei Schritten gewonnen wurde:

 

    1. Wir wählten die Wörter aus, die mindestens einmal in den Proben eines jeden Autors und auch mindestens einmal im Buch Mormon auftraten. Das Ergebnis waren 521 Wörter.

    2. Wir wählten den Teilsatz dieser 521 Wörter aus, die eine mittlere relative Häufigkeit quer durch alle 456 Proben von mindestens 0,1% haben. Das Ergebnis war ein Satz von 114 Wörtern.

    3. Wir entfernten die Wörter 'god', 'ye'. 'thy' und 'behold', da diese viel häufiger in Texten auftraten, die sich auf biblische Themen bezogen.

     

Die sich daraus ergebende Liste ist in Anhang B zu finden.31

Um Delta-Tabellen zu berechnen und NSC anzuwenden, verwandelten wir als erstes die 110 Wortkonten für jeden Text in relative Worthäufigkeiten. Für NSC formatierten wir die Daten als eine Matrix mit den Ausmaßen von 456 X 110 (Anzahl von Proben mal Anzahl von Wörtern). Wir ermittelten aus jeder Spalte den Mittelwert und teilten die Einträge in jeder Spalte durch die Standardabweichung für jene Spalte. Dann wendeten wir NSC auf die Daten an, indem wir das 'pamr' (Prediction Analysis for Microarrays)-Paket verwendeten, das auf der R-statistical Software-Website frei erhältlich ist.32

Delta und NSC beinhalten die Auswahl von Tuning-Parametern. Bei beiden Methoden bestimmen diese Tuning-Parameter die Anzahl der Wörter, die in den Klassifizierer einbezogen werden sollen. Um die Erfolgsrate von NSC und Delta bei zu klassifizierenden Kapiteln unbekannter Autoren zu bestimmen und um für den Tuning-Parameter einen Wert auszuwählen, führten wir eine Überkreuz-Bewertung durch. Grob gesprochen wird die Überkreuz-Bewertung wie folgt für eine Reihe von Werten des Tuning-Parameters durchgeführt:

 

  1. Man spaltet die Proben der unbekannten Autoren wahllos in zwei Gruppen auf: in einen 'Übungssatz', der die meisten Proben enthält, und einen 'Testsatz', der eine kleinere Portion der Proben enthält.

  2. Man führt die in Frage kommende Klassifizierungsmethode (entweder Delta oder NSC durch) mit dem vom Tuningparameter angegebenen Wert durch, indem man erst am Übungssatz übt und dann am Testsatz testet.

  3. Man rechnet den Fehleranteil von der Anzahl der falsch klassifizierten Testproben weg.

 

Die Überkreuzbewertung erlaubt uns, den Fehler einzuschätzen, den wir beim Versuch erhalten würden, die Proben der bekannten Autoren zu klassifizieren, indem wir NSC oder Delta anwenden. Der obige Prozess wurde viele Male wiederholt und die durchschnittliche Fehlerrate der Falschklassifizierung aufgezeichnet. Die niedrigste Delta-Fehlerrate von 11,1% wurde erreicht, indem neunzig Wörter benutzt wurden. Dies bedeutet, wenn wir Delta benutzen würden, um eine neue Probe zu klassifizieren, die von einem der sieben bekannten Autoren geschrieben wurde, dass dann die Wahrscheinlichkeit der korrekten Klassifizierung 88,9% betragen würde. Die niedrigste Fehlerrate bei NSC wurde erreicht, wenn alle 110 Wörter einbezogen wurden; die Fehlerrate war 8,8%. Dies bedeutet, dass wir zu 91,2% der Zeit erwarten könnten, eine neue Probe, die von einem der sieben Autorenkandidaten geschrieben wurde, richtig zu klassifizieren. Da es sieben Autorenkandidaten gibt, würde ein Klassifizierer, der völlig nach dem Zufallsprinzip einen Autor auswählt, eine korrekte Klassifizierungsrate von 1/7 oder 14,3% oder eine durchschnittliche Fehlklassifizierung von 6/7 oder 85,7% liefern. Deshalb sind die niedrigen Fehlerraten, die man bei der Verwendung von NSC und Delta erhält, beeindruckend. Die Tatsache, dass NSC niedrigere Fehlerraten liefert, weist darauf hin, dass diese Methode für eine Autorenzuordnung geeignet und in diesem Fall Delta überlegen ist.

Bei der Verwendung von Delta wurden 5 von 239 Kapiteln des Buches Mormon fälschlicher Weise dem Autor Longfellow (keines Barlow) zugeteilt, eine Fehlerrate von 2,1%. Bei der Verwendung von NSC wurden nur zwei Kapitel fälschlicher Weise Longfellow (keines Barlow) zugeordnet, eine Fehlerrate von 0,8%. Um beste Einschätzungen der Autorenschaft einzelner Kapitel für die fünf Autoren zu liefern, die historisch mit dem Buch Mormon in Verbindung gebracht werden (Spalding, Rigdon, Cowdery und Pratt), oder von denen man weiß, dass sie einen Beitrag leisteten (Jesaja-Maleachi), haben wir auch eine zweite Delta- und NSC-Analyse durchgeführt (die hiernach der 'Fünf-Autoren-Fall' genannt wird), bei der wir die Barlow- und Longfellow-Kontrolltexte ausließen. Im Fünf-Autoren-Fall erhielt man die niedrigste Fehlerrate, wenn 108 Wörter verwendet wurden (in Anhang B aufgelistet).

weiter

Facebook Like-Button
 
Werbung
 
 
Insgesamt waren schon 65722 Besucher (154193 Hits) hier!
=> Willst du auch eine kostenlose Homepage? Dann klicke hier! <=