2010-08-13 4 views
10

Ich analysiere Sätze. Ich möchte den relevanten Inhalt jedes Satzes wissen, der lose als "halb eindeutige Wörter" im Verhältnis zum Rest des Korpus definiert ist. Etwas Ähnliches wie Amazons "statistisch unwahrscheinliche Phrasen", die (oft) den Charakter eines Buches durch seltsame Wortketten zu vermitteln scheinen.Wie kann ich nur 'interessante' Wörter aus einem Korpus finden?

Mein erster Durchlauf war es, eine gemeinsame Wörterliste zu erstellen. Dies klopft die einfachen wie a, the, from usw. Offensichtlich stellt sich heraus, dass diese Liste ziemlich lang wird.

Eine Idee ist, diese Liste zu erzeugen: Machen Sie ein Histogramm des Korpus Worthäufigkeiten und stutzt das obere 10% oder etwas ähnliches (IE the tritt 700 Mal, from 600-mal, aber micropayments nur 50, die ausgeschaltet ist unter dem Cutoff und daher relevant).

Ein weiterer Algorithmus, über den ich gerade von Hacker News erfahren habe, ist der Tf idf, der aussieht, als könnte er hilfreich sein.

Welche anderen Ansätze würden besser funktionieren als meine beiden Ideen?

Antwort

6

Werfen Sie einen Blick auf this article (Ebene Statistik der Worte: Die Suche nach Schlüsselwörtern in literarischen Texten und symbolischen Sequenzen, veröffentlicht in Phys Rev. E.).

Das Bild auf der ersten Seite erklärt zusammen mit der Bildunterschrift die entscheidende Beobachtung. In Don Quixote erscheinen die Wörter "but" und "Quixote" mit ähnlichen Häufigkeiten, aber ihre Spektren sind ziemlich unterschiedlich (Vorkommen von "Quijote" sind geclustert, während Vorkommen von "aber" gleichmäßiger beabstandet sind). Daher kann "Quijote" als ein interessantes Wort (Schlüsselwort) klassifiziert werden, während "aber" ignoriert wird.

Es könnte sein oder nicht, was Sie suchen, aber ich denke, es wird nicht weh tun, um mit diesem Ergebnis vertraut zu sein.

+0

+1, das ist sehr interessant, danke! –

+3

Funktioniert ziemlich gut auf Darwins Buch, aber auf Joyce Ulysses, es produziert einige ein bisschen weniger nützliche Ergebnisse: ich, sagte, sagt, du, sie, sie, blühen, Herr, Projekt, ich ... sind die ersten zehn Worte. Wenn du dich bis zu den nächsten vierzig ausstreckst, bekommst du: Mulligan, ist, Joe, Bock, er war es, der, Bürger, eglinton, douce, mein, wie, j, cissy, o, wir, Hahn, omolloy, deasy , das, hatte, alf auch, conmee, gutenberg, haines, myles, martin, kennedy, draußen, sein, ihr, sie, ned, gerty, hes, lenehan, edy ... Übrigens merke ich, dass ich nicht Ziehe das Projekt Gutenberg logorhea gut genug ab !! –

3

Ich denke, was Amazon "Statistische unwahrscheinliche Phrasen" nennt, sind Wörter, die in Bezug auf ihren riesigen Korpus von Daten unwahrscheinlich sind. Selbst wenn ein Wort in einem gegebenen Buch A 1000-mal wiederholt wird, ist es ein SIP, wenn dieses Buch der einzige Ort ist, an dem es erscheint, denn die Wahrscheinlichkeit, dass es in irgendeinem Buch erscheint, ist zilch (weil es ist spezifisch für Buch A). Sie können diese Fülle von Daten nicht wirklich kopieren, um Informationen zu vergleichen, es sei denn, Sie arbeiten mit vielen Daten.

Was sind viele Daten? Nun, wenn Sie literarische Texte analysieren, dann möchten Sie ein paar tausend Bücher von Gutenberg herunterladen und verarbeiten. Aber wenn Sie Rechtstexte analysieren, dann müssen Sie den Inhalt der juristischen Bücher spezifisch einspeisen.

Wenn, wie es wahrscheinlich der Fall ist, Sie nicht viele Daten als Luxus haben, dann müssen Sie sich auf die eine oder andere Weise auf die Frequenzanalyse verlassen. Aber anstatt die relativen Häufigkeiten zu berücksichtigen (Brüche des Textes, wie oft in Betracht gezogen wird), sollten Sie die absoluten Häufigkeiten berücksichtigen.

Zum Beispiel hapax legomenon auch im Netzwerkanalyse-Domäne als 1-Mäuse bekannt, von besonderem Interesse sein könnte. Sie sind Wörter, die nur einmal in einem gegebenen Text vorkommen.Zum Beispiel erscheinen diese Wörter in James Joyces Ulysses nur einmal: postexilic, ätzend, Romanys, Makrokosmos, diakonisch, Kompressibilität, Aungier. Sie sind keine statistisch unwahrscheinlichen Sätze (wie es "Leopold Bloom" wäre), so charakterisieren sie das Buch nicht. Aber es sind Begriffe, die selten genug sind, dass sie nur einmal im Ausdruck dieses Schreibers erscheinen, so dass Sie denken können, dass sie in gewisser Weise seinen Ausdruck charakterisieren. Sie sind Wörter, die er im Gegensatz zu üblichen Wörtern wie "das", "Farbe", "böse" usw. ausdrücklich verwenden wollte.

Also diese sind ein interessantes Artefakt, und die Sache ist, sie sind ziemlich einfach zu extrahieren (denken O (N) mit konstantem Gedächtnis), im Gegensatz zu anderen, komplexeren Indikatoren. (Und wenn Sie Elemente, die etwas häufiger sind, dann können Sie zu 2-Mäuse, ..., 10-Mäuse, die ähnlich leicht zu extrahieren sind.)

3

TF-IDF ist ein Weg zu gehen. Wenn Sie über Sätze eher als Worte, zusätzlich zu den hervorragenden Referenzen oben, hier ist ein einfaches Schema sprechen:

erstellen markov chain aus einem großen Stichprobe Korpus. Kurz gesagt konstruieren Sie eine Markov-Kette, indem Sie die Häufigkeit jedes n-Tupels in Ihrem Eingabetext aufzeichnen. Zum Beispiel wäre der Satz "das ist ein Test" mit 3-Tupeln (das ist, a), (ist, ein, Test). Dann gruppieren Sie jedes n-Tupel nach den ersten n-1-Termen, so dass Sie die Frage beantworten können: "Geben Sie die vorhergehenden n-1 Wörter an, wie hoch ist die Wahrscheinlichkeit, dass das nächste Wort das ist?"

Jetzt durchlaufen Sie für jeden Satz im Eingabedokument die Markov-Kette. Berechnen Sie die Wahrscheinlichkeit, den Satz zu sehen, indem Sie alle Wahrscheinlichkeiten multiplizieren, denen Sie begegnen, während Sie die Kette gemeinsam durchlaufen. Dies gibt Ihnen eine Schätzung, wie wahrscheinlich dieser Satz im Eingabekorpus ist. Vielleicht möchten Sie diese Wahrscheinlichkeit mit der Länge des Satzes multiplizieren, da längere Sätze statistisch weniger wahrscheinlich sind.

Jetzt haben Sie mit jedem Satz in Ihrer Eingabe eine Wahrscheinlichkeit zugeordnet. Wählen Sie die n am wenigsten wahrscheinlichen Sätze - das sind die "interessanten", für eine Definition von interessant.

+0

+1 das klingt interessant. Kannst du mir bitte die Zeitung empfehlen? – KillBill