Ich denke, was Amazon "Statistische unwahrscheinliche Phrasen" nennt, sind Wörter, die in Bezug auf ihren riesigen Korpus von Daten unwahrscheinlich sind. Selbst wenn ein Wort in einem gegebenen Buch A 1000-mal wiederholt wird, ist es ein SIP, wenn dieses Buch der einzige Ort ist, an dem es erscheint, denn die Wahrscheinlichkeit, dass es in irgendeinem Buch erscheint, ist zilch (weil es ist spezifisch für Buch A). Sie können diese Fülle von Daten nicht wirklich kopieren, um Informationen zu vergleichen, es sei denn, Sie arbeiten mit vielen Daten.
Was sind viele Daten? Nun, wenn Sie literarische Texte analysieren, dann möchten Sie ein paar tausend Bücher von Gutenberg herunterladen und verarbeiten. Aber wenn Sie Rechtstexte analysieren, dann müssen Sie den Inhalt der juristischen Bücher spezifisch einspeisen.
Wenn, wie es wahrscheinlich der Fall ist, Sie nicht viele Daten als Luxus haben, dann müssen Sie sich auf die eine oder andere Weise auf die Frequenzanalyse verlassen. Aber anstatt die relativen Häufigkeiten zu berücksichtigen (Brüche des Textes, wie oft in Betracht gezogen wird), sollten Sie die absoluten Häufigkeiten berücksichtigen.
Zum Beispiel hapax legomenon auch im Netzwerkanalyse-Domäne als 1-Mäuse bekannt, von besonderem Interesse sein könnte. Sie sind Wörter, die nur einmal in einem gegebenen Text vorkommen.Zum Beispiel erscheinen diese Wörter in James Joyces Ulysses nur einmal: postexilic, ätzend, Romanys, Makrokosmos, diakonisch, Kompressibilität, Aungier. Sie sind keine statistisch unwahrscheinlichen Sätze (wie es "Leopold Bloom" wäre), so charakterisieren sie das Buch nicht. Aber es sind Begriffe, die selten genug sind, dass sie nur einmal im Ausdruck dieses Schreibers erscheinen, so dass Sie denken können, dass sie in gewisser Weise seinen Ausdruck charakterisieren. Sie sind Wörter, die er im Gegensatz zu üblichen Wörtern wie "das", "Farbe", "böse" usw. ausdrücklich verwenden wollte.
Also diese sind ein interessantes Artefakt, und die Sache ist, sie sind ziemlich einfach zu extrahieren (denken O (N) mit konstantem Gedächtnis), im Gegensatz zu anderen, komplexeren Indikatoren. (Und wenn Sie Elemente, die etwas häufiger sind, dann können Sie zu 2-Mäuse, ..., 10-Mäuse, die ähnlich leicht zu extrahieren sind.)
+1, das ist sehr interessant, danke! –
Funktioniert ziemlich gut auf Darwins Buch, aber auf Joyce Ulysses, es produziert einige ein bisschen weniger nützliche Ergebnisse: ich, sagte, sagt, du, sie, sie, blühen, Herr, Projekt, ich ... sind die ersten zehn Worte. Wenn du dich bis zu den nächsten vierzig ausstreckst, bekommst du: Mulligan, ist, Joe, Bock, er war es, der, Bürger, eglinton, douce, mein, wie, j, cissy, o, wir, Hahn, omolloy, deasy , das, hatte, alf auch, conmee, gutenberg, haines, myles, martin, kennedy, draußen, sein, ihr, sie, ned, gerty, hes, lenehan, edy ... Übrigens merke ich, dass ich nicht Ziehe das Projekt Gutenberg logorhea gut genug ab !! –