1

Ich bin neugierig, ob jemand versteht, weiß oder kann mich auf umfangreiche Literatur oder Quellcode auf, wie Google ihre beliebte Passage Blöcke Feature erstellt. Wenn Sie jedoch eine andere Anwendung kennen, die das gleiche tun kann, schreiben Sie bitte auch Ihre Antwort.Wie wurde das beliebte Passage-Feature von Google Books entwickelt?

Wenn Sie nicht wissen, was ich über here is a link to an example Popular Passages schreibe. Wenn Sie an der Übersicht über das Buch aussehen die rechtliche Entscheidungsprozess-Anwendungen für Informationstechnologie Modellierung ... Von Georgios N. Yannopoulos kann man so etwas sehen:

Beliebte Passagen

.. Richtung, unbestimmt. Wir haben nicht abgerechnet, weil wir nicht antizipiert haben, die Frage, die durch den nichtvisierten Fall ausgelöst wird, wenn es auftritt; ob ein gewisses Maß an Frieden im Park ist geopfert zu, oder verteidigt gegen diese Kinder, deren Freude oder Interesse es ist, diese Dinge zu verwenden. Wenn die nicht angezeigten Fall auftritt, wir konfrontieren die Fragen auf dem Spiel und können dann die Frage durch die Wahl zwischen den konkurrierenden Interessen in der Weise, die uns am besten erfüllt. In tut ... Page 86

Appears in 15 books from 1968-2003

Dies wäre eine Welt fit für "mechanische" Jurisprudenz sein. Einfach diese Welt ist nicht unsere Welt; Mensch Gesetzgeber können keine solche Kenntnisse haben aller möglichen Kombinationen von Umstände, die die Zukunft bringen kann. Diese Unfähigkeit zu antizipieren bringt eine relative Unbestimmtheit des Ziels mit sich. Wenn wir fett sind genug, um eine allgemeine Regel des Verhaltens Rahmen (zB, die in der Regel kein Fahrzeug in den Park genommen werden kann), die Sprache in diesem Zusammenhang verwendet behebt notwendige Bedingungen, die etwas erfüllen müssen ... Page 86

Appears in 8 books from 1968-2000

more

Es muss ein intensives Musteranpassungsverfahren sein. Ich kann nur an N-Gramm-Modelle, Textkorpus, automatische Plagisrismus-Erkennung denken. Aber manchmal sind N-Gramme probabilistische Modelle für die Vorhersage des nächsten Elements in einer Sequenz und Textkorpus (nach meinem Wissen) werden manuell erstellt. Und in diesem speziellen Fall, populären Passagen, kann es eine Menge Worte geben.

Ich bin wirklich verloren. Wenn ich ein solches Feature erstellen möchte, wie oder wo soll ich anfangen? Enthalten Sie in Ihrer Antwort auch, welche Programmiersprachen für diese Dinge am besten geeignet sind: F # oder andere funktionale Sprachen, PERL, Python, Java ...(Ich bin immer ein F # Fan selbst)

PS: kann jemand das Tag automatisch-Plagiat-Erkennung enthalten, weil ich kann nicht

+0

Ich habe versucht, das Tag hinzuzufügen, aber es sieht aus wie SO-Tags sind auf 25 Zeichen begrenzt. – outis

+0

* automatische Plagiatserkennung * als Tag, scheint esoterisch. Ich bezweifle, dass jemand als Suchkriterium verwenden würde. Vielleicht möchten Sie sich etwas Generalisierteres einfallen lassen. – ichiban

+0

Nun, so habe ich die Industrie gesehen, die das Zeug markiert. Ich glaube nicht, dass ich die Autorität habe, es zu ändern. Gehen Sie voran und versuchen Sie eine Suche und Sie werden einige Ergebnisse finden unter: ieee.org und acm.org und das MOSS Projekt in Stanford, um nur einige zu nennen. – dde

Antwort

6

Gelesen this ACM paper durch Kolak und Schilit, die Google-Forscher, die populäre Durchgänge entwickelten. Es gibt auch a few relevant slides von diesem MapReduce-Kurs unterrichtet von Baldridge and Lease an der Universität von Texas in Austin.

0

In der kleinen Probe ich übersehen, es sieht aus wie alle Passagen gepflückt waren Inline- oder Block-Anführungszeichen. Nur eine Vermutung, aber vielleicht sucht Google Books nach Anführungszeichen/Unterschieden in Formatierung und Zitat und verwendet dann eine geparste Version der Bibliografie, um das Zitat mit der Quelle zu verknüpfen. Hurra für Style-Handbücher.

Dieser Ansatz hilft offensichtlich nicht bei der Erkennung von Plagiaten und ist wenig hilfreich, wenn das Korpus nicht in einem Format vorliegt, das die Textformatierung bewahrt.

0

Wenn Sie wissen, welche Bücher andere Bücher zitieren oder auf sie verweisen, müssen Sie nicht alle möglichen Bücher betrachten, sondern nur die Bücher, die sich gegenseitig zitieren. Wenn es sich um eine wissenschaftliche Referenz handelt, sind die Zeilen- und Seitennummern oft in dem Zitat enthalten oder können in der Bibliographie am Ende des Buches gefunden werden, also analysiert Google vielleicht nur diese Informationen?

Google Scholar hat sicherlich die Informationen über das Zitieren von Papier zu Papier vielleicht von Buch zu Buch.