2016-04-06 9 views
1

Ich habe eine große Datenbank mit vielen Einträgen (die meisten von ihnen Filme), die nur Beschreibung als Information hat. Eine Beschreibung des Eintrags mit der ID 1 (zum Beispiel) kann wie:Named Entity Recognition aus dem persönlichen Wörterbuch in Python

‚Forrest Gump ein 1994 amerikanisches Epos romantische Komödie-Drama Film auf den 1986 Roman mit dem gleichen Namen von Winston Groom basierte. Der Film war unter der Regie von Robert Zemeckis und Sterne Tom Hanks, Robin Wright, Gary Sinise, Mykelti Williamson und Sally Field.

Jetzt habe ich auch einige txt Dokumente, die im Grunde Wörterbücher sind, und sind wie folgt strukturiert:

actors.txt 

Mickey Mouse 
Tom Hanks 
... 

directors.txt 

Donald Duck 
Robert Zemeckis 
... 

Was möchte ich tun, ist die Beschreibung der einzelnen Eintrag zu analysieren und benannten Entitäten analysieren von meiner Wörterbuch. Wenn also der Text "Tom Hanks" enthält, möchte ich erkennen, dass der Eintrag mit ID 1 Tom Hanks als Schauspieler hat und so weiter. Eine Ausgabe sollte in etwa so aussehen:

Actor: Tom Hanks, Actor: Robin Wright, Director: Robert Zemeckis, Distributor: Paramount Pictures. 

oder welches Format auch immer einfach zu manipulieren.

Antwort

1

Sie müssen nur SOLR verwenden, ein paar neue Feldtypen (wie text_actors) in seinem Schema einrichten, die mit entsprechenden Wörterbüchern verknüpft sind, das entsprechende Schema schreiben und dann die Datenbank importieren. Soweit ich weiß, kann dies Ihnen helfen, eine durchsuchbare Datenbank zu entwickeln, mit der Sie alle Ergebnisse abfragen und Ihre eigene Datenbank auffüllen können.