2016-05-05 10 views
1

Ich versuche, Entitäten (Name, Adresse, Organisation) aus nicht so natürlichen Text, wie Kommentar in Banküberweisungen zu extrahieren. Offensichtlich nicht gute Ergebnisse zu erhalten, verwendet NLTK, OpenNLP und CoreNLP.Entity Extraktion von Banküberweisungen (wie nicht-so-natürlich-Text)

Irgendeine Idee, wie man die Ergebnisse verbessert?

der Text wie, aussehen kann

  1. Everitt 620122T NAT ABC INDIA LTD
  2. REF ROBERT FINEMANN - GRUND SHOP RENTAL
  3. REF BY92 00 112233999 - GRUND SPEEDING FINE
  4. GEM SS HEUTIGEM SCHIENDLER
  5. PENSION CH1234 CAB28

...

Verweis auf Forschungsarbeiten oder bestehende Produkte auch

+0

Möglicherweise müssen Sie für einen solchen Dienst "bezahlen", P – alvas

Antwort

0

Es scheint mir helfen wird, werden Sie ein Wörterbuch/Datenbank verwenden.

Sie versuchen, eine wachsende könnte ein Verfahren wie folgt aus: http://www.cs.columbia.edu/~mcollins/papers/eacl2014.pdf

Aber Sie müssen noch eine Möglichkeit haben Kandidaten „Sätze“ zu definieren - Beispiele aus dem Papier, z.B. Großgeschriebene Wörter, wird hier offensichtlich nicht funktionieren.

1

wenn Sie opennlp und wissen verwenden, wie zu trainieren, sollten Sie 15000 Beispiele in der Trainingsdaten geben, die wie

<START:name> EVERITT <END> <START:Address> 620122T NAT <END> <START:Organisation> ABC INDIA LTD <END> 
....... 
....(15000 lines) 

aussehen kann und dann können Sie einige gute Ergebnisse erwarten!