2012-09-25 12 views
6

Ich habe eine Reihe von Textdokumenten, die Krankheiten beschreiben. Diese Dokumente sind meist sehr kurz und enthalten oft nur einen einzigen Satz. Ein Beispiel ist hier gegeben:Krankheit namens Entität Anerkennung

primäre pulmonale Hypertonie ist eine progressive Erkrankung, bei der weit verbreitete Okklusion der kleinsten Lungenarterien führt pulmonalen Gefäßwiderstand und anschließend Rechtsherzversagen erhöht.

Was ich brauche, ist ein Werkzeug, das alle Krankheits Bedingungen (zum Beispiel „pulmonale Hypertonie“ in diesem Fall) in den Sätzen findet und ordnet sie einen kontrollierten Vokabular wie MeSH.

Vielen Dank im Voraus für Ihre Antworten!

+1

Das klingt sehr spezifisch und kein Programmierproblem * per se *. Zumindest nicht wie hier ausgedrückt. –

+1

Scheint dies eher eine Frage Data Mining? – Harpal

Antwort

2

gibt es viele Tools, das zu tun. einige populären:

meisten von ihnen kommen einige vordefinierte Modelle, dh sie wurden bereits an einem allgemeinen Datensatz trainiert s (Nachrichtenartikel usw.). Ihre Texte sind jedoch ziemlich spezifisch. Sie sollten daher zunächst ein Korpus erstellen und eines dieser Tools neu trainieren, um es an Ihre Daten anzupassen.

einfacher, können Sie als ersten Test einen wörterbuchbasierten Ansatz ausprobieren: Entwerfen Sie eine Liste von Entitätsnamen und führen Sie eine genaue oder ungefähre Übereinstimmung durch. zum Beispiel ist diese Operation in LingPipe's tutorial beschrieben.

6

Hier sind zwei Pipelines, die für die medizinische Dokument Parsen speziell darauf ausgelegt sind:

Beide verwenden UMLS, die einheitliche medizinische Sprachsystem und erfordern daher, dass Sie eine (kostenlose) Lizenz. Beide sind Java und mehr oder weniger einfach einzurichten.

+2

Ich bin nicht sicher, ob ich sie als "einfach einzurichten" klassifizieren würde, aber sie funktionieren ziemlich gut.Eine neue Version von MetaMap wurde Ende letzten Jahres ebenfalls veröffentlicht. –