2010-07-01 6 views
8

Ich suche nach Referenzen (Tutorials, Bücher, akademische Literatur) über die Strukturierung von unstrukturierten Text in einer ähnlichen Weise wie der Google Kalender Quick Add Button.Unstrukturierter Text zu strukturierten Daten

Ich verstehe das unter der NLP Kategorie kommen kann, aber ich bin nur daran interessiert, in den Prozess von etwas gehen wie „Levi Jeans Größe 32 A0b293“

auf: Marke: Levi, Größe: 32, Kategorie: Jeans, Code: A0b293

Ich stelle mir vor es wäre eine Kombination aus lexikalischen Parsing und maschinellen Lerntechniken.

Ich bin eher sprachunabhängig, aber wenn gedrückt würde Python, Matlab oder C++ Referenzen

Dank

+0

Wie eingeschränkt ist Ihre Domain? Google Kalender Quick Add analysiert nur Daten und Zeiten (und nicht immer so gut). Das Google Maps-Suchfeld behandelt nur Standorte. Die Schwierigkeit, dies zu tun, hängt davon ab, wie eng Ihre Domain ist.(Ein Produktkatalog?) – tcarobruce

+0

Constrained mit Clothes wie im Beispiel – zenna

Antwort

7

Sie müssen sich mehr Informationen über die Quelle des Textes zur Verfügung stellen (das Web? Benutzereingabe?) Bevorzugen, die Domäne (ist es nur Kleidung?), die mögliche Formatierung und das Vokabular ...

Angenommen, Worst-Case-Szenario müssen Sie NLP lernen lernen. Ein sehr gutes kostenloses Buch ist die Dokumentation von NLTK: http://www.nltk.org/book. Es ist auch eine sehr gute Einführung in Python und die SW ist kostenlos (für verschiedene Verwendungszwecke). Sei gewarnt: NLP ist schwer. Es funktioniert nicht immer. Es macht manchmal keinen Spaß. Der Stand der Technik ist nicht in der Nähe, wo Sie es sich vorstellen.

Angenommen, ein besseres Szenario (Ihr Text ist semi-strukturiert) - ein gutes kostenloses Werkzeug ist pyparsing. Es gibt ein Buch, viele Beispiele und der daraus resultierende Code ist äußerst attraktiv.

Ich hoffe, das hilft ...

1

aussehen Möglicherweise auf "Collective Intelligence" von Toby Segaran. Ich glaube mich daran zu erinnern, dass ich die Grundlagen in einem Kapitel behandelt habe.

+0

eines der besten Bücher für kollektive Intelligenz da draußen zu behandeln. – jvc

1

Nach einiger forsch Ich habe festgestellt, dass dieses Problem im Allgemeinen als Information Extraction bezeichnet und haben ein paar Papiere und gespeichert sie in einem Mendeley Sammlung

http://www.mendeley.com/research-papers/collections/3237331/Information-Extraction/

auch als Tai Weiss NLTK angehäuft bemerkt für Python ist ein guter Ausgangspunkt und this Kapitel des Buches, sieht speziell auf die Extraktion von Informationen

+0

Dieser Link scheint tot zu sein –

0

Wenn Sie nur für Fälle wie das Beispiel arbeiten, das Sie zitiert, sind Sie besser dran mit einigen m auf einer regelbasierten Basis, die 100% vorhersehbar ist und 90% der Fälle abdeckt, in denen die Produktion stattfinden könnte.

Sie können Listen aller möglichen Marken und Kategorien aufzählen und feststellen, welche in einer Eingabe-Zeichenkette cos gibt es normalerweise sehr wenig Kreuzung in diesen zwei Listen.

Die anderen zwei konnten leicht erkannt und extrahiert werden mit regulären Ausdrücken. (1-3 Ziffern sind immer Größen, etc.)

Ihre Problemdomäne scheint nicht groß genug, um einen schwereren Ansatz wie statistisches Lernen zu rechtfertigen.

+0

Einverstanden, ich vermute, Google Kalender verwendet ein regelbasiertes System (denke reguläre Ausdrücke), um die Analyse zu tun. Maschinelles Lernen ist nützlicher, wenn Informationen aus unsichererem Text herausgezogen werden. Aber wenn Ihre Domäne ziemlich gut bekannt ist und die Eingabezeichenfolge begrenzt ist, können Sie mit Regeln durchkommen. – Thien