2016-06-30 5 views
2

Ich möchte Deep Learning mit Python versuchen und lernen. Das erste, was mir für ein nützliches Szenario in den Sinn kam, wäre ein Duplikat-Check.Python Deep Learning finde Duplikate

Angenommen, Sie haben eine Kundentabelle mit Name, Adresse, Telefonnummer, E-Mail-Adresse und möchten neue Kunden hinzufügen. Z. B .:

In Table: 
Max Test,Teststreet 5, 00642/58458,[email protected] 
To Insert: 
Max Test, NULL, (+49)0064258458, [email protected] 

Dies sollte als doppelten Eintrag erkannt werden.

Gibt es bereits Tutorials für diesen Anwendungsfall? Oder ist es überhaupt möglich mit Deep Learning?

Antwort

1

Das Duplikat-Matching ist ein Sonderfall der Ähnlichkeitsanpassung. Sie können Eingabe-Features entweder als einzelne Zeichen oder Felder definieren und dann Ihr Netzwerk trainieren. Es ist ein binäres Klassifizierungsproblem (true/false), es sei denn, Sie möchten einen Ähnlichkeitswert (95% Übereinstimmung) haben. Das Netzwerk sollte lernen können, dass Interpunktion und Whitespace irrelevant sind und eine "oder Funktion" für mindestens eines der Felder, die übereinstimmen, um wirklich positiv zu produzieren.

Klingt wie ein ziemlich einfacher Fall für das tiefe Lernen.

Ich kenne kein bestimmtes Tutorial dafür, aber ich habe versucht, Ihnen einige Schlüsselwörter zu geben, nach denen Sie suchen.