Ich möchte relevante Informationen zu wenigen Themen extrahieren. zum Beispiel:wie Informationen zu extrahieren ich will von NLKT
- Produktinformation
- Kauf Erfahrung von Kunden
- Empfehlung von Familie oder Freund
Im ersten Schritt extrahiere ich Informationen aus einem von der Website. zum Beispiel:
denke ich AIA hat eine bessere Lebensversicherung als mein Vergleich und die Unternehmen comparisonand wichtigsten ist auch Krankenversicherung in meinem opinionyes gibt es einige Mittel, die u Pläne, die ihre Provision verkaufen ist hoch ... dun sorge und kaufe versicherung von einer firma alles passiert du kannst kontakt zurück die firma kann auch ... besser einen agenten finden, der zuverlässig ist und nicht nur für die kommission arbeitet für jetzt könnten sie nicht service u in der Zukunft ... DanksagungenDiana ""
Dann mit NLTK in VS2015 versuchte ich Wörter zu teilen.
toks = nltk.word_tokenize(text)
von pos_tag verwendet, kann ich meine toks Tag
postoks = nltk.tag.pos_tag(toks)
aus diesem Teil bin ich nicht sicher, was soll ich tun? Zuvor verwendete ich IBM Text Analytic. In dieser Software benutze ich, um ein Wörterbuch zu erstellen und dann ein Muster zu erstellen und dann die Daten zu analysieren. zum Beispiel :
Probe von Wörterbuch: insurance_cmp: {AIA, IMG, SABB}
Beispiel für Muster:
insurance_cmp + Good_Feeling_Pattern
insurance_cmp + [ 'Kauf | Buy' ] + Bad_Feeling_Pattern
Good_Feeling_Pattern = [gut, wie es, nett]
Bad_Feeling_Pattern = [schlecht, schlechter, nicht gut, Bedauern]
Ich habe versucht, zu wissen, kann ich das gleiche in NLKT simulieren? Chunker und erstellen Grammatik kann mir helfen zu extrahieren, was ich suche? Kann ich bitte Ihre Idee haben, mich zu verbessern?
grammar = r"""
NBAR:
{<NN.*|JJ>*<NN.*>} # Nouns and Adjectives, terminated with Nouns
NP:
{<NBAR>}
{<NBAR><IN><NBAR>} # Above, connected with in/of/etc...
"""
chunker = nltk.RegexpParser(grammar)
tree = chunker.parse(postoks)
Bitte helfen Sie mir, was könnte mein nächster Schritt sein, um mein Ziel zu erreichen?