Ich arbeite mit der Sprachverstehensdienst-API von Microsoft Cognitive Service, LUIS.ai.Token-Unterbrechungen bei Satzzeichen deaktivieren LUIS.ai
Immer wenn Text von LUIS analysiert wird, werden Leerzeichen immer um Interpunktion eingefügt.
Dieses Verhalten ist beabsichtigt, nach der documentation.
„Englisch, Französisch, Italienisch, Spanisch: token Umbrüche werden bei jedem Leerzeichen eingefügt, und um jede Interpunktion.“
für mein Projekt, ich brauche die ursprüngliche Abfrage-String zu erhalten, ohne diese Tokens, da einige Einheiten für mein Modell trainiert wird Interpunktionszeichen enthalten, und es ist ärgerlich und ein bisschen hacky das zusätzliche Leerzeichen aus den analysierten Entities abzustreifen .
Beispiel für dieses Verhalten:
Gibt es eine Möglichkeit, dies zu deaktivieren? Es würde eine Menge Aufwand sparen.
Danke !!