1

Ich arbeite an einer App, die den Benutzer eine kurze Geschichte (1-2 Minuten) erzählen und es in Text transkribieren lässt.Service erkennen Text, bis ich pausiere und nichts nach

Ich verwende MediaCapture zum Streamen und Senden der aufgenommenen Stimme mit Chunked Transfer Encoding an die Bing Speech API. Bis auf ein Problem funktioniert alles: Wenn der Benutzer für einige Sekunden pausiert und nichts weitermacht, hat er nach der Erkennung der Pause gesprochen.

Ich versuchte das gleiche mit einer aufgezeichneten WAV-Datei, um sicherzustellen, dass die Chunked-Übertragung nicht die Ursache dieses Problems ist. Aber es erzeugte das gleiche Verhalten. Also ist die Übertragung korrekt und ich bekomme eine gültige Antwort, aber nur für den ersten Teil des Datensatzes.

Hat jemand das gleiche Problem? Ist das Absicht und wenn ja: Gibt es einen Weg um dieses Verhalten?

Antwort

0

Sie könnten die SDK verwenden möchten. Es ist besser für lange Form Szenarien wie Diktat geeignet. Es gibt nur ein paar Sekunden Wartezeit, bevor die Verbindung in der Rest-API geschlossen wird, aber sie ist länger für das SDK.