2016-07-13 26 views
0

Ich habe eine funktionierende App, die die Bluemix Speech to Text API verwendet, um Untertitel für Http Live Streaming-Quellen bereitzustellen. Es gibt jedoch eine gewisse Verzögerung beim Parsen des Sounds aus den ts-Dateien. Mein Code ist wie folgt:bluemix Echtzeit-Sprache zu Text mit HLS

Gibt es eine schnellere API zu verwenden, die mich näher an Echtzeit bringt?

Dank

+0

Hallo Aaron, Welches Modell verwenden Sie weitere Informationen über diese Modelle und ihre Eigenschaften sehen? Englisches Breitbandmodell? Die Geschwindigkeit hängt stark von der Qualität der Aufnahme ab. Was ist der Echtzeitfaktor, den Sie erhalten (RTF = Dekodierungszeit/Audiozeit)? Welches Audioformat? Bitte versuchen Sie, Ihre Datei über unsere Demo zu füttern. Wenn ich damit rede, werde ich immer schneller als in Echtzeit erkannt. Dani –

Antwort

0

Open-Source-Implementierung auf Basis von Kaldi wie diese CloudASR viel schneller als in Echtzeit ausgeführt werden konnte, können Sie das System auch stimmen können ausgeglichen obwohl zwischen Geschwindigkeit und Genauigkeit .. Sie müssen auf den Server Cloud halten.

+0

Datenschutz könnte auch ein Anliegen sein ... –

+0

Welche Sorge, wenn Sie dies in Ihrer eigenen Cloud ausführen. Es ist viel besser als Daten an IBM zu senden. –

0

Die Watson Speech-to-Text-API bietet verschiedene Eingabemodelle mit unterschiedlichen Leistungsmerkmalen. Abhängig von der Qualität des Audios ist das BroadbandModel etwas schneller als Echtzeit, aber das NarrowBand ist etwas langsamer als Echtzeit. Welches Modell verwendest du? Wenn Sie das BroadbandModel nicht bereits verwenden, versuchen Sie es, da dies für eine Untertitelanwendung besser geeignet sein sollte, vorausgesetzt, dass das Audio auch in Echtzeit streamt.

Sie können in der Dokumentation bei http://www.ibm.com/watson/developercloud/doc/speech-to-text/input.shtml#models