3

Ich habe eine Sprachanwendung, die viel verbessert wäre, wenn es die Möglichkeit geben würde, ein "Triggerwort" zu verwenden, um die Audioaufnahme zu starten. Ich brauche keine vollständige Sprache-Text-Engine, nur die Fähigkeit, zuverlässig/effizient das Triggerwort zu erkennen."Voice trigger" Erkennung

Ich frage mich, ob es spezialisierte Sprach-Engines gibt, die diesen speziellen Anwendungsfall unterstützen, oder irgendwelche Bibliotheken/Methoden zur Entwicklung einer solchen Einzweck-Erkennungs-Engine. Idealerweise möchte ich, dass es in lauten Umgebungen funktioniert, aber es kann für die Stimme eines einzelnen Benutzers trainiert werden.

Zeiger zu Forschungspapieren/Themen würde auch geschätzt werden, so dass ich weiß, was zu fragen.

+0

Muss es Wörter gesprochen werden? Ein Klatschen oder Pfeifen wäre viel einfacher. – endolith

Antwort

1

Okay, konnte ich völlig aus, aber eine voll funktionsfähige Spracherkennungs Bibliothek kann viel des Guten für Ihren Anwendungsfall sein ..

Wenn Sie mit etwas einfacher, aber immer noch Audio leben kann dies angetrieben betrachten:

Das Erkennen eines Handklatschens ist sehr einfach. Ein Handklatschen hat eine hohe Energie über das gesamte Audioband. Es zu erkennen ist einfach und viel billiger rechnerisch als vollständige Spracherkennung.

Kurz gesagt, notieren Sie den Ton, machen Sie eine (kurze) FFT auf den Daten und erkennen Sie den Fall, wo Sie in 80% der verfügbaren Frequenzbins hohe Energie haben. 80% kümmert sich um Phasenprobleme aufgrund einer einfachen Aufnahme-/Mikrofoneinstellung. Dann stellen Sie den Thresold nach Geschmack ein und fertig.

Das gleiche mit der Spracherkennung ist auch möglich, aber Sie werden Tonnen CPU-Zyklen brennen.

+0

Das ist sehr interessant. Aber könnten Sie die Sprache auf diese Weise erkennen? Sind das "Hey Siri" und "OK Google"? –

0

Was O/S? Ich frage mich zum Beispiel, ob Speech functionality in Windows Vista Ihnen helfen würde. Das Erkennen eines einzelnen Wortes scheint das einfachste mögliche Problem für jeden Sprachanalysator zu sein.

+0

Eine einzelne Phrase zu erkennen wäre einfacher.Je länger das zu erkennende Schlüsselwort oder die Phrase ist, desto leichter ist es, falsche Positive zu vermeiden. Deshalb ist die Erkennung endlicher Grammatiken viel einfacher und zuverlässiger als das Diktat. – user57368

0

Vor ein paar Tagen wurden a question über Spracherkennung Möglichkeiten auf Linux gefragt. Was Sie fragen, ist eine Teilmenge davon, ich nehme an, dass einige dieser Antworten nützliche Informationen enthalten könnten. Der in Joeforkers Antwort verlinkte Artikel war sehr interessant.

+1

Eine Erklärung, warum dies abgelehnt wurde, wird geschätzt. – hlovdal

0

Ich habe eine Sprachaufnahme Win32 App. Ich verwende ein OCX, um die Aufnahme/Wiedergabe zu verwalten.

Ich weiß, es ist nicht genau die Lösung, die Sie fragen, aber Sie könnten ein Fußpedal in Betracht ziehen. Es ist einfach zu programmieren und würde sehr wie ein gesprochenes Wort zum Starten/Stoppen der Aufnahme dienen. Überprüfen Sie diese: www.pedalpower.com

Hoffe, dass es,

Reinaldo hilft.

2

Ein Kollege von mir im Red5-Projekt erstellte eine ähnliche Demo mit Triggerwörtern, um eine Suche nach einem Image-Repository auszuführen. Wenn man "Katze" sagt, erscheint innerhalb einer Sekunde ein Bild einer Katze. Die Client-Anwendung wurde in Flash geschrieben und das Back-End lief auf Red5 mit der kostenlosen Sphinx-Bibliothek. Mit Sphinx könntest du ohne große Anstrengung machen, was du willst.
Sphinx Projekt: http://cmusphinx.sourceforge.net/sphinx4/