Ich habe eine Sprachanwendung, die viel verbessert wäre, wenn es die Möglichkeit geben würde, ein "Triggerwort" zu verwenden, um die Audioaufnahme zu starten. Ich brauche keine vollständige Sprache-Text-Engine, nur die Fähigkeit, zuverlässig/effizient das Triggerwort zu erkennen."Voice trigger" Erkennung
Ich frage mich, ob es spezialisierte Sprach-Engines gibt, die diesen speziellen Anwendungsfall unterstützen, oder irgendwelche Bibliotheken/Methoden zur Entwicklung einer solchen Einzweck-Erkennungs-Engine. Idealerweise möchte ich, dass es in lauten Umgebungen funktioniert, aber es kann für die Stimme eines einzelnen Benutzers trainiert werden.
Zeiger zu Forschungspapieren/Themen würde auch geschätzt werden, so dass ich weiß, was zu fragen.
Muss es Wörter gesprochen werden? Ein Klatschen oder Pfeifen wäre viel einfacher. – endolith