Ich bin auf der Suche nach einer einfachen C# Echtzeit-Spracherkennung Bibliothek. Die Eingabe sollte ein Audiostream sein, und die Ausgabe sollte "menschliche Stimme" oder "keine menschliche Stimme" sein. Ich habe keine Kenntnisse in der Spracherkennung oder Signalverarbeitung, und ich werde jede Art von Hilfe zu schätzen wissen.Spracherkennung in C#
Antwort
Werfen Sie einen Blick auf die Antwort für "Detecting audio silence in WAV files using C#". Ich gehe davon aus, dass die Eingabe eine WAV-Datei ist. Wenn nicht, geben Sie bitte das Format des Audio-Streams an, oder wenn Sie beabsichtigen, direkt vom Mikrofon Eingaben zu machen. Wenn Sie die Stille in einem Audiostream messen können und Sie die Dauer des Audiostreams kennen, können Sie die Gesprächsdauer berechnen. Der Link in der Antwort ist tot, aber wenn du zu codeproject.com gehst und nach "C# -Wellenform" suchst, bekommst du einen Treffer bei einer Reihe von Projekten, die dir zeigen, wie man wav-Dateien interpretiert und manipuliert. Das Erkennen von Stille kann etwas subjektiv sein, wenn Hintergrundgeräusche auftreten. Sie müssen einen Mindestlautstärkeschwellwert für die Stille auswählen, wenn etwas darunter als Stille gilt.
Wie wollen Sie herausfinden, was eine menschliche Stimme ist und was nicht? Dies ist kein einfaches Problem, aber wenn Sie einige Parameter auf das anwenden könnten, was Sie erreichen möchten, können wir Ihnen vielleicht eine Richtung vorschlagen. – Brad
Ich versuche zu messen, wie lange der Redner spricht und wie lange seine Pausen sind. –
Eine _similar_ aber nicht identische Frage wurde [hier] beantwortet (http://stackoverflow.com/questions/227140/c-sharp-spech-recognition-is-this-what-the-user-said "), vielleicht diese Information wäre nützlich. – eli