Ich bin auf der Suche nach einer Möglichkeit, einen bekannten Datensatz zu finden, sagen wir mal eine Liste von MP3s oder WAV-Dateien, die jeweils ein Beispiel für jemanden sind, der spricht. An diesem Punkt weiß ich, dass Datei ABC von Person X spricht.CMU Sphinx für Sprach-/Sprechererkennung
Ich würde dann gerne ein anderes Beispiel nehmen, und einige Stimmabgleich tun, um zu zeigen, wer diese Stimme am wahrscheinlichsten ist, gegeben dann bekannten Datensatz.
Auch interessiere ich mich nicht unbedingt, was die Person gesagt hat, solange ich eine Übereinstimmung finden kann, d. H. Ich brauche keine Transkription oder anderweitig.
Ich bin mir bewusst, CMU Sphinx macht keine Spracherkennung, und es wird hauptsächlich für Voice-to-Text verwendet, aber ich habe andere Systeme gesehen, zB: die LIUM Speaker Diarization (http: //cmusphinx.sourceforge. net/wiki/spreaderdiarization) oder das VoiceID-Projekt (https://code.google.com/p/voiceid/), das CMU als Grundlage für diese Art von Arbeit verwendet.
Wenn ich CMU verwenden soll, wie kann ich Sprachanpassungen durchführen?
Auch, wenn CMU Sphinx nicht der beste Rahmen ist, gibt es eine Alternative, die Open Source ist?
Irgendwelche Follow-up? Was hast du getan? Warst du erfolgreich? – Dariusz