6

Ich bin auf der Suche nach einer Möglichkeit, einen bekannten Datensatz zu finden, sagen wir mal eine Liste von MP3s oder WAV-Dateien, die jeweils ein Beispiel für jemanden sind, der spricht. An diesem Punkt weiß ich, dass Datei ABC von Person X spricht.CMU Sphinx für Sprach-/Sprechererkennung

Ich würde dann gerne ein anderes Beispiel nehmen, und einige Stimmabgleich tun, um zu zeigen, wer diese Stimme am wahrscheinlichsten ist, gegeben dann bekannten Datensatz.

Auch interessiere ich mich nicht unbedingt, was die Person gesagt hat, solange ich eine Übereinstimmung finden kann, d. H. Ich brauche keine Transkription oder anderweitig.

Ich bin mir bewusst, CMU Sphinx macht keine Spracherkennung, und es wird hauptsächlich für Voice-to-Text verwendet, aber ich habe andere Systeme gesehen, zB: die LIUM Speaker Diarization (http: //cmusphinx.sourceforge. net/wiki/spreaderdiarization) oder das VoiceID-Projekt (https://code.google.com/p/voiceid/), das CMU als Grundlage für diese Art von Arbeit verwendet.

Wenn ich CMU verwenden soll, wie kann ich Sprachanpassungen durchführen?

Auch, wenn CMU Sphinx nicht der beste Rahmen ist, gibt es eine Alternative, die Open Source ist?

+1

Irgendwelche Follow-up? Was hast du getan? Warst du erfolgreich? – Dariusz

Antwort

2

Dies ist ein Thema, das in der Komplexität für eine Doktorarbeit angemessen wäre. Es gibt derzeit keine guten und zuverlässigen Systeme.

Die Aufgabe, für die Sie sich entscheiden, ist sehr komplex. Wie Sie es angehen sollten, hängt von Ihrer Situation ab.

  • Haben Sie eine begrenzte Anzahl an Personen? wie viele?
  • Wie viele Daten haben Sie für jede Person?

Wenn Sie nur sehr wenige Menschen haben zu erkennen, können Sie etwas so einfach wie den Erhalt formants jener Menschen, und vergleicht sie mit einer Probe versuchen.

Andernfalls - Sie müssen einige Akademiker kontaktieren, die an dem Thema arbeiten oder eine eigene Lösung erstellen. Wie auch immer, wie gesagt, es ist ein schwieriges Problem.

+0

Ich bin neugierig auf Ihre Aussage, dass es keine guten und zuverlässigen Systeme gibt. [this paper] (http://publications.idiap.ch/downloads/papers/2012/Vijayasenan_INTERSPEECH2012_2012.pdf) erwähnt vier Diarisierungs-Frameworks und das vom OP erwähnte LIUM-Tool (von 2009) scheint ziemlich gut verwendet zu werden, z.B. von der Sphinx-Gemeinschaft. Haben diese bestehenden Ansätze spezifische Einschränkungen? –

+0

Ich hätte schreiben sollen: "Ich kenne keine". Hast du diese Ergebnisse trotzdem gesehen? Sie sind nicht so toll. Die Verwendung von Sprache als biometrisches Merkmal ist immer noch sehr unzuverlässig. – Dariusz