Auditorische Verarbeitung ist eine sehr komplexe Aufgabe. Die menschliche Evolution hat ein System hervorgebracht, das so gut ist, dass wir nicht erkennen, wie gut es ist. Wenn drei Personen gleichzeitig mit Ihnen sprechen, können Sie sich auf ein Signal konzentrieren und die anderen ablegen, auch wenn sie lauter sind. Rauschen wird ebenfalls sehr gut verworfen. Wenn Sie die menschliche Stimme rückwärts abgespielt hören, senden die ersten Stufen des auditorischen Systems dieses Signal an einen anderen Verarbeitungsbereich, als wenn es sich um ein echtes Sprachsignal handelt, weil das System dies als "No-Voice" ansieht. Dies ist ein Beispiel für die herausragenden Fähigkeiten, die Menschen haben.
Die Spracherkennung entwickelte sich schnell aus den 70ern, weil Forscher die Produktion von Sprache untersuchten. Dies ist ein einfacheres System: Stimmbänder, die aufgeregt sind oder nicht, Resonanz des Vokaltrakts ... es ist ein mechanisches System, das leicht zu verstehen ist. Das Hauptprodukt dieses Ansatzes ist die cepstral analysis. Dies führte zur automatischen Spracherkennung (ASR), um akzeptable Ergebnisse zu erzielen. Aber das ist ein suboptimaler Ansatz. Die Geräuschtrennung ist ziemlich schlecht, selbst wenn es mehr oder weniger in sauberen Umgebungen funktioniert, wird es nicht mit lauter Musik im Hintergrund funktionieren, nicht wie es der Mensch tun wird.
Der optimale Ansatz hängt vom Verständnis des auditorischen Systems ab. Seine ersten Stadien in der Cochlea, der Colliculus inferior ... aber auch das Gehirn ist beteiligt. Und wir wissen nicht viel darüber. Es ist ein schwieriger Paradigmenwechsel.
Professor Hynek Hermansky verglichen in a paper den aktuellen Stand der Forschung mit, als Menschen fliegen wollten. Wir wussten nicht, was das Geheimnis war — Die Federn? Flügel flattern? — bis wir Bernoulli's Kraft entdeckt haben.
Wenn es so einfach ist, warum können Sie es nicht lösen? = :) –
Jeder scheint Ihre Prämisse akzeptiert zu haben - dass die Spracherkennung nicht voranschreitet - aber das ist einfach nicht wahr. Es kommt einfach nicht so schnell voran, wie du es gerne hättest. Schauen Sie sich Programme wie Dragon Naturally Speaking an, verglichen mit den schrecklichen Sprachprogrammen, die wir vor fünf oder zehn Jahren hatten. –