2009-07-09 5 views
13

Was ist so schwierig an dem Thema, dass Algorithmus-Designer es schwer haben, es anzugehen?Warum läuft die Spracherkennung nicht?

Ist es wirklich so komplex?

Ich habe eine harte Zeit zu begreifen, warum dieses Thema so problematisch ist. Kann mir jemand ein Beispiel geben, warum das so ist?

+21

Wenn es so einfach ist, warum können Sie es nicht lösen? = :) –

+8

Jeder scheint Ihre Prämisse akzeptiert zu haben - dass die Spracherkennung nicht voranschreitet - aber das ist einfach nicht wahr. Es kommt einfach nicht so schnell voran, wie du es gerne hättest. Schauen Sie sich Programme wie Dragon Naturally Speaking an, verglichen mit den schrecklichen Sprachprogrammen, die wir vor fünf oder zehn Jahren hatten. –

Antwort

38

Denn wenn Menschen es schwer finden, andere Menschen mit einem starken Akzent zu verstehen, warum denken Sie, dass Computer besser darin sein werden?

+3

Ich liebe die Erklärung =) –

+14

können Sie 99923423423^32423343 berechnen? nein aber Computer kann;) – Sadegh

+4

Adinochestva: Eigentlich würde das Berechnen eine Weile dauern, sogar für einen Computer. Und es gibt keinen Grund, warum ein Mensch keine Turing-Maschine emulieren kann, also ist es theoretisch genauso schwer für einen Computer wie für einen Menschen. –

2

Die Sprachsynthese ist an sich sehr komplex - viele Parameter werden kombiniert, um die resultierende Sprache zu bilden. Es auseinander zu brechen ist schwer sogar für Leute - manchmal du mishear ein Wort für ein anderes.

6

beecos iyfe peepl finden es schwer zu armerstand uvver peepl wif e strang acsen wie duo yoo fink compotrs wyll bee ani bettre ayt es?

Ich wette, dass Sie eine halbe Sekunde brauchten, um herauszufinden, was zur Hölle ich tippte und alles was ich tat, war Simons Antwort in einem anderen "Akzent" zu wiederholen. Die Verarbeitungsleistung ist einfach noch nicht da, aber sie wird es.

+1

Und ich bemerkte gerade, dass ich einen Fehler in meiner Eingabe von "und alle IW wie gesagt" gemacht habe, was ironisch meinen Punkt hilft, denke ich. Das ist ein bisschen wie ein Sprach-Tick oder Stottern, was die Spracherkennung noch schwerer macht als nur Akzent-Probleme ... –

+0

Es sind nicht nur seltsame Akzente - das (englische) Spracherkennungstool in Macs erkennt selbst den britischen Akzent nicht! –

+1

Ich bin Brite und ich kann einige unserer regionalen Akzente nicht verstehen. –

0

Es ist nicht mein Bereich, aber ich glaube, dass es voranschreitet, nur langsam.

Und ich glaube, dass die Antwort von Simon in gewisser Weise richtig ist: Teil des Problems ist, dass keine zwei Menschen in Bezug auf die Muster sprechen, die ein Computer programmiert zu erkennen ist. Daher ist es schwierig, Sprache zu analysieren.

6

Die Vielfalt in der Sprache wäre der vorherrschende Faktor, was es schwierig macht. Dialekte und Akzente würden dies komplizierter machen. Auch Kontext. Das Buch wurde gelesen. Das Buch war rot. Wie bestimmen Sie den Unterschied? Der zusätzliche Aufwand, der dafür nötig ist, würde es einfacher machen, das Ding an erster Stelle zu tippen.

Jetzt wäre wahrscheinlich mehr Aufwand dafür erforderlich, wenn es notwendig wäre, aber die Fortschritte bei anderen Formen der Dateneingabe sind so schnell gekommen, dass dies nicht als notwendig erachtet wird.

Natürlich gibt es Bereiche, wo es großartig wäre, sogar sehr nützlich oder hilfreich. Situationen, in denen Sie Ihre Hände voll haben oder nicht auf einen Bildschirm zur Eingabe schauen können. Behinderten helfen etc. Aber die meisten davon sind Nischenmärkte, die eigene Lösungen haben. Vielleicht arbeiten einige davon mehr daran, aber die meisten Umgebungen, in denen Computer verwendet werden, sind keine guten Kandidaten für die Spracherkennung. Ich bevorzuge es, dass meine Arbeitsumgebung ruhig ist. Und endloses Geschwätz an Computer würde das Übersprechen zu einem realistischen Problem machen.

Darüber hinaus, wenn Sie Prosa zum Computer diktieren, ist jede andere Art der Eingabe einfacher und schneller mit Tastatur, Maus oder Touch. Ich habe einmal versucht, mit Spracheingabe zu codieren. Das Ganze war von Anfang bis Ende schmerzhaft.

+0

answer maid void durch neue Google Voice und Smartphone-Suche gesehen habe. ;) –

0

Computer sind nicht einmal sehr gut in der Verarbeitung natürlicher Sprache, um damit zu beginnen. Sie sind großartig in der Anpassung, aber wenn es um Schlussfolgerungen geht, wird es haarig.

Dann mit dem Versuch, das gleiche Wort aus Hunderten von verschiedenen Akzenten/Beugungen herauszufinden, und es scheint plötzlich nicht so einfach.

1

Die meiste Zeit verstehen wir Menschen basierend auf Kontext. Damit ein bestimmter Satz im Einklang mit der ganzen Unterhaltung steht, haben leider Computer in diesem Sinne ein großes Handicap.Es ist nur versucht, das Wort nicht zu erfassen, was dazwischen ist.

wir würden einen Ausländer verstehen, dessen englischer Akzent sehr dürftig ist, ratet mal, was er zu sagen versucht, anstatt was er eigentlich sagt.

1

Um Sprache gut zu erkennen, müssen Sie wissen, was Menschen bedeuten - und Computer sind noch gar nicht da.

3

Da Lernout&Hauspie pleite ging :)

(sorry, als Belgier konnte ich nicht widerstehen)

+0

+1, genau mein Gedanke, als ich diese Frage sah. :) – KristoferA

0

Nun habe ich bekam Google Voice Search auf meinem G1 und es funktioniert erstaunlich gut. Die Antwort ist, das Feld schreitet voran, aber Sie haben es einfach nicht bemerkt!

+1

Google Voice-Suche ist weit von der Spracherkennung entfernt. – markus

+2

@tharkun: Google Voice Search nutzt die Spracherkennungstechnologie intensiv. –

1

Sie sagten es selbst, Algorithmen-Designer arbeiten daran ... aber Sprache und Sprache sind keine algorithmischen Konstrukte. Sie sind der Höhepunkt der Entwicklung des hochkomplexen menschlichen Systems mit Begriffen, Metakonzepten, Syntax, Ausnahmen, Grammatik, Tonalität, Emotionen, neuronalen sowie hormonellen Aktivitäten usw.

Sprache braucht eine hohe Heuristik Ansatz und deshalb ist der Fortschritt langsam und Aussichten möglicherweise nicht zu optimistisch.

18

Ich erinnere mich, dass Microsoft ein Team hatte, das an der Spracherkennung arbeitete, und sie nannten sich selbst das "Wreck a Nice Beach" -Team (ein Name, der ihnen von ihrer eigenen Software gegeben wurde).

Um Sprache in Worte zu verwandeln, ist es nicht so einfach wie das Zuordnen diskreter Klänge, sondern es muss auch der Kontext verstanden werden. Die Software müsste eine lebenslange menschliche Erfahrung enthalten.

+5

"Spracherkennung" ~ = "Wreck a Nice Beach" Beispiel = +1. – Beska

+2

und selbst dann könnte/würde es mit Hintergrundgeräuschen, neuen Akzenten oder überraschenden Änderungen im Thema versagen wie ein Fleischbeutel –

+1

Nicht ein Leben lang; 10 bis 20 Jahre sollten ausreichen. :) –

1

Ich habe einmal eine ähnliche Frage an meinen Lehrer gestellt; Ich habe ihn gefragt, welche Herausforderung es gibt, einen Sprach-zu-Text-Konverter zu erstellen. Unter den Antworten, die er gab, bat er mich, "p" und "b" auszusprechen. Dann sagte er, dass sie sich am Anfang für eine sehr kurze Zeit unterscheiden, und dann klingen sie ähnlich. Mein Punkt ist, dass es sogar schwer ist zu erkennen, welcher Klang gemacht wird, das Erkennen der Stimme wäre noch schwieriger. Beachten Sie auch, dass Sie nur die Zahlen speichern, die Sie speichern, wenn Sie die Stimmen von Personen aufnehmen. Stellen Sie sich vor, Sie möchten Metriken wie Akzent, Frequenz und andere Parameter finden, die nützlich sind, um Sprache aus nichts als Eingabewerten wie Zahlenmatrizen zu identifizieren. Computer sind gut in der numerischen Verarbeitung usw., aber die Stimme ist nicht wirklich "Zahlen". Sie müssen die Stimme in Zahlen kodieren und dann alle Berechnungen an ihnen vornehmen.

+1

Eigentlich ist der Unterschied zwischen "p" und "b" nicht so sehr im anfänglichen Klang als der stimmhafte gegenüber dem stimmlosen Aspekt von ihnen. Sie sind definitiv ähnlich, beide sind bilabiale Plosive, aber der stimmhafte Aspekt von b unterscheidet ihn vom stimmlosen p. – Beska

3

Das grundlegende Problem ist, dass die menschliche Sprache mehrdeutig ist. Um also Sprache zu verstehen, muss der Computer (oder Mensch) den Kontext dessen verstehen, was gesprochen wird. Dieser Kontext ist tatsächlich die physische Welt, die der Sprecher und Zuhörer bewohnt. Und kein KI-Programm hat bisher gezeigt, dass es ein tiefes Verständnis für die physische Welt hat.

+0

Ich denke, SHRDLU, von Terry Winograd, hatte ein ziemlich tiefes Verständnis für die physische Welt. Zumindest ein kleiner Teil davon. –

+0

Ich glaube nicht, dass es irgendwas verstanden hat. Wenn Sie darum gebeten haben, das "sechsseitige feste Objekt, dessen Farbe die gleiche ist wie meine Krawatte", zu bewegen, hätte ich wetten können, dass es Schwierigkeiten gehabt hätte! –

0

Wenn Spracherkennung mit wesentlich weniger MIPS als das menschliche Gehirn möglich wäre, könnten wir wirklich mit den Tieren sprechen.

Evolution würde nicht all diese Kalorien für graue Substanz ausgeben, wenn sie nicht dazu gezwungen wären.

9

Diese Art von Problem ist allgemeiner als nur Spracherkennung. Es existiert auch in Bildverarbeitung, Verarbeitung natürlicher Sprache, künstliche Intelligenz, ...

Die Spracherkennung wird durch das semantic gap Problem betroffen:

Die semantische Lücke charakterisiert die Differenz zwischen zwei Beschreibungen von ein Objekt durch unterschiedliche linguistische Darstellungen, beispielsweise Sprachen oder Symbole. In Computer Wissenschaft, das Konzept ist relevant , wenn gewöhnliche menschliche Aktivitäten, Beobachtungen und Aufgaben sind in eine rechnerische Darstellung übertragen

Zwischen einer Audio-Wellenform und einer Textwort, ist die Lücke groß,

Zwischen dem Wort und seiner Bedeutung ist es noch größer ...

0

Gesprochene Sprache ist kontextsensitiv, mehrdeutig. Computer beschäftigen sich nicht gut mit mehrdeutigen Befehlen.

1

Ich würde einige Fortschritte von Google in der Zukunft erwartet aufgrund ihrer Sprachdatensammlung durch 1-800-Goog411

+0

Hehe, und noch Google Speech To Text für Voicemail ist schrecklich. – Moshe

0

Ich bin nicht mit der Annahme, in der Frage zustimmen - ich habe zu Microsoft Rede vor kurzem eingeführt worden Anerkennung und bin beeindruckt. Es kann meine Stimme nach ein paar Minuten lernen und identifiziert gewöhnliche Wörter normalerweise korrekt. Außerdem können neue Wörter hinzugefügt werden. Es ist sicherlich für meine Zwecke (Verständnis Chemie) verwendbar.

Unterscheiden Sie zwischen dem Erkennen der (Wort-) Tokens und dem Verstehen der Bedeutung von ihnen.

Ich weiß noch nicht über andere Sprachen oder Betriebssysteme.

0

Das Problem ist, dass es zwei Arten von Spracherkennungsmaschinen gibt. Speaker-trainierte wie Dragon sind gut für das Diktat. Sie können nahezu jeden Speichentext mit ziemlich guter Genauigkeit erkennen, erfordern jedoch (a) ein Training durch den Benutzer und (b) ein gutes Mikrofon.

Sprecherunabhängige Sprachrecommotoren werden am häufigsten in der Telefonie verwendet. Sie erfordern kein "Training" durch den Benutzer, müssen aber im Voraus genau wissen, welche Wörter erwartet werden. Der Aufwand für die Anwendungsentwicklung zur Erstellung dieser Grammatiken (und zur Behebung von Fehlern) ist enorm. Die Telefonie ist aufgrund historischer Grenzen in unserem öffentlichen Telefonnetz auf eine 4-kHz-Bandbreite beschränkt. Diese eingeschränkte Audioqualität beeinträchtigt die Fähigkeit der Sprachrec-Engines, "zu hören", was die Leute sagen. Ziffern wie "sechs" oder "sieben" enthalten einen ssss-Klang, der für die Engines besonders schwer zu unterscheiden ist. Dies bedeutet, dass das Erkennen von Ziffernfolgen, einer der grundlegendsten Erkennungsaufgaben, problematisch ist. Fügen Sie regionale Akzente hinzu, wobei "Neun" an einigen Stellen "Nan" ausgesprochen wird und die Genauigkeit leidet.

Die beste Hoffnung sind Schnittstellen, die Grafik und Sprache rec kombinieren. Denken Sie an eine IPhone-Anwendung, die Sie mit Ihrer Stimme steuern können.

40

Auditorische Verarbeitung ist eine sehr komplexe Aufgabe. Die menschliche Evolution hat ein System hervorgebracht, das so gut ist, dass wir nicht erkennen, wie gut es ist. Wenn drei Personen gleichzeitig mit Ihnen sprechen, können Sie sich auf ein Signal konzentrieren und die anderen ablegen, auch wenn sie lauter sind. Rauschen wird ebenfalls sehr gut verworfen. Wenn Sie die menschliche Stimme rückwärts abgespielt hören, senden die ersten Stufen des auditorischen Systems dieses Signal an einen anderen Verarbeitungsbereich, als wenn es sich um ein echtes Sprachsignal handelt, weil das System dies als "No-Voice" ansieht. Dies ist ein Beispiel für die herausragenden Fähigkeiten, die Menschen haben.

Die Spracherkennung entwickelte sich schnell aus den 70ern, weil Forscher die Produktion von Sprache untersuchten. Dies ist ein einfacheres System: Stimmbänder, die aufgeregt sind oder nicht, Resonanz des Vokaltrakts ... es ist ein mechanisches System, das leicht zu verstehen ist. Das Hauptprodukt dieses Ansatzes ist die cepstral analysis. Dies führte zur automatischen Spracherkennung (ASR), um akzeptable Ergebnisse zu erzielen. Aber das ist ein suboptimaler Ansatz. Die Geräuschtrennung ist ziemlich schlecht, selbst wenn es mehr oder weniger in sauberen Umgebungen funktioniert, wird es nicht mit lauter Musik im Hintergrund funktionieren, nicht wie es der Mensch tun wird.

Der optimale Ansatz hängt vom Verständnis des auditorischen Systems ab. Seine ersten Stadien in der Cochlea, der Colliculus inferior ... aber auch das Gehirn ist beteiligt. Und wir wissen nicht viel darüber. Es ist ein schwieriger Paradigmenwechsel.

Professor Hynek Hermansky verglichen in a paper den aktuellen Stand der Forschung mit, als Menschen fliegen wollten. Wir wussten nicht, was das Geheimnis war — Die Federn? Flügel flattern? — bis wir Bernoulli's Kraft entdeckt haben.

+2

Warum war das nicht als Antwort markiert? –

+0

Beantwortet Monate später. – MiseryIndex

+2

+1 ausgezeichnete Erklärung. – Lazer