1

Ich entwickle gerade ein Spracherkennungsprojekt und versuche, die wichtigsten Funktionen auszuwählen. Die meisten relevanten Papiere schlagen vor, Nulldurchgangsraten, F0 und MFCC Eigenschaften zu verwenden, deshalb verwende ich diese. Meine Frage ist, ein Trainingssample mit der Dauer von 00:03 hat 268 Funktionen. Wenn man bedenkt, dass ich ein Multi Class Classification Projekt mit 50+ Samples pro Klassentraining unter Einbeziehung aller MFCC Features mache, kann das Projekt vom Fluch der Dimensionalität leiden oder "die Wichtigkeit" der anderen Features reduzieren. Also meine Frage ist, sollte ich alle MFCC-Funktionen einschließen, wenn nicht können Sie eine Alternative vorschlagen?Sind für die Spracherkennung MFCC-Funktionen erforderlich?

Antwort

2

Sie sollten nicht f0 und Nulldurchgang verwenden, sie sind zu instabil. Sie können einfach Ihre Trainingsdaten erhöhen und mfccs verwenden, sie haben gute Darstellungsfähigkeiten. Aber vergiss nicht, sie zu normalisieren.

+0

Sind mfcc nur für Sprache gut oder können sie für jede Audio-/Sound-Aufgabe verwendet werden? –

+1

Für einige Aufgaben sind MFCCs in Ordnung, für einige Aufgaben wie Musikerkennung ist es nicht genug Auflösung und andere Funktionen werden verwendet. –

2

Nach den MFCC-Koeffizienten jeden Rahmens erhalten, können Sie als MFCC Funktionen wie die Kombination von darstellen:

 
1) First 12 MFCC 
2) 1 energy feature 
3) 12 delta MFCC feature 
4) 12 double-delta MFCC feature 
5) 1 delta energy feature 
6) 1 double delta energy feature 

Die concent von MFCC Feature Delta in dieser beschrieben link.

die 39 Dimension Die MFCC-Funktion wird in HMM oder Recurrent Neural Network eingespeist.

+0

Was meinst du mit 1 Energiefunktion? Schlagen Sie vor, die Gesamtenergie zu verwenden, wenn das der Fall ist, ist die Gesamtenergie keine Variable und hat kein Delta. – Ugur

+0

2-Punkt-Energie bezieht sich auf die Energie für das Signal x in einem Fenster von Zeitabtastung t1 bis t2. – Someone

+0

Da die Delta MFCC ebenfalls variieren, entspricht 1 Delta Energie der Energie. – Someone

1

Der Punkt, den ich machen möchte, ist, dass MFCCs nicht erforderlich sind. Sie können MFCCs verwenden, und Sie können die Energie-, Delta-und Delta-Delta-Funktionen verwenden, wie von @Mahendra Thapa erwähnt, aber es ist nicht "erforderlich". Einige Forscher verwenden 40 CCs, einige lassen die DCT aus der MFCC-Berechnung fallen und machen sie zu MFSCs (spektral nicht cepstral). Einige fügen zusätzliche Funktionen hinzu. Manche benutzen weniger. Empfänglichkeit für den Fluch der Dimensionalität hängt von Ihrem Klassifikator ab, nicht wahr? Einige behaupten sogar kürzlich, Fortschritte in Richtung des "Heiligen Grals" der Spracherkennung gemacht zu haben, mit dem rohen Signal zu trainieren, mit tiefem Lernen zu arbeiten, die besten Eigenschaften zu lernen, anstatt sie in Handarbeit zu machen.

0

MFCC ist weit verbreitet, und der Effekt ist relativ besser.

+0

könnten Sie bitte Ihre Antwort erweitern –