Beim Studieren der tiefen neuronalen Netze, insbesondere des LSTM, entschied ich mich, der Idee zu folgen, die in diesem Link vorgeschlagen wurde: Building Speech Dataset for LSTM binary classification , um einen Klassifikator zu bauen.Spracherkennung mit LSTM mit in MFCC extrahierten Merkmalen
Ich habe eine Audio-basierte, wo die Funktionen MFCC zu extrahieren, wo jedes Array 13x56 jedes Phonem eines Wortes ist. Trainingsdaten würden so aussehen:
X = [[phon1fram[1][1], phon1fram[1][2],..., phon1fram[1][56]],
[phon1fram[2][1], phon1fram[2][2],..., phon1fram[2][56]], ....
[phon1fram[15][1], phon1fram[15][2], ..., phon1fram[15][56] ] ]
...
...
[[phon5fram[1][1], phon5fram[1][2],..., phon5fram[1][56]], ... ,
[phon5fram[15][1], phon5fram[15][2], ..., phon5fram[15][56]] ]
in Beschriftung, die würden sicherlich die ersten Frames Etiketten sind als „Vermittler“ gesagt werden, und nur der letzte Frame tatsächlich das Phonem darstellen?
Y = [[0, 0, ..., 0], #intermediary
[0, 0, ..., 0], ... , #intermediary
[1, 0, ..., 0]] # is one phoneme
[[0, 0, ..., 0], ... #intermediary
[0, 1, ..., 0] # other phoneme
Das wäre wirklich richtig? Während der ersten Tests, die ich durchgeführt habe, neigten alle erwarteten Outlets dazu, diesen "Mittelsmann" als den am weitesten verbreiteten zu bezeichnen. Jeder andere Ansatz könnte verwendet werden?
Hey Mann, können Sie bitte Github Repo teilen, wenn möglich, ich versuche etwas sehr ähnliches zu tun –