2008-08-22 21 views
19

Ich habe mich immer gefragt, wie viele verschiedene Suchtechniken existieren, zum Suchen von Text, zum Suchen von Bildern und sogar für Videos.Wie suche ich Inhalte in Audiodateien/Streams?

Ich bin jedoch nie auf eine Lösung gestoßen, die nach Inhalten in Audiodateien suchte.

Zum Beispiel: Nehmen wir an, ich habe etwa 200 Podcasts in Form von MP3-, WAV- und OGG-Dateien auf meinen PC heruntergeladen. Sie sind alle allgemein benannt podcast1.mp3, podcast2.mp3, usw. So ist es nicht möglich zu wissen, was der Inhalt ist, ohne sie tatsächlich zu hören. Lass mich sagen, dass ich daran interessiert bin, herauszufinden, welche Podcasts über "Spieleprogrammierung" sprechen. Ich möchte die Ergebnisse werden wie folgt angezeigt:

  • Podcast1.mp3 - 3 Ergebnis (se) bei Zeitindex (n) - 00.16.21, 00.43.45, 01.12.31
  • Podcast21.ogg - 1 Ergebnis (se) bei Zeitindex (n) - 0:12:01

Also meine Fragen:

  • Wie könnte ein Ansatz dieses Problem?
  • Gibt es geeignete Algorithmen, um so etwas zu tun?

Eine Idee des in meinem Kopf aufgetaucht war, dass man ein ‚Speech-to-Text‘ Software-Transkripte zusammen mit Zeitindizes zu erhalten verwenden könnte für jede der Audiodateien, dann das Protokoll analysiert die bekommen Ausgabe.

Ich betrachtete dies als eines meiner Hobbyprojekte. Danke!

Antwort

8

Wenn Sie in einem Audiostream nach Text suchen (d. H. Was gesagt wird), müssten Sie ihn mit einer Art Spracherkennungsalgorithmus verarbeiten und den Text als den Dateien zugeordnete Metadaten speichern. Für Video können Sie auch Texterkennung für Text innerhalb des Videos vornehmen. Evernote tut dies bereits für Text in Bilddateien, aber hat keine Unterstützung für Audio, soweit ich weiß.

Ähnliches ist möglich, wenn Audio zur Audio-Suche verwendet wird. Ich kenne die Details dieser Algorithmen nicht, aber ich nehme an, sie beinhalten eine Art von Frequenzanalyse. Shazam verwendet diese Art von Technologie, um Titel basierend auf Audioclips zu identifizieren.

Hier sind einige Wikipedia-Artikel, die nützlich sein können: