Element – Audio Identification

Das Periodensystem der Künstlichen Intelligenz

Das KI-Element Audio Identification [Ai] bietet vielfältige Anwendungsmöglichkeiten, von der Erkennung einzelner akustischer Ereignisse bis zur Analyse komplexer Szenen.
Es erstellt einen datenbasierten Fingerabdruck von akustischen Objekten oder Szenen und separiert ein eindeutiges Signal aus einer Geräuschkulisse.
Es kann z.B. bestimmte Instrumente in Musikaufnahmen erkennen, einzelne Maschinen in Produktionsanlagen identifizieren oder ungewöhnliche/sicherheitskritische Geräusche erkennen.
Die erkannten Signale können zur Auslösung entsprechender Aktionen verwendet werden, z.B. das Absetzen eines Notrufs oder einer Alarmsignalisierung.

Automatische Transkription von Interviews durch Trennung individueller Stimmen in einem Gespräch.
Sprachdialog mehrerer Benutzer mit intelligenten Lautsprechern wie Amazon Echo oder Google Home.
Messung der Reichweite von Werbekampagnen durch Erkennung von akustischen Markierungen in Werbebotschaften.
Musikdatenbanken: Anfragen durch Musikbeispiele oder Summen einer Melodie ermöglichen.
Audioforensik und Sicherheitsanwendungen wie Erkennung von Glasbruch, Einbrüchen, Vandalismus.
Smart Cities: Lärm-Monitoring, Sirenen-Erkennung, Verkehrszählungen.
Smart-Home- und Pflegeumgebungen: Erkennung von Notrufen oder Notsituationen, Überwachung von Türklingeln, Babies, Patienten.
Industrielle Produktion: Überwachung von Prozessen, prädiktive Wartungsintervalle, Erkennung von Geräuschveränderungen zur Vorhersage von Ausfällen, End-of-Line-Tests.

Acoustid (Estonien) bietet eine Lösung zur automatischen Verschlagwortung von Musikstücken.
Mufin (Berlin) misst die Reichweite von Rundfunkausstrahlungen.
Shazam (übernommen von Apple) erkennt Musiktitel anhand kurzer Musikschnipsel.

Die Technologie hat das Potenzial, bestehende Lösungen zu verbessern und neue Anwendungen zu ermöglichen.
Der globale Markt für Voice Recognition wird voraussichtlich im Jahr 2023 ein Volumen von 126,5 Milliarden US-Dollar erreichen.

Algorithmen zur Identifizierung von Stimmen werden besser, stoßen aber noch auf Grenzen in Mehrbenutzer-Szenarien und bei starker Geräuschkulisse.
Verbesserungen könnten erreicht werden, indem semantische Informationen aus dem Kontext des Sprechers berücksichtigt werden.
Große Mengen an akustischen Signalen sind für das Training des Systems entscheidend.
Die Verfügbarkeit von akustischen Datensätzen erleichtert die Entwicklung von akustischen Modellen.
Die Entwicklung dieses KI-Elements wird sowohl von der akademischen Gemeinschaft als auch von Startups vorangetrieben.
Große Unternehmen wie Google, Amazon und Facebook übernehmen häufig innovative Dienste und integrieren sie in ihre Produkte und Services.

Campus Offenburg

Badstraße 24
77652 Offenburg
Tel (+49) 781 205-0
Fax (+49) 781 205-214

Campus Gengenbach

Klosterstraße 14
77723 Gengenbach
Tel (+49) 7803 9698-0
Fax (+49) 7803 9698-4449