Das Periodensystem der Künstlichen Intelligenz
[Ai] - Audio Identification
- Das KI-Element Audio Identification [Ai] bietet vielfältige Anwendungsmöglichkeiten, von der Erkennung einzelner akustischer Ereignisse bis zur Analyse komplexer Szenen.
- Es erstellt einen datenbasierten Fingerabdruck von akustischen Objekten oder Szenen und separiert ein eindeutiges Signal aus einer Geräuschkulisse.
- Es kann z.B. bestimmte Instrumente in Musikaufnahmen erkennen, einzelne Maschinen in Produktionsanlagen identifizieren oder ungewöhnliche/sicherheitskritische Geräusche erkennen.
- Die erkannten Signale können zur Auslösung entsprechender Aktionen verwendet werden, z.B. das Absetzen eines Notrufs oder einer Alarmsignalisierung.
- Automatische Transkription von Interviews durch Trennung individueller Stimmen in einem Gespräch.
- Sprachdialog mehrerer Benutzer mit intelligenten Lautsprechern wie Amazon Echo oder Google Home.
- Messung der Reichweite von Werbekampagnen durch Erkennung von akustischen Markierungen in Werbebotschaften.
- Musikdatenbanken: Anfragen durch Musikbeispiele oder Summen einer Melodie ermöglichen.
- Audioforensik und Sicherheitsanwendungen wie Erkennung von Glasbruch, Einbrüchen, Vandalismus.
- Smart Cities: Lärm-Monitoring, Sirenen-Erkennung, Verkehrszählungen.
- Smart-Home- und Pflegeumgebungen: Erkennung von Notrufen oder Notsituationen, Überwachung von Türklingeln, Babies, Patienten.
- Industrielle Produktion: Überwachung von Prozessen, prädiktive Wartungsintervalle, Erkennung von Geräuschveränderungen zur Vorhersage von Ausfällen, End-of-Line-Tests.
- Acoustid (Estonien) bietet eine Lösung zur automatischen Verschlagwortung von Musikstücken.
- Mufin (Berlin) misst die Reichweite von Rundfunkausstrahlungen.
- Shazam (übernommen von Apple) erkennt Musiktitel anhand kurzer Musikschnipsel.
- Die Technologie hat das Potenzial, bestehende Lösungen zu verbessern und neue Anwendungen zu ermöglichen.
- Der globale Markt für Voice Recognition wird voraussichtlich im Jahr 2023 ein Volumen von 126,5 Milliarden US-Dollar erreichen.
- Algorithmen zur Identifizierung von Stimmen werden besser, stoßen aber noch auf Grenzen in Mehrbenutzer-Szenarien und bei starker Geräuschkulisse.
- Verbesserungen könnten erreicht werden, indem semantische Informationen aus dem Kontext des Sprechers berücksichtigt werden.
- Große Mengen an akustischen Signalen sind für das Training des Systems entscheidend.
- Die Verfügbarkeit von akustischen Datensätzen erleichtert die Entwicklung von akustischen Modellen.
- Die Entwicklung dieses KI-Elements wird sowohl von der akademischen Gemeinschaft als auch von Startups vorangetrieben.
- Große Unternehmen wie Google, Amazon und Facebook übernehmen häufig innovative Dienste und integrieren sie in ihre Produkte und Services.
Rechtliches
Hochschule für Technik, Wirtschaft und Medien Offenburg
| Campus Offenburg
Badstraße 24 77652 Offenburg Tel (+49) 781 205-0 Fax (+49) 781 205-214 |
Campus Gengenbach
Klosterstraße 14 77723 Gengenbach Tel (+49) 7803 9698-0 Fax (+49) 7803 9698-4449 |