Was ist eigentlich OpenAI Whisper?
Eine technische Übersicht über Whisper: Entwicklungen in der Automatischen Spracherkennung
Eingeführt im Jahr 2022, repräsentiert „Whisper“ einen bedeutenden Fortschritt in der Entwicklung automatischer Spracherkennungssysteme (ASR). Dieses System, entwickelt von einem Team von Forschern, basiert auf einem umfangreichen und vielfältigen Datensatz, der aus 680.000 Stunden mehrsprachigem und multiaufgabenorientiertem supervidierten Lernen aus dem Web besteht. Whisper ist darauf ausgerichtet, effizient mit einer Reihe von linguistischen Herausforderungen wie Akzenten, Hintergrundgeräuschen und Fachsprache umzugehen. Zusätzlich ermöglicht es nicht nur die Transkription in mehreren Sprachen, sondern auch die Übersetzung dieser Sprachen ins Englische.
Das Kernstück von Whisper ist ein End-to-End-Encoder-Decoder-Transformer, der speziell für die Verarbeitung und Umwandlung von Audiodaten konzipiert wurde. Audiodaten werden zunächst in 30-Sekunden-Abschnitte unterteilt und in Log-Mel-Spektrogramme umgewandelt. Diese werden anschließend einem Encoder zugeführt, der in Kombination mit einem Decoder arbeitet. Der Decoder ist darauf trainiert, Texttranskriptionen vorherzusagen und verwendet dabei spezielle Tokens, um komplexe Aufgaben wie Sprachidentifikation, zeitliche Markierung auf Satzebene, mehrsprachige Transkription und Übersetzung ins Englische zu bewältigen.
Im Vergleich zu anderen ASR-Modellen, die oft auf kleineren und spezifischeren Audio-Text-Trainingsdatensätzen basieren, bietet Whisper eine breitere Anwendbarkeit. Trotz seines umfangreichen und diversifizierten Trainingsdatensatzes erreicht Whisper nicht die Spitzenleistung in spezialisierten Bereichen wie dem LibriSpeech-Benchmark. Es zeigt jedoch eine beeindruckende Robustheit in einer Vielzahl von Anwendungsszenarien, was auf seine umfassende Trainingsbasis zurückzuführen ist.
Ein signifikanter Anteil des Audiomaterials von Whisper, etwa ein Drittel, ist nicht in Englisch. Dies ermöglicht dem System, sowohl in der Originalsprache zu transkribieren als auch ins Englische zu übersetzen, was sich als besonders effektiv für Sprache-zu-Text-Übersetzungen erwiesen hat.
Whisper stellt somit einen wichtigen Meilenstein in der Entwicklung von ASR-Technologien dar und bietet potenzielle Anwendungsmöglichkeiten für Entwickler, die Sprachschnittstellen in ihren Anwendungen integrieren möchten. Weiterführende Informationen sind in der zugehörigen Studie, der Modellbeschreibung und dem Code verfügbar.