Skip to main content

Barrierefreie Bildung: Automatische Untertitel für Lehrvideos mit Open-Source-Lösungen

Der ELAN e.V. ist Partner der Campus Innovation 2023.

Barrierefreie Bildung und Digitale Souveränität sind in dieser Zeit zwei Leitthemen in der Hochschullehre. Viele Hochschulen setzen inzwischen auf Open-Source-Software, um digital unabhängig zu bleiben. Auch für KI-generierte Untertitel gibt es Open-Source-Lösungen. Sie sind eine wertvolle Chance für mehr Teilhabe, mit Herausforderungen.  

Um allen Studierenden Teilhabe zu ermöglichen, ist es wichtig, dass Videos mit automatischen Untertiteln versehen werden. Viele Lehrende stellen ihren Studierenden Videos zur Verfügung oder zeichnen ihre Vorlesungen auf. Studierende mit eingeschränktem oder gar keinem Hörvermögen benötigen Untertitel, um mit diesen Medien lernen zu können. Internationalen Studierenden helfen Untertitel beim Verständnis der Sprache. 80% der Menschen sehen, wenn dies möglich ist, Videos mit Untertiteln an. Denn diese helfen beim Verständnis von Fachterminologie, fördern die Konzentration und ermöglichen das Ansehen von Videos in lauten oder ruhigen Umgebungen.

Moderne Open-Source Spracherkennungen, wie Whisper von OpenAI, ermöglichen kostengünstig die automatische Untertitelung von Videos in hoher Genauigkeit.

Die Kombination des Open-Source Videomanagementsystems Opencast und KI-gestützter Untertitelung eröffnet Bildungseinrichtungen die Möglichkeit, den gesetzlichen Vorgaben zur Barrierefreiheit besser zu entsprechen. Opencast bietet auch die Möglichkeit, die automatischen Untertitel bei Bedarf im browserbasierten Videoeditor zu korrigieren.  

Um auch kleinen und mittleren Hochschulen den Weg zu barrierefreien Vorlesungsaufzeichnungen zu ebnen, bietet der ELAN e.V. das "Opencast Hosting" an. Eine Whisper Integration als Modul wird es dafür zeitnah geben. Es ist jedoch wichtig zu betonen, dass KI-Untertitelung zwar ein wertvolles Werkzeug ist, aber noch keine vollständige Lösung darstellt. Eine Kombination aus automatischer Generierung und manueller Überprüfung ist entscheidend, um Qualität und Genauigkeit sicherzustellen. Je nach verwendetem Datensatz und Größe des Sprachmodells variiert die Genauigkeit der Spracherkennungssysteme. Für deutsche Sprachmodelle der Größe small bis large-v2 liegt die Genauigkeit der verfügbaren Datensätze zwischen 85 und 95 Prozent, was den Industriestandard von 99% Genauigkeit für Barrierefreiheit noch nicht erfüllt. Olaf Schulte nannte bei der Opencast D/A/CH Konferenz 2022 die denkbare Lösung für die ETH Zürich, dass Studierende gezielt korrigierte Untertitel anfordern können. Das könnte entweder im Nachgang geschehen oder Studierende, die auf barrierefreie Videos angewiesen sind, könnten direkt zum Semesterstart anmelden, zu welchen Kursen sie die verbesserten Untertitel benötigen.

Auch wenn automatisch generierte Untertitel noch nicht zu einem Gütesiegel für Barrierefreiheit verhelfen, sind sie doch ein wichtiger Schritt in Richtung Barrierefreier Bildung und sollten in der digitalen Hochschullehre umfassend genutzt werden.

Zur Partnerseite des ELAN e.V.