GIGA Gebärdensprache - technische Grundlagen und Umsetzung der prototypischen App
Ziel unseres Projektes GIGA Gebärdensprache ist die prototypische Entwicklung einer mobilen App, welche die automatische Übersetzung von Deutscher Gebärdensprache (DGS) in Deutsch (Schrift und Audio) ermöglicht.
Bei Nexaion sind wir neben dem Projektmanagement vor allem für die Programmierung der verschiedenen App-Prototypen und dazugehörigen Schnittstellen und Datenbanken zuständig. In diesem Blogeintrag wollen wir euch daher einen Einblick in die technische Umsetzung des Projekts geben.
Technischer Hintergrund und Herausforderung
Zum Zeitpunkt des Projektstarts und bis heute gab und gibt es keine mobile Anwendung, welche die spontane Übersetzung von DGS in Deutsch in Echtzeit ermöglicht. Ohne vergleichbare Anwendungen war der Anteil an Forschung und das Testen verschiedener Ansätze im Projekt zunächst entsprechend hoch.
Dennoch wurden in den vergangenen Jahren viele Fortschritte in relevanten Bereichen der Forschung und Wirtschaft gemacht, sodass basierend auf diesen Erkenntnissen neue Assistenzsysteme entstehen können.
Der Umgang mit großen Datenmengen, neue leistungsfähigere Mobilfunknetze und Endgeräte, Rechenleistung in der Cloud und insbesondere die Fortschritte in der KI-Entwicklung – all diese technischen Aspekte ermöglichen das Projekt GIGA Gebärdensprache.
Die automatische und KI-basierte Übersetzung von Gebärdensprache in Lautsprache ist dennoch besonders komplex, da Gebärdensprache über die Nutzung des dreidimensionalen Raums und des Körpers der gebärdenden Person mehrere Bedeutungen gleichzeitig übermitteln kann.
Für die Entwicklung einer übersetzenden KI bedeutet dies, dass verschiedene in Bilddaten kodierte Informationen extrahiert und verarbeitet werden müssen. Diese Informationen bestehen sowohl aus manuellen (durch Konfigurationen der Hände) als auch den durch nicht-manuellen Bewegungen des restlichen Körpers übertragenen Bedeutungen der Gebärden. Hinzu kommt, dass diese Informationen sowohl in einzelnen Frames als auch über die Zeit (zur Herstellung des Kontextes) aus den Bilddaten extrahiert und analysiert werden müssen, um eine vernünftige Übersetzung zu gewährleisten.
Damit eine KI dies kann, muss sie zunächst quasi selbst Gebärdensprache lernen. Um ein zielgerichtetes Training der KI zu ermöglichen haben wir im Projekt daher verschiedene Use-Cases für den Einsatz der Anwendung ermittelt und uns dazu entschlossen, zunächst eine eigene App für das Training der KI zu entwickeln.
Entwicklung der Trainings-App für die KI
Ziel der App “GIGA Training” ist das Generieren von Daten zum Aufbau eines Gebärdendatensatzes, auf dessen Grundlage die KI trainiert werden soll.
Diese Trainingsdaten werden in Form von Videos unter Beteiligung der DGS-Community erhoben. Nutzende haben die Möglichkeit für vordefinierte Trainingssets Aufnahmen davon zu machen, wie Sie die vorgegebenen Sätze gebärden. Anschließend können die Aufnahmen geprüft und zum Upload in den Datensatz freigegeben werden.
Für die Entwicklung der Trainings-App sind verschiedene Technologien zum Einsatz gekommen. Bei den Programmierschnittstellen zur Datenbank sind Node.js, Express und Sequelize verwendet worden. Die eigentliche App wurde auf Basis des Flutter-SDK umgesetzt, einer Sammlung von “Programmierwerkzeugen” zur Entwicklung hybrider Apps, die sowohl mit dem iOS als auch dem Android Betriebssystem kompatibel sind.
Umsetzung der prototypischen App
Ziel der prototypischen App “GIGA Talk” ist es vor allem die unterschiedlichen eingesetzten Technologien optimal miteinander zu verknüpfen, sodass eine nutzungsfreundliche Anwendung entsteht.
Vereinfacht dargestellt ermöglicht die App folgenden Prozess:
Wird ein Anruf über die App getätigt, so startet eine Videoaufnahme für die gebärdende Person, die angerufene Person erhält eine entsprechende Sprachmitteilung, dass es sich um einen Anruf mit Übersetzung der Gebärdensprache handelt. Die Videodaten der gebärdenden Person werden in die Cloud übertragen, wo die KI die Videodaten auswertet und übersetzt. Der aus den Videodaten extrahierte Text wird dann per Sprachausgabe an die angerufene Person übermittelt.
Aus der gesprochenen Antwort der angerufenen Person wird der Audiostream wieder an die KI in der Cloud gesendet. Hier findet die Umwandlung in Text statt und wird an die gebärdende Person zurückgesendet.
Vereinfachte Darstellung des Prozesses Deutsche Gbärdensprache zu Text
Aus technischer Sicht wird dieser Prozess von vier Komponenten bestimmt:
- Dem 5G Netz zur Übertragung der Daten von der App in die Cloud
- Einer API zur Abwicklung der einzelnen Schritte des Prozesses
- Dem User Interface zur Steuerung durch die Nutzenden
- Der KI zur Übersetzung der DGS in deutsche Lautsprache
Als Nexaion sind wir vor allem an der Entwicklung der API und der Benutzeroberfläche federführend beteiligt. Die Umsetzung der einzelnen Anforderungen im Projektkonsortium, bestehend aus wissenschaftlichen und wirtschaftlichen Partner:innen, erfordert zumeist aber eine sehr enge und interdisziplinäre Zusammenarbeit.
Die API wurde zur Abwicklung der App-Anrufe wurde in der JavaScript Laufzeitumgebung Node.js, dem Express Framework und der Twilio Speech API umgesetzt. Das User Interface stellt ebenfalls eine App auf Basis des Flutter SDK´s dar.
Auch wenn die App “GIGA Talk” zunächst nur eine protoptypische Entwicklung darstellt, lässt sich zusammenfassend aus der technischen Umsetzung vor allem eine Erkenntnis gewinnen:
Die Technologien für die Entwicklung einer neuen Generation von digitalen Assistenzsystemen sind grundsätzlich vorhanden, auch wenn diese teilweise noch weiter erforscht und entwickelt werden müssen. Mit dem Blick auf die Zukunft eröffnen sich durch Projekte wie GIGA Gebärdensprache neue Horizonte für die Anwendung von Technologie in den Diensten einer inklusiven der Gesellschaft.
Das Projekt wird gefördert durch das Ministerium für Wirtschaft, Industrie, Klimaschutz und Energie des Landes NRW.