Ein virtueller Dolmetscher für Sitzungen und Konferenzen

09. November 2021

Wer kennt die Situation aus Sitzungen oder Konferenzen nicht: «Leider ist mir der passende Begriff auf Französisch gerade entfallen.» oder «Was meint er mit recette? Was hat unser IT-Projekt mit Kochen zu tun?»

Der Berufsalltag bei Schweizer Unternehmen oder in der Bundesverwaltung bringt oft mehrsprachige Sitzungen mit sich und die Kenntnis der Fachterminologien in sämtlichen Landessprachen ist alles andere als trivial. Wäre es hierzu nicht praktisch, über ein entsprechendes Simultanübersetzungstool zu verfügen, das Deutsch/Französisch bzw. Französisch/Deutsch übersetzt? Und könnten wir dieses nicht gleich selbst umsetzen?

Solche und vergleichbare «digitale Experimente» haben bei der APP einen grossen Stellenwert, auch wenn wir keine Softwareentwicklung für Kundinnen und Kunden anbieten. So wurden in den letzten Jahren beispielsweise zwei Chatbots in Eigenregie umgesetzt: Hermilio unterstützt Projektleitende mit seinem umfassenden Wissen zur Projektführungsmethode HERMES und unser HR-Assistent Theo begeistert mit seinen Firmenkenntnissen regelmässig die Teilnehmenden an Karriere- und Rekrutierungsanlässen.

«Theo», der digitale HR-Assistent der APP Unternehmensberatung AG

«Theo», der digitale HR-Assistent der APP

Theo ist ein Bot, der für HR-Anlässe wie Absolventenmessen gedacht ist. Er beantwortet mit Humor übliche Fragen von Interessent:innen, wie «Was macht die APP?», «Wie bewirbt man sich bei der APP?», usw.

Sprechen Sie mit Theo

Der Chatbot «Theo» mit seinen bereits vorhandenen Fähigkeiten zur Spracherkennung und -ausgabe lieferte dann auch einen Lösungsansatz für den eingangs beschriebenen Wunsch nach einem Simultanübersetzungstool. In unserem diesjährigen APP-Hackathon wurde die Idee weiterverfolgt und ein entsprechender Prototyp umgesetzt, welcher für Simultanübersetzung zwischen den Landessprachen Deutsch und Französisch verwendet werden kann, um die Verständigung in mehrsprachigen Sitzungen zu verbessern.

APP-Hackathon

Der vorgestellte Prototyp entstand im Rahmen eines Hackathons am diesjährigen APP-Firmenseminar. Während zweier Arbeitstage entwickelten wir einen bunten Strauss an kreativen und innovativen Tools und Ergebnissen.

Mehr zu den Hintergründen des Hackathons sowie weitere spannende Resultate finden Sie hier.

Mit dem Team «Babelfish» gegen die babylonische Sprachverwirrung

Flugs wurde zu dieser Simultanübersetzungsidee ein Team mit Namen «Babelfish» ins Leben gerufen, um der babylonischen Sprachverwirrung endgültig ein Ende zu setzen. Der Begriff «Babelfish» geht dabei auf einen gleichnamigen Universalübersetzter aus der 1978 erschienenen Radiokomödie «Hitchhiker’s Guide to the Galaxy» von Douglas Adams zurück. Ein Fisch, welcher, einmal ins Ohr gesteckt, sämtliche Sprachen im Universum sofort simultan übersetzt. Das Team startete mit einer klaren Vision in den zweitägigen Hackathon.

Agilität im Zentrum

Agiles Setup nach SCRUM

Abbildung 1: Darstellung des SCRUM Setups

Ein agiles Setup nach SCRUM zur Umsetzung dieser Vision war rasch gefunden und die entsprechenden Rollen wurden im Team zugeteilt. Nebst einer SCRUM Masterin und einer Product Ownerin betätigten sich die vier verbleibenden Teammitglieder als Entwickler:innen mit entsprechenden Spezialisierungen in den Bereichen Sprache/Übersetzungen, Audio oder JavaScript.

Das Hackathon-Format mit seiner beschränkten Laufzeit machte ungewöhnlich kurze Dauern für die gängigen SCRUM-Zeremonien erforderlich: So wurde die Sprintdauer auf nur gerade 2 Stunden festgelegt und das «Sprint Planning» dauerte jeweils 10 Minuten. In der Mitte jedes Sprints, das heisst stündlich, wurde ein 5-minütiges Stand-Up zur Abstimmung im Team durchgeführt. Und die Review- und Retro-Meetings zum Sprintende dauerten jeweils 10 respektive 5 Minuten.

Mit diesem sportlichen Zeitplan stieg das Team ins Entwicklungsabenteuer und baute das Backlog für die Vision des Universalübersetzers auf.

Rasch Resultate sichtbar machen

Sprint

Abbildung 2: Ein erstes Ergebnis wird präsentiert.

Getreu den agilen Prinzipien stellte das Team die lauffähige Software ins Zentrum seiner Aktivitäten und konnte schon nach wenigen Sprints ein ansehnliches, wenn auch erst bedingt brauchbares Ergebnis vorweisen.

Nach jedem Sprint wurde die angepasste Software im Team kritisch gewürdigt und die nächsten Erweiterungen und Verbesserungen geplant. Dabei standen oft auch kleine Anpassungen im Zentrum, welche die Nutzung der Lösung zum aktuellen Zeitpunkt erheblich verbessern konnten. Quasi im Stundentakt entstand so eine Übersetzungs-App, welche sich zusehends in Richtung der gemeinsamen Vision entwickelte.

Clouddienste machen’s möglich

Ohne die Nutzung von bereits verfügbaren Clouddiensten als Basis für die Entwicklungsarbeiten wäre die Erreichung der gesetzten Ziele nicht möglich gewesen. So war von Anfang an klar, dass sowohl für die Spracherkennung, das heisst für die Transkription der gesprochenen Worte in geschriebenen Text («Speech-to-text»), sowie für die Übersetzung des Textes in die Zielsprache Clouddienste zum Einsatz kommen mussten.

Architekturskizze

Abbildung 3: Architekturskizze

Zusammengehalten wurde das Ganze von einer eigens entwickelten «Babelfish»-Webapplikation, welche die Audiodaten des Mikrofons im Raum verarbeitet und als Stream an die Backend-Applikation weiterleitet. Diese Node.js-Applikation ist dafür zuständig, den aufgezeichneten Audiostream in Echtzeit an den Google-Clouddienst «Speech-to-text» weiterzuleiten. Das zurückgelieferte Transkript wird im Anschluss an die API (Application programming interface) von DeepL zur Übersetzung weitergeleitet. Das Ergebnis dieses Aufrufs, bestehend aus der ursprünglichen Transkription und der Übersetzung in die Zielsprache, wird schliesslich in der Frontend-Applikation im Browser unmittelbar angezeigt.

Herausforderungen bei der Umsetzung

Ein solches Projekt bringt Herausforderungen mit sich, sei es für das Team oder für die einzelnen Beteiligten. Die Scrum Masterin kämpfte mit der Einhaltung des Timeboxings und der Verhinderung von Ablenkungen. Aufgrund neuer Erkenntnisse priorisierte die Product Ownerin ständig die Product Backlog Einträge um und versuchte, diese möglichst klar und deutlich zu formulieren. Die Entwickler:innen waren einerseits mit der Javascript-Sprache und andererseits mit den Tücken der asynchron laufenden Clouddienste konfrontiert.

Trotz - oder dank - dem erhöhten Koffeinkonsum konnte motiviert an den Herausforderungen gearbeitet werden, sodass Frustrationen sehr schnell wieder vergessen waren. Und am Ende konnte ein lauffähiges Übersetzungstool live vorgestellt werden.

Eine einmalige Erfahrung

Das Team

Abbildung 4: Ein stolzes Team

Die Zusammenarbeit in einem agilen Team mit so kurzen Entwicklungszyklen war für alle Beteiligten eine einmalige Erfahrung. Mit Erfolg konnte aufgezeigt werden, wie durch Kombination von bereits verfügbaren Clouddiensten mit überschaubarem Aufwand Lösungen für komplett neue Anwendungsfälle erstellt werden können. Die daraus gewonnenen Erkenntnisse über die Organisation der Zusammenarbeit von Entwicklungsteams, die technischen Werkzeuge zur Unterstützung der Softwareentwicklung und die Nutzung von Cloud-APIs werden wir in der Mandatsarbeit unmittelbar zum Vorteil unserer Kunden nutzen.

Und nicht zuletzt sind wir natürlich auch sehr stolz, in so kurzer Zeit ein vorzeigbares Ergebnis umgesetzt zu haben.

Möchten Sie mehr über dieses spannende Thema erfahren oder haben Sie selbst eine innovative Idee, die im Rahmen eines digitalen Experiments umgesetzt werden könnte? Wir freuen uns auf Ihre Kontaktaufnahme.

  • Kategorie
    Fachbeiträge

Kontaktieren Sie uns