Semesterprojekt: Schweizerdeutsche QA-Systeme dank Machine Translation?

Machine Translation als Brücke zwischen der Muttersprache und Englisch ist durchaus ein vielversprechendes Konzept. Mit fortgeschrittenen KI-basierten Übersetzungstools ist dies sogar mit der schweizerdeutschen Sprache möglich! In diesem Blog geben wir Einblicke in unser Semesterprojekt im Modul Question Answering.

In unserem Semesterprojekt im Fach Question Answering ging es darum zu prüfen, wie gut Machine Translation (MT) speziell für die schweizerdeutsche Sprache innerhalb eines Knowledge Graph Question Answering (KGQA) eingesetzt werden kann.

In KGQA-Systemen werden natürlichsprachliche Fragen von Benutzern analysiert und mit den Informationen aus einem Wissensgraphen abgeglichen, um präzise Antworten zu generieren.

S eigentliche Problem im Hintergrund

Der weitaus grösste Teil an online verfügbarem Wissen ist in der englischen Sprache vorhanden. In Zahlen sprechen wir hier von einem Anteil, je nach Schätzungen, von 50-60% der gesamten Inhalten. Gleichzeitig entspricht dies aber nicht der gesprochenen Sprachen der Nutzer. Diese machen nur gerade ca. einen Viertel aller Webuser aus. Diese Zahlen zeigen deutlich, dass ein grosser Teil des Wissens für viele User nicht direkt in ihrer Sprache verfügbar ist. MT könnten hier eine grosse Hilfe für viele User sein.

Das Konzept das MT in ein KGQA-System eingebunden wird, ist an sich nichts Neues und wurde in verschiedenen Forschungen bereits mit erfolgsversprechenden Resultaten getestet. Bisher konnten wir aber noch keine Anwendung speziell für die schweizerdeutsche Sprache finden.

Üses Projekt

Bei einer ersten Prüfung stellte sich heraus, dass kein zu diesem Projekt passender Datensatz frei verfügbar war. Somit entschieden wir uns, einen solchen selbst zu erstellen. Als Basis für einen schweizerdeutschen Frage-Datensatz diente dazu der bekannte QALD-9-Plus-Datensatz. Dieser beinhaltet über 550 verschiedene Frage-Antwort Paare in neun verschiedenen Sprachen. Anhand dieser Fragen in verschiedenen Sprachen wurde in einer Arbeit (LINK) bereits der Einsatz von MT geprüft. Somit konnten wir diese Resultate direkt als Benchmark für unsere Arbeit nutzen. Dazu aber später mehr.

So nun zur eigentlichen «Arbeit»: die 558 verschiedenen Fragen in hochdeutscher Sprache mussten ins Schweizerdeutsche übersetzt werden. Dazu haben wir eine eigene Webapp entwickelt, mit welcher freiwillige Helfer jeweils zufällige Fragen ins schweizerdeutsche übersetzen konnten. So konnten wir insgesamt 775 schweizerdeutsche Fragen und Antworten gesammelt werden. D.h. für verschiedene Fragen konnten wir mehr als nur eine Übersetzung sammeln.

Der nächste Schritt war die Übersetzung mit MT der schweizerdeutschen Fragen ins Englische. Englisch als Zielsprache hatte zwei Gründe: Der weitaus grösste Teil an Wissen in Online-Datenbanken ist in englischer Sprache. Somit sind die übersetzten Fragen zum einen direkt dafür geeignet. Und zum anderen deckt sich diese Vorgehensweise mit dem ausgewählten Benchmark.

Bei den Übersetzungen wurden wir freundlicherweise von der Firma textshuttle unterstützt. Textshuttle ist eine Schweizer Firma, die ein KI-basiertes MT-Tool anbietet, dass in der Lage ist schweizerdeutsche Texte zu übersetzen. Der gesamte Ablauf unseres Projekts ist in der folgenden Grafik dargestellt.

Die ersten Resultate sahen beeindruckend vielversprechend aus! Doch nun mussten wir dies auch mit einer einheitlichen Metrik überprüfen und belegen. Wie schon vorhin erwähnt nutzten wir dazu den BLEU-Score.

Was seit de BLEU-Score uus?

Der BLEU-Score (Bilingual Evaluation Understudy) ist ein Mass dafür, wie gut automatische Übersetzungen oder generierte Texte mit einem Referenztext übereinstimmen. Es ist wie der "Wie gut hast du es gemacht?"-Meter für maschinelle Übersetzungen. Hier ist, wie es funktioniert: Wenn du einen generierten Text hast, zum Beispiel von einem Übersetzungsprogramm (MT), vergleichst du ihn mit einem oder mehreren Referenztexten, die von Menschen erstellt wurden. Der Score kann Werte zwischen 0 und 1 annehmen. Wobei die 1 bedeutet, dass die Übersetzung perfekt gelungen ist und ab einem Resultat von mehr als 0.6 kann die Übersetzung als mindestens gleich gut wie die eines Menschen angesehen werden.

Reminder zu unserem Benchmark: In der referenzierten Arbeit wurden mit zwei verschiedenen MT-Tools Übersetzungen vom Deutschen ins Englische gemacht und mit dem Bleu-Score überprüft. Dabei wurden folgende Resultate erreicht:

Source	Target	MT-Tool	BLEU-Socre
Deutsch	Englisch	Yandex	0.8108
Deutsch	Englisch	Helsinki NLP	0.8015

Üsi Resultat

Die übersetzten Fragen wurden nun in der Evaluation mit dem BLEU-Score mit den ursprünglichen englischen Fragen aus dem QALD-9-Plus-Datensatz verglichen. Dabei erreichten wir einen durchschnittlichen Score von 0.7378. Dies ist leicht unter dem angestrebten Benchmark, jedoch immer noch über dem Schwellwert von 0.6 ab welchem eine Übersetzung als mindestens so gut wie von einem Menschen gemacht, betrachtet werden kann.

Source	Target	MT-Tool	BLEU-Socre
Deutsch	Englisch	Yandex	0.8108
Deutsch	Englisch	Helsinki NLP	0.8015
Schweizderdeutsch	Englisch	textshuttle	0.7378

Bedenkt man dazu auch noch, dass die schweizerdeutsche Sprache keine fixen Regeln hat, dafür aber umso mehr verschiedene Dialekte, ist dies ein sehr gutes und vielversprechendes Resultat.

Macht dr Dialekt en Untrschiid?

Unsere freiwilligen Helfer haben beim Übersetzen der Fragen auch ihren Dialekt angegeben. So konnten wir die BLEU-Scores pro Dialekt individuell berechnen, um so feststellen zu können, ob dies einen Einfluss auf die Performance hat. In unseren gesammelten Daten waren die Dialekte Graubünden, Zentralschweiz, Zürich, Ostschweiz und Bern vertreten. Leider fehlen somit die Regionen Wallis und Basel.

Bei den gesammelten und geprüften Dialekten haben wir aber festgestellt, dass kaum ein Unterschied in den BLEU-Scores vorhanden ist. Das bedeutet, dass das MT-Tool von textshuttle bei diesen Dialekten gleich gut performt.

Was hend mir glärnt?

Grundlegenden können wir sagen, dass der Einsatz von Machine Translation als Vorverarbeitung und zur Überwindung von Sprachbarrieren in KQGA-Systemen durchaus machbar erscheint. Dies ist vor allem der beindruckenden Performance von heutigen Übersetzungs-Maschinen zu verdanken.

Bei der Prüfung der schlecht performenden Übersetzungen ist uns eine Optimierungsmöglichkeit für die Zukunft aufgefallen. Wir haben unseren Helfern die deutsche Version der Fragen «vorgesetzt». Diese Fragen wurden bereits von Menschen aus dem Englischen ins Deutsche übersetzt. Dadurch kam es teilweise zu stärkerer Veränderungen der Fragen und somit ein schlechterer BLEU-Score – obwohl die Frage inhaltlich die gleiche blieb. Zum Beispiel wurde so aus dem Term «non-profit organizations» das Akronym «NGOs» gebildet. Dies zeigt auch auf, dass man sich bei solchen komplexen Aufgaben wie der maschinellen Übersetzungen nicht nur auf «einfache» Scores verlassen kann.

Dangge!

Abschliessend möchten wir uns nochmals bei textshuttle und speziell bei Simona Todesco für ihre Unterstützung in unsrem Projekt bedanken.

Falls Du das nächste Mal etwas übersetzen musst, können wir textshuttle bestens empfehlen – es funktioniert super auf Schweizerdeutsch!

Flavio Dunlop studiert Computational and Data Science im sechsten Semester

Dennis Bilang studiert Computational and Data Science im sechsten Semester

Unbegrenzte Karrieremöglichkeiten in Informatik, Data Science und Computersimulation?

Jetzt zum Studium Computational and Data Science anmelden!

Semesterprojekt: Schweizerdeutsche QA-Systeme dank Machine Translation?

Share

Anzahl Kommentare 0
Kommentare

Se­mes­ter­pro­jekt: Schwei­zer­deut­sche QA-Systeme dank Machine Trans­la­ti­on?

Share

Anzahl Kommentare 0 Kommentare

Semesterprojekt: Schweizerdeutsche QA-Systeme dank Machine Translation?

Anzahl Kommentare 0
Kommentare