Zum Inhalt springen
Logo CDS und DAViS Blog

Computational and Data Science Blog

Wenn die Metrik meckert: Drei Stu­die­ren­de un­ter­su­chen Schwei­zer­deut­sche Sprach­er­ken­nung

Leichtgewichtige Korrekturmodule, ein tückischer Datensatz und warum bessere Metriken nicht immer bessere Inhalte bedeuten

Schweizerdeutsch sprechen, auf Standarddeutsch schreiben: Genau diese Alltagssituation macht automatische Spracherkennung (ASR) in der Schweiz so spannend. Hier kommt Natural Language Processing (NLP) ins Spiel, ein Teilgebiet der Künstlichen Intelligenz, das es Computern ermöglicht, menschliche Kommunikation in Text- oder Sprachform zu verstehen, zu interpretieren und selbst zu generieren.

Wer schon einmal ein Meeting transkribieren lassen wollte, kennt aber auch die Grenzen: Oft klingt der Fehler phonetisch plausibel, ist allerdings inhaltlich falsch. Kleine Unterschiede in der Grammatik oder im Stil werden von klassischen Messgrössen zudem schnell als grosse Probleme gezählt.

Stell dir also vor, du diktierst eine Sprachnachricht auf Schweizerdeutsch: «I bi uf Züri gange.» Eine moderne KI, wie OpenAIs Whisper, macht daraus Standarddeutsch: «Ich bin nach Zürich gegangen.» Eigentlich perfekt, oder? Doch die Statistik sagt: Falsch!

Warum? Weil in vielen offiziellen Datensätzen als ideale Referenz der Satz «Ich ging nach Zürich» im Präteritum hinterlegt ist. Sprecherinnen und Sprecher von Schweizerdeutsch formulieren solche Sätze jedoch natürlicherweise im Perfekt – Whisper transkribiert das Gesprochene also korrekt als «Ich bin nach Zürich gegangen», wird aber dennoch bestraft, weil die Transkription von der Präteritum-Referenz abweicht. Genau diese Diskrepanz macht die Bewertung solcher Systeme jedoch tückisch – und wurde zur zentralen Herausforderung des Studierenden-Projekts.

Wenn Daten «sturer» sind als die Realität

In Rahmen des Moduls «Natural Language Processing» haben die Bachelorstudierenden in Computational and Data Science (CDS), Joël Barandun, Daniela Studer-Müller und Martina Cavegn, eine konkrete Frage gestellt: Wenn Whisper als starkes «Frontend» genutzt wird, was können dann leichtgewichtige, rein textbasierte Korrekturmodule im Übergang von Schweizerdeutsch ins Standarddeutsch liefern?

Eine zentrale Erkenntnis des Projekts war, dass die Standard-Messgrösse – der sogenannte Word Error Rate (WER) – ein verzerrtes Bild liefert: «Die Metrik misst nur, ob Wörter exakt übereinstimmen, nicht aber, ob der Sinn stimmt», erklären die Studierenden.

In ihrem Projekt untersuchten sie den Übergang vom Dialekt zum Hochdeutschen. Viele Fehler entstehen nämlich nicht, weil KI-Modelle «nichts verstanden» haben, sondern weil die gesprochene Sprache und die schriftsprachliche Norm auseinanderdriften. Während wir im Schweizerdeutschen fast nur das Perfekt nutzen («er isch gange», «sie het gseit»), ist in manchen Datensätzen als Referenz eher das schriftdeutsche Präteritum hinterlegt («er ging», «sie sagte»). Auch sind einzelne Wörter (z.B. Eigennamen, Orte oder Zahlen) oft selten und deshalb statistisch schwer zu lernen.

Ein Beispiel: Die Referenz «Er ging nach Zürich» wird von Whisper als «Er ist nach Zürich gegangen» transkribiert. Inhaltlich ist das praktisch identisch, die WER zählt aber mehrere Fehler. Und die Studierenden decken auf: Die KI ist oft viel besser, als ihre Fehlerquote vermuten lässt.

Professor Corsin Capol, CDS-Studiengangsleiter, betont:

Das Projekt zeigt, worauf es im Natural Language Processing ankommt: Entscheidend sind nicht nur gute Modelle, sondern auch passende Daten und geeignete Bewertungsverfahren. Gerade bei Schweizerdeutsch wird deutlich, dass sprachliche Variation kein Fehler ist.

Ein neuer Ansatz: Post-Editing für KI-Texte

Daniela, Joël und Martina haben bewusst keine Akustikmodelle nachtrainiert – eine rechenintensive Aufgabe. Stattdessen setzten sie auf «non-intrusive» Post-Editing. Das heisst, dass Whisper unverändert blieb, und sie lediglich den Text korrigierten.

Dafür testeten sie verschiedene Ansätze:

  1. Regelbasierte Korrektur: Ein Set von Regeln, die systematische Fehler (wie das Zeitformen-Problem) gezielt beheben. Das bringt den Vorteil, dass regelbasierte Verfahren üblicherweise keine frei erfundenen Inhalte hinzufügen (auch «halluzinieren» genannt).
  2. KI-Übersetzer («Seq2Seq»): Kleine, spezialisierte KI-Modelle, die den Text flüssiger machen.
  3. Die Hybrid-Lösung: Erst die Regeln, dann die KI.
    Ursprünglich war das Ziel, echte inhaltliche Fehler zu korrigieren — also Fälle, wo Whisper ein Wort schlicht falsch erkannt hat. Die Eigenheiten des Datensatzes führten jedoch dazu, dass die Modelle hauptsächlich lernten, Perfekt in Präteritum umzuschreiben. Ein Gewinn auf dem Papier — aber ohne wirklichen inhaltlichen Mehrwert.

Das grosse Messen: WER, Edit-Rate und Semantik

Die Evaluation erfolgte auf einem konsistenten Test-Set (21,866 Sätze), welches extreme Ausreisser (also Sätze mit sehr hohem WER) entfernt. Als Kennzahlen galten:

  • WER.
  • Edit-Rate (heisst, «wie oft wird überhaupt etwas verändert?») zusammen mit dem Anteil «erfolgreicher» Edits (heisst, «führt die Änderung tatsächlich zu einem besseren WER?»).
  • Satzähnlichkeit, um semantische Nähe trotz stilistischer Unterschiede abzuschätzen.

Das Ergebnis: 31% weniger Fehler und eine wichtige Lektion

Die hybride Kombination aus festen Regeln und flexibler KI schnitt am besten ab. Die Fehlerquote (WER) sank um beachtliche 31% — das reine Regelmodul schaffte bereits rund 20%. Doch viel wichtiger war das Ergebnis der semantischen Prüfung: Die Auswertung legt nahe, dass die KI den Sinn der Sätze bereits zu 98% erfasst hatte. Das bedeutet, dass viele «WER-Fehler» keine Inhaltsfehler waren, sondern Norm- und Stilabweichungen — wie eben das Perfekt statt Präteritum.

Was wir daraus für die Praxis lernen:

  • Datensatz vor Modell: Bevor man Korrekturmodelle trainiert, lohnt es sich, die Referenztranskripte zu überprüfen. Erlauben sie sprachliche Variation — etwa sowohl Perfekt- als auch Präteritumformen — oder bestrafen sie korrektes Schweizerdeutsch unnötig? Ein Modell kann nur so gut sein wie die Daten, gegen die es gemessen wird.
  • Regeln vor KI: Oft ist ein simples Regelwerk – vor allem bei wiederkehrenden Mustern – effizienter und sicherer als eine hochkomplexe KI. Sie glänzen dort, wo Fehler systematisch sind (z.B. beim Wechsel vom Perfekt ins Präteritum, typische Fehlhörer [FS1] oder Zahlenformate). Sie haben praktisch kein Halluzinationsrisiko und hatten in diesem Fall den besten «Nutzen pro Risiko»-Trade-Off.
  • Kritisches Hinterfragen: Wer KI-Modelle bewertet, darf sich nicht auf eine einzige Kennzahl verlassen. Neuronale Sequenzmodelle können verblüffend gut «glätten» und Kontextfehler reparieren, aber sie neigen auch zur Überkorrektur. Semantik-Metriken und im Idealfall mehrere Referenzen bilden die reale Qualität besser ab.

Ausblick: Bessere Datensätze, bessere Metriken

Die grösste wissenschaftliche Erkenntnis des Projekts bezieht sich weniger auf ein bestimmtes Modell, sondern summiert sich als Hinweis an die Community. Für Fälle, die Schweizerdeutsch ins Standarddeutsch umwandeln, braucht es nämlich ganz klar Datensätze, die Variationen zulassen. Konkret wäre hilfreich:

  • Mehrere gleichwertige Standarddeutsch-Referenzen (Paraphrasen),
  • Referenzen, die systematisch auch Perfektformen abdecken,
  • Fehlerklassifikation, um echte Inhaltsfehler von stilistischen Abweichungen zu trennen.

Unser Fazit aus dem Hörsaal

Das Projekt von Martina, Daniela und Joël zeigt eindrücklich, worum es im Bachelorstudium Computational and Data Science geht: Es reicht nicht, eine KI zu «füttern». Man muss verstehen, wie die Daten entstehen, wo die Fallstricke der Statistik liegen und wie man mit kreativen Engineering-Lösungen (wie z.B. dem Post-Editing) reale Probleme löst. Ein echtes Highlight moderner Lehre – praxisnah, kritisch und am Puls der digitalen Schweiz.

[Das Beitragsbild wurde von ChatGPT generiert.]

Unbegrenzte Karrieremöglichkeiten in Informatik, Data Science und Computersimulation?

Jetzt zum Studium Computational and Data Science oder AI in Software Engineering anmelden!

Anzahl Kommentare 0
Kommentare