Mathematik gilt in Studiengängen wie Computational and Data Science oft als Hürde. Lange Nächte vor komplexen Formeln und die Suche nach verständlichen Erklärungen gehören für viele Studierende zum Alltag – besonders, wenn Sprachbarrieren oder alte Wissenslücken dazukommen. Während herkömmliche Chatbots zwar schnell antworten, bleibt oft die Frage: Verstehe ich das Konzept wirklich oder kopiere ich nur eine (vielleicht falsche) Lösung? Dieser Blogbeitrag beleuchtet, wie die FHGR mit intelligenten KI-Tutoren den Weg vom blossen Abschreiben hin zu echtem mathematischen Verständnis ebnet.
Warum sind KI-Tutoren eigentlich relevant?
Das tägliche Lernen kann für Studierende sehr anstrengend sein. Der Stoff stapelt sich, Abgabefristen nähern sich und komplexe Fächer wie Mathematik stellen oft Schwierigkeiten dar. Hier kommen KI-Tutoren ins Spiel. Das sind digitale Lernassistenten, die auf künstlicher Intelligenz basieren und ähnlich wie ein menschlicher Tutor Fragen beantworten oder Aufgaben erklären können. Sie sind immer verfügbar, skalierbar und an die meisten Bedürfnisse der Lernenden anpassbar, egal ob man zu Hause, in der Bibliothek oder unterwegs ist.
Wenn ein menschlicher Tutor einmal nicht verfügbar sein sollte, können wir sofortig Feedback, personalisierte Erklärungen und schnelle Unterstützung über ein Chatfenster erhalten. Obwohl das praktisch klingt, birgt es doch auch einige Risiken. Wie wir wissen, sind nicht alle Antworten richtig, es fehlt teilweise die Transparenz und manche Erklärungen klingen vielleicht zunächst glaubwürdig, sind aber nicht korrekt.
Genau deshalb sind unsere Fragen zur Zuverlässigkeit, Genauigkeit und zum pädagogischen Wert von KI-Tutoren im Bildungsbereich so relevant. Für Lernende der FHGR kann dies beispielsweise den Unterschied zwischen «Abschreiben» und echtem Verstehen ausmachen.
Was sind Education-QA-Systeme?
Traditionelle Suchmaschinen bieten uns Listen mit Links an, aus denen wir selbst herauslesen, welche Quellen für uns geeignet sind. Das ist natürlich etwas zeitaufwändig. Education-Question-Answer-Systeme (auch Education-QA-Systeme) hingegen sind KI-Systeme, die speziell dafür entwickelt wurden, Fragen aus dem Bildungsbereich zu beantworten und dabei verständliche Schritt-für-Schritt-Erklärungen zu liefern. Sie definieren ein klares Ziel: komplexe mathematische Fragenstellungen durch strukturierte, verständliche und schrittweise Erklärungen zugänglich zu machen
Wenn eine Studentin eine komplexe mathematische Formel oder einen Theoriesatz in Mathematik nicht versteht, kann sie einen Edu-Bot fragen, der eine schrittweise Erklärung der Berechnung inklusive Antwort liefert. Wir können uns das wie einen Privatlehrer vorstellen: Er sieht, bei welchen Stellen man nicht weiterkommt und hilft uns dementsprechend. Hier können KI-Techniken mit pädagogischem Denken kombiniert werden, wobei der Schwerpunkt auf echter Lernunterstützung liegt.
Zwischen Forschung und Realität: Wo stehen KI-Tutoren heute?
Der Einsatz von Retrieval-Augmented Generation-Systemen (auch RAG-Systeme genannt) nimmt im Bildungsbereich zu, wo sie als virtuelle Tutoren in adaptiven Lernumgebungen eingesetzt werden und personalisiertes Feedback zu Lerngewohnheiten geben. Retrieval-Augmented Generation (RAG) ist eine Methode, bei der ein KI-Modell zuerst relevante Informationen aus externen Quellen (z. B. Dokumenten oder Datenbanken) abruft und diese anschliessend nutzt, um darauf basierend eine fundiertere Antwort zu generieren. Vereinfacht gesagt, funktioniert ein RAG-System wie ein Student, der zuerst in seinen Unterlagen nachschlägt und danach eine Antwort formuliert.
Gleichzeitig gibt es Herausforderungen, wie die Tatsache, dass es nur wenige standardisierte Evaluationen gibt zur Überprüfung der Präzision. Viele Systeme sind noch unterentwickelt und die Genauigkeit der Antworten variiert stark. Für Studierende mag KI hilfreich sein, aber die kritischen Bewertungen der Lernenden selbst können nicht ignoriert werden.
Die zentrale Forschungslücke: Warum die Mathematik mehr als nur Text braucht
Wir wissen, dass KI-Tutoren exzellente Antworten geben, jedoch unterschiedliche Lernstile und Vorkenntnisse der Studierenden nicht berücksichtigen. Manche Leute verstehen textuell schliesslich alles, andere lernen leichter durch visuelle Inhalte oder eine Kombination von beiden. Dies reflektiert auch die Natur von Mathematik:
The only way to learn Mathematics, is to do Mathematics.
Paul Halmos
Beim Lernen von Mathematik arbeiten Studierende mit Formeln, Diagrammen und oft auch handgeschriebenen Notizen. Dies fehlt in rein textbasierten KI-Tutor Systemen, wodurch sie eindimensional wirken. Zudem fehlen auch einheitliche Methoden zur Messung der Lerneffektivität und Zugang zu leistungsstarken Rechnern.
Für Mathematik-Lernende bedeutet dies, dass KI zwar Unterstützung für deren Lernprozess bietet, jedoch kein solides Verständnis vermittelt. Genau dieser Punkt motiviert uns in unserer Arbeit: Mathematik so zu lernen, indem man visuell und schrittweise die Thematik erlernt.
Unser System integriert Formeln, Diagramme und handschriftliche Notizen aus dem FHGR-Kontext. Wir verwenden Vorlesungsfolien, Übungsblätter und handgeschriebene Notizen aus den Modulen Mathematik 1-3, welche die mathematischen Symbole, Erklärungen des Dozierenden und die prüfungsrelevante Struktur reflektieren. Dadurch wirkt unser System kontextuell und nicht generisch.
Eine Antwort oder Lösung zu einer mathematischen Aufgabe wird innerhalb unserer bestehenden RAG-Pipeline verarbeitet und Schritt für Schritt erklärt, wodurch die Lösungslogik für Studierende nachvollziehbar bleibt. Unsere Pipeline ist modular und ermöglicht es, die relevanten Informationen zu extrahieren und Antworten zu generieren. Allfällige Fehler in der Antwortvergabe können iterativ und lokalisiert verbessert werden.
Retrieval-Augmented Generation (RAG): Unsere Mathe-Erklärmaschine
Damit alle Anforderungen für ein erfolgreiches multimodales RAG umgesetzt werden, muss eine saubere, gut durchdachte Pipeline implementiert werden. Multimodal bedeutet, dass ein System mehrere Arten von Informationen gleichzeitig verarbeiten kann, zum Beispiel Text, Bilder, Formeln oder Diagramme.
Als Ausgangspunkt bzw. Datengrundlage haben wir handschriftliche Notizen, Aufgabenblätter und Folien aus den Mathematik-Kursen genutzt. Diese Bilder und PDFs sind jedoch aufgrund der Handschrift, der Formeln, Bilder oder Funktionsgraphen nicht maschinenlesbar, weswegen sie durch ein sogenanntes optical character recognition-System (OCR, auf Deutsch optisches Zeichenerkennungssystem) in eine .md oder .json Schreibweise umgewandelt werden. OCR ist eine Technologie, die Text aus Bildern oder eingescannten Dokumenten automatisch erkennt und in maschinenlesbaren Text umwandelt. Die Transkription wird mithilfe von DeepSeek OCR durchgeführt und dieses Modell hat bereits die Fähigkeiten, die Dokumente logisch zu strukturieren.
Für das Chunking - also das Aufteilen längerer Dokumente in kleinere Textabschnitte (Chunks) - wurden zwei Strategien verwendet:
- Für die Theorieseiten kam Recursive Chunking mit Overlap zum Einsatz. Dabei wird der Text schrittweise anhand von Absätzen oder Satzgrenzen in kleinere Segmente zerlegt. Der 'Overlap' bezeichnet eine gezielte Überlappung zwischen aufeinanderfolgenden Chunks, bei der ein Teil des vorherigen Texts im nächsten Chunk wiederholt wird, damit inhaltliche Zusammenhänge erhalten bleiben.
- Für die Aufgabenblätter wurde Structured Chunking verwendet. Hier orientiert sich die Aufteilung an der Struktur des Dokuments, sodass einzelne Übungen oder Teilaufgaben jeweils als eigene Chunks gespeichert werden.
Damit das Large Language Model (LLM) später die relevanten Chunks erhält und das Retrieval - also der gezielte Abruf passender Informationen aus der Wissensbasis - stabil funktioniert, werden zusätzlich Metadaten erzeugt. Diese strukturierten Zusatzinformationen (z. B. Quelle, Kapitel oder zugehörige Aufgabe) werden sowohl den Textchunks als auch den Bildern zugeordnet, sodass die Beziehungen zwischen den Inhalten erhalten bleiben.
Für das Textembedding wird das Modell mxbai-embed-large von Ollama genutzt und für das Bildembedding CLIP. Embeddings sind numerische Repräsentationen von Text oder Bildern. Inhalte werden dabei in Vektoren (Zahlenreihen) übersetzt, sodass Computer Bedeutungen vergleichen und ähnliche Inhalte finden können. Für den textbasierten Teil des Retrievals hat sich der Ranking-Algorithmus BM25 als sehr zuverlässig erwiesen. Um die kontextrelevantesten Chunks zu finden, wird ein Score mit dem Reciprocal Rank Fusion berechnet. Zum Schluss werden die Modelle deepseek-r1:32b (text model) und qwen2.5-vl (vision model) von Ollama für die Antwortgenerierung eingesetzt. Als Resultat wird ein detaillierter und verständlicher Lösungsweg bzw. ein sogenannter Chain of Thought inklusive dem Endergebnis ausgegeben.
Vereinfacht gesagt besteht unsere Pipeline aus vier Schritten:
- Dokumente werden maschinenlesbar gemacht (OCR).
- Inhalte werden in kleinere Abschnitte aufgeteilt (Chunking).
- Relevante Informationen werden aus einer Datenbank gesucht (Retrieval).
- Ein KI-Modell generiert daraus eine verständliche Antwort.
Evaluation: Was zeigt sich bereits?
In unserer Evaluation überprüfen wir zwei Dinge: wie gut die Dokumente automatisch erkannt werden (OCR) und wie korrekt und verständlich die KI mathematische Aufgaben erklärt.
Für die OCR Evaluation kommt zum einen die Character und Word Error Rate zum Einsatz, die überprüft, wie viele Zeichen bzw. Wörter im Vergleich zur Gesamtanzahl falsch sind. Zusätzlich wird die Segment und Equation Accuracy berechnet, um festzustellen, wie viele abgetrennte Textsegmente bzw. Formeln richtig transkribiert wurden. Für alle Berechnungen ist der Output vom OCR und eine manuell korrigierte Version davon als Ground Truth als Vergleich genommen worden - die Accuracies weisen durchaus starke Ergebnisse vor.
Die QA Evaluation, insbesondere die Qualität des Lösungsweges (Chain of Thought), erfolgt mithilfe eines unabhängigen LLM-Judges. Das ist ein unabhängiges KI-Modell, das Antworten anderer Modelle bewertet und überprüft, welche Lösung korrekter oder besser erklärt ist. Für den Vergleich von einem textbasierten Modell (opensource: Mistral7B) und unserem multimodalen Modell (mit LLM deepseek-r1:32b) beantworten beide Modelle ausführlich die gleichen Fragen, welche in .json Files festgehalten werden. Diese, sowie die ursprünglichen Fragen, stellen die Basis für den LLM-Judge (Qwen 3, GPT OSS 120B, Llama 3.3 70B Instruct) dar.
Anschliessend werden die Antworten der zwei Modelle paarweise verglichen, ob beide oder einer der beiden korrekt ist. Für den Determinismus wird eine Biaskontrolle mit einem erneuten Bewertungsdurchlauf mit dem Vertausch der zwei Antworten durchgeführt.
Im letzten Schritt wird der Judge mithilfe der Ground Truth Antworten bewertet. Dabei wird noch die Absolute Accuracy der Antworten geprüft, ob die Endlösung mit Formeln und Zahlen exakt übereinstimmt, sowie die Reasoning Qualität anhand der Bewertung des Judges. Reasoning beschreibt die Fähigkeit eines KI-Modells, logisch zu argumentieren und mehrere Rechenschritte korrekt miteinander zu verbinden. Alle LLM Judges teilen sich die sehr eindeutige Meinung, dass unser multimodales Modell eine bessere Performance für das mathematische Reasoning ablegt. Spannenderweise performt allerdings das textbasierte Modell bei True/False Fragen besser.
Erwartender Nutzen für Studierende
Das System wurde entwickelt, um die Qualität der Antworten zu verbessern, den Studierenden beim Erlernen von Konzepten zu helfen und bei der Prüfungsvorbereitung zu unterstützen, sowie sich gleichzeitig an individuelle Lerngeschwindigkeiten anzupassen. Studierende können sich ausserdem auf kontextbasierte, leicht verständliche Erklärungen verlassen.
Allerdings dürfen wir KI-Tutoren nicht als Ersatz für Lehrkräfte betrachten, sondern lediglich als Hilfsmittel, welches jedem Studierenden dabei helfen kann, effizient zu lernen. Für Studierende an der FHGR kann KI so zu einem Lernassistenten werden, der Fragen beantwortet, Lösungswege überprüft und beim Verständnis mathematischer Konzepte unterstützt.
Unbegrenzte Karrieremöglichkeiten in Informatik, Data Science und Computersimulation?
Jetzt zum Studium Computational and Data Science oder AI in Software Engineering anmelden!
Dieser Bericht wurde von CDS Vollzeit- und Teilzeit-Studentinnen Diya Palmgrove, Isabelle Nachbaur und Thuvaraka Yogarajah im Rahmen des Moduls „Natural Language Processing“ mit Studiengangsleiter Prof. Corsin Capol geschrieben.