Besonders in der Lehre ist die Plagiatserkennung an unserer Hochschule seit eher ein wichtiges Thema. Das eigenständige Vorbereiten und Verfassen von schriftlichen und mündlichen Leistungsnachweisen ist ein zentrales Element zur Ausbildung der Fähigkeit bei den Studierenden, die eigenen Gedanken kritisch zu reflektieren und verständlich und präzise aufs Papier zu bringen.
Bisher lieferte die Plagiatserkennungssoftware Turnitin gute Dienste, um Abschlussarbeiten auf einen möglichen Plagiatsverdacht zu überprüfen. Im Zeitalter der generativen Künstlichen Intelligenz, wo durch das Erstellen von KI-generiertem Output der Text nicht mehr mit einem bereits bestehenden Werk auf ein Plagiat abgeglichen werden kann, stellt sich die Herausforderung, wie nachgewiesen werden kann, ob der vorliegende Text unverhältnismässig und vor allem undokumentiert mittels KI erstellt worden ist.
Aus diesem Grund habe ich in einem Selbstversuch gängige KI-Detektionstools einfach mal getestet. Für den Test habe ich folgende Dokumente erstellt:
- Einen kurzen Abschnitt aus meiner Bachelorarbeit, die ich 2016 erstellt habe und ganz sicher ohne KI erstellt wurde → Text_Bachelorarbeit.pdf
- Einen Text zum selben Thema verfasst mit ChatGPT 4o → Text_ChatGPT 4o.pdf
- Einen von ChatGPT formulierten Text mit dem Hinweis, er solle den Text so anpassen, dass er von KI-Plagiatstool nicht mehr als solchen erkannt werden kann → Text_ChatGPT 4o umgeschrieben.pdf
- Dito Texte von Claude Sonnet 3.7 und Gemini Pro 2.5. → Text_Claude Sonnet 3.7.pdf, Text_Claude Sonnet 3.7 umgeschrieben.pdf, Text_Gemini_2.5 Pro.pdf, Text_Gemini_2.5 Pro umgeschrieben.pdf
- Einen mit StealthGPT verfassten Text, ein Tool, das proklamiert, Texte zu erstellen, die von KI-Plagiatstools nicht als solche erkannt werden können → Text_StealthGPT_Umformuliert.pdf
- Und einen Text, wo ich ChatGPT aufgegeben habe, mir einen Text zu schreiben, der einige Rechtschreibefehler und nicht so saubere Satzstrukturen und Formulierungen drin hat → Text_ChatGPT 4o Unsauberkeiten.pdf
Vorweg: Insgesamt kann konstatiert, dass die allermeisten Tools das von mir geschriebene Werk zuverlässig als "menschlich" erkannt haben. Bei den KI-generierten Texten überzeugte besonders der mit Fehler und Unsauberkeiten erzeugte Output als täuschend menschlich. Das bedeutet, dass diese KI-Plagiatstools mit etwas Aufwand relativ leicht getäuscht werden können und die Zuverlässigkeit der Erkennung von KI-generierten Texten immer nur so gut ist, wie jemand sich nicht die Mühe macht, die Systeme auszutricksen. Spannend finde ich auch eine Aussage auf der Webseite eines KI-Plagiatstools, das den Dienst wieder eingestellt hat:
- AI-generated text is now almost indistinguishable from human writing. New models produce more varied and complex text, with better fine-tuning through prompts. This makes it harder to tell whether a text was written by AI or a human. Research by OpenAI and other third parties, as well as our own analysis, has shown that AI detection tools have high error rates. They often misidentify human-written text as AI-generated and vice versa.
OpenAI also found that students who speak English as a second language or use a more formulaic or concise writing style are more likely to be incorrectly flagged as using AI. All AI detectors face the same challenge. As AI improves, detection methods become less accurate, making them unreliable for assessing academic integrity. Because of this, we’ve decided to take our GPT Detector offline. Academic integrity is important to us, and we don’t want to offer a tool that no longer works as intended.
Ganz abgesehen davon, dass die Beweisführung bei einem positiven Verdacht nicht einfach sein wird, obschon einige Gerichte zugunsten des Verdachts geurteilt haben und den unerlaubten KI-Einsatz als gegeben betrachtet haben (siehe Urteil TUM München bei Einsatz von KI bei einer Bewerbung für das Materstudium → VG München, Beschluss v. 28.11.2023 – M 3 E 23.4371 - Bürgerservice).
Was wir jedoch alle sicher nicht wollen, dass jemand ungerechtfertigt des Einsatzes von KI verdächtigt wird, und wir die Arbeiten von Studierenden nur noch mit einem misstrauischen Auge betrachten. Bei einem Zweifel muss und soll die Unschuldsvermutung angenommen werden, wobei es längerfristig sowieso sinnvoll erscheint, die Leistungsnachweise weg von der Generierung von Texten (sei es nun vom Mensch oder KI) hin zu eher projektbasierten Arbeiten zu verlagern, wo der Prozess der Arbeit höher oder zumindest gleich hoch bewertet wird wie das Endergebnis.
Hier nun das Ergebnis (Anmerkung: bei einigen Tools waren die Free-Credits nicht genügend, um alle Texte zu testen):
- Bachelorarbeit (vollständig ohne KI geschrieben): 0% AI
- Text ChatGPT 4o: 97.68% AI
- Text ChatGPT 4o umformuliert: 97.55% AI
- Text Claude Sonnet 3.7: 66.2% AI
- Text Claude Sonnet 3.7 umformuliert: 46.13% AI
- Text Gemini Pro 2.5: 73.9% AI
- Text Gemini Pro 2.5 umformuliert: 42.74% AI
- Text StealthGPT ChatGPT umformuliert: 33.6% AI
- Text ChatGPT 4o mit Unsauberkeiten: 4.93% AI
- Bachelorarbeit (vollständig ohne KI geschrieben): 0% AI, 0% Mixed, 100% Human
- Text ChatGPT 4o: 14% AI, 74 % Mixed, 12% Human
- Text ChatGPT 4o umformuliert: 37% AI, 53% Mixed, 10% Human
- Text Claude Sonnet 3.7: 38% AI, 50% Mixed, 12% Human
- Text Claude Sonnet 3.7 umformuliert: 26% AI, 18% Mixed, 56% Human
- Text Gemini Pro 2.5: 22% AI, 40% Mixed, 38% Human
- Text Gemini Pro 2.5 umformuliert: 0% AI, 33% Mixed, 67% Human
- Text StealthGPT ChatGPT umformuliert: 3% AI, 18% Mixed, 79% Human
- Text ChatGPT 4o mit Unsauberkeiten: 0% AI, 1% Mixed, 99% Human
- Bachelorarbeit (vollständig ohne KI geschrieben): 1% AI, 99% Human
- Text ChatGPT 4o: 99% AI, 1% Human
- Text ChatGPT 4o umformuliert: 99% AI, 1% Human
- Text Claude Sonnet 3.7: 99% AI, 1% Human
- Text Claude Sonnet 3.7 umformuliert: 99% AI, 1% Human
- Text Gemini Pro 2.5: 99% AI, 1% Human
- Text Gemini Pro 2.5 umformuliert: 99% AI, 1% Human
- Text StealthGPT ChatGPT umformuliert: 99% AI, 1% Human
- Bachelorarbeit (vollständig ohne KI geschrieben): 0% AI, 100% Human
- Text ChatGPT 4o: 87% AI, 13% Human
- Text ChatGPT 4o umformuliert: 100% AI, 0% Human
- Text Claude Sonnet 3.7: 100% AI, 0% Human
- Text Claude Sonnet 3.7 umformuliert: 100% AI, 0% Human
- Text Gemini Pro 2.5: 72% AI, 28% Human
- Text Gemini Pro 2.5 umformuliert: 60% AI, 40% Human
- Text StealthGPT ChatGPT umformuliert: 0% AI, 100% Human
- Text ChatGPT 4o mit Unsauberkeiten: 27% AI, 73% Human
- Bachelorarbeit (vollständig ohne KI geschrieben): 0% AI, 100% Human
- Text ChatGPT 4o: 100% AI, 0% Human
- Text ChatGPT 4o umformuliert: 100% AI, 0% Human
- Text Claude Sonnet 3.7: 100% AI, 0% Human
- Text Claude Sonnet 3.7 umformuliert: 100% AI, 0% Human
- Text Gemini Pro 2.5: 72% AI, 28% Human
- Text Gemini Pro 2.5 umformuliert: 60% AI, 40% Human
- Text StealthGPT ChatGPT umformuliert: 0% AI, 100% Human
- Text ChatGPT 4o mit Unsauberkeiten: 46% AI, 54% Human
- Bachelorarbeit (vollständig ohne KI geschrieben): 0% AI, 10% Mixed, 90% Human
- Text ChatGPT 4o: 93% AI, 7% Mixed, 0% Human
- Text ChatGPT 4o umformuliert: 93% AI, 7% Mixed, 0% Human
- Text Claude Sonnet 3.7: 89% AI, 11% Mixed, 0% Human
- Text Claude Sonnet 3.7 umformuliert: 90% AI, 10% Mixed, 0% Human
- Text StealthGPT ChatGPT umformuliert: 100% AI, 0% Mixed, 0% Human
- Bachelorarbeit (vollständig ohne KI geschrieben): 100% Human
- Text ChatGPT 4o: 94% Human
- Text ChatGPT 4o umformuliert: 96% Human
- Text Claude Sonnet 3.7: 94% Human
- Text Claude Sonnet 3.7 umformuliert: 98% Human
- Text Gemini Pro 2.5: 99% Human
- Text Gemini Pro 2.5 umformuliert: 100% Human
- Text StealthGPT ChatGPT umformuliert: 93% Human
- Text ChatGPT 4o mit Unsauberkeiten: 94% Human
- Bachelorarbeit (vollständig ohne KI geschrieben): 44% Human
- Text ChatGPT 4o: 0% Human
- Text ChatGPT 4o umformuliert: 12% Human
- Text Claude Sonnet 3.7: 1% Human
- Text Gemini Pro 2.5: 15%
- Bachelorarbeit (vollständig ohne KI geschrieben): 99.95% Human
- Text ChatGPT 4o: 99.36% Human
- Text ChatGPT 4o umformuliert: 99.87% Human
- Text Claude Sonnet 3.7: 97.20% Human
- Text Claude Sonnet 3.7 umformuliert: 99.91% Human
- Text Gemini Pro 2.5: 98.54% Human
- Text Gemini Pro 2.5 umformuliert: 99.95% Human
- Text StealthGPT ChatGPT umformuliert: 99.94% Human
- Text ChatGPT 4o mit Unsauberkeiten: 99.92% Human
- Bachelorarbeit (vollständig ohne KI geschrieben): 0% AI
- Text ChatGPT 4o: 0% AI
- Text ChatGPT 4o umformuliert: 0% AI
- Text Claude Sonnet 3.7: 0% AI
- Text Claude Sonnet 3.7 umformuliert: 0% AI
- Text Gemini Pro 2.5: 61% AI
- Text Gemini Pro 2.5 umformuliert: 72% AI
- Text StealthGPT ChatGPT umformuliert: 57% AI
- Text ChatGPT 4o mit Unsauberkeiten: 0% AI