Zum Inhalt springen
Logo Artificial Intelligence Blog

Artificial Intelligence Blog

Er­ken­nung von KI-ge­ne­rier­ten Texten

Besonders in der Lehre ist die Plagiatserkennung an unserer Hochschule seit eher ein wichtiges Thema. Das eigenständige Vorbereiten und Verfassen von schriftlichen und mündlichen Leistungsnachweisen ist ein zentrales Element zur Ausbildung der Fähigkeit bei den Studierenden, die eigenen Gedanken kritisch zu reflektieren und verständlich und präzise aufs Papier zu bringen.

Bisher lieferte die Plagiatserkennungssoftware Turnitin gute Dienste, um Abschlussarbeiten auf einen möglichen Plagiatsverdacht zu überprüfen. Im Zeitalter der generativen Künstlichen Intelligenz, wo durch das Erstellen von KI-generiertem Output der Text nicht mehr mit einem bereits bestehenden Werk auf ein Plagiat abgeglichen werden kann, stellt sich die Herausforderung, wie nachgewiesen werden kann, ob der vorliegende Text unverhältnismässig und vor allem undokumentiert mittels KI erstellt worden ist.

Aus diesem Grund habe ich in einem Selbstversuch gängige KI-Detektionstools einfach mal getestet. Für den Test habe ich folgende Dokumente erstellt:

Vorweg: Insgesamt kann konstatiert, dass die allermeisten Tools das von mir geschriebene Werk zuverlässig als "menschlich" erkannt haben. Bei den KI-generierten Texten überzeugte besonders der mit Fehler und Unsauberkeiten erzeugte Output als täuschend menschlich. Das bedeutet, dass diese KI-Plagiatstools mit etwas Aufwand relativ leicht getäuscht werden können und die Zuverlässigkeit der Erkennung von KI-generierten Texten immer nur so gut ist, wie jemand sich nicht die Mühe macht, die Systeme auszutricksen. Spannend finde ich auch eine Aussage auf der Webseite eines KI-Plagiatstools, das den Dienst wieder eingestellt hat:

  • AI-generated text is now almost indistinguishable from human writing. New models produce more varied and complex text, with better fine-tuning through prompts. This makes it harder to tell whether a text was written by AI or a human. Research by OpenAI and other third parties, as well as our own analysis, has shown that AI detection tools have high error rates. They often misidentify human-written text as AI-generated and vice versa.
    OpenAI also found that students who speak English as a second language or use a more formulaic or concise writing style are more likely to be incorrectly flagged as using AI. All AI detectors face the same challenge. As AI improves, detection methods become less accurate, making them unreliable for assessing academic integrity. Because of this, we’ve decided to take our GPT Detector offline. Academic integrity is important to us, and we don’t want to offer a tool that no longer works as intended.

Ganz abgesehen davon, dass die Beweisführung bei einem positiven Verdacht nicht einfach sein wird, obschon einige Gerichte zugunsten des Verdachts geurteilt haben und den unerlaubten KI-Einsatz als gegeben betrachtet haben (siehe Urteil TUM München bei Einsatz von KI bei einer Bewerbung für das Materstudium → VG München, Beschluss v. 28.11.2023 – M 3 E 23.4371 - Bürgerservice).

Was wir jedoch alle sicher nicht wollen, dass jemand ungerechtfertigt des Einsatzes von KI verdächtigt wird, und wir die Arbeiten von Studierenden nur noch mit einem misstrauischen Auge betrachten. Bei einem Zweifel muss und soll die Unschuldsvermutung angenommen werden, wobei es längerfristig sowieso sinnvoll erscheint, die Leistungsnachweise weg von der Generierung von Texten (sei es nun vom Mensch oder KI) hin zu eher projektbasierten Arbeiten zu verlagern, wo der Prozess der Arbeit höher oder zumindest gleich hoch bewertet wird wie das Endergebnis.

Hier nun das Ergebnis (Anmerkung: bei einigen Tools waren die Free-Credits nicht genügend, um alle Texte zu testen):

Zero GPT:

  • Bachelorarbeit (vollständig ohne KI geschrieben): 0% AI
  • Text ChatGPT 4o: 97.68% AI
  • Text ChatGPT 4o umformuliert: 97.55% AI
  • Text Claude Sonnet 3.7: 66.2% AI
  • Text Claude Sonnet 3.7 umformuliert: 46.13% AI
  • Text Gemini Pro 2.5: 73.9% AI
  • Text Gemini Pro 2.5 umformuliert: 42.74% AI
  • Text StealthGPT ChatGPT umformuliert: 33.6% AI
  • Text ChatGPT 4o mit Unsauberkeiten: 4.93% AI

GPTZero:

  • Bachelorarbeit (vollständig ohne KI geschrieben): 0% AI, 0% Mixed, 100% Human
  • Text ChatGPT 4o: 14% AI, 74 % Mixed, 12% Human
  • Text ChatGPT 4o umformuliert: 37% AI, 53% Mixed, 10% Human
  • Text Claude Sonnet 3.7: 38% AI, 50% Mixed, 12% Human
  • Text Claude Sonnet 3.7 umformuliert: 26% AI, 18% Mixed, 56% Human
  • Text Gemini Pro 2.5: 22% AI, 40% Mixed, 38% Human
  • Text Gemini Pro 2.5 umformuliert: 0% AI, 33% Mixed, 67% Human
  • Text StealthGPT ChatGPT umformuliert: 3% AI, 18% Mixed, 79% Human
  • Text ChatGPT 4o mit Unsauberkeiten: 0% AI, 1% Mixed, 99% Human

Undetectable AI:

  • Bachelorarbeit (vollständig ohne KI geschrieben): 1% AI, 99% Human
  • Text ChatGPT 4o: 99% AI, 1% Human
  • Text ChatGPT 4o umformuliert: 99% AI, 1% Human
  • Text Claude Sonnet 3.7: 99% AI, 1% Human
  • Text Claude Sonnet 3.7 umformuliert: 99% AI, 1% Human
  • Text Gemini Pro 2.5: 99% AI, 1% Human
  • Text Gemini Pro 2.5 umformuliert: 99% AI, 1% Human
  • Text StealthGPT ChatGPT umformuliert: 99% AI, 1% Human

QuillBot AI Detector:

  • Bachelorarbeit (vollständig ohne KI geschrieben): 0% AI, 100% Human
  • Text ChatGPT 4o: 87% AI, 13% Human
  • Text ChatGPT 4o umformuliert: 100% AI, 0% Human
  • Text Claude Sonnet 3.7: 100% AI, 0% Human
  • Text Claude Sonnet 3.7 umformuliert: 100% AI, 0% Human
  • Text Gemini Pro 2.5: 72% AI, 28% Human
  • Text Gemini Pro 2.5 umformuliert: 60% AI, 40% Human
  • Text StealthGPT ChatGPT umformuliert: 0% AI, 100% Human
  • Text ChatGPT 4o mit Unsauberkeiten: 27% AI, 73% Human

Scribbr AI Detector:

  • Bachelorarbeit (vollständig ohne KI geschrieben): 0% AI, 100% Human
  • Text ChatGPT 4o: 100% AI, 0% Human
  • Text ChatGPT 4o umformuliert: 100% AI, 0% Human
  • Text Claude Sonnet 3.7: 100% AI, 0% Human
  • Text Claude Sonnet 3.7 umformuliert: 100% AI, 0% Human
  • Text Gemini Pro 2.5: 72% AI, 28% Human
  • Text Gemini Pro 2.5 umformuliert: 60% AI, 40% Human
  • Text StealthGPT ChatGPT umformuliert: 0% AI, 100% Human
  • Text ChatGPT 4o mit Unsauberkeiten: 46% AI, 54% Human

DetectGPT:

  • Bachelorarbeit (vollständig ohne KI geschrieben): 0% AI, 10% Mixed, 90% Human
  • Text ChatGPT 4o: 93% AI, 7% Mixed, 0% Human
  • Text ChatGPT 4o umformuliert: 93% AI, 7% Mixed, 0% Human
  • Text Claude Sonnet 3.7: 89% AI, 11% Mixed, 0% Human
  • Text Claude Sonnet 3.7 umformuliert: 90% AI, 10% Mixed, 0% Human
  • Text StealthGPT ChatGPT umformuliert: 100% AI, 0% Mixed, 0% Human

Writer:

  • Bachelorarbeit (vollständig ohne KI geschrieben): 100% Human
  • Text ChatGPT 4o: 94% Human
  • Text ChatGPT 4o umformuliert: 96% Human
  • Text Claude Sonnet 3.7: 94% Human
  • Text Claude Sonnet 3.7 umformuliert: 98% Human
  • Text Gemini Pro 2.5: 99% Human
  • Text Gemini Pro 2.5 umformuliert: 100% Human
  • Text StealthGPT ChatGPT umformuliert: 93% Human
  • Text ChatGPT 4o mit Unsauberkeiten: 94% Human

Go Winston:

  • Bachelorarbeit (vollständig ohne KI geschrieben): 44% Human
  • Text ChatGPT 4o: 0% Human
  • Text ChatGPT 4o umformuliert: 12% Human
  • Text Claude Sonnet 3.7: 1% Human
  • Text Gemini Pro 2.5: 15%

FH Wedel KI Erkennung:

  • Bachelorarbeit (vollständig ohne KI geschrieben): 99.95% Human
  • Text ChatGPT 4o: 99.36% Human
  • Text ChatGPT 4o umformuliert: 99.87% Human
  • Text Claude Sonnet 3.7: 97.20% Human
  • Text Claude Sonnet 3.7 umformuliert: 99.91% Human
  • Text Gemini Pro 2.5: 98.54% Human
  • Text Gemini Pro 2.5 umformuliert: 99.95% Human
  • Text StealthGPT ChatGPT umformuliert: 99.94% Human
  • Text ChatGPT 4o mit Unsauberkeiten: 99.92% Human

CrossPlag:

  • Bachelorarbeit (vollständig ohne KI geschrieben): 0% AI
  • Text ChatGPT 4o: 0% AI
  • Text ChatGPT 4o umformuliert: 0% AI
  • Text Claude Sonnet 3.7: 0% AI
  • Text Claude Sonnet 3.7 umformuliert: 0% AI
  • Text Gemini Pro 2.5: 61% AI
  • Text Gemini Pro 2.5 umformuliert: 72% AI
  • Text StealthGPT ChatGPT umformuliert: 57% AI
  • Text ChatGPT 4o mit Unsauberkeiten: 0% AI 

Anzahl Kommentare 0
Kommentare