Wie hilfreich sind Detektionstools für KI-Texte?
Weber-Wulff, D., Anohina-Naumeca, A., Bjelobaba, S. et al. Testing of detection tools for AI-generated text. Int J Educ Integr 19, 26 (2023)
Am 25. Dezember 2023 wurde der Artikel Testing of detection tools for AI-generated text im International Journal for Educational Integrity veröffentlicht. Ausgehend von diesem Beitrag haben wir an Hand eines deutschen akademischen Textes verschiedene Detektionstools überprüft. Bei den Diensten handelte es sich um:
- https://ki.fh-wedel.de
- https://checkforai.com
- https://detectgpt.ericmitchell.ai
- https://contentatscale.ai/ai-content-detector
- https://gptzero.me
- https://openai-openai-detector.hf.space
- https://openai-openai-detector.hf.space
- https://platform.openai.com/ai-text-classifier
- https://x.writefull.com/gpt-detector
- https://writer.com/ai-content-detector
- https://www.zerogpt.com
Bis auf die erstgenannte Seite werden diese Anbieter auch im Artikel besprochen. Wir kommen zu folgenden Ergebnissen:
Tools, die im oben genannten Artikel getestet werden, existieren teilweise schon nicht mehr. Der Markt der Detektionsanbieter wandelt sich stetig und sehr schnell. Z.B.
- https://checkforai.com
- https://detectgpt.ericmitchell.ai
- https://platform.openai.com/ai-text-classifier
Mitunter wird auf den Webseiten für unredliche Schreibtools mit angeblich geringerer Erkennungswahrscheinlichkeit geworben
Die Ergebnisse unterscheiden sich gravierend voneinander. So kommt die Seite der FH Wedel zu anderen und entgegengesetzten Ergebnissen wie die restlichen Anbieter.
Die Tools stellen eine Blackbox dar und ermöglichen es nicht, die Ergebnisse nachzuvollziehen. Keines der Tools liefert belastbare Belege für das Testergebnis. Einzig https://gptzero.me bietet eine detailliertere Auflistung an. So markiert das Tool einzelne Sätze und Abschnitte, die wahrscheinlich AI generiert sind.
Manche Angebote akzeptieren keine deutschsprachige Texte:
Die Anbieter akzeptieren zum Teil nur begrenzte Textmengen zur Überprüfung (so bietet https://contentatscale.ai/ai-content-detector nur 2500 Zeichen an).
Abgesehen von https://gptzero.me werden die Ergebnisse lediglich vor der Differenz menschlich/KI-generiert behandelt – Mischformen werden nicht behandelt bzw. nur indirekt über die Prozentangabe der Wahrscheinlichkeit eines KI-Ursprungs.
Die Antwort auf die Frage, ob Detektionstools bei der Beurteilung von Verdachtsfällen hilfreich sind, lautet also eher nein. Im akademischen Prüfungskontext verbleibt die offene Frage, was sich mit dem Prüfungsergebnis eines Detektionstools anfangen lässt, selbst wenn es zu 100% korrekt sein sollte? Schließlich liefert es nur eine Antwort, aber keine Belege.