Wiki "KI in der Hochschule"

Reiter

31. OAG-Treffen 26.05.2026

Datum: 26. Mai 2026, 9:00 - 10:30 Uhr

Protokollführung: Tanja Trzeciak (unterstützt durch Sebastian Busse und ChatGPT-4o, https://www.openai.com/)

Teilnehmende: Christian Uhl, Eva Regensburg, Frank Waldschmidt-Dietz, Johanna Daus, Joss von Hadeln, Maja Bärenfänger, Marc Schetelig, Nadine Ackermann, Sebastian Busse, Tanja Trzeciak (Liste ggf. nicht vollständig)

Das nächste OAG-Treffen findet statt am 23.06.2026, 9:00 - 10:30 Uhr.
Teilnahme-Link: https://webconf.hrz.uni-giessen.de/b/seb-c7n-lnt-cqu

Abfrage zur Priorisierung von Themen der nächsten Sitzungen: https://survey.hrz.uni-giessen.de/index.php/432497?lang=de

1. Themenrahmen

Zu Beginn wurde der Rahmen der Sitzung bestimmt. Im Mittelpunkt stand der Umgang mit generativer KI im Studium, insbesondere in Prüfungen, Abschlussarbeiten, Eigenständigkeitserklärungen und möglichen Richtlinien. Als Arbeitsgrundlage dienten Entwürfe aus dem Fachbereich 09, darunter Vorschläge zur Regelung der KI-Nutzung, eine überarbeitete Eigenständigkeitserklärung sowie eine ausführlichere Erklärung zur Nutzung KI-basierter Werkzeuge. Es wurde festgehalten, dass der Themenkomplex aufgrund seiner Breite nicht abschließend behandelt werden konnte und in weiteren Sitzungen erneut aufgegriffen werden soll. Perspektivisch sollen auch Fragen der KI-Erkennung und des Umgangs mit Täuschungsversuchen weiter diskutiert werden.

2. Science-Artikel zu KI-Nutzung und Prüfungsreform

Als fachlicher Einstieg wurde der Artikel „Generative AI Use and Misuse: A Call for Assessment Reform in Higher Education“ aus „Science“ vorgestellt. Der Artikel wurde als relevant eingeordnet, weil er Befragungsdaten auswertete und die These vertrat, dass generative KI die verlässliche Einschätzung studentischer Kompetenzen erschwert. Besonders problematisch seien Prüfungsformen, die überwiegend auf Wissensabfrage beruhen. KI könne einerseits als personalisierte Lernassistenz wirken, andererseits aber als „Cognitive Shortcut“ dienen, durch den prüfungsrelevante Denkprozesse ausgelagert werden. Die im Artikel genannte Befragung umfasste nahezu 100.000 Personen an verschiedenen Universitäten. Diskutiert wurden Nutzungsraten zwischen etwa 25 und 60 Prozent, mit höheren Werten in STEM-Fächern und besonders in den Computerwissenschaften. Die geschätzte Quote von etwa zehn Prozent betrügerischer KI-Nutzung wurde unterschiedlich bewertet, auch weil die Daten aus dem Jahr 2024 stammen und seitdem ein deutlicher Anstieg der Nutzung vermutet wurde.

3. Methodische Einordnung der Erhebung

Die Methodik der Studie wurde kritisch betrachtet. Insbesondere wurde auf indirekte Fragetechniken zur Erfassung von „Cheating“ verwiesen, die bei sensitiven Themen sinnvoll sein können, aber häufig mit geringer Reliabilität und statistischem Rauschen verbunden sind. Eine abschließende Bewertung der Belastbarkeit der Zahlen konnte nicht vorgenommen werden, da das Paper nur begrenzte methodische Details enthielt. Als offener Punkt wurde festgehalten, dass die konkreten Prozentwerte geprüft werden müssten, bevor sie als Grundlage weitreichender Schlussfolgerungen dienen. Unabhängig davon wurden die im Artikel beschriebenen Grundprobleme und Reformrichtungen als relevant angesehen.

4. Mögliche Reaktionen auf KI in Prüfungskontexten

Aus dem Artikel wurden drei Reaktionsweisen herausgearbeitet. Erstens wurden „Controlled Assessments“ wie Klausuren, mündliche Prüfungen oder praktische Prüfungen ohne digitale Hilfsmittel genannt. Diese Formate können KI-Nutzung ausschließen, bilden aber breitere Kompetenzen und professionelle Urteilskraft nur begrenzt ab. Zweitens wurde klare institutionelle Kommunikation als notwendig beschrieben, damit Studierende und Lehrende wissen, welche KI-Nutzung erlaubt ist und welche nicht. Drittens wurde ein „Redesign“ von Prüfungen als zentraler Ansatz benannt. Prüfungen sollten entweder KI ausdrücklich integrieren oder so gestaltet werden, dass KI keinen wesentlichen Vorteil verschafft. Dabei sollten Arbeitsprozesse, Entscheidungen, Begründungen und kritische Bewertungen von KI-Outputs sichtbar werden. Als tragfähige Lösung wurde eine Kombination aus kontrollierten Prüfungsformaten, klaren Richtlinien und neu gestalteten Aufgaben gesehen.

5. KI als Störfaktor oder Arbeitsmittel

In der Diskussion wurde KI nicht nur als Störfaktor, sondern auch als mögliches Arbeitsmittel betrachtet. Als Vergleich wurden frühere technische Hilfsmittel wie Taschenrechner, Programme, Laptops und digitale Medien herangezogen. Daraus ergab sich die Frage, ob Prüfungen erfassen sollen, was Studierende ohne KI leisten können, oder ob auch die kompetente Arbeit mit KI selbst geprüft werden sollte. Dem wurde gegenübergestellt, dass produktive KI-Nutzung fachliche Grundkompetenzen voraussetzt. Ohne Fachwissen könne KI-Output nicht zuverlässig beurteilt, validiert oder weiterverarbeitet werden. Deshalb wurde zwischen frühen Studienphasen und höheren Qualifikationsstufen unterschieden. Während im Master oder in der Promotion eine stärkere Integration plausibel erscheine, wurde im Bachelor und in der Schule der Aufbau eigener Denk- und Übungsprozesse als besonders schutzwürdig beschrieben.

6. Grundkompetenzen, Validierung und Lernprozess

Zentral war die Frage, ob fehlende Grundkompetenzen im Prüfungsergebnis sichtbar würden, wenn Studierende KI nutzen. Es wurde darauf hingewiesen, dass dies nicht zwingend der Fall ist, da KI-Ergebnisse häufig plausibel und teilweise weitgehend korrekt sein können. Ein gutes Endprodukt belegt daher nicht automatisch, dass der notwendige Lernprozess stattgefunden hat. Zwischen wissenschaftlich brauchbarem Ergebnis und tatsächlichem Kompetenzaufbau wurde ausdrücklich unterschieden. Zugleich wurde betont, dass KI nur dann sinnvoll gesteuert werden kann, wenn die nutzende Person weiß, welches Ergebnis fachlich angemessen ist. Ohne Verständnis des Zielzustands und des Wegs dorthin könne KI überzeugend wirkende, aber problematische Ergebnisse produzieren. Daraus wurde abgeleitet, dass Hochschulen weiterhin dafür verantwortlich bleiben, grundlegende Denk- und Beurteilungsfähigkeiten aufzubauen.

7. Constructive Alignment, Kompetenzziele und Modulbeschreibungen

Die Diskussion wurde auf „Constructive Alignment“ und Kompetenzziele bezogen. Es wurde betont, dass zunächst geklärt werden muss, welche Kompetenzen Studierende erwerben sollen, bevor Prüfungsformen und Lehrformate festgelegt werden. Kritisch wurde festgestellt, dass Kompetenzziele in Modulbeschreibungen häufig eher formal formuliert würden, statt die tatsächliche Lehre zu steuern. Durch KI werde dieses Problem sichtbarer, weil viele Lernziele nicht mehr ohne Weiteres über klassische Prüfungsleistungen überprüfbar seien. Aus dem Fachbereich 09 wurde berichtet, dass Modulbeschreibungen bereits mit Blick auf den Deutschen Qualifikationsrahmen und Niveaustufen überprüft würden, teilweise auch unter Nutzung von ChatGPT. Offen blieb, wie erreicht werden kann, dass gut formulierte Kompetenzziele tatsächlich in Lehre und Prüfung umgesetzt werden. KI-Kompetenz wurde als möglicher Bestandteil akademischer Grundbildung benannt.

8. Angeleitete KI-Nutzung und Erhalt kognitiver Fähigkeiten

Ein weiterer Diskussionspunkt betraf didaktische Szenarien, in denen KI bewusst angeleitet eingesetzt wird. Beschrieben wurde ein Ansatz, bei dem Studierende zunächst eigene Überlegungen entwickeln, anschließend KI gezielt für Rückfragen nutzen, die eigene Argumentation überarbeiten und KI schließlich zur Prüfung von Schlüssigkeit und Gegenargumenten einsetzen. Dieses Vorgehen wurde als deutlich näher an akademischen Zielen wie kritischem Denken, eigenständiger Argumentation und fachlicher Prüfung bewertet als eine direkte Delegation der Aufgabe an KI. Zugleich wurde die Gefahr beschrieben, dass dauerhaft ausgelagerte kognitive Prozesse nicht ausreichend entwickelt werden. Als Herausforderung wurde benannt, Studierende trotz Bequemlichkeit, Zeitdruck und Effizienzgewinnen dazu zu motivieren, eigene Denkprozesse weiterhin zu leisten. Als möglicher Anreiz wurde eine akademische Selbstidentifikation genannt, bei der selbstständiges Denken und Neugier stärker im Vordergrund stehen als nur Abschluss, Karriere oder Effizienz.

9. Noten, Abschlüsse und Rolle der Universität

Die Diskussion führte zu grundsätzlichen Fragen nach dem Wert von Noten und Abschlüssen. Festgehalten wurde, dass Noten nur dann aussagekräftig bleiben, wenn sie tatsächlich Kompetenzen widerspiegeln. Wenn KI-Nutzung Prüfungsleistungen von tatsächlichen Fähigkeiten entkoppelt, könnten Arbeitgeber verstärkt eigene Assessments einsetzen. Dadurch könnte die Legitimationskraft von Hochschulen geschwächt werden. Zugleich wurde das Konzept des „Leveling up“ diskutiert, wonach KI Studierende früher an anspruchsvollere Forschungsfragen heranführen könnte. Dem stand die Frage entgegen, wie solche Aufgaben ohne ausreichende Grundlagen bearbeitet werden sollen. Auch mögliche Veränderungen von Berufsfeldern wurden angesprochen, etwa im Bereich Dolmetschen, wo KI-gestützte Übersetzungen bereits Verschiebungen erzeugen. Daraus ergab sich die Frage, welche Kompetenzen und Studiengänge künftig welchen beruflichen Wert behalten.

10. Ergebnissicherung und Priorisierung weiterer Themen

Angesichts der Breite der Diskussion wurde eine stärkere Ergebnissicherung als notwendig beschrieben. Viele Fragen wurden als wiederkehrende Themen der vergangenen Jahre eingeordnet, die nun strukturierter priorisiert werden sollen. Vorgeschlagen wurde, kommende Sitzungen stärker auf einzelne Fokusthemen auszurichten, statt den gesamten Komplex erneut vollständig zu behandeln. Als mögliche Vorgehensweise wurde eine kurze Umfrage genannt, um die drängendsten Fragen zu identifizieren. Ziel soll eine Themenfolge für kommende OAG-Sitzungen sein.

11. Vorstellung KI-Richtlinien Entwurf aus dem Fachbereich 09

Im zweiten Teil der Sitzung wurden die von Eva und Nadine vorbereiteten Dokumente aus dem Fachbereich 09 vorgestellt. Dazu gehörten Entwürfe zu einer Eigenständigkeitserklärung, eine Richtlinie zur KI-Nutzung bei Abschlussarbeiten, eine ausführlichere Erklärung für Studierende zur Nutzung KI-basierter Werkzeuge sowie ein Bewertungsleitfaden für Lehrende. Die Dokumente wurden als Paket verstanden, das unterschiedliche Zielgruppen adressiert und Orientierung für konkrete Prüfungssituationen schaffen soll. Aus dem Fachbereich 09 wurde ein praktischer Handlungsdruck beschrieben, weil Lehrende und Studierende derzeit häufig unsicher seien, was erlaubt ist, was angegeben werden muss und welche Konsequenzen bestimmte Nutzungsformen haben. Die Dokumente haben weiterhin Entwurfscharakter und sollen über die Hessenboxgeteilt und kommentiert werden. Rückmeldungen aus der Runde wurden ausdrücklich als hilfreich angesehen.

Den Link zu den Entwürfen findet ihr am Ende des Protokolls.

11a. Eigenständigkeitserklärung: Dokumentation und Praktikabilität

Intensiv wurde diskutiert, wie eine Eigenständigkeitserklärung künftig KI-Nutzung erfassen soll. Bestehende zentrale Vorlagen, die offenbar eine Angabe sämtlicher Prompts vorsehen, wurden als wenig praktikabel eingeschätzt. Umfangreiche Promptlisten seien kaum lesbar und für die Bewertung nur begrenzt hilfreich. Stattdessen wurde eine kategorisierende Lösung bevorzugt, bei der Studierende angeben, in welchem Umfang und zu welchem Zweck KI genutzt wurde. Ergänzend wurde ein Freitextfeld als sinnvoll bewertet. Dabei wurde zwischen weniger prüfungsrelevanten Nutzungen wie sprachlicher Glättung, Grammatik oder Übersetzung und stärker relevanten Nutzungen wie Argumentationsgenerierung, Quellenlogik, Datenanalyse oder fachlichen Entscheidungen unterschieden. Als Leitgedanke wurde festgehalten, dass der Dokumentationsgrad steigen sollte, je stärker prüfungsrelevante Eigenleistung an KI abgegeben wurde.

11b. Prompts, Code und Datenanalyse

Ein eigener Schwerpunkt betraf KI-generierten Code und KI-gestützte Datenanalyse. Es wurde darauf hingewiesen, dass Code in bestimmten Fächern selbst ein prüfbares Ergebnis ist und validiert werden muss. Wenn KI Programmcode für statistische Analysen erzeugt, bleibt entscheidend, ob Studierende verstehen, was der Code tut, ob die Analyse fachlich angemessen ist und wie die Richtigkeit geprüft wird. Aus Workshops wurde berichtet, dass Personen KI für statistische Auswertungen nutzen wollten, ohne erklären zu können, wie sie die Ergebnisse validieren. Zugleich wurde differenziert, dass KI-generierter Code nicht automatisch intransparent ist, wenn er vollständig mitgeliefert und nachvollzogen werden kann. Problematischer ist der Fall, in dem Daten direkt in ein KI-System gegeben werden und dieses ohne nachvollziehbaren Analyseweg Ergebnisse ausgibt. Empfohlen wurde, Programmcode und Datenanalyse in den Dokumenten klarer zu trennen und die Nachvollziehbarkeit der finalen Analysegrundlage sicherzustellen.

11c. Zulässige Nutzung, Konsequenzen und Transparenz

Diskutiert wurde, welche Konsequenzen aus der Angabe umfangreicher KI-Nutzung folgen. Studierende müssten wissen, ob eine bestimmte Nutzungsform erlaubt ist und ob sie die Bewertung beeinflusst. Andernfalls könne eine Ankreuzliste abschreckend wirken und dazu führen, dass KI-Nutzung verschwiegen wird. Ziel müsse Transparenz sein, nicht pauschale Sanktionierung. Daher sollen zulässige und unzulässige Nutzungsformen möglichst klar beschrieben werden. Gleichzeitig wurde betont, dass Studierende für den abgegebenen Text verantwortlich bleiben, auch bei durch KI erzeugten Plagiaten oder fehlerhaften Quellenbezügen. Die Verantwortung für Prüfung, Quellenkontrolle und wissenschaftliche Redlichkeit kann nicht an KI abgegeben werden.

11d. Hilfsmittelbegriff, Grauzonen und integrierte KI-Funktionen

Die Diskussion bezog sich auch auf den Hilfsmittelbegriff in bestehenden Eigenständigkeitserklärungen. KI könne grundsätzlich als Hilfsmittel verstanden werden und falle damit bereits unter klassische Formulierungen wie „keine anderen als die angegebenen Quellen und Hilfsmittel“. Schwieriger werde die Abgrenzung durch KI-Funktionen in alltäglichen Werkzeugen wie Google, Word, Copilot oder Rechtschreibprüfungen. Angeregt wurde, genauer zu definieren, welche Hilfsmittel angegeben werden müssen und welche nicht. Eine mögliche „Whitelist“ für allgemein akzeptierte Werkzeuge wurde erwogen, zugleich aber als instabil beschrieben, weil immer mehr Anwendungen KI-Funktionen integrieren. Deshalb müsse zwischen wissenschaftlicher Redlichkeit, prüfungsrechtlicher Relevanz und praktischer Umsetzbarkeit unterschieden werden.

12. Zentrale Leitlinien und fachbereichsspezifische Vorarbeiten

Zur universitätsweiten Leitlinie wurde berichtet, dass eine entsprechende Arbeitsgruppe ihre Arbeit erst aufnimmt und eine Leitlinie bis Ende des Jahres durch die Gremien gebracht werden soll. Kurzfristig bleiben fachbereichsspezifische Lösungen daher notwendig. Die Vorarbeiten des Fachbereichs 09 wurden als sinnvoller Beitrag bewertet, der später mit zentralen Leitlinien abgeglichen oder in diese eingebracht werden kann. Ziel ist es, die Information über die bereits vorliegenden Entwürfe an die Organisatorin der universitätsweiten Arbeitsgruppe weiterzugeben, damit ein Kontakt hergestellt werden kann. Zusätzlich wurden organisatorische und rechtliche Fragen digitaler Abschlussarbeiten angesprochen, darunter Aufbewahrungsfristen, Speicherung, Löschung und digitale Unterschriften auf Eigenständigkeitserklärungen. Diese Punkte wurden nicht abschließend geklärt.

13. Nutzung verschiedener KI-Tools in Verwaltung und Kommunikation

Zum Ende wurde ein praktischer Erfahrungsbericht zur Nutzung von KI-Tools in der Verwaltung eingebracht. Beschrieben wurde die Nutzung eines kostenlosen ChatGPT-Accounts mit ausschließlich öffentlich verfügbaren Daten, etwa aus Modulbeschreibungen oder Webseiten des Fachbereichs. Ziel war es, komplexe Abläufe wie Promotionsverfahren oder Informationen für internationale Studierende verständlicher und grafisch ansprechender aufzubereiten. Mit ChatGPT seien schnell brauchbare Fact-Sheet-Entwürfe entstanden, während bei identischem Prompt im universitätsinternen „KI für alle“- beziehungsweise „JLU-KI-Chat“-Kontext deutlich schlechtere Ergebnisse erzielt worden seien. Als mögliche Erklärung wurde genannt, dass die ChatGPT-Weboberfläche zusätzliche Werkzeuge, Workflows und Verarbeitungsschritte nutzt, während interne Systeme häufig nur das Sprachmodell selbst bereitstellen. Für dienstliche Zwecke wurde empfohlen, je nach Datenlage und Aufgabe abzuwägen, welches System verwendet werden kann: Für sensible Daten könne der interne JLU-KI-Chat passend sein, während externe Systeme bei komplexeren grafischen oder workflowbasierten Aufgaben funktional stärker sein können, sofern keine vertraulichen Daten eingegeben werden.

14. Weiteres Vorgehen und nächste Sitzung

Zum Abschluss wurden konkrete nächste Schritte festgehalten. Die Dokumente aus dem Fachbereich 9 sollen über die Hessenbox zugänglich gemacht und im Protokoll verlinkt werden. Rückmeldungen können an die Koordination oder direkt an Nadine und Eva gegeben werden. Die Entwürfe sollen in der nächsten Sitzung erneut auf die Agenda gesetzt und vertieft diskutiert werden. Außerdem soll eine kurze Priorisierungsabfrage vorbereitet werden, um die zahlreichen angesprochenen Themen für kommende OAG-Sitzungen zu ordnen.

Link zu den Entwürfen einer KI-Richtlinie des Fachbereich 09: https://next.hessenbox.de/index.php/s/oKNTsSRFCbHTLon

Zuletzt geändert: 19. Jun 2026, 12:44pm, Trzeciak, Tanja [j_w4q6k4m]