21.10.2025

Jaroslaw Nowosad
Pretraining verleiht LLMs Wissen. Finetuning verleiht ihnen Verhalten. Aber keines von beiden ermöglicht es Modellen, explizit zu überdenken, wie sie denken. System Prompt Learning (SPL) erforscht ein drittes Paradigma — bei dem Modelle iterativ ihre eigenen Systemprompts basierend auf Leistungsfeedback aktualisieren. Dieser Text umreißt das Konzept, frühe experimentelle Ergebnisse und offene Fragen zu Kontrolle, Bewertung und Governance.
Der Kontext: LLMs ohne ein Whiteboard
Moderne LLMs sind mächtig, aber größtenteils statisch.
Einmal trainiert oder feinabgestimmt, ist ihr Denkstil bis zum nächsten Retraining-Zyklus eingefroren.
Menschliches Lernen hingegen beinhaltet explizite Reflexion: wir hinterlassen uns Notizen, passen Strategien an und bauen auf vorherigem Denken auf.
LLMs fehlt derzeit diese Ebene — sie "machen sich keine Notizen."
Diese Lücke inspirierte die Erforschung von System Prompt Learning: einem Modell zu ermöglichen, seine eigenen Denkanweisungen anzupassen, ohne die Gewichte neu zu trainieren.
System Prompt Learning definieren
Ein System Prompt definiert, wie sich ein Modell verhält — Tonfall, Regeln und Werkzeugnutzung.
Diese sind typischerweise statische, handgefertigte Anweisungen. Zum Beispiel:
Claudes System Prompt umfasst etwa 16.739 Wörter (110 KB), etwa 13× länger als OpenAIs o4-mini.
Rund 80% von Claudes Prompt bestehen aus Werkzeugnutzungsanweisungen, wie wann und wie gesucht oder zitiert werden soll.
Ein echtes Beispiel aus Claudes Prompt veranschaulicht seine prozedurale Natur:
"Wenn Claude gebeten wird, Wörter, Buchstaben und Zeichen zu zählen, denkt es schrittweise nach, bevor es antwortet. Es zählt explizit jeden Gegenstand, bevor es antwortet."
Diese "Mikro-Richtlinien" definieren, wie sich das Denken entfaltet — sie werden nicht gelernt, sondern von Ingenieuren geschrieben.
System Prompt Learning schlägt vor, einen Teil dieses manuellen Schreibens durch einen automatisierten, iterativen Aktualisierungsprozess basierend auf Aufgabenergebnissen zu ersetzen.
Anstelle von Gradientenaktualisierungen bearbeitet das Modell seinen eigenen Prompt-Text — und bildet eine selbstreferenzielle Feedback-Schleife:
Output → Bewertung → Extrahierte Erkenntnis → Prompt-Bearbeitung → Nächste Iteration.
Frühes Experiment: Der Memento-Prototyp
Der Memento-Proof-of-Concept testete, ob ein Modell seinen eigenen Prompt mithilfe strukturierten Feedbacks von Programmieraufgaben verfeinern könnte.
Das Framework führte Zyklen durch von:
Problemlösung: algorithmische und strukturelle Programmieraufgaben
Bewertung: Beurteilung von Korrektheit, Effizienz, Lesbarkeit und anderen Kriterien
Reflexion: Zusammenfassung von Erkenntnissen
Prompt-Bearbeitung: Einarbeitung von Erkenntnissen in den Systemtext
Beobachtete Veränderungen (illustrativ, nicht benchmarked):
Metrik | Initial | Nach Iterationen |
---|---|---|
Korrektheit | 0.8 | 0.9 |
Wartbarkeit | 0.3 | 0.8 |
Fehlerbehandlung | 0.3 | 0.9 |
Dokumentation | 0.5 | 0.9 |
Das Ziel war nicht absolute Leistung, sondern zu beobachten, ob Prompt-Updates messbare, konsistente Verbesserungen über mehrere Durchläufe hinweg produzierten.
Die Ergebnisse zeigten moderate Verbesserungen und deuten darauf hin, dass textuelle Bearbeitungen auf Meta-Ebene das Modellverhalten bedeutsam verändern können — ohne Retraining.
Allerdings ist noch keine peer-reviewte Validierung oder Replikation verfügbar.
Technische offene Fragen
Das Konzept wirft mehrere ungelöste Probleme auf:
Bewertungszuverlässigkeit: Wie kann ein Modell seine eigene Leistung beurteilen, ohne Vorurteile zu verstärken?
Optimierungsstabilität: Wie kann man Überanpassung an lokale Aufforderungsvarianten verhindern?
Aufforderungsdrift: Wie kann man logische Konsistenz nach vielen Bearbeitungen aufrechterhalten?
Skalierbarkeit: Kann dieser Prozess über strukturierte Programmieraufgaben hinaus auf subjektivere Bereiche verallgemeinert werden?
Diese Fragen bleiben offen und sind Voraussetzungen, bevor SPL auf operative Systeme angewendet werden könnte.
Governance- und Risikoüberlegungen
Modellen zu erlauben, ihre eigene Denkebene zu modifizieren, bringt Governance-Herausforderungen mit sich:
Nachverfolgbarkeit: Jede Änderung muss protokolliert, versioniert und überprüfbar sein.
Compliance: Selbstmodifizierende Anweisungen erschweren die Zertifizierung unter Frameworks wie ISO 42001 oder EU AI Act.
Sicherheit: Eine kompromittierte Feedback-Schleife könnte unbeabsichtigt das Kernverhalten des Modells verändern.
Menschliche Aufsicht: Jede praktische Nutzung würde strenge Human-in-the-Loop-Kontrolle erfordern.
Der Grok-Vorfall auf X, bei dem eine System-Prompt-Fehlkonfiguration zu unzusammenhängenden und kontroversen Antworten führte, demonstriert, wie mächtig — und fragil — diese Ebenen sein können.
Forschungsrichtungen
Aktuelle Erkundungen konzentrieren sich auf die Minderung dieser Risiken durch:
Hybride Mensch-KI-Prompt-Evolution (menschliche Genehmigung vor Bearbeitungen)
Cross-Agent-Verifikation (mehrere LLMs überprüfen gegenseitig ihre Updates)
Automatisierte Testsuiten zur Erkennung von Verhaltensregressionen
Transfer-Learning-Studien zur Beobachtung, ob "gelernte Prinzipien" zwischen Bereichen migrieren
Solche Maßnahmen könnten System Prompt Learning nachverfolgbar und begrenzt machen, bleiben aber experimentell.
Fazit
System Prompt Learning stellt einen konzeptionellen Schritt hin zu selbstreflexiven KI-Systemen dar — nicht durch Änderung neuronaler Gewichte, sondern durch Bearbeitung der textuellen Regeln, die das Denken leiten.
Ob dies zu einem stabilen Lernparadigma wird oder eine Forschungskuriosität bleibt, hängt von zukünftiger Validierung, Sicherheitsmechanismen und klaren Governance-Frameworks ab.
Vorerst ist Memento am besten als Gedankenexperiment zu betrachten: ein Modell, das erforscht, wie es sein eigenes Notizbuch führen kann.
Bleiben Sie auf dem Laufendem