11. Nov. 2025

Denkprozess großer Sprachmodelle (LLMs)

Künstliche Intelligenz kann heute Texte schreiben, programmieren oder mathematische Aufgaben lösen – doch oft bleibt unklar, wie ein Sprachmodell intern denkt. In seiner Masterarbeit an der LMU München erforschte Ilir Hajrullahu, wie sich der Denkprozess großer Sprachmodelle (LLMs) anhand ihrer Hidden States , also der inneren Repräsentationen zwischen den Modellschichten – besser verstehen lässt. Ziel der Forschung war es, das unsichtbare Innenleben moderner Sprachmodelle sichtbar und messbar zu machen. Die Ergebnisse zeigen, dass die Dynamik dieser Zustände direkt mit der Qualität der Antworten korreliert. Damit eröffnet sich ein neuer Weg, die „Black Box“ moderner KI-Modelle nicht nur zu öffnen, sondern auch zu interpretieren und zu bewerten.
1060 x 710 Ilir Hajrullahu

Autor:in

Ilir Hajrullahu

1170 x 782 LLM Blogartikel Accso

Ein neuer Ansatz: Modelle, die sich selbst verstehen

Große Sprachmodelle verarbeiten Eingabetexte schrittweise – Schicht für Schicht.

Jede dieser Schichten bildet eine Art Denkebene, auf der das Modell Informationen verdichtet, Bedeutungen verändert und semantische Beziehungen neu anordnet. Diese Veränderungen zeigen sich in den sogenannten Hidden States, also den internen Aktivierungen zwischen den Layern. Sie lassen sich als Bewegung im semantischen Raum darstellen:

  • d beschreibt die Geschwindigkeit dieser Bewegung – wie stark sich die Bedeutung eines Tokens oder Satzes zwischen zwei Schichten verändert.
  • d misst die Krümmung oder Richtungsänderurung – also, ob der Denkpfad des Modells eher geradlinig oder verschlungen verläuft.

Durch die Kombination beider Werte entsteht ein Energiewert E = d+ d , der als Maß für die innere Aktivität und Kohärenz des Denkprozesses dient. Je stabiler und harmonischer diese Bewegung ist, desto strukturierter scheint das Modell zu denken. So wird aus einem abstrakten mathematischen Signal ein greifbarer Indikator für die Qualität des internen Reasonings.

Sprachmodelle Abb 1 Blogbeitrag IY

Abbildung 1.1: Beispiel mit 2 Dimensionen für Geschwindigkeit (In der Realität haben die Sprachmodelle tausende von Dimensionen pro Schicht.)

Sprachmodelle Abb 2 Blogartikel Accso

Abbildung 1.2: Beispiel mit 2 Dimensionen für Krümmung

Sprachmodelle Abb 3 Blogartikel Accso

Abbildung 1.3: Die Energie (oder Reward) kalkuliert aus den Hidden States

Vom Konzept zur Umsetzung

Für seine Experimente nutzte Hajrullahu die open-source Qwen2.5-Instruct Modelle mit 1.5, 3 und 7 Milliarden Parametern – moderne Transformer Netzwerke, die bereits auf breiten Datensätzen vortrainiert sind. Die Hidden States wurden aus allen Schichten extrahiert und anschließend statistisch ausgewertet, um ihre Veränderung zwischen den Ebenen zu messen. Dabei kamen Technologien wie Python, PyTorch, Ray und das Framework EasyR1 zum Einsatz, betrieben auf Hochleistungsclustern.

Als Datengrundlage dienten zwei Benchmarks:

  • Math12k, ein Datensatz für komplexe mathematische Aufgaben, und
  • GSM8k, der sich auf natürlichsprachliche Schritt-für-Schritt-Problemlösungen konzentriert.

Durch den Vergleich dieser beiden Aufgabenarten konnte gezeigt werden, dass interne Energieverläufe in semantisch kohärenten Aufgaben stabile Muster zeigen als in streng formalen Aufgaben. Damit gelang ein quantitativer Blick auf den „Gedankenfluss“ eines Sprachmodells.

Bildschirmfoto 2025 1 Sprachmodelle Abb 4 Blogartikel Accso1 10 um 10 48 54

Abbildung 2.1: Extraktion der Hidden States bei den Schichten

Bildschirmfoto 2025 11 10 um 10 51 55

Abbildung 2.2: Korrelation zwischen Energie und Korrektheit der Responses bei dem 1.5 Milliarden Parameter Model

Bildschirmfoto 2025 11 10 um 10 52 09

Abbildung 2.3: Korrelation zwischen Energie und Korrektheit der Responses bei dem 3 Milliarden Parameter Model

Bildschirmfoto 2025 11 10 um 10 52 24

Abbildung 2.4: Korrelation zwischen Energie und Korrektheit der Responses bei dem 7 Milliarden Parameter Model

Ergebnisse und Erkenntnisse

Die Analysen offenbaren eine deutliche Korrelation zwischen der internen Energie E und der Korrektheit der Model Antworten. Antworten mit höherem E-Wert – also fließenderen, konsistenten Zustandsänderungen – waren signifikant häufiger korrekt. Besonders das 7B-Modell zeigte dabei die klarste Trennung zwischen korrekten und inkorrekten Antworten.

Das bedeutet: Gute Antworten entstehen, wenn sich das Modell intern gleichmäßig und zielgerichtet bewegt, nicht zu abrupt, aber auch nicht zu träge. Diese Erkenntnis ist nicht nur theoretisch spannend, sondern auch praktisch relevant. Sie könnte künftig genutzt werden, um Sprachmodelle intern zu überwachen, Unsicherheiten vorherzusagen oder Antworten nach ihrer „inneren Stabilität“ zu bewerten. Damit liefert die Arbeit einen wichtigen Beitrag zu transparenter, erklärbarer und vertrauenswürdiger KI – einem der zentralen Ziele moderner KI-Forschung.

Hier geht es zur Masterarbeit: 
"Learning from Within: Hidden-State Dynamics as Rewards for Training LLMs"

Sie möchten mehr über KI-Lösungen von Accso erfahren?
Kontaktieren Sie uns – wir freuen uns auf den Austausch!