DeepSeek-Modelle auf dem Prüfstand
2025/05/27
In einem Gastbeitrag geben Professorin Iryna Gurevych und Irina Bigoulaeva vom Ubiquitous Knowledge Processing (UKP) Lab am Fachbereich Informatik der TU Darmstadt einen Einblick in ihre Forschung zum Leistungsvermögen von generativer Künstlicher Intelligenz.

In der zweiten Januarhälfte dieses Jahres wurden zwei neue Modelle von DeepSeek veröffentlicht: DeepSeek-R1-Zero und DeepSeek-R1. Diese Modelle sind für ihre logische Denk- und Analysefähigkeiten („Reasoning“) bekannt geworden, die die Fähigkeiten anderer Modelle weit übertrafen. Die DeepSeek-Modelle geben nicht nur eine Antwort aus, sondern auch eine Erläuterung ihres Denkprozesses.
Um die „Reasoning“-Fähigkeiten der Deepseek-Modelle zu testen, haben wir die sogenannten Distill („destillierte“) Versionen dieser Modelle verwendet, die zusammen mit den Hauptmodellen R1 und R1-Zero veröffentlicht wurden. Diese sind viel kleiner (1.5B-70B Parametern im Vergleich zu 671B), wurden aber mit demselben Trainingsverfahren wie R1 und R1-Zero trainiert und haben daher vergleichbare Fähigkeiten.
Wir haben vier von diesen Modellen mit verschiedenen Textaufgaben konfrontiert. Die Aufgaben enthalten einen kurzen englischsprachigen Text, der bestimmte grammatikalische Strukturen aufweist, z.B. das vergleichende Korrelativ (eng. Comparative Correlative). Ein Beispiel: „je öfter A geschieht, desto öfter geschieht B“. Eine Beispielfrage zu diesem Text wäre: „Wie oft geschieht B, wenn A selten geschieht?“ Um diese Frage zu beantworten, muss ein Modell sowohl die grammatikalische Struktur verstehen als auch die richtige Schlussfolgerung daraus ziehen. Obwohl diese Aufgabe für Menschen einfach ist, ist dies für KI-Modelle schwierig.
Wir nennen die Formulierung der Frage („Wie oft geschieht B, wenn A selten geschieht?“) „untypisch“, da solche Frageformulierungen selten in den gängigen Trainings-Datensätzen von KI-Modellen zu finden sind. Wir verwenden auch „typische“ Frageformulierungen, die öfter in Trainingssätzen vorkommen, z.B. „Premise: Je öfter A geschieht, desto öfter geschieht B. Hypothesis: „A geschieht selten“. Answer: B geschieht (oft/selten).“ Diese Formulierung ist auch als „NLI“ (Natural Language Inference) bekannt.
Wir verwenden auch zwei Basismodelle, die nicht mit dem DeepSeek-Verfahren trainiert sind: Llama-3.1 8B und Llama-2 70B. Wir verwenden sie sowohl ohne Modifikation, als auch mit einer Änderung, die wir selbst vornehmen: Wir trainieren sie nämlich weiter mit einem Verfahren namens „Instruction-Tuning“ (auf Deutsch etwa „Trainieren mit Nutzerbefehlen“). Laut vorheriger Recherche sind Modelle, die mit Instruction-Tuning trainiert sind, besser in der Lage, komplexe Aufgaben zu lösen. Manche Aufgaben, die logisches Denken benötigen, konnten bisher nur von Modellen mit Instruction-Tuning gelöst werden [vgl. Lu et al., 2024. Are Emergent Abilities in Large Language Models Just In-Context Learning?] – es wird daher behauptet, dass Instruction-Tuning notwendig für die Entwicklung von logischen Denkfähigkeiten bei KI-Modellen sei. Es ist wichtig, anzumerken, dass das Trainingsverfahren von DeepSeek auch eine Variante von Instruction-Tuning miteinschließt, dies ist aber nur ein Teil des DeepSeek-Verfahrens.
Wir stellten fest, dass sowohl die DeepSeek-Modelle als auch die Basismodelle Schwierigkeiten beim Lösen unserer Textaufgaben hatten. Dabei hat das Instruction-Tuning-Verfahren unseren Basismodellen nicht sehr viel geholfen. Dennoch konnten alle Modelle die Textaufgaben lösen, wenn sie „typisch“ formuliert waren. Unsere Schlussfolgerung ist, dass LLMs im Allgemeinen Schwierigkeiten haben, Aufgaben zu lösen, die dem Format ihrer Trainingsdaten nicht ähneln, wie schwierig oder einfach die Aufgabe selbst auch sein mag. Obwohl DeepSeek als ein „Reasoning“-Modell bekannt ist, scheint es auch von dieser Schwäche betroffen zu sein.