Je stärker das Modell, desto schwächer das „Denken“?
In einem neu veröffentlichten Bericht bewerteten Apple-Forscher die Leistung von Large Reasoning Models (LRMs) bei der Bearbeitung von Logikproblemen mit zunehmendem Schwierigkeitsgrad, wie etwa dem Turm von Hanoi oder dem Flussüberquerungsproblem .
Die Ergebnisse waren schockierend: Bei hochkomplexen Problemen nahm die Genauigkeit fortgeschrittener KI-Modelle nicht nur ab, sondern „brach völlig zusammen“.
Noch beunruhigender ist, dass die Modelle bereits vor dem Leistungsabfall damit beginnen, ihren Denkaufwand zu reduzieren, ein kontraintuitives Verhalten, das bei schwierigeren Problemen mehr Nachdenken erfordern sollte.
Selbst mit dem richtigen Algorithmus können Modelle oft keine Lösung liefern. Dies zeigt, dass ihre Fähigkeit, sich an neue Umgebungen anzupassen und Regeln anzuwenden, stark eingeschränkt ist.
Die Herausforderung der „allgemeinen Theorie“
Der amerikanische Wissenschaftler Gary Marcus, einer der Skeptiker hinsichtlich der wahren Fähigkeiten der KI, bezeichnete die Ergebnisse von Apple als „ziemlich verheerend“ und kritisierte die Studie.
„Jeder, der glaubt, dass große Sprachmodelle (LLMs) ein direkter Weg zur AGI sind, täuscht sich“, schrieb er in seinem persönlichen Substack-Newsletter.
Andrew Rogoyski, Experte am Institute for Human-Centered AI (University of Surrey, Großbritannien), teilt diese Ansicht und meint, diese Entdeckung zeige, dass die Technologiebranche möglicherweise in eine Sackgasse gerate: „Wenn Modelle nur bei einfachen und durchschnittlichen Problemen gut funktionieren, bei zunehmendem Schwierigkeitsgrad jedoch völlig versagen, ist klar, dass der aktuelle Ansatz ein Problem hat.“
Ein besonderer Punkt, den Apple hervorhob, war der Mangel an „allgemeiner Argumentation“, also der Fähigkeit, das Verständnis einer bestimmten Situation auf ähnliche Situationen auszudehnen.
Wenn aktuelle Modelle nicht in der Lage sind, Wissen auf die für Menschen typische Weise zu übertragen, neigen sie zum „Auswendiglernen“: Sie sind gut darin, Muster zu wiederholen, aber schwach im logischen oder deduktiven Denken.
Tatsächlich stellte die Studie fest, dass große theoretische Modelle Rechenressourcen verschwenden, indem sie einfache Probleme wiederholt richtig lösen, bei etwas komplexeren Problemen jedoch von Anfang an die falsche Lösung wählen.
Der Bericht testete eine Reihe führender Modelle, darunter OpenAIs o3, Googles Gemini Thinking, Claude 3.7 Sonnet-Thinking und DeepSeek-R1. Anthropic, Google und DeepSeek reagierten nicht auf Anfragen um Stellungnahme, OpenAI lehnte eine Stellungnahme ab.
Apples Forschung widerlegt nicht die Errungenschaften der KI in den Bereichen Sprache, Vision und Big Data. Sie zeigt jedoch einen bislang übersehenen blinden Fleck auf: die Fähigkeit zum sinnvollen Denken, die den Kern wahrer Intelligenz bildet.
Quelle: https://baovanhoa.vn/nhip-song-so/ai-suy-luan-kem-dan-khi-gap-bai-toan-phuc-tap-141602.html
Kommentar (0)