/ en / Traditional / help

Beats Biblionetz - Texte

The Illusion of Thinking

Understanding the Strengths and Limitations of Reasoning Models via the Lens of Problem Complexity
Parshin Shojaee, Iman Mirzadeh, Keivan Alizadeh, Maxwell Horton, Samy Bengio, Mehrdad Farajtabar
Publikationsdatum:
Erste Seite des Textes (PDF-Thumbnail)
Dieses Biblionetz-Objekt existiert erst seit Juni 2025. Es ist deshalb gut möglich, dass viele der eigentlich vorhandenen Vernetzungen zu älteren Biblionetz-Objekten bisher nicht erstellt wurden. Somit kann es sein, dass diese Seite sehr lückenhaft ist.

iconZusammenfassungen

Apples Forschungsgruppe für Machine Learning kommt in einer Forschungsarbeit zu sogenannten Large Reasoning Models (LRMs) zu dem Schluss, dass es sich beim "Denken" von LRMs zumindest teilweise um eine Illusion handeln könnte. Ein Problem sei auch, dass Reasoning-Modelle deutlich mehr Energie und Leistung abfordern, was sich schon an den längeren Antwortzeiten zeigt.
Von Ben Schwan im Text Apple-Paper: Warum Reasoning-Modelle wohl nicht denken (2025)
Recent generations of frontier language models have introduced Large Reasoning Models (LRMs) that generate detailed thinking processes before providing answers. While these models demonstrate improved performance on reasoning benchmarks, their fundamental capabilities, scaling properties, and limitations remain insufficiently understood. Current evaluations primarily focus on established mathematical and coding benchmarks, emphasizing final answer accuracy. However, this evaluation paradigm often suffers from data contamination and does not provide insights into the reasoning traces’ structure and quality. In this work, we systematically investigate these gaps with the help of controllable puzzle environments that allow precise manipulation of compositional complexity while maintaining consistent logical structures. This setup enables the analysis of not only final answers but also the internal reasoning traces, offering insights into how LRMs “think”. Through extensive experimentation across diverse puzzles, we show that frontier LRMs face a complete accuracy collapse beyond certain complexities. Moreover, they exhibit a counterintuitive scaling limit: their reasoning effort increases with problem complexity up to a point, then declines despite having an adequate token budget. By comparing LRMs with their standard LLM counterparts under equivalent inference compute, we identify three performance regimes: (1) lowcomplexity tasks where standard models surprisingly outperform LRMs, (2) medium-complexity tasks where additional thinking in LRMs demonstrates advantage, and (3) high-complexity tasks where both models experience complete collapse. We found that LRMs have limitations in exact computation: they fail to use explicit algorithms and reason inconsistently across puzzles. We also investigate the reasoning traces in more depth, studying the patterns of explored solutions and analyzing the models’ computational behavior, shedding light on their strengths, limitations, and ultimately raising crucial questions about their true reasoning capabilities.
Von Parshin Shojaee, Iman Mirzadeh, Keivan Alizadeh, Maxwell Horton, Samy Bengio, Mehrdad Farajtabar im Text The Illusion of Thinking (2025)

iconBemerkungen

Beat Döbeli HoneggerIch glaube, viele Menschen zitieren dieses Paper aufgrund seines für gewisse Meinungen passeenden Titels und weniger, weil sie das Paper gelesen und verstanden haben.
Von Beat Döbeli Honegger, erfasst im Biblionetz am 14.06.2025

iconDieser Text erwähnt ...


Fragen
KB IB clear
Können Computer denken?Can computers think?

Begriffe
KB IB clear
Algorithmusalgorithm , deepseek , Generative Machine-Learning-Systeme (GMLS)computer-generated text , Komplexitätcomplexity , Paradigmaparadigm , patternpattern , Reasoning models

iconDieser Text erwähnt vermutlich nicht ... Eine statistisch erstelle Liste von nicht erwähnten (oder zumindest nicht erfassten) Begriffen, die aufgrund der erwähnten Begriffe eine hohe Wahrscheinlichkeit aufweisen, erwähnt zu werden.

icon
Nicht erwähnte Begriffe
Chat-GPT, GMLS & Bildung

iconTagcloud

iconZitationsgraph

Diese Grafik ist nur im SVG-Format verfügbar. Dieses Format wird vom verwendeteten Browser offenbar nicht unterstützt.

Diese SVG-Grafik fensterfüllend anzeigen

iconZitationsgraph (Beta-Test mit vis.js)

iconErwähnungen  Dies ist eine nach Erscheinungsjahr geordnete Liste aller im Biblionetz vorhandenen Werke, die das ausgewählte Thema behandeln.

  • Your Brain on ChatGPT - Accumulation of Cognitive Debt when Using an AI Assistant for Essay Writing Task (Nataliya Kosmyna, Eugene Hauptmann, Ye Tong Yuan, Jessica Situ, Xian-Hao Liao, Ashly Vivian Beresnitzky, Iris Braunstein, Pattie Maes) (2025) local web icon
  • Apple-Paper: Warum Reasoning-Modelle wohl nicht denken - Sie brauchen viel Leistung, liefern aber nicht immer bessere Ergebnisse: Large Reasoning Models sollen die KI revolutionieren. Eine Apple-Studie kritisiert das. (Ben Schwan) (2025) local web icon

iconVolltext dieses Dokuments

Auf dem WWW The Illusion of Thinking: Artikel als Volltext (lokal: PDF, 13555 kByte; WWW: Link OK )

iconAnderswo suchen  Auch im Biblionetz finden Sie nicht alles. Aus diesem Grund bietet das Biblionetz bereits ausgefüllte Suchformulare für verschiedene Suchdienste an. Biblionetztreffer werden dabei ausgeschlossen.

iconBeat und dieser Text

Beat hat Dieser Text erst in den letzten 6 Monaten in Biblionetz aufgenommen. Beat besitzt kein physisches, aber ein digitales Exemplar. Eine digitale Version ist auf dem Internet verfügbar (s.o.). Aufgrund der wenigen Einträge im Biblionetz scheint er es nicht wirklich gelesen zu haben. Es gibt bisher auch nur wenige Objekte im Biblionetz, die dieses Werk zitieren.

iconBiblionetz-History Dies ist eine graphische Darstellung, wann wie viele Verweise von und zu diesem Objekt ins Biblionetz eingetragen wurden und wie oft die Seite abgerufen wurde.