[논문 리뷰] LLM이 과연 정말 thinking을 할까?: The Illusion of Thinking: Understanding the Strengths and Limitations of Reasoning Models via the Lens of Problem Complexity 리뷰

인공지능 공부

[논문 리뷰] LLM이 과연 정말 thinking을 할까?: The Illusion of Thinking: Understanding the Strengths and Limitations of Reasoning Models via the Lens of Problem Complexity 리뷰

dnjswngo 2025. 6. 20. 16:41

LLM 공부하는 사람으로서 이런 소리를 잘 못하고 다녔지만,
CoT고 ReAct고 여러가지 reasoning 방법론이 거의 정설이다.

그치만 "LLM이 실제로 생각을 할까?" 라는 의심을 하게 된 것은, 나는 그냥 작은 언어모델들(BERT, Transformer)나 이걸로 임베딩 뽑아서 무언가를 하는 공부나 했지, LLM은 인턴십하면서 처음 사용했기 때문 아닐까

CoT에서 Thinking이 길어질수록 추론 성능이 오른다, reasoning을 해서 수학문제를 풀 수가 있다. - 이러한 것들이 사실일까?

이와 관련된 논문을 애플이 냈다. 제목은 "the illusion of thinking"
아래 링크에서 볼 수 있다.
https://machinelearning.apple.com/research/illusion-of-thinking

The Illusion of Thinking: Understanding the Strengths and Limitations of Reasoning Models via the Lens of Problem Complexity

Recent generations of frontier language models have introduced Large Reasoning Models (LRMs) that generate detailed thinking processes…

machinelearning.apple.com

아래는 3줄 요약

LLM은 사고하지 않고 패턴을 모방한다: 언어 생성 능력은 높지만, 실제로 논리적 reasoning은 수행하지 않으며 정답은 단지 학습된 입력-출력 mapping의 재현일 뿐이다.
Chain-of-thought(COT)는 reasoning 유도보다 출력 형식 학습에 가깝다: COT 프롬프트는 모델이 추론을 수행하게 하기보다, 형식화된 답변 패턴을 복사하게 만든다.
Attention 분석 결과, LLM의 내부는 문제 난이도나 추론 깊이에 민감하지 않다: 인간의 시스템2형 사고와 달리, LLM 내부 동작은 표면적이며 사고 깊이 증가가 관찰되지 않는다.

~핵심 주장 ~

1. LLM은 'thinking'하는 것이 아니다

LLM은 언어의 통계적 패턴을 학습했을 뿐이지, 논리적 추론 체계(logical reasoning process)를 갖추고 있지 않다.
그럴듯한 문장을 만들어내는 능력 때문에 인간은 LLM이 'thinking'한다고 착각하지만, 이는 언어의 illusion일 뿐이다.

2. 사고 과정이 아니라 결과만 모방한다

사람은 문제를 해결할 때 중간 사고과정(예: chain-of-thought)을 통해 점진적으로 접근한다.
그러나 LLM은 CoT를을 사고 전략으로 활용하지 않으며 , 그저 학습된 패턴을 통해 output을 복사/모방할 뿐이다.
이를 위해 LLM의 내부 attention 패턴을 분석하고, 인간 추론과 어떻게 다른지 비교했다.

~주요 발견~

1. LLM은 CoT 없이도 잘 맞춘다

문제에 대해 chain-of-thought 없이 곧바로 정답만 생성해도 성능이 크게 떨어지지 않았다.
이는 LLM이 사고 과정을 내재적으로 사용하지 않으며, 결과 위주의 학습만 해왔다는 뜻.

2. 생각하는 척, 하지만 실제로는 ‘암기’

LLM의 출력은 문제에 대한 추론이라기보다, 학습 데이터의 고정된 mapping에 가까움.
예를 들어, GSM8K 문제를 chain-of-thought 없이 정답만 제공해도 거의 동일한 성능이 나왔다.
~~근데 당연한거 아님? llm은 다음 토큰을 확률적으로 뱉어내는 것 뿐임.~~

3. Attention 분석 결과

reasoning 과정이 길어지거나 문제 난이도가 높아져도, LLM의 attention은 크게 변하지 않음.
즉, LLM 내부에서 실제 "생각의 깊이" 같은 개념이 증가하지 않음 → 시스템2 타입의 인지는 없음.

결론: LLM은 "사고 능력"이 없다

인간은 인지적으로 계획 → 사고 → 답안 생성의 과정을 거치지만,
LLM은 단순히 패턴 학습 + 결과 예측만 함.

물론 llm이 무의미한 것은 아니다. 저차원 반복일은 llm이 당연히 대신할 수 있다.
llm 성능이 좋아지면 해결 될 것이다!: 동의 못함. 능지에 한계가 있다고 본다.
llm은 배운 것만 할 줄 안다. 특이점이 온다는 말은 나는 그닥 동의 못한당 ,,

'인공지능 공부' 카테고리의 다른 글

[논문 리뷰] 요약은 뽑는 거다 – MatchSum: Extractive Summarization as Text Matching, 내 첫 AI 논문 (2)	2025.08.08
[논문 리뷰] 구글 리서치가 밝힌 In-Context Learning의 원리: Learning without training: The implicit dyna (7)	2025.07.29
[논문 리뷰] DeepSeek-R1: Incentivizing Reasoning Capanility in LLMs via Reinforcement Learning (1)	2025.06.20
미루고 미루던 강화학습 (4)	2025.06.20
인공지능의 알파이자 오메가 (0)	2025.05.15

현재글[논문 리뷰] LLM이 과연 정말 thinking을 할까?: The Illusion of Thinking: Understanding the Strengths and Limitations of Reasoning Models via the Lens of Problem Complexity 리뷰

개처럼 맨날 산책이나 하면서 놀고 싶어

dnjswngo 님의 블로그 입니다.

감정시뮬레이션, ai윤리, 베이즈이론, 딥러닝, ChatGPT, 인공지능, closedai, 생성형AI, 베이지안 통계학, ai철학, MatchSum, 빈도론, nlp, Bert, Ai, SG기타, llm, 샴페인슈퍼노바, 도커 #docker #컨테이너 #개발환경 #개발자공부 #백엔드 #devops #dockerimage #개발일지 #기술블로그, 영화 #박찬욱 #올드보이,

Today :
Yesterday :

일	월	화	수	목	금	토
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30

개처럼 맨날 산책이나 하면서 놀고 싶어