← 기술
LLM은 결국 추론이 가능할 것인가?
기술

LLM은 결국 추론이 가능할 것인가?

넥스트 토큰 예측이 마주한 논리적 임계점들

근 인공지능 분야의 가장 뜨거운 화두는 단연 에이전틱 AI(Agentic AI)입니다. AI가 스스로 계획을 세우고, 도구를 호출하고, 여러 단계의 작업을 이어가는 모습을 보고 있으면 자연스럽게 한 가지 질문이 떠오릅니다. 이 모델은 정말로 추론(Reasoning)을 하고 있는 것일까요, 아니면 추론의 결과물을 유창하게 흉내 내고 있는 것일까요?

저는 이 질문을 진지하게 던져 볼 만한 시점이라고 생각합니다. 에이전트의 자율적인 모습은 ‘추론하는 기계’를 떠올리게 하지만, 그 밑바닥을 흐르는 알고리즘은 여전히 다음에 올 토큰을 확률적으로 예측하는 일(Next-Token Prediction, NTP)에 머물러 있기 때문입니다. 이 글에서는 LLM이 결국 추론이 가능해질 것인가에 대한 제 생각을 정리해 보고자 합니다.

추론이란 무엇인가

LLM이 추론을 하는지 판단하려면, 먼저 추론이라는 단어가 가리키는 것이 무엇인지부터 정리해야 합니다. 일상 속에서 우리는 “AI가 똑똑하게 답한다”는 인상만으로 추론한다고 말하기 쉽지만, 인지과학과 논리학의 전통에서 추론(Reasoning)은 비교적 또렷한 의미를 가지고 있습니다. 저는 다음 세 가지를 구분하는 것이 이 글의 출발점이라고 생각합니다.

첫째, 회상(Recall)입니다. 학습한 데이터에 존재하는 사실을 그대로 인출하는 일입니다. “조지 워싱턴의 아버지는 누구인가?”라는 질문에 “어거스틴 워싱턴”이라고 답하는 것이 회상입니다. 어떤 새로운 사실도 만들어지지 않습니다.

둘째, 패턴 매칭(Pattern Matching)입니다. 입력의 표면 형태가 학습 데이터의 어떤 패턴과 비슷한지를 보고, 그에 가장 어울리는 출력을 만들어내는 일입니다. NTP가 가장 잘하는 일이기도 합니다. 표면이 비슷한 문제에는 그럴듯한 답을 잘 만들어내지만, 표면을 살짝만 바꿔도 무너집니다.

셋째, 추론(Reasoning)입니다. 명시되지 않은 사실을, 가지고 있는 사실과 규칙으로부터 새로 도출해 내는 능력입니다. “A의 아버지가 B이다”와 “아버지-아들은 역의 관계이다”라는 두 사실로부터 “B의 아들은 A이다”를 도출할 수 있다면, 그것이 추론입니다. 연역(Deduction), 귀납(Induction), 유추(Analogy)가 모두 여기에 포함됩니다.

이 셋은 겉으로 보기에 잘 구분되지 않습니다. 회상과 패턴 매칭만으로도 단순한 추론처럼 보이는 답을 만들 수 있기 때문입니다. 그러나 셋은 본질적으로 다른 연산이며, 이 차이가 LLM의 한계를 이해하는 핵심이 됩니다.

추론을 잘한다는 것

그렇다면 추론을 잘한다는 것은 무엇일까요? 저는 다음 네 가지가 핵심이라고 생각합니다.

먼저, 표면 형태가 바뀌어도 무너지지 않아야 합니다. 같은 사실을 다른 문장으로 바꿔 묻거나, 단어를 치환하거나, 문제를 변형해도 동일한 결론에 도달해야 합니다. 추론은 표면이 아니라 그 아래의 구조 위에서 이루어지는 연산이기 때문입니다. Apple의 GSM-Symbolic 연구가 LLM에게 같은 수학 문제의 숫자만 바꿨을 때 정답률이 크게 흔들리는 것을 보고한 것은, 현재 모델이 이 기준에서 약하다는 신호입니다.

둘째, 한 번도 본 적 없는 조합에서도 작동해야 합니다. 학습 데이터에 등장한 사례를 회상하는 것이 아니라, 알고 있는 규칙을 새로운 상황에 적용할 수 있어야 합니다. 이를 보통 조합적 일반화(Compositional Generalization)라고 부릅니다.

셋째, 단계가 늘어나도 안정적이어야 합니다. 한 단계의 추론이 옳다면 그 위에 다음 단계를 쌓아 올릴 수 있어야 하고, 깊이가 늘어났다는 이유만으로 결론이 무너져서는 안 됩니다.

마지막으로, 자신이 무엇을 알고 무엇을 모르는지 구분할 수 있어야 합니다. 진짜 추론은 도출 가능한 결론과 도출 불가능한 결론을 구별하고, 후자에 대해서는 침묵하거나 모른다고 답할 수 있어야 합니다.

이 네 가지 기준을 세워 두면, “LLM이 추론을 하는가”라는 막연한 질문이 비로소 검증 가능한 형태가 됩니다.

현재 LLM은 추론 벤치마크에서 어디쯤 있는가

이 기준에 비추어 본 LLM의 현재 위치는 어디쯤일까요? 다행히 학계와 산업계는 추론 능력을 측정하기 위한 다양한 벤치마크를 만들어 왔고, 이를 통해 모델의 진척을 어느 정도 객관적으로 비교할 수 있습니다.

자주 언급되는 벤치마크를 정리하면 다음과 같습니다.

  • MMLU: 다양한 주제의 학부 수준 객관식 문제. 이미 90%대로 사실상 포화 상태에 가깝습니다.
  • GPQA Diamond: 박사급 전문가가 만든 자연과학 문제. 2025-2026년 최상위 모델은 80%대 정확도에 도달했습니다.
  • MATH와 AIME 같은 수학 경시 문제: 추론 특화 모델(o1/o3, Claude Opus 4.x, Gemini 3 등)이 등장하면서 80-90%대로 빠르게 올라왔습니다.
  • ARC-AGI: François Chollet이 제안한 추상 패턴 추론 벤치마크. v1에서 OpenAI o3가 고연산 모드로 80%대를 달성했지만, 더 어려워진 v2에서는 최상위 모델들도 한 자릿수에서 10%대에 머물고 있습니다.
  • HLE (Humanity’s Last Exam): 2025년 초 공개된, 대학원 수준 이상의 광범위한 전문 분야 문제. 출시 직후 최상위 모델은 10%대에 그쳤고, 약 1년이 지난 현재도 30%대 후반에 머물러 있어 인간 전문가 수준에는 한참 못 미칩니다.
  • SWE-bench: 실제 GitHub 이슈를 해결하는 코딩 추론 능력. 최상위 에이전트가 70%대를 넘기 시작한 것이 비교적 최근입니다.

벤치마크에서 드러나는 그림은 양면적입니다. 한편으로는, 불과 몇 년 전만 해도 어려웠던 학부 수준 문제 풀이는 거의 포화에 이르렀고, 수학과 과학 추론에서도 인간 전문가에 근접한 점수가 나오기 시작했습니다. 다른 한편으로는, 표면을 살짝 비튼 GSM-Symbolic, 한 번도 본 적 없는 조합을 요구하는 ARC-AGI v2, 인간조차 어렵게 푸는 HLE 같은 문제 앞에서는 모델이 여전히 무너집니다.

즉 현재의 LLM은 표면이 학습 데이터와 비슷한 영역에서는 인상적인 성능을 보이지만, 앞서 정의한 네 가지 기준 — 표면 변화에 대한 강건성, 조합적 일반화, 깊이 안정성, 자기 인식 — 모두에서 완벽과는 거리가 있습니다. 점수가 빠르게 오르고 있다는 것이, 그 점수가 측정하려는 능력이 진짜로 갖춰지고 있다는 것을 곧바로 의미하지는 않는 것입니다. 이 격차가 어디에서 비롯되는지를 다음 두 섹션에서 살펴보겠습니다.

LLM은 패턴을 외울 뿐, 관계를 이해하지 못한다

NTP가 진짜로 추론을 학습하는지에 대해 회의적인 증거 중 가장 잘 알려진 것이 Reversal Curse(역전의 저주)입니다.

모델에게 “조지 워싱턴의 아버지는 누구인가?”라고 물으면 즉각 “어거스틴 워싱턴”이라고 답합니다. 그런데 같은 모델에게 반대로 “어거스틴 워싱턴의 아들은 누구인가?”라고 물으면 답하지 못하거나 엉뚱한 이름을 댑니다. Berglund 등(2023)의 실험에서는 톰 크루즈의 어머니 Mary Lee Pfeiffer를 학습한 모델이 거꾸로 “Mary Lee Pfeiffer의 아들은 누구인가?”라는 질문에는 답하지 못한다는 것이 보고되었습니다.

만약 모델이 ‘부모-자식’이라는 관계를 이해하고 있었다면, 이 관계는 당연히 양방향으로 성립해야 합니다. A의 아버지가 B라면 B의 아들은 A입니다. 그러나 NTP 기반 모델은 학습 데이터에 자주 등장한 방향의 문장 순서를 기억할 뿐, 그 이면의 논리를 스스로 끌어내지 못합니다. 같은 사실에 대한 다른 표현을, 모델은 다른 사실로 받아들이는 셈입니다.

앞서 정의한 추론의 기준에 비추어 보면, 이는 가장 단순한 연역 — A의 아버지가 B라는 사실에서 B의 아들이 A임을 끌어내는 한 단계의 도출 — 조차 수행하지 못하는 모습입니다. 모델은 추론의 결과를 흉내 낼 수는 있어도, 추론이라는 연산 자체를 수행하지는 못한다는 뜻입니다. 벤치마크 점수가 80~90%를 넘나든다고 해도, 이런 종류의 실패가 함께 관찰된다는 것은 그 점수가 측정한 능력이 우리가 정의한 추론과 정확히 일치하지 않을 가능성을 시사합니다.

단어와 실체 사이의 거리: 기호 접지 문제

역전의 저주는 더 큰 문제의 한 단면입니다. 인지과학자 Stevan Harnad이 1990년에 제기한 Symbol Grounding Problem(기호 접지 문제)는 LLM이 왜 이런 종류의 실수를 반복하는지 잘 설명해 줍니다.

기호 접지 문제의 핵심은 이렇습니다. 모델이 “아버지”와 “아들”이라는 단어를 정확하게 사용한다고 해서, 모델이 부모와 자식이라는 실체를 이해하고 있는 것은 아니라는 것입니다. 모델에게 단어란 다른 단어와 함께 등장하는 통계적 패턴일 뿐이며, 그 단어가 가리키는 세계의 어떤 것도 아닙니다.

인간이 추론을 할 수 있는 이유는 단어 뒤에 있는 세계 모델(World Model)을 통해 시뮬레이션할 수 있기 때문입니다. “아버지”라는 단어를 들으면 그 단어에 묶여 있는 풍부한 인과 관계 — 부모는 자식보다 먼저 태어난다, 부모와 자식은 서로의 존재를 함의한다, 한 사람의 아버지는 그 사람을 자식으로 갖는다 — 가 함께 떠오릅니다. 그래서 인간은 “어거스틴 워싱턴의 아들은 누구인가?”라는 질문 앞에서 멈칫하지 않습니다. 반면 LLM에게 “아버지”라는 단어는 다른 토큰들 사이의 거리값일 뿐입니다.

얀 르쿤(Yann LeCun)이 A Path Towards Autonomous Machine Intelligence에서 지적했듯, 인과 관계가 결여된 지능은 결국 기호의 유희에 머물 위험이 있습니다. 단어를 잘 배열하는 것과, 단어가 가리키는 세계를 이해하는 것은 다른 능력입니다. 그리고 NTP는 본질적으로 전자에 최적화된 학습 방식입니다.

NTP를 넘어서기 위한 시도: JEPA

그렇다면 이 한계를 어떻게 넘을 수 있을까요? 현재 가장 주목받는 대안 중 하나가 JEPA(Joint-Embedding Predictive Architecture)입니다.

JEPA의 발상은 이렇습니다. 모든 데이터를 일일이 생성(Generation)하려 들지 말고, 데이터 이면의 추상적 관계를 예측하자는 것입니다. 기존 NTP가 모든 다음 토큰을 그대로 만들어내려 한다면, JEPA는 토큰 수준의 디테일은 버리고 시스템의 핵심 상태와 그 변화만을 학습합니다.

저는 이 발상이 소프트웨어 공학에서의 추상화와 닮아 있다고 생각합니다. 좋은 코드가 모든 구현 디테일을 외워서 견고해지는 것이 아니라, 인터페이스와 객체 간 관계를 잘 정의함으로써 견고해지듯이, 좋은 지능 모델은 모든 픽셀과 단어를 외우는 것이 아니라 그 이면의 구조를 학습함으로써 견고해질 수 있습니다. 지능을 ‘확률의 총합’이 아니라 ‘구조적 관계의 이해’로 다시 정의하려는 시도입니다.

JEPA가 정답이라고 단언하기는 아직 이릅니다. 다만 NTP가 부딪힌 벽 — 관계를 추론하지 못하고, 단어를 세계에 접지하지 못하는 — 이 무엇인지가 분명해질수록, 그 벽을 넘는 길이 단순히 모델을 더 키우는 것(Scaling Law)이 아니라 다른 종류의 학습 목표에 있을 것이라는 점은 비교적 또렷해집니다.

마치며: 직관 엔진과 논리 엔진

다시 처음의 질문으로 돌아가 보겠습니다. LLM은 결국 추론이 가능해질까요?

저는 지금의 우리가 일종의 가로등 효과(Streetlight Effect)에 빠져 있는 것은 아닐까 의심합니다. 가로등 밑이 밝다고 해서 잃어버린 열쇠가 반드시 그곳에 있는 것은 아닙니다. LLM이 유창한 문장을 만들어낸다고 해서 그 안에 진정한 추론의 엔진이 있다고 단정할 수는 없습니다. 우리는 측정하기 쉬운 곳 — 토큰 예측 정확도 — 에서 지능을 찾고 있는 것인지도 모릅니다.

엔지니어의 관점에서 보자면, 현재의 LLM은 훌륭한 직관 엔진임이 분명합니다. 방대한 패턴 위에서 그럴듯한 다음 단어를 만들어내는 능력은 그 자체로 인상적이고, 실제로 많은 일을 가능하게 합니다. 벤치마크의 빠른 진전은 그 직관의 해상도가 계속 높아지고 있음을 보여줍니다. 그러나 그것을 곧바로 논리 엔진이라 부르기에는, 역전의 저주와 기호 접지 문제, ARC-AGI v2와 GSM-Symbolic이 보여주는 깨짐들처럼 검증해야 할 지점들이 여전히 많이 남아 있습니다. 앞서 세운 네 기준 — 표면 강건성, 조합적 일반화, 깊이 안정성, 자기 인식 — 어느 것 하나도 완전히 충족되었다고 말하기는 이릅니다.

LLM이 결국 추론하게 될 것인가에 대한 제 잠정적인 답은 이렇습니다. NTP의 해상도를 더 높이는 것만으로는 도달하기 어렵습니다. 진짜 추론이 가능한 기계는, 단어를 잘 잇는 기계가 아니라 단어 너머의 세계를 시뮬레이션할 수 있는 기계일 것입니다.