기술

지능의 거울 혹은 엔진: LLM 추론의 실체에 대한 탐구

넥스트 토큰 예측이 마주한 논리적 임계점들

2026.04.28 4분 소요 필자 — Silica Plant

최근 인공지능 분야의 가장 뜨거운 화두인 ‘에이전틱 AI(Agentic AI)‘는 우리에게 한 가지 거대한 질문을 던집니다. “기계는 정말로 추론(Reasoning)하고 있는가, 아니면 추론의 결과물을 유창하게 흉내 내는가?” 에이전트가 스스로 계획을 세우는 모습은 자율적인 지능처럼 보이지만, 그 밑바닥을 흐르는 알고리즘의 한계는 우리가 지능의 ‘엔진’을 만든 것이 아니라, 지능이 남긴 흔적을 비추는 ‘거울’을 만든 것은 아닌지 의구심을 갖게 합니다.

1. 넥스트 토큰 예측(NTP)과 ‘역전의 저주’

현재 LLM의 근간인 넥스트 토큰 예측(NTP)은 통계적 상관관계를 극대화하는 방식입니다. 하지만 이것이 진정한 논리 구조를 이해한 것인지에 대해서는 회의적인 증거들이 발견되고 있습니다. 대표적인 예가 Reversal Curse(역전의 저주)입니다.

예시 1: 가족 관계의 비대칭성

모델에게 “조지 워싱턴의 아버지는 누구인가?”라고 물으면 “어거스틴 워싱턴”이라고 즉답합니다. 하지만 반대로 “어거스틴 워싱턴의 아들은 누구인가?”라고 물으면 대답하지 못하거나 엉뚱한 이름을 댑니다. 톰 크루즈의 어머니 사례(Mary Lee Pfeiffer)에서도 동일한 현상이 관찰됩니다.

만약 모델이 ‘부모-자식’이라는 논리적 관계(Relationship)를 이해했다면, 이는 당연히 양방향으로 성립해야 합니다. 하지만 NTP 기반 모델은 문장의 순서적 통계에 의존하기 때문에, 학습 데이터에 자주 등장한 방향의 패턴만 ‘기억’할 뿐, 그 이면의 논리를 ‘추론’하지 못한다는 합리적 의심을 낳습니다.

2. 60%의 함정: 누적되는 확률적 오차

에이전틱 AI가 복잡한 작업을 수행할 때 가장 큰 병목은 ‘오차의 누적’입니다. 이를 일상적인 예로 비유해 보겠습니다.

예시 2: 길치 GPS의 안내

여러분이 10번의 우회전과 좌회전을 거쳐야 하는 초행길을 가고 있다고 가정해 봅시다. 여러분의 GPS가 각 교차로에서 길을 맞출 확률이 95%라면 매우 우수해 보입니다. 하지만 10번의 선택을 모두 맞추어 목적지에 도착할 확률은 0.95¹⁰ ≈ 0.60, 즉 60%로 뚝 떨어집니다.

현실의 에이전트가 겪는 ‘Planning Drift(계획 이탈)‘(Valmeekam et al., 2023)이 바로 이 지점입니다. 인간은 3번째 단계에서 길을 잘못 들었음을 인지하면 ‘논리적 수정’을 하지만, 확률적 모델은 틀린 길 위에서도 여전히 ‘그럴듯한 다음 단어’를 생성하며 계속해서 잘못된 방향으로 나아갑니다. 모델 내부에 전체 계획의 정합성을 검증할 ‘논리적 가이드라인’이 부재하기 때문입니다.

3. 접지 문제: 솜사탕 위에 쌓은 볼링공

인지과학의 고전적 화두인 Symbol Grounding Problem(기호 접지 문제)는 LLM이 왜 상식 밖의 실수를 하는지 잘 설명해 줍니다.

예시 3: 물리적 상식의 부재

모델에게 “거대한 볼링공을 작은 솜사탕 위에 올려두면 어떻게 될까?”라고 물으면, 단어들의 통계적 인접성에 따라 “볼링공이 솜사탕 위에 예쁘게 놓여 있습니다”라고 묘사할 수 있습니다.

인간은 ‘볼링공(무겁다)‘과 ‘솜사탕(약하다/부서진다)‘이라는 단어 뒤에 숨은 물리적 실체를 ‘세계 모델(World Model)‘을 통해 시뮬레이션합니다. 하지만 LLM은 단어라는 기호 사이의 확률적 거리만 계산할 뿐, 그 기호가 실제 세계에서 어떤 무게나 강도를 갖는지 ‘접지(Grounding)‘되어 있지 않습니다. 얀 르쿤(Yann LeCun)이 “A Path Towards Autonomous Machine Intelligence”에서 지적했듯, 물리적 인과관계가 결여된 지능은 실체 없는 기호의 유희에 그칠 위험이 있습니다.

4. JEPA: 관계와 구조를 향한 대안

이러한 한계를 극복하기 위해 제시된 JEPA(Joint-Embedding Predictive Architecture)는 모든 데이터를 생성(Generation)하는 대신, 데이터 이면의 ‘추상적 관계’를 예측하는 데 집중합니다.

예시 4: 자전거를 그리는 법 vs 타는 법

기존 AI가 자전거의 모든 부품(픽셀/단어)을 완벽하게 그리려다 바퀴가 3개가 되는 오류를 범한다면, JEPA는 “페달을 밟으면 체인이 돌고 바퀴가 회전한다”는 객체 간의 관계를 먼저 학습합니다.

JEPA는 세부적인 노이즈를 버리고 시스템의 핵심적인 ‘상태 변화’를 예측합니다. 이는 소프트웨어 공학에서 세부 구현 코드보다 인터페이스와 객체 지향적 설계를 통해 시스템의 견고함을 확보하는 것과 매우 닮아 있습니다. 지능을 ‘확률의 총합’이 아닌 ‘구조적 관계의 이해’로 보려는 이러한 시도는 NTP가 마주한 벽을 넘을 수 있는 유력한 가설로 주목받고 있습니다.

마치며: 지능의 실체를 향한 여정

우리는 지금 지능의 가로등 효과(Streetlight Effect)를 경험하고 있는지도 모릅니다. 가로등 밑이 밝다고 해서 잃어버린 열쇠가 반드시 그곳에 있는 것은 아니듯, 언어 모델이 유창한 문장을 만든다고 해서 그 안에 진정한 추론의 엔진이 있다고 확신할 수는 없습니다.

엔지니어의 관점에서 본다면, 현재의 AI는 훌륭한 ‘직관 엔진’일 수는 있으나 완벽한 ‘논리 엔진’이라 부르기에는 여전히 검증해야 할 지점이 많습니다. 이제는 확률의 해상도를 높이는 Scaling Law를 넘어, 지능을 실제 세계의 인과관계에 어떻게 ‘접지(Grounding)’ 시킬 것인가에 대한 아키텍처적 고민이 필요한 시점입니다.

기술