LLM(Large Language Model)과 대화하다 보면 어느 순간 이런 인상에 사로잡힙니다. 이 기계가 정말로 무언가를 ‘생각하고’ 있는 것은 아닐까. 문장은 자연스럽고, 맥락도 잘 짚으며, 때로는 사람보다 또렷한 답을 내놓습니다. Dario Amodei가 ‘Machines of Loving Grace’에서 그린 청사진처럼, 이르면 2026년에는 노벨상 수상자보다 똑똑한 AI가 등장할 수 있다는 예측도 더는 어색하게 들리지 않습니다.
그러면 LLM은 정말 인간과 같은, 혹은 비슷한 수준의 지능을 가지고 있는 것일까요? 재미있게도, 최근 인지과학과 뇌과학계는 반대의 답을 내놓습니다. 이 글에서는 그 반증들을 짚어 보고 진정한 AGI를 위해서는 AI가 인간의 어떤 지능을 구현해야 하는지 살펴보고자 합니다.
언어는 사고의 엔진인가, 소통의 수단인가
우리는 머릿속에서 모국어로 끊임없이 독백하며 생각합니다. 그래서 자연스럽게 언어와 사고가 같은 것이라고 생각합니다. 이 직관은 오랫동안 학계의 공식 가설로도 자리잡아 왔습니다. 비트겐슈타인은 『논리철학논고』에서 “내 언어의 한계가 곧 내 세계의 한계”라고 단언했고, 사피어-워프(Sapir–Whorf) 가설의 강한 형태는 모국어의 구조가 사고의 구조 자체를 결정한다고 주장했습니다. 노엄 촘스키(Noam Chomsky)는 한 걸음 더 들어가, 언어를 단순한 소통의 수단이 아니라 사고를 가능하게 하는 핵심 기관이라 주장했습니다. ‘언어가 곧 사고의 엔진’이라는 가설은 한동안 학계의 주류였습니다.
그러나 지난 20여 년의 신경영상 연구는 이 가설을 정면으로 반박합니다.
언어와 독립된 사고들의 증거
이 흐름을 가장 또렷하게 한 자리에 모은 연구가 MIT의 에벨리나 페도렌코(Evelina Fedorenko) 연구팀이 Nature 2024에 발표한 “Language is primarily a tool for communication rather than thought”입니다. 이 논문은 수십 편의 신경영상 연구를 종합하면서, 뇌 안에 작동하는 두 개의 분리된 회로에 주목합니다. 하나는 문법을 맞추고 단어의 뜻을 풀어내는 ‘언어 네트워크(Language Network)‘이고, 다른 하나는 논리적 사고·수학적 추론·복잡한 문제 해결을 담당하는 ‘다중 요구 네트워크(Multiple Demand Network)‘입니다. 두 네트워크는 뇌 안에서 거의 겹치지 않는 별개의 영역으로 작동합니다.
페도렌코 팀이 내리는 결론은 단순하지만 강력합니다. 언어는 사고를 만들어 내는 엔진이 아니라, 이미 만들어진 사고를 외부로 전달하는 ‘소통의 도구’에 가깝다는 것입니다. 이 결론을 LLM 논의로 곧바로 끌어온 것이 Benjamin Riley가 The Verge에 기고한 ‘A Large Language Mistake’입니다. 제목의 말장난이 핵심을 담고 있습니다. ‘Large Language Model’을 지능과 동일시해 온 지금의 AI 담론 자체가 거대한 오해, 즉 ‘Large Language Mistake’에 서 있다는 것입니다. 그 오해의 출처를 그는 정확히 위의 신경과학적 분리—언어와 사고는 같은 회로에서 이루어지지 않는다—에서 찾습니다.
다른 많은 연구와 관찰들도 페데리코 팀의 주장을 뒷받침합니다. 대표적으로 다음이 있습니다.
첫째, 영아는 언어를 배우기 전부터 세계를 추론합니다. 발달심리학자 앨리슨 고프닉(Alison Gopnik)이 Science 2012에 발표한 “Scientific thinking in young children”은, 아직 모국어를 갖추지 못한 영아들이 이미 확률적 추론을 수행하고, 작은 실험을 통해 인과 관계를 검증하며, 세계의 구조에 대한 직관적 이론을 세워 나간다는 증거들을 폭넓게 정리합니다. 말이 트이기 전에 사고가 먼저 있다는 사실은, 언어와 사고의 분리를 보여 주는 가장 일상적이고도 강력한 증거입니다.
둘째, 문법이 완전히 무너진 환자도 대수학 문제를 풀 수 있습니다. Varley 등이 PNAS 2005에 발표한 “Agrammatic but numerate”는 심각한 실어증으로 문법 처리 중추가 영구 손상된 환자들이 “소년이 소녀를 쫓아갔다” 같은 문장의 의미는 이해하지 못하면서도, 방정식은 풀어낸다는 것을 보고합니다.
셋째, 말 없이도 마음을 읽습니다. Varley와 Siegal이 Current Biology 2000에 발표한 연구는 의사소통이 거의 불가능한 중증 실어증 환자도 타인의 의도와 착각을 유추하는 ‘마음 이론(Theory of Mind)’ 과제는 통과한다는 것을 보고합니다.
넷째, 음악적 구조를 다루는 뇌의 영역도 언어와는 다릅니다. Fedorenko 등이 PNAS 2011에 발표한 “Functional specificity for high-level linguistic processing in the human brain”은 화성과 마디 같은 음악의 구조적 규칙을 분석할 때 활성화되는 뇌 영역이 언어 네트워크와 사실상 겹치지 않는다는 것을 보였습니다. 같은 논문이 산술, 작업 기억, 인지 통제 등 다른 고차 인지 영역에 대해서도 언어 네트워크가 분리되어 있다는 점을 함께 보고합니다.
임베딩 공간: 우리가 언어에 새겨 둔 사고의 궤적
위에서 우리는 언어와 사고가 뇌의 다른 영역에서 이뤄지는 것을 살펴보았습니다. 그렇다면 인간의 언어능력을 모방한 LLM은 어떻게 마치 인간처럼 생각하고 추론하는 듯한 모습을 보이는 걸까요? 핵심은 LLM이 학습한 언어 자체에 있습니다. LLM이 학습한 방대한 텍스트는 인류가 수천 년에 걸쳐 인간의 사고를 담아온 결과물입니다. 문자속에 압축된 사고의 흔적이 단어와 단어 사이의 관계 속에 고스란히 남아 있고, LLM은 수천 차원의 벡터 공간 표현 위에서 그 흔적을 학습합니다. Mikolov 등이 2013년에 발표한 Word2Vec 논문이 보여 준 그 유명한 연산이 대표적인 예입니다.
기계가 왕과 왕비의 사회적 본질을 이해해서 이 답을 낸 것은 아닙니다. 그러나 인간이 언어 속에 오랫동안 새겨 온 [성별]과 [권력]이라는 개념적 축이 이미 벡터 공간에 투사되어 있기 때문에, 단순한 산술로도 추론처럼 보이는 결과가 나옵니다.
이를 두고 ‘기하학적 궤적을 미끄러지는 통계적 앵무새이자 거울’이라고 보는 시각이 있고, 인간의 언어를 압축하는 과정에서 세계를 지배하는 논리의 뼈대가 모델 안에 스스로 재구성되었다고 보는 시각도 있습니다. 아직 어느쪽이 완전히 옳다고 단정하기는 이릅니다. 다만 거울의 상이 충분히 정교하다면, 그 상은 실체의 어떤 부분을 이미 담고 있다고 보는 것이 타당하다고 생각합니다.
거울 너머의 지능: 다음 연구가 해결해야할 문제들
만약 LLM이 모든 지능을 구현해낼 수 없다면, LLM은 실패일까요? 오히려 LLM의 한계는 앞으로 AI가 나아가야 할 과제들을 뚜렷하게 제시합니다.
먼저 물리적 세계 모델(World Models)입니다. 얀 르쿤(Yann LeCun)이 ‘A Path Towards Autonomous Machine Intelligence’에서 제안한 개념으로, 기계가 외부 세계의 작동 방식을 내부에 모델링하고, 실제로 행동을 취하기 전에 그 결과를 미리 예측하는 능력을 뜻합니다. 뜨거운 불 앞에서 손을 뻗기 전에 어떤 일이 일어날지 머릿속으로 시뮬레이션하는 것처럼, 행동과 결과 사이의 인과 관계를 내면화하는 것이 목표입니다. 이 감각은 텍스트 데이터만으로는 기를 수 없습니다. 3차원 세계와 직접 부딪히며 물리 법칙을 몸으로 익혀야 하기 때문입니다.
다음으로 인과적 추론(Causal Reasoning)입니다. “A 다음에는 B가 자주 온다”는 통계적 상관을 넘어, “B가 참이려면 어떤 것들이 참이어야 하는가”를 따지는 능력입니다. 현재의 LLM은 상관에는 능숙하지만 인과는 잘 짚지 못합니다.
마지막으로 메타인지(Metacognition)입니다. 자신이 무엇을 알고 무엇을 모르는지 구분하고, 환각(Hallucination)을 스스로 걸러낼 수 있는 자기 점검 능력입니다. Center for AI Safety를 비롯한 안전성 연구자들이 계속 지적해 온 지점입니다.
마치며: 거울 너머로
지금의 LLM이 AGI로 이어질지는 아직 모릅니다. 하지만 그 여정에 무엇이 더 필요한지를, 가장 선명하게 보여 준 기계는 LLM 자신입니다.