← 기술
기술

AI의 기억능력 부족, DRAM 가격 폭등을 부추기다

AI DRAM 수요 폭증의 이유와 해결방안들

LLM은 훈련과 추론 과정 모두에서 많은 메모리를 요구합니다. 그 결과 GPU에 들어갈 DRAM의 수요가 가파르게 늘었고, 가격도 빠르게 오르고 있습니다. 이 가격 상승이 AI 기업과 데이터센터에 점차 부담으로 작용하면서, 시스템 설계 단계에서부터 DRAM 사용량을 줄이려는 시도가 늘고 있습니다. 최근 EE Times의 기사 What the DRAM Crunch Teaches Us About System Design은 이 흐름을 시스템 설계 차원에서 짚습니다. 기사의 주장은 또렷합니다. ‘저렴하고 무한한 DRAM’의 시대는 사실상 끝났고, 시스템 설계의 무게중심은 ‘연산’에서 ‘데이터 이동과 메모리 관리’로 이동하고 있다는 것입니다.

이 글에서는 LLM이 왜 이렇게까지 많은 메모리를 필요로 하는지, 그리고 그 한계를 넘기 위해 학계와 산업계가 어떤 방향으로 움직이고 있는지를 정리해 보고자 합니다.

모든 단어를 날것으로 기억하는 기계

LLM이 왜 그토록 많은 메모리를 요구하는지부터 짚어야 합니다. 이 질문에 답하려면 AI와의 대화에서 실제로 어떤 일이 일어나고 있는지를 들여다볼 필요가 있습니다.

사람이 1분 동안 보통 130~150단어를 말한다고 하면, AI와 한 시간 정도 깊게 대화한다는 것은 약 8,000~10,000단어 분량의 데이터가 오간다는 뜻입니다. 사람은 이만큼의 대화를 나누고 나면 세부 사항을 일일이 기억하지 않고 핵심을 추상화해서 머릿속에 보관합니다. 친구와 누군가에 대해 한 시간을 떠들고 나면, 결국 우리는 그 사람을 “유쾌한 사람”, “씀씀이가 큰 사람”, “엔지니어로 일하는 사람” 정도의 몇 가지 특징으로 압축해 기억하는 식입니다.

그런데 오늘날의 LLM은 대화가 길어질수록 그 맥락을 추상화해서 압축 보관하는 메커니즘이 거의 갖춰져 있지 않습니다. 모든 토큰의 Key-Value 값을 수천 차원의 벡터로 변환해 위치별로 그대로 DRAM에 쌓아 두는 방식으로 대화를 붙들고 있습니다. 이렇게 쌓아 두는 메모리가 KV 캐시(KV Cache)입니다. Llama 3 70B 같은 모델이 한 시간 분량의 맥락(약 3만 토큰 안팎)을 유지하려면 사용자 한 명당 BF16 기준 수 GB에서 10GB에 가까운 DRAM이 실시간으로 묶여 있어야 합니다. 한 장에 80GB(H100), 최근의 H200·B200은 141GB·192GB 수준이라는 점을 떠올리면, 긴 대화를 나누는 사용자가 십수 명만 동시에 들어와도 GPU 한 장의 메모리는 곧 물리적 한계에 부딪힌다는 사실이 한눈에 그려집니다.

그렇다면 이 문제를 풀기 위해 사람들은 어떤 노력을 기울이고 있을까요?

기억의 부피를 줄이는 수학적 압축

첫 번째 방향은 데이터 자체를 더 작게 압축해 두는 것입니다.

DeepSeek-V2가 공개한 MLA (Multi-head Latent Attention)는 KV 캐시를 저차원의 잠재 공간에 압축해 보관하다가, 실제 연산이 필요한 순간에만 다시 복원하는 방식입니다. 기존 대비 메모리 점유율을 90% 이상 줄였다는 결과가 보고되어 있습니다. GQA (Grouped-Query Attention)는 여러 어텐션 헤드가 하나의 키·값 묶음을 공유하게 만들어, 같은 정보를 중복으로 들고 있는 낭비를 잘라냅니다.

두 접근 모두 트랜스포머라는 큰 틀은 그대로 두고 그 안의 비효율을 줄이는 시도입니다. 기억 방식 자체가 바뀌지 않으니 근본적 해결이라고 부르기는 어렵지만, 같은 양의 정보를 더 작은 공간에 담는 방향이라는 점에서 지금 시점에 가장 빠르게 적용 가능한 단기 해법입니다.

요약하는 모델을 만들자

두 번째 방향은 좀 더 야심찹니다. 트랜스포머의 기억 방식 자체를 새로 짜는 것입니다. 정보를 일일이 쌓아 두지 않고 압축된 ‘상태(state)‘로 관리하는 새로운 아키텍처들이 여기에 해당합니다.

Mamba와 SSM (State Space Models)은 대화가 아무리 길어져도 정보를 하나의 상태 벡터에 압축한 뒤 이를 점진적으로 갱신해 나갑니다. 문장이 길어진다고 DRAM 사용량이 따라 늘지 않는, 사실상 상수 복잡도의 메모리 사용을 구현해 낸다는 점이 핵심입니다. 대화가 길어질수록 메모리가 선형으로 늘어나는 트랜스포머와는 결이 다른 기계인 셈입니다. 모든 대사를 통째로 들고 있는 트랜스포머와 달리, 영화의 핵심 서사만 추려 가며 따라가는 방식에 가깝다고 표현해도 무리가 없습니다. Attention Sinks는 좀 더 실용적인 절충안입니다. 모든 과거를 다 지키는 대신 대화의 맨 처음과 가장 최근 문맥만 유지하는 식으로 메모리 효율을 짜낸 방식입니다.

저는 이 두 번째 방향이, 앞서 짚었던 일반화·추상화 능력의 부재라는 LLM의 본질적 약점에 가장 직접적으로 답하는 시도라는 점에서 가장 흥미롭다고 생각합니다.

DRAM 밖의 자원을 함께 쓰는 길

세 번째 방향은 모델 안쪽이 아니라 시스템 계층에서 메모리 관리를 다시 짜는 시도입니다.

PagedAttention (vLLM)은 운영체제의 가상 메모리 기법을 LLM 서빙에 그대로 가져옵니다. 메모리를 페이지 단위로 관리해 파편화를 막고, DRAM이 부족해지는 순간에는 CPU 메모리(나아가 외부 저장소)까지 또 하나의 메모리 계층처럼 끌어와 활용할 수 있도록 설계되었습니다. 하드웨어 쪽에서는 PIM (Processor-In-Memory)이 자주 거론됩니다. 연산 회로를 메모리 자체에 내장해, CPU/GPU와 DRAM 사이를 오가는 데이터 이동 비용을 원천적으로 줄여 보자는 발상입니다. EE Times 기사가 짚는 “설계의 무게중심이 연산에서 데이터 이동으로 옮겨 간다”는 흐름이, 하드웨어 차원에서 가장 또렷하게 드러나는 자리이기도 합니다.

마치며: 기억의 제약이 다시 그리는 시스템

위 세 방향은 결국 같은 문제를 각자 다른 층위에서 풀고 있습니다. 수학적 압축은 모델 내부에서, 아키텍처 혁신은 기억 방식 자체에서, 시스템 계층화는 인프라 위에서, 저마다 메모리 효율을 끌어올리려 합니다. 저는 이 가운데에서도 PIM 같은 하드웨어 혁신과 Mamba 같은 아키텍처 혁신이 만나는 지점에서 진짜 돌파구가 열릴 가능성이 가장 크다고 봅니다. 각각만으로는 부분적인 절충에 그치지만, 두 방향이 수렴하는 순간 문제의 구조 자체가 달라질 수 있기 때문입니다.

결국 DRAM Crunch는 AI 산업에 한 가지 질문을 던지고 있다고 생각합니다. “언제까지 모든 데이터를 날것으로 들고 있을 것인가?” LLM 이전 시대의 시스템 설계가 “얼마나 빠르게 연산할 것인가”를 중심에 두었다면, 이제 그 중심은 “얼마나 제한된 메모리 안에서 지능을 구현할 것인가”로 옮겨 가고 있습니다. 이 무게중심의 이동을 먼저 이해하고 설계에 반영하는 능력이, 앞으로 AI 서비스의 실질적인 경쟁력을 가르는 분기점이 되리라는 생각이 듭니다.