작성자: Crazyox; 출처: X, @crazyox
지난 3년간의 생성형 AI 열풍 속에서, 전 세계 기술계는 GPU 공급률과 연산 능력(FLOPS)으로 구성된 일종의 ‘연산 능력 서사 독점’에 빠져들었습니다.
모두가 NVIDIA의 발표회를 주시하며, H100, B200, 그리고 미래의 Rubin을 AGI로 가는 유일한 성배로 여깁니다.
그러나 매우 위험한 업계의 인식 오류가 발생하고 있습니다: 시장은 “계산 속도”를 “지능의 전부”로 오해하고 있습니다 .
대규모 언어 모델(LLM)이 단순한 “무상태 질의응답(Stateless QA)”에서 장기 계획, 도구 호출 및 자율적 의사결정 능력을 갖춘 “상태 기반 에이전트(Stateful Agent)”로 진화함에 따라, 하드웨어 기반 구조의 권력 중심이 구조적으로 이동하고 있다.
에이전트형 AI(Agentic AI)의 핵심 병목 현상과 궁극적인 장벽은 결코 연산 능력이 아니라 기억이다.
이는 단순한 소프트웨어 애플리케이션 계층의 패러다임 전환을 넘어, 전체 IT 인프라 하드웨어 계층에 대한 파괴적인 재편이다.
스토리지는 컴퓨팅의 ‘냉장고’에서 지능의 ‘중추 신경’으로 도약하고 있다.
1. 제1원리: 지능의 본질은 ‘시간과 공간의 에너지 대립’이다
제1원리(First Principles)에서 출발할 때, 인간은 물론 우주 속 모든 형태의 ‘지능’이 궁극적으로 추구하는 것은 오직 두 가지뿐이다:무한한 연산 능력(머리가 빠름)과 무한한 저장 능력 (기억력이 충분히 좋은 것).
물리 세계에서 계산은 본질적으로공간에 대한 에너지의 변화 속도(클럭 주파수, 처리량)이며, 저장은시간 차원에서 에너지의 잔류 상태 (엔트로피 감소의 유지)이다.
인간 사회에서 한 사람의 지능 수준을 평가할 때, 우리가 중시하는 것은 “광범위한 지식과 뛰어난 기억력”과 “민첩한 반응”의 통합이다.
광범위한 지식과 뛰어난 기억력이라는 토대가 없다면, 민첩한 반응은 근원 없는 물에 불과하다.
기계 지능은 이 경로를 따라 빈틈없이 진화하고 있다.
하지만 현재의 폰 노이만 아키텍처 하에서는, 연산과 저장 사이에 치명적인 “메모리 월(Memory Wall)”이 존재한다.
에이전트형 AI(Agentic AI)의 등장과 함께, 전통적인 중앙 처리 장치(CPU)의 역할은 완전히 주변부로 밀려났다. CPU는 이미 핵심적인 계산 논리를 담당하지 않고, 단지 ‘보조자’로 전락했다.
새로운 유형의 지능형 하드웨어 계층은 ‘지능에 대한 기여도’에 따라 재편되고 있다:

이 새로운 질서 속에서, 저장 (Memory)는 절대적인 최우선 순위로 밀려났다.
연산 능력이 지능체의 사고에 있어 순간적인 폭발력을 결정하는 반면, 스토리지의 용량과 대역폭은 지능체의 인지 범위, 깊이 및 수명의 길이를 결정하기 때문이다.
2. 빙산 아래의 HBM: 디코딩 단계의 “메모리 대역폭 대참사”
현재 시장의 스토리지에 대한 이해는 대부분 HBM(High Bandwidth Memory)의 부족과 엔비디아 그래픽 메모리의 높은 원가에 머물러 있다.
하지만 이는 빙산의 일각에 불과하다.
기술적 기반에서 볼 때, 대규모 모델의 추론 과정은 두 가지 완전히 다른 단계로 나뉩니다: Prefill(사전 채움 단계)과 Decode (디코딩 및 단어별 생성 단계)로 나뉩니다.
Prefill 단계는 Compute-bound(연산 제한)이며, 입력된 프롬프트를 한 번에 처리하기 위해 대용량 GPU 연산 능력이 필요합니다. p>
Decode 단계는 전형적인 Memory-bound(메모리 대역폭 제한) 작업입니다.
대형 모델이 토큰(한 글자 또는 단어) 하나를 생성할 때마다, 모델 전체의 가중치(Weights)와 이전 모든 대화에서 생성된 KV 캐시(키-값 캐시)를 GPU 메모리에서 완전히 "옮겨와야" 합니다.

이로 인해 매우 터무니없는 현상이 발생합니다. 연산 코어(Tensor Core)는 대부분의 시간 동안 데이터가 도착하기를 기다리며 “공회전”하고 있습니다.
대역폭이 부족하면 아무리 비싸고 진보된 GPU라도 그저 장식물에 불과합니다.
이것이 바로 NVIDIA의 각 세대 칩 업그레이드에서 연산 능력의 증가는 대개 선형적인 반면, HBM의 대역폭과 용량 증가는 기하급수적인 이유입니다.
HBM의 본질은, 고가의 그래픽 메모리 적층 기술이 연산 코어의 속도를 간신히 따라잡기 위해 타협하여 내놓은 ‘근접전식’ 하드웨어 솔루션이다.
하지만 이는 시장에서 이미 진부해진 이야기일 뿐이며, 더 깊은 차원의 패러다임 혁명은 GPU 클러스터 밖에서 일어나고 있다.
3. 은폐된 공급망 이야기: 100만 개 이상의 컨텍스트는 GPU 내에서 조립되는 것이 아니다
우리는 매일 주요 모델 제조사들이 “100만, 200만, 심지어 무한한 컨텍스트 윈도우(Context Window)”를 내세우는 것을 듣는다.
일반 투자자와 비기술적 배경을 가진 업계 관찰자들은 일반적으로 이러한 긴 컨텍스트가 수만 장의 GPU로 구성된 AI 컴퓨팅 클러스터에서 실시간으로 조합되고 처리된다고 생각합니다.
이는 업계의 큰 오해입니다.
GPU 어레이의 그래픽 메모리는 매우 비싸고 용량이 제한적이며, 오직 가장 핵심적인 “행렬 곱셈” 연산만을 담당합니다. p>
그 1M, 심지어 수 테라바이트에 달하는 초장문 컨텍스트의 진정한 물리적 조립 장소, 정제 작업장 및 상태 유지 네트워크는 Agentic 시스템을 실행하는 전통적인 범용 서버(CPU + 초대용량 DRAM으로 구성) 내에 있습니다.
우리가 완전 자동화된 에이전트 기반 지능형 시스템을 분해해 보면, 이러한 전통적 서버의 DRAM(동적 메모리) 안에서는 알려지지 않은 데이터 폭풍이 일어나고 있습니다:
1. 동적 상태 기계(Dynamic State Machine)의 실시간 유지
에이전트(Agent)는 일회성 트리거로 작동하는 챗봇이 아니라, 지속적으로 실행되는 “상태 기계”입니다 입니다.
에이전트는 사용자의 장기 기억(벡터 데이터베이스 기반의 콜드 데이터, NAND에서 불러온)과 단기 기억(현재 대화의 맥락, 핫 데이터)을 실시간으로 끊임없이 DRAM에 로드해야 합니다.
2. 시스템 프롬프트(System Prompts)와 메타인지(Meta-Cognition)의 주입
복잡한 에이전트는 대개 수십 개의 서로 다른 역할을 가진 하위 에이전트(Sub-agents)를 포함합니다.
각 하위 에이전트에는 수만 단어에 달하는 시스템 행동 규범, 방어 프롬프트, 규정 준수 경계가 있습니다.
이러한 메타인지 데이터는 주 시스템이 언제든지 호출할 수 있도록 메모리에 상주해야 합니다.
3. 툴체인 및 스킬 라이브러리(Skills & Tools Descriptions)의 오케스트레이션
에이전트가 작업을 수행할 때(예: "지난 3년간의 재무 보고서를 분석하고 차트를 생성해 줘"), 수많은 외부 API, Python 인터프리터 또는 SQL 데이터베이스를 호출해야 합니다.
이러한 도구의 매개변수 형식, 호출 논리, 중간 실행 상태는 모두 메모리에 쌓입니다.
4. 극단적인 컨텍스트의 “메모리 압축 및 증류”
대화 횟수가 증가하여 토큰 수가 100만 개라는 한계에 도달하면, 에이전트 시스템은 이 100만 개의 데이터를 GPU에 직접 넘길 수 없습니다(그래픽 메모리 오버플로우나 지연 시간 폭증을 유발할 수 있음).
Agentic 서버는 DRAM 내에서 알고리즘을 활용하여 컨텍스트에 대해 동적인어텐션 증류(Attention Distillation), 의미적 전정(Semantic Pruning) 및 실시간 요약(Real-time Summarization)을 수행해야 합니다.
이 일련의 복잡하고, 빈도가 높으며, 강력한 논리적 판단이 수반되는 데이터 흐름은 100% Agentic 서버의 DRAM 내에서 실행됩니다.
GPU는 단지 마지막 순간에 “펜을 들어 글씨를 쓰는” 생산 라인 작업자에 불과하며, 전통적인 서버 내 초대용량 DRAM으로 구성된 공간이야말로 전략을 구상하는 “참모진”이자 “문서 보관소”입니다.
4. 시대를 초월한 비교: Web 2.0의 “무상태 프로파일”에서 Agentic의 “전체 의식 흐름”으로
이 저장 혁명의 엄청난 규모를 이해하기 위해서는 과거의 인터넷/모바일 인터넷 시대와 종단적 비교를 해야 한다.
과거의 Web 2.0 시대(구글의 검색, 틱톡의 추천, 타오바오의 광고 시스템 등)에서 핵심 논리는 “상태가 없는 짧은 텍스트 상호작용” 이었다.
사용자가 동영상을 클릭하면 시스템은 서버에 몇 KB 크기의 요청(Request)을 보내고, 서버는 추천 목록(Response)을 반환한다.
인터넷 서버는 거의사용자의 실시간 컨텍스트를 처리하거나 유지할 필요가 없었다.
데이터 센터는 백엔드 데이터베이스에 매우 드문 사용자 태그(예: 남성, 25세, 디지털 기기 선호)만 보관하면 됩니다. 이 데이터 양은 극히 미미합니다.
에이전틱(Agentic) 시스템이 처리하는 데이터 양은 기존 인터넷 시스템의 20배, 심지어 100배 이상입니다.
에이전트는 “전체 의식 흐름(Full Stream of Consciousness)”을 처리하기 때문입니다 이기 때문입니다.
개인 AI 에이전트와 협업할 때, 에이전트는 방금 한 말뿐만 아니라 운영 체제의 전체 파일, 일정, 지난 1년간의 이메일 기록, 심지어 어조 선호도까지 실시간으로 불러와야 합니다.
에이전트의 사고 흐름(Thought Stream)은 매번 다중 소스 데이터의 공간적 교차점입니다. 이러한 메모리 공간에 대한 강력한 점유성은 인류 IT 역사상 전례 없는 “괴물”입니다.
다섯, 공급망의 냉철한 실증: 1 : 4 대 1 : 16의 구조적 대변화
월스트리트와 애널리스트들은 거창한 이야기를 좋아하지만, 산업계의 공급망은 결코 거짓말을 하지 않으며, 실제 자금으로 이루어진 장비 구매 지표를 통해 투표를 행사합니다.
전통적인 클라우드 컴퓨팅 데이터 센터에서, 일반 서버의 구성 비율(CPU 코어 수와 메모리 용량의 비율)은 오랫동안 다음과 같이 유지되어 왔다:
$$\text{1 CPU Core} : \text{4 GB DRAM}$$
이는 십여 년간 유지되어 왔으며, 가장 경제적인 황금 비율로 여겨져 왔다.
그러나 지난 1년간의 공급망 주문 현황을 보면, 에이전트형 AI 시스템의 전면적인 도입에 대응하기 위해 이 비율이 구조적으로 깨지면서 다음과 같이 급격히 상승했습니다:
$$\text{1 CPU 코어} : \text{16 GB DRAM}$$
게다가 이 수치는 1 : 32 심지어 1 : 64 로 치솟고 있습니다. p>
하지만 이는 단지 하드웨어 사양의 단일 지점 변화일 뿐이며, 진정한 연쇄 반응은 동시 서비스 처리 능력(Concurrency Capacity) 의 붕괴에서 발생합니다.
Agentic 상태에서는 단일 사용자가 차지하는 컨텍스트, 메모리 및 툴체인 데이터가 지나치게 방대하기 때문에, 단일 CPU가 동시에 서비스할 수 있는 사용자 수(QPS)가 기존 인터넷 시대의 몇 분의 일, 심지어 십여 분의 일 수준으로 급감합니다.
이는 놀라운 상업적 컴퓨팅 파워의 블랙홀입니다.
이는 전 세계 IT 인프라가 Web 2.0에서 에이전틱 AI 기반 생태계로 완전히 전환될 때, 과거와 동일한 사용자 동시 접속량을 유지하려면 전 세계 데이터 센터에 필요한 하드웨어 총량이 급격히 증가할 것임을 의미합니다:
CPU 수: 시장의 예상과 달리 GPU에 완전히 대체되는 것이 아니라, 스토리지 스케줄러로서 그 수가 수 배에서 십여 배까지 반등하며 증가할 것입니다. p>
DRAM(메모리) 총량: 수십 배에서 수백 배에 달하는 기하급수적인 수요 급증을 맞이할 것입니다.
6. 최종 결론: 이는 결코 사이클이 아니라, “저장장치”를 핵심으로 하는 하드웨어 패러다임의 붕괴입니다
전 업계가 “저장장치 칩은 사이클 산업(Cyclical Industry)”이라는 전통적인 시각으로 삼성, SK하이닉스, 마이크론의 재무제표를 바라보고 있을 때, 그들은 시대의 오류를 범하고 있는 것입니다.
시간의 흐름을 넓게 보면, 만물에는 모두 주기가 있다. p>
하지만 기술 패러다임이 도약할 때, 새로운 수요의 폭발은 주기의 정점을 완전히 연장시켜, 원래 2년 주기로 요동치던 “단기 재고 주기”를 억지로 수십 년에 걸친, 귀를 찢는 듯한 “초구조적 주기(Super Structural Cycle)”로 만들어 버린다 .
현재의 시점은 두 가지 극단적인 가위차이(scissors gap) 특징을 지니고 있다:
인구 침투율이 극히 낮음: 전 세계에서 진정한 네이티브 에이전트 시스템을 사용하는 활성 사용자의 비율은 1%에도 미치지 못한다.
사용 깊이가 극히 얕음: 대다수의 사용자는 AI 사용이 여전히 “문장 한 구절을 다듬어 줘”라는 Stateless 단계에 머물러 있으며, 에이전트가 24시간 내내 복잡한 워크플로를 처리하도록 하는 심층적인 활용은 이제 막 시작 단계에 불과하다.
앞으로 최소 5년 동안, 우리는 에이전트형 AI(Agentic AI)가 주도하는 이번 스토리지 수요 사이클의 정점을 전혀 볼 수 없을 것입니다.
소프트웨어 패러다임의 변화(무상태 질의응답에서 장거리 유상태 에이전트로의 전환)는 필연적으로 하드웨어 패러다임의 공명을 이끌어낼 것입니다 (컴퓨팅 중심론에서 스토리지 중심론으로의 전환).
AI 에이전트의 저수준 작동 논리를 진정으로 이해한 사람이라면 누구나 알 수 있습니다:이번 스토리지 급등은 실리콘 사이클의 회복이 아니라, 인류 정보 기술 아키텍처의 전면적인 재구축입니다.
연산 능력은 AI가 얼마나 빨리 달릴 수 있는지를 결정하지만, 스토리지야말로 AI가 얼마나 멀리 갈 수 있는지를 최종적으로 결정한다.