편집자 주: 토큰은 AI 시대의 가치 체계를 재편하고 있습니다. 이는 효율성 혁명의 원동력일까요, 아니면 비용 폭주의 암초일까요? 이번 호에서는 토큰을 통한 비용 절감이라는 관점에서 AI 시대의 ‘새로운 석유’가 지닌 경제적 논리를 심층 분석합니다.

토큰으로 키워진 '강철 새우'.
작성자: 수양, 텐센트 테크
최근 토큰에 대한 논의는 꽤 기묘하다.
모멘트(WeChat 친구들 피드) 곳곳에서 토큰의 중국어 번역에 대한 논의가 눈에 띈다. '사원(詞元)', '지원(智元)' 등이 있고, 심지어 '혜근(慧根)' 같은 유머러스한 버전도 있다. p>
토큰은 새로운 개념이 아닙니다. 대규모 모델이 상용화된 첫날부터 신경망과 공생해 왔지만, OpenClaw(일명 "랍스터")가 사용자 그룹에 대규모로 확산되면서 각종 에이전트 애플리케이션이 토큰을 대중의 시야에 들여놓기 시작했습니다.
저는 여기에는 두 가지 핵심 문제가 있다고 생각합니다: 소비량이 너무 많고, 가격도 너무 비싸다는 점입니다.
OpenAI가 GPT-5.4를 출시했을 때, 한 사용자가 "안녕하세요"라는 한 문장을 테스트하는 데 80달러 상당의 토큰이 소모되었다고 피드백한 적이 있습니다. 당시 많은 사람들이 이 사용량이 터무니없다고 말했지만, '소룡새우'가 사용자층에 대규모로 확산되면서 하나의 작업에 수천만 개의 토큰이 소모되는 것이 일상이 되었습니다.
이와 대조적으로, 엔비디아 CEO 황인훈은 GTC 2026 컨퍼런스와 그 이후 여러 자리에서 엔지니어들이 토큰을 대량으로 사용해야 한다고 강조해 왔으며, 심지어 토큰을 보상 인센티브 제도에 포함시키기도 했습니다.
한 대담 세션에서 황 인슝은 "연봉 50만 달러짜리 엔지니어가 25만 달러 상당의 토큰도 다 쓰지 못한다면, 나는 극도로 불안해할 것"이라고 말했다. "
문제는, 토큰을 미친 듯이 소모하는 것이 과연 문제를 해결할 수 있는지, 얼마나 많은 토큰이 효과적인지, 어떤 투입 대비 산출 비율이 합리적인가 하는 점이다.
방금 외신 보도에 따르면, 한 OpenAI 프로그래머가 일주일 만에 2,100억 토큰을 소모했는데, 이는 위키백과 33개 분량에 해당한다. 하지만 이러한 소비량은 결국 무엇을 가져왔는가? 저는 위챗 모멘트에 '이렇게 과도하게 사용하면 P10 등급으로 올라갈 수 있을까?'라고 올렸더니, 친구 한 명이 즉시 "토큰을 파는 사람들이 P10 등급으로 올라가게 도와줄 수는 있겠네."라고 댓글을 달았습니다.
분명히, 이 미친 듯이 토큰을 소모하는 운동이 얼마나 효과를 낼지는 의문이지만, 누가 이익을 볼지는 확실합니다.
황인훈은 엔비디아를 "토큰의 왕"이라 묘사하며, 세계 최첨단 "토큰 제조기"를 보유하고 있다고 했지만, 이를 필사적으로 선전하고 심지어 토큰을 사용하지 않으면 뒤처질 것이라고 암시한다면, 다음과 같이 말할 수 있다: 한편으로는 황인훈이 AI 시대 기업의 "효율성 평가" 논리를 완전히 바꾸고자 하는 반면, 다른 한편으로는 그가 간접적으로 토큰 불안감을 조성한 셈이다.
1. 토큰이 너무 비싸다
얼마 전, 나는 저우훙위에게 "토큰이 너무 비싸다"는 문제에 대해 물었고, 그는 이렇게 말했다. "사람들이 토큰이 비싸다고 생각하는 것은 오해일 수 있습니다. 대규모 모델의 백엔드는 유연하게 구성할 수 있기 때문입니다. "
그의 이해에 따르면, 사용자는 비용을 통제하기 위해 모델을 자율적으로 선택할 수 있다. "일상적인 채팅 대화의 비용은 사실 매우 낮다. 토큰을 실제로 소모하는 것은 복잡한 작업, 예를 들어 동영상 생성, 단편 드라마 제작 또는 소설 집필과 같은 호출 시나리오다. "
제가 기억하기로는 레오파드 모바일(Cheetah Mobile)의 CEO 푸쉰(傅盛)이 한 영상에서, 몇 가지 사용 요령을 통해 초기 일평균 수백 달러였던 토큰 비용을 현재 일평균 10달러 남짓으로 최적화했다고 말한 적이 있습니다. 30일 기준 2,100위안, 연간 비용은 25,200위안입니다.
문제는 이렇습니다: 과연 얼마나 많은 사용자가 일일 평균 10달러의 비용을 감당할 수 있을까요?
현재 중국 인터넷상의 상용 B2C 소프트웨어를 비교해 보면, 예를 들어 '쥔잉(剪映)'의 경우 프리미엄 멤버십 연회비도 600위안 정도에 불과하고, 엔터테인먼트 관련 멤버십 비용은 대략 300위안 수준이라, 연회비가 25,000위안을 넘는 소비자용 소프트웨어는 찾아볼 수 없습니다.
"대다수의 사람들은 하루 10달러라도 여전히 받아들이지 않을 것이며, 이로 인해 수많은 비유료 사용자가 걸러질 것입니다."라고 푸성에게 말했더니, 그는 내 판단을 부정하지 않았다.
요즘 나는 다양한 종류의 '샤오롱샤(소라게)' 제품들을 시도해 보고 있는데, 접하게 될 비용은 토큰(Token) 비용보다 훨씬 더 많다.
예를 들어, 사용자가 이미지 생성을 원한다면 전용 이미지 생성 모델 API가 필요하고, 동향을 모니터링하려면 유료 검색 API를 연동해야 하는데, 이러한 잠재적 비용은 점차 대다수의 사용자를 포기하게 만들 것이다. 비록 오픈소스를 활용해 비용을 절감할 수 있는 방법이 있을지 모르지만, 오픈소스 프로젝트는 간접적으로 보안 위험을 내포하고 있다.
3월 13일, 당시 텐센트 테크놀로지의 '샤차오(蝦聊)' 시리즈 라이브 방송 1회에서, 쉰우(玄武) 연구소의 게스트 Lambda는 한 가지 데이터를 공유했습니다. 바로 그 자신이 매달 평균 1,000위안 이상을 '새우 키우기'에 지출한다는 것이었습니다.
소비자용 도구의 연간 이용료를 참고하든, 업계 '새우 키우는 사용자'들의 피드백을 보든, 에이전트 기반 토큰 소비 측면에서 "토큰이 너무 비싸다"고 말하는 것은 타당한 주장이다.
2. 스토리지 병목 현상과 효율성 블랙홀
Token은 간단히 말해 대규모 언어 모델이 정보를 처리하는 기본 단위입니다. 사용자가 프롬프트를 입력하면 모델이 답변을 출력하는데, 한 글자, 한 구두점마다 Token 소모량에 포함되며, 본질적으로는 여전히 컴퓨팅 비용입니다.
과거에 컴퓨팅 성능의 총 소유 비용을 계산할 때는 에너지 효율을 측정하는 Flops/W나 평균 비용/Flops 등 다양한 지표가 사용되었으나, 올해의 '토큰 경제학'에서는 토큰/W가 점차 표준 지표로 자리 잡고 있다.
"우리의 토큰당 비용은 세계에서 가장 낮습니다. " 황 인훈은 GTC에서 이같이 말했다.
하지만 아무리 저렴하더라도, 어떤 계산 단위를 사용하든 간에 이는 투입 비용의 정량화이며, 연구개발 비용, 하드웨어 비용, 구축 비용, 에너지 소비 비용, 운영 비용 등을 포함한다. 다시 말해, 비용 절감 역시 이러한 단계들을 중심으로 이루어진다.
토큰 비용 절감을 위해 볼 때, 한 가지 나쁜 소식은 메모리 가격이 급등하고 있다는 점이다.
HBM 메모리를 예로 들면, 이는 대규모 모델의 훈련과 추론을 뒷받침하는 핵심 부품이며, 동시에 추론 데이터량의 급증은 저장 수요의 동반 상승을 초래했다. 2026년 1분기, DRAM 가격은 전분기 대비 50% 이상 상승했으며, NAND 가격은 전분기 대비 최대 150%까지 급등했습니다.
제이슨 황과 수지 펑은 이미 "HBM은 얼마나 있든 다 확보하겠다"고 선언했으며, 삼성, 마이크론과 같은 메모리 제조사들은 주요 고객사와의 전략적 장기 계약 기간이 이미 5년으로 연장되었다고 공개했습니다.
『메모리 가격 폭등 100일, 1,000위안대 스마트폰 강제로 단종』이라는 기사에서 언급했듯이, 소비자 시장에서는 1,000위안대 스마트폰 재고가 거의 소진되어 단종될 위기에 처해 있지만, 실제로는 이 문제의 영향으로 클라우드 업체들도 현재 가격 인상의 고통을 겪고 있다. 현재 업계에서 가장 낙관적인 전망은 2028년에 저장장치 가격이 하락할 것이라는 것이며, 비관적인 전망은 2030년까지 기다려야 한다는 것이다.
스토리지 가격이 하루라도 하락하지 않으면, 토큰 가격 인하에 있어 중요한 외부 레버리지가 하나 부족하게 된다.
모델 성능의 향상 또한 가격 인하의 또 다른 레버리지로 볼 수 있다." "현재 일부 8B 규모의 소형 모델은 성능 면에서 전체 규모의 대형 모델에 점점 더 근접하고 있습니다." 한 학계 연구원이 말했다.
이와 관련해, 면벽지능(Mianbi Intelligence)은 칭화대 팀과 공동으로 《Nature》에 'Densing Law' 개념을 제안하며, 대형 모델의 성능 밀도가 시간에 따라 지수적으로 증가하여 약 3.5개월마다 두 배로 늘어나고, 동등한 성능을 구현하는 데 필요한 파라미터 수는 3.5개월마다 절반으로 줄어든다고 강조했다.
한 중국산 AI 칩 업계 종사자도 모델 성능이 우수하고 규모가 작으면 비용 절감을 이끌 수 있다고 강조했다. "국내 오픈소스 대형 모델의 토큰 가격을 보면, 기본적으로 모델 규모와 양의 상관관계를 보입니다. "
다수의 중국산 컴퓨팅 성능 업계 종사자들은 MFU 향상 또한 비용 절감의 여지를 가져올 것이라고 밝혔으며, 이 외에도 아키텍처, 그래픽 메모리 등 다방면의 추론 최적화가 포함된다고 덧붙였다.
"MFU는 모델 자체와는 큰 관련이 없으며, 주로 연산자와 스케줄링 전략과 관련이 있습니다. "또 다른 중국산 컴퓨팅-메모리 통합 칩 업계 관계자는 "현재 주류 대형 모델의 추론 MFU 평균은 30% 정도이며, 최적화 후 50%를 넘을 수 있어 약 50%의 비용을 절감할 수 있을 것으로 추정된다"고 말했다.
즉, 업계는 GPU 성능을 완전히 활용하지 못하고 있다는 뜻이다. GPU 비용을 100% 지출했지만, 현재 사용 중인 컴퓨팅 성능은 3분의 1도 되지 않는다.
하지만, MFU 향상은 토큰당 비용 감소를 가져올 수 있지만, 이것이 최종 소비자에게까지 전달될지는 대형 모델 제공사의 상업적 판단에 달려 있다. 만약 가격 전쟁에 활용된다면, 이는 의심할 여지 없이 효과적인 수단이 될 것이다.
3. 또 한 번의 가격 전쟁
중국 대형 모델 시장의 가격 전쟁은 전례가 없는 일이 아니다.
2024년, 국내 업체들 사이에서 한 차례 치열한 가격 전쟁이 벌어지기도 했다. 당시 DeepSeek-V2가 출시된 시기와 맞물려, 토큰 100만 개당 입력 1위안, 출력 2위안으로, 당시 가격은 GPT-4-Turbo의 1% 수준에 불과했다.
DeepSeek의 당시 가격 인하 핵심은 추론 최적화에 있었다. MoE 스파스 아키텍처가 계산량을 대폭 줄였고, MLA 다중 잠재적 주의 메커니즘이 KV 캐시를 90% 이상 압축했다. p>
DeepSeek이 이번 가격 인하를 시작한 후, 곧바로 알리바바, 바이트댄스 등이 잇달아 가세해 가격 전쟁을 벌였고, 한때 "토큰 무료" 현상이 나타나기도 했다.
왕샤오촨은 당시 한 교류회에서 가격 전쟁에 대해 언급하며, 이는 이전의 단체 구매나 차량 호출 서비스 전쟁과는 본질적으로 다르다고 보았다. "이번 가격 전쟁은 직접적인 생산력의 공급이며, B2B 시장의 가격 전쟁이다. "
당시 왕샤오촨은 단기적으로 적자가 발생하더라도 (대기업들은) 1년 후에는 흑자를 달성할 수 있을 것이라고 강조했다.
"추론 효율이 향상된 상황에서 보조금을 통해 사용자 수가 매우 뚜렷하게 증가했다"고 지난번 가격 전쟁에 참여했던 한 대형 모델 기업 내부 관계자는 말했다. "대략 수억 위안을 썼을 것이다. "
하지만 이번 토큰 소모와 B2B 및 B2C 수요의 동시 폭발은 오히려 단체 구매나 차량 호출 서비스 전쟁과 마찬가지로 생산 관계를 바꿀 조건을 갖추고 있음에도 불구하고, 시장은 의외로 침묵을 지키고 있다.
앞서 가격 전쟁에 참여했던 대형 모델 업계 관계자는, 모델의 특정 역량이 성숙하고 안정적인 사용자 기반이 확보된 상황에서, 업체들이 굳이 다시 가격 전쟁에 뛰어들 동기가 없을 것이라고 본다.
"토큰 소모량이 2024년 당시의 규모와는 다릅니다. 이런 상황에서, 사소한 이익을 위해 가격전을 벌이면 기존 사용자의 ARR 수익도 강제로 감소하게 될 것입니다," 앞서 언급한 중국산 AI 칩 업계 종사자는 말했다. "필요 없습니다. 가격전이 가져다줄 증가분은 불확실한데, 먼저 기존 수익을 스스로 줄이는 것은 계산이 맞지 않습니다. "
Artificial Analysis의 추적 데이터에 따르면, 국산 모델의 API 단가는 이미 충분히 저렴하지만, 에이전트의 막대한 소비량에 비하면 이 정도 가격으로는 턱없이 부족하다.
앞서 언급했듯이, 메모리와 스토리지의 하드웨어 비용 상승으로 인해 국내 클라우드 업체들은 현재 가격 인상이라는 난제에 직면해 있으며, 단기간 내에 가격을 인하할 가능성은 거의 없다.
"현재는 지난 2년간의 가격 전쟁이 지속되고 있는 상황으로, 국내 업체들의 가격은 북미에 비해 뚜렷한 우위를 점하고 있다. 다만 모두가 사용자 확보가 장기전이며, 한두 번의 가격 전쟁으로 해결될 문제가 아니라는 점을 잘 알고 있습니다." 앞서 언급한 중국산 컴퓨팅-스토리지 통합 칩 업계 종사자가 덧붙였습니다.
4. 모델을 칩에 "용접"하기
토큰의 광적인 소모로 인한 비용 문제를 해결하기 위해, 일부 사용자들은 로컬 모델 배포를 시도하기 시작했습니다.
지금까지 상당수의 사용자가 Mac Mini를 기반으로 '샤오롱샤'에 로컬 모델을 구성했다. 다만 이러한 솔루션은 단기간에 토큰 사용 비용을 지속적으로 상승시킬 뿐만 아니라, 로컬 배포 자체에 진입 장벽이 존재하며, 오픈소스 모델의 성능이 반드시 사용자의 요구를 충족시킬 수 있는 것은 아니다.
초보자 사용자를 대상으로 일부 제조사는 EdgeClaw 하드웨어를 출시하려 시도하고 있으며, 하드웨어 비즈니스에 보안이라는 스토리를 더하고 있습니다. 이는 실제로 시도해 볼 만한 방향이지만, 메모리 가격 상승이라는 거시적 환경 속에서 다소 시기가 좋지 않은 감이 있습니다.
앞서 한 Mini 호스팅 창업가는 가격 인상이 업계 전반에 충격을 주고 있다고 말했습니다.
"예전에는 사용자들이 '너무 비싸다'고 생각했지만, 지금은 아예 눈길도 주지 않습니다. 그들은 메모리와 하드디스크 용량이 얼마나 큰지 전혀 신경 쓰지 않습니다."라고 해당 창업자는 말했습니다.
한편, 일부 브랜드는 전자상거래 플랫폼에서 메모리와 저장장치가 포함되지 않은 준시스템 제품을 최저 2,000위안 미만으로 출시하고 있다. 이들은 '보안 스토리'는 없지만, Edgeclaw와 같은 스타트업 프로젝트가 가장 먼저 극복해야 할 난관이다.
'샤오롱샤(小龙虾)' 에지 AI 하드웨어의 경우, 가장 큰 도전 과제는 여전히 Mac Mini다. 애플의 공급망 영향력과 매출 총이익률은 Mac Mini의 초고가성비 가격 책정을 뒷받침할 수 있어, 스타트업 팀이 여기서 경쟁하기는 어렵다.
2025년 초, DeepSeek이 폭발적인 인기를 끌었을 때의 '올인원'을 기억하시나요? 오늘날 업계에서 그들에 대한 이야기가 여전히 남아 있을까요?
올인원 같은 통합 하드웨어 솔루션 외에도, 더 저수준의 칩에서 혁신을 시도하는 스타트업 프로젝트들도 있습니다.
2월, Taalas 팀은 완전히 새로운 칩인 HC1을 출시했습니다. 이 칩은 TSMC N6 공정을 기반으로 하며, 다이 크기는 815mm², 트랜지스터 밀도는 530억 개에 불과합니다. 단일 칩으로 Llama 3.1 8B 모델을 실행할 수 있으며, 가장 핵심적인 점은 단일 사용자 TPS(Token/s) 출력이 16,960/s에 달한다는 것입니다. 이 수치는 폭발적이라 할 수 있으며, 그 핵심은 바로 HC1의 설계에 있습니다.
Taalas 팀은 이 칩에서 Mask ROM을 사용하여 Llama 3.1 8B 모델의 가중치를 실리콘 칩에 하드코딩으로 고정시켰습니다. 칩의 금속층 배선은 신경세포 연결과 같으며, 이는 모델을 칩에 "용접"한 것과 같습니다. 동시에 연산과 저장의 물리적 융합을 실현하여 HBM/DRAM 데이터 전송을 완전히 제거하고 메모리 벽의 제약을 깨뜨렸습니다.
TPS 성능은 뛰어나지만, 모델이 칩에 "용접되어" 있다는 특징에서 비롯된 단점도 있습니다. 이는 고정된 버전의 특정 모델만 실행할 수 있으며, 가중치를 변경하거나 구조를 수정할 수 없어 모델을 바꾸려면 칩을 다시 제작해야 한다는 것을 의미합니다. 이를 전용 칩 전용이라고 이해할 수도 있습니다.
5. 맺음말
모든 논의는 토큰 사용 비용을 기반으로 합니다——비싼 것은 단가가 아니라, 고부하 작업에서 토큰 사용량이 배수로 증가한다는 점입니다.

저는 한때 가재 이미지를 이용해 지정된 타임스탬프의 GIF를 생성해 본 적이 있습니다. 한 동료와 이야기를 나누던 중, 그가 이렇게 말했습니다: " "여기 있는 GIF 이미지, 우리 동료가 만들면 30초에 한 장씩, 수작업으로 만듭니다."
이 사례가 아주 전형적인 것은 아니지만, GIF 몇 장을 만드는 데 몇 위안이 든다면 분명 경제성이 없습니다.

DeepSeek API를 통해 GIF를 제작할 때의 소모 현황
이를 바꾸려면 더 저렴한 토큰 가격을 책정하거나 토큰 소비를 최소화해야 하는데, 이는 모델 수준의 최적화에 달려 있을 뿐만 아니라 추론 하드웨어 수준의 혁신에도 좌우됩니다.
하지만 어쨌든, 토큰 사용 총 비용을 낮출 수 없고, 투자 대비 효과적인 성과가 불분명한 상황에서 토큰 소모를 맹렬히 권장하거나 심지어 성과와 연계까지 강조하는 것은, 토큰 불안과 AI 불안을 조장한다고 해도 과언이 아닙니다.
더 나아가, 황 씨는 기술 업계 리더들에게 신중한 발언을 통해 대중의 인공지능 기술에 대한 비이성적인 공포를 유발하지 말 것을 촉구했다. 이는 마치 업계 전체에 "인공지능을 깎아내리며 공포를 조장하지 말고, 다들 토큰을 태워버리자"라고 말하는 것과 같다.
하지만 문제는, 과연 누가 가격 문제를 해결할 것인가 하는 점이다. 도무지 나오지 않는 DeepSeek V4일까?
2017년에 '국민은 저우훙이를 그리워한다'라는 제목의 글이 화제가 되었던 기억이 나는데, 지금 국민들은 토큰 가격 전쟁과 DeepSeek을 무척 그리워하고 있을 것이다.
적어도 '일반 투자자'들에게는 그럴 가능성이 높다.