Tác giả: Xiaojing, Công nghệ Tencent
Token, loại tiền tệ dựa trên sức mạnh tính toán, đang định hình lại tọa độ giá trị của kỷ nguyên AI, nhưng dù chúng minh bạch, giá trị thực sự của chúng vẫn là một hộp đen.Ngành công nghiệp AI vẫn đang tìm kiếm một điểm neo thực sự có thể định giá kết quả.
Vào tháng 3, Huang Renxun đã đứng trên sân khấu của GTC 2026 và mô tả một kỷ nguyên công nghiệp mới được thúc đẩy bởi token: Các nhà máy AI liên tục sản xuất token, trong khi AI tác nhân đẩy nhu cầu suy luận lên những đỉnh cao mới.
II. "Tỷ lệ truy cập bộ nhớ cache" ảnh hưởng đến giá cả
Bên cạnh hộp đen của sự biến động trong "nội dung trí tuệ", còn có một cấu trúc chi phí ẩn giấu hơn bên dưới bảng giá.
Vào tháng 2 năm 2026, một bản cập nhật cho Claude Code đã gây ra sự sụt giảm đáng kể về tỷ lệ truy cập bộ nhớ cache của các nền tảng bên thứ ba. Điều này dẫn đến những câu hỏi về việc liệu Anthropic có cố tình làm gián đoạn việc lưu trữ bộ nhớ cache của các mô hình bên thứ ba hay không.
Một kỹ sư đã sử dụng các công cụ AI để tải xuống mã nguồn của 11 phiên bản Claude Code, từ v2.1.0 đến v2.1.41, và phân tích chúng từng cái một. Kết luận là: không có logic cố ý nào trong mã để phá vỡ các mô hình của bên thứ ba.
Tuy nhiên, bắt đầu từ phiên bản v2.1.23, Claude Code đã giới thiệu cơ chế bộ nhớ đệm theo khối dành riêng cho Claude. Các tối ưu hóa như "chia sẻ toàn cầu giữa các phiên và hiệu lực 1 giờ" đã thay đổi cấu trúc của lời nhắc hệ thống. API của các mô hình bên thứ ba không thể nhận ra các dấu hiệu này và chỉ có thể dựa vào việc khớp tiền tố cơ bản. Tuy nhiên, tiền tố rất không ổn định do những thay đổi liên tục về số phiên bản, thời gian xây dựng và các biến thử nghiệm A/B. Nói một cách đơn giản hơn, Anthropic không cố ý "đầu độc" hệ thống, nhưng trong quá trình tối ưu hóa hiệu quả của mô hình riêng, họ đã vô tình làm gián đoạn các điều kiện lưu trữ mà các mô hình bên thứ ba dựa vào. Mặc dù không cố ý, sự cố này làm nổi bật một điểm quan trọng: tỷ lệ truy cập bộ nhớ đệm quyết định số tiền bạn phải trả cho token. Dữ liệu theo dõi việc sử dụng Claude Code của một nhà phát triển trong hơn một tuần cho thấy rằng, trong điều kiện bình thường, 91% token đến từ việc truy cập thành công vào bộ nhớ cache, với giá mỗi lần truy cập chỉ bằng một phần mười giá nhập liệu tiêu chuẩn. Nếu bộ nhớ cache bị vô hiệu hóa hoàn toàn, chi phí nhập liệu sẽ tăng vọt lên gấp 5,7 lần so với chi phí ban đầu. Boris Cherny, người tạo ra Claude Code, chính ông cũng thừa nhận: "Khi sử dụng cửa sổ ngữ cảnh 1 triệu, chi phí truy cập thất bại vào bộ nhớ cache rất cao. Nếu bạn rời máy tính hơn một giờ và sau đó tiếp tục phiên làm việc cũ, bạn thường sẽ không nhận được bất kỳ lần truy cập thành công nào vào bộ nhớ cache." Ngoài ra còn có những chi tiết đáng chú ý khác. Một phân tích đang lan truyền trong cộng đồng cho rằng Claude Code âm thầm giảm thời gian lưu trữ bộ nhớ cache từ 1 giờ xuống 5 phút sau khi phát hiện người dùng đã vào chế độ "Sử dụng vượt mức". Nói cách khác, nếu bạn dừng lại hơn 5 phút, quá trình xây dựng lại ngữ cảnh hoàn chỉnh sẽ được kích hoạt và chi phí sẽ được trừ trực tiếp từ số dư dư thừa. Theo các báo cáo truyền thông, vào tháng 4, một số người dùng Pro đã báo cáo rằng họ chỉ có thể đăng hai gợi ý trên Claude Code trong vòng 5 giờ. Một người dùng thẳng thắn tuyên bố: "Cho đến khi các lỗi bộ nhớ đệm này được khắc phục, bất kỳ cuộc thảo luận nào về TTL 5 phút hoặc 1 giờ đều vô nghĩa, bởi vì các con số hoàn toàn sai." Ví dụ về tỷ lệ truy cập bộ nhớ đệm cho thấy ngay cả với cùng một kết quả (giá trị), giá phải trả có thể biến động mạnh. III. Vũng lầy ngân sách đằng sau sự sụt giảm giá 300 lần Theo dữ liệu ngành, giá mỗi token đã giảm khoảng 300 lần trong ba năm, nhưng chi tiêu cho AI của các công ty thậm chí còn khó kiểm soát hơn. Lý do rất đơn giản: sự sụt giảm giá không thể theo kịp sự tăng trưởng bùng nổ về mức độ sử dụng.

Hình: Trong hơn ba năm, giá của Token LLM đã giảm khoảng 300 lần—nhưng sự sụp đổ về giá này không làm cho chi tiêu AI của doanh nghiệp trở nên dễ dự đoán hơn. (Nguồn: TokenCost)
Các ứng dụng dựa trên tác nhân cho phép AI tự động thực hiện các tác vụ phức tạp, chuỗi dài, với một giao dịch duy nhất có thể tốn kém hơn hàng chục lần so với đối thoại truyền thống.
... Nhóm sáu người tại Branch8, một công ty công nghệ thương mại điện tử ở khu vực Châu Á - Thái Bình Dương, đã chi 2.400 đô la trong tháng đầu tiên sau khi triển khai Claude Code. Sau tám tuần tối ưu hóa chuyên sâu, bao gồm thiết lập hạn mức token hàng ngày, giới hạn ngân sách cho các mô hình tư duy và chuyển các tác vụ không quan trọng từ Opus sang Sonnet, họ chỉ giảm được chi phí xuống còn 680 đô la. Quản lý chi tiêu token tự nó đã trở thành một công việc đòi hỏi kỹ năng chuyên môn. Tại hội nghị Nutanix .NEXT 2026, một CIO đã chia sẻ một trường hợp thậm chí còn cực đoan hơn: một nhà phát triển đã phải trả hóa đơn token bất ngờ lên tới 100.000 đô la và phải giải thích điều đó với một CFO không chuẩn bị trước – theo lời ông, đó là một "cuộc họp vô cùng xấu hổ". Một người tham dự khác đề cập rằng một số công ty đã bắt đầu cấp hạn mức token hàng ngày cho nhân viên, "giống như một hệ thống phân phối". Một cuộc khảo sát 372 công ty do Mavrik và Benchmarkit thực hiện đã xác nhận sự phổ biến này: 84% công ty báo cáo rằng chi phí AI đã làm giảm lợi nhuận gộp của họ nhiều hơn dự kiến và chỉ 15% có thể giữ sai sót ngân sách trong vòng 10%. Trong kinh tế học, đây là một ví dụ điển hình về "thất bại đơn vị". Khi một đơn vị đo lường không thể phản ánh chính xác chi phí (chẳng hạn như các biến số ngầm định như bộ nhớ đệm và giảm độ nhạy) hoặc giá trị, và cùng một token tạo ra kết quả khác nhau đáng kể trong các tình huống khác nhau, nó sẽ mất đi chức năng cơ bản của mình như một thước đo và không thể giúp thị trường hình thành sự đồng thuận hoặc giảm ma sát giao dịch. Từ một góc nhìn khác, sự bùng nổ trong tiêu thụ token vẫn là câu chuyện cốt lõi đối với các công ty mô hình. Tuy nhiên, sự tăng trưởng của token cũng là một câu chuyện về chi phí. Chi phí suy luận của OpenAI đạt 8,4 tỷ đô la vào năm 2025 và dự kiến sẽ tăng lên 14,1 tỷ đô la vào năm 2026, với tổng lượng tiền mặt bị đốt cháy khoảng 17 tỷ đô la. Công ty này đã ký các hợp đồng cơ sở hạ tầng đám mây trị giá hơn 500 tỷ đô la. Anthropic đã huy động được tổng cộng hơn 64 tỷ đô la tiền tài trợ. Hiện tại, cả hai công ty đều chưa có lợi nhuận. OpenAI đã huy động được 122 tỷ đô la vào tháng 4 năm 2026 với mức định giá 852 tỷ đô la, trong khi Anthropic đã huy động được 30 tỷ đô la vào tháng 2 với mức định giá 380 tỷ đô la. Các nhà đầu tư hy vọng chi phí sức mạnh tính toán trên mỗi token sẽ tiếp tục giảm, khiến việc "bán token" trở thành một hoạt động kinh doanh có lợi nhuận. Tuy nhiên, ban đầu Amazon bán các sản phẩm tiêu chuẩn hóa và dịch vụ đám mây, với mô hình kinh tế đơn vị tương đối ổn định. Các công ty AI bán token, thứ dường như được tiêu chuẩn hóa nhưng thực chất lại rất không đồng nhất, và những thành phần không đồng nhất này (nội dung thông minh, hiệu quả bộ nhớ đệm, khả năng thích ứng nhiệm vụ) chính là những biến số cốt lõi ảnh hưởng đến chi phí và giá trị. Liệu "hiệu ứng quy mô" có thành hiện thực như mong đợi hay không thậm chí còn không chắc chắn hơn so với thời đại thương mại điện tử và điện toán đám mây.
IV. Ngành công nghiệp đang tìm kiếm một "điểm neo" về giá
Quay trở lại câu hỏi cốt lõi: Ai có thể tính toán chính xác giá trị của một token?
Trong ngắn hạn, không ai có thể. Giá của một token là minh bạch, nhưng chất lượng trí tuệ mà nó trao đổi lại biến động. Chi phí thực sự đằng sau nó được tính chồng lên nhau bởi bộ nhớ đệm, thiết kế khung và hiệu quả năng lượng tính toán, và giá trị kinh doanh mà nó tạo ra thay đổi tùy thuộc vào kịch bản.
Một đơn vị đo lường mang quá nhiều khía cạnh không chắc chắn cho thấy rằng nó chưa thể trở thành tiêu chuẩn đo lường cho kỷ nguyên AI.
Token chưa trở thành một loại hàng hóa có thể được định giá theo cách chuẩn hóa. Chúng là một đơn vị kế toán tạm thời mà mọi người phải sử dụng trước khi ngành công nghiệp AI tìm ra một điểm neo giá trị.
Hiện tại, việc định giá token trong ngành về cơ bản là định giá "quyền sử dụng sức mạnh tính toán"—mua cơ hội để mô hình "suy nghĩ" thay bạn. Suy nghĩ đó sâu sắc hay tốt đến mức nào, và liệu cuối cùng nó có giải quyết được vấn đề của bạn hay không, nằm ngoài phạm vi của lời hứa về giá này. Tính hợp lý của phương pháp định giá này hiện không thể được bất kỳ bên nào đánh giá độc lập. Các nhà cung cấp không thể đo lường giá trị kinh doanh của sản phẩm đầu ra đối với người dùng, người dùng không thể hiểu được quá trình suy luận của mô hình để xác định xem mỗi token có "đáng giá với mức giá của nó" hay không, và các nhà đầu tư chỉ nhìn thấy đường cong tăng trưởng tiêu thụ chứ không thấy tỷ lệ chuyển đổi giá trị của mỗi token. Cuối cùng, điều thực sự có thể xác định giá trị của token có thể là việc tìm ra "đơn vị sản phẩm đầu ra" mà khách hàng sẵn sàng trả tiền, xác định năng suất thực sự của trí tuệ nhân tạo, và quản lý nội bộ mối quan hệ chuyển đổi giữa chi phí token và chi phí sức mạnh tính toán ở mức độ có thể dự đoán được.