Vào lúc 6:20 sáng giờ miền Đông ngày 18 tháng 11 năm 2025, nhiều người trong chúng ta đã gặp sự cố mất mạng. Sự cố này không diễn ra từ từ và không hề có dấu hiệu cảnh báo. Một giây trước, bạn đang lướt điện thoại, giao dịch hoặc trò chuyện với AI; giây tiếp theo, gần như mọi thứ trong tầm mắt đều là trang lỗi 500. Twitter đột nhiên sập khi đang tweet, ChatGPT ngừng phản hồi giữa chừng cuộc trò chuyện, và Claude hoàn toàn bị đơ. Ngay cả Downdetector—trang web bạn sử dụng để kiểm tra sự cố mất mạng khi tất cả các nền tảng đều ngừng hoạt động—cũng không thể tải, không thể thông báo cho bạn rằng "tất cả các dịch vụ đều ngừng hoạt động". 20% internet trên thế giới đã biến mất, tất cả chỉ vì Cloudflare, vốn được cho là bảo vệ internet khỏi các cuộc tấn công, đã vô tình "tấn công" chính nó. Một thay đổi cấu hình định kỳ (cập nhật quyền cơ sở dữ liệu) đã kích hoạt một lỗ hổng ẩn trong hệ thống bảo vệ bot của nó, và ngay lập tức, "người gác cổng" này đã chặn tất cả mọi người. Vào tháng 10, khi Amazon Web Services (AWS) khiến Coinbase ngừng hoạt động, người dùng Twitter trong cộng đồng tiền điện tử vẫn đang chế giễu những nhược điểm của "tập trung hóa". Nhưng điều gì đã xảy ra khi sự cố Cloudflare xảy ra vào tháng 11? Ít nhất là trong vài giờ đầu tiên, toàn bộ cộng đồng tiền điện tử đều im lặng. Suy cho cùng, khi cơ sở hạ tầng mà Twitter dựa vào bị tê liệt, bạn hoàn toàn không thể thảo luận về chủ đề "lỗ hổng cơ sở hạ tầng" trên Twitter. Nhiều dịch vụ quan trọng bị đình trệ (hệ thống nhà ga bị sập), giao diện web của một số công ty gặp trục trặc, và các trình khám phá blockchain như Arbiscan và DeFiLlama liên tục hiển thị 500 lỗi—nhưng bản thân blockchain không hề có dấu hiệu nào cho thấy sự cố đồng thuận. Khi cuộc cách mạng "phi tập trung" mà bạn vẫn rêu rao không thể hoạt động vì tệp cấu hình của một công ty quá lớn, ai mới thực sự nắm quyền kiểm soát? Dòng thời gian của sự cố: Từ "Thay đổi cấu hình" đến "Sự cố toàn mạng" UTC 11:05: Hoàn tất triển khai thay đổi kiểm soát truy cập cơ sở dữ liệu. 23 phút sau, lúc 11:28 UTC, thay đổi được áp dụng cho môi trường người dùng và các bản ghi lỗi lần đầu tiên xuất hiện trong lưu lượng HTTP của người dùng. Nói cách khác: lỗi đã xảy ra, nhưng tại thời điểm đó không ai biết vấn đề nằm ở đâu. Đến 11:48 UTC, trang trạng thái chính thức của Cloudflare cuối cùng đã thừa nhận "lỗi dịch vụ nội bộ"—ý nghĩa thực sự của câu nói này của công ty là: "Mọi thứ đang hỗn loạn, và ai cũng có thể thấy điều đó." Phản ứng dây chuyền diễn ra đột ngột và bất ngờ: thay đổi này đã làm gián đoạn lớp quản lý bot của Cloudflare; khi hệ thống tải một tệp tính năng có kích thước gấp đôi, dịch vụ đại lý của nó đã bị sập. Các hệ thống hạ nguồn sau đó sụp đổ: Workers KV (dịch vụ lưu trữ khóa-giá trị) và Access (dịch vụ kiểm soát truy cập) không thể kết nối với đại lý; tỷ lệ lỗi tổng thể tăng vọt, và khi các công cụ giám sát gặp phải sự cố tải đột biến, mức sử dụng CPU cũng vượt quá mức đỉnh điểm. Lưu lượng tiếp tục đổ vào các nút biên của Cloudflare—nhưng dịch vụ proxy không thể phản hồi. Ban đầu, Cloudflare nghĩ rằng họ đang bị tấn công, và đúng hơn là một cuộc tấn công từ chối dịch vụ phân tán (DDoS) quy mô lớn. Kỳ lạ hơn nữa, trang trạng thái chính thức, hoàn toàn được lưu trữ bên ngoài cơ sở hạ tầng của Cloudflare, cũng bị sập đồng thời, khiến các kỹ sư nghi ngờ một cuộc tấn công phối hợp nhắm vào các hệ thống cốt lõi và cơ sở hạ tầng giám sát của họ. Nhưng điều này không đúng. Họ không bị tấn công từ bên ngoài; vấn đề nằm ở chính họ. Ngay sau khi dịch vụ được khôi phục, Giám đốc Công nghệ (CTO) của Cloudflare, Dane Knecht, đã đưa ra lời xin lỗi công khai, gọi sự cố này là "hoàn toàn không thể chấp nhận được" và cho rằng sự cố ngừng hoạt động là do một thay đổi cấu hình định kỳ - chính sự thay đổi này đã gây ra sự cố sập lớp bảo vệ bot. "Chúng tôi đã làm khách hàng thất vọng, và chúng tôi đã làm người dùng internet nói chung thất vọng", Knecht viết trong tuyên bố. "Một lỗ hổng tiềm ẩn trong một trong các dịch vụ hỗ trợ bảo vệ bot của chúng tôi đã bị sập đột ngột sau một thay đổi cấu hình định kỳ, gây ra sự cố ngừng hoạt động trên diện rộng cho mạng lưới và các dịch vụ khác của chúng tôi. Đây không phải là một cuộc tấn công từ bên ngoài." Vào thời điểm đỉnh điểm của sự cố ngừng hoạt động, nền tảng Downdetector đã nhận được tới 11.183 báo cáo về sự cố ngừng hoạt động. "Sự cố mất điện kỹ thuật số" này kéo dài hơn 5 tiếng rưỡi, và dịch vụ chỉ được khôi phục hoàn toàn vào lúc 17:06 UTC; tuy nhiên, những tác động nghiêm trọng nhất đã được giảm thiểu sớm nhất là 14:30 sau khi các tệp cấu hình quản lý robot chính xác được triển khai trên toàn cầu. Tác động của sự cố: Từ Web2 đến không gian tiền điện tử, không ai thoát khỏi. Các nền tảng Web2 bị ảnh hưởng nặng nề nhất. Nền tảng X đã nhận được 9706 báo cáo sự cố mất điện. Người dùng không thấy dòng thời gian quen thuộc; thay vào đó, họ nhận được thông báo lỗi: "Rất tiếc, đã xảy ra sự cố." ChatGPT đột nhiên im lặng giữa cuộc trò chuyện, không phản hồi bất kỳ lệnh nào. Dịch vụ phát trực tuyến của Spotify bị gián đoạn, nền tảng thiết kế Canva đã ngừng hoạt động các nhà thiết kế, và Uber và DoorDash (một nền tảng giao đồ ăn) cũng gặp sự cố về chức năng. Ngay cả các game thủ cũng không tránh khỏi, khi người chơi Liên Minh Huyền Thoại bị ngắt kết nối giữa chừng. Thậm chí còn có báo cáo rằng các máy đặt hàng tự phục vụ của McDonald's hiển thị thông báo lỗi - giờ cao điểm ăn trưa trùng với sự cố cơ sở hạ tầng. Lĩnh vực tiền điện tử cũng không tránh khỏi. Các nền tảng tiền điện tử đã gặp sự cố ngừng hoạt động trên diện rộng. Giao diện người dùng của Coinbase bị sập hoàn toàn, khiến người dùng chỉ còn lại một trang đăng nhập không thể tải. Cả ứng dụng web và ứng dụng di động của Kraken đều gặp sự cố - hậu quả trực tiếp từ sự cố ngừng hoạt động toàn cầu của Cloudflare. BitMEX đã đăng một tuyên bố trên trang trạng thái của mình: "Đang điều tra nguyên nhân sự cố; hiệu suất nền tảng đã giảm, nhưng tiền của người dùng vẫn an toàn." - cùng một kịch bản, chỉ khác là trên một sàn giao dịch khác. Etherscan không tải được, và Arbiscan bị sập hoàn toàn. Bảng điều khiển phân tích dữ liệu của DeFiLlama thỉnh thoảng gặp lỗi máy chủ nội bộ. Ngay cả Ledger cũng đã đưa ra tuyên bố rằng tính khả dụng của một số dịch vụ đã bị giảm do sự cố ngừng hoạt động của Cloudflare. "Ngoại lệ" duy nhất: chính giao thức blockchain. Tuy nhiên, các hệ thống sau không bị ảnh hưởng: Được biết, các sàn giao dịch lớn như Binance, OKX, Bybit, Crypto.com và KuCoin không gặp sự cố giao diện người dùng, và các giao dịch trên chuỗi vẫn tiếp tục bình thường - trong khi bản thân blockchain vẫn hoạt động hoàn toàn, không có dấu hiệu gián đoạn đồng thuận. Giao thức blockchain luôn hoạt động độc lập—vấn đề không nằm ở chính chuỗi mà nằm ở cơ sở hạ tầng Web2 mà mọi người sử dụng để truy cập nó. Nếu blockchain vẫn đang chạy nhưng không ai có thể truy cập, liệu tiền điện tử có thực sự vẫn "trực tuyến" không? Phân tích chuyên sâu: Tại sao một truy vấn cơ sở dữ liệu lại làm tê liệt 20% mạng? Cloudflare không lưu trữ trang web, cũng không cung cấp các dịch vụ máy chủ đám mây như AWS. Vai trò của nó là một "trung gian"—giữa người dùng và internet, phục vụ 24 triệu trang web và xử lý 20% lưu lượng truy cập internet toàn cầu thông qua các nút ở 120 quốc gia và 330 thành phố. Ngôn từ tiếp thị của Cloudflare tự định vị mình là "lá chắn và bộ tăng tốc internet", cung cấp khả năng bảo vệ DDoS 24/7, bảo vệ bot, định tuyến lưu lượng, Tường lửa ứng dụng web (WAF) toàn cầu, chấm dứt TLS, điện toán biên dựa trên worker và các dịch vụ DNS—tất cả đều chạy trên một mạng "bảo mật-hiệu suất" thống nhất. Thực tế là Cloudflare chiếm 82% thị phần về bảo vệ DDoS, với tổng băng thông node biên là 449 terabit/giây (Tbps) và được kết nối với nhiều Nhà cung cấp dịch vụ Internet (ISP) và nhà cung cấp dịch vụ đám mây chính thống trên toàn thế giới. Vấn đề cốt lõi là khi trung gian gặp sự cố, tất cả các dịch vụ đằng sau nó đồng thời trở nên "không thể truy cập". Giám đốc Công nghệ (CTO) của Cloudflare, Dane Knecht, đã phát biểu thẳng thắn trên nền tảng X: "Hãy để tôi nói thẳng: Sáng nay, do sự cố với mạng Cloudflare, một lượng lớn lưu lượng truy cập phụ thuộc vào chúng tôi đã bị ảnh hưởng. Chúng tôi đã làm khách hàng thất vọng và chúng tôi đã làm người dùng internet nói chung thất vọng." Tuyên bố của Giám đốc điều hành Matthew Prince thậm chí còn trực tiếp hơn: "Hôm nay là sự cố ngừng hoạt động nghiêm trọng nhất của Cloudflare kể từ năm 2019… Trong sáu năm qua, chúng tôi chưa bao giờ gặp phải sự cố ngừng hoạt động nào khiến một phần đáng kể lưu lượng truy cập cốt lõi của chúng tôi không thể đi qua mạng của chúng tôi." Nguyên nhân gốc rễ của sự cố Tất cả bắt đầu từ một bản cập nhật quyền cơ sở dữ liệu định kỳ. Vào lúc 11:05 UTC, Cloudflare đã thực hiện một thay đổi đối với cụm cơ sở dữ liệu ClickHouse để cải thiện bảo mật và độ tin cậy—cho phép người dùng trước đây có "quyền truy cập ngầm" được "rõ ràng" xem siêu dữ liệu bảng. Vấn đề nằm ở đâu? Truy vấn cơ sở dữ liệu tạo ra tệp cấu hình Dịch vụ Bảo vệ Bot Cloudflare đã không lọc được "tên cơ sở dữ liệu". Truy vấn chịu trách nhiệm quản lý lưu lượng đe dọa bắt đầu trả về các mục trùng lặp—một từ cơ sở dữ liệu mặc định và một từ cơ sở dữ liệu lưu trữ r0 cơ sở. Điều này khiến kích thước tệp tính năng tăng gấp đôi, từ khoảng 60 tính năng lên hơn 200 tính năng. Trước đó, Cloudflare đã đặt giới hạn mã hóa cứng là 200 tính năng cho việc phân bổ trước bộ nhớ, tin rằng con số này "cao hơn nhiều so với mức sử dụng thực tế hiện tại của chúng tôi là khoảng 60 tính năng". Đây là tư duy kỹ thuật điển hình: đặt ra một biên độ an toàn mà người ta coi là "đủ lỏng lẻo" cho đến khi một sự kiện bất ngờ xảy ra. Một tệp quá lớn đã kích hoạt giới hạn này, khiến mã Rust bị sập với thông báo lỗi: "thread fl2_worker_thread panicked: called Result::unwrap() on an Err value". Hệ thống bảo vệ bot là thành phần cốt lõi của lớp điều khiển Cloudflare. Khi hệ thống này gặp sự cố, hệ thống kiểm tra tình trạng được sử dụng để thông báo cho bộ cân bằng tải về máy chủ nào đang chạy cũng bị lỗi. Tệ hơn nữa, tệp cấu hình này được tạo lại sau mỗi 5 phút. Dữ liệu lỗi chỉ được tạo ra khi chạy truy vấn trên một nút cụm đã cập nhật. Do đó, cứ sau 5 phút, mạng Cloudflare lại chuyển đổi giữa trạng thái "bình thường" và "lỗi"—đôi khi tải đúng tệp, đôi khi tải sai tệp. Việc chuyển đổi liên tục này khiến các kỹ sư tin rằng họ đang bị tấn công DDoS—lỗi nội bộ thường không gây ra chu kỳ "khôi phục và sập". Cuối cùng, tất cả các nút ClickHouse đều được cập nhật và mỗi tệp được tạo ra đều không chính xác. "Hành trình nhảy lặp lại" đã dừng lại, thay vào đó là "lỗi hoàn toàn và ổn định". Không có tín hiệu hệ thống rõ ràng, hệ thống mặc định ở "chế độ bảo thủ", đánh giá hầu hết các máy chủ là "không khỏe mạnh". Lưu lượng truy cập tiếp tục đổ vào, nhưng không thể định tuyến đúng cách. Các nút biên của Cloudflare có thể nhận yêu cầu của người dùng—nhưng không thể xử lý chúng. "Đây không phải là một cuộc tấn công từ bên ngoài", Knecht liên tục nhấn mạnh. "Không hề có ý đồ xấu, và cũng không phải là một cuộc tấn công DDoS. Nó chỉ đơn giản là một truy vấn cơ sở dữ liệu bỏ sót điều kiện lọc, trùng hợp với việc cập nhật quyền, cuối cùng dẫn đến lỗi." Cloudflare đã từng hứa hẹn "khả năng truy cập 99,99%"—nhưng lần này, lời hứa đó đã không được thực hiện. Quả thực, đúng như vậy. Lịch sử lặp lại: 4 lần ngừng hoạt động lớn trong 18 tháng—tại sao tình thế tiến thoái lưỡng nan tập trung lại khó giải quyết đến vậy? Ngày 20 tháng 10 năm 2025—sự cố ngừng hoạt động của AWS kéo dài 15 giờ. Một lỗi phân giải DNS trong cơ sở dữ liệu DynamoDB ở Khu vực 1 miền Đông Hoa Kỳ đã khiến Coinbase bị đóng băng, Robinhood bị chậm và dịch vụ Infura bị gián đoạn (điều này cũng ảnh hưởng đến MetaMask). Các mạng lưới blockchain Base, Polygon, Optimism, Arbitrum, Linea và Scroll đều đã ngừng hoạt động. Mặc dù tiền của người dùng vẫn an toàn trên chuỗi, nhưng nhiều người đã thấy số dư tài khoản của họ là "0". Ngày 29 tháng 10 năm 2025 – Sự cố đồng bộ hóa cấu hình trong Azure Front Door đã khiến bộ ứng dụng văn phòng Microsoft 365 ngừng hoạt động, dịch vụ Xbox Live bị tê liệt và các dịch vụ doanh nghiệp bị gián đoạn. Tháng 7 năm 2024 – Một lỗ hổng bảo mật được tìm thấy trong gói cập nhật Windows từ CrowdStrike (một công ty bảo mật). Sự cố này đã gây ra việc hủy chuyến bay, trì hoãn quy trình y tế tại bệnh viện và đóng băng các dịch vụ tài chính, với việc khôi phục hoàn toàn mất vài ngày. Tháng 6 năm 2022 – Sự cố ngừng hoạt động lớn cuối cùng của Cloudflare. Nhiều sàn giao dịch tiền điện tử đã buộc phải tạm dừng dịch vụ – cùng một mô hình, chỉ một năm sau đó. Tháng 7 năm 2019 – Một sự cố ngừng hoạt động thậm chí còn sớm hơn đối với Cloudflare. Coinbase ngừng hoạt động, CoinMarketCap không thể truy cập – đây là "dấu hiệu cảnh báo" đầu tiên mà mọi người đều bỏ qua. Chỉ trong vòng 18 tháng, bốn sự cố cơ sở hạ tầng lớn đã xảy ra. Bốn sự cố này truyền tải cùng một bài học: cơ sở hạ tầng tập trung chắc chắn sẽ dẫn đến "sự cố tập trung hóa". Bốn sự cố có thể đã đẩy nhanh quá trình chuyển dịch sang phi tập trung của ngành công nghiệp tiền điện tử – nhưng nó vẫn phụ thuộc vào cơ sở hạ tầng do ba công ty cung cấp. Phải mất bao nhiêu cảnh báo nữa thì ngành công nghiệp mới chuyển từ "giả định rằng có thể xảy ra thất bại" sang "xây dựng hệ thống dựa trên giả định rằng thất bại là điều không thể tránh khỏi"? "Lời nói dối" của phi tập trung: Giao thức phi tập trung không đồng nghĩa với quyền truy cập phi tập trung
Họ đã từng vẽ cho bạn bức tranh này:
"Tài chính phi tập trung, tiền tệ chống kiểm duyệt, hệ thống không cần tin cậy, không có điểm lỗi duy nhất, 'Nếu không phải khóa riêng của bạn, thì đó không phải là đồng tiền của bạn,' mã là luật."
Thực tế vào ngày 18 tháng 11 đã giáng một đòn nặng nề: sự cố ngừng hoạt động của Cloudflare vào một buổi sáng đã khiến một số dịch vụ trong ngành tiền điện tử ngừng hoạt động trong vài giờ.
Thực tế vào ngày 18 tháng 11 đã giáng một đòn nặng nề: sự cố ngừng hoạt động của Cloudflare vào một buổi sáng đã khiến một số dịch vụ trong ngành tiền điện tử ngừng hoạt động trong vài giờ.
Thực tế vào ngày 18 tháng 11 đã giáng một đòn nặng nề: sự cố ngừng hoạt động của Cloudflare vào một buổi sáng đã khiến một số dịch vụ trong ngành tiền điện tử ngừng hoạt động sẽ ngừng hoạt động trong vài giờ.
Sự thật kỹ thuật: Không có giao thức blockchain nào được báo cáo là gặp sự cố. Mạng Bitcoin và mạng Ethereum đang hoạt động bình thường—bản thân các chuỗi không phải là vấn đề. Thực tế đang diễn ra: Giao diện sàn giao dịch bị sập, trình duyệt blockchain bị tê liệt, giao diện ví không hiệu quả, nền tảng phân tích dữ liệu ngừng hoạt động và giao diện giao dịch hiển thị 500 lỗi. Người dùng không thể truy cập blockchain phi tập trung mà họ nên "sở hữu". Bản thân giao thức hoạt động bình thường—với điều kiện bạn có thể "truy cập" vào nó. Những tuyên bố sau đây có thể nghe có vẻ khắc nghiệt với nhiều người… David Schwed, Giám đốc Điều hành (COO) của SovereignAI, thẳng thắn chỉ ra: "Sự cố ngừng hoạt động của Cloudflare hôm nay và sự cố ngừng hoạt động của AWS vài tuần trước cho thấy rõ ràng rằng chúng ta không thể chỉ thuê ngoài 'khả năng phục hồi lỗi' của cơ sở hạ tầng cho một nhà cung cấp duy nhất. Nếu tổ chức của bạn cần hoạt động 24/7, bạn phải xây dựng cơ sở hạ tầng của mình theo tiêu chuẩn 'hỏng hóc là không thể tránh khỏi'. Nếu kế hoạch duy trì hoạt động kinh doanh của bạn chỉ bao gồm việc "chờ nhà cung cấp khôi phục dịch vụ", thì đó hoàn toàn là sự cẩu thả. "Hoàn toàn là sự cẩu thả"—không phải tai nạn, không phải sơ suất, mà là sơ suất cố ý. Đánh giá của Jameson Lopp hoàn toàn chính xác: "Chúng ta có một công nghệ phi tập trung tuyệt vời, nhưng bằng cách tập trung hầu hết dịch vụ vào tay một vài nhà cung cấp, chúng ta khiến nó trở nên cực kỳ dễ bị tấn công." Những lời của Ben Schiller trong sự cố ngừng hoạt động gần đây nhất của AWS vẫn còn đúng cho đến ngày nay: "Nếu blockchain của bạn có thể ngừng hoạt động do sự cố ngừng hoạt động của AWS, thì nó chưa đủ phi tập trung." Thay thế "AWS" bằng "Cloudflare", và vấn đề vẫn y nguyên—ngành công nghiệp này chưa bao giờ rút ra được bài học. Tại sao lại chọn "sự tiện lợi" thay vì "nguyên tắc"? Xây dựng cơ sở hạ tầng của riêng bạn có nghĩa là: mua phần cứng đắt tiền, đảm bảo nguồn điện ổn định, duy trì băng thông chuyên dụng, thuê chuyên gia bảo mật, đạt được sự dự phòng về mặt địa lý, xây dựng hệ thống phục hồi sau thảm họa và giám sát 24/7—mỗi việc đều đòi hỏi một khoản đầu tư nguồn lực đáng kể. Tuy nhiên, sử dụng Cloudflare chỉ cần: nhấp vào nút, nhập thông tin thẻ tín dụng và triển khai trong vòng vài phút. Việc bảo vệ chống DDoS do bên khác xử lý, tính khả dụng do bên khác đảm bảo, và việc mở rộng quy mô là mối quan tâm của bên khác. Các startup ưu tiên "IPO nhanh chóng", và các công ty đầu tư mạo hiểm yêu cầu "hiệu quả vốn" - mọi người đều chọn "sự tiện lợi" thay vì "khả năng chịu lỗi". Cho đến lúc "sự tiện lợi" không còn là sự tiện lợi nữa. Sự cố ngừng hoạt động của AWS hồi tháng 10 đã khơi mào cho những cuộc thảo luận bất tận trên Twitter về "phi tập trung". Còn sự cố ngừng hoạt động của Cloudflare hồi tháng 11? Hoàn toàn im lặng. Không phải vì "sự im lặng triết lý", cũng không phải "sự im lặng sau khi suy nghĩ sâu sắc". Mà là vì: mọi người muốn phàn nàn, nhưng nhận ra rằng nền tảng yêu thích của họ để phàn nàn (Twitter) cũng bị tê liệt do lỗi cơ sở hạ tầng. Khi "điểm lỗi duy nhất" tình cờ lại là chính nền tảng mà bạn dùng để chế giễu nó, bạn chẳng có gì để phàn nàn. Khi lớp truy cập phụ thuộc vào cơ sở hạ tầng của ba công ty, trong đó hai công ty gặp sự cố ngừng hoạt động trong cùng một tháng, thì "phi tập trung ở cấp độ giao thức" là vô nghĩa. Nếu người dùng không thể truy cập blockchain, vậy thì chúng ta đang "phi tập trung" chính xác là gì? Thế tiến thoái lưỡng nan của độc quyền: Ba công ty kiểm soát 60% thị trường đám mây, ngành công nghiệp tiền điện tử đang hướng đến đâu? AWS kiểm soát khoảng 30% thị trường cơ sở hạ tầng đám mây toàn cầu, Microsoft Azure 20% và Google Cloud 13%. Ba công ty này kiểm soát hơn 60% cơ sở hạ tầng đám mây, nền tảng của internet hiện đại. Ngành công nghiệp tiền điện tử, vốn được cho là một giải pháp "tập trung", giờ đây lại phụ thuộc vào cơ sở hạ tầng tập trung nhất thế giới. "Danh sách phụ thuộc tập trung" của ngành công nghiệp tiền điện tử là Coinbase – dựa trên AWS; Binance, BitMEX, Huobi và Crypto.com – đều dựa trên AWS; Kraken, mặc dù xây dựng cơ sở hạ tầng trên AWS, vẫn bị ảnh hưởng bởi sự cố CDN (Mạng phân phối nội dung) của Cloudflare. Nhiều sàn giao dịch tự nhận là "phi tập trung" thực sự hoạt động trên cơ sở hạ tầng tập trung. Có một điểm khác biệt quan trọng khác giữa sự cố ngừng hoạt động vào tháng 10 và tháng 11: Khi AWS gặp sự cố, Nền tảng X (trước đây là Twitter) vẫn tiếp tục hoạt động, cho phép người dùng Twitter tiền điện tử chế giễu "sự mong manh của cơ sở hạ tầng". Tuy nhiên, khi Cloudflare gặp sự cố, Nền tảng X cũng ngừng hoạt động. Khi nền tảng bạn dùng để "giả mạo một điểm lỗi duy nhất" lại chính là một phần của "điểm lỗi duy nhất" đó, bạn không thể cười nổi. Sự trớ trêu này đã khiến cuộc thảo luận trong ngành bị đình trệ ngay từ đầu. Ba sự cố ngừng hoạt động lớn trong vòng 30 ngày đã thu hút sự chú ý đáng kể từ các cơ quan quản lý. Những vấn đề cốt lõi mà các cơ quan quản lý cần giải quyết là: Liệu các công ty này có được coi là "quan trọng về mặt hệ thống" không? Các dịch vụ xương sống internet có nên chịu sự "điều chỉnh theo kiểu tiện ích" không? Rủi ro nào phát sinh khi thuộc tính "quá lớn để thất bại" được kết hợp với cơ sở hạ tầng công nghệ? Nếu Cloudflare kiểm soát 20% lưu lượng internet toàn cầu, liệu điều này có cấu thành độc quyền không? Corinne Cath-Speth của Article 19 đã thẳng thắn tuyên bố trong sự cố ngừng hoạt động gần đây nhất của AWS: "Khi một nhà cung cấp ngừng hoạt động, các dịch vụ quan trọng cũng ngừng hoạt động—phương tiện truyền thông không thể truy cập, các ứng dụng truyền thông an toàn như Signal ngừng hoạt động và cơ sở hạ tầng hỗ trợ xã hội số sụp đổ. Chúng ta cần khẩn trương đa dạng hóa điện toán đám mây." Nói cách khác, các chính phủ ngày càng nhận ra rằng chỉ cần một vài công ty là đủ để khiến internet ngừng hoạt động. Trên thực tế, các giải pháp thay thế phi tập trung đã tồn tại, nhưng chưa ai sẵn sàng áp dụng. Ví dụ như Arweave cho lưu trữ, IPFS cho truyền tệp phân tán, Akash cho điện toán và Filecoin cho lưu trữ phi tập trung. Tại sao các giải pháp phi tập trung lại "được ca ngợi nhưng không được áp dụng"? Hiệu suất kém hơn so với các giải pháp tập trung, và người dùng có thể nhận thấy ngay các vấn đề về độ trễ. Tỷ lệ áp dụng cực kỳ thấp; so với trải nghiệm tiện lợi khi "nhấp vào 'Triển khai lên AWS'", quy trình vận hành của người dùng đối với các giải pháp phi tập trung lại cồng kềnh và phức tạp. Chi phí thường cao hơn so với việc thuê cơ sở hạ tầng từ "Bộ ba lớn" (AWS, Azure và Google Cloud). Thực tế là: Việc xây dựng cơ sở hạ tầng thực sự phi tập trung là vô cùng khó khăn, vượt xa những gì người ta tưởng tượng. Hầu hết các dự án chỉ nói suông về "phi tập trung", nhưng hiếm khi thực sự triển khai nó. Việc lựa chọn một giải pháp tập trung luôn được coi là lựa chọn đơn giản và rẻ hơn—cho đến khi bốn lần thất bại xảy ra trong vòng 18 tháng, mọi người mới nhận ra chi phí khổng lồ ẩn sau "đơn giản và rẻ". Trong một bài viết gần đây trên CoinDesk, Tiến sĩ Max Li, CEO của OORT, đã trực tiếp chỉ trích sự đạo đức giả của ngành: "Đối với một ngành công nghiệp tự hào về 'phi tập trung' và liên tục quảng bá những lợi thế của nó, nhưng lại phụ thuộc rất nhiều vào các nền tảng đám mây tập trung yếu kém về cơ sở hạ tầng, thì điều này vốn dĩ là đạo đức giả." Giải pháp mà ông đề xuất là một chiến lược đám mây lai, cho phép các sàn giao dịch phân phối các hệ thống quan trọng của họ trên các mạng lưới phi tập trung. Mặc dù các nền tảng đám mây tập trung vẫn không thể thay thế về hiệu suất và quy mô - khi liên quan đến hàng tỷ đô la và mỗi giây giao dịch đều quan trọng - nhưng khả năng phục hồi của chúng lại kém xa các giải pháp phân tán. Chỉ khi cái giá của "sự tiện lợi" đủ lớn để thay đổi các mô hình hành vi của ngành thì "ý tưởng" mới thắng thế "sự tiện lợi". Rõ ràng, sự cố ngừng hoạt động ngày 18 tháng 11 chưa đủ nghiêm trọng, cũng như sự cố ngừng hoạt động của AWS ngày 20 tháng 10, hay sự cố ngừng hoạt động của CrowdStrike vào tháng 7 năm 2024. Đến lúc nào thì "cơ sở hạ tầng phi tập trung" mới chuyển từ "chủ đề bàn tán" thành "yêu cầu bắt buộc"? Vào ngày 18 tháng 11, ngành công nghiệp tiền điện tử không hề "thất bại"—bản thân blockchain đã hoạt động hoàn hảo. "Thất bại" thực sự nằm ở sự tự lừa dối tập thể của ngành: tin rằng "các ứng dụng không thể ngăn cản" có thể được xây dựng trên "cơ sở hạ tầng lỗi"; tin rằng "khả năng chống kiểm duyệt" vẫn có ý nghĩa thực tế khi ba công ty kiểm soát "kênh truy cập"; tin rằng "phi tập trung" thực sự là phi tập trung khi chỉ một tệp cấu hình Cloudflare có thể xác định liệu hàng triệu người có thể giao dịch hay không. Nếu blockchain vẫn đang tạo khối, nhưng không ai có thể gửi giao dịch, thì liệu nó có thực sự "trực tuyến" không? Ngành công nghiệp không có kế hoạch dự phòng. Khi xảy ra sự cố, tất cả những gì họ có thể làm là chờ Cloudflare khắc phục, AWS khôi phục dịch vụ và Azure triển khai các bản vá. Đây chính là "chiến lược phục hồi sau thảm họa" của ngành hiện nay. Hãy tưởng tượng điều gì sẽ xảy ra nếu danh tính kỹ thuật số được tích hợp sâu với blockchain? Bộ Tài chính Hoa Kỳ đang thúc đẩy việc nhúng thông tin xác thực danh tính vào hợp đồng thông minh, yêu cầu mọi tương tác DeFi phải trải qua xác minh KYC. Khi sự cố cơ sở hạ tầng tiếp theo xảy ra, người dùng sẽ mất nhiều hơn là chỉ các đặc quyền giao dịch—họ cũng sẽ mất khả năng "chứng minh danh tính" trong hệ thống tài chính. Thông thường, sự cố ngừng hoạt động kéo dài 3 giờ sẽ trở thành "giao diện xác minh nhân sự đang dỡ tải" kéo dài 3 giờ—đơn giản vì dịch vụ xác minh đang chạy trên cơ sở hạ tầng bị tê liệt. "Rào cản an toàn" mà các cơ quan quản lý muốn xây dựng dựa trên tiền đề rằng "cơ sở hạ tầng luôn trực tuyến". Nhưng sự cố ngừng hoạt động vào ngày 18 tháng 11 đã chứng minh rằng tiền đề này hoàn toàn không đúng. Khi vấn đề "giám sát quá mức" trở nên rõ ràng, các chuyên gia công nghệ chuyển sang "bảo vệ quyền riêng tư". Có lẽ bây giờ là lúc nên đưa "khả năng phục hồi cơ sở hạ tầng" vào danh mục này. Nó không nên là một "phần thưởng không cần thiết", mà là một "yêu cầu cơ bản hỗ trợ mọi thứ"—nếu không có nó, tất cả các chức năng khác đều vô nghĩa. Sự cố ngừng hoạt động tiếp theo đang âm ỉ—nó có thể đến từ AWS, Azure, Google Cloud, hoặc thậm chí là một lỗi thứ cấp của Cloudflare. Có thể là tháng sau, hoặc cũng có thể là tuần sau. Cơ sở hạ tầng vẫn vậy, các phụ thuộc vẫn vậy, và các ưu đãi của ngành vẫn vậy. Việc lựa chọn giải pháp tập trung sẽ vẫn là lựa chọn rẻ hơn, nhanh hơn và tiện lợi hơn—cho đến khi nó không còn là lựa chọn nữa. Khi lần thay đổi cấu hình định kỳ tiếp theo của Cloudflare kích hoạt một lỗ hổng bảo mật tiềm ẩn trong một dịch vụ quan trọng khác, chúng ta sẽ lại chứng kiến kịch bản quen thuộc: một loạt 500 trang lỗi, giao dịch bị dừng hoàn toàn, blockchain hoạt động bình thường nhưng không ai có thể truy cập, không thể tweet về "phi tập trung" chỉ để thấy Twitter bị tê liệt, và lời hứa "làm tốt hơn vào lần sau" của công ty không bao giờ được thực hiện. Sẽ không có gì thay đổi, bởi vì "sự tiện lợi" sẽ luôn chiến thắng "phòng ngừa rủi ro"—cho đến khi cái giá của "sự tiện lợi" trở nên quá lớn để bỏ qua. Lần này, "người gác cổng" đã ngừng hoạt động trong ba tiếng rưỡi. Lần sau, sự cố ngừng hoạt động có thể kéo dài hơn; lần sau, nó có thể xảy ra trong một cuộc khủng hoảng thị trường, nơi "từng giây đều quý giá"; lần sau, hệ thống xác minh danh tính cũng có thể bị kẹt giữa làn đạn. Khi cơ sở hạ tầng mà bạn dựa vào để sinh tồn sụp đổ vào thời điểm dễ bị tổn thương nhất, thì lỗi là tại ai?