거짓 경보: 코인텔레그래프의 실수로 비트코인 가격이 3만 달러까지 치솟은 아이셰어스 비트코인 현물 ETF
코인텔레그래프는 SEC가 아이셰어즈의 비트코인(BTC) 현물 ETF를 승인했다고 트위터에 올렸으나, 블랙록에 의해 거짓으로 확인되었습니다.
Aaron
루카스 체얀, 아르준 예나만드라, 출처: 갤럭시 리서치, 골든 파이낸스 편찬
작년에 갤럭시 리서치는 암호화폐와 인공지능의 교차점에 관한 첫 번째 기사를 발표했습니다. 이 기사에서는 암호화폐의 신뢰와 허가가 필요 없는 인프라가 어떻게 AI 혁신의 기반이 될 수 있는지 살펴보았습니다. 여기에는 그래픽 프로세서(GPU) 부족에 대응해 등장한 처리 능력(또는 컴퓨팅)을 위한 탈중앙화 시장의 출현, 검증 가능한 온체인 추론을 위한 영지식 머신러닝(zkML)의 초기 사용, 복잡한 상호작용을 단순화하고 암호화폐를 기본 교환 매체로 사용할 수 있는 자율 AI 에이전트의 잠재력 등이 포함됩니다.
당시에는 이러한 이니셔티브 중 상당수가 아직 초기 단계에 있었으며, 중앙화된 솔루션보다 실질적인 이점을 암시하는 몇 가지 매력적인 개념 증명만 있었을 뿐 아직 AI 환경을 재편할 만큼 확장되지 않은 상태였습니다. 그러나 그 이후 1년 동안 탈중앙화 AI는 구현을 향한 의미 있는 진전을 이루었습니다. 이러한 모멘텀을 포착하고 가장 유망한 진전을 발견하기 위해 갤럭시 리서치는 내년에 암호화폐 + AI 분야의 특정 분야를 심층적으로 다루는 일련의 기사를 발표할 예정입니다.
탈중앙화 트레이닝에 처음 게재된 이 글에서는 글로벌 규모의 기본 모델에 대한 허가 없는 트레이닝을 가능하게 하기 위해 노력하는 프로젝트를 집중 조명합니다. 이러한 프로젝트의 동기는 두 가지입니다. 실용적인 관점에서 보면, 이들은 전 세계에서 사용하지 않는 방대한 양의 GPU를 모델 훈련에 사용할 수 있으며, 이를 통해 전 세계 AI 엔지니어에게 경제적으로 부담 없는 훈련 프로세스를 제공하고 오픈 소스 AI 개발을 현실화할 수 있다는 점을 인식하고 있습니다. 개념적인 관점에서 볼 때, 이 팀들은 우리 시대의 가장 중요한 기술 혁명 중 하나에 대한 주요 중앙집중식 AI 연구소의 엄격한 통제와 개방형 대안을 만들어야 한다는 시급한 필요성에 동기를 부여받았습니다.
더 넓게 보면, 암호화폐 공간에서 탈중앙화된 훈련과 기본 모델의 후속 훈련을 가능하게 하는 것은 라이선스가 필요 없고 모든 계층에서 접근할 수 있는 완전한 온체인 AI 스택을 구축하는 핵심 단계입니다. GPU 마켓플레이스는 모델에 접근하고 훈련과 추론을 제공합니다. 추론. zkML 공급자는 모델 출력의 유효성을 검사하고 개인 정보를 보호하는 데 사용할 수 있습니다. aI 에이전트는 모델, 데이터 소스 및 프로토콜을 상위 애플리케이션에 결합하는 구성 가능한 빌딩 블록으로 사용할 수 있습니다.
이 보고서에서는 탈중앙화 AI 프로토콜의 기본 아키텍처, 해결하고자 하는 기술적 문제, 탈중앙화 훈련의 미래에 대해 살펴봅니다. 암호화폐와 AI의 기본 전제는 1년 전과 변함이 없습니다. 암호화폐는 AI를 위한 무허가, 무신뢰, 구성 가능한 가치 전송 결제 계층을 제공합니다. 이제 과제는 탈중앙화된 접근 방식이 중앙화된 접근 방식에 비해 실질적인 이점을 제공할 수 있다는 것을 증명하는 것입니다.
분산형 학습의 최신 발전 사항을 살펴보기 전에 대규모 언어 모델(LLM)과 그 기본 아키텍처에 대한 기본적인 이해가 필요합니다. 이는 독자가 이러한 프로젝트의 작동 방식과 해결하고자 하는 주요 문제를 이해하는 데 도움이 될 것입니다.
>ChatGPT와 같은 LLM(대규모 언어 모델)은 트랜스포머라는 아키텍처에 의해 구동됩니다. 2017년 "주의만 있으면 됩니다"라는 제목의 Google 백서에서 처음 제안된 트랜스포머는 AI 개발에서 가장 중요한 혁신 중 하나입니다. 간단히 말해, Transformer는 데이터(토큰이라고 함)를 추출하고 다양한 메커니즘을 적용하여 토큰 간의 관계를 학습합니다.
토큰 간의 관계는 가중치를 사용하여 모델링됩니다. 가중치는 모델을 구성하는 수백만에서 수조 개의 손잡이로 생각할 수 있으며, 시퀀스의 다음 단어를 일관되게 예측할 수 있을 때까지 지속적으로 조정됩니다. 학습이 완료되면 모델은 기본적으로 인간 언어의 패턴과 의미를 파악하게 됩니다.
트랜스포머 훈련의 주요 구성 요소는 다음과 같습니다.
전진 전달:에서 트레이닝 프로세스의 첫 번째 단계에서는 더 큰 데이터 세트에서 토큰 배치를 트랜스포머에 공급하고, 이러한 입력을 바탕으로 모델은 다음 토큰이 무엇인지 예측합니다. 트레이닝을 시작할 때 모델의 가중치는 무작위로 지정됩니다.
손실 계산: 그런 다음 순방향 전파 예측을 사용하여 손실 점수를 계산하고, 이 예측이 모델에 공급된 원래 데이터 배치의 실제 토큰과 얼마나 떨어져 있는지 측정합니다. 다시 말해, 순방향 전파 중에 모델이 생성한 예측이 모델 학습에 사용된 더 큰 데이터 세트의 실제 마커와 어떻게 비교되느냐는 질문입니다. 학습하는 동안 목표는 이 손실 점수를 줄여 모델의 정확도를 개선하는 것입니다.
역전파: 그런 다음 손실 점수를 사용하여 각 가중치에 대한 기울기를 계산합니다. 이 기울기는 다음 순방향 전파 전에 손실을 줄이기 위해 가중치를 조정하는 방법을 모델에 알려줍니다.
Optimizer update: Optimizer 알고리즘은 이러한 기울기를 읽고 손실을 줄이기 위해 각 가중치를 조정합니다.
반복: 모든 데이터가 소비되고 모델이 컨버전스에 도달하기 시작할 때까지, 즉 추가 최적화로 더 이상 손실 감소 또는 성능 향상이 크게 나타나지 않을 때까지 반복합니다.
모델을 훈련하는 전체 과정은 사전 훈련과 사후 훈련의 두 가지 단계로 구성됩니다. . 위의 단계는 사전 학습 프로세스의 핵심 구성 요소입니다. 이 단계가 완료되면 흔히 기본 모델이라고 하는 사전 훈련된 기본 모델이 생성됩니다.
그러나 일반적으로 사전 학습 후에는 모델을 더욱 개선해야 하는데, 이를 사후 학습이라고 합니다. 사후 학습은 정확도를 개선하거나 번역이나 의료 진단과 같은 특정 사용 사례에 맞게 사용자 지정하는 등 다양한 방법으로 기본 모델을 더욱 개선하는 데 사용됩니다.
사후 학습은 대규모 언어 모델(LLM)을 오늘날의 강력한 도구로 만드는 데 있어 핵심적인 단계입니다. 사후 학습에는 여러 가지 접근 방식이 있습니다. 가장 많이 사용되는 두 가지 방법은 다음과 같습니다.
감독형 미세 조정(SFT): SFT는 위에서 설명한 사전 학습 과정과 매우 유사합니다. 가장 큰 차이점은 기본 모델이 보다 신중하게 선별된 데이터 세트나 힌트 및 답변을 기반으로 학습되므로 특정 지침을 따르거나 특정 도메인에 집중하는 방법을 배울 수 있다는 것입니다.
강화 학습(RL): RL은 새로운 데이터를 공급하여 모델을 개선하는 대신, 모델의 출력에 대해 점수를 매기고 모델이 그 보상을 최대화하도록 가중치를 업데이트하도록 하는 방식으로 작동합니다. 최근에는 <추론 모델>(아래 설명 참조)에서도 RL을 사용하여 결과를 개선하고 있습니다. 최근 몇 년 동안 학습 전 스케일링 문제가 계속 제기됨에 따라, 추가 데이터나 광범위한 계산 없이도 모델 성능을 크게 향상시킬 수 있는 RL을 학습 후 추론 모델에 사용하는 데 상당한 진전이 이루어졌습니다.
특히 RL 사후 훈련은 분산형 훈련에서 직면하는 장애물(아래 설명)을 해결하는 데 이상적입니다. RL에서는 대부분의 경우 모델이 포워드 패스(모델이 예측은 하지만 아직 변경되지 않은 상태)를 사용하여 대량의 출력을 생성하기 때문입니다. 이러한 포워드 패스는 머신 간의 조정이나 통신이 필요하지 않으며 비동기적으로 수행될 수 있습니다. 또한 병렬 처리가 가능하므로 여러 GPU에서 동시에 실행할 수 있는 독립적인 하위 작업으로 세분화할 수 있습니다. 이는 각 롤아웃을 독립적으로 계산할 수 있고, 단순히 계산을 추가하여 트레이닝 실행을 통해 처리량을 확장할 수 있기 때문입니다. 최적의 답이 선택된 후에만 모델이 내부 가중치를 업데이트하므로 머신을 동기화해야 하는 빈도가 줄어듭니다.
모델을 학습시킨 후 이를 사용하여 출력을 생성하는 과정을 추론이라고 합니다. 수백만 또는 수십억 개의 가중치를 조정해야 하는 훈련과 달리 추론은 가중치를 일정하게 유지한 채 새로운 입력에 적용하기만 하면 됩니다. 법학석사(LLM)에게 추론이란 단서를 가져와 모델의 레이어를 통해 실행하고 가장 가능성이 높은 다음 마커를 단계별로 예측하는 것을 의미합니다. 추론에는 역전파(모델의 오류에 따라 가중치를 조정하는 프로세스)나 가중치 업데이트가 필요하지 않으므로 학습보다 계산 부담이 훨씬 적지만, 최신 모델의 규모가 크기 때문에 여전히 리소스 집약적입니다.
요약하자면 추론은 챗봇, 코드 어시스턴트, 번역 도구와 같은 앱을 구동하는 원동력입니다. 이 단계에서 모델은 '학습한 내용'을 실행에 옮깁니다.
>위에 설명한 트레이닝 프로세스는 리소스 집약적이며 대규모로 작동하려면 고도로 전문화된 소프트웨어와 하드웨어가 필요합니다. 세계 유수의 AI 연구소는 수억 달러에서 수십억 달러에 이르는 전례 없는 수준의 투자를 해왔으며, OpenAI의 CEO 샘 알트먼은 GPT-4 훈련에 1억 달러 이상의 비용이 들었다고 말했고, Anthropic의 CEO 다리오 아모데이는 10억 달러 이상의 훈련 프로젝트가 이미 진행 중이라고 말했습니다.
이 비용의 상당 부분은 GPU에서 발생하며, NVIDIA의 H100 또는 B200과 같은 최고급 GPU는 대당 3만 달러에 달하며 OpenAI는 2025년 말까지 백만 개 이상의 GPU를 배치할 계획인 것으로 알려졌습니다. 하지만 GPU의 성능만으로는 충분하지 않습니다. 이러한 시스템은 초고속 통신 인프라를 갖춘 고성능 데이터센터에 구축되어야 합니다. NVIDIA NVLink와 같은 기술은 서버 내 GPU 간의 빠른 데이터 교환을 지원하며, InfiniBand는 서버 클러스터를 연결하여 단일 통합 컴퓨팅 패브릭으로 작동할 수 있도록 합니다.
DGX H100 샘플 아키텍처의 NVLink는 시스템 내의 GPU(연두색 사각형)를 연결하고, InfiniBand는 서버(녹색 선)를 연결합니다. 서버(녹색 선)를 통합 네트워크로
그 결과, 대부분의 기본 모델은 OpenAI, Anthropic, Meta, Google 및 xAI 및 기타 중앙집중식 AI 연구소. 이러한 거대 기업만이 학습에 필요한 풍부한 리소스를 보유하고 있습니다. 이로 인해 모델 훈련과 성능에 있어 획기적인 발전이 이루어졌지만, 주요 기본 모델 개발의 통제권이 소수의 기관에 집중되는 문제도 발생했습니다. 또한 스케일링 법칙이 작용하여 단순히 계산이나 데이터를 추가하는 것만으로 사전 학습된 모델의 지능을 증강하는 효과가 제한될 수 있다는 증거가 점점 더 많아지고 있습니다.
이 문제를 해결하기 위해 지난 몇 년 동안 AI 엔지니어 그룹은 이러한 기술적 복잡성을 해결하고 막대한 리소스 요구 사항을 줄이기 위해 모델 학습에 대한 새로운 접근 방식을 개발하기 시작했습니다. 이 백서에서는 이러한 노력을 "분산형 훈련"이라고 부릅니다.
>비트코인의 성공은 대규모 경제 네트워크를 보호하기 위해 계산과 자본이 분산된 방식으로 조정될 수 있음을 증명했습니다. 탈중앙화 트레이닝은 허가, 신뢰, 인센티브가 없는 암호화폐의 특성을 활용하여 중앙화된 공급자에 필적하는 강력한 기본 모델을 훈련할 수 있는 탈중앙화 네트워크를 구축하는 것을 목표로 합니다.
탈중앙화 트레이닝에서는 전 세계 여러 지역에 위치한 노드가 권한이 없고 인센티브가 제공되는 네트워크에서 작업하여 AI 모델 학습에 기여합니다. 이는 서로 다른 지리적 위치에서 모델이 학습되는 분산 학습과는 달리, 허가를 받은 하나 이상의 주체에 의해(즉, 화이트리스트 프로세스를 통해) 학습된다는 점에서 다릅니다. 그러나 분산형 학습의 실행 가능성은 분산형 학습을 기반으로 구축되어야 합니다. 많은 중앙 집중식 연구실은 교육 설정의 심각한 한계를 인식하고 기존 설정과 비슷한 결과를 얻기 위해 분산 교육을 구현하는 방법을 모색하기 시작했습니다.
분산형 훈련이 현실화되는 것을 방해하는 몇 가지 현실적인 장벽이 있습니다.
통신 오버헤드:. strong>노드가 지리적으로 분산되어 있는 경우 위에서 설명한 통신 인프라에 액세스할 수 없습니다. 분산형 훈련은 표준 네트워크 속도, 대용량 데이터의 빈번한 전송, 훈련 중 GPU 동기화 등을 고려해야 합니다.
검증: 탈중앙화 훈련 네트워크는 본질적으로 무허가이며, 누구나 컴퓨팅 성능을 기여할 수 있도록 설계되었습니다. 따라서 기여자가 부정확하거나 악의적인 입력을 통해 네트워크를 손상시키거나 시스템 취약점을 악용하여 유효한 작업을 제공하지 않고 보상을 얻으려는 시도를 방지하기 위해 검증 메커니즘을 개발해야 합니다.
컴퓨팅: 탈중앙화 네트워크는 규모에 관계없이 모델을 훈련시키기에 충분한 컴퓨팅 파워를 모아야 합니다. 이는 분산형 네트워크의 강점으로 어느 정도 작용하지만, 원래 GPU를 가진 사람이라면 누구나 훈련 과정에 참여할 수 있도록 설계되었기 때문에 이질적인 계산을 조정해야 하기 때문에 복잡성을 유발하기도 합니다.
인센티브/펀딩/소유권 및 수익화: 탈중앙화된 훈련 네트워크는 네트워크의 무결성을 효과적으로 보장하고 계산 제공자, 검증자, 모델 설계자의 기여에 대해 보상하는 인센티브와 소유권/수익화 모델로 설계되어야 합니다. 이는 단일 회사에서 모델을 구축하고 수익을 창출하는 중앙화된 연구소와 대조적입니다.
이러한 한계에도 불구하고 많은 프로젝트가 탈중앙화 훈련을 추진하는 이유는 기본 모델에 대한 통제권이 몇몇 기업에 집중되어서는 안 된다고 생각하기 때문입니다. 이들의 목표는 소수의 중앙 집중식 제품에 대한 의존으로 인한 단일 장애 지점, 데이터 프라이버시 및 검열, 확장성, AI 일관성 및 편향성 등 중앙 집중식 훈련과 관련된 위험에 대응하는 것입니다. 더 넓게 보면 오픈 소스 AI 개발은 선택이 아닌 필수라고 생각합니다. 검증 가능한 개방형 인프라가 없다면 혁신은 억제되고, 소수의 특권층에게만 접근이 제한되며, 사회는 편협한 기업 인센티브에 의해 형성된 AI 시스템을 물려받게 될 것입니다. 이러한 관점에서 탈중앙화 교육은 경쟁 모델을 구축하는 것뿐만 아니라 독점적 이익이 아닌 집단적 이익을 반영하는 탄력적이고 투명하며 참여적인 생태계를 만드는 것입니다.
아래에서는 여러 분산형 교육 프로젝트의 기본 메커니즘에 대한 심층적인 개요를 제공합니다.

설립 배경
2022년에 설립된 Nous Research는 오픈 소스 AI 연구 조직입니다. 이 팀은 오픈 소스 AI 코드의 한계를 해결하기 위해 노력하는 오픈 소스 AI 연구자 및 개발자들의 비공식 그룹으로 시작되었습니다. "최고의 오픈 소스 모델을 만들고 제공하는 것"을 사명으로 삼고 있습니다.
팀은 초기에 탈중앙화 훈련이 주요 장애물이라는 사실을 파악했습니다. 특히 GPU 액세스와 GPU 간 통신을 조정하는 도구가 주로 대규모 중앙집중식 AI 기업을 위해 개발되어 리소스가 제한된 조직이 의미 있는 개발에 참여할 여지가 거의 없다는 사실을 깨달았습니다. 예를 들어, B200과 같은 NVIDIA의 최신 Blackwell GPU는 NVLink 스위칭 시스템을 사용하여 초당 최대 1.8테라바이트의 속도로 서로 통신할 수 있습니다. 이는 주류 인터넷 인프라의 총 대역폭에 필적하며 중앙 집중식 데이터 센터 규모의 배포에서만 가능합니다. 따라서 소규모 또는 분산 네트워크에서는 통신 정책을 재고하지 않고는 대규모 AI 연구소의 성능을 달성하는 것이 사실상 불가능합니다.
분산형 훈련 문제에 착수하기 전에 Nous는 이미 AI 분야에 상당한 공헌을 해왔습니다. 2023년 8월, Nous는 YaRN: 대규모 언어 모델을 위한 효율적인 컨텍스트 윈도우 확장을 발표했습니다. 이 논문은 간단하지만 중요한 문제를 다루었습니다. 대부분의 AI 모델은 한 번에 정해진 양의 텍스트만 기억하고 처리할 수 있습니다(즉, "컨텍스트 창"). 예를 들어, 2,000단어 한도로 훈련된 모델은 입력 문서가 길어지면 금방 정보를 잊거나 잃어버리기 시작합니다. yaRN은 모델을 처음부터 다시 훈련할 필요 없이 이 한도를 더 확장하는 방법을 소개합니다. 이 모델은 단어 위치를 추적하는 방식(책의 책갈피처럼)을 조정하여 텍스트의 길이가 수만 단어에 달하더라도 정보 흐름을 추적할 수 있도록 합니다. 이 접근 방식을 통해 모델은 기존 방식보다 훨씬 적은 컴퓨팅 파워와 학습 데이터를 사용하면서도 마크 트웨인의 소설 '허클베리 핀의 모험'의 길이에 해당하는 최대 128,000개의 토큰 시퀀스를 처리할 수 있습니다. 요컨대, YaRN을 사용하면 AI 모델이 훨씬 더 긴 문서, 대화 또는 데이터 세트를 한 번에 "읽고" 이해할 수 있습니다. 이는 AI 기능 확장에 있어 큰 진전이며, OpenAI와 중국의 Deepseek을 비롯한 광범위한 연구 커뮤니티에서 채택하고 있습니다.
DeMo와 DisTrO
2024년 3월, Nous는 분산 훈련의 획기적인 성과인 다음과 같은 내용을 발표했습니다. "디커플링 모멘텀 최적화"(DeMo)를 발표했습니다.DeMo는 Nous의 연구원 보웬 펭과 제프리 퀘스넬이 디데릭 킹마(Diederik P. Kingma, OpenAI 공동 설립자)와 함께 개발했습니다. DeMo는 Nous의 연구원 보웬 펭과 제프리 퀘스넬이 OpenAI의 공동 창립자이자 AdamW 옵티마이저의 발명가인 디데릭 P. 킹마와 협력하여 개발했습니다. 이 기술은 GPU 간에 교환되는 데이터의 양을 줄여 분산 데이터 병렬 모델 훈련 설정에서 통신 오버헤드를 줄여주는 Nous의 분산형 훈련 스택의 주요 빌딩 블록입니다. 데이터 병렬 훈련에서 각 노드는 모델 가중치의 전체 사본을 유지하지만 데이터 세트는 서로 다른 노드에서 처리되는 청크로 분할됩니다.
AdamW는 모델 훈련에 가장 일반적으로 사용되는 최적화 도구 중 하나로, AdamW의 핵심 기능은 모델 가중치의 과거 변화 평균인 모멘텀을 평활화하는 것입니다. 기본적으로 AdamW는 데이터의 병렬 훈련 중에 발생하는 노이즈를 제거하여 훈련 효율성을 개선하는 데 도움을 줍니다. Nous Research는 AdamW와 DeMo를 기반으로 모멘텀을 로컬 구성 요소와 여러 트레이너의 공유 구성 요소로 분할하는 새로운 옵티마이저를 개발했습니다. 이를 통해 노드 간에 공유해야 하는 데이터의 양을 제한하여 노드 간에 필요한 통신량을 줄입니다.
DeMO는 각 GPU 반복 과정에서 가장 빠르게 변화하는 파라미터에 선택적으로 집중합니다. 논리는 간단합니다. 가변적인 파라미터가 많을수록 학습에 중요하며 우선순위가 높은 워커 간에 동기화되어야 합니다. 동시에 느리게 변화하는 파라미터는 수렴에 큰 영향을 미치지 않고 일시적으로 지연될 수 있습니다. 이는 사실상 가장 의미 있는 업데이트는 유지하면서 노이즈가 많은 업데이트를 걸러내는 역할을 합니다. 또한 Nous는 JPEG가 이미지를 압축하는 방식과 유사한 이산 코사인 변환(DCT) 방법을 포함한 압축 기술을 사용하여 전송되는 데이터의 양을 더욱 줄입니다. 가장 중요한 업데이트만 동기화함으로써 DeMO는 통신 오버헤드를 10배에서 1,000배(모델 크기에 따라 다름)까지 줄여줍니다. 기본 최적화에 대한 전체 기술 개요는 Nous Research의 이 블로그 게시물을 참조하세요.
2024년 6월, Nous 팀은 두 번째 주요 혁신인 분산 훈련 최적화 도구(DisTro)를 공개했습니다. 디모가 핵심 최적화 도구 혁신을 제공하는 반면, 디스트로는 이를 보다 광범위한 GPU 간에 공유되는 정보를 더욱 압축하고 GPU 동기화, 내결함성 및 로드 밸런싱과 같은 문제를 해결하는 더 광범위한 최적화 프레임워크입니다.2024년 12월, Nous는 DisTro를 사용하여 LlaMA와 유사한 아키텍처에서 150억 개의 파라미터를 포함하는 모델을 훈련함으로써 이 접근 방식의 타당성을 입증했습니다.
Psyche
올해 5월, Nous는 탈중앙화 트레이닝 조정을 위한 프레임워크인 Psyche를 출시했습니다. Psyche의 주요 기술 업그레이드에는 다음 훈련 단계를 시작할 때 GPU가 모델 업데이트를 전송할 수 있도록 하여 비동기 훈련을 개선한 것이 포함됩니다. 이를 통해 유휴 시간을 최소화하고 GPU 활용도를 중앙 집중식 긴밀하게 결합된 시스템의 활용도에 가깝게 끌어올렸으며, Psyche는 또한 DisTro에서 도입한 압축 기술을 더욱 개선하여 통신 부하를 3배까지 줄였습니다.
Psyche는 완전한 온체인(Solana를 통해) 또는 오프체인 설정으로 구현할 수 있습니다. 이는 코디네이터, 클라이언트, 데이터 제공자라는 세 가지 주요 플레이어로 구성됩니다. 코디네이터는 모델의 최신 상태, 참여 클라이언트, 데이터 할당 및 출력 유효성 검사 등 훈련 실행을 용이하게 하는 데 필요한 모든 정보를 저장합니다. 클라이언트는 훈련 실행 중에 훈련 작업을 수행하는 실제 GPU 제공업체입니다. 클라이언트는 모델 훈련 외에도 감시 프로세스(아래 설명)에도 참여합니다. 데이터 제공자(클라이언트가 직접 저장할 수 있음)는 훈련에 필요한 데이터를 제공합니다.
Psyche는 트레이닝을 에포크와 스텝의 두 단계로 나누어 고객이 전체 트레이닝에 참여하지 않아도 자연스럽게 진입점과 종료점을 만들 수 있도록 합니다. 이 구조는 전체 실행을 위해 리소스를 투입할 수 없는 GPU 제공업체의 기회 비용을 최소화하는 데 도움이 됩니다.
에포크가 시작될 때 코디네이터는 모델 아키텍처, 사용할 데이터 세트, 필요한 클라이언트 수 등 주요 파라미터를 정의합니다. 그 다음에는 클라이언트를 최신 모델 체크포인트에 동기화하는 짧은 워밍업 단계가 이어지며, 이 단계에서는 공개 소스 또는 다른 클라이언트의 피어 투 피어 동기화를 통해 클라이언트를 최신 모델 체크포인트에 동기화할 수 있습니다. 훈련이 시작되면 각 클라이언트에 데이터의 일부가 할당되고 로컬로 훈련됩니다. 업데이트를 계산한 후 클라이언트는 암호화 약속(작업이 올바르게 수행되었음을 증명하는 SHA-256 해시)과 함께 그 결과를 나머지 네트워크에 브로드캐스트합니다.
매 라운드마다 클라이언트의 일부가 무작위로 선택되어 증인 역할을 하며 Psyche의 주요 검증 메커니즘으로 사용됩니다. 이 증인은 평소와 같이 훈련하지만 어떤 클라이언트 업데이트가 수신되었고 유효한지 확인합니다. 이들은 이러한 참여를 효과적으로 집계하는 경량 데이터 구조인 블룸 필터를 코디네이터에게 제출합니다. Nous 자신도 이 접근 방식이 오탐을 발생시킬 수 있어 완벽하지는 않다고 인정하지만, 연구원들은 효율성을 위해 이러한 절충안을 기꺼이 받아들입니다. 특정 업데이트에 대한 정족수가 확인되면 코디네이터는 업데이트를 글로벌 모델에 적용하고 모든 클라이언트가 다음 라운드로 넘어가기 전에 모델을 동기화할 수 있도록 합니다.
중요하게도 Psyche의 설계는 훈련과 검증이 중첩될 수 있도록 합니다. 클라이언트가 업데이트를 제출하자마자 코디네이터나 다른 클라이언트가 이전 트레이닝 라운드를 완료할 때까지 기다릴 필요 없이 다음 배치의 트레이닝을 시작할 수 있습니다. 이러한 중첩 설계는 DisTrO의 압축 기술과 결합되어 통신 오버헤드를 최소화하고 GPU를 유휴 상태로 두지 않도록 합니다.
2025년 5월, Nous Research는 400억 개의 매개 변수가 있는 트랜스포머인 Psyche인 Consilience라는 사상 최대 규모의 트레이닝을 시작합니다. 약 20조 개의 토큰을 사전 훈련하는 탈중앙화 트레이닝 네트워크입니다. 트레이닝은 아직 진행 중입니다. 지금까지는 대부분 순조롭게 진행되었지만, 일부 손실이 급증하여 최적화 궤적이 수렴에서 잠시 벗어난 것으로 나타났습니다. 따라서 팀은 마지막 상태 확인 지점으로 롤백하고, 그래디언트 패러다임이 평균에서 몇 표준 편차를 벗어나는 경우 손실이나 업데이트를 자동으로 건너뛰는 OLMo의 스킵-스텝 보호 기능을 사용하여 최적화기를 감싸 향후 손실 급증의 위험을 줄였습니다.
솔라나의 역할
싸이체는 오프체인 환경에서도 실행할 수 있지만, 솔라나에서 사용하도록 고안되었습니다. 블록체인에서 사용하기 위한 것입니다. Solana는 네트워크 훈련, 고객 약속 기록, 증인 증명, 온체인 메타데이터 훈련을 위한 신뢰 및 책임 계층 역할을 합니다. 이를 통해 각 트레이닝 라운드에 대한 변조 방지 감사 추적을 생성하여 누가 기여했는지, 무엇을 수행했는지, 검증을 통과했는지 투명하게 확인할 수 있습니다.
Nous는 또한 교육 보상 분배를 용이하게 하기 위해 Solana를 사용할 계획입니다. 아직 공식적인 토큰 이코노미를 공개하지는 않았지만, 싸이체의 문서에는 코디네이터가 고객의 계산 기여도를 추적하고 검증된 작업에 따라 포인트를 할당하는 시스템이 간략하게 설명되어 있습니다. 이 포인트는 체인에서 호스팅되는 금융 스마트 컨트랙트 역할을 하여 토큰으로 교환할 수 있습니다. 검증된 교육 단계를 완료한 고객은 이 계약에서 직접 기여도에 따라 보상을 받을 수 있으며, 싸이체는 아직 교육 실행에 보상 메커니즘을 사용하지 않았지만 이 시스템이 공식적으로 출시되면 Nous 암호화 토큰 배포의 중심 역할을 할 것으로 예상됩니다.
헤르메스 모델군
이러한 연구 기여 외에도 Nous는 헤르메스 명령군으로 Nous 제품군 개발에 상당한 기여를 했습니다. 대규모 언어 모델(LLM)을 조정하여 선도적인 오픈 소스 모델 개발자로 자리매김했습니다. 2024년 8월, 팀은 Llama 3.1에 맞춰 미세 조정된 완전 파라메트릭 모델 모음인 Hermes-3을 출시했으며, 이는 공개 리더보드에서 상대적으로 작지만 훨씬 더 큰 독점 모델과 경쟁할 수 있는 점수를 획득했습니다.
최근인 2025년 8월, Nous는 현재까지 가장 진보된 모델 제품군인 Hermes-4 모델 제품군을 출시했습니다.Hermes-4는 모델의 단계별 추론 능력 향상에 초점을 맞춘 동시에 일반 명령어 실행에도 탁월한 성능을 발휘합니다. 수학, 프로그래밍, 이해력 및 일반 지식 테스트에서 탁월한 성능을 발휘합니다. Nous의 오픈 소스 사명에 따라 팀은 모든 사람이 사용하고 구축할 수 있도록 모든 Hermes-4 모델 가중치를 공개적으로 공개했습니다. 또한 Nous는 모델 접근성 인터페이스인 Nous Chat을 출시했으며, 출시 첫 주에 무료로 제공했습니다.
Hermes 모델의 출시는 모델 구축 조직으로서 Nous의 신뢰를 공고히 할 뿐만 아니라 광범위한 연구 의제에 대한 실질적인 검증을 제공하며, 각 Hermes 출시는 개방형 환경에서 최첨단 기능을 구현할 수 있음을 입증하여 팀에 분산된 교육을 제공합니다. 획기적인 기능(DeMo, DisTrO 및 Psyche)을 제공하고 궁극적으로 야심찬 Consilience 40B 실행으로 이어졌습니다.
아트로포스
위에서 언급했듯이 추론 모델링의 발전과 사전 훈련의 확장 제한으로 인해 강화 학습은 사후 훈련에서 점점 더 중요한 역할을 하고 있습니다. 아트로포스는 탈중앙화 환경에서의 강화 학습을 위한 Nous의 솔루션입니다. 아트로포스는 탈중앙화 환경에서의 강화 학습을 위한 Nous의 솔루션으로, 다양한 추론 백엔드, 훈련 방법, 데이터 세트 및 강화 학습 환경에 적용할 수 있는 LLM을 위한 플러그 앤 플레이 모듈식 강화 학습 프레임워크입니다.
탈중앙화된 방식으로 강화 학습 사후 훈련에 많은 수의 GPU를 사용하는 경우, 훈련 과정에서 모델이 생성하는 즉각적인 출력은 다양한 완료 시간을 갖습니다. 아트로포스는 롤아웃 프로세서, 중앙 조정자 역할을 합니다. 아트로포스는 롤아웃 프로세서, 즉 여러 디바이스 간 작업 생성 및 완료를 조정하는 중앙 코디네이터 역할을 수행하여 비동기 강화 학습 훈련을 가능하게 합니다.
아트로포스의 초기 버전은 4월에 출시되었지만 현재는 강화 학습 작업을 조정하기 위한 환경 프레임워크만 포함되어 있습니다. Nous는 향후 몇 달 내에 추가 훈련 및 추론 프레임워크를 출시할 계획입니다.
>배경
프라임 인텔리전스는 2024년에 대규모 탈중앙화 AI 개발 인프라를 구축하기 위해 설립되었습니다. 빈센트 바이저와 요하네스 하게만이 공동 설립한 이 팀은 초기에는 중앙 집중식 및 분산식 공급자의 컴퓨팅 리소스를 통합하여 고급 AI 모델의 협업 분산 학습을 지원하는 데 중점을 두었으며, 전 세계 연구자와 개발자가 액세스하여 AI 개발을 민주화하는 것을 사명으로 삼고 있습니다. Prime Intellect의 사명은 전 세계 연구자와 개발자가 확장 가능한 컴퓨팅 리소스에 액세스하고 개방형 AI 혁신에 대한 소유권을 공유함으로써 AI 개발을 민주화하는 것입니다.
오픈디엘로코, 인텔렉트-1, 프라임
2024년 7월. 프라임 인텔렉트는 구글 딥마인드에서 데이터 병렬 학습을 위해 개발한 저통신 모델 학습 방법인 DiLoCo의 오픈 소스 버전인 OpenDiLoCo를 출시했습니다. Google은 "최신 규모의 표준 역전파를 통한 훈련은 전례 없는 엔지니어링 및 인프라 문제 ...... 다수의 가속기를 조정하고 긴밀하게 동기화하는 것이 어렵다"는 아이디어를 바탕으로 이 모델을 개발했습니다. 이 성명서는 오픈소스 개발의 정신보다는 대규모 훈련의 현실성에 초점을 맞추고 있지만, 장기적인 중앙 집중식 훈련의 한계와 분산형 대안의 필요성을 암묵적으로 인정하고 있습니다.
DiLoCo는 모델을 훈련할 때 GPU 간에 공유되는 정보의 빈도와 양을 줄입니다. 중앙 집중식 설정에서는 GPU가 각 훈련 단계가 끝난 후 업데이트된 모든 그라디언트를 서로 공유합니다. DiLoCo에서는 업데이트된 그라데이션의 공유 빈도를 줄여 통신 오버헤드를 줄입니다. 따라서 각 단계마다 자체 모델의 가중치를 업데이트하는 내부 최적화를 실행하는 개별 GPU(또는 GPU 클러스터)와 내부 최적화를 GPU 간에 공유한 다음 모든 GPU에 변경 사항을 업데이트하는 외부 최적화의 이중 최적화 아키텍처가 만들어집니다.
오픈디로코는 초기 릴리스에서 90~95%의 GPU 사용률을 보였는데, 이는 2개 대륙과 3개 국가에 분산되어 있음에도 불구하고 유휴 머신이 거의 없었다는 것을 의미합니다. 오픈디로코는 500% 적은 통신으로 비슷한 훈련 결과와 성능을 재현해낼 수 있었습니다. OpenDiLoCo는 통신을 500배 줄이면서도 비슷한 훈련 결과와 성능을 재현할 수 있었습니다(아래 그래프에서 보라색 선이 파란색 선을 따라잡는 모습에서 볼 수 있듯이).

세부 축은 모델의 예측 능력을 측정하는 척도인 난해도를 나타냅니다. 퍼플렉서티가 낮을수록 모델의 예측이 더 자신감 있고 정확하다는 것을 의미합니다.
2024년 10월, 프라임 인텔리전트는 INTELLECT-1을 훈련하기 시작합니다. , 분산 방식으로 학습된 최초의 100억 개 매개변수 언어 모델입니다. 이 훈련에는 42일이 걸렸고 그 후 이 모델은 오픈 소스로 공개되었습니다. 훈련은 3개 대륙 5개국에서 진행되었습니다. 훈련 실행 결과, 미국에서만 전체 컴퓨팅 리소스 활용률이 83%, 노드 간 통신 활용률이 96%에 달하는 등 분산 훈련의 점진적인 개선이 입증되었습니다. 이 프로젝트는 아카시, 하이퍼볼릭, 올라스 등 암호화 GPU 시장의 웹2.0 및 웹3.0 제공업체의 GPU를 사용했습니다.
INTELLECT-1은 프라임 인텔리전스의 새로운 트레이닝 프레임워크인 PRIME을 사용하여, 연산이 예기치 않게 진행 중인 트레이닝에 들어오고 나갈 때 프라임 인텔리전스 트레이닝 시스템이 적응할 수 있도록 합니다. . 또한 기여자가 언제든지 참여하거나 탈퇴할 수 있는 ElasticDeviceMesh와 같은 혁신 기술을 도입했습니다.

훈련 단계의 활성 훈련 노드로, 훈련 아키텍처의 동적 노드 참여에 대한 동적 노드 참여를 처리하는 능력
INTELLECT-1은 프라임 인텔렉트의 분산형 훈련 방법론의 중요한 검증이며, 잭 클라크(Jack Clark, Anthropic의 공동 설립자)와 같은 AI 사고 리더들로부터 다음과 같은 찬사를 받았습니다. 탈중앙화 훈련의 실행 가능한 데모로 간주됩니다.
프로토콜
올해 2월, Prime Intellect는 프로토콜을 통해 스택에 또 다른 계층을 추가했습니다. 프로토콜은 프라임 인텔렉트의 모든 트레이닝 도구를 연결하여 분산형 모델 트레이닝을 위한 피어 투 피어 네트워크를 생성합니다. 여기에는 다음이 포함됩니다.
학습 실행을 용이하게 하기 위한 컴퓨팅 스와핑 GPU.
PRIME 훈련 프레임워크는 통신 오버헤드를 줄이고 내결함성을 개선합니다.
합성 데이터 생성 및 검증을 위한 오픈 소스 라이브러리인 GENESYS는 RL 미세 조정에 유용합니다.
참여 노드의 모델 실행 및 출력 검증을 위한 경량 검증 시스템인 TOPLOC.
Protocol은 Nous와 비슷한 역할을 합니다. 네 가지 주요 플레이어로 구성된 Psyche :
Workers: 사용자가 트레이닝 또는 기타 Prime Intellect AI 관련 제품에 자신의 컴퓨팅 리소스를 제공할 수 있는 소프트웨어입니다.
검증자: 계산 기여도를 검증하고 악의적인 행동을 방지합니다.Prime Intellect는 최첨단 추론 검증 알고리즘인 TOPLOC을 분산형 훈련에 적용하기 위해 노력하고 있습니다.
오케스트레이터: 연산 풀 생성자의 워크로드를 관리하는 방법입니다. Nous의 오케스트레이터와 유사하게 작동합니다.
스마트 컨트랙트: 컴퓨팅 리소스 제공자를 추적하고, 악의적인 참여자의 서약을 줄이고, 자율적으로 보상을 지급합니다. 현재 프라임 인텔렉트는 이더리움 L2 베이스의 세폴리아 테스트넷에서 실행되고 있지만, 궁극적으로는 자체 블록체인으로 마이그레이션할 계획이라고 밝혔습니다.
단계별 프로토콜 교육
프로토콜은 궁극적으로 기여자가 모델 지분을 소유하거나 작업에 대한 보상을 받을 수 있도록 하는 것을 목표로 하며, 스마트 계약과 집단 인센티브를 통해 오픈 소스 AI 프로젝트가 개발 자금을 조달하고 관리하는 새로운 방법을 제공합니다.
INTELLECT 2와 강화 학습
4월, Prime 인텔렉트는 INTELLECT-2라는 320억 개의 파라미터를 가진 모델을 훈련하기 시작했습니다. INTELLECT-1은 기본 모델 훈련에 초점을 맞춘 반면, INTELLECT-2는 강화 학습을 사용하여 다른 오픈 소스 모델(Alibaba의 QwQ-32B)에서 추론 모델을 훈련합니다.
연구팀은 이 탈중앙화된 RL 훈련을 실용화하기 위해 두 가지 핵심 인프라 구성 요소를 도입했습니다.
PRIME-RL은 학습 과정을 후보 답변 생성, 선택된 답변에 대한 학습, 업데이트된 모델 가중치 브로드캐스팅의 세 단계로 구분하는 완전 비동기 강화 학습 프레임워크입니다. 이 디커플링 메커니즘을 통해 시스템은 불안정하거나 느리거나 지리적으로 분산된 네트워크에 걸쳐 작동할 수 있습니다. 훈련 과정에서는 또 다른 프라임 인텔리전스의 혁신 기술인 GENESYS를 사용하여 수천 개의 수학, 논리, 코딩 문제를 생성하고 자동화된 검사기를 통해 정답과 오답을 즉시 판단할 수 있습니다.
SHARDCAST는 업데이트된 모델 가중치와 같은 대용량 파일을 네트워크에 빠르게 배포하는 새로운 시스템으로, 각 머신이 중앙 서버에서 업데이트를 다운로드하는 대신 머신 간에 업데이트가 공유되는 구조를 사용합니다. 따라서 네트워크가 효율적이고 빠르며 탄력적으로 유지됩니다.
인텔렉트-2 분산 강화학습 훈련 인프라
인텔렉트-2의 경우, 기여자는 훈련 실행에 참여하기 위해 테스트넷 암호화 토큰을 서약해야 합니다. 유효한 작업을 제공하면 자동으로 보상을 받게 됩니다. 그렇지 않은 경우 서약 금액이 줄어들 수 있습니다. 이 테스트 실행에는 실제 돈이 사용되지는 않았지만, 초기 형태의 암호화 경제 실험의 일부를 보여줍니다. 현장에서 더 많은 실험이 필요하며, 보안과 인센티브 측면에서 암호경제의 적용에 더 많은 변화가 있을 것으로 예상됩니다. 프라임 인텔렉트는 인텔렉트-2 외에도 이 보고서에서 다루지 않은 몇 가지 중요한 이니셔티브를 진행하고 있습니다.
SYNTHETIC-2 strong>, 추론 작업 생성 및 검증을 위한 차세대 프레임워크;
효율적이고 내결함성 있는 집단 통신 작업(예: IP를 통한 스케일 다운)을 구현하는 프라임 집단 통신 라이브러리. <효율적이고 내결함성 있는 집단 통신 작업(예: IP를 통한 축소)을 구현하고, 공유 상태 동기화 메커니즘을 제공하여 피어를 동기화 상태로 유지하고 훈련 중 언제든지 피어를 라이브러리에 동적으로 추가 및 제거할 수 있으며, 대역폭 인식 토폴로지 최적화를 자동화합니다.
모델 출력 검증을 위해 확장 가능한 저비용 추론 증명을 가능하게 하는 TOPLOC의 지속적인 개선 기능(  . )
INTELLECT2와 SYNTHETIC1에서 얻은 교훈을 바탕으로 프라임 인텔리전스 프로토콜 및 암호화 경제 레이어 개선
Alexander Long은 뉴사우스웨일즈 대학교에서 박사 학위를 받은 호주의 머신 러닝 연구자입니다. 그는 오픈 소스 모델 학습이 다른 사람들이 학습할 수 있는 기본 모델을 제공하는 선도적인 AI 연구소에 지나치게 의존하고 있다고 생각합니다.
2023년 4월, 그는 다른 길을 개척하기 위해 Pluralis Research를 설립했습니다.
Pluralis Research는 "저대역폭, 이질적인 다중 참여자"로 설명되는 "프로토콜 학습"이라는 접근 방식을 사용하여 분산형 훈련 문제를 해결합니다, Pluralis의 주요 특징은 계산 기여를 장려하고 최고의 오픈 소스 소프트웨어 연구자를 유치하기 위해 훈련 모델 기여자에게 주식과 같은 수익을 제공하는 경제 모델입니다. 이 경제 모델은 '비추출성'이라는 핵심 속성을 전제로 합니다. 어떤 참여자도 전체 가중치 세트에 액세스할 수 없으며, 이는 훈련 방법 및 모델 병렬성 사용과 연관되어 있습니다.
모델 병렬 처리
Pluralis의 훈련 아키텍처는 모델 병렬 처리를 활용하며, 이는 Nous Research와 Prime Intellect가 초기 훈련에 사용한 모델 병렬 처리와 유사합니다. 초기 훈련 실행에서 구현된 Prime Intellect의 데이터 병렬 처리 방식. 모델 크기가 커짐에 따라 H100 랙(가장 고급 GPU 구성 중 하나)으로도 전체 모델을 처리하는 데 어려움을 겪습니다. 모델 병렬화는 단일 모델의 개별 구성 요소를 여러 GPU에 분할하여 이 문제에 대한 해결책을 제공합니다.
모델 병렬화에는 세 가지 주요 접근 방식이 있습니다.
파이프라인 병렬화: 모델의 레이어가 서로 다른 GPU로 나뉩니다. 훈련 중에 각각의 작은 데이터 배치는 조립 라인처럼 이러한 GPU를 통해 흐릅니다.
텐서(인트라 레이어) 병렬 처리: 각 GPU에 전체 레이어를 제공하는 대신 각 레이어 내의 무거운 수학적 연산을 분리하여 여러 GPU가 동시에 단일 레이어의 작업을 공유할 수 있도록 합니다.
하이브리드 병렬 처리: 실제로 대규모 모델에서는 파이프라인과 텐서 병렬 처리를 모두 사용하는 혼합 방식을 사용하며, 종종 데이터 병렬 처리와 결합하기도 합니다.
모델 병렬화는 최첨단 규모의 모델을 훈련할 수 있고, 하위 계층의 하드웨어도 참여할 수 있으며, 단일 참여자가 전체 모델 가중치 세트에 액세스하지 못하도록 보장하기 때문에 분산 훈련에서 중요한 발전을 이뤘습니다.
프로토콜 학습 및 프로토콜 모델
프로토콜 학습 및 프로토콜 모델
프로토콜 학습은 탈중앙화된 훈련 환경에서 모델 소유권 및 수익화를 위한 Pluralis의 프레임워크로, Pluralis는 프로토콜 학습 프레임워크를 구성하는 세 가지 핵심 원칙인 탈중앙화, 인센티브화, 탈신뢰화를 강조합니다.
Pluralis와 다른 프로젝트의 주요 차이점은 모델 소유권에 중점을 둔다는 점입니다. 모델의 가치는 대부분 가중치에서 파생되기 때문에 프로토콜 모델(프로토콜 모델)은 모델의 가중치를 분할하여 모델 훈련 과정에서 한 명의 참여자가 모든 가중치를 소유하지 않도록 하려고 시도합니다. 궁극적으로 이렇게 하면 학습 모델의 각 기여자에게 일정 수준의 소유권을 부여하여 모델에서 생성된 수익의 일부를 공유할 수 있습니다.
학습 설정(오픈 데이터 대 폐쇄 데이터)과 모델 가중치 사용 가능성(오픈 대 폐쇄)을 통해 다양한 언어 모델 배치
이것은 이전의 사례와는 근본적으로 다른 탈중앙화 모델 경제학에 대한 접근 방식입니다. 다른 프로젝트는 특정 메트릭(일반적으로 기여한 시간 또는 계산 능력)에 따라 훈련 주기 동안 기여자에게 할당되는 자금 풀을 제공하여 기여에 인센티브를 제공합니다. Pluralis의 기여자는 성공 가능성이 가장 높다고 생각되는 모델에만 자원을 투입하도록 인센티브를 부여받습니다. 실적이 저조한 모델은 수익을 창출하지 못하기 때문에 실적이 저조한 모델을 학습시키는 것은 컴퓨팅 파워, 에너지, 시간을 낭비하게 됩니다.
이 방식은 두 가지 점에서 이전 접근 방식과 다릅니다. 첫째, 모델을 훈련하려는 개인이 기여자에게 비용을 지불하기 위해 초기 자금을 모금할 필요가 없어 모델 훈련 및 개발의 장벽을 낮춥니다. 둘째, 모델 설계자와 계산 제공자 모두 모델의 최종 버전이 최대한 완벽해야 성공을 보장할 수 있기 때문에 모델 설계자와 계산 제공자 간의 인센티브를 더 잘 조정할 수 있습니다. 또한 모델 트레이닝의 전문화 가능성을 열어줍니다. 예를 들어, 더 큰 수익을 추구하는 초기/실험적 모델에 대한 계산 서비스를 제공하는 위험 감수형 트레이너(벤처 캐피탈리스트와 유사)와 성숙하고 적용 가능성이 높은 모델에만 집중하는 계산 제공자(사모 펀드 투자자)가 있을 수 있습니다.
PM은 탈중앙화 교육에서 수익을 창출하고 인센티브를 제공하는 데 있어 중요한 돌파구가 될 수 있지만, Pluralis는 아직 정확한 구현에 대해 자세히 설명하지 않았습니다. 접근 방식의 복잡성을 고려할 때 모델 소유권을 할당하는 방법, 수익을 분배하는 방법, 향후 모델의 업그레이드 또는 사용 사례를 관리하는 방법 등 해결해야 할 문제가 남아 있습니다.
분산형 교육 혁신
경제적 고려 사항 외에도 프로토콜(Protocol Learning)은 다른 분산형 훈련 프로젝트와 동일한 핵심 과제, 즉 통신 제약이 있는 이기종 GPU 네트워크를 사용하여 대규모 AI 모델을 훈련해야 하는 문제에 직면해 있습니다.
올해 6월, Pluralis는 Meta의 Llama 3 아키텍처를 기반으로 80억 개의 파라미터 LLM을 성공적으로 훈련했다고 발표하고 프로토콜 모델 논문을 발표했습니다. 이 논문에서 Pluralis는 모델의 병렬 트레이닝을 수행하는 GPU 간의 통신 오버헤드를 줄이는 방법을 보여주었습니다. 이 방법은 각 트랜스포머 레이어를 통해 흐르는 신호를 미리 선택된 작은 하위 공간으로 제한하고 순방향 및 역방향 패스를 최대 99%까지 압축하여 정확도를 저하시키거나 상당한 오버헤드를 추가하지 않고 네트워크 트래픽을 100배까지 줄이는 방식으로 수행됩니다. 요컨대, Pluralis는 동일한 학습 정보를 기존 방식에 필요한 대역폭의 일부로 압축하는 방법을 찾아냈습니다.
이것은 모델 자체가 복제되지 않고 낮은 대역폭을 통해 연결된 노드에 분산된 최초의 분산형 훈련 실행이었습니다. 연구팀은 초당 80메가비트의 가정용 인터넷 연결로만 연결된 4개 대륙에 분산된 저사양 소비자용 GPU에서 80억 개의 파라미터로 라마 모델을 성공적으로 훈련했습니다. 이 논문에서 Pluralis는 이 모델이 100Gb/s 데이터 센터 클러스터에서 실행되었을 때와 마찬가지로 수렴되는 것을 보여주었습니다. 이는 실제로 대규모 모델의 분산형 병렬 학습이 가능하다는 것을 의미합니다.
지난 7월에는 파이프라인 병렬 학습을 위한 비동기 학습에 관한 Pluralis 논문이 주요 AI 학회 중 하나인 ICML에서 채택되었습니다. 파이프라인 병렬 훈련이 고속 데이터 센터가 아닌 인터넷을 통해 수행되는 경우, 노드가 본질적으로 조립 라인과 유사한 방식으로 작동하여 각 후속 노드가 이전 노드가 모델을 업데이트할 때까지 기다리기 때문에 동일한 통신 병목현상에 직면하게 됩니다. 이는 점진적인 노후화와 정보 전송 지연으로 이어집니다. 이 백서에서 시연된 탈중앙화 트레이닝 프레임워크인 SWARM은 일반적으로 일상적인 GPU가 트레이닝에 참여하지 못하게 하는 두 가지 대표적인 병목 현상인 메모리 용량과 긴밀한 동기화를 제거합니다. 이 두 가지 병목 현상을 제거하면 사용 가능한 모든 GPU를 더 잘 활용할 수 있어 훈련 시간이 단축되고 비용이 절감되며, 이는 자원봉사자 기반 분산 인프라를 사용하여 대규모 모델을 확장하는 데 매우 중요합니다. 이 프로세스에 대한 간략한 개요를 보려면 Pluralis의 이 동영상을 시청하세요.
앞으로 Pluralis는 누구나 참여할 수 있는 실시간 교육을 곧 시작할 계획이지만 아직 구체적인 날짜는 정해지지 않았다고 밝혔습니다. 이 교육에서는 아직 공개되지 않은 프로토콜의 측면, 특히 경제 모델링과 암호화 인프라에 대한 심층적인 이해를 제공할 예정입니다.
>배경
2024년 11월에 출시된 템플러는 비텐서 프로토콜 서브넷을 기반으로 하는 인센티브 중심의 탈중앙화된 AI 작업 마켓플레이스입니다. 라이선스 없는 AI 사전 학습을 위해 글로벌 GPU 리소스를 풀링하는 실험적인 프레임워크로 시작되었으며, Bittensor의 토큰화된 인센티브를 통해 대규모 모델 학습에 접근 가능하고 안전하며 탄력적으로 대응함으로써 AI 개발을 재정의하는 것을 목표로 합니다.
템플러는 처음부터 인터넷에서 LLM 사전 훈련의 탈중앙화 훈련을 조정하는 과제를 떠안았습니다. 지연 시간, 대역폭 제한, 이기종 하드웨어로 인해 분산된 참여자가 원활한 GPU 통신을 통해 대규모 모델에 대한 신속한 반복을 가능하게 하는 중앙 집중식 클러스터의 효율성을 달성하기 어렵기 때문에 이는 어려운 작업입니다.
결국, Templar는 진정한 무허가 참여를 우선시하여 컴퓨팅 리소스가 있는 사람이라면 누구나 승인, 등록 또는 게이트키핑 없이 AI 훈련에 참여할 수 있도록 합니다. 이러한 허가 없는 접근 방식은 획기적인 AI 기능이 소수의 중앙 집중식 기관에 의해 통제되지 않고 개방적인 글로벌 협업에서 나올 수 있도록 보장하기 때문에 AI 개발 민주화라는 Templar의 사명에 매우 중요합니다. 트레이닝
템플라는 두 가지 주요 학습을 위해 데이터를 병렬로 사용합니다. 요소:
채굴자: 이 참가자는 훈련 작업을 수행합니다. 각 마이너는 최신 글로벌 모델과 동기화하고, 고유한 데이터 조각을 획득하고, 순방향 및 역방향 패스를 사용하여 로컬로 훈련하고, 사용자 지정 CCLoco 최적화 프로그램(아래 설명)을 사용하여 기울기를 압축하고, 기울기 업데이트를 제출합니다.
검증자: 검증자는 채굴자가 제출한 업데이트를 다운로드하고 압축을 풀고 모델의 로컬 복사본에 적용한 다음 손실 증분(모델이 얼마나 개선되었는지를 측정하는 척도)을 계산합니다. 이 증분은 템플러의 건틀렛 시스템을 통해 채굴자의 기여도를 점수화하는 데 사용됩니다.
통신 오버헤드를 줄이기 위해 템플러의 연구팀은 먼저 블록 압축 디로코(CCLoco)를 개발했습니다. Nous와 마찬가지로 CCLoco는 Google의 DiLoCo 프레임워크와 같은 통신 효율이 높은 훈련 기법을 개선하여 노드 간 통신 비용을 몇 배나 줄이면서도 이러한 방법으로 인해 종종 발생하는 손실을 줄였으며, 모든 단계에서 완전한 업데이트를 전송하는 대신 설정된 간격으로 가장 중요한 변경 사항만 공유하고 실행 횟수를 작게 유지합니다. 의미 있는 데이터가 손실되지 않도록 합니다. 이 시스템은 경쟁 기반 모델을 사용하여 채굴자가 보상을 받기 위해 지연 시간이 짧은 업데이트를 제공하도록 인센티브를 제공합니다. 보상을 받으려면 채굴자는 효율적인 하드웨어를 배치하여 네트워크를 따라잡아야 합니다. 이러한 경쟁 구조는 충분한 성능을 유지할 수 있는 참여자만 훈련 과정에 참여할 수 있도록 설계되었으며, 가벼운 건전성 검사를 통해 명백히 불량하거나 잘못된 형식의 업데이트를 걸러냅니다.8월에 Templar는 업데이트된 훈련 아키텍처를 공식적으로 발표하고 SparseLoCo로 이름을 변경했습니다.
검증자는 Templar의 건틀릿 시스템을 사용하여 관찰된 모델 손실 감소 기여도를 기반으로 각 채굴자의 스킬 등급을 추적하고 업데이트합니다. 오픈스킬이라는 기술을 통해 지속적으로 유효한 업데이트를 제공하는 우수한 채굴자는 더 높은 스킬 등급을 받게 되며, 이를 통해 모델 집계에 대한 영향력을 높이고 더 많은 TAO(비텐서 네트워크의 기본 토큰)를 획득할 수 있습니다. 등급이 낮은 채굴자는 집계 과정에서 폐기됩니다. 평가 후, 가장 높은 서약을 한 검증자는 상위 순위 채굴자의 업데이트를 집계하고 새로운 글로벌 모델에 서명하여 저장소에 게시합니다. 동기화되지 않은 모델이 있는 경우 채굴자는 이 버전의 모델을 사용하여 따라잡을 수 있습니다.
템플러 분산형 교육 아키텍처
Templar는 현재까지 세 차례의 훈련, 즉 Templar I, Templar II, Templar III를 출시했습니다. Templar I은 전 세계에 약 200개의 GPU가 배치된 12억 개의 파라미터 모델이었으며, 현재 80억 개의 파라미터 모델을 훈련하고 있으며, 곧 더 큰 규모의 훈련을 출시할 계획으로 템플러 II가 진행 중입니다. Templar가 이 단계에서 더 작은 규모의 파라미터로 모델을 훈련하는 데 집중하는 것은 더 큰 규모의 모델로 확장하기 전에 분산형 훈련 아키텍처로의 업그레이드(위에서 설명한)가 효과적으로 작동하도록 하기 위한 신중한 선택입니다. 전략 및 일정 최적화부터 반복 및 인센티브 조사에 이르기까지, 더 작은 매개변수로 80억 개의 모델에서 이러한 아이디어를 검증함으로써 팀은 신속하고 비용 효율적으로 반복할 수 있습니다. 최근의 진전과 훈련 아키텍처의 공식 출시에 이어, 팀은 9월에 700억 개의 매개변수가 포함된 모델이자 지금까지 탈중앙화에서 가장 큰 규모의 사전 훈련 실행을 지원하는 Templar III를 출시했습니다.
TAO와 인센티브
템플러의 주요 특징은 TAO와 연계된 인센티브입니다. 모델과 연계된 인센티브입니다. 인센티브는 모델 훈련에 대한 기술 가중치 기여도에 따라 분배됩니다. 대부분의 프로토콜(예: 플루랄리스, 누스, 프라임 인텔리전스)은 라이선스 또는 프로토타입으로 운영되도록 구축되었지만, 템플러는 전적으로 비텐서의 실시간 네트워크에서 실행됩니다. 따라서 템플러는 탈중앙화된 트레이닝 프레임워크에 라이선스가 필요 없는 실시간 경제 레이어를 통합한 유일한 프로토콜입니다. 이러한 실시간 프로덕션 배포를 통해 Templar는 실시간 트레이닝 실행 시나리오에서 인프라를 반복할 수 있습니다.
각 비텐서 서브넷은 자체 "알파" 토큰으로 운영되며, 이는 서브넷의 인지된 가치에 대한 보상 메커니즘이자 시장 신호 역할을 합니다. 템플러의 알파 토큰을 감마라고 합니다. 알파 토큰은 외부 시장에서 자유롭게 거래할 수 없으며, 자동화된 시장 메이커(AMM)를 사용하여 해당 서브넷의 전용 유동성 풀을 통해서만 TAO로 교환할 수 있습니다. 사용자는 감마를 획득하기 위해 TAO를 담보하거나 감마를 TAO로 교환할 수 있지만 감마를 다른 서브넷의 알파 토큰으로 직접 교환할 수는 없습니다. 비텐서의 동적 TAO(dTAO) 시스템은 알파 토큰의 시장 가격을 사용해 서브넷 간 발행량 분배를 결정합니다. 감마 토큰의 가격이 다른 알파 토큰에 비해 상승하면 이는 템플러의 탈중앙화 트레이닝 역량에 대한 시장의 신뢰가 높아졌다는 것을 의미하며, 이는 서브넷에 대한 TAO 발행량 증가로 이어집니다. 9월 초 현재 템플러의 일일 발행량은 TAO 발행량의 약 4%를 차지하며, TAO 네트워크의 128개 서브넷 중 상위 6위에 랭크되었습니다.
서브넷의 발행 메커니즘은 다음과 같습니다: 각 12초 블록에서 비트센서 체인은 다른 서브넷 대비 서브넷의 알파 토큰 가격에 대한 비율에 따라 유동성 풀에 TAO 및 알파 토큰을 발행합니다. 서브넷 기여자에게 인센티브를 제공하기 위해 블록당 최대 하나의 전체 알파 토큰이 서브넷에 발행되며(초기 발행량은 절반으로 줄어들 수 있음), 이 중 41%는 채굴자에게, 41%는 검증자(및 그들의 질권자)에게, 18%는 서브넷 소유자에게 할당됩니다.
이 인센티브 메커니즘은 참여자가 제공한 가치에 금전적 보상을 연계하여 비트센서 네트워크에 대한 기여를 유도합니다. 채굴자는 모델 훈련이나 추론 작업과 같은 고품질의 AI 결과물을 제공함으로써 검증자로부터 더 높은 평가를 받고, 따라서 결과물에서 더 많은 몫을 차지할 수 있는 인센티브를 얻게 됩니다. 검증자(및 그들의 위임자)는 네트워크의 무결성을 정확하게 평가하고 유지한 것에 대해 보상을 받습니다.
알파 토큰의 시장 가치는 위임 활동에 따라 결정되며, 더 높은 효용성을 보여주는 서브 네트워크가 더 많은 TAO의 유입과 발행을 유도하여 혁신, 전문화, 지속적인 성장을 장려하는 경쟁 환경을 조성합니다. 서브넷 소유자는 일정 비율의 보상을 받게 되며, 이를 통해 효과적인 메커니즘을 설계하고 기여자를 유치할 동기를 부여받아 궁극적으로 라이선스가 필요 없는 탈중앙화된 AI 생태계를 구축하고 전 세계의 참여가 집단 지성의 발전에 기여할 수 있도록 할 것입니다. 이 메커니즘은 또한 검증자의 정직성 유지, 마녀사냥 방지, 담합 감소와 같은 새로운 인센티브 과제를 도입합니다. 비텐서 서브넷은 종종 시스템을 게임하려는 검증자 또는 채굴자와 이를 저지하려는 서브넷 생성자 간의 고양이와 쥐 게임으로 인해 어려움을 겪습니다. 이를 저지하려고 시도합니다. 장기적으로 보면, 서브넷 소유자가 악의적인 행위자를 이기는 방법을 배우면서 이러한 투쟁은 시스템을 가장 견고한 시스템으로 만들 것입니다.
>Gensyn은 2022년 2월 간소화된 첫 번째 백서를 발표하며 탈중앙화 트레이닝을 위한 프레임워크를 제시했습니다. 에서 암호화폐와 AI의 교차점을 이해하는 유일한 탈중앙화 트레이닝 프로토콜에 대해 다룬 바 있습니다.) 당시 이 프로토콜은 주로 AI 관련 워크로드의 검증에 중점을 두었으며, 사용자가 네트워크에 트레이닝 요청을 제출하고 컴퓨팅 제공자가 이를 처리하며 약속대로 실행되는지 확인할 수 있도록 했습니다.
원래의 비전은 또한 응용 머신 러닝(ML) 연구를 가속화할 필요성을 강조했습니다.2023년에 Gensyn은 이 비전을 기반으로 머신 러닝 컴퓨팅 리소스에 대한 글로벌 액세스에 대한 광범위한 요구를 명시하여 서비스를 제공했습니다. Gensyn은 이러한 프로토콜이 충족해야 하는 프레임워크로 일반성, 이질성, 오버헤드, 확장성, 탈신뢰, 지연 시간 등 GHOSTLY 원칙을 도입했습니다. Gensyn은 컴퓨팅 인프라 구축에 주력해 왔으며 이번 파트너십은 컴퓨팅을 넘어 다른 핵심 자원으로 공식적으로 확장하는 것을 의미합니다.
Gensyn의 핵심은 훈련 기술 스택을 실행, 검증, 커뮤니케이션, 조정의 네 가지 부분으로 나눕니다. 실행 파트는 머신러닝 연산을 수행할 수 있는 전 세계 모든 디바이스에서 작업을 처리하는 역할을 담당합니다. 통신 및 오케스트레이션 파트는 디바이스가 표준화된 방식으로 서로 정보를 전송할 수 있도록 합니다. 유효성 검사 구성 요소는 모든 연산을 신뢰 없이 계산할 수 있도록 보장합니다.
실행-RL 스웜
Gensyn이 이 스택을 처음 구현한 것은 RL Swarm이라는 애플리케이션입니다. 이 스택의 첫 번째 구현은 훈련 후 강화 학습을 위한 탈중앙화 조정 메커니즘인 RL Swarm이라는 훈련 시스템입니다.
RL Swarm은 라이선스가 필요 없고 신뢰가 최소화되는 환경에서 여러 컴퓨팅 제공자가 단일 모델의 훈련에 참여할 수 있도록 설계되었습니다. 이 프로토콜은 응답, 검토, 해결의 3단계 주기를 기반으로 합니다. 먼저, 각 참가자는 프롬프트에 따라 모델 출력(답변)을 생성합니다. 그런 다음 다른 참가자가 공유 보상 기능을 사용하여 이 결과물을 평가하고 피드백(리뷰)을 제출합니다. 마지막으로, 이러한 검토를 통해 가장 좋은 답을 선택하고 다음 버전의 모델에 반영합니다(풀이). 전체 프로세스는 중앙 서버나 신뢰할 수 있는 조직에 의존하지 않고 피어 투 피어 방식으로 진행됩니다.
RL 스웜 훈련 루프
강화 학습 스웜은 모델 사후 학습에서 강화 학습의 중요성이 커짐에 따라 구축되었습니다. 사전 훈련 단계에서 모델이 최대 크기 제한에 도달하면 강화 학습은 대규모 데이터 세트에 대해 다시 훈련할 필요 없이 추론, 명령어 준수 및 인수 분해 기능을 개선하는 메커니즘을 제공하며, Gensyn의 시스템은 강화 학습 루프를 각각 독립적으로 검증할 수 있는 역할로 세분화하여 분산 환경에서 이러한 개선을 달성합니다. 결정적으로, 내결함성 비동기 실행을 도입하여 기여자가 항상 온라인 상태이거나 완벽하게 동기화되어 있지 않아도 참여할 수 있습니다.
또한 본질적으로 모듈식입니다. 이 시스템은 특정 모델 아키텍처, 데이터 유형 또는 보상 구조를 사용할 필요가 없으므로 개발자가 특정 사용 사례에 맞게 훈련 루프를 조정할 수 있습니다. 코딩된 모델, 추론 에이전트, 특정 명령어 세트가 있는 모델 등 어떤 모델을 훈련하든 RL Swarm은 분산형 RL 워크플로우를 대규모로 실행할 수 있는 안정적인 프레임워크를 제공합니다.
검증-검증
이 보고서에서 지금까지 분산형 훈련에서 가장 덜 논의된 측면 중 하나는 검증이었습니다. 지금까지 이 보고서에서 탈중앙화 트레이닝의 가장 덜 논의된 측면 중 하나는 Gensyn이 GPU 시장을 위해 구축한 Verde 신뢰 계층인 Verde였습니다. Gensyn은 Verde를 통해 새로운 검증 메커니즘을 도입하여 프로토콜 사용자가 상대방이 약속한 대로 행동하고 있다는 것을 신뢰할 수 있도록 합니다.
각 훈련 또는 추론 작업은 앱에서 결정한 특정 수의 독립 공급자에게 파견됩니다. 이들의 결과가 정확히 일치하면 작업이 수락됩니다. 출력이 다르면 심판 프로토콜은 두 궤적이 갈라지는 첫 번째 단계를 찾아 해당 연산만 다시 계산합니다. 심판의 계산 결과와 일치하는 당사자는 지불금을 유지하고, 상대방은 자신의 지분을 잃게 됩니다.
이를 가능하게 하는 것은 일반적인 신경망 수학 연산(행렬 곱셈, 활성화 등)이 모든 GPU에서 고정된 결정론적 순서로 실행되도록 하는 "반복 가능한 연산자" 라이브러리인 RepOps입니다. 모든 GPU에서 순서를 지정할 수 있습니다. 결정론은 여기서 매우 중요합니다. 그렇지 않으면 두 검증자가 모두 정확함에도 불구하고 다른 결과를 생성할 수 있습니다. 따라서 정직한 제공자는 비트 단위로 동일한 결과를 제공하여 Verde가 해당 경기를 정확성 증명으로 취급할 수 있도록 합니다. 심판은 한 마이크로스텝만 재생하기 때문에 이러한 프로세스에서 일반적으로 사용되는 전체 암호화 증명의 10,000배에 달하는 오버헤드 대신 추가 비용은 몇 퍼센트 포인트에 불과합니다.

베르데 인증 프로토콜 아키텍처
지난 8월, Gensyn은 하드웨어 전반에서 비트 단위로 동일한 결과를 보장하는 Verde와 재현 가능한 런타임이라는 두 가지 핵심 구성 요소를 갖춘 검증 가능한 AI 평가 시스템인 Judge를 출시했습니다. 이를 입증하기 위해 Gensyn은 정보가 공개될 때 AI 모델이 복잡한 질문에 대한 답을 맞히는 '프로그레시브 공개 게임'을 시작했으며, Judge는 결과를 결정론적으로 검증하고 정확한 초기 예측에 보상을 제공합니다.
Judge는 AI/ML의 신뢰와 확장성 문제를 해결한다는 점에서 중요한 의미를 가집니다. 신뢰할 수 있는 모델 비교를 가능하게 하고, 위험이 높은 환경에서 투명성을 개선하며, 독립적인 검증을 허용하여 편향이나 조작의 위험을 줄여줍니다. 추론 작업 외에도 Judge는 분산형 분쟁 해결 및 예측 시장과 같은 다른 사용 사례를 지원할 수 있으며, 이는 신뢰할 수 있는 분산형 AI 컴퓨팅 인프라를 구축하려는 Gensyn의 사명에 부합하는 것입니다. 궁극적으로 Judge와 같은 도구는 반복성과 책임성을 향상시키며, 이는 AI가 점점 더 사회의 중심이 되는 시대에 매우 중요한 요소입니다.
커뮤니케이션 및 조정: Skip-Pipe와 다양한 전문가 통합
Skip-Pipe는 하나의 거대한 모델을 여러 머신에 걸쳐 조각내야 하는 과제에 대한 Gensyn의 해답입니다. 여러 머신에서 슬라이싱할 때 모델의 대역폭 병목 현상을 해결합니다. 앞서 언급했듯이 기존의 파이프라인 훈련은 각 마이크로배치가 모든 레이어를 순차적으로 통과하도록 강제하기 때문에 속도가 느린 노드가 있으면 파이프라인이 멈춥니다. skip-Pipe의 스케줄러는 지연을 유발할 수 있는 레이어를 동적으로 건너뛰거나 순서를 변경하여 반복 시간을 최대 55%까지 단축하고 노드의 절반이 실패하더라도 가용성을 유지합니다. 노드 간 트래픽을 줄이고 필요에 따라 레이어를 제거할 수 있으므로 트레이너는 대역폭이 낮은 지리적으로 분산된 GPU로 초대형 모델을 확장할 수 있습니다.
다양한 전문가 통합은 또 다른 조정 과제인 지속적인 크로스토크를 방지하는 강력한 '하이브리드 전문가' 시스템을 구축하는 방법을 해결합니다. Gensyn의 이기종 도메인 전문가 통합(HDEE)은 각 전문가 모델을 완전히 독립적으로 훈련하고 마지막에만 병합합니다. 놀랍게도 최종 통합은 테스트한 21개 도메인 중 20개 도메인에서 동일한 전체 계산 예산으로 균일한 벤치마크를 능가하는 성능을 보였습니다. 훈련 중에 머신 간에 그라데이션이나 활성화 함수의 흐름이 없기 때문에 유휴 GPU도 계산 성능에 기여할 수 있습니다.
스킵파이프와 HDEE는 함께 Gensyn에 효율적인 통신 솔루션을 제공합니다. 이 프로토콜은 필요한 경우 단일 모델 내에서 슬라이싱하거나 기존 방식처럼 완벽한 저지연 네트워크에서 운영할 필요 없이 훨씬 낮은 독립 비용으로 여러 명의 소규모 전문가를 병렬로 교육할 수 있습니다.
테스트 넷
3월에 Gensyn은 맞춤형 이더 롤업에 테스트 넷을 배포했습니다. 팀은 테스트넷을 점진적으로 업데이트할 계획입니다. 현재 사용자들은 젠슨의 세 가지 제품인 RL 스웜, 블록어시스트, 심판에 참여할 수 있습니다. 앞서 언급했듯이 RL 스웜은 사용자가 RL 사후 트레이닝 과정에 참여할 수 있도록 합니다. 8월에는 "수동 라벨링이나 RLHF 없이 사람의 행동에서 직접 에이전트를 훈련하는 방법인 보조 학습의 첫 번째 대규모 데모"인 BlockAssist를 출시했습니다. 사용자는 Minecraft를 다운로드하고 블록어시스트를 사용하여 Minecraft 모델을 훈련시켜 게임을 플레이할 수 있습니다.

위 섹션에서는 에서는 분산형 트레이닝을 구현하기 위해 구현된 주요 아키텍처에 대해 설명했습니다. 하지만 새로운 프로젝트가 등장하고 있습니다. 다음은 탈중앙화 훈련 분야의 새로운 프로젝트 중 일부입니다.
Fortytwo: Fortytwo는 모나드 블록체인 위에 구축되었으며, 여러 개의 소규모 언어 모델(SLM)이 노드 네트워크를 통해 협업하여 쿼리를 처리하고 동료 검토 결과를 생성하여 정확성과 효율성을 향상시킵니다. 이 시스템은 유휴 노트북과 같은 소비자급 하드웨어를 활용하므로 중앙 집중식 AI에서처럼 값비싼 GPU 클러스터가 필요하지 않습니다. 이 아키텍처에는 전용 모델을 위한 합성 데이터 세트 생성과 같은 분산형 추론 실행 및 훈련 기능이 포함되어 있습니다. 이 프로젝트는 모나드 개발 네트워크에서 진행 중입니다.
Ambient:앰비언트는 곧 출시될 유용성 증명 레이어 -1 블록체인으로, 항상 켜져 있고, 항상 사용 가능하며, 항상 준비된 블록체인을 위해 설계되었습니다. 앰비언트는 곧 출시될 '유용성 증명' 레이어 -1 블록체인으로, 중앙 집중식 감독 없이 허가 없는 생태계에서 지속적으로 작업을 수행하고 학습하며 진화할 수 있도록 온체인 상시 가동, 자율적으로 실행되는 AI 에이전트를 지원하도록 설계되었습니다. 네트워크 채굴자들이 공동으로 훈련하고 개선하는 단일 오픈 소스 모델을 사용하며, 기여자는 AI 모델을 훈련, 구축 및 사용하는 데 기여한 것에 대해 보상을 받게 됩니다. 앰비언트는 특히 에이전트와 관련하여 탈중앙화된 추론을 강조하지만, 네트워크의 채굴자는 네트워크를 뒷받침하는 기본 모델을 지속적으로 업데이트할 책임도 있습니다. 앰비언트는 새로운 지붕형 및 f-로그 메커니즘(검증자가 채굴자의 원시 출력 값( 로짓)이 모델 계산을 올바르게 실행했는지 검증자가 확인할 수 있는 시스템). 이 프로젝트는 솔라나의 포크에 구축되어 있으며 아직 공식적으로 운영되지 않습니다.
Flower Labs:Flower Labs는 협업을 지원하는 연합 학습용 오픈 소스 프레임워크인 Flower를 개발 중입니다. 원시 데이터를 공유할 필요 없이 AI 모델 훈련을 지원하여 모델 업데이트를 집계하는 동시에 개인 정보를 보호할 수 있으며, 조직과 개인이 로컬 데이터(예: 의료 또는 금융 영역)를 사용하여 모델을 훈련하고 안전한 매개변수 공유를 통해 글로벌 개선에 기여함으로써 데이터 중앙화 문제를 해결하기 위해 설립되었습니다. 토큰 보상과 검증 가능한 계산을 강조하는 암호화 네이티브 프로토콜과 달리, Flower는 실제 애플리케이션에서 개인 정보를 보호하는 협업을 우선시하므로 블록체인이 필요하지 않은 규제 산업에 이상적입니다.
Macrocosmos:Macrocosmos는 비텐서 네트워크에서 실행되며 5개의 서브넷에 걸쳐 완전한 AI 모델 생성 프로세스를 개발 중입니다. 하위 네트워크는 사전 훈련, 미세 조정, 데이터 수집 및 탈중앙화 과학에 중점을 둡니다. 이기종, 불안정, 라이선스가 필요 없는 하드웨어에서 대규모 언어 모델을 사전 학습하기 위해 인센티브 오케스트레이션 학습 아키텍처(IOTA) 프레임워크를 도입했으며, 이미 10억 개 이상의 파라미터 학습을 시작했고, 곧 더 큰 파라미터 모델로 확장할 계획입니다.
Flock.io: Flock은 연합 학습과 블록체인 인프라를 결합하여 모듈식 토큰 기반 네트워크에서 개인정보를 보호하는 협업 모델을 구현하는 탈중앙화된 AI 학습 생태계입니다! 개발. 참여자는 모델, 데이터 또는 계산 리소스를 제공하고 기여도에 비례하여 온체인 보상을 받을 수 있습니다. 데이터 프라이버시를 보호하기 위해 이 프로토콜은 연합 학습을 사용합니다. 이를 통해 참여자는 다른 사람과 공유되지 않는 로컬 데이터를 사용해 글로벌 모델을 훈련할 수 있습니다. 이 설정은 외부 데이터(데이터 중독이라고도 함)가 모델 훈련에 포함되지 않도록 추가적인 검증 단계가 필요하지만, 여러 의료 서비스 제공자가 매우 민감한 의료 데이터를 공개하지 않고 글로벌 모델을 훈련할 수 있는 의료 애플리케이션과 같은 사용 사례에 효과적인 롤아웃 시나리오입니다.
>지난 2년 동안 탈중앙화 훈련은 흥미로운 개념에서 실제 환경에서 작동하는 효과적인 네트워크로 변모해 왔습니다. 이러한 프로젝트는 아직 원하는 최종 상태와는 거리가 멀지만, 탈중앙화 훈련으로 가는 길에서 의미 있는 진전을 이루고 있습니다. 기존의 탈중앙화 트레이닝 환경을 되돌아보면 몇 가지 트렌드가 나타나기 시작했습니다.
실시간 개념 증명은 더 이상 허황된 꿈이 아닙니다. 지난 한 해 동안 Nous의 Consilience와 Prime Intellect의 INTELLECT-2와 같은 초기 증명은 생산 규모로 전환되었으며, OpenDiLoCo 및 프로토콜 모델과 같은 혁신은 분산 네트워크에서 고성능 AI를 구현하여 비용 효율적이고 탄력적이며 투명한 모델 개발을 촉진하고 있습니다.
코인텔레그래프는 SEC가 아이셰어즈의 비트코인(BTC) 현물 ETF를 승인했다고 트위터에 올렸으나, 블랙록에 의해 거짓으로 확인되었습니다.
Aaron사이버 범죄자들은 BNB 스마트 체인(BSC) 스마트 컨트랙트의 취약점을 이용해 바이러스 소프트웨어를 확산시키는 혁신적인 방법을 고안해냈습니다.
Jasper샘 뱅크먼-프라이드의 법무팀이 치열한 법적 공방이 벌어지고 있는 가운데 Adderall 액세스에 대한 지속적인 우려를 강조했습니다.
Hui Xin코인하우스는 "웹3.0에 대한 열의 감소와 취약한 글로벌 경제 환경" 등의 요인으로 인해 인력을 15% 감축할 예정이라고 밝혔습니다.
Catherine툰드라 e스포츠와의 인터내셔널 12(TI12)에서 놀라운 승리를 거둔 후, 도타 2의 저명한 조직인 명사 e스포츠는 대체 불가능한 토큰(NFT)과 관련된 홍보 전략에 대해 조사를 받고 있습니다.
Jasper팬텀 재단은 35개 이상의 암호화폐 지갑이 고갈되면서 65만 7천 달러가 유출되는 심각한 보안 침해에 직면했습니다.
Catherine하지만 항상 공격에 노출되어 있고, 2019년 5천만 달러 규모의 익스플로잇 공격이 눈앞에 다가온 만큼 업비트는 보안과 리스크에 대해 누구보다 신중하게 접근하고 있습니다.
Snake이번 인수는 비교적 최근 비트고에 대한 자금 조달과 한국 하나은행과의 파트너십에 이은 것입니다.
Clement이들 거래소는 특히 랩드 에버(WEVER) 토큰에 대한 입출금을 중단했으며, 네이티브 에버 토큰은 옥터스 브리지에서 안전하게 유지되고 영향을 받지 않습니다.
Davin바이낸스닷컴은 더 이상 USD 출금을 허용하지 않으며, 사용자에게 USD를 스테이블코인 또는 기타 디지털 자산으로 전환할 것을 요청합니다.
Kikyo