구글 딥마인드, SIMA 2로 가상 인텔리전스 분야 진출 확대
구글 딥마인드는 3D 가상 세계 내에서 독립성과 추론 능력을 갖추고 미래의 실제 로봇 공학에 더 가깝게 작동하도록 설계된 업그레이드된 AI 에이전트인 SIMA 2를 공개했습니다.
이 에이전트는 작년의 SIMA 모델을 기반으로 구축되었지만 이제는 Google의 Gemini AI에서 실행되므로 기존 시스템에서는 할 수 없었던 방식으로 계획하고, 결정을 설명하고, 경험을 통해 학습하고, 사용자와 협업할 수 있습니다.
딥마인드는 SIMA 2를 가상 환경의 '동반자', 즉 시뮬레이션된 키보드와 마우스 컨트롤을 사용하여 대화하고, 높은 수준의 목표를 해석하고, 작업을 수행할 수 있는 AI라고 설명합니다.
회사 측은 이렇게 말했습니다,
"이는 인공 일반 지능(AGI)의 방향으로 나아가는 중요한 단계이며, 로봇 공학 및 AI 구현 전반의 미래에 중요한 의미를 담고 있습니다."
제미니를 기반으로 더욱 강력해진 에이전트
Gemini로의 업그레이드는 SIMA 2의 핵심입니다.
멀티모달 기능을 통해 상담원은 텍스트, 음성, 스케치, 심지어 이모티콘에 응답하면서 실시간으로 작업을 수행할 수 있습니다.
구글 딥마인드는 X에 "SIMA 2는 가상 3D 세계를 위한 가장 뛰어난 AI 에이전트"라며 "텍스트, 음성, 심지어 이미지를 통해 대화할 수 있다"고 설명했습니다.
이러한 전환을 통해 상담원은 복잡한 지침을 해석하고, 명확한 질문을 하고, 수행하려는 단계를 설명할 수 있습니다.
또한 이 모델은 내부 게임 데이터에 액세스하지 않고 화면의 비주얼만 분석하여 이전에 경험하지 못한 작업에 맞게 동작을 조정할 수 있습니다.
지금까지 본 적 없는 게임에서 SIMA 2는 어떻게 작동하나요?
테스트 기간 동안 SIMA 2는 MineDojo와 ASKA를 비롯한 낯선 환경에서 훨씬 더 많은 작업을 해결했습니다.
성공률은 45~75% 사이로, 동일한 설정에서 SIMA 1의 15~30%에 비해 훨씬 높았습니다.
모든 벤치마크에서 새 에이전트는 65%의 작업을 완료하여 SIMA 1의 31%보다 두 배 이상 높았습니다.
예를 들어 건설 게임에서 '수확'을 탐험 게임의 '채굴'과 비슷하게 취급하는 등, 심마 2는 한 게임에서 다른 게임으로 개념을 옮길 수 있다는 사실을 발견했습니다.
이러한 수준의 추상화는 연구자들이 궁극적으로 로봇 공학에 적용될 수 있기를 바라는 기능 중 하나입니다.
딥마인드의 연구 과학자 조 마리노는 기본적인 행동에도 계층화된 추론이 필요하다고 말합니다.
"진행을 위해 해결해야 하는 매우 복잡한 작업 집합입니다."
게임에서 볼 수 있는 여러 단계의 도전 과제는 실제 로봇 공학에서 작업에 필요한 순차적이고 복잡한 요구 사항과 유사합니다.
단순한 시연이 아닌 경험을 통한 학습
SIMA 2의 훈련은 노 맨스 스카이, 고트 시뮬레이터 3 등 8개의 상용 타이틀과 3개의 맞춤형 환경에서의 실제 게임플레이 영상으로 시작되었습니다.
하지만 더 주목할 만한 발전은 사람이 직접 입력한 데이터 없이도 에이전트가 개선할 수 있는 능력입니다.
초기 시연 후 시스템은 자기 주도 학습으로 전환되었습니다.
Gemini는 새로운 작업을 생성하고, SIMA 2의 시도를 평가하고, 각 실패 후 팁을 제공했습니다.
반복된 시도를 통해 SIMA 2는 동작을 조정하고 자체 궤적 데이터를 생성하여 자율적으로 기술을 개선하는 데 도움이 되는 루프를 형성했습니다.
단일 이미지에서 생성된 SIMA 2 인사이드 월드 테스트하기
딥마인드는 또한 하나의 이미지나 텍스트 프롬프트만으로 3D 환경을 생성할 수 있는 프로젝트인 Genie 3에서 만든 실험용 월드에서 SIMA 2를 테스트했습니다.
이 낯선 세계가 형성된 지 얼마 지나지 않아 에이전트는 스스로 방향을 잡고 목표를 해석하며 의미 있는 행동을 취할 수 있었는데, 연구자들은 이러한 행동이 SIMA 1에서는 관찰되지 않았다고 말합니다.
마리노는 이러한 적응력을 예측할 수 없는 환경에서도 탐색하고 도구를 사용하며 사람들과 협업할 수 있는 유연한 에이전트, 즉 AGI와 미래 로봇을 향한 '근본적인' 단계라고 말했습니다.
이 기술은 어디까지 발전할 수 있을까요? 전문가들의 의견
일부 연구자들은 원시 시각적 입력으로 여러 게임을 제어하는 것은 오랫동안 어려운 과제였기 때문에 SIMA 2의 성과가 두드러진다고 말합니다.
뉴욕대학교의 AI 연구원 줄리안 토겔리우스는 이전의 멀티 게임 시스템인 GATO를 언급하며 이전의 시도들이 어려움을 겪었다고 지적했습니다.
"시각적 입력만으로 실시간으로 플레이하는 것이 '하드 모드'입니다."
실제 영향력에 대해 회의적인 시각을 가진 사람들도 있습니다.
앨버타 대학교의 매튜 구즈디알은 대부분의 게임이 비슷한 키보드와 마우스 컨트롤에 의존하기 때문에 SIMA 2가 많은 게임에서 좋은 성능을 발휘하는 것은 놀라운 일이 아니라고 말했습니다.
"이상한 입력이 있는 게임을 앞에 놓으면 좋은 성능을 낼 수 없을 것 같습니다."
또한 게임에서 배운 시각적 이해가 비디오 게임 그래픽보다 훨씬 지저분한 카메라 데이터를 가진 실제 로봇에 원활하게 전달될 수 있을지에 대해서도 의문을 제기했습니다.
오늘날에도 여전히 SIMA 2를 제한하는 요소
딥마인드는 시스템의 지속적인 약점을 공개적으로 인정하고 있습니다.
SIMA 2는 매우 긴 다단계 작업에 어려움을 겪고 있으며, 상호작용의 반응성을 유지하기 위해 단기적인 컨텍스트만 유지합니다.
시뮬레이션된 키보드와 마우스 컨트롤은 실제 플레이어보다 정확도가 떨어지며, 바쁘거나 복잡한 3D 장면에서는 시각적 해석이 여전히 실패합니다.
이러한 격차는 현재 시스템이 범용 인텔리전스와 얼마나 멀리 떨어져 있는지를 보여줍니다.
현재 SIMA 2는 일부 학계와 개발자만 이용할 수 있는 연구 프로젝트로 남아 있습니다.
SIMA 2는 언젠가 더 나은 로봇으로 이어질 수 있을까요?
딥마인드는 탐색, 도구 사용, 추론, 협업 등 SIMA 2가 학습하고 있는 기술이 미래 범용 로봇의 기초를 형성한다고 믿습니다.
팀은 SIMA의 시행착오 학습과 Genie 3의 무한한 가상 세계를 결합하여 에이전트가 지속적으로 개선할 수 있는 지속적인 훈련 루프를 만들기를 희망합니다.
마리노가 말했습니다,
"우리는 이제 막 가능성의 표면을 긁어낸 것일 뿐입니다."
가상 학습 환경은 결국 시뮬레이션과 실제 로봇 공학 사이의 간극을 메울 수 있습니다.