Google가 강력한 세계 모델 Genie 3를 출시했습니다 - 이것이 바로 미래입니다.
OpenAI의 오픈소스 gpt-oss 외에도, 제가 정말로 언급할 가치가 있다고 생각하는 것이 있습니다.
바로 Google이 발표한 이 세계 모델, Genie 3입니다.
20년 가까이 게임 플레이어이자 10년 가까이 VR 플레이어로서, 이 영상을 볼 때 심장이 정말 뛰었습니다.
하지만 잠을 이룰 수 없어 일어나서 이 주제에 대해 이야기하기로 결심했습니다. 먼저 영상을 보세요.
이것은 단순히 상호작용이 가능한 AI 영상 모델이 아니며, Sora나 Veo의 단순한 업그레이드도 아닙니다.
만약 이를 단순히 실시간 상호작용이 가능한 Sora로 이해한다면, 그 혁신성을 완전히 과소평가하는 것입니다.
Genie 3는 세계 모델(World Model)입니다.
제게는 이는 창조의 엔진의 초석과도 같습니다.
우리는 새로운 세계의 문턱에 서 있으며, 구글은 우리에게 그 문을 살짝 열어주었습니다.
Genie 3의 파괴적 혁신을 이해하려면 먼저 한 가지 개념을 명확히 해야 합니다. 세계 모델. 이 용어는 추상적으로 들릴 수 있지만, 간단한 비유로 설명할 수 있습니다.
예를 들어 과거의 비디오 생성 모델인 Sora는 영화 감독과 비슷합니다. 그는 이미 영화를 촬영하고 편집하며 특수 효과를 추가한 후 당신에게 보여줍니다.
화면은 아름답고 이야기는 완성되어 있지만, 당신은 순수한 관객일 뿐이며, 어떤 것도 바꿀 수 없습니다.
반면 세계 모델은 실시간 계산이 가능한 비디오 게임 엔진과 더 유사합니다. 각 단계는 현재 상태와 사용자 조작에 따라 다음 순간의 화면을 결정합니다. 이 게임 엔진은 물리 법칙(예: 물체가 아래로 떨어지고 벽에 부딪히면 반사됨), 환경 설정, 심지어 NPC의 행동 논리까지 갖춘 세계를 구축합니다.
무대를 마련한 후, 그것은 당신의 명령을 기다립니다. 컨트롤러의 버튼을 누르면, 이 세계의 규칙에 따라 실시간으로 계산하고 렌더링하여 다음에 일어날 일을 보여줍니다. 이것이 Genie 3와 Sora, Veo3 같은 AI 비디오 제품의 가장 근본적인 차이입니다.
하나은 사전 녹화된 영화이고, 다른 하나는 실시간으로 계산되는 시뮬레이터입니다. 전자는 서사의 종착점이고, 후자는 세계의 출발점입니다.
Genie 3의 데모에서 하늘을 나는 헬리콥터 장면이 인상적인 이유는, 모든 회전과 바다 표면의 파도 움직임이 사용자의 실시간 입력에 대한 즉각적인 피드백이기 때문입니다. 모든 장면은 안정적으로 일관되게 유지됩니다.
이것은 고정된 비디오를 재생하는 것이 아니며, 모든 장면은 사전에 모델링된 3D 장면도 아닙니다. 당신이 컨트롤러의 방향 키를 누르는 순간, 그것은 당신을 위해 전 세계를 생성합니다.
이 능력은 게임에서 일반적으로 '창조'라고 불립니다. 예를 들어 이 도마뱀의 세계입니다.
또 이 산맥이 떠다니고, 절벽이 뒤집혀 있으며, 강이 공중에서 휘어지는 세계입니다. 모든 것은 당신의 이동, 점프, 움직임에 따라 실시간으로 생성됩니다. 이 화질, 안정성, 일관성, 상호작용성. 정말 놀랍습니다. 물론 Genie 3는 갑자기 나타난 기적이 아닙니다. 로마도 하루 아침에 지어지지 않았습니다.
그들은 이전에 많은 실험을 진행했습니다. GameNGen은 2023년 초 DeepMind(정확히 말하면 Google Research)의 실험적 프로젝트로, 전체 이름은 'Diffusion Models Are Real-Time Game Engines'입니다.
당시 데스워치를 기반으로 짧은 제어 가능한 비디오를 실시간으로 생성하는 실험을 진행했으며, 꽤 인기를 끌었습니다. 하지만 그때는 여전히 매우 실험적이었고, 해상도는 초라한 320p에 불과했습니다. 이후 그들은 Genie 1과 Genie 2를 개발했습니다.
해상도는 360p로 향상되었고, 적용 범위도 더 일반적인 3D 환경으로 확장되었습니다. 하지만 주의할 점은 무엇일까요? 상호작용 지연 시간 항목에 '실시간이 아님'이라고 표시되어 있으며, 매우 지연이 심합니다.
더 복잡한 환경을 추구하기 위해 그들은 가장 중요한 실시간성을 희생했습니다. 동시에 상호작용 시간도 몇 초에서 10~20초로만 개선되었습니다. 세계 모델을 탐구하는 동시에, AI 비디오의 또 다른 경로도 급속히 발전했습니다. 대표작은 모두가 알고 있을 것입니다. 바로 Veo입니다.
Veo는 해상도를 직접 4K 수준으로 끌어올렸고, 생성된 영상은 매우 일반적이고 현실적입니다. 현재 가장 뛰어난 AI 영상 모델이라고 할 수 있습니다.
하지만 그 본질은 여전히 AI 영상 모델이며, 상호작용은 없습니다. 그것은 화질과 현실감이라는 길을 극한까지 추구합니다. 그리고 오늘, 주인공 Genie 3가 등장했습니다. 그것은 선배들의 해결되지 않은 모순을 해결한 종합적인 모델입니다.
상호작용 지연: 실시간, 이는 GameNGen의 초기 꿈을 되찾았습니다.
상호작용 시간: 수 분, Genie 2의 십여 초에 비해 수십 배의 개선입니다.
제어 방식: 내비게이션 + 세계 이벤트 알림, 단순히 행동을 제어하는 것뿐 아니라 언어로 직접 세계를 창조할 수 있습니다.
해상도: 720p, 실시간성과 상호작용 시간을 보장하면서 최적의 화질 균형점을 찾은 매우 현명한 선택입니다.
이 역사를 이해하면, '일관성'이라는 치명적인 문제를 더 깊이 느낄 수 있습니다.
Genie3에서는 시작 화면이 칠판으로, 그림과 글자가 있습니다. 가까이 가서 자세히 살펴보고, 옆으로 가서 창 밖을 바라본 후 1분 후 돌아오면, 칠판의 내용은 한 글자도 변하지 않고 그대로 있습니다.
이 일관성, 이 기억 능력은 정말 놀랍습니다.
또 이 영상도 있습니다.
그들은 상호작용 과정 내내 건물 왼쪽의 나무가 일관성을 유지하도록 보장할 수 있습니다. 나무가 시야에 들어왔다 나갔다 해도 말이죠.
정말 대단합니다.
약 한 달 전쯤, Odyssey라는 제품을 체험해봤습니다. 역시 세계 모델이었습니다.
솔직히 말해서, 그건 정말로 끔찍한 경험이었습니다.
캐릭터를 앞으로 몇 초만 움직여도 화면이 깨지고 왜곡되기 시작했습니다.
가장 무서운 건, 뒤를 돌아볼 때마다 지나온 길이 완전히 달라졌고, 매번 돌아볼 때마다 그 변화가 반복되었다는 점입니다.
그 느낌은 마치 끊임없이 녹아내리고 재구성되는 공포의 공간을 걷는 것 같았고, 극도의 불안감을 느꼈습니다.
저는 세계 모델 속에서 공포의 유람선 같은 느낌을 경험했습니다.
그리고 Genie 3의 가장 뛰어난 점은 바로 이 치명적인 문제에서 돌파구를 마련했다는 점입니다.
그 안정적인 상호작용 시간이 10초에서 수분으로 급증했을 때, 우리는 Odyssey의 뒤를 돌아보면 무너지는 공포 체험에서 벗어나, 적어도 수분 동안 신뢰할 수 있고 탐험할 만한 안정된 세계로 나아갈 수 있게 되었습니다.
따라서 Genie 3는 제게 있어 부분적으로 통제 가능한 맑은 꿈과 같습니다.
화려하고 변화무쌍하며 놀라움으로 가득 차 있지만, 현재는 여전히 언제든 깨어날 수 있는 꿈과 같습니다.
그럼에도 불구하고, 그것이 보여주는 가능성은 제게 전례 없는 상상력을 선사했습니다.
이 꿈 속에서 당신은 창조주처럼 자유롭게 수정할 수 있습니다.
이 창조 엔진이 성숙해지면, 기존 일부 산업에 미치는 영향은 핵폭탄급이 될 것입니다.
저는 수년간 VR을 플레이해왔지만, 가장 큰 문제점은 항상 콘텐츠 부족이었습니다.
우리는 여전히 드물고 고립된 아름다운 3D 장면을 경험할 뿐, 살아있는 세계를 경험하지 못했습니다.
미래에는 VR 헤드셋을 착용하고 앱 목록을 열지 않고, AI 어시스턴트에게 한 마디만 하면 됩니다: “비 오는 밤의 사이버펑크 도시로 데려가줘. 멀리서 경적 소리가 들리고, 골목에 라면 장사하는 노점이 있어야 해.”
그러면 당신만을 위해 탄생한 유일무이하고 실시간으로 탐험할 수 있는 세계가 펼쳐집니다.
VR은 콘텐츠 소비 장치에서 세계 생성 포털로 변모할 것입니다. 콘텐츠 문제를 해결해야만 메타버스가 진정한 모습을 갖추게 됩니다.
이것이 바로 오아시스의 진정한 매력입니다.
게임 산업에도 마찬가지입니다.
현대 3A 게임의 개발 비용은 수억 달러에 달하며, 그 대부분은 방대하고 세밀한 게임 세계 구축에 투입됩니다. 이는 노동 집약적이며 자본 집약적인 산업입니다.
예를 들어 미래의 《상고권투6》나 《GTA7》, 또는 《보드의 문4》에서는 주 스토리 외에도 게임 과정에서 개인 의식을 가진 NPC와 대화하며 새로운 부차적 임무를 트리거할 수 있습니다.
“용에 의해 파괴된 마을의 시리즈 임무로, 폐허 속에서 생존자를 찾고 용의 둥지를 찾아야 합니다.”
물론, 순수한 무작위 스토리나 게임이 얼마나 재미있을 수 있는지 말하려는 것은 아닙니다. 스토리텔링과 게임 제작은 사람들이 재미있고 흥미롭게 느끼도록 만드는 것이 매우 어려운 일이며, 규칙의 제약이 매우 중요합니다.
세계 모델의 가치는 정교한 인간 규칙 설계 하에서 무한하고 논리적인 동적 세부 사항을 채울 수 있다는 점에 있습니다.
게임의 확장성은 크게 확대되었으며, 제작자나 디자이너는 이 AI 세대의 무작위 규칙을 지정할 수 있습니다. 《No Man's Sky》의 행성을 생성하는 것처럼 규칙으로 세계 모델의 생성을 제약함으로써, 게임성과 스토리성을 유지하면서 플레이어의 경험을 인간과 상상력에 의존하는 것에서 벗어나, 이 세계의 주도권을 일부 플레이어에게 돌려주는 것입니다.
플레이어는 단순히 플레이어가 아니라, 레벨 디자이너, 미션 제공자, 심지어 세계관의 공동 창조자가 됩니다.
공식 데모에서 지능체가 Genie 3가 생성한 세계에서 미션을 완료하는 모습을 보면, 이는 미래의 일부분을 이미 보여주고 있습니다.
VR, 게임 외에도 영화가 있습니다.
영화가 탄생한 지 100년이 넘었지만, 여전히 선형적이고 감독 중심의 구조로, 관객은 카메라의 움직임을 따라가며 미리 정해진 이야기를 수동적으로 시청해 왔습니다.
지난해 일부 인터랙티브 영화와 게임이 인기를 얻으면서 스토리텔링 방식에 약간의 변화가 시작되었지만, 인터랙티브 영화와 게임의 줄거리 역시 본질적으로 미리 정해진 이야기입니다.
Genie 3, 특히 그 속의 상호작용 가능한 세계 이벤트는 새로운 서사 형식의 탄생과도 같습니다.
미래의 영화는 아마도 당신이 주도하는 꿈과도 같은 경험이 될 것입니다.
주인공이 선택의 순간에 직면했을 때, 당신은 일시정지하고 언어로 다음 장면을 연출할 수 있습니다.
“하늘에 눈이 내리게 하고, 그들이 눈 속에서 포옹하게 하라.” 또는 “악당의 전화가 갑자기 울려 그들의 대치를 방해하게 하라.”
당신은 더 이상 관객이 아니라, 신의 권한을 일부 가진 참여자가 됩니다.
이것은 《블랙 미러: 판다스네이크》와 같은 선택 분기형 인터랙티브 드라마보다 훨씬 더 나아가 있습니다.
A와 B 사이에서 선택하는 것이 아니라, 무한한 가능성의 공간에서 자유롭게 창작하는 것입니다.
영화와 게임의 경계는 여기서 완전히 사라질 것입니다.
그런 미래를 생각하면 가슴이 벅차오릅니다.
물론, 우리는 Genie 3의 현재 한계를 명확히 인식해야 합니다.
몇 분간의 상호작용 시간만 유지 가능, 현실 세계를 정확히 시뮬레이션할 수 없음, 텍스트 렌더링 능력 부족…
또한, 현재 일반 공개되지 않았으며, 실제 제품이 출시될 때 효과가 줄어들지 않을지 모르겠습니다.
그것은 100여 년 전 루미에르 형제가 카페에서 상영한 첫 번째 영화 《열차의 도착》과 같습니다. 거칠고 흑백이며 무성 영화로, 당시 사람들에게 공포를 줄 수도 있었습니다.
하지만 이는 중요하지 않습니다.
중요한 것은, 그것이 한 가지를 증명했다는 점입니다: 길은 열려 있습니다.
과거에는 우리는 텍스트와 구두로 신화를 전승했습니다.
나중에는 그림과 영화로 신화를 묘사했습니다.
그리고 오늘날, 우리는 직접 신화를 창조할 수 있는 능력을 얻게 될 것입니다.
그럼 질문이 생깁니다.
“당신은 과연 어떤 세상을 원하시나요?”
- 선택됨
