전망에서 가장 뛰어난 텍스트-이미지 연구 능력을 가진 skywork ai 지능형 모델이 충격적으로 출시되었습니다. 보고 나니 바로 브라우저를 삭제했어요.
광란의 7월이 막을 내렸습니다. 중국 대형 모델을 한 단어로 표현한다면, '오픈소스'가 단연코 가장 자주 언급되는 키워드임에 틀림없습니다.
Hugging Face가 발표한 중국 AI 커뮤니티 7월 오픈소스 성과에서 QWEN, Zhipu, Skywork AI, Kimi, 텐센트, Jiaoyue Xingchen 등 다수 업체가 총 33개의 대규모 모델을 오픈소스화했다.
8월에 들어서도 중국 대형 모델의 ‘신제품 출시’ 기세는 조금도 줄지 않았으며, 중량급 성과 발표 열기는 계속 달아올랐다. 그중 지난달에 2세대 보상 모델 Skywork-Reward-V2, 다중 모드 이해 모델 Skywork-R1V3, 다중 모드 통합 사전 훈련 모델 Skywork UniPic을 연이어 오픈소스화한 skywork ai가 또 한 차례 기술 대방출을 공식 발표했다!
월요일부터 skywork ai는 Skywork AI 기술 발표 주간을 공식 시작했습니다! 5일 연속으로 매일 새로운 모델이 공개되었는데, 영상 생성 모델 SkyReels-A3, 세계 모델 Matrix-Game 2.0, 이미지 생성 통합 모델 Skywork UniPic 2.0부터 심층 연구 에이전트 모델에 이르기까지, 다중 모달 AI의 핵심 분야를 거의 모두 아우르며 알찬 내용을 선보였습니다.
8월 14일, 기술 공개 주간의 네 번째 날, skywork ai는 최신 에이전트 성과를 발표하며 지능형 에이전트 분야에서의 탐구와 전략적 포부에 새로운 가능성을 열었습니다. 얼마 전까지만 해도 skywork ai는 세계 최초의 오피스 지능형 에이전트인 skywork office agent free를 선보이며 다수의 랭킹에서 정상에 올랐고, 문서, PPT, 엑셀, 웹페이지, 팟캐스트 등 다양한 작업 수행에서 원스톱 생성 능력을 과시했습니다.이 무료 AI PPT 생성 에이전트를 무료로 사용해 보세요
이번에 skywork ai는 천공(天工) 슈퍼 에이전트의 핵심 엔진인 Skywork Deep Research Agent를 V2 버전으로 업그레이드했습니다. 새 버전은 심층 연구 경험을 새로운 차원으로 끌어올렸을 뿐만 아니라, 다중 모달 정보 검색 및 생성, 브라우저 에이전트 작업에서 독립적인 에이전트 모듈을 활용해 성능, 안정성, 지능화 수준이 균형 있게 도약하도록 했습니다.
성능이 얼마나 뛰어난지, 먼저 벤치마크 점수를 공개합니다. 먼저 권위 있는 검색 평가 순위인 BrowseComp에서 Skywork Deep Research는 일반 추론 모드에서 정확도 27.8%를 달성해 GLM-4.5, StepFun Deep Research, Claude-4-Opus 등 국내외 대부분의 주요 동종 제품을 앞섰습니다. 자체 개발한 ‘병렬 사고’ 모드를 활성화하면 정확도는 38.7%로 급상승하며 업계 SOTA 기록을 단번에 경신, Grok-4를 포함한 모든 경쟁 제품을 제쳤습니다.
또한, 세계에서 가장 도전적이고 광범위한 에이전트 벤치마크 세트인 GAIA에서 Skywork Deep Research Agent 역시 SOTA 성적을 경신하며 모든 경쟁 제품을 뛰어넘었습니다. 복잡한 과제에서의 강력한 성능은 말할 필요도 없으며, 이는 기술적 가치를 입증하는 강력한 근거가 됩니다.
지금 바로 슈퍼 에이전트(Skywork Super Agents)에서 경험해 보세요!
- 글로벌 공식 사이트: https://skywork.ai
이 새로운 에이전트가 실제 운영에서 기대에 부응할 수 있을까요? 직접 테스트해 본 결과 놀라운 성과를 확인했습니다.
에이전트 심층 연구의 전지각 시대
다중 모달 정보 검색에서 시작하다
지난해 12월, 구글은 Gemini Deep Research 기능을 출시하며 세계 최초의 AI 연구 어시스턴트 시대를 열었습니다. 이 기능은 웹 페이지를 자동으로 탐색하고 핵심 정보를 통합하여 구조화된 연구 보고서를 생성합니다. 이는 전통적인 연구원이 며칠 동안 고생하며 해야 할 작업을 단 몇 분 만에 완료할 수 있음을 의미합니다. 이 기능은 출시되자마자 업계의 주목을 받았으며, OpenAI, xAI, Perplexity AI 등 다른 대규모 모델 업체들도 잇따라 자체 Deep Research를 출시했습니다.
이러한 딥 리서치 기능들은 텍스트 정보 추출 및 정리에 높은 효율성을 보이지만, 순수 텍스트 검색과 분석에 지나치게 의존하여 이미지, 차트 등 시각적 콘텐츠를 종종 간과합니다. 현재 인터넷상의 핵심 정보 절반 이상은 재무보고서의 그래프, 연구 논문의 실험도, 소셜미디어의 비교 사진, 업무 제안서의 프로세스 다이어그램 등 텍스트와 이미지가 혼합된 형태로 제공됩니다. 이러한 이미지 정보가 무시된다면 연구 보고서의 완전성과 정확성은 크게 저하될 것입니다.
이러한 문제점을 해결하기 위해 skywork ai는 업계 최초의 「다중 모달 심층 리서치」 에이전트를 출시했습니다. 혁신적으로 다중 모달 검색 이해와 크로스 모달 생성 능력을 통합함으로써, 이미지나 차트 등의 정보를 인식하고 처리할 뿐만 아니라 이미지 내 핵심 정보를 보고서에 통합하고, 그림 설명 및 종합 차트를 생성하여 연구원들에게 더욱 포괄적이고 정확한 보고서를 제공합니다.
예를 들어, 다음과 같은 프롬프트를 입력합니다: 풍부한 차트를 활용하여 2025년 테슬라의 중국 내 판매 현황을 상세히 분석하고, 판매량 변화의 핵심 원인을 밝혀주세요.
임무를 수령한 후, 먼저 작업 요구사항을 선택할 수 있는 양식이 표시됩니다. 여기에는 작성 언어, 분량, 분석 차원, 선호하는 차트 유형, 핵심 원인 분석 관점 등이 포함됩니다. 이를 통해 사용자는 자신의 구체적인 요구에 따라 보고서의 내용, 깊이, 표현 방식을 맞춤 설정할 수 있습니다.
요구사항을 확인하면, 시스템은 할 일 목록을 생성한 후 다양한 도구를 호출하여 웹 페이지를 검색·열람하고 정보를 통합합니다. 특히 이미지 관련 부분에서는 자동으로 MCP 도구를 호출하여 이미지 분석 및 차트 제작을 수행합니다.
180개 웹페이지 탐색 및 54개 정보 출처를 활용하여 최종적으로 상세한 테슬라 중국 판매량 분석 보고서를 출력합니다.
보고서에는 테슬라 중국 월별 판매량 추이 선형 차트, 주요 도시 판매량 막대 차트, 중국 신에너지차 시장 점유율 파이 차트 등 풍부한 차트 자료가 포함됩니다. 더 중요한 점은 이미지에 담긴 정보를 보고서 본문 내용에 자연스럽게 통합하여 보다 포괄적인 텍스트 해석을 제공한다는 것입니다.
허위 주장을 방지하기 위해 모든 중요 데이터에는 출처가 표기되어 마우스 클릭 시 바로 이동 가능합니다.
또한 텍스트 내용에 따라 적절한 위치에 대응하는 이미지를 삽입하고 간결한 캡션을 자동 생성합니다. 차트가 많은 보고서의 경우 차트 설명을 위한 별도 섹션을 마련하기도 합니다.
이러한 실측 결과는 구글 Gemini Deep Research가 해결하지 못한 텍스트-이미지 간 격차를 skywork ai의 에이전트가 손쉽게 극복했음을 의미합니다. AI가 진정한 전문 연구원의 인지 및 표현 능력을 갖추기 위해서는 다중 모달 크롤링, 장거리 다중 모달 정보 수집, 비동기 병렬 Multi-Agent 다중 모달 이해 아키텍처, 다중 모달 결과 제시라는 네 가지 핵심 기술적 돌파구가 필수적입니다:
- 첫째, MM-Crawler 도구를 활용해 구조화된 텍스트, 이진 이미지, 메타데이터를 병렬 크롤링하고, ‘시각적 노이즈 트리밍’ 기술로 밀리초 단위 저정보밀도 이미지를 제거해 평균 65%의 중복 이미지 트래픽을 절감합니다.
- 둘째, 대규모 「텍스트 - 이미지 - 추론 체인」 합성 데이터 훈련을 활용하여 장거리(수십 단계 수만 단어) 컨텍스트 인식 및 이미지 정보 증폭 판단 능력을 구현했습니다. 이를 통해 심층 추론이 필요한 이미지 수를 절반으로 압축하여 계산 자원을 효과적으로 절약했습니다.
- 셋째, 비동기 병렬 Multi-Agent 아키텍처를 활용해 서로 다른 작업을 다양한 에이전트에 지능적으로 분배하여 병렬 실행하며, 「다중 트랙 실행 + 통합 처리」 설계를 결합해 텍스트와 이미지를 포함한 다중 모달 검색 및 이해 효율을 향상시킵니다.
- 마지막으로 결과 생성 단계에서 정보의 「전사 — 삽화 — 재구성」 삼위일체 자동 생성 방식을 지원하여, 이미지 정보를 텍스트 해석에 통합하거나 원본 이미지를 삽입한 후 다중 이미지·다중 모달 정보를 융합해 종합 차트를 재구성함으로써 정보가 완전하고 시각적으로 친화적인 심층 보고서를 출력합니다.
현재 해당 기능은 skywork.ai 공식 웹사이트에 공개되어 누구나 체험할 수 있습니다.
기존 브라우저 에이전트의 한계를 돌파소셜 플랫폼 콘텐츠 심층 분석
이어서 Skywork Deep Research Agent V2의 또 다른 핵심 기능 모듈인 다중 모달 심층 브라우저 에이전트(Skywork Browser Agent)를 살펴보겠습니다.
실제 적용에서 기존 브라우저 에이전트는 여러 한계점을 보입니다. 예를 들어 실행 효율이 낮고 성공률이 떨어지며, 특히 텍스트 밀집형 콘텐츠 처리 시 반응이 느립니다. 플랫폼 장벽(로그인 및 인증 문제 등)으로 인해 작업이 중단될 수도 있으며, 복잡한 경계 상황에서는 적응력이 부족해 자주 멈춤 현상이나 무한 루프 같은 오류가 발생합니다.
skywork ai가 이번에 선보인 Skywork Browser Agent는 이러한 문제점을 교묘히 해결합니다. 심층 다중 모달 콘텐츠 이해 능력을 바탕으로 소셜 미디어의 텍스트 정보를 효율적으로 분석할 뿐만 아니라, 이미지, 동영상, 댓글란의 감정과 의견을 정밀하게 선별 및 추출하여 보다 포괄적인 정보 통찰력을 제공합니다. 웹 브라우징 전 과정에서 체계적이고 계획적으로 작동하며, 이는 자체 개발 모델의 탁월한 추론 능력에 기반합니다.
또한 온라인 커뮤니티 콘텐츠의 효율적인 데이터 분석을 자동화하여 지루한 조사 작업을 직관적이고 이해하기 쉬운 시각화 보고서로 전환합니다. 동시에 원클릭 웹사이트 배포를 지원하여 수집한 핵심 이미지와 분석 내용을 독립적인 웹사이트로 생성해 편리하게 전시 및 공유할 수 있습니다. 일부 소셜 플랫폼의 로그인 장벽 문제에 대응하기 위해 지능형 인수 메커니즘을 탑재했으며, 각 실행 단계에 적응형 시간 초과 제어를 설정해 전체 워크플로우 차단 현상을 효과적으로 방지함으로써 브라우저 에이전트의 실행 효율을 크게 향상시켰습니다.
예를 들어, 최근 코미디 거장 천페이(陈佩斯)가 직접 각본·연출·주연을 맡은 영화 <무대(戏台)>가 극장에 돌아와 개봉 4일 만에 약 2억 위안의 흥행 수익을 올렸습니다. 하지만 13년간 갈고닦은 이 작품에 대해 네티즌들의 평가는 극명하게 갈렸습니다.
우리는 Skywork Browser Agent가 사용자 피드백을 기반으로 영화 《무대》 개봉 후 네티즌 평가 분석 보고서 페이지를 생성하도록 했습니다.
여기서 워크플로는 앞서 설명한 것과 유사합니다: 추가 정보 선택, 할 일 목록 생성 후 MCP 도구 호출로 작업 실행. 예를 들어 옆에 Skywork 가상 머신이 팝업되어 브라우저 에이전트의 작업 경로를 표시합니다: 자동으로 두반 영화 홈페이지를 열고, '무대'를 검색한 후 영화 상세 페이지로 이동해 더 완전한 정보와 사용자 리뷰를 수집합니다.
정보 수집이 끝나면 웹페이지 구축을 시작합니다: HTML 페이지 프레임워크를 개발하고 각 분석 차원에 따라 콘텐츠 블록을 구분하며; CSS 스타일을 디자인하여 페이지의 미적 감각과 가독성을 확보합니다. JavaScript를 활용해 데이터 시각화 및 상호작용 기능을 구현하는 동시에 관련 이미지 리소스를 다운로드하고 구성합니다. 생성된 웹페이지가 기대에 미치지 못할 경우, 브라우저 에이전트와 다중 상호작용을 통해 현재 생성된 페이지를 기반으로 재편집할 수 있습니다. Skywork Browser Agent의 강력한 명령 추적 기능이 이를 완벽히 지원합니다.
최종 생성된 웹페이지는 구조가 명확하고 디자인이 정교할 뿐만 아니라 영화 기본 정보, 박스오피스 성적, Douban과 Maoyan 평점 비교 등 핵심 데이터를 포괄합니다. 페이지 내 관객 평점 분포, 감정 경향 분석, 핫 토픽 태그 클라우드 등 시각화 차트는 정보의 가독성과 직관성을 크게 향상시킵니다. 간단한 클릭과 상호작용을 통해 영화의 다양한 데이터와 네티즌 리뷰를 심층적으로 파악하고, 영화에 대한 긍정적/부정적 평가 및 논란점을 분석할 수 있습니다.
안정성 테스트를 위해 흥미로운 실험을 진행했습니다 — 주전우(周杰伦)의 인스타그램을 탐색하고 팬 응원 사이트를 제작한 것입니다. 결과적으로 제작된 웹페이지는 기능이 완벽할 뿐만 아니라 독특한 시각적 스타일을 갖추어 탁월한 효과를 보여주었습니다.
이처럼 효율적이고 안정적인 웹 브라우징 기능은 다음과 같은 자체 개발 핵심 기술 솔루션 덕분입니다:
- 강력한 다중 모달 추론 모델과 최적화된 DOM(문서 객체 모델) 해석 능력을 통합하여 Skywork Browser Agent에 탁월한 성능의 핵심 기반을 제공합니다.
- 주류 플랫폼 동작 적응 및 병렬 검색/다중 동작 계획 메커니즘으로 실행 효율성을 크게 향상시킵니다.
- 내장된 지능형 필터링 시스템으로 저품질 또는 개인정보 노출 위험이 있는 이미지 및 텍스트 콘텐츠를 자동으로 차단합니다.
- 인간-컴퓨터 상호작용 시나리오에서 지능형 제안 및 제어 인계 기능을 지원하며, 암호화 및 프론트엔드 보호 메커니즘을 통해 사용자 프라이버시 보안을 보장합니다.
Skywork Browser Agent는 인간의 브라우징 및 상호작용 방식을 모방하여 전통적인 데이터 수집 및 분석 방식을 혁신하며, 지능형 검색, 다중 모달 정보 분석 및 커뮤니티 콘텐츠 인사이트를 정밀하고 효율적으로 수행합니다. 장기적인 VLA(시각-언어-행동) 작업에서 막대한 잠재력을 보여줍니다.
시각화 데이터 분석
Skywork의 표 형식은 Microsoft Excel 및 Google Sheets와 유사하며, 주제나 요구사항을 입력하거나 원시 데이터를 업로드하면 지능적으로 분석하여 표, 차트 등을 생성합니다.
명령어 입력: 「튜링상 2015-2024년 수상 통계 생성」.
Skywork는 즉시 실행하지 않고 사용자와 상호작용하며 작업 세부사항을 확인합니다. 여기에는 통계 차원(수상자 수, 국적, 연구 분야, 소속 기관 등)과 표시 방식(표, 추세도, 비율도 등)이 포함됩니다. 이러한 사전 작업 분해 능력 덕분에 전체 분석 과정은 매우 높은 정확성과 제어력을 갖춥니다.
이어서 자동으로 할 일 목록을 생성하고, 다양한 MCP 도구를 호출해 순차적으로 작업을 실행합니다. 이 모든 과정은 사용자 개입 없이 진행됩니다.
직장인이 가장 두려워하는 세 가지: 초과근무 수당 없는 야근, 상사가 갑자기 @하는 것, 그리고 “덤으로 PPT 좀 만들어 줘”라는 부탁. 다른 건 '순간'이지만 이 '순간'은 목숨을 건다: 글꼴을 어떻게 조정해도 맞지 않고, 차트는 어떻게 봐도 투박하다. 밤새 고생하며 새벽 3시까지 작업했는데, 상사가 한 번 훑어보고는 “뭔가 안 맞는 것 같아, 좀 더 다듬어 봐”.
이제 Skywork가 PPT에 미쳐버린 직장인들에게 생명을 구하는 '처방전'을 내민다. 단 한 줄의 간단한 프롬프트만 입력하면: 《일본 가마쿠라 여행 가이드》 PPT 제작, 즉시 구조가 명확하고 디자인도 멋진 PPT를 생성해 줍니다.
최종 생성된 결과물을 보면, 이 PPT는 실용적인 정보 포인트뿐만 아니라 고품질의 현장 사진, 경로도, 일정표까지 포함되어 있어 바로 사용할 수 있습니다.
데이터, 알고리즘부터 다중 지능체 시스템까지 구축하는 지능 기반
일련의 실측을 통해 살펴보면, Skywork AI의 이번 에이전트 제품은 자율성, 상호작용성, 과제 완수도 등에서 과거와 비교할 수 없을 정도로 발전했으며, '독립적으로 사고하고 깊이 있게 실행하는 지능형 업무 파트너'라 할 수 있습니다. 특히 정보 검색, 정리, 요약 및 복잡한 작업 수행에서 놀라운 효율성과 정확성을 보여주었는데, 이는 Skywork Deep Research Agent V2가 도입한 고품질 데이터 합성, 엔드투엔드 강화 학습, 고효율 병렬 추론 및 다중 에이전트 진화 시스템 등 여러 핵심 개선 메커니즘에 기반합니다.
AI의 세 가지 핵심 요소 중 하나인 데이터 수준에서의 노력은 언제나 필수적입니다. 에이전트 모델이 복잡하고 심층적인 정보 검색 시나리오를 이해하도록 강화하기 위해, skywork ai는 엔드투엔드 심층 정보 문제 합성 프로세스를 자체 개발하여 시스템이 고품질 검색 쿼리 데이터셋을 생성할 수 있도록 했습니다.
가장 중요한 것은 데이터 품질 기준을 수립하는 것입니다. Skywork AI는 초기 설계 단계에서 고품질 검색 문제와 답변의 다섯 가지 핵심 기준(다양성, 정확성, 유일성, 검증 가능성, 도전성)을 명확히 정의하여 생성되는 각 쿼리가 광범위한 주제와 난이도 수준을 포괄하도록 보장함과 동시에 답변이 정확하고 유일하며 신뢰할 수 있고 검증 가능하도록 했습니다. 다음으로 데이터 준비 단계에 진입하여 다중 채널을 통해 인터넷 데이터를 수집하고 초기 시드 풀을 구축합니다. 자동화 선별 시스템을 활용해 가장 잠재력 있는 정보를 평가 및 선별함으로써 후속 문제 구성에 우수한 소재를 제공합니다.
다음으로 복잡하고 도전적인 문제를 처리합니다. 한편으로는 심층 정보 수집 기술을 활용해 다중 정보원으로부터 체계적으로 단서를 추출하고 구체적 정보를 고난도 검색 질의로 추상화합니다. 다른 한편으로는 반복적 강화 전략을 채택해 단순 검색을 다단계 추론이 필요한 복잡한 문제로 전환합니다. 이 과정에서 계층적 추론 체인과 정보 혼동 기술을 도입해 문제 복잡도와 모델 추론 능력을 한층 높였습니다.
이 과정을 거치며 각 단계의 데이터 품질과 과제 난이도가 엄격히 통제되었으며, 특히 5대 기준을 아우르는 고난이도 문제 체계는 이후 대규모 엔드투엔드 강화 학습의 데이터 기반을 마련했습니다.
에이전트 모델의 학습 효율과 추론 능력을 향상시키려면 기존 RLHF(강화 학습 기반 강화 학습)의 보상 모델 주관성 및 취약성 문제를 극복해야 합니다. 이를 위해 skywork ai는 비대칭 검증 기반 강화 학습 방법을 제안했습니다. 구체적인 훈련 프레임워크에서는 GRPO 알고리즘과 동적 커리큘럼 학습 메커니즘을 채택하여 훈련 과정 중 데이터가 최적 난이도 구간에 유지되도록 하고, 지나치게 쉽거나 어려운 문제의 간섭을 방지합니다. 동시에 데이터셋을 동적으로 업데이트하고 새로운 데이터를 보충하여 모델이 항상 효과적인 ‘학습 구역’ 내에 머물 수 있도록 합니다.
검증 정확도와 보상 효과성을 한층 높이기 위해, skywork ai는 힌트 기반 생성형 집중 보상 메커니즘을 혁신적으로 도입하고, 생성형 보상 모델을 활용해 에이전트 모델에 보다 세밀한 피드백을 제공합니다. 최종 답안을 출력할 경우 만점 보상을 부여하며, 최종 답안을 출력하지 못할 경우 문제 구성 단계에 저장된 단서를 추가 분석하여 과정 평가를 수행합니다. 또한 현재 출력된 내용 중 정확한 단서 비율을 판단하여 모델에 연속적이고 높은 분별력을 가진 부분 보상을 부여합니다. 보상 신호가 문제 해결 전 과정에 걸쳐 전달됨으로써 학습 효율과 추론 능력 향상의 목표를 달성할 수 있습니다.
성능이 보장되는 동시에 효율성도 반드시 향상되어야 하는데, 이때 skywork ai가 자체 개발한 병렬 추론 프레임워크가 그 진가를 발휘합니다. 이전 구글 DeepMind는 최신 Gemini 2.5 Deep Think 추론 모델에서 다중 에이전트를 생성해 작업을 병렬 처리함으로써 IMO 2025 대회 금메달을 획득했으며, 이는 병렬 추론 메커니즘이 복잡한 작업 처리 효율성 향상에 효과적임을 강력히 입증했습니다. 다음 세 가지 혁신을 바탕으로 skywork ai는 추론 효율을 크게 향상시키면서 동시에 계산 자원을 대폭 절감했습니다.
첫째, 병렬 사고 모드를 도입해 각 단계마다 여러 후보 추론 경로를 생성하고 그중 최적 경로를 선별해 후속 작업에 활용함으로써 추론 체인 단절이나 전후 논리 충돌로 인한 멈춤 현상 등 실패 행동을 방지합니다. 동시에 다중 노드 비동기 추론 아키텍처를 통해 추론 시간을 효과적으로 단축하고 계산 자원 사용 효율을 높입니다; 둘째, 다단계 추론 계획에 생성형 평가 방안을 도입하여 여러 후보 추론 경로에 점수를 매기고 선별하며, 토너먼트 순위 메커니즘을 결합해 최적 추론 경로를 확정하고, 비동기 추론 메커니즘을 활용해 이 과정에서 발생하는 계산 부담과 시간 소모를 줄입니다. 셋째, 병렬 추론 과정에서 엔트로피 적응형 가지치기 기술을 도입해 경로 선택을 동적으로 조정하고, 중복 계산을 줄여 자원 소모를 낮춥니다. 각 단계가 유기적으로 연결되어 복잡한 동적 작업에서도 시스템의 안정성과 효율성을 보장합니다.
병렬 사고 모드에서 Skywork Deep Research의 정확도는 사고 시간이 길어질수록 지속적으로 상승하여 자체 개발 시스템 아키텍처의 추론 깊이와 확장성 측면에서 막대한 잠재력을 입증했습니다.
데이터, 알고리즘, 컴퓨팅 파워 최적화 외에도 Skywork Deep Research Agent v2의 능력 향상은 다중 지능체 진화 시스템의 지속적인 발전과 밀접한 관련이 있습니다. 에이전트 적용 시나리오가 점점 다양해지면서 MCP(모델 컨텍스트 프로토콜) 외부 연결 도구의 역할이 커지고 있지만, 이러한 도구의 수와 복잡성이 증가함에 따라 더 효율적인 자동화 관리 도구가 필요합니다. 이에 대응하여 MCP 도구 자동 생성 기술이 도입되었으며, 도구 정의의 표준화된 관리와 실시간 동기화를 통해 인적 오류를 크게 줄이고 시스템 응답 속도와 툴체인의 유연성을 향상시킵니다.
이러한 MCP 매니저 에이전트를 기반으로, 모델 능력과 도구 능력을 결합한 협업 다중 에이전트 프레임워크가 형성되었습니다. 이는 다중 에이전트의 협업을 효율적으로 조직할 뿐만 아니라, 동적으로 MCP 도구를 생성함으로써 임무 대응 능력과 환경 적응 능력을 강화합니다. 아래 전체 아키텍처 도면에는 계획 에이전트, 심층 조사 에이전트, 브라우저 사용 에이전트, 데이터 분석 에이전트 및 MCP 매니저 에이전트가 각각 표시되어 있습니다.
이러한 체계적인 업그레이드를 통해 Skywork Deep Research Agent V2는 강력한 범용성, 적응성 및 자율성을 확보하여 에이전트 모델의 강력한 지능 기반을 구축했으며, 실제 운영에서 더 높은 안정성, 일반화 능력 및 창의성을 발휘합니다.
요약
2025년이 절반 이상 지난 지금, 우리가 뚜렷이 느끼는 점은 스케일링 법칙의 영향이 점차 둔화되면서 국내외 AI 업체들의 단일 최강 범용 대형 모델에 대한 열기가 다소 식었다는 것입니다. 심지어 OpenAI의 역대 최강 플래그십 모델인 GPT-5조차도 획기적인 경험이 부족하다는 비판을 받고 있습니다. 반대로, 성과 오픈소스와 실제 적용이 업계 전반의 주목을 받는 초점이 되었습니다.
AI 산업의 중심축 이동이 차세대 경쟁 구도를 재정의하고 있다고 할 수 있습니다. 오픈소스 기반에서 상·하류 연결 도구 체인과 애플리케이션 생태계를 더 빠르고 효과적으로 구축하며, 동시에 AI 역량을 대규모 배포 가능한 상업적 생산력으로 전환하는 데 앞서는 기업이 새로운 AI 경쟁에서 전략적 우위를 점할 것입니다.
skywork ai의 일주일간 모델 공개 행사는 해당 기업의 AI 기술 성과를 총체적으로 선보이는 동시에, 다중 모드 AI 분야에서 가속화된 상용화와 업계 트렌드 선도 의지를 보여주는 중요한 신호다.
창작자에게 고품질 이미지·동영상 생성 역량을 부여하고 가상 세계의 지능형 상호작용을 구축하는 것부터 에이전트 기반 자동화 작업 실행, 음악 창작 영감 유발에 이르기까지, skywork ai의 베이스 모델부터 다중 모드 상호작용 시스템에 이르는 올인원 전략이 다시 한번 대중 앞에 드러났다. 이는 또한 이 AI 기업이 ‘All in AGI와 AIGC’ 발전 전략을 확고히 실천하겠다는 결의와 기개를 보여주는 것으로, 전방위적인 제품 포트폴리오 구축을 통해 글로벌 AI 경쟁 구도에서 자사의 선도적 우위를 공고히 하고 확대하고자 함을 시사한다.
특히 현재 대규모 모델의 실용화를 가속화하는 핵심 경로로서 에이전트의 중요성은 업계에서 이미 공통된 인식으로 자리 잡았습니다. 이번 심층 연구를 통해 에이전트가 심층 작업 실행, 다중 모드 협업, 크로스 시나리오 적용 분야에서 스카이워크 AI 대규모 모델의 실용화 경계를 더욱 확장할 것이며, AI 산업 전체에 더 효율적이고 지능적인 솔루션을 제공할 것으로 기대됩니다.
- 선택됨
