Kimi K2 Thinking 모델 공개! 에이전트·추론 능력 완전체로 거듭났습니다 🔥
안녕하세요! 오늘 여러분께 Kimi K2 Thinking을 공개합니다. Kimi 사상 최고 성능의 오픈소스 사고(Thinking) 모델이죠.
Kimi K2 Thinking은 '모델 그 자체가 에이전트'라는 철학을 바탕으로 탄생한 차세대 Thinking Agent입니다.
생각하면서 동시에 도구를 사용하는 능력을 타고났죠.
Humanity's Last Exam(인류 최종 시험), BrowseComp(자율 검색 능력 평가), SEAL-0(복합 정보 수집 추론) 등 여러 벤치마크에서 SOTA(State-of-the-Art, 최첨단) 수준을 기록했으며, 에이전틱 검색·프로그래밍·글쓰기·종합 추론 능력 등에서 전면적인 성능 향상을 이뤄냈습니다.
이 모델은 인간 개입 없이도 지속적이고 안정적인 심층 사고 능력으로 최대 300단계에 달하는 도구 호출을 자율적으로 수행할 수 있습니다. 복잡한 문제를 해결하는 데 큰 도움이 되겠죠? 이는 Test-Time Scaling(테스트 시 확장) 분야의 최신 성과로, 사고 토큰과 도구 호출 단계를 동시에 확장함으로써 더 강력한 에이전트와 추론 성능을 구현했습니다.
Kimi K2 Thinking 모델은 현재 kimi.com과 최신 버전 Kimi 모바일 앱의 일반 대화 모드에서 바로 사용하실 수 있습니다. Kimi 에이전트 모드의 기반 모델도 곧 Kimi K2 Thinking으로 업그레이드될 예정이니 완전한 다단계 사고와 도구 호출 기능을 기대해주세요!
API는 Kimi 개방 플랫폼(platform 을 통해 이용 가능하며, 직접 배포하시려면 Hugging Face·ModelScope 등 플랫폼에서 모델을 다운로드 받으시면 됩니다.
🎯 추론 성능 전면 업그레이드
Kimi K2 Thinking 모델은 Humanity's Last Exam에서 강력한 추론과 문제 해결 능력을 보여줬습니다. 이 시험은 **100개 이상의 전문 분야를 포괄하는 궁극의 폐쇄형 학술 테스트죠. 동일하게 검색·Python·웹 브라우징 도구를 사용하는 조건에서 Kimi K2 Thinking은 44.9%라는 SOTA 성적을 거뒀습니다.
인문학 문제 예시를 볼까요. 이 예시에서 Kimi K2 Thinking은 **5차례 검색과 추론을 반복하며 각 단계에서 얻은 새로운 정보를 결합해 최종 답을 도출**했습니다.
🔍 자율 검색 및 브라우징 능력 전면 강화
복잡한 검색·브라우징 시나리오에서도 탁월합니다. BrowseComp는 OpenAI가 공개한 AI 에이전트의 웹 브라우징 능력을 평가하는 벤치마크입니다. 정보 과부하 환경에서 인간 연구원처럼 '끈질기게 파고드는' 능력을 측정 하는 테스트죠. 이 매우 도전적인 과제에서 인간 평균은 29.2%입니다. Kimi K2 Thinking은 **60.2%라는 성적으로 새로운 SOTA 모델**이 됐습니다.
장기 기획과 자율 검색 능력을 바탕으로, Kimi K2 Thinking은사고 → 검색 → 웹페이지 브라우징 → 사고 → 프로그래밍" 이라는 다이나믹한 사이클을 수백 단계에 걸쳐 반복하며 지속적으로 가설을 제시·보완하고 증거를 검증하며 논리적으로 일관된 답변을 구축합니다.
예시를 볼까요. 두 차례 검색과 사고를 통해 주식 재매입(stock buyback) 정보로 **고속정 제조 기업을 찾아낸 뒤, 미국 증권거래위원회(SEC) 공식 사이트에서 재매입 공고 정보를 찾아 정확한 답을 도출**했습니다.
💻 에이전틱 코딩 능력 지속 개선
Kimi K2 Thinking 모델의 코딩 능력도 향상됐습니다. SWE-Multilingual, SWE-bench 검증 세트, Terminal 사용 등 벤치마크에서 성능이 한층 더 좋아졌죠.
HTML·React 등 구성 요소가 풍부한 프론트엔드 작업에서 성능이 눈에 띄게 개선됐고, 창의적인 아이디어를 기능이 완벽하고 반응형인 제품으로 구현할 수 있습니다. 에이전틱 코딩 시나리오에서 Kimi K2 Thinking은 다양한 도구를 호출하면서 사고하고 소프트웨어 에이전트에 유연하게 통합돼 더 복잡하고 다단계적인 개발 워크플로우를 처리합니다.
예시 두 가지를 볼까요:
- 이제 Kimi K2 Thinking으로 실제 사용 가능한 Word 문서 편집기를 완벽히 복제할 수 있습니다.
- 화려한 스타일의 복셀 아트(voxel art) 작품도 만들 수 있습니다.
✍️ 일반 기반 능력 업그레이드
창의적 글쓰기: Kimi K2 Thinking은 글쓰기 능력이 크게 향상됐습니다. 희미한 영감을 명확하고 감동적이며 의도가 분명한 서사로 변환할 수 있죠. 운율감과 깊이를 동시에 살리고, 미묘한 문체 차이와 모호한 구조를 자연스럽게 다루며 긴 글에서도 스타일 일관성을 유지합니다. 창의적 글쓰기에서 이미지가 더 생생하고 감정적 공감이 더 강력하며, 정확한 표현과 풍부한 표현력이 완벽하게 융합됩니다.
학술 및 연구: 학술 연구와 전문 분야에서 Kimi K2 Thinking은 분석 깊이·정보 정확성·논리적 구조가 모두 크게 향상됐습니다. 복잡한 지시를 체계적으로 해부하고 명확하고 엄격한 방식으로 아이디어를 전개할 수 있죠. 이로 인해 **학술 논문·기술 요약·정보 완전성과 추론 품질이 중요한 장편 보고서 처리에 특히 뛰어납니다.
개인 및 감정: 개인적이거나 감정적인 질문에 대답할 때 Kimi K2 Thinking의 대답은 공감 능력이 더 풍부하고 입장도 더 중립적입니다. 사고가 깊고 신중하며 구체적이어서 섬세한 관점과 실행 가능한 후속 제안을 제공합니다. 복잡한 의사결정을 명확하고 배려 깊게 정리해주며, 현실적이고 타당한 톤으로 더 인간적입니다.
⚡ 네이티브 INT4 양자화로 추론 효율성 향상
저비트 양자화는 대규모 추론 서버의 지연 시간과 GPU 메모리 사용량을 줄이는 효과적인 방법입니다. 하지만 사고 모델은 해석 길이가 매우 길기 때문에 일반적인 양자화 방식은 성능이 크게 저하되는 문제가 있죠. 이 문제를 극복하기 위해 사후 훈련(post-training) 단계에서 양자화 인지 훈련(QAT)을 도입하고 MoE 구성 요소에 INT4 순수 가중치(weight-only) 양자화**를 적용했습니다.
이로 인해 Kimi K2 Thinking 모델은 복잡한 추론과 에이전트 작업에서 네이티브 INT4 추론을 지원하고 생성 속도를 약 2배 향상시켰습니다. INT4는 추론 하드웨어와 호환성이 뛰어나고 국산 가속 칩에도 더 친화적입니다. 주목할 점은 모든 벤치마크 테스트 성적이 INT4 정밀도로 측정됐다는 점입니다.
🚀 지금 바로 시작하세요
지금 바로 kimi.com에 접속하거나 최신 버전 Kimi 앱으로 업데이트한 뒤, 툴박스'에서 K2 모델의 '긴 사고' 스위치를 켜면 복잡한 과제를 Kimi와 함께 해결할 수 있습니다.
Kimi K2 Thinking 모델 API는 Kimi 개방 플랫폼(platform에 이미 올라와 있습니다. 256K 컨텍스트를 지원하며, 가격은 Kimi K2-0905와 동일합니다. 매백만 토큰 입력 4위안, 출력 16위안, 캐시 적중 시 입력 1위안입니다. 초당 100토큰 속도의 Turbo API도 함께 제공됩니다. 매백만 토큰 입력 8위안, 출력 58위안, 캐시 적중 시 입력 1위안입니다. 개발자 여러분의 테스트와 피드백을 기다립니다!
> 참고: 빠르고 가벼운 경험을 위해 kimi.com과 Kimi 앱 채팅 모드에는 일부 도구만 배포되고 도구 호출 단계 수도 줄었습니다. 따라서 채팅 기능이 벤치마크 점수와 완전히 일치하지 않을 수 있습니다. Kimi의 에이전트 모드 "OK Computer" 가 곧 업데이트돼 신모델의 전체 능력을 선보일 예정입니다.
📜 Kimi K2 모델 정보
Kimi K2 모델은 처음 **7월 11일**에 공개됐습니다. **혼합 전문가(MoE) 구조**의 오픈소스 기반 모델로 **총 매개변수는 1조, 활성화 매개변수는 320억**입니다.
9월 5일에는 Kimi K2-0905 버전이 업데이트돼 코드 능력이 더 향상되고 컨텍스트 창이 128K에서 **256K**로 확장됐습니다.
현재까지
Cline·Cursor·flowith·Genspark·Kilo Code·Kortix Suna·OpenRouter·Perplexity·RooCode·TRAE·Trickle·Vercel·Windsurf·YouWare** 등 다양한 제품이 Kimi K2 모델을 사용하고 있습니다.
11월 6일, Kimi K2 Thinking 모델이 발표되며 에이전트 및 추론 능력이 전면 향상됐습니다.
이렇게 Kimi K2 Thinking의 모든 정보를 정리했습니다! 혹시 궁금한 점이나 테스트 결과 있으면 댓글로 공유해주세요 😊
- 선택됨
