DeepSeek 마침내 오픈소스 1위 자리를 내주었지만, 후계자 역시 중국 출신이다
수천 명의 사용자가 무작위로 투표한 결과, Kimi K2 AI 가 DeepSeek을 제치고 글로벌 오픈소스 1위를 차지했다!
외국인 네티즌들은 폭발적인 반응을 보이며, 댓글란은 칭찬과 축하로 가득 찼다:
오늘, 경쟁 플랫폼이 Kimi K2의 순위를 업데이트했다——
오픈소스 1위, 종합 순위 5위이며, 마스克의 Grok 4와 같은 최상위 폐쇄형 모델을 추격 중.
또한 다양한 단일 능력도 우수해 폐쇄형 모델과도 맞서 싸울 수 있습니다:
- 연속 다중 대화에서 공동 1위, o3와 Grok 4는 모두 4위;
- 프로그래밍 능력 2위, GPT 4.5와 Grok 4와 동률;
- 복잡한 프롬프트 대응 능력 2위, o3, 4o와 같은 그룹에 속합니다;
- …
눈썰미 좋은 분들은 이미 알아챘을 것입니다. 총 순위 TOP 10에 진입한 오픈소스 모델은 모두 중국 출신입니다. (DeepSeek R1 총 순위 8위)
물론 순위와 무관하게, Kimi라는 신규 모델은 지난 주 동안 정말 화제를 모았습니다 —
K2는 지난 주 정말 뜨거웠네요
공개적으로 확인 가능한 성과는 다음과 같습니다:
실제 데이터로 보면, 출시 첫 주에 Kimi K2는 오픈소스 커뮤니티에서 상당한 주목과 다운로드 수를 기록했습니다.
GitHub 스타 수 5.6K, Hugging Face 다운로드 수 약 10만, 이는 중국 커뮤니티에서의 적용 사례는 포함되지 않은 수치입니다.
AI 검색 엔진 스타 스타트업 Perplexity의 CEO도 직접 지지하며 다음과 밝혔습니다:
Kimi K2는 내부 평가에서 우수한 성과를 보였으며, Perplexity는 향후 K2 모델을 기반으로 후속 훈련을 진행할 계획입니다.
심지어 접속 사용자 수가 너무 많아 Kimi 공식 측에서도 공지문을 발표했습니다:
접속량 증가와 모델 크기 때문에 API 속도가 느려졌습니다.
그러나 긍정적인 분위기 속에서도 “Kimi K2가 DeepSeek V3 아키텍처를 채택했다”는 의혹이 다시 불거졌습니다.
이에 대해 우리는 Kimi 팀 멤버의 K2 아키텍처 관련 답변을 찾아냈습니다.
요약하면, 실제로 DeepSeek V3 아키텍처를 계승했지만, 이후 추가적인 파라미터 조정이 진행되었습니다.
초기에는 다양한 아키텍처 방안을 시도했지만, V3 아키텍처가 가장 우수한 성능을 보였습니다 (다른 아키텍처는 최대 동등 수준).
따라서 문제는 '다르기 위해 다를 필요가 있는가?'로 귀결되었습니다.
심도 있는 논의 끝에, 팀은 부정적인 답변을 내렸습니다.이유는 두 가지입니다:
첫째, V3 아키텍처는 이미 대규모 검증된 우수한 설계이며, 무리하게 '새로움을 추구할 필요'가 없습니다; 둘째, 우리 팀과 DeepSeek 모두 훈련 및 추론 자원이 매우 제한적이며, 평가 결과 V3 아키텍처가 관련 비용 예산에 부합합니다.
따라서 그들은 V3 아키텍처를 완전히 계승하고, 자신들에게 적합한 모델 구조 파라미터를 도입했습니다.
구체적으로, K2의 구조 파라미터 변경 사항은 네 가지입니다:
- 전문가 수 증가: 팀은 활성화 매개변수 수를 변경하지 않은 상태에서 MoE의 총 매개변수를 증가시켜도 손실 감소에 도움이 된다는 것을 검증했습니다.
- 주의력 헤드 수 절반으로 감소: 헤드 수를 줄여 절약된 비용이 MoE 매개변수 증가로 인한 비용을 상쇄하며, 효과에 미치는 영향은 매우 작습니다.
- 첫 번째 층만 Dense로 유지: 첫 번째 층만 Dense로 유지하고 나머지는 모두 MoE로 변경했으며, 추론 성능에 거의 영향을 미치지 않습니다.
- 전문가 그룹화 없음: 자유로운 라우팅 + 동적 재배열(EPLB)을 통해 부하 불균형을 해결하며, 전문가 조합의 유연성을 높이고 모델 성능을 강화합니다.
최종적으로 얻은 추론 방안은 동일한 전문가 수에서:
총 파라미터는 1.5배 증가했지만, 통신 부분을 제외하면 이론상의 prefill 및 decode 소요 시간이 더 짧습니다. 통신 중첩 등 복잡한 요소를 고려하더라도 이 방안은 V3보다 비용이 크게 증가하지 않습니다.
즉, 이는 더 ‘세심하게 조정된’ 구조 최적화입니다.
또한 자체 모델 아키텍처를 포기하고 DeepSeek 아키텍처를 완전히 채택한 이 접근 방식은 국내 네티즌들로부터 “상당히 대담하다”는 평가를 받았습니다.
OK, Kimi와 DeepSeek 아키텍처 논쟁이 결론난 후, 이제 이번 최신 순위로 시선을 돌려보겠습니다.
오픈소스가 폐쇄형 모델을 따라잡거나 추월 중
명확한 트렌드는: “오픈소스 = 성능이 약하다”는 고정관념이 깨지고 있으며, 오픈소스 모델이 점점 더 강력해지고 있습니다.
순위표의 전체 순위가 상승하는 동시에 점수 격차도 점점 줄어들고 있습니다.
세부적으로 보면, 모델 TOP 10의 총점은 모두 1400+로, 오픈소스와 폐쇄형은 거의 같은 출발선에 서 있다고 볼 수 있습니다.
특히 이번 오픈소스 1위를 차지한 Kimi K2의 총점은 Grok 4, GPT 4.5 등 최상위 폐쇄형 모델과 매우 근접했습니다.
즉, 과거에는 모델 성능과 비용 사이에서 선택을 해야 했지만, 오픈소스 기술의 부상으로 인해 한 순간이라도 더 고민하는 것은 오픈소스에 대한 존중이 부족하다는 의미입니다(doge).
한편, 점점 더 많은 업계 전문가들도 오픈소스의 부상에 대한 전망을 밝히고 있습니다.
앨런 인공지능 연구소 연구 과학자 팀 데트머스는 다음과 같이 언급했습니다:
오픈소스가 폐쇄형 모델을 이기는 현상은 점점 더 일반화될 것입니다.
Perplexity CEO도 공개적으로 여러 차례 언급했습니다:
오픈소스 모델은 AI 능력의 글로벌 확산 경로에서 중요한 역할을 할 것입니다. 이들은 지역별 맞춤형 및 현지화 AI 경험에 필수적입니다.
이미 점차 부상 중인 오픈소스 모델 분야에서는 TOP 10 중 유일한 두 개의 오픈소스 모델이 모두 중국 모델이며, 그 가치는 계속 상승 중입니다.
- 선택됨
