음성 AI의 새로운 기준: Higgs Audio V2 오픈소스 공개, 1000만 시간의 데이터로 완성된 ‘듣고 말할 수 있는’ 혁신적인 도구
리 무 팀이 오픈소스 음성 대형 모델 공개: Higgs Audio V2 — 1000만 시간의 데이터로 완성된 음성 AI 혁명
AI 분야에서 한동안 침묵을 지키던 유명 AI 전문가 리무가 팀과 함께 중대한 성과를 발표하며 강렬하게 돌아왔다 — Higgs Audio V2, 말하고, 듣고, 노래하고, 연기할 수 있는 음성 대모델이다. 이 모델은 GitHub에 오픈소스로 공개되었을 뿐만 아니라, Bilibili에서 놀라운 데모 영상을 공개해 AI 커뮤니티의 열정을 한순간에 불태웠다.
1. “소멸”에서 복귀: 리무의 음성 AI 신작
리무는 《핸즈온 딥러닝》으로 수많은 AI 학습자에게 영향을 준 유명 학자로, 이번에는 새로운 음성 대형 모델로 대중의 시선을 다시 사로잡았습니다. Bilibili에 공개된 데모 영상에서 그는 Higgs Audio V2의 놀라운 능력을 직접 시연했습니다. 자연스럽고 유창한 음성 생성은 물론, 다중 대화 장면을 모방할 수 있으며, 각 캐릭터는 독특한 음성 특징과 감정 표현을 갖추고 있습니다.
가장 놀라운 사례는 '화난 괴물, 수다스러운 당나귀, 차분한 공주'의 3인 대화 장면으로, 각 캐릭터의 목소리는 명확한 감정적 텍스처를 지니며 실제 인물이 대화하는 듯합니다. 이 다중 캐릭터, 다중 감정 음성 생성 능력은 음성 AI 기술이 새로운 단계로 진입했음을 상징합니다.
2. Higgs Audio V2의 핵심 기능: 전통적 TTS를 넘어선 음성 혁명
1. 다중 화자 대화 생성 능력
Higgs Audio V2의 가장 두드러진 특징은 다중 화자 대화 생성 능력입니다. 이 시스템은 대화 장면 내의 다양한 역할을 자동으로 인식하고 각 역할에 맞는 감정과 에너지 수준을 할당합니다. 장시간 대화에서도 모델은 역할의 음성 일관성을 유지하며, 대화 내용에 따라 톤과 감정을 동적으로 조정해 생성된 대화가 실제 인간 간의 대화처럼 자연스럽고 유창합니다.
2. 지능형 리듬 조정 시스템
전통적인 TTS 시스템은 장문 텍스트 읽기 시 기계적이고 경직된 음성을 생성하는 경우가 많지만, Higgs Audio V2는 자동 리듬 조정 시스템을 도입했습니다. 이 시스템은 텍스트 내용에 따라 말 속도, 일시 중지, 음조를 자동으로 조정하여 인공적인 개입 없이 생동감 있는 음성을 생성합니다. 이는 오디오북, 교육 콘텐츠 등 장문 텍스트 시나리오에서 특히 중요하며, 청취자의 청각 경험을 크게 향상시킵니다.
3. 제로 샘플 음성 복제 및 노래 합성
Higgs Audio V2의 제로 샘플 음성 복제 기능은 놀랍습니다. 사용자는 3~5초의 짧은 음성 샘플만 제공하면 모델이 특정 인물의 음성 특징(음색, 톤, 말투)을 정확히 복제합니다. 더욱 놀라운 점은 복제된 음성이 멜로디를 흥얼거리며 배경 음악을 동시에 생성한다는 점으로, ‘노래를 쓰고 부르는’ 창작 프로세스를 완벽히 구현했습니다.
4. 실시간 음성 상호작용 기능
전통적인 음성 비서와 달리 Higgs Audio V2는 실시간 음성 상호작용 기능을 갖추고 있습니다. 사용자의 음성 감정 변화를 이해하고 이에 맞는 감정 표현을 할 수 있어 기계적인 질문 답변의 한계를 크게 넘어섰습니다. 이 기능은 가상 아나운서, 실시간 음성 비서 등 다양한 시나리오에서 인간과 유사한 상호작용 경험을 제공합니다.
3. 기술 혁신: 1000만 시간 데이터 뒤의 세 가지 혁신
Higgs Audio V2의 우수한 성능은 세 가지 핵심 기술 혁신에서 비롯됩니다:
1. 1000만 시간 데이터의 자동화 주석 시스템
리 무 팀은 자동화 주석 시스템을 개발했습니다. 이 시스템은 다중 ASR 모델, 음성 이벤트 분류 모델 및 내부 음성 이해 모델을 통합합니다. 이 시스템을 통해 그들은 1000만 시간의 음성 데이터를 정리하고 주석 처리했으며, 이는 현재 공개된 음성 대규모 모델 중 가장 큰 훈련 데이터셋 중 하나입니다.이 중 음성 이해 모델은 Higgs Audio v1 Understanding을 기반으로 미세 조정되어 데이터 라벨링의 품질을 보장합니다.
2. 통합된 Higgs Audio 토큰화기
팀은 의미와 음향 특성을 동시에 포착할 수 있는 통합된 Higgs Audio 토큰화기를 처음부터 훈련했습니다. 이 혁신은 전통적인 음성 모델에서 의미와 음향 특성이 분리되는 문제를 해결하여 모델이 음성 콘텐츠를 더 포괄적으로 이해하고 더 자연스러운 음성 출력을 생성할 수 있도록 합니다.
3. DualFFN 아키텍처: 효율적인 음성 모델링
Higgs Audio V2는 DualFFN 아키텍처를 제안했습니다. 이 아키텍처는 LLM(대규모 언어 모델)의 핵심 기능을 유지하면서 최소한의 계산 비용으로 음성 모델링을 효율적으로 구현합니다. 이 아키텍처는 모델이 텍스트와 음성 정보를 동시에 처리할 수 있도록 하여 더 복잡한 음성 생성 작업을 수행할 수 있습니다.
4. 성능 평가: 산업 표준을 전면적으로 초과
권위 있는 평가에서 Higgs Audio V2는 인상적인 성과를 보여주었습니다:
EmergentTTS-Eval 벤치마크: 감정 표현 성공률에서 GPT-4o-mini-tts보다 75.7% 높고, 문제 처리 성공률은 55.7% 더 높습니다.
Seed-TTS, ESD 등 전통적 테스트: 다수의 음성 합성 벤치마크 테스트에서 업계 기존 모델을 전면적으로 앞서
MMAU 음성 추론 능력 평가: 음악 작업에서 데이터 커버리지 제한으로 인해 성능이 약간 떨어졌지만, 기초 LLM의 사고 체인(COT) 능력을 활용해 음악 생성 성능이 크게 향상되었습니다
특히 주목할 점은 Higgs Audio V2의 감정 표현 분야에서 이루어진 혁신적인 진전입니다.평가 결과, 분노, 기쁨, 슬픔 등 다양한 복잡한 감정을 정확히 포착하고 표현할 수 있어 생성된 음성이 더 이상 ‘차가운’ 것이 아니라 따뜻하고 개성 있는 음성으로 변모했습니다.
5. 오픈소스 생태계: GitHub의 음성 AI 신성
Higgs Audio V2는 GitHub에서 완전히 오픈소스로 공개되어 개발자에게 완전한 코드베이스, 사전 훈련 모델 및 상세한 문서를 제공합니다.
GitHub 저장소에는 다음과 같은 내용이 포함됩니다:
- 모델 훈련 코드: 데이터 전처리, 모델 훈련 및 평가의 전체 프로세스를 포함합니다
- 사전 훈련 모델: 다양한 버전으로 제공되는 사전 훈련 모델로, 다양한 시나리오에 적합합니다
- 추론 예제: 개발자가 빠르게 시작할 수 있도록 풍부한 Jupyter Notebook 예제를 제공합니다
- 음성 클론 도구: 몇 줄의 코드만으로 구현 가능한 간편한 음성 클론 인터페이스
- 다국어 지원: 현재 중국어, 영어, 일본어, 한국어 등 다양한 언어를 지원합니다
이 프로젝트는 Apache 2.0 오픈소스 라이선스를 채택했으며 상업적 사용이 허용되어 기업과 개발자의 기술 활용 장벽을 크게 낮췄습니다.
6. 응용 전망: 음성 상호작용의 미래를 재정의하다
Higgs Audio V2의 오픈소스화는 다음과 같은 분야에 깊은 영향을 미칠 것입니다:
- 콘텐츠 창작: 개인 콘텐츠 창작자는 고품질의 음성 콘텐츠를 쉽게 생성할 수 있으며, 개인화된 가상 아나운서를 만들 수 있습니다
- 교육 분야: 언어 학습을 위한 자연스러운 음성 상호작용 환경을 제공하며, 실제 대화 상황을 모방합니다
- 접근성 기술: 시각 장애인을 위해 더 자연스럽고 감정적인 음성 보조 기능을 제공합니다
- 게임 및 엔터테인먼트: 게임 캐릭터에 독특한 음성과 감정을 부여하여 몰입감을 높입니다
- 지능형 고객 서비스: 인간적인 음성 고객 서비스 시스템을 구축하여 사용자 경험을 향상시킵니다
7. 음성 AI의 새로운 출발점
리무 팀의 Higgs Audio V2는 단순히 기술적으로 진보된 음성 모델을 넘어 음성 AI 분야의 중요한 이정표입니다. 대규모 데이터 훈련과 기술 혁신을 통해 AI 음성이 인간 수준의 자연스러움과 감정 표현 능력을 달성할 수 있음을 입증했습니다.
이 프로젝트의 오픈소스화로 전 세계 개발자들은 이 플랫폼을 기반으로 더 많은 혁신적인 응용 프로그램을 개발할 수 있게 되었으며, 음성 AI 기술이 더 자연스럽고 지능적이며 인간 친화적인 방향으로 발전하는 데 기여할 것입니다.이무가 Bilibili 영상에서 언급한 것처럼: “음성은 인간이 가장 자연스럽게 사용하는 소통 방식입니다. 우리의 목표는 AI가 단순히 기계적으로 발음하는 것이 아니라, 진정한 감정을 담은 음성을 이해하고 생성하는 것입니다.”
Higgs Audio V2의 출시로 음성 AI 기술은 ‘말할 수 있는’ 단계에서 ‘말할 수 있는’ 단계로, ‘들을 수 있는’ 단계에서 ‘들을 수 있는’ 단계로 진화하고 있습니다. 이는 단순히 기술의 진보가 아니라 인간과 기계의 상호작용 방식에 대한 혁명입니다. 오픈소스 커뮤니티의 공동 노력으로 음성 AI가 우리에게 더 많은 놀라움을 선사할 것을 기대합니다.
GitHub: https://github.com/boson-ai/higgs-audio
- 선택됨
