구글이 MedGemma 의료 다모달 딥러닝 기술 분석, 훈련 데이터, 최적화 방법, 성능 평가를 오픈소스로 공개했습니다.
Gemma 모델 가족은 구글이 출시한 경량화되고 고급화된 오픈소스 모델로, Gemini 모델 개발에 사용된 동일한 연구 및 기술 기반을 바탕으로 개발되었습니다1. Gemma 가족의 전문 분야 확장 버전인 MedGemma는 Gemma 3의 변형 모델로, 의료 텍스트 및 이미지 이해에 특화되어 최적화되었습니다3.
이 보고서는 사용자가 제공한 템플릿을 기반으로 Gemma 및 MedGemma 모델에 대한 포괄적인 기술 개요를 제공하며, 모델의 확장 가능성과 관련된 기타 모델을 중점적으로 논의합니다. MedGemma LLM API는 dr7에서 확인할 수 있으며, 여기에는 100개 이상의 의료 API가 포함되어 있습니다.
구글은 MedGemma, CodeGemma, TxGemma 등 다양한 전문 분야별 Gemma 변형을 신속히 개발 및 출시하며, 강력한 인공지능 도구를 특정 분야에 확산시키는 전략적 조치를 취했습니다. 이는 ‘일괄 적용’ 방식의 일반적인 해결책 대신 맞춤형 접근 방식을 채택한 것입니다. 이 전략은 기술 채택과 혁신을 촉진하지만, 사용자는 각 모델의 특정 분야에서의 안전성과 윤리적 기준을 신중히 고려해야 합니다.관찰 결과, 구글은 MedGemma, CodeGemma, TxGemma, PaliGemma, ShieldGemma, DataGemma, RecurrentGemma 및 SignGemma 5 등 다양한 Gemma 변종을 출시하고 있습니다.
이 모델들은 모두 '개방형 모델'로 정의되며 2 Gemma 또는 Gemma 3 아키텍처를 기반으로 구축되었습니다 5.이 조치는 구글이 다양한 응용 시나리오에 적합한 고성능 모델을 쉽게 접근할 수 있도록 제공하려는 의도를 반영합니다2. 더 깊은 고려 사항은 이러한 전문화가 모델이 특정 산업의 성능 요구사항을 더 정확히 충족시킬 수 있도록 하며, 특정 산업 응용을 위한 미세 조정 과정을 간소화할 수 있다는 점입니다. 예를 들어 MedGemma는 의료 건강 분야를 대상으로 하며4, TxGemma는 치료학 분야에 적용됩니다12.그러나 이 모델의 대중화는 혁신을 촉진하는 동시에 사용자가 각 변체의 미묘한 차이 및 특정 사용 조건과 안전 주의사항을 깊이 이해해야 하는 과제를 안고 있습니다1. 그 “개방성”과 강력한 기능의 결합은 건전한 책임 있는 인공지능 프레임워크 구축이 특히 중요해졌습니다2.
1. 기능 (Function)
Gemma 일반 기능:
Gemma 시리즈 모델은 텍스트에서 텍스트로의 변환을 주로 수행하는 디코더 전용(decoder-only) 대규모 언어 모델입니다1. 핵심 기능은 질문 답변, 텍스트 요약, 논리 추론, 시, 시나리오, 코드, 마케팅 문안, 이메일 초안 등 창의적인 텍스트 생성을 포함한 다양한 자연어 처리 작업을 포괄합니다1. 또한 Gemma 모델은 채팅봇 및 대화형 인공지능 시스템 구축에도 적용 가능합니다1.
Gemma 3 버전은 이 기반에 더 강력한 기능을 추가했으며, 주요 특징은 다모달 처리 능력으로 이미지 및 텍스트를 입력으로 받아 텍스트 출력을 생성합니다 11. 또한 140개 이상의 언어를 지원하며, 광범위한 언어 커버리지를 갖추고 있으며, 외부 도구나 API와 상호작용하여 더 복잡한 작업을 수행할 수 있는 함수 호출(function calling) 기능을 도입했습니다11.
MedGemma 특정 기능:
MedGemma는 Gemma 3의 변형으로, 의료 분야의 텍스트 및 이미지 이해 작업에 기능을 집중시켜 우수한 성능을 제공합니다3.
●MedGemma 4B (다모달 모델): 이 버전은 의료 이미지 및 텍스트 데이터를 동시에 처리할 수 있습니다 19. 주요 기능은 다음과 같습니다:
○ 의료 이미지 분류: 방사선 영상, 디지털 병리 이미지, 안저 이미지 및 피부 이미지 등 다양한 의료 이미지의 분류에 적용됩니다5.
○의료 이미지 해석: 의료 영상 보고서를 생성하거나 의료 이미지에 대한 자연어 질문에 답변하는 데 도움을 줍니다5.
●MedGemma 27B (순수 텍스트 모델): 이 버전은 심층 의료 텍스트 이해와 임상 추론을 최적화했습니다 4. 주요 적용 분야는 다음과 같습니다:
○환자 인터뷰 지원.
○임상 분류 지원.
○임상 결정 지원.
○임상 데이터 요약 생성.
Gemma의 일반적인 능력과 MedGemma의 전문 의료 기능 간의 차이는 분야 특화형 대규모 언어 모델(LLM)의 발전 추세를 보여줍니다. Gemma는 다양한 응용 분야에 유연한 기반을 제공하며, MedGemma는 특정 분야에 집중함으로써 의료 지식과 다모달 이해 능력을 깊이 통합했습니다. 이는 의료 건강 응용 분야에서 매우 중요합니다. 이에 따라 미래 LLM의 발전은 이러한 '수직화'된 전문 모델이 더 많이 등장할 것으로 예상됩니다.관찰 결과, Gemma 모델은 일반성을 갖추고 있습니다 1, 반면 MedGemma는 의료 임무에 집중합니다 3.
MedGemma는 Gemma 3 아키텍처를 기반으로 하지만, 의료 데이터로 훈련하고 의료 임무에 맞게 미세 조정을 통해 전문 기능을 구현했습니다4. 이는 일반 아키텍처가 특정 분야의 요구사항을 효과적으로 적응시켜 이러한 세분화된 시장에서 더 높은 성능을 달성할 수 있음을 의미합니다.이 과정은 일반적으로 분야별 데이터가 필요하며, 아키텍처 조정(예: MedGemma 4B 버전에서 의료 이미지에 사전 훈련된 SigLIP 이미지 인코더7)이 포함될 수 있습니다. MedGemma의 성공 사례는 금융 분야의 FinGemma, 법률 분야의 LegalGemma 등 복잡하고 규제된 산업에서 유사한 ‘X-Gemma’ 모델 개발을 촉진할 수 있으며, 각 모델은 세심한 데이터 관리 및 검증 프로세스가 필요합니다.
2. 목표 (Goal)
Gemma의 일반적인 목표:
Gemma 시리즈 모델의 출시 목적은 개발자의 혁신을 지원하고 커뮤니티 협력을 촉진하며 책임감 있는 인공지능 응용 프로그램 개발을 안내하기 위해 경량화되고 기술적으로 선도적인 오픈 소스 모델을 제공하는 것입니다 2. 핵심 목표는 인공지능 응용 프로그램이 사용자가 필요로 하는 어떤 환경에서도 실행될 수 있도록 하는 것입니다. 이는 워크스테이션, 노트북, 심지어 모바일 전화기에서도 가능합니다 5. 더 넓게 보면, Gemma는 인공지능 기술의 접근성을 높이고 산업 전체가 안전하고 책임감 있는 인공지능의 새로운 길을 탐구하는 데 기여합니다 10.
MedGemma의 특정 목표:
MedGemma의 목표는 더욱 구체적이며, 의료 건강 분야에서의 인공지능 응용 프로그램 개발을 가속화하는 것이 최우선 과제입니다 3. 이는 개발자가 건강 응용 프로그램을 구축하는 출발점으로 설계되었으며, 예를 들어 방사선 영상 분석이나 임상 데이터 요약과 같은 작업을 수행할 수 있습니다4. 또한 MedGemma는 연구자들이 새로운 과학적 가설을 제시하고 연구 계획을 작성하며 생물 의학 분야의 발견 과정을 가속화하는 데 도움을 주는 것을 목표로 합니다4.
인공지능 기술의 대중화라는 거대한 목표(Gemma의 핵심 목적)는 MedGemma에서 구체화되었습니다. 즉, 인공지능을 의료 건강 분야에 적용하는 것을 가속화하는 데 특별히 초점을 맞추고 있습니다. 이는 의료 AI 개발 분야가 데이터 민감성, 엄격한 규제 요구사항, 전문 지식에 대한 높은 의존성 등으로 인해 높은 진입 장벽을 가지고 있음을 반영합니다. MedGemma의 출현은 바로 이 장벽을 낮추기 위해 설계되었습니다.Gemma는 광범위한 인공지능 기술의 보급2에 헌신하고 있으며, MedGemma는 의료 인공지능의 발전을 가속화하는 데 집중하고 있습니다3.
의료 건강 분야는 인공지능의 응용 잠재력이 매우 크지만, 동시에 높은 복잡성과 위험을 동반합니다4. MedGemma와 같은 전문적인 오픈 모델을 제공함으로써 구글은 의료 건강 분야의 도전에 대응할 수 있는 더 많은 개발자와 연구원을 지원하고자 하며, 이는 의료 인공지능 분야의 혁신 주기를 가속화할 수 있습니다.MedGemma의 ‘개방형’ 특성 4와 의료 분야 사전 훈련은 의료 과제 기반 모델 구축에 필요한 초기 작업량을 줄여 개발 가속화 목표에 직접 기여합니다. 이 모델이 성공한다면, 솔루션이 소수의 대규모 기업에 집중되는 대신 더 다양화된 의료 AI 도구 생태계가 탄생할 수 있습니다.
3. 배경 (Background)
개발자:
Gemma 모델 가족은 구글 DeepMind 및 구글 내 다른 팀들이 공동으로 개발했습니다 2. MedGemma는 그 전문 변형으로, 구글에서 개발되었으며 주로 구글 헬스(Google Health)와 구글 DeepMind 팀이 담당했습니다 4.
개발 목적 및 개념:
●Gemma: 이 모델은 Gemini 모델에서 영감을 받아 동일한 연구 성과와 기술 기반을 바탕으로 개발되었습니다 1. Gemma의 핵심 철학은 커뮤니티에 개방형 인공지능 기술을 제공하고 책임감 있는 개발 실천을 장려하는 것입니다10.
●MedGemma medical API: 이 모델의 출시 는 구글이 의료 인공지능 분야에 지속적으로 투자하고 발전시켜온 결과물로, Med-PaLM, Med-PaLM 2, Med-Gemini에 이어 중요한 성과입니다 4. MedGemma는 Google I/O 2025 컨퍼런스에서 공식 발표되었으며4, 의료 건강 애플리케이션 개발자에게 견고한 출발점을 제공하는 것을 목표로 합니다4.
MedGemma는 고립된 프로젝트가 아니라 구글이 의료 인공지능 분야에 장기적으로 투자하고 연구해온 트랙의 연장선입니다. 이 모델은 일반 모델 Gemini/Gemma와 전문 의료 모델 Med-PaLM 시리즈의 선진 기술을 융합해 개발되었습니다. 이러한 깊은 뿌리는 MedGemma가 탄탄한 기술적 기반을 갖추고 있으며, 구글이 의료 인공지능 분야 발전에 대한 결의를 보여줍니다.
MedGemma의 개발은 Med-PaLM, Med-PaLM 2 및 Med-Gemini에 이어 진행되었습니다. 4 Gemma 자체는 Gemini 기술에서 파생되었습니다. 1 이는 기술 진화 경로를 명확히 보여줍니다: 대규모 전용 모델(예: Gemini, Med-PaLM)에서 얻은 경험과 지식이 추출되어 더 쉽게 접근 가능한 오픈 모델(예: Gemma, MedGemma)에 적용됩니다.이는 구글이 최첨단 연구 성과를 전략적으로 활용해 오픈 소스 커뮤니티를 위한 기초 모델을 구축하고 있으며, 이는 혁신을 촉진하고 미래에 더 발전된 전용 모델을 위한 피드백을 수집하는 것을 목표로 할 수 있음을 시사합니다. 더 넓은 관점에서 보면, MedGemma의 Google I/O 2025 발표 시점은 구글의 인공지능 제품 포트폴리오 내 전략적 중요성과 의료 인공지능 분야 개발자 생태계 구축에 대한 결의를 강조합니다6.
4. 아키텍처 (Architecture)
Gemma 일반 아키텍처:
Gemma 모델 가족은 디코더만 사용하는 Transformer 아키텍처를 채택했습니다 1.
Gemma 3 버전은 아키텍처 측면에서 다음과 같은 주요 특성을 도입했습니다:
●파라미터 규모: 1B, 4B, 12B, 27B 등 다양한 파라미터 규모를 제공합니다 11. 특히 1B 파라미터 버전은 Gemma 3에서 새롭게 추가된 규모입니다 30.
●다모달 능력: 대부분의 Gemma 3 모델(1B 버전은 순수 텍스트 모델 제외)은 이미지 및 텍스트 입력 처리를 지원하는 다모달 능력을 갖추고 있습니다 15.이는 맞춤형 SigLIP 시각 인코더를 통합한 결과입니다. 시각 임베딩은 고정된 256개 벡터로 압축되며, Pan and Scan (P&S) 방법을 통해 유연한 이미지 해상도 입력을 지원합니다 16.
●컨텍스트 윈도우: 최대 128K 토큰의 컨텍스트 윈도우를 지원합니다(1B 모델은 32K 토큰) 15.
●KV 캐시 최적화: 긴 컨텍스트로 인한 KV 캐시 급증 문제를 해결하기 위해 Gemma 3는 글로벌 주의력 레이어 대비 로컬 주의력 레이어의 비율을 증가시켰으며(로컬 레이어 5개당 글로벌 레이어 1개), 로컬 주의력의 스팬(span)을 1024 토큰으로 제한했습니다 30.
●주의 메커니즘: 그룹 쿼리 주의(Grouped-Query Attention, GQA) 메커니즘을 채택했습니다 30.
●정규화: 후처리 정규화(post-norm)와 사전 처리 정규화(pre-norm)를 사용하며, RMSNorm과 결합했습니다. 또한 Gemma 2의 소프트 캡핑(soft-capping) 메커니즘을 QK-norm으로 대체했습니다 30.
●RoPE 기본 주파수: 전역 자기 주의력 층의 회전 위치 인코딩(RoPE) 기본 주파수를 1M로 증가시켰으며, 지역 주의력 층의 기본 주파수는 10k로 유지되었습니다 30.
MedGemma 특정 아키텍처:
MedGemma 모델은 Gemma 3 계열의 디코더 전용 Transformer 아키텍처를 기반으로 구축되었습니다 3.
주요 변형에는 다음과 같습니다:
●google/medgemma-4b-it 및 google/medgemma-4b-pt: 모두 4B 파라미터의 다모달 모델로, 이미지-텍스트-텍스트(Image-Text-to-Text) 처리를 지원합니다 3.
●google/medgemma-27b-text-it: 27B 파라미터의 순수 텍스트 모델입니다 3.
MedGemma 4B 버전의 핵심 특징 중 하나는 SigLIP 이미지 인코더가 비식별화된 의료 데이터셋7을 사용해 맞춤형 사전 훈련을 거쳤다는 점입니다. 입력 의료 이미지는 896x896 해상도로 정규화되며, 256개의 토큰으로 인코딩됩니다21.
Gemma 3의 아키텍처 혁신, 특히 장문맥 처리(KV 캐시 최적화)와 다모달 능력(SigLIP 통합)은 MedGemma에 직접 계승되었습니다. 이는 MedGemma가 이러한 일반적인 기술적 진보를 활용하며, 의료 분야 사전 훈련을 통해 이러한 능력을 더욱 강화했다는 의미입니다.Gemma 3의 다양한 파라미터 규모 버전에서 공유되고 최적화된 시각적 인코더(SigLIP)는 다모달 처리16에 활용되며, MedGemma 4B는 이를 활용하고 의료 분야 사전 훈련을 결합했습니다. 이는 이미지 관련 작업을 효율적이고 고성능으로 수행하는 데 있어 핵심적인 설계 결정입니다.Gemma 3는 아키텍처 측면에서 장문맥과 다모달 능력을 개선했습니다 16, MedGemma는 Gemma 3를 기반으로 구축되었습니다 25.
MedGemma 4B 버전은 SigLIP 인코더를 채택하고 의료 데이터에서 사전 훈련을 수행했습니다 19, 이는 Gemma 3의 일반적인 다모달 아키텍처가 특정 분야에 특화되어 적용된 사례입니다.따라서 MedGemma는 대규모 의료 텍스트(예: 128K 컨텍스트 윈도우로 환자 병력, 연구 논문 등)를 처리하고 의료 이미지를 분석할 수 있어 복잡한 진단 지원 또는 연구 작업에 적합합니다. 그 아키텍처 효율성(KV 캐시 최적화)은 장문서 처리 시 실제 배포를 실현하는 데 필수적입니다.더 깊이 살펴보면, 시각적 임베딩을 고정 크기(256개 벡터 30)로 압축하고 Pan & Scan 기술을 통해 유연한 해상도 처리를 구현한 결정은 이미지 처리에서 성능과 계산 비용 간의 균형을 중시한다는 점을 보여줍니다. 이는 “경량급” 모델 가족에게 특히 중요하며, MedGemma의 다모달 능력과도 밀접하게 연관되어 있습니다.
5. 훈련 데이터 (Training Data)
Gemma 일반 훈련 데이터:
Gemma 모델의 사전 훈련은 대규모 텍스트 및 코드 데이터셋 22를 기반으로 합니다.
●Gemma 1: 영어 콘텐츠를 주로 사용해 웹 문서, 코드 및 수학 데이터셋에서 훈련되었습니다9.
●Gemma 2: 훈련 데이터에는 영어 웹 문서, 코드 및 과학 논문 9가 포함됩니다.
●Gemma 3: 데이터 혼합을 조정하여 다언어 능력(140개 이상의 언어 지원)을 향상시키고 이미지 이해 능력을 도입했습니다.Gemini 2.0과 동일한 토큰화기(tokenizer)를 사용했습니다 16. 모델의 파라미터 규모에 따라 훈련 데이터 양이 다릅니다: 1B 모델은 2T 토큰, 4B 모델은 4T 토큰, 12B 모델은 12T 토큰, 27B 모델은 14T 토큰을 사용했습니다 16.
●민감 데이터 필터링: 훈련 과정에서 자동화 기술을 사용하여 훈련 데이터 세트 내 특정 개인 정보 및 기타 민감 데이터를 필터링했습니다2.
MedGemma 특정 훈련 데이터:
MedGemma의 훈련 데이터는 높은 의료 전문성을 갖추고 있습니다:
●MedGemma 4B:
○ SigLIP 이미지 인코더는 다양한 비식별화 의료 이미지 데이터(흉부 X선 사진, 피부과 이미지, 안과 이미지, 조직 병리학 슬라이드)에서 사전 훈련되었습니다7.
○ 대규모 언어 모델(LLM) 구성 요소는 방사선 영상, 조직 병리학 이미지 블록, 안과 이미지, 피부과 이미지 및 의료 텍스트를 포함한 다양한 의료 데이터에서 훈련되었습니다7.
●MedGemma 27B: 이 버전은 의료 텍스트만을 사용하여 훈련되었습니다 7.
●공개 데이터셋: MedGemma의 훈련에는 여러 공개 데이터셋이 포함됩니다. 예를 들어 MIMIC-CXR(흉부 X선 사진 및 보고서), Slake-VQA(다모달 의료 이미지 및 질문), PAD-UFES-20(피부 병변 이미지 및 데이터), SCIN(피부과 이미지), TCGA(암 유전체학 데이터), CAMELYON(림프절 조직 병리학 이미지) 및 PMC-OA(생물의학 문헌) 21. 또한 MedQA 및 Mendeley Digital Knee X-Ray와 같은 데이터셋도 포함될 수 있습니다21.
●내부 데이터셋: 공개 데이터 외에도 MedGemma의 훈련은 연구 허가를 받은 비식별화 데이터셋 및 구글 내부에서 참가자 동의 하에 수집된 데이터를 활용합니다 21.
●관련 데이터셋 예시: MedMax 데이터셋 36은 147만 개의 예시를 포함하며, 교차 텍스트-이미지 생성, 생물의학 이미지 설명 및 생성, 시각적 질문 답변, 시각적 대화, 보고서 이해 등 다양한 작업을 포함합니다. 이 데이터셋은 MedGemma의 직접적인 훈련 데이터셋으로 명시되지 않았지만, 혼합 모달리티 생물의학 기초 모델 훈련에 필요한 데이터 유형과 작업을 대표합니다.同様に、MCP-MedSAM 논문에서 언급된 10여 가지 영상 모드와 30여 가지 질환을 포함한 대규모 의료 데이터셋은 의료 이미지 분할 모델 훈련에 대한 참고 자료로도 의미가 있습니다 37.
훈련 데이터의 품질과 다양성은 매우 중요합니다. MedGemma의 강점은 전문적인 의료 훈련 데이터에 있으며, 이는 공개 데이터셋과 전용 비식별화 데이터셋을 포함합니다.의학 분야에서는 비식별화 데이터에 대한 강조19가 윤리 및 개인정보 보호에 필수적입니다. 그러나 주요 우려 사항은 “데이터 오염”22의 위험으로, 모델이 사전 훈련 단계에서 테스트 데이터에 무의식적으로 노출될 수 있으며, 이는 새로운 의학 개념에 대한 일반화 능력을 과대평가할 수 있습니다. MedGemma를 사용하는 개발자는 이 위험을 완화하기 위해 적극적으로 조치를 취해야 합니다.
관찰 결과, MedGemma는 특정 의료 데이터셋21을 사용했으며, 일반적인 Gemma 모델은 웹 텍스트, 코드 등 데이터9를 사용했습니다. 일반적인 웹 데이터에서 정교하게 정리된 비식별화 의료 데이터로 전환하는 것은 MedGemma에 분야별 전문 지식을 부여하는 핵심입니다.특히 MedGemma 4B 버전에서 다모달 의료 데이터(이미지와 텍스트)의 사용은 중요합니다22. 이는 데이터 소스의 획득과 정리가 MedGemma와 같은 전문 모델을 구축하는 데 있어 어려운 과제임을 의미합니다. “연구 허가된 비식별화 데이터셋 또는 내부 수집 데이터”21에 대한 의존은 구글에게 우위를 제공했지만, 더 넓은 연구에서 데이터 접근성 측면의 과제를 부각시켰습니다.“데이터 오염 우려” 22를 명시적으로 언급한 것은 주목할 만한 문제입니다. 이는 공개 벤치마크 테스트에서의 성능이 사전 훈련 데이터셋에 유사한 데이터가 포함되어 과대평가될 수 있음을 시사합니다. 따라서 개발자는 사설 데이터셋에서 모델을 검증할 것을 권장합니다. 이는 의료 AI 모델의 실제 평가 복잡성을 강조합니다.미래에는 MedMax 36과 같은 대규모, 다양성, 다모달리티를 갖춘 생물의학 명령어 미세 조정 데이터셋을 구축하는 것이 이 분야 발전에 결정적 역할을 할 것입니다. 이러한 데이터셋은 MedGemma에 직접 사용되든, 다른 연구자들이 유사 모델을 구축하는 데 사용되든 상관없이 중요합니다.
6. 최적화 방법 (Optimization Method)
Gemma 일반 최적화 방법:
Gemma 모델, 특히 Gemma 3 버전은 성능과 효율성을 향상시키기 위해 다양한 고급 최적화 기술을 적용했습니다.
●지식 증류: Gemma 3 모델은 사전 훈련 단계에서 지식 증류 기술을 적용했습니다 30.
●후 훈련 최적화: Gemma 3는 수학, 추론, 채팅, 명령 준수 및 다중 언어 능력 측면에서 성능을 크게 향상시킨 혁신적인 후 훈련 방법을 채택했습니다 30. 이 과정은 더 큰 명령 모델로부터 증류, 인간 피드백 기반 강화 학습(RLHF), 기계 피드백 기반 강화 학습(RLMF, 수학 능력 대상) 및 실행 피드백 기반 강화 학습(RLEF, 코딩 능력 대상)을 적용합니다16.
●미세 조정 기술:
○감독형 미세 조정 (SFT): 예를 들어, UltraChat 등 데이터셋에서 QLoRA (Quantized Low-Rank Adaptation) 또는 FSDP (Fully Sharded Data Parallel)를 사용하여 TPU 장치에서 SFT를 수행합니다. 1
○JAX 및 Flax 미세 조정: JAX(고성능 수치 계산 라이브러리)와 Flax(JAX 기반 신경망 라이브러리)를 사용하여 미세 조정, 예를 들어 MTNT 데이터셋에서의 영어-프랑스어 번역 작업38. 이 과정에는 gemma.transformer.Transformer 클래스, jax.value_and_grad(손실 함수 및 기울기 평가용) 및 optax.apply_updates(매개변수 업데이트용)38이 포함됩니다.
○Keras와 LoRA 미세 조정: Keras 프레임워크와 저차원 적응(LoRA) 기술을 결합하여 메모리 효율적인 미세 조정을 구현했습니다39. 이는 Gemma3CausalLM.from_preset() 메서드로 모델을 로드하고, Keras의 fit() 메서드로 훈련을 수행하며, 학습률, 가중치 감쇠 및 LoRA 차원 등 초파라미터를 조정하는 것을 포함합니다 39.
●훈련 프레임워크 및 하드웨어: Gemma 모델의 훈련은 일반적으로 JAX 프레임워크를 사용하며, TPU(Tensor Processing Units) 하드웨어를 활용하여 가속화합니다 16.
MedGemma 특정 최적화 방법:
MedGemma는 Gemma의 일반적인 최적화를 기반으로 의료 분야의 특성에 맞게 추가 조정 및 최적화를 진행했습니다.
●분야별 데이터 훈련: MedGemma 4B의 LLM 구성 요소는 다양한 의료 데이터에서 훈련되었습니다 22.
●추론 시 계산 최적화: MedGemma 27B 버전은 추론 시 계산 효율성을 특별히 최적화했습니다 5.
●버전 제공: 명령어 미세 조정 버전(-it)과 사전 훈련 버전(-pt)을 제공합니다. 명령어 미세 조정 버전은 대부분의 응용 프로그램의 더 나은 출발점으로 권장되며, 사전 훈련 버전은 더 깊은 실험을 원하는 개발자에게 선택권을 제공합니다7.
●미세 조정 가이드라인: 개발자가 자체 전용 데이터를 사용하여 MedGemma 변형을 미세 조정하여 특정 작업이나 솔루션에 맞게 조정할 것을 권장합니다 22. Hugging Face 등 플랫폼은 관련 미세 조정 가이드라인을 제공하여 사용자를 지원합니다 22.
●적응형 방법: 추천되는 적응형 방법에는 프롬프트 엔지니어링(prompt engineering)/컨텍스트 학습(in-context learning), 미세 조정(예: LoRA 기술 사용), 에이전트 오케스트레이션(agentic orchestration)18이 포함됩니다.
Gemma 3 사전 훈련에서 지식 증류의 적용은 핵심 최적화이며, 이는 작은 규모의 모델이 더 크고 강력한(가능하면 전용) “교사” 모델의 능력을 상속할 수 있도록 합니다.MedGemma의 경우, 사전 훈련 버전과 명령어 미세 조정 버전을 동시에 제공함으로써 개발자에게 유연성을 제공하며, 다양한 수준의 맞춤화 요구사항과 전문성 수준을 충족시킵니다. LoRA 미세 조정 기술에 대한 강조는 대규모 계산 자원 없이 이러한 모델을 조정하는 실용적인 경로를 제시합니다.Gemma 3는 지식 증류 기술을 30에 적용했으며, MedGemma는 -pt와 -it 두 가지 버전을 22 제공하며 LoRA를 추천 미세 조정 방법 중 하나로 제시했습니다 24.
지식 증류는 강력하면서도 '경량급'의 기반 모델을 생성하는 데 도움이 됩니다. 이후 지시어 미세 조정은 이러한 모델이 특정 상호작용 패턴(예: 채팅, 질문 답변)에 적응할 수 있도록 합니다. LoRA 기술은 추가적인 전문화(미세 조정)를 더욱 쉽게 구현할 수 있도록 합니다. 이 다단계 최적화 전략(증류 사전 훈련 -> 지시어 미세 조정 -> LoRA 기반 미세 조정)은 MedGemma와 같은 강력하고 고도로 전문화된 모델을 개발하는 데 효과적인 경로를 제공하며, 동시에 더 넓은 커뮤니티가 이를 조정하고 적용할 수 있도록 합니다.MedGemma 27B에 대한 추론 시 계산 최적화 5는 실제 배포에 필수적이며, 특히 의료 환경에서 이 규모의 순수 텍스트 모델은 자원 제약에 직면할 수 있습니다.
HuggingFace:
https://huggingface.co/collections/google/medgemma-release-680aade845f90bec6a3f60c4
- 선택됨
