Qwen 신규 오픈소스 공개, AI 이미지 생성 텍스트 품질을 SOTA 수준으로 끌어올렸습니다
현재 이미지 내 텍스트 생성 기술은 이 정도 수준까지 진화했으며, 게다가 오픈소스로 공개되었습니다.
통의 모델 가족이 다시 한 번 오픈소스를 공개했습니다. 이번에는 Qwen-Image — 200억 파라미터를 갖춘 MMDiT 아키텍처를 채택한 이미지 생성 모델입니다.
이 모델은 통의 천문 시리즈 중 첫 번째 이미지 생성 기반 모델입니다.
Qwen-Image가 생성한 이미지를 보면, 그 주요 기능 중 하나가 복잡한 텍스트 렌더링임을 알 수 있습니다.
이 서점 베스트셀러 서가 이미지는 복잡한 텍스트와 이미지 혼합 레이아웃을 포함하며, 텍스트의 정확도, 적합성, 심지어 책의 배치 각도에 따른 변화까지도 완벽합니다.
포스터 생성도 문제 없습니다.
통의천문 팀은 모델과 상세 기술 보고서를 한 번에 공개했으며, Qwen-Image의 기능은 즉시 QwenChat에 적용되어 공식 홈페이지에서 바로 체험할 수 있습니다.
데모는 우수하지만, 실제 성능은 어떨까요?
라운드 1: 상황 일러스트
테스트 키워드는:
이백이 창가에 서서 “침전 월명광”을 쓰고 있으며, 창 밖의 달이 하늘에 떠 있어 실내에 부드러운 빛을 투영하고, 책상에는 술과 책이 있으며, 전체 스타일은 고전적입니다.
와우, 국어 교과서에 바로 사용할 수 있을 정도네요.
“침대 앞의 달빛”이라는 글자가 단순히 붙여진 것이 아니라 화면과 잘 어우러져 있습니다. 화면의 세부적인 부분도 분위기가 잘 살아 있습니다.
강제로 흠을 잡자면, AI가 실내와 실외를 구분하지 못한 부분이 있습니다(doge).
라운드 2: PPT 및 포스터 생성
공식 데모에는 PPT를 직접 생성하는 예시가 있습니다. 우리도 테스트해 보겠습니다. 힌트 문구는:
기업용 고품질 PPT 페이지 이미지, 전체적으로 간결하고 현대적인 스타일, 주 색상은 청록색, 배경은 선과 입자로 기술감을 연출, 페이지 상단 왼쪽에 QbitAI 로고가 명확히 표시됩니다. 주 제목은 화면 중앙 상단에 위치하며, 텍스트 내용은 “QuantumBit AI Coding 오프라인 세미나”로, 글꼴은 정갈하고 간결하며 기술감을 강조합니다. 주 제목 아래에는 두 개의 이미지가 배치됩니다. 하나는 오프라인 세미나 현장 사진, 다른 하나는 AI 프로그래밍을 보여주는 이미지
생성 결과는 다음과 같습니다:
엄격히 보면 오른쪽 상단에 작은 결함이 있으며, 왼쪽 하단의 그림 속 텍스트도 정확하지 않습니다. 그러나 전체적인 효과는 매우 우수하며, 주요 텍스트와 그림 속 텍스트 모두 지시어의 요구사항을 충족합니다.
만약 지시어가 더 모호하고 단순하다면 Qwen-Image는 여전히 고품질 결과를 제공할 수 있을까요?
테스트 힌트:
포스터를 제작하세요. 주제는 ‘통의천문 오픈소스 Qwen-Image'입니다.
문자가 정확하며 AI 그림 요소를 반영했습니다. 문제 없습니다.
라운드 3: 상품 홍보 이미지
마지막으로 Qwen-Image의 '상품 홍보’ 능력을 테스트해 보겠습니다.
힌트:
빵집의 상품 홍보 이미지입니다. 화면의 주제는 빵과 크림 케이크입니다.그림 속 텍스트는 ‘맛있음’, ‘동물 크림’, '좋은 하루의 시작'을 표현하며, 서체는 꽃체로 전체적으로 경쾌하고 활기찬 분위기입니다. 전체적으로 따뜻한 색조
놀랍게도 Qwen-Image는 '동물 크림'이라는 텍스트를 정확히 크림 케이크에 대응시켰습니다.
참고로, 위의 실제 테스트 결과는 모두 한 번의 출력 결과입니다.
Qwen-Image는 힌트 문장의 이해도가 매우 높으며, 힌트가 정확할수록 실행 결과의 세부 사항이 풍부합니다. 특히 텍스트 렌더링 능력은 공식 설명대로 고충실도 출력이 가능합니다.
이 결과물에 몇 점을 주시겠습니까?
성능 SOTA
텍스트 렌더링 능력 외에도 Qwen-Image는 일관성 있는 이미지 편집 기능을 갖추고 있으며, 스타일 전환, 추가/삭제/수정, 세부 사항 강화, 텍스트 편집, 인물 자세 조정 등 다양한 작업을 지원합니다.
요약하면, 주요 특징은 다음과 같습니다:
- 복잡한 텍스트 렌더링 능력: Qwen-Image는 복잡한 텍스트 렌더링에서 우수한 성능을 보여주며, 다중 행 레이아웃, 단락 수준 텍스트 생성 및 세밀한 세부 사항 표현을 지원합니다. 영어와 중국어 모두에서 고충실도 출력이 가능합니다.
- 일관된 이미지 편집 능력: 강화된 다중 작업 훈련 패러다임을 통해 Qwen-Image는 편집 과정에서 편집의 일관성을 우수하게 유지합니다.
- 성능 SOTA: 여러 공개 벤치마크 테스트 평가 결과, Qwen-Image는 다양한 생성 및 편집 작업에서 SOTA를 달성했습니다.
성능 측면에서, 통의천문 팀은 Qwen-Image를 여러 공개 벤치마크에서 평가했습니다. 이는 일반적인 이미지 생성을 위한 GenEval, DPG 및 OneIG-Bench, 그리고 이미지 편집을 위한 GEdit, ImgEdit 및 GSO를 포함합니다.
모든 벤치마크 테스트에서 Qwen-Image는 SOTA를 달성했습니다.
텍스트 렌더링을 위한 LongText-Bench, ChineseWord 및 TextCraft에서의 결과는 Qwen-Image가 텍스트 렌더링 분야에서 특히 우수한 성능을 보였음을 보여줍니다.
특히 중국어 텍스트 렌더링 분야에서 기존 최첨단 모델보다 크게 앞서고 있습니다.
기술 보고서에서 공개된 세부 사항에 따르면, 복잡한 텍스트 렌더링 문제를 해결하기 위해 통의천문 팀은 데이터 처리 및 훈련 전략 측면에서 개선을 가했습니다.
훈련 측면에서 Qwen-Image는 단계적 훈련 전략을 채택해 비텍스트에서 텍스트 렌더링으로, 단순한 텍스트 입력에서 복잡한 텍스트 입력으로 점차 전환하며 단락 수준 설명으로 발전시켰습니다. 이 과정 학습 방법은 모델의 원시 텍스트 렌더링 능력을 크게 강화했습니다.
더 자세한 내용은 글 하단의 링크를 클릭해 공식 기술 보고서를 확인하세요.
One More Thing
공식에서 공개한 예시 중 흥미로운 PPT가 하나 있습니다.
프로ンプ트에 포함된 키워드는 “통의천문 시각 기초 모델”입니다.
혹시 새로운 정보일까요?
이번 8월은 정말 흥미진진하네요~
ModelScope: https://modelscope.cn/models/Qwen/Qwen-Image
Hugging Face: https://huggingface.co/Qwen/Qwen-Image
GitHub: https://github.com/QwenLM/Qwen-Image
기술 보고서: https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen-Image/Qwen_Image.pdf
실제 테스트 주소: chat.qwen.ai
- 선택됨
