현재(2025년 3월 기준) 오픈소스 멀티모달 AI 모델 중 가장 뛰어난 성능을 가진 주요 모델은 DeepSeek Janus Pro와 Gemma 3이다. 두 모델의 특징과 성능을 비교하면 다음과 같다.

항목 | DeepSeek Janus Pro | Gemma 3 (젬마 3) |
---|---|---|
개발사 | 딥시크(DeepSeek) | 구글(Google DeepMind) |
파라미터 규모 | 수백억~수천억 수준으로 추정 (정확한 수치는 미공개) | 최대 27B (1B, 4B, 12B, 27B로 구성)25 |
멀티모달 처리 능력 | 텍스트, 이미지 등 다양한 멀티모달 입력 처리 우수 | 텍스트, 이미지, 비디오를 모두 처리 가능하며 SigLIP 비전 인코더 탑재12 |
문맥 길이(context window) | 긴 문맥 처리에 최적화됨 (구체적 수치 미공개) | 최대 128K 토큰으로 매우 긴 문맥 처리 가능124 |
성능 평가 결과 | 멀티모달 태스크 및 복잡한 추론 작업에서 현존 오픈소스 최고 수준의 성능으로 평가됨 | DeepSeek R1 대비 약 98%의 정확도를 기록하며, DeepSeek-V3 및 Llama-405B를 능가하는 성능38 |
하드웨어 효율성 | 대규모 모델로 높은 성능을 내나 상대적으로 많은 GPU 자원 필요 | 단 하나의 GPU(H100급)에서도 뛰어난 성능을 발휘하며, 하드웨어 효율성에서 매우 우수23 |
오픈소스 여부 | 오픈소스 공개 완료, 활발히 확산 중 | 오픈소스로 공개됨 (구글의 Gemma 라이선스 적용), Hugging Face 등에서 사용 가능5 |
멀티언어 지원 | 주로 영어 및 중국어 중심으로 최적화됨 | 140개 이상의 언어 지원(한국어 포함)45 |
모델명 | 개발사 | 특징 및 성능 |
---|---|---|
DeepSeek Janus Pro | 딥시크(DeepSeek) | 긴 문맥 처리 및 복잡한 멀티모달 작업에서 최고의 성능4 |
Pixtral Large | 미스트랄 AI(Mistral AI) | 124B 파라미터를 갖춘 대규모 모델로, 긴 문맥 처리 및 기능 호출에서 우수한 성능4 |
Qwen 2.5 VL 72B Instruct | 알리바바(Alibaba) | 이미지와 언어 입력 결합 능력 우수, 다양한 벤치마크에서 경쟁력 있는 성능24 |
Phi 4 Multimodal | 마이크로소프트(Microsoft) | 낮은 지연시간으로 실시간 애플리케이션에 적합한 모델4 |
Llama 3.2 Vision | 메타(Meta) | 텍스트와 이미지 데이터를 통합하여 복잡한 추론 작업에 강점4 |
Gemma 3(젬마 3)의 강점과 한계
- 강점
- SigLIP 비전 인코더를 탑재하여 텍스트뿐 아니라 이미지와 비디오까지 처리 가능한 진정한 멀티모달 모델이다12.
- 로컬-글로벌(local-to-global) 어텐션 메커니즘을 통해 메모리 효율성을 극대화했으며, 작은 하드웨어에서도 우수한 성능을 발휘한다1.
- 특히 Google은 Gemma 3가 DeepSeek R1 모델 정확도의 약 98%에 도달하면서도 소요되는 GPU 자원은 크게 줄였다고 주장하고 있다. 예를 들어 DeepSeek R1이 Nvidia H100 GPU를 32개 사용하는 반면, Gemma 3는 단 하나의 H100 GPU만으로 거의 유사한 성능을 제공한다고 밝혔다3.
- 다만 Roboflow의 테스트 결과 Gemma 3는 시각적 질문 답변(VQA), OCR 등 대부분 테스트에서 뛰어난 성과를 보였지만, 제로샷(zero-shot) 물체 탐지에서는 실패했다2.
종합 평가
현재 오픈소스 멀티모달 AI 모델 가운데 가장 뛰어난 두 모델인 DeepSeek Janus Pro와 Gemma 3는 각각 다른 강점을 보인다.
- 성능 측면: 전반적인 추론 능력과 멀티모달 작업에서는 DeepSeek Janus Pro가 뛰어난 것으로 평가되나, Gemma 3 역시 작은 하드웨어 환경에서도 높은 효율성과 우수한 성능을 제공해 경쟁력이 높다.
- 하드웨어 효율성 및 접근성 측면에서는 Gemma 3가 명확히 앞서며, 특히 소규모 GPU 환경에서도 탁월한 성능을 발휘한다는 점이 큰 장점이다.
- 멀티언어 지원 및 글로벌 활용성에서도 Gemma 3가 더 폭넓고 다양한 언어 지원으로 우위를 가진다.
결론적으로,
- 절대적인 성능(복잡한 추론 및 고난도 작업 수행 능력)에서는 DeepSeek Janus Pro가 여전히 가장 앞서 있다.
- 반면 하드웨어 효율성 및 소규모 환경에서의 뛰어난 성능, 다양한 언어 지원 등 실용적인 측면에서는 구글의 Gemma 3가 매우 강력한 경쟁력을 지닌다.
따라서 사용 목적과 환경에 따라 최적의 선택이 달라질 수 있으며, 고성능 중심이라면 DeepSeek Janus Pro, 효율성과 접근성을 중시한다면 Gemma 3가 더 적합하다.
Citations:
- https://www.youtube.com/watch?v=_WQ88mCXeYE
- https://blog.roboflow.com/gemma-3/
- https://www.zdnet.com/article/google-claims-gemma-3-reaches-98-of-deepseeks-accuracy-using-only-one-gpu/
- https://www.perplexity.ai/page/google-unveils-gemma-3-ai-mode-.cGGCsMoSo2X_pTrtcBw_Q
- https://huggingface.co/blog/gemma3
- https://www.youtube.com/watch?v=m2rG6zHoxBo
- https://www.youtube.com/watch?v=UU13FN2Xpyw
- https://indianexpress.com/article/technology/artificial-intelligence/what-is-gemma-3-google-new-lightweight-ai-model-9882853/
- https://developers.googleblog.com/en/safer-and-multimodal-responsible-ai-with-gemma/
- https://blog.google/technology/developers/gemma-3/
- https://ai.google.dev/gemma/docs/core/model_card_3
- https://www.youtube.com/watch?v=OHdL4-dUKuE
- https://ai.google.dev/gemma/docs/core
- https://developer.nvidia.com/blog/lightweight-multimodal-multilingual-gemma-3-models-are-streamlined-for-performance/
- https://www.reddit.com/r/artificial/comments/1j9mv50/google_releases_gemma_3_its_strongest_open_model/
- https://developers.googleblog.com/en/introducing-gemma3/
- https://arstechnica.com/gadgets/2025/03/googles-new-gemma-3-ai-model-is-optimized-to-run-on-a-single-gpu/
- https://www.news18.com/tech/googles-new-gemma-3-ai-model-performs-better-than-gpt-and-deepseek-ai-9260798.html
- https://developers.googleblog.com/en/gemma-3-on-mobile-and-web-with-google-ai-edge/
- https://www.businessinsider.com/google-gemma-cohere-nvidia-chips-efficient-deepseek-2025-3
Perplexity로부터의 답변: pplx.ai/share