멀티모달 오픈 소스중 가장 뛰어난 성능을 가진 모델은?

현재(2025년 3월 기준) 오픈소스 멀티모달 AI 모델 중 가장 뛰어난 성능을 가진 주요 모델은 DeepSeek Janus ProGemma 3이다. 두 모델의 특징과 성능을 비교하면 다음과 같다.

항목DeepSeek Janus ProGemma 3 (젬마 3)
개발사딥시크(DeepSeek)구글(Google DeepMind)
파라미터 규모수백억~수천억 수준으로 추정 (정확한 수치는 미공개)최대 27B (1B, 4B, 12B, 27B로 구성)25
멀티모달 처리 능력텍스트, 이미지 등 다양한 멀티모달 입력 처리 우수텍스트, 이미지, 비디오를 모두 처리 가능하며 SigLIP 비전 인코더 탑재12
문맥 길이(context window)긴 문맥 처리에 최적화됨 (구체적 수치 미공개)최대 128K 토큰으로 매우 긴 문맥 처리 가능124
성능 평가 결과멀티모달 태스크 및 복잡한 추론 작업에서 현존 오픈소스 최고 수준의 성능으로 평가됨DeepSeek R1 대비 약 98%의 정확도를 기록하며, DeepSeek-V3 및 Llama-405B를 능가하는 성능38
하드웨어 효율성대규모 모델로 높은 성능을 내나 상대적으로 많은 GPU 자원 필요단 하나의 GPU(H100급)에서도 뛰어난 성능을 발휘하며, 하드웨어 효율성에서 매우 우수23
오픈소스 여부오픈소스 공개 완료, 활발히 확산 중오픈소스로 공개됨 (구글의 Gemma 라이선스 적용), Hugging Face 등에서 사용 가능5
멀티언어 지원주로 영어 및 중국어 중심으로 최적화됨140개 이상의 언어 지원(한국어 포함)45
모델명개발사특징 및 성능
DeepSeek Janus Pro딥시크(DeepSeek)긴 문맥 처리 및 복잡한 멀티모달 작업에서 최고의 성능4
Pixtral Large미스트랄 AI(Mistral AI)124B 파라미터를 갖춘 대규모 모델로, 긴 문맥 처리 및 기능 호출에서 우수한 성능4
Qwen 2.5 VL 72B Instruct알리바바(Alibaba)이미지와 언어 입력 결합 능력 우수, 다양한 벤치마크에서 경쟁력 있는 성능24
Phi 4 Multimodal마이크로소프트(Microsoft)낮은 지연시간으로 실시간 애플리케이션에 적합한 모델4
Llama 3.2 Vision메타(Meta)텍스트와 이미지 데이터를 통합하여 복잡한 추론 작업에 강점4

Gemma 3(젬마 3)의 강점과 한계

  • 강점
    • SigLIP 비전 인코더를 탑재하여 텍스트뿐 아니라 이미지와 비디오까지 처리 가능한 진정한 멀티모달 모델이다12.
    • 로컬-글로벌(local-to-global) 어텐션 메커니즘을 통해 메모리 효율성을 극대화했으며, 작은 하드웨어에서도 우수한 성능을 발휘한다1.
    • 특히 Google은 Gemma 3가 DeepSeek R1 모델 정확도의 약 98%에 도달하면서도 소요되는 GPU 자원은 크게 줄였다고 주장하고 있다. 예를 들어 DeepSeek R1이 Nvidia H100 GPU를 32개 사용하는 반면, Gemma 3는 단 하나의 H100 GPU만으로 거의 유사한 성능을 제공한다고 밝혔다3.
  • 다만 Roboflow의 테스트 결과 Gemma 3는 시각적 질문 답변(VQA), OCR 등 대부분 테스트에서 뛰어난 성과를 보였지만, 제로샷(zero-shot) 물체 탐지에서는 실패했다2.

종합 평가

현재 오픈소스 멀티모달 AI 모델 가운데 가장 뛰어난 두 모델인 DeepSeek Janus ProGemma 3는 각각 다른 강점을 보인다.

  • 성능 측면: 전반적인 추론 능력과 멀티모달 작업에서는 DeepSeek Janus Pro가 뛰어난 것으로 평가되나, Gemma 3 역시 작은 하드웨어 환경에서도 높은 효율성과 우수한 성능을 제공해 경쟁력이 높다.
  • 하드웨어 효율성 및 접근성 측면에서는 Gemma 3가 명확히 앞서며, 특히 소규모 GPU 환경에서도 탁월한 성능을 발휘한다는 점이 큰 장점이다.
  • 멀티언어 지원 및 글로벌 활용성에서도 Gemma 3가 더 폭넓고 다양한 언어 지원으로 우위를 가진다.

결론적으로,

  • 절대적인 성능(복잡한 추론 및 고난도 작업 수행 능력)에서는 DeepSeek Janus Pro가 여전히 가장 앞서 있다.
  • 반면 하드웨어 효율성 및 소규모 환경에서의 뛰어난 성능, 다양한 언어 지원 등 실용적인 측면에서는 구글의 Gemma 3가 매우 강력한 경쟁력을 지닌다.

따라서 사용 목적과 환경에 따라 최적의 선택이 달라질 수 있으며, 고성능 중심이라면 DeepSeek Janus Pro, 효율성과 접근성을 중시한다면 Gemma 3가 더 적합하다.

Citations:

  1. https://www.youtube.com/watch?v=_WQ88mCXeYE
  2. https://blog.roboflow.com/gemma-3/
  3. https://www.zdnet.com/article/google-claims-gemma-3-reaches-98-of-deepseeks-accuracy-using-only-one-gpu/
  4. https://www.perplexity.ai/page/google-unveils-gemma-3-ai-mode-.cGGCsMoSo2X_pTrtcBw_Q
  5. https://huggingface.co/blog/gemma3
  6. https://www.youtube.com/watch?v=m2rG6zHoxBo
  7. https://www.youtube.com/watch?v=UU13FN2Xpyw
  8. https://indianexpress.com/article/technology/artificial-intelligence/what-is-gemma-3-google-new-lightweight-ai-model-9882853/
  9. https://developers.googleblog.com/en/safer-and-multimodal-responsible-ai-with-gemma/
  10. https://blog.google/technology/developers/gemma-3/
  11. https://ai.google.dev/gemma/docs/core/model_card_3
  12. https://www.youtube.com/watch?v=OHdL4-dUKuE
  13. https://ai.google.dev/gemma/docs/core
  14. https://developer.nvidia.com/blog/lightweight-multimodal-multilingual-gemma-3-models-are-streamlined-for-performance/
  15. https://www.reddit.com/r/artificial/comments/1j9mv50/google_releases_gemma_3_its_strongest_open_model/
  16. https://developers.googleblog.com/en/introducing-gemma3/
  17. https://arstechnica.com/gadgets/2025/03/googles-new-gemma-3-ai-model-is-optimized-to-run-on-a-single-gpu/
  18. https://www.news18.com/tech/googles-new-gemma-3-ai-model-performs-better-than-gpt-and-deepseek-ai-9260798.html
  19. https://developers.googleblog.com/en/gemma-3-on-mobile-and-web-with-google-ai-edge/
  20. https://www.businessinsider.com/google-gemma-cohere-nvidia-chips-efficient-deepseek-2025-3

Perplexity로부터의 답변: pplx.ai/share