메모리 16GB로 음성도 이미지도 대응하는 LLM 'Gemma 4 12B' 무료 공개

　구글은 6월 3일(미국 시간) 메모리 16GB에서도 동작해 보다 대규모 상위 모델에도 필적하는 성능을 실현한 LLM 'Gemma 4 12B'를 공개했다. Apache 2.0 라이센스로 Hugging Face 및 Kaggle에서 공개하고 있으며 무료로 사용할 수 있습니다. LM Studio, Olama를 비롯한 다양한 소프트웨어에서 작동 가능.

　Gemma 4 12B는 엣지 컴퓨팅을 위한 「Gemma E4B」와 보다 고도의 「Gemma 26B MoE」의 중간에 위치하는 모델. 메모리 사용량을 억제함으로써, 16GB의 VRAM 또는 통합형 메모리를 가지는 PC로 동작 가능하고, 노트 PC에도 대응할 수 있다. 또한, 엔코더리스의 통일 아키텍처에 의해, 미들 사이즈로서 처음으로 네이티브의 음성 입력을 서포트한다.

　표준 벤치마크에서는 보다 대형의 26B MoE에 필적하는 성능을 실현하면서 메모리 소비량을 절반 이하로 억제함으로써 메인스트림 노트북에서 강력한 멀티모달 체험/에이전트 체험을 실현한다.

　또한 비전 인코더를 단일 행렬 연산, 위치 임베딩, 정규화로 구성된 경량 임베디드 모듈로 대체하여 LLM 백본이 시각 처리를 인계하도록 했다. 또한 음성 인코더를 완전히 제거하고 원시 음성 신호를 텍스트 토큰과 동일한 차원 공간에 투영하여 처리를 단순화했습니다.

메모리 16GB로 음성도 이미지도 대응하는 LLM 'Gemma 4 12B' 무료 공개

Post a Comment