[블록미디어] 카카오가 국내 인공지능(AI) 생태계 활성화를 위해 자체 개발한 인공지능 모델 ‘카나나’를 오픈소스로 공개했다. 카카오는 27일 카나나 연구 성과를 담은 기술 보고서를 논문 사전공개 사이트 ‘아카이브’에 공개하고, ‘카나나 나노 2.1B’ 모델을 깃허브를 통해 오픈소스로 배포했다고 밝혔다.
카카오는 깃허브를 통해 카나나 나노 2.1B 베이스 모델과 인스트럭트 모델, 임베딩 모델을 제공한다. 카나나 나노 2.1B는 연구자와 개발자가 활용하기 적합한 크기이면서도 온디바이스 환경에서 사용할 수 있는 고성능 경량 모델이다. 카카오 측은 이 모델이 비교적 작은 규모임에도 유사한 크기의 글로벌 모델과 견줄 만한 성능을 보인다고 설명했다.
아카이브에 공개된 기술 보고서는 매개변수와 학습 방법, 학습 데이터 등 세부 사항이 담긴 AI 논문으로, 카나나 언어모델의 사전 학습부터 사후 학습까지 전 과정을 포함하고 있다. 이 보고서에서는 카나나 모델 구조, 학습 전략, 글로벌 벤치마크 성과도 확인할 수 있다.
카카오는 지난해 말 거대언어모델(LLM) ‘카나나 플래그’의 학습을 완료했으며, 이로써 지난해 10월 개발자 콘퍼런스 ‘이프카카오’에서 공개한 카나나 언어모델 전체 라인업을 모두 구축했다. 카나나 플래그는 한국어 성능 평가 벤치마크 ‘LogicKor’와 ‘KMMLU’에서 타 모델을 압도하는 처리 능력을 보였으며, 영어 성능 평가 ‘MT-bench’와 ‘MMLU’에서도 경쟁 모델과 유사한 성과를 기록했다.
카카오는 학습 자원 최적화를 통해 유사 크기 모델 대비 50% 이상 비용을 절감하면서도 최고 수준의 효율성과 성능을 동시에 구현했다고 강조했다. 이를 위해 단계별 사전 훈련, 프루닝, 증류, 깊이 업스케일링 등 혁신적 학습 기법을 적용했으며, 이를 통해 ‘카나나 나노 2.1B’부터 ‘카나나 플래그 32.5B’까지 다양한 크기의 고성능 모델을 효율적으로 개발했다.
카카오는 앞으로 카나나 모델에 강화 학습과 연속 학습 기반의 최신 기술을 접목해 추론, 수학, 코딩 능력을 강화하고, 정렬 기술을 고도화해 사용자 요청의 수행 정확도를 높일 계획이다. 또한 음성, 이미지, 영상 등 다양한 형태로 소통 가능하도록 모델을 지속적으로 고도화할 예정이다.
김병학 카카오 카나나 성과리더는 “모델 최적화와 경량화 기술을 바탕으로 라마, 젬마 등 글로벌 AI 모델과 견줄 수 있는 고성능의 자체 언어모델 라인업을 효율적으로 확보했다“며 “이번 오픈소스 공개를 통해 국내 AI 생태계 활성화에 기여할 수 있을 것으로 기대한다“고 말했다.
같이 보면 좋은 기사