[블록미디어 문예윤 인턴기자] 전자상거래 기업 알리바바가 새로운 인공지능(AI) 모델 ‘QwQ-32B’를 공개했다. 발표 직후 홍콩 증시에서 알리바바 주가는 장중 7% 넘게 상승하며 급등했다.
6일(현지시각) 알리바바의 AI 사업부 큐원은 X(옛 트위터)를 통해 모델인 ‘QwQ-32B’를 발표했다. 알리바바는 해당 모델이 저렴한 훈련 비용으로 딥시크(DeepSeek)의 ‘R1’과 유사한 성능을 제공한다고 밝혔다.
QwQ-32B는 인공지능의 학습 단위인 매개변수를 320억개 사용한다. 반면 딥시크의 R1은 6710억개를 사용한다. 규모만 보면 R1의 5% 수준이지만 성능은 유사하다. 전문가들은 “기존 AI 업계의 ‘더 클수록 더 강력하다’는 인식을 뒤집었다”고 평가했다.
알리바바는 이번 성과의 핵심이 강화 학습(RL)이라고 밝혔다. 기초 모델에 대규모 데이터를 학습한 뒤 강화학습을 적용해 성능을 높였다. 특히 수학적 추론과 코딩 작업에서 강점을 보인다. 내부 테스트 결과 △과학적 추론 테스트(GPQA) 65.2% △고급 수학(AIME) 50% △수학 문제 테스트(MATH-500)90.6%를 기록했다. 큐원 측은 “강화 학습을 지속하면 수학과 코딩 성능이 꾸준히 향상된다”고 밝혔다.
이번 발표로 알리바바는 강화 학습 확장을 통해 중간 규모 모델도 대형 전문가 모델(Mixture of Experts·MoE)과 경쟁할 수 있음을 입증했다. 또한 많은 서구권 AI 모델이 유료인 것과 달리 QwQ-32B는 오픈소스로 공개됐다.
다만 중국 규제로 정치적으로 민감한 주제는 응답이 제한될 수 있다. 성능 면에서도 다국어 처리가 미흡하고 특정 상황에서는 반복적인 추론 루프가 발생할 수 있다. 또한 한 번에 최대 3만 2000 토큰까지만 처리할 수 있어 긴 문맥 이해에는 한계가 있다.
한편, 중국에서는 딥시크 열풍과 함께 AI 투자 열기가 뜨겁다. 최근 알리바바는 향후 3년간 3800억위안(75조8632억원) 이상을 AI 사업에 투자하겠다고 밝혔다.
같이 보면 좋은 기사