[블록미디어 안드레아 윤 에디터] 미국, 유럽 등의 AI 연구진으로 구성된 국제 연구팀이 중국의 대표적인 인공지능 모델인 딥시크(DeepSeek)의 성능을 뛰어넘는 새로운 오픈소스 AI 모델을 개발했다고 14일 디크립토가 보도했다.
이 보동에 따르면, 오픈소스 AI 연구 컨소시엄인 Open Thoughts가 발표한 OpenThinker-32B 모델은 MATH500 벤치마크에서 90.6%의 정확도를 기록하며 DeepSeek의 89.4%를 넘어섰다. 또한, GPQA-Diamond 문제 해결 테스트에서 61.6점을 기록해 DeepSeek의 57.6점을 상회했으며, LCBv2 테스트에서도 68.9점을 기록하며 강력한 성능을 보였다.
즉, OpenThinker-32B는 일반적인 과학 지식(GPQA-Diamond)에서 DeepSeek R1과 비슷하거나 더 나은 성능을 보였으며, MATH500에서도 우위를 점했다. 하지만 AIME 테스트(수학 능력 평가)에서는 DeepSeek보다 낮은 성능을 보였고, 코딩 테스트에서는 68.9점을 기록해 DeepSeek의 71.2점보다 약간 낮았다.
이 모델이 특히 주목받는 이유는 효율성에 있다. OpenThinker-32B는 114,000개의 학습 예제만으로 높은 성능을 달성한 반면, DeepSeek은 800,000개의 예제를 사용했다.
이 모델은 OpenThoughts-114k 데이터셋을 기반으로 학습되었으며, 각 문제에 대한 메타데이터, 정답, 코드 문제의 테스트 케이스, 필요한 경우 스타터 코드 및 도메인별 정보가 포함되어 있다. 이를 통해 학습 품질을 유지하면서도 데이터 다양성과 규모를 확장할 수 있도록 설계되었다.
OpenThinker-32B는 알리바바의 Qwen2.5-32B-Instruct LLM을 기반으로 구축되었으며, 16,000개의 토큰 컨텍스트 윈도우를 지원한다. 이는 복잡한 수학적 증명과 긴 코드 문제를 처리하기에 충분하지만, 최신 AI 모델들이 제공하는 100K+ 토큰 윈도우와 비교하면 상대적으로 적은 수치다.
이 모델은 독일의 Leonardo 슈퍼컴퓨터에서 137,000개의 추가 샘플을 학습하는 데 A100 GPU 11,520시간을 30시간 만에 처리했으며, 또 다른 학습 과정에서는 4개의 노드에서 H100 GPU 8개를 활용하여 90시간 만에 모델을 완성했다.
OpenAI가 2월 12일 발표한 GPT-5 이후 모든 모델에 강화된 추론 기능을 추가하겠다고 선언한 가운데, xAI의 Grok-3와 Meta의 Llama 3.1을 기반으로 한 DeepHermes 등의 경쟁 모델도 등장하고 있다. OpenThinker-32B는 이러한 경쟁 속에서 DeepSeek과 같은 성능을 유지하면서도 더욱 적은 학습 데이터로 높은 효율성을 달성한 오픈소스 모델로 주목받고 있다.
DeepSeek과의 차이점 중 하나는 학습 데이터의 공개 여부다. DeepSeek R1은 무료로 다운로드하고 사용할 수 있으며, 학습 기법도 공개되었지만, 학습 데이터 자체는 비공개로 유지되고 있다. 반면, OpenThinker-32B는 완전히 오픈소스로 공개되어 개발자들이 모든 데이터를 활용해 연구하고 재현할 수 있도록 했다.
이로 인해 OpenThinker-32B는 특히 서구권 개발자들에게 DeepSeek보다 신뢰할 수 있는 대안이 될 가능성이 크다. DeepSeek은 중국 모델이라는 점에서 일부 개발자들이 보안 및 신뢰성 문제를 우려하는 반면, OpenThinker는 미국과 유럽의 연구기관 및 기업들이 공동으로 개발한 오픈소스 모델이라는 점에서 보다 개방적이고 투명한 접근 방식을 취하고 있다.
이 모델은 현재 Hugging Face에서 다운로드할 수 있으며, 저사양 디바이스용으로 경량화된 7B 파라미터 모델도 제공된다.
Open Thoughts 팀은 스탠퍼드, 버클리, UCLA 등 미국의 여러 대학 연구진과 독일의 Juelich 슈퍼컴퓨팅 센터, 미국 도요타 리서치 연구소 및 유럽의 여러 AI 연구 기관들이 협력하여 개발했다.
같이 보면 좋은 기사