[블록미디어 박현재] AI 기술이 빠르게 발전하면서 ‘모델 증류’와 ‘데이터 합성’이 중요해지고 있다. 최근 중국 AI 기업 딥시크(DeepSeek)가 이 기술을 사용한 것으로 알려지며 더욱 주목받고 있다.
챗봇이 고객 질문에 답하거나, AI가 사람처럼 글을 쓰는 데에도 핵심은 ‘데이터’다. 좋은 데이터를 얼마나 많이, 다양하게 갖고 있느냐가 AI 성능을 좌우한다. 하지만 좋은 데이터를 얻기는 쉽지 않다. 개인정보 문제, 비용, 접근 제한 등이 걸림돌이 된다.
이럴 때 쓰이는 기술이 바로 모델 증류와 데이터 합성이다.
모델 증류는 쉽게 말해, 큰 AI 모델이 가진 지식을 작은 모델에 넘겨주는 과정이다. 큰 모델이 선생님이 되고, 작은 모델은 학생이 되어 배우는 식이다.
예를 들어 딥시크는 ‘Qwen 2.5 32B’라는 큰 모델을 바탕으로, 더 작고 효율적인 ‘DeepSeek R1 Distill Qwen 32B’를 만들었다. 성능은 비슷하게 유지하면서도 계산 자원은 훨씬 적게 든다.
주요 방식으로는 다음과 같은 것들이 있다.
△온도 조정: AI가 얼마나 확신 있게 답하는지를 조절
△데이터 고르기: 가장 중요한 데이터만 골라 집중 학습
△생성형 학습: AI가 직접 학습용 데이터를 만들어서 사용
데이터 합성은 AI가 스스로 데이터를 만들어내는 기술이다. 겉으로 보면 진짜 같은 가짜 데이터를 만들어, 학습용으로 활용한다. 민감한 정보가 많은 의료나 금융 분야에서도 유용하다.
합성 데이터를 만드는 방법은 다양하다.
△규칙 만들기: 예를 들어 이름이나 이메일을 가짜로 생성
△기존 문장 변형하기: 기존 데이터를 조금씩 바꿔서 새로운 데이터로
△AI가 직접 만들기: 챗GPT 같은 모델이 대화 내용을 만들어내는 방식
△시뮬레이션: 가짜 사진이나 숫자 데이터를 만들어주는 프로그램 활용
△여러 AI가 협업: 예를 들어 한 AI가 주제를 정하고, 다른 AI가 답을 쓰고, 또 다른 AI가 내용을 검토
CamelAI는 이런 협업 방식으로 대화나 토론 같은 데이터를 만들며, 실제 상황처럼 다양한 학습 데이터를 만들어낸다.
# 작고 다양한 AI 만들기, 어떻게 접근할까
예를 들어, 특정 인물처럼 말하는 AI를 만들고 싶다고 해보자. 이럴 땐 다음과 같은 과정이 필요하다.
△기존 잘 만든 AI 모델을 바탕으로 하고 △다양한 상황을 만들어 데이터를 만들고 △모델 증류를 통해 가볍고 빠르게 만든다
이 과정에서 중요한 건, 정해진 인물 역할만 하게 할지, 모든 인물 역할을 다 할 수 있게 만들지 정하는 것이다. 이 선택에 따라 데이터 만들기 방식도 달라진다.
플록(FLock)은 개인 데이터를 지키면서도 AI 개발에 참여할 수 있게 돕는 플랫폼이다. 데이터를 제공하거나, AI 개발에 참여한 사람은 플록($FLOCK)이라는 토큰으로 보상을 받는다.
플록은 “모델 증류와 데이터 합성은 AI 개발을 더 쉽고, 싸고, 유연하게 해주는 기술”이라며 “앞으로 이 기술들을 어떻게 활용하는지 계속 소개할 예정”이라고 말했다.
같이 보면 좋은 기사