[블록미디어 박현재] 대규모언어모델(LLM) 학습의 ‘후반전’에 해당하는 강화학습(Reinforcement Learning, RL)이 진화하고 있다고 플록(FLOCK)연구팀이 리포트를 발간했다 . 리포트에 따르면 중국 AI 기업 딥시크(DeepSeek)는 최근 GRPO(Group Relative Policy Optimization) 기법을 도입해 사람의 개입은 줄이고, 모델의 성능은 유지하는 방식을 공개해 주목받고 있다.
기존 LLM 학습은 △사전학습(Pre-training) △지도 미세조정(Supervised Fine-tuning) △사람피드백강화학습(Reinforcement Learning from Human Feedback, RLHF)이라는 3단계를 거친다. RL은 이 중에서도 모델이 사용자 기대에 더 부합하도록 다듬는 핵심 과정이다.
# RL은 무엇인가…환경과 상호작용하며 보상 받는 AI 훈련법
강화학습은 흔히 ‘파블로프의 개’ 실험에 비유된다. 특정 행동에 대해 보상이 주어지는 환경에서, AI 에이전트는 최적의 선택을 학습한다. 여기서 보상은 성공 여부를 알려주는 신호다.
대표적인 강화학습 알고리즘은 △Q러닝 △딥Q네트워크(DQN) △정책경사(Policy Gradient) △PPO(근접 정책 최적화) 등이다. 이들은 상황(state)에 따라 행동(action)을 선택하고, 이에 대한 보상을 통해 학습을 반복한다.
# RLHF와 PPO, 인간 피드백을 모델이 학습하는 방식
강화학습은 LLM 학습의 마지막 단계에서 자주 쓰인다. 모델이 다양한 응답을 생성하면, 사람은 그 품질을 순위 매긴다. 이 데이터로 보상 모델을 훈련시킨 뒤, PPO 같은 알고리즘으로 모델을 개선한다.
PPO는 과도한 변화 없이 안정적으로 정책을 조정하는 방식이다. 여기에 GAE(일반화 우도 추정)를 더해 응답의 상대적 우수함을 계산한다. 평가 모델(크리틱)은 장기 보상을 예측하며 모델의 업데이트를 부드럽게 만든다.
# GRPO: 크리틱 없이 RLHF 성능 유지…딥시크의 새로운 접근
딥시크이 발표한 GRPO는 PPO의 간소화 버전이다. 핵심은 ‘그룹 기반 이점 추정(GRAE)’이다. 한 프롬프트에 대해 여러 응답을 생성한 뒤, 서로를 비교해 상대적 우수함을 평가한다. 이를 기반으로 PPO 스타일의 손실 함수를 적용해 모델을 업데이트한다.
GRPO는 보상 모델은 유지하면서도 크리틱(가치 함수)을 제거해 훈련을 간단하게 만든다. 연산 자원이 적게 들고, 복잡한 추론을 더 빠르게 처리할 수 있는 장점이 있다.
# RL로 LLM은 어떻게 변하는가
강화학습은 단순히 응답 품질을 올리는 데 그치지 않는다. 사람 중심의 정렬(Alignment)을 통해 AI가 실제 상황에서 더 신뢰할 수 있는 답변을 내놓게 만든다. 특히 RLHF는 전문가 데이터가 부족할 때 모델을 정교하게 다듬는 유일한 수단이기도 하다.
플록(FLock) 연구팀은 “RL 기법 발전은 AI의 실용성과 투명성을 모두 높이는 열쇠”라며, “교육용 콘텐츠 시리즈를 통해 관련 내용을 꾸준히 소개하겠다”고 밝혔다.
같이 보면 좋은 기사