강화학습으로 학습하는 LLM, 사람 개입 줄이고 정교함 더한다 – 플록(FLOCK) 리포트
[블록미디어 박현재] 대규모언어모델(LLM) 학습의 ‘후반전’에 해당하는 강화학습(Reinforcement Learning, RL)이 진화하고 있다고 플록(FLOCK)연구팀이 리포트를 발간했다 . 리포트에 따르면 중국 AI 기업 딥시크(DeepSeek)는 최근 GRPO(Group Relative Policy Optimization) 기법을 도입해 사람의 개입은 줄이고, 모델의 성능은 유지하는 방식을 공개해 주목받고 있다. 기존 LLM 학습은 △사전학습(Pre-training) △지도 미세조정(Supervised Fine-tuning) △사람피드백강화학습(Reinforcement Learning from Human Feedback, RLHF)이라는 3단계를 거친다. RL은 이 … 강화학습으로 학습하는 LLM, 사람 개입 줄이고 정교함 더한다 – 플록(FLOCK) 리포트 계속 읽기
임베드 하려면 이 URL을 복사해 자신의 워드프레스 사이트에 붙여넣으세요
임베드 하려면 이 코드를 사이트에 복사해 붙여넣으세요