[블록미디어] 중국 인공지능(AI) 기업 딥시크(DeepSeek)를 이끌고 있는 량원펑(梁文锋)은 퀀트트래이딩 회사에서 출발, 챗GPT에 맞먹는 AI 개발자로 변신했습니다.
중국 내에서도 량원펑은 언론 노출이 많지 않은데요. 지난해 7월 중국의 한 매체(暗涌Waves)는 장문의 인터뷰 기사를 게재했습니다.
당시 딥시크는 중국의 대형 AI 기업들과 다른 행보로 주목 받고 있었는데요. 블록미디어가 해당 인터뷰 원문을 구해 요약했습니다. 중국어 원문을 한글로 바꾸는데는 딥시크와 챗GPT를 모두 사용했습니다.
DeepSeek의 비밀: 더 극단적인 중국 기술 이상주의 이야기
“기여하는 사람이 되고, 무임승차하는 사람이 되지 말라”
중국의 7대 AI 기업중 DeepSeek(深度求索)는 가장 조용하지만 항상 예상치 못한 행보를 보인다.
DeepSeek의 모회사는 퀀트 헤지펀드 환팡(幻方 High-Flyer)으로, 환팡은 중국 대기업 중 유일하게 1만 개의 A100(당시까지 엔비디아의 첨단 고성능 반도체 칩)을 보유한 회사였다. 1년 후, DeepSeek은 중국 AI(API 사용료) 가격 인하 전쟁의 시발점이 되었다.
2024년 5월 DeepSeek은 일약 스타가 되었다. DeepSeek V2라는 오픈소스 모델을 출시했는데, 이 모델은 전례 없는 가성비를 제공했다. 추론 비용이 100만 토큰당 1위안으로, 라마3(Llama3) 70B의 7분의 1, GPT-4 Turbo의 70분의 1 수준으로 떨어졌다.
DeepSeek에 이어 바이트댄스(틱톡 운영사), 텐센트, 바이두, 알리바바 등 대기업들도 API 가격을 내리기 시작했다.
전면적 혁신…AI 아키텍처를 바꾸다
대기업들이 돈을 태워가며 보조금을 지급하는 것과 달리, DeepSeek은 이익을 내고 있었다. DeepSeek의 전면적인 혁신 때문이다.
MLA(Multi-head Latent Attention) 아키텍처를 고안, 기존의 MHA(Multi-head Attention) 대비 메모리 사용량을 5~13%로 줄였다. 또한, DeepSeek만의 구조(MoE(Mixture of Experts) Sparse)는 계산량을 극도로 줄였고, 이 모든 것이 결국 비용 절감으로 이어졌다.(관련 기사 참조. 편집자 주)
실리콘밸리에서는 DeepSeek을 “동방의 신비한 힘”이라고 부른다. 세마이어낼리시스(SemiAnalysis)의 수석 애널리스트는 DeepSeek V2 논문을 “올해 최고의 논문 중 하나”라고 평가했다.
오픈AI의 전 직원인 앤드류 카(Andrew Carr)는 이 논문이 “놀라운 지혜로 가득 차 있다”고 말했다.
오픈AI의 전 정책 책임자이자 앤트로픽(Anthropic)의 공동 창립자인 잭 클락(Jack Clark)은 DeepSeek이 “놀라운 천재들을 고용했다”며 “중국에서 만든 모델이 드론과 전기차처럼 무시할 수 없는 힘이 될 것”이라고 말했다.
오픈소스라는 모험
딥시크의 시도는 중국의 대형 AI 기업 뿐만 아니라 전 세계 오픈소스 기반 모델에서도 흔치 않은 시도다. 한 AI 연구자는 “Attention 아키텍처가 제안된 이후로 거의 성공적으로 변경된 적이 없으며, 대규모 검증은 더욱 희귀하다”고 말했다.
중국의 대형 모델 회사들이 AI 근본 구조(아키텍처) 수준의 혁신에 거의 관여하지 않은 이유는 비용 때문이다. 미국은 0에서 1을 만드는 기술 혁신에 더 능숙하지만, 중국은 1에서 10을 만드는 응용 혁신에 더 능숙하다. 이러한 편견을 깨는 데 드는 비용이 너무 막대하다.
새로운 모델은 몇 달 후면 누군가 만들어낼 것이고, 중국 회사들은 따라가며 응용만 잘 하면 된다는 생각이 지배적이었다. 모델 구조를 혁신한다는 것은 어떤 길도 없이 많은 실패를 겪어야 하고, 시간과 경제적 비용이 엄청나게 소모된다는 것을 의미한다.
쉬운 길이 아니라 어려운 길을 간다
DeepSeek는 분명히 반대 방향으로 나아가고 있다. “대형 모델 기술이 필연적으로 수렴될 것이고, 뒤따라가는 것이 더 현명한 쉬운 길”이라는 생각에 반대한다.
DeepSeek는 어려운 길을 가면서 쌓는 가치를 중요하게 여기며, 중국의 대형 모델 창업자들이 응용 혁신 외에도 세계 기술 혁신의 흐름에 참여할 수 있다고 믿는다.
DeepSeek 선택은 독특하다. 현재까지 중국의 7대 대형 모델 스타트업 중 DeepSeek는 유일하게 “모든 것을 다 하려는” 전략을 포기하고 연구와 기술에만 집중한다. 아직까지 toC(소비자 대상) 서비스를 만들지 않았다. 또한, 유일하게 전면적인 상업화를 고려하지 않고 오픈소스 전략을 선택했다. 심지어 자금 조달도 받지 않았다.
이러한 선택들로 인해 DeepSeek는 주류에서 잊혀진 듯 하지만, 다른 한편으로는 커뮤니티에서 사용자들에 의해 자연스럽게 퍼져나가는 경우가 많다.
은둔의 개발자
우리는 DeepSeek의 창립자 량원펑을 인터뷰했다.
환팡 시절부터 기술 연구에 몰두해 온 80년대생 창립자 량원펑은 DeepSeek 시대에도 여전히 은둔의 태도를 유지하고 있다. 그는 모든 연구원들과 마찬가지로 매일 “논문을 읽고, 코드를 작성하고, 그룹 토론에 참여”한다.
많은 퀀트 펀드 창립자들이 해외 헤지펀드 경력을 가지고 있고, 물리학이나 수학 등을 전공했다. 반면, 량은 중국 국내파로 저장대(Zhejiang University 浙江大学) 전자공학과 인공지능을 전공했다.
여러 업계 관계자들과 DeepSeek 연구원들은 량이 현재 중국 AI 업계에서 매우 드문 “강력한 인프라 엔지니어링 능력과 모델 연구 능력을 모두 갖추고 있으며, 리소스를 동원할 수 있는” 인물이라고 말한다.
옳고 그름이 이익과 손해보다 먼저다
이 기술 이상주의자는 현재 중국 기술 업계에서 특히 부족한 목소리를 제공했다. 그는 “옳고 그름”을 “이익과 손해”보다 우선시하며, 시대의 관성을 깨닫고 “원천 혁신”을 추구한다.
2023년에도 우리는 량과 인터뷰를 했다. 당시 DeepSeek를 출범했을 때다. 당시 그는 “반드시 미친 듯이 야망을 품고, 미친 듯이 진실해야 한다(務必要瘋狂地懷抱雄心,且還要瘋狂地真誠)”는 슬로건을 내걸었다.
1년이 지난 지금, 량은 행동으로 이를 보여주고 있다. 다음은 일문일답.
가격 전쟁의 시작
질문 : DeepSeek V2 모델 출시 후, 대형 모델 가격 전쟁이 시작되었습니다. 어떤 이들은 당신들이 업계의 전복자라고 말합니다.
량원펑 : 우리는 의도적으로 전복자가 되려 한 것이 아닙니다. 그냥 우연히 전복자가 되었을 뿐입니다.
질문 : 이 결과가 당신들에게 예상밖이었나요?
량원펑 : 매우 예상밖이었습니다. 가격이 사람들에게 그렇게 민감할 줄은 몰랐습니다. 우리는 그냥 우리의 페이스대로 일을 하고, 비용을 계산해 가격을 정했습니다. 우리의 원칙은 돈을 태우지도 않고, 폭리를 취하지도 않는 것입니다. 이 가격은 비용 위에 약간의 이익을 남기는 수준입니다.
바이트댄스가 진정으로 첫 번째로 따라온 회사입니다. 그들은 플래그십 모델의 가격을 우리와 동일하게 내렸고, 이로 인해 다른 대기업들도 가격을 내리기 시작했습니다. 대기업들의 모델 비용이 우리보다 훨씬 높기 때문에, 우리는 누군가가 돈을 잃으면서까지 이런 일을 할 줄은 몰랐습니다. 결국 인터넷 시대의 보조금 논리가 되었습니다.
같이 보면 좋은 기사