#머스크 “MS, AI 훈련에 트위터 데이터 불법 사용해”
#데이터 소유한 회사·단체, AI 개발사에 대응 고심
[서울=뉴시스] 이종희 기자 = 챗GPT가 세계적으로 주목받으면서 인공지능(AI) 개발 열풍이 불고 있다. AI 능력의 최대변수는 학습용 데이터다. 최근 이미지, 영상, 텍스트 등 AI 훈련에 쓰이는 학습용 데이터에 대한 권리를 주장하는 목소리가 커지고 있는 이유다.
언론사부터 소셜미디어, 창작자까지 데이터 소유권자들은 개발사들이 AI 훈련에 데이터를 활용하는 만큼 적절한 이용료를 내야 한다고 요구하고 있다. 앞으로 AI 학습용 데이터를 둘러싼 갈등이 커질 것으로 보인다.
이런 상황에서 최근 일론 머스크 테슬라 최고경영자(CEO)는 마이크로소프트(MS)가 인공지능(AI)을 언어모델을 훈련하기 위해 트위터의 데이터를 불법적으로 사용했다며 소송을 제기하겠다고 밝혔다.
머스크는 19일(현지시간) 트위터를 통해 “그들이 트위터 데이터를 사용해 불법적으로 훈련했다”며 “소송해야 할 때”라고 말했다.
머스크가 소송까지 불사하겠다고 반응한 이유는 MS가 자사의 마케팅 플랫폼에서 트위터를 제외한 것에 따른 대응 차원으로 풀이된다.
MS는 ‘디지털 마켓팅 센터'(DMC)를 통해 인스타그램, 페이스북, 링크드인 등 여러 소셜미디어 계정을 관리하고 고객에게 메시지를 보내는 기능을 제공해왔다.
IT매체 매셔블은 트위터가 이달 29일부터 기업 고객을 대상으로 API 유료화 정책을 시행하겠다고 밝히면서 MS가 대응에 나섰다고 보도했다. 트위터는 무료로 제공했던 API 접근 권한에 대한 이용료로 월 4만2000달러(약 5600만원)를 부과할 예정이다.
외신들은 이같은 조치가 AI 훈련 과정에서 발생하는 데이터 소유권 논란을 잘 보여주는 사례라고 말했다. CNBC는 “머스크의 고소 위협은 데이터 소유권이 생성형 AI 개발 경쟁의 우려스러운 전쟁터가 되고 있음을 보여주는 최근의 징후”라고 설명했다.
오픈AI의 챗GPT가 주목을 받으면서 빅테크 기업들이 생성 AI 개발에 몰두하고 있는 가운데 데이터 소유권자들이 언어모델 훈련에 사용되는 데이터에 대한 비용을 지불해야 한다고 주장하고 있다.
GPT와 같은 거대 언어모델(LLM)을 훈련시키기 위해서는 데이터가 필수적인데, 이를 온라인에서 수집하는 경우가 많다. 특히 트위터와 같은 소셜미디어의 데이터는 격식 없는 대화 내용이 담겨 있어 가치가 높은 것으로 알려졌다.
데이터를 소유하고 있는 회사들과 단체들은 AI 개발사를 상대로 대응 마련에 나섰다. 데이터 사용비용을 청구할 예정이거나 심지어 법적 대응에 나서는 경우도 있다.
미국의 온라인 커뮤니티 레딧은 AI 개발 기업들이 자사의 데이터를 다운로드 하기 위해 API를 사용하면 비용을 청구할 계획이라고 밝혔다.
스티브 허프먼 레딧 CEO는 “레딧의 데이터는 정말로 가치가 있다”며 “그러한 가치 있는 것들을, 그것도 세계에서 가장 큰 회사들에 전부 무료로 제공할 필요는 없다”고 말했다.
미국과 캐나다 언론사 2000여개가 가입된 뉴스미디어연합(NMA)은 AI 학습에 뉴스 콘텐츠가 어느 정도 활용되고 있는지 조사 중이라고 밝혔다. 월스트리트저널(WSJ)의 모기업인 뉴스코프는 AI 개발사가 자사의 콘텐츠를 활용하는 것에 대한 소송도 검토 중이다.
미국에서 인기 래퍼 드레이크가 부른 신곡이 AI가 만들었다는 사실이 밝혀지면서 음반제작사인 유니버셜 뮤직이 저작권 침해 가능성을 경고하기도 했다.
이미지 서비스 업체인 게티이미지는 AI 훈련을 위해 자사의 데이터를 무단으로 활용했다고 주장하며 스테이블 디퓨전을 개발한 스태빌리티 AI를 고소했다.
◎공감언론 뉴시스 2papers@newsis.com
Copyright © NEWSIS.COM, 무단 전재 및 재배포 금지
속보는 블록미디어 텔레그램으로(클릭)
전문 기자가 요약 정리한 핫뉴스, 블록미디어 카카오 뷰(클릭)
같이 보면 좋은 기사