지난달 동영상 생성 기술 소라(Sora) 발표한 오픈AI
15초 녹음으로 자유롭게 말하는 보이스 엔진 기술 발표
다른 언어도 가능…범죄 악용 우려해 일반 공개 미뤄
[서울=뉴시스 강영진 기자] 인공지능(AI) 개발에서 선두를 달리는 미 오픈AI사가 29일(현지시각) 15초 동안 녹음된 사람 목소리를 사용해 녹음한 사람의 목소리와 똑같은 음성을 합성해 문장을 읽어 내는 기술을 선보였다고 미 뉴욕타임스(NYT)가 보도했다.
오픈AI사는 소수의 업계 인사들을 상대로 보이스 엔진(Voice Engine) 기술을 시연했다.
누구라도 한 문단 정도의 문장을 읽어 녹음한 목소리를 업로드하면 그 사람이 읽는 것과 똑같은 목소리를 합성해 문장을 읽을 수 있게 된 것이다.
[서울=뉴시스] 인공지능회사인 미 오픈AI가 29일(현지시각) 15초 녹음만으로 똑같은 목소리로 자유롭게 말할 수 있게 하는 보이스 엔진 기술을 공개했다. 사진은 오픈AI X(옛 트위터) 계정에 게시된 챗GPT 음성 대화 기능 시연 영상. (사진=X) 2024.3.30. *재판매 및 DB 금지 |
특히 새 기술로 만드는 목소리는 녹음자의 언어와 무관하게 다른 언어로 표현할 수 있다. 예컨대 영어 사용자라도 스페인어, 불어, 중국어 등 모든 언어로 말할 수 있게 되는 것이다.
오픈AI사는 보이스 엔진 기술이 가진 잠재적 위험성을 우려해 기술을 일반에 공개하지 않고 있다. 사진 및 동영상 생성 인공지능 기술과 마찬가지로 목소리 생성 기술도 소셜 미디어를 통해 가짜를 퍼트릴 수 있기 때문이다. 구분하기 어려운 목소리를 가장해 전화하는 등의 방법으로 범죄에 이용될 소지가 큰 것이다.
오픈AI사는 특히 온라인 뱅킹 등 각종 보안매체에서 목소리 인증 방법이 무력화될 수 있다고 밝혔다.
오픈AI사는 대안으로 합성 음성에 워터마크를 붙이거나 정치인 등 유명 인사들의 목소리를 합성하지 못하도록 통제하는 방법을 고려하고 있다.
오픈AI사는 지난달에도 동영상 생성 기술인 소라(Sora)를 공개했으나 보이스 엔진을 일반에 공개하지 않은 것과 같은 이유로 일반에 공개하지 않았다.
오픈AI사 외에도 구글과 같은 기술 대기업이나 일레븐랩스 등 신생 기업들도 동영상이나 음성 생성 기술을 개발해 왔다.
이 기술을 활용해 오디오북을 만들거나 온라인 챗봇에 사용하거나 자동화된 라디오 DJ 방송국을 만들 수 있다. 오픈AI사는 지난해부터 이 기술을 말하는 챗GPT 프로그램에 적용하고 있으며 기업들에게 다양한 성우들의 목소리를 바탕으로 생성되는 목소리 애플리케이션을 판매하고 있다.
그러나 오픈AI사는 짤막한 음성 녹음으로 쉽게 목소리를 합성할 수 있는 범용 보이스 엔진은 위험성이 크다고 보고 출시하지 않고 있다. 특히 선거가 있는 올해 위험성이 더 클 것으로 보고 있다.
실제로 지난 1월 뉴햄프셔 주의 한 주민이 조 바이든 대통령 목소리와 같은 인공 지능 생성 목소리로 녹음한 주 프라이머리 선거에 투표하지 말라는 내용의 자동녹음 전화를 받았다. 이 일이 있은 뒤 연방통신위원회(FCC)가 이 같은 방식의 전화를 불법화했다.
오픈AI는 이 기술로 돈을 벌 계획은 당장 없다고 밝힌다. 다만 질병이나 사고로 목소리를 잃은 사람들에게 도움을 줄 수 있다고 밝힌다.
기술 시연에서 오픈AI는 뇌종양 수술을 받고 목소리를 잃은 여성의 목소리를 보이스 엔진 기술로 되살렸다. 고등학교 교사시절 녹음한 짤막한 프레젠테이션을 토대로 그가 자유롭게 말할 수 있게 한 것이다.
◎공감언론 뉴시스 yjkang1@newsis.com
같이 보면 좋은 기사