'챗GPT'가 말하기 시작했다…이미지 알아보고 분석까지

2주 안에 챗GPT 플러스·엔터프라이즈 사용자에게 제공
모바일 앱으로 챗GPT와 음성으로 대화

[서울=뉴시스] 오동현 기자 = 생성형 인공지능(AI) ‘챗GPT’가 이제 보고 듣고 말하기 시작했다.

제조사 오픈AI는 26일 공지를 통해 챗GP에서 새로운 음성 및 이미지 기능을 출시했다고 밝혔다.

음성 대화 기능은 애플 iOS 및 구글 안드로이드로 제공되며 이미지 인식 기능은 모든 플랫폼에서 사용할 수 있다. 이 새로운 기능은 앞으로 2주 안에 챗GPT 플러스 및 엔터프라이즈 사용자에게 배포할 예정이다.

챗GPT의 음성 대화 기능. (사진=오픈AI 블로그) *재판매 및 DB 금지

새로운 음성 기능은 텍스트와 몇 초의 샘플 음성만으로 인간과 유사한 오디오를 생성할 수 있는 새로운 텍스트 음성 변환 모델에 의해 구동된다.

사용자는 모바일 앱에서 챗GPT의 5가지 음성 중 원하는 음성을 선택해 대화할 수 있다.

하지만 외신에 따르면 일부 전문가는 이러한 음성 합성 기술이 딥페이크 등 사이버 범죄에 악용될 수 있다고 우려한다.

오픈AI는 “음성 합성 기능은 악의적인 행위자가 공인을 사칭하거나 사기를 저지를 가능성과 같은 새로운 위험도 안고 있다”고 인정하면서도 “우리는 전문 성우와 협력해 각 목소리를 만들었다. 또한 오픈 소스 음성 인식 시스템인 위스퍼(Whisper)를 사용해 사용자가 말한 내용을 텍스트로 변환한다”고 설명했다.

또 오픈AI는 글로벌 음원 스트리밍 서비스 ‘스포티파이’와 협력해 자신의 목소리를 다른 언어로 번역해 말할 수 있는 방안도 검토하고 있다고 설명했다.

출고일자 2023. 09. 26

챗GPT의 새로운 이미지 기능. (사진=오픈AI 블로그) *재판매 및 DB 금지

챗GPT 사용자는 사진을 찍거나 이미지를 올려 챗GPT와 텍스트로 대화를 나눌 수도 있다.

예를 들어 자전거 사진을 올린 뒤 “내 자전거 좌석을 내리는 것을 도와줘”라고 입력하면 챗GPT가 텍스트로 해결 방법을 제시한다. 업무에도 활용할 수 있다. 챗GPT가 복잡한 그래프 이미지 속에서 업무 관련 데이터를 분석해준다. 이미지의 특정 부분에 초점을 맞추려면 모바일 앱에서 그리기 도구를 사용할 수 있다.

이미지 이해는 멀티모달 GPT-3.5 및 GPT-4를 기반으로 한다. 이 모델은 사진, 스크린샷, 텍스트와 이미지가 모두 포함된 문서와 같은 광범위한 이미지에 언어 추론 기술을 적용했다.

오픈AI는 “우리의 목표는 안전하고 유익한 AGI(범용인공지능)를 구축하는 것”이라며 “새로운 도구를 점진적으로 제공하며 개선해 위험을 완화하고, 모든 사람이 미래엔 더 강력한 시스템을 사용할 수 있도록 해야 한다고 믿는다”고 설명했다.

◎공감언론 뉴시스 odong85@newsis.com

속보는 블록미디어 텔레그램으로(클릭)

바이비트, 1억 4000만 달러 현상금…해킹된 15억 달러 회수 위해

미 상원 은행위원회, 다음 주 디지털 자산 청문회 개최

엑스알피(XRP) 3달러 돌파하면 어디까지 올라갈까?–피보나치 수열 분석

이더리움 롤백 논란…바이비트 해킹으로 커뮤니티 분열

코인 대통령 된다는 트럼프, ‘수혜주 미국 코인’ 뭐가 있을까? – 리플, 솔라나, 도지, 아발란체, 수이 등

[2025년 코인 돋보기] 디핀(DePIN), 탈중앙화 혁신으로 주목받는 인프라의 미래

[2025년 코인 돋보기] 비트코인, 상승세 이어질까… “올해 최대 21만달러 전망”

[2025년 코인 돋보기] 증시 수장들 “새해 디지털자산 ETF 승인·STO 허용 검토”

“비트코인과 금은 같은 팀”–피델리티 줄리언 티머

엑스알피(XRP), 거래량 회복하며 상승 모멘텀 지속?

솔라나(SOL), 고래 대규모 스테이킹 증가…장기 투자 신호

소닉(구 팬텀), 급등세 지속…솔라나(SOL) 대항마로 주목

[인터뷰] 모드하우스 “블록체인과 K팝의 만남, 팬이 만드는 아이돌 시대 열린다”

“개인 데이터는 가장 소중한 자산” – 지케이미(zkMe) 창립자 알렉스 쉬어

‘파생상품의 아마존’ 신퓨처스(F), “디파이(DeFi) 미래를 설계한다”

인공지능(AI) 성장은 이제 시작, 완전히 새로운 경제가 온다 – 버츄얼스 프로토콜(VIRTUAL) 잰슨 텅 인터뷰

(주)블록미디어

‘챗GPT’가 말하기 시작했다…이미지 알아보고 분석까지

(주)블록미디어