수익화는 '음성 AI 기술'…K-AI, LLM 넘어 LMM 구축 총력
LLM→LMM으로 이동한 AI 트렌드…텍스트 넘어 음성·이미지 대화 위한 기반
매일일보 = 김성지 기자 | 인공지능(AI) 개발 기업들이 음성 AI 기술에 주목하고 있다. 플랫폼·통신·가전 등 다양한 업계에서 음성 기능을 지원하는 AI 기술을 선보이고 있는 가운데 대형멀티모달모델(LMM)이 AI 업계 화두로 떠오르고 있다.
11일 업계에 따르면 국내외 주요 AI 기업들이 음성 AI기술 개발에 속도를 내고 있다. 통신사들은 AI컨택센터(AICC)를 미래 먹거리로 낙점했고, 네이버는 하이퍼클로바X 기반 음성 AI 기술을 개발했다. 이 외에도 가전·금융·음식점 등 다양한 산업 분야에서 음성 AI를 사용해 AI 서비스를 확대하고 있다.
AI 기업으로 전환하고 있는 통신사들은 이미 음성 AI 기술 개발하며 AICC 사업을 확장하는 추세다. 그동안 콜센터를 운영하며 얻은 데이터와 노하우에 자사에서 개발한 AI 기술을 접목해 고객센터의 전체 업무를 최적화하고 있다. 또 상담사가 아닌 AI봇이 보이스나 텍스트로 답변을 제공해 효율적이고 차별화된 서비스를 제공한다. AICC는 24시간 가동돼 고객센터의 응대율과 상담 업무의 생산성은 높일 수 있다. 인건비가 나날이 상승하는 추세를 감안하면 효율성 측면에서 더욱 큰 강점이 있다.
최근 금융·의료·식품 등 고객 응대가 필요한 업계에서 AICC를 도입하며 음성 AI 시장의 규모는 커지고 있다. 글로벌 시장조사기관 리서치앤드마켓은 글로벌 음성인식 시장 규모는 2024년 167억만달러(약22조원) 수준에서 연평균 19.1% 성장해 오는 2030년 560억7000만달러(약75조원) 규모에 이를 것으로 전망했다. AI 기술력 및 인프라까지 갖춘 통신3사에겐 반가운 소식으로, 최근 구축형 AICC부터 클라우드 기반 구독형 AICC를 통해 B2B 시장 공략에 나섰다.
SK텔레콤은 기업 고객이 원하는 기능과 솔루션을 모두 포함한 올인원 형태로 제공하는 클라우드 기반 월정액 구독형 서비스 ‘SKT AI CCaaS’를 선보였다. 필요한 챗봇과 같은 기본 솔루션을 시작으로 단계적으로 AICC를 구축할 수 있어, 중소기업도 비용 걱정 없이 AICC를 도입할 수 있다. KT에는 ‘KT 에이센 클라우드(A’Cen Cloud)’가 있다. KT 에이센 클라우드는 보이스봇·챗봇은 물론 실시간 기록·상담 어시스턴트 등 다양한 서비스를 제공한다. LG유플러스도 중견그룹 및 중소 기업을 위한 ‘U+AICC 클라우드’를 운영하고 있다.
네이버도 최근 음성 합성 기술 ‘스피치X’를 공개하며 하이퍼클로바X를 텍스트뿐 아니라 이미지·음성도 동시에 처리할 수 있는 ‘멀티모달’ AI로 고도 중이다. 스피치X는 텍스트 데이터와 음성 데이터를 결합해 고도로 자연스러운 음성을 생성한다. 개인화된 음성 서비스가 실시간 음성 번역, 대화형 AI 응답 등과 접목해 활용할 수 있다.
빅테크 기업들도 고객에게 더욱 확장된 경험을 제공하기 위해 음성 AI 개발하고 있다. 메타는 자사가 서비스 중인 페이스북·인스타그램·왓츠앱에 AI 비서 기능을 탑재했으며, 6개 언어를 음성으로 생성하는 보이스박스를 개발했다. 오픈AI는 지난달부터 챗GPT 유료 사용자를 대상으로 음성 기능을 제공한다. 삼성전자는 ‘비스포크 AI 가전’에 업그레이드된 AI 음성비서 ‘빅스비’를 적용했다.
이러한 추세에 따라 AI 개발 트렌드는 대규모 언어모델(LLM)에서 LMM로 이동했다. 텍스트를 넘어 이미지, 영상, 음성 등 데이터를 분석하기 위해선 여러 개의 멀티모달 AI가 필요하기 때문이다.