매일일보 = 이채원 기자 | 코스닥 상장사 솔트룩스(대표 이경일)는 과학기술정보통신부가 주관하고 한국지능정보사회진흥원(NIA)이 추진하는 2022년 인공지능 학습용 데이터 구축사업을 성공적으로 마쳤다고 16일 밝혔다.
해당 사업은 AI 기술과 서비스 개발을 위한 학습용 데이터를 구축하고 누구나 활용할 수 있도록 개방함으로써 국가 AI산업의 생태계를 조성하는 것을 목적으로 한다. 솔트룩스는 ‘전문분야 심층인터뷰 데이터’와 ‘방송콘텐츠 대화체 음성인식 데이터’ 사업을 주관했다. △경북대 산학협력단 △소리자바 △비투엔 등과 컨소시엄을 구성해 ‘전문분야 심층인터뷰 2000시간’과 ‘방송콘텐츠 7000시간’의 데이터를 구축했다. 이번 사업에서 솔트룩스는 ‘랭기지 스튜디오’ 솔루션을 통해 의도분류, 대화 요약생성, 오탈자 교정 등 다양한 AI 학습 모델을 구현했다. 랭기지 스튜디오는 오픈AI의 ‘챗GPT’ 서비스 구현에도 활용된 ‘GPT’ 등 거대 언어 모델을 활용해 금융, 법률, 공공 각 도메인에 특화된 언어모델을 빠르게 생성할 수 있는 생성 AI 솔루션이다. ‘전문분야 심층인터뷰 데이터’ 사업의 전문 용어 추출을 위해서는 자연과학, 환경, 역사·고고학 등 15개 카테고리와 관련된 영상·음성 데이터를 3000시간 이상 수집했다. 또 전문가들과의 심층 인터뷰를 통해 700시간 이상 음성 데이터를 녹음했다. 해당 사업은 성과에 대한 전문성을 인정받아 최종 평가에서 ‘우수’ 등급을 받았다고 전해진다. 구축된 데이터는 NIA의 AI Hub 사이트를 통해 공개될 예정이며 음성인식 기반 콜센터, 여론 및 감정분석 서비스, 음성인식 기반 가상비서 서비스, 방송콘텐츠 자막 및 요약 서비스, AI 비대면 면접 시스템 고도화, 전문용어 자동스크립트 서비스 고도화 등에 활용될 전망이다. 솔트룩스 관계자는 “챗GPT 등 대화형 인공지능 열풍이 전 산업군으로 확산되면서 고품질의 인공지능 학습용 데이터를 확보하는 것이 갈수록 중요해지고 있다”며 “국내 인공지능 업계 선도 기업으로써 인공지능 산업의 생태계 조성과 경쟁력 향상을 위해 앞으로도 노력할 것”이라고 말했다.저작권자 © 매일일보 무단전재 및 재배포 금지