한문의 디지털 텍스트화, 이제 AI로 쉽고 간편하게
[매일일보 김종혁 기자] 한국국학진흥원(원장 정종섭)이 국학자료 속 한문을 디지털 텍스트화하는 문자인식(OCR, Optical Character Reader) 프로그램인 "고도서 한자 인식"을 28일, 기관 홈페이지를 통해 대중에게 공개했다. 이로써 막대한 분량의 국학자료의 디지털화 작업에 본격적인 속도가 붙을 전망이다.
한국국학진흥원은 4차 산업혁명 시대 국학자료 관리 방법의 획기적인 전환 필요성을 인식하고, 장기 프로젝트로 인공지능을 활용한 국학자료 자동번역 프로그램 개발에 착수했다. 이번에 공개한 '고도서 한자 인식 프로그램'은 국학자료 속의 한자를 디지털 텍스트로 변환하는 기술로, 한문 인식률의 정확성은 약 90% 이상에 달한다.
AI 기술 활용 문자인식, 국학자료 디지털화 속도 30배 앞당겨
최다 소장 국학자료 기반으로 한문 자동번역 프로그램 개발의 선두에
한국국학진흥원은 60만 점에 달하는 우리나라에서 가장 많은 국학자료를 소장하고 있는 기관이다. 한국국학진흥원이 인공지능을 활용한 자동번역 프로그램 개발에 착수하면서 국학자료에 대한 디지털화 및 번역에 청신호가 켜졌다. 기관은 소장한 국학자료를 기반으로 고도서 원문자료의 자동인식부터 표점, 한글 번역까지 일련의 과정을 인공지능을 통해 자동화할 계획이다. 이번에 공개한 고도서 한자 인식 프로그램은 이 작업의 첫 단추이다. 향후 기관은 지속적인 데이터 축적을 통해 한자의 해서체뿐만 아니라 초서체에 대한 인식률도 높여갈 예정이다.'고도서 한자 인식, 고도서 이미지 검색, 필사본 자전 서비' 이용 가능
저작권자 © 매일일보 무단전재 및 재배포 금지
좌우명 : 아무리 얇게 저며도 양면은 있다.