한국데이터산업진흥원 ‘데이터바우처 지원사업’ 우수사례 선정
[매일일보 이재빈 기자] 삼육대는 6일 송태민 보건관리학과 교수가 SNS상의 빅데이터를 분석해 코로나19 위험요인을 예측하는 인공지능(AI)을 개발했다고 밝혔다.
송 교수는 인공지능 개발을 위해 지난해 1~6월 뉴스사이트, 블로그, 카페, SNS, 인터넷 게시판 등 237개 온라인 채널에서 언급된 코로나 관련 소셜 데이터 총 403만2883건을 수집했다.
수집된 데이터는 텍스트 마이닝(Text mining)과 오피니언 마이닝(Opinion mining) 등 빅데이터 분석 기법을 통해 코로나19 감정(위험·안전), 대상, 감염경로, 관련 바이러스, 증상, 대처, 예방활동, 이슈, 산업 등 10개 주제로 분류했다.
이후 주요 키워드를 ‘단어빈도’와 ‘문서빈도’로 나눠 분석했다. 단어빈도는 한 문서에서 특정 키워드가 나타난 빈도를 집계하는 것으로, 그 키워드가 얼마나 중요한지를 보여준다. 문서빈도는 전체 문서에서 특정 키워드가 포함된 문서의 수를 집계해 얼마나 폭넓게 등장하는지 알 수 있다.
송 교수는 이 같은 소셜 빅데이터로 머신러닝 학습데이터를 생성하고 모델링 과정을 거쳐 코로나 위험예측 인공지능을 개발했다.
이 인공지능은 온라인상에서 특정 키워드의 빈도와 증가율 등을 분석해 ‘잠재신호→약신호→강신호→강하지만 증가율이 약한신호’에 이르는 미래신호(Future Signal) 흐름을 포착할 수 있다. 가령 코로나 관련 키워드 중 ‘무증상’에 대한 약신호가 잡히면, 향후 관련 내용이 강신호와 같은 메가트렌드로 확산될 수 있기에 사전에 대응할 수 있다는 것이다.
송 교수는 “빅데이터 분석은 방대한 양의 데이터를 활용해 사회적 문제를 예측하고 현상에 대한 복잡한 연관관계를 보다 정확하게 밝혀낼 수 있다”며 “이 같은 인공지능 개발 방법을 적용함으로써 코로나뿐만 아니라 다양한 사회적 위험요인을 사전에 예측하고 대응체계를 마련할 수 있을 것으로 기대한다”고 말했다.
한편 이번 연구는 한국데이터산업진흥원이 주관하는 ‘2020년 데이터바우처 지원사업’의 지원을 받아 수행됐으며 사업 우수사례로 선정돼 한국데이터산업진흥원장 표창을 받았다.