성기원 변호사 | 올해 상반기 출시된 OpenAI의 GPT-4o의 성능은 우리를 놀라게 했다. 놀라울 정도 빠르게 진화하고 있는 생성형 인공지능(Generative AI)은 게임체인저인 것은 분명하지만 그만큼 데이터 보안과 관련된 중대한 리스크 역시 생성해 내고 있다.
최근 미국 국립표준기술연구소(NIST)는 생성형 AI가 데이터 보안에 미칠 수 있는 위험을 강조하는 보고서 ‘인공 지능 위험 관리 프레임워크’를 발표한 바 있었다. NIST는 보고서를 통해 생성형 AI의 잠재적인 데이터 보안 리스크를 자세히 설명하고 리스크를 줄일 수 있는 예방조치들을 제안하고 있다.
NIST는 생성형 AI의 데이터 보안 위험을 기본적으로 ‘생체 인식·건강·위치 또는 기타 민감한 데이터의 유출 및 무단 공개 또는 익명화로 규정하고 있다. 생성형 AI를 학습시키려면 인터넷과 기타 공개적으로 이용 가능한 소스에서 수집한 엄청난 양의 데이터가 필요하다. 예를 들어 GPT4는 인터넷에 있는 책·웹 텍스트·기사 등 570GB의 데이터를 학습한 것으로, 이는 생성형 AI 데이터베이스에 있는 약 3000억 개의 단어에 해당한다. 그런데 이 학습 데이터의 대부분이 바로 개인 정보, 기밀 또는 민감한 정보라는 점이다.
생성형 AI 시스템은 요청이 있을 경우, 기밀 정보를 포함한 학습 데이터 내의 모든 정보를 공개하는 것으로 알려져 있다. 뉴욕 타임즈는 챗GPT의 개발사 OpenAI를 고소하기도 했다. 이러한 데이터의 무단 공개는 심각한 데이터 보안 문제를 야기할 수 있다.
생성형 AI는 방대한 양의 데이터를 사용할 수 있기 때문에 해당 정보가 AI의 학습 데이터에 포함돼 있지 않더라도 개인 정보나 민감한 정보를 정확하게 추론할 수 있다. 이미 어떤 기업은 생성형 AI의 추론을 근거로 차별적인 고용 결정을 내렸다는 혐의로 EEOC 소송에 휘말려 합의한 사례도 있다. 단순히 참고용으로만 사용하더라도 사용한 생성형 AI의 추론 및 예측 내용이 민감할수록 그 리스크가 커질 수 있다는 점을 명심해야 한다.
NIST는 AI 거버넌스 관점에서 데이터 보안 위험을 줄이기 위한 몇 가지 원칙을 제안하고 권장하고 있다. 데이터 프라이버시 및 지식 재산의 사용, 게시 또는 배포와 관련된 법률을 포함한 관련 법률에 따라 생성형 AI 사용범위를 조정한다. 또 데이터 프라이버시 위험과 관련된 다양한 유형의 생성형 AI 콘텐츠를 분류하고, 데이터 보안 사고를 예방하기 위해 내부적으로 맞춤화된 사고 대응 계획을 수립한다. 외부 및 타사 이해관계자의 피드백을 통해 사고 대응 계획을 정기적으로 테스트하고 업데이트를 하는 것이다.
꼭 명심해야 하는 부분은 위 원칙들 외에도 기존의 리스크 대응 계획에 생성형 AI에 대한 언급을 추가하는 것 이상을 요구한다는 점이다. 보안 담당자가 아닌 대부분의 구성원들은 내부적으로 지침을 가지고 있는 것이 뭐 그리 큰 대수이냐고 생각하는 것이 일반적이지만, 위와 같은 리스크 완화 조치를 내부적으로 갖추고 있었느냐 여부에 따라 실제로 데이터 보안 문제가 생겼을 때 회사가 면책 범위가 크게 달라질 수 있다는 점을 반드시 명심할 필요가 있다.