- 통계데이터센터 DB를 활용한 재현자료 생성 방법 연구 (박민정 사무관)

데이터는 제4차 산업혁명 시대의 원유와도 같은 역할을 하고 있다. 기계학습 모델을 학습시키기 위해서도 데이터가 필요하다. 나아가 양질의 데이터가 있으면 양질의 분석 작업과 고도로 훈련된 인공지능 모델을 이용하여 우리의 삶을 훨씬 더 풍요롭게 할 수 있다. 이처럼 데이터를 공유하는 것이 필요하지만 프라이버시 문제로 인하여 실상은 데이터가 활발히 공유되지 못하고 있다. 세계 각국은 이러한 프라이버시 이슈에 대하여 관련 법과 규제를 강화하고 있어, 데이터 공유가 앞으로 더 위축될 우려도 있다.
프라이버시 보호, 즉 개인정보 노출위험 제어를 위하여 전통적으로 데이터 익명화 방법들이 사용되고 있으며, 최근 차등정보보호(differential privacy)를 만족하도록 잡음을 추가하는 기법도 제안된 바 있다. 그러나 실제 자료에 이러한 기법을 적용하면 자료의 유용성이 떨어진다는 문제점이 있다. 때문에 노출위험을 제어하면서 자료의 유용성을 확보하기 위한 또 다른 방법으로 재현자료 생성이 연구되고 있다. 전통적인 익명화 방법들의 한계를 극복하기 위하여 제안된 재현자료는 원본자료를 대신하여 원본과 유사한 분포를 가지도록 생성된 자료를 일컫는다. 재현자료는 통계적 모형을 통해 생성될 수도 있지만 최근 딥러닝 기술을 활용한 방법도 주목받고 있다.
본 보고서에서는 재현자료 생성을 위한 통계적 모형을 활용하는 방법, 재현자료의 노출위험과 정보손실을 측정하는 방법, 국내외 통계기관의 재현자료 생성 사례 및 통계청 통계데이터센터 실제 DB에 대한 재현자료 시범 생성 결과를 설명한다. 나아가 딥러닝 기술을 이용한 재현자료 연구 동향을 상세히 소개한다.


- 통계지리정보서비스(SGIS) 제공 자료의 비밀보호 적용 방안 (홍영희 주무관)

본 연구에서는 통계지리정보서비스(SGIS)에서 제공하는 빈도표에 대하여 비밀보호 알고리즘이 적용되는 방법을 설명하였다. 해당 자료의 빈도표는 위계 구조를 가지고 있어 이를 기저 빈도표와 상위 빈도표로 구분하였다. 기저 빈도표에서는 랜덤 라운딩을 적용하고, 상위 빈도표에서는 중앙값 조정과 추가적인 조치를 통해 노출 위험을 제어할 수 있음을 예시를 활용하여 설명하였다. 또한 2018년 인구주택총조사 자료 중 대전 지역에 해당하는 자료에 비밀보호 알고리즘을 적용하여 빈도표를 생성하는데 소요되는 시간을 행정 구역과 격자 단위 자료로 구분하여 정리하였다.
다음으로 비밀보호 알고리즘 적용에 따른 빈도의 분포 변화를 행정 단위 및 격자 단위 빈도표로 나누어 검토하였다. 알고리즘 적용 후 기저 빈도표에서는 빈도가 1 또는 2인 셀의 비율이 없어지고, 대신 빈도가 0 또는 3인 셀의 비율이 증가하였다. 반면 상위 빈도표에서는 빈도가 3인 셀의 비율이 최대 11.2%p 증가하였고, 빈도가 4 이상인 셀의 비율은 5%p 내외로만 변화되어 알고리즘 적용 전과 상당히 유사한 분포를 보였다.
한편 알고리즘 적용으로 인한 정보손실은 필연적으로 발생하게 되는데, 그 범위는 3 이내임을 확인하였다. 특히 기저 빈도표에 가까운 형태일수록 정보손실이 발생하지 않을 확률이 높았다. 상위 빈도표에서는 정보손실이 1만큼 발생하는 경우가 가장 많았고, 최대 3만큼의 정보손실이 발생하는 셀 비율은 전체적으로 0.5%를 넘지 않는 것을 확인하였다.
따라서 이러한 정보손실을 빈도표에서의 노출 위험 제어를 위한 기회비용에 해당하는 것으로 이해할 수 있다면, 사용자에게 현행 SGIS의 자료 제공 방식에 비해 보다 많은 정보가 담겨있는 빈도표를 제공할 수 있을 것으로 기대된다.


- 데이터 거래 활성화를 위한 구독통계 플랫폼 구축 사전 연구 (변준석 사무관)

데이터 활용 여부가 기업경쟁력의 척도가 되는 시대가 되었다. 그러나 데이터 활용이 높아질수록 개인정보보호의 중요성은 더더욱 부각되고 있다. 데이터 활용과 개인정보보호라는 두 마리 토끼를 잡기 위한 혁신적인 플랫폼이 필요한 시점이다. 본 보고서에서는 이를 실현하기 위한 데이터 구독 플랫폼을 제안한다. 구독통계 플랫폼은 데이터 수집?유통 과정에서의 동형암호화, 제공 이후의 데이터 정보보호를 핵심 솔루션으로 하여 안전하고 효율적인 데이터 거래 생태계 형성을 지향한다.
제2장에서는 차세대 암호, 제 4세대 암호로 알려진 동형암호에 대하여 논의 한다. 동형암호는 기존의 암호체계와 달리 암호화된 데이터 자체를 가지고 연산이 가능한 특성이 있다. 2016년 Cheon, Kim, Kim과 Song(2016)이 암호화된 상태에서 덧셈과 곱셈뿐만 아니라 반올림이라는 세 번째 연산까지 가능한 혜안(HEaaN)이라는 동형암호를 발표하면서, 이러한 형태의 암호가 실현 가능하게 되었다. 동형암호는 이미 군 보안통신, 미사일 해킹 방지 등의 전통적인 암호화 활용 영역뿐 아니라 신용정보 계산, DNA분석 등 일반 산업계에도 응용된 바 있다. 심지어 암호화된 상태에서 기계학습을 진행하는 동형기계학습도 가능하다.
제3장에서는 데이터 정보보호 필요성 및 방법론에 대하여 논의한다. 우선 독자들의 이해를 돕기 위하여 예제를 통하여 그 필요성에 대하여 이야기하고, 노출위험 및 정보손실 측정 개념의 중요성을 설명한다. 데이터 정보보호 방법론(기술)으로 재현자료, 차등정보보호, 대량의 빈도표 제공을 위한 비밀보호 알고리즘 BSCA 개발을 다룬다. 나아가 데이터센터 운영에 있어 반출물에 대한 통계적 노출제어 가이드라인 운영이 필요함을 강조한다.

- 통계데이터센터 반출 결과물의 통계적 노출제어 가이드라인(안) (박민정 사무관)

통계기관은 불특정 다수에 완전히 공개하기에는 민감한 통계자료를 데이터센터를 통하여 제공한다. 전수 자료와 같이 연구 이외의 목적으로 악의적으로 사용될 위험이 있는 자료가 그 대상이다. 데이터센터는 학술적, 정책적으로 분명한 목적을 가지는 자료 분석 활동을 위하여 자료를 제공하며, 이용자는 데이터센터를 방문하여 원자료를 분석할 수 있다. 분석 결과물은 위원회의 심의를 거쳐 이용자에게 제공된다. 다만 대용량 자료를 분석한 결과물 역시 대용량인 경우가 많으며, 분석 결과물을 통한 개인정보 침해 등의 위험을 점검하는 것은 쉬운 일이 아니다.
본 보고서는 데이터센터 반출물에 대한 노출제어 가이드라인을 작성하기 위한 첫걸음을 담고 있다. 국내외 사례를 검토하고, 각종 문헌을 참고하여 가이드라인 초안을 제시하고 있다. 먼저 반출물 평가를 위한 노출제어 기본 원칙을 정리하고, 데이터센터 운영에 있어 실무적인 측면을 반영하여 관리자 및 이용자 각각을 위한 지침을 정리하였다. 특히 반복적으로 사용할 자료이용 신청 서식을 제안하였고, 관리를 위하여 필요한 이론적 내용을 간략히 소개하였다. 본 초안을 바탕으로 데이터센터 운영 결과를 반영하여 가이드라인을 지속적으로 업데이트할 필요가 있으며, 이는 효율적이고 안전한 데이터센터 운영에 필수적인 것으로 판단된다.