데이터는 제4차 산업혁명 시대의 원유와도 같은 역할을 하고 있다. 기계학습 모델을 학습시키기 위해서도 데이터가 필요하다. 나아가 양질의 데이터가 있으면 양질의 분석 작업과 고도로 훈련된 인공지능 모델을 이용하여 우리의 삶을 훨씬 더 풍요롭게 할 수 있다. 이처럼 데이터를 공유하는 것이 필요하지만 프라이버시 문제로 인하여 실상은 데이터가 활발히 공유되지 못하고 있다. 세계 각국은 이러한 프라이버시 이슈에 대하여 관련 법과 규제를 강화하고 있어, 데이터 공유가 앞으로 더 위축될 우려도 있다.
프라이버시 보호, 즉 개인정보 노출위험 제어를 위하여 전통적으로 데이터 익명화 방법들이 사용되고 있으며, 최근 차등정보보호(differential privacy)를 만족하도록 잡음을 추가하는 기법도 제안된 바 있다. 그러나 실제 자료에 이러한 기법을 적용하면 자료의 유용성이 떨어진다는 문제점이 있다. 때문에 노출위험을 제어하면서 자료의 유용성을 확보하기 위한 또 다른 방법으로 재현자료 생성이 연구되고 있다. 전통적인 익명화 방법들의 한계를 극복하기 위하여 제안된 재현자료는 원본자료를 대신하여 원본과 유사한 분포를 가지도록 생성된 자료를 일컫는다. 재현자료는 통계적 모형을 통해 생성될 수도 있지만 최근 딥러닝 기술을 활용한 방법도 주목받고 있다.
본 보고서에서는 재현자료 생성을 위한 통계적 모형을 활용하는 방법, 재현자료의 노출위험과 정보손실을 측정하는 방법, 국내외 통계기관의 재현자료 생성 사례 및 통계청 통계데이터센터 실제 DB에 대한 재현자료 시범 생성 결과를 설명한다. 나아가 딥러닝 기술을 이용한 재현자료 연구 동향을 상세히 소개한다.