요약
통계청은 SGIS 시스템을 통해 센서스 자료의 빈도, 비율 등의 통계를 제공하고 있다. 이 시스템은 이용자의 변수별 범주 선택에 따라 지도 위에 해당 통계량을 표현한다. 이처럼 하나의 마이크로데이터에서 대량의 빈도표를 생성할 때는, 일반적으로 통용되는 빈도표에 대한 매스킹 기법을 적용하는 것이 불가능하다. 본 과제는 이러한 경우의 비밀보호 처리를 다룬다. 대량의 빈도표 제공을 위한 새로운 알고리즘 BSCA를 제안하고 R패키지를 구축해서 실무에 활용할 수 있도록 했다. 더불어 노출위험-정보손실을 이론적으로 논했다.
제안된 패키지는 SGIS에 바로 적용할 수 있도록 맞춤형으로 구축되었고, 결과로 SGIS에 사용할 데이터베이스를 반환한다. 또한 향후 빅데이터센터에서도 활용할 수 있도록 비밀보호 처리된 전체 빈도표 대신에 이용자가 선택한 일부 빈도표를 반환하는 함수도 제공한다. 제안된 BSCA 알고리즘의 이론적 타당성은 관련 논문 발간으로 점검하였다. 이론적 타당성 검증과 더불어 BSCA 적용 전후 빈도값 변화, 즉 정보손실의 분포를 집계구 단위 빈도표 및 그리드별 빈도표 각각에 대해 제시했다.