요약
‘4차 산업혁명’ 본격화에 따라 데이터의 폭발적 증대, 컴퓨팅 능력의 향상, 딥러닝을 비롯한 학습 알고리즘의 발전 등으로 빅데이터를 ICT 기술과 연계하여 정보를 창출하는 데이터 과학의 중요성이 강조되고 있다.
이 연구에서는 데이터 과학의 정의 및 관련 학문과의 관계 등 학문적 기본개념과 연구영역, 국내외 동향 등을 통해 도입에 필요한 다양한 검토요소와 쟁점이 무엇인지 파악하고, 국내외 활용사례를 중심으로 국가통계 적용 가능성을 모색하여 중장기 연구방향을 제시하였다.
데이터 과학의 국내외 국가통계 활용사례를 살펴보면, 외국의 경우는 통계인프라 구축과 지원뿐만 아니라 국가통계 생산분야에서도 활성화되어 있으며, 행정서비스 분야에서는 대상업무가 광범위하고 다양하게 이루어지고 있다. 반면 국내에는 통계인프라 구축·지원사업이나 챗봇 형태의 민원 응대를 위한 자동화시스템은 활성화되어 있으나 국가통계 생산분야에서는 활용이 저조한 편이다. 통계청에서는 통계작성에 있어 조사기반에서 행정자료 빅데이터 기반으로 국가통계 제도의 체질을 변화시키려는 노력을 기울이고 있다.
데이터 과학 기반 국가통계 생산을 위하여 AI, 머신러닝 등 과학기술을 사용하고, 맞춤형 서비스를 확대하는 등 데이터 과학 방법을 국가통계에 적용하기 위한 중장기 연구과제는 다음과 같다. 첫째 국가통계 생산체계 측면에서는 통계분류 자동코딩 및 시스템구축, 자료정제 및 무응답자료처리, 자료 내검규칙 적용 연구 등 인공지능 적용 국가통계 생산방식 개선 및 효율화를 위한 연구, 둘째 국가통계 관리체계 측면에서는 국가통계 승인제도, 국가통계 품질진단, 통계기반 정책평가제도 개선 등 다출처 자료 활용 국가통계 체계적 관리방안 마련을 위한 연구, 셋째 데이터 서비스체계 측면에서는 데이터 DB 및 연계시스템 구축, 데이터 과학 역량강화 방안 마련, 정보제공 및 협업네트워크 구축 강화 등 데이터 과학 기반 국가통계 활용 및 확산 지원을 위한 연구를 제안하였다.