요약
- 농산물소득조사 간접추정방안 기초 연구 (김경미 사무관)

농산물소득조사의 응답자 부담 완화, 조사 비용 감소 등 조사효율화를 위하여 타출처 자료를 활용한 간접추정 적용 방안들을 검토하였다. 이를 바탕으로 한 간접추정 적용 결과를 실제 조사 자료와 비교해 간접추정의 적용 가능성을 살펴보았다. 간접추정을 위해 농가판매 및 구입가격지수 자료를 활용하였으며, 2016년 자료를 기준으로 2017~2019년을 2017년 자료를 기준으로 2018~2019년을 간접추정하였다. 그 결과 모든 세부비목에 대한 전면적인 간접추정 적용에는 한계가 있는 것으로 나타났으나, 일부 비목에서는 안정적인 결과를 보여 간접추정의 가능성을 확인하였다. 농산물소득조사는 표본추출틀인 농어업총조사를 기반으로 표본을 선정하여 5년간 동일 농가를 대상으로 조사하므로 바로 변화를 반영하기에는 여러 측면에서 제약조건들이 존재한다. 따라서 앞으로 2015년 농어업총조사를 기반으로 한 표본농가에 대한 조사를 2년간 더 진행한 후, 그 자료를 포함해 간접추정 적용 가능성을 검토할 필요가 있다. 자료를 확대하여 동일 농가를 대상으로 간접추정 방안을 적용한다면 활용 가능한 비목이 더 늘어날 것으로 보인다.
조사 환경의 변화 속에서 조사의 정확성 및 안정성은 유지하면서도 응답자의 부담은 완화하고 조사비용은 감소시키는 조사효율화를 위한 노력은 지속적으로 관심을 가져야 할 부분이다. 이러한 노력의 일환으로 간접추정 방안에 대해 검토하였으며 일부 비목에 대해서는 그 가능성이 매우 높은 것으로 나타났다. 다만, 간접추정의 효율을 극대화하기 위해서는 표본농가 수의 확대, 표본농가 대체, 자료의 신뢰성 등 다양한 측면에서의 노력이 수반되어야 한다. 점진적으로 간접추정의 가능성을 점검하면서 언급한 사항들에 대한 개선 노력도 필요할 것이다.

- 경제활동인구조사 무응답 대체 방안 (박민정 사무관)

조사 통계자료에서 무응답이 대량으로 발생하는 경우, 이는 통계 신뢰도 하락의 주요 원인이 될 수 있다. 경제활동인구조사에서 무응답률이 최근 9%를 상회하는 것으로 나타나, 이를 보완할 방안을 선제적으로 연구할 필요성이 있다. 이를 위해 본 연구에서는 우선 미국의 대규모 조사자료 NHANES의 무응답 대체 사례를 분석하고, 관련 통계 방법론들을 검토하였다. 조사 대상 가구의 불응에 따른 단위 무응답 문제를 항목 무응답 문제로 전환하기 위하여, 2개 명부 자료와 조사응답자료 36개월 분량을 연계하는 방안을 제안하였다. 이어 우리나라 경제활동인구조사 자료의 무응답 구조를 분석하고, 해외 사례에서 이용된 다중대체 기법을 적용하였다. 다중대체 기본모형 구축을 위하여 우리나라 경제활동인구조사에 해당하는 미국 CPS의 재현자료 생성 모형을 벤치마킹하였다. 먼저 무응답 편향이 없다는 가정하에 모의실험을 실시하고, 다음으로 실업자의 무응답률을 변화시켜가며 모의실험을 실시하였다. 대체결과에서 편의를 축소하기 위하여 변수선택과 다양한 모형 적용 등의 모의실험을 추가하여 수행하였다. 마지막으로 모의실험에서 실시한 시나리오를 실제 무응답이 발생한 경제활동인구조사 자료에 적용하여 그 결과를 제시하였다.
본 연구에서는 자료연계, 해외사례 벤치마킹, 다중대체 모의실험 및 실제 조사 자료에 대한 다중대체 결과 도출 등을 모두 수행하였으며, 설명변수로 사용할 주요한 보조 정보를 보강할 수 있다면 효율적인 대체 결과를 도출할 수 있도록다양한 방안을 제안하였다. 한편, 본 연구 과제를 통해 습득한 조사표 구조를 반영한 다중대체 방식은 향후 데이터 정보보호(data privacy)를 위한 베이지안 재현자료 생성에 기술적인 노하우로 활용될 수 있다.


- 코호트 효과를 고려한 사망률 예측 모형의 비교연구 (김순영 주무관)

다른 선진국들과 마찬가지로 우리나라에서도 최근 몇십 년 동안 모든 연령대에서 사망률이 상당히 감소했다. 지난 50여 년 동안 우리나라의 사망률 감소 패턴에 대한 탐색적 연구에 의하면 모든 연령에서 연령별 사망률이 감소했지만, 특정한 사망률이 개선되고 있는 패턴은 연령과 기간에 따라 다르다는 것을 알 수 있다. 여성이 남성보다 사망률 개선이 뚜렷하고 특히 시간이 지나면서 특정그룹에서의 사망률 개선이 두드러짐에 따라 전반적으로 사망 시간 추세에 구조적인 변화가 존재함을 확인할 수 있었다. 본 연구에서는 이와 같은 구조적 변화가 가능한 이유로 코호트 효과의 존재를 고려하였다.
본 연구는 우리나라 성별 사망률에 존재하는 코호트 효과 여부를 살펴보고 이를 반영한 미래 사망률 예측을 위해 다양한 확률적 사망률 모형을 비교한 연구이다. 이를 위해 모형적합과 예측력 관점에서 평가검증(Validation Test)을 수행하였다. 또한 사망률 모형을 6개로 분류(LC, RH, Currie, CBD 계열, PLAT, 연령에 대한 상수항을 포함한 수정된 CBD 계열)하여 우리나라 사망률에 코호트 효과를 조명하고, 모형평가와 더불어 모수 예측에 불확실성을 추가적으로 살펴보았다. 또한 분석 결과를 바탕으로 6개 모형별 2067년까지 남녀의 연령별 사망률과 예측기대수명을 작성하고 통계청(KOSIS)에서 제공하는 장래 연령별 사망률과 기대수명과 비교하였다.
우리나라 사망률 데이터에는 코호트 효과가 존재하므로 남녀 모두 코호트 효과가 반영된 모형의 적합도가 높은 것으로 나타났다. 반면 예측의 관점에서는 코호트 효과를 포함한 모형의 예측력이 기간효과만 포함한 LC 모형과 거의 유사한 경향임을 확인할 수 있었다. 자료 이용기간에 따라 최적의 모형이 상이하나 남자의 경우 PLAT, CBD3.ax 모형, 여자의 경우 LC, PLAT 모형의 예측력이 우수한 것으로 나타났다. 그러나 불확실성을 감안하면 LC 모형의 경우 코호트 효과를 포함하지 않아 선형 감소형태로 예측되고 불확실성의 구간이 좁게 생성되며, CBD3.ax 모형의 경우 저연령 특히 0세의 경우 불확실성이 너무 큼을 알 수 있었다. 적합력, 예측력 그리고 불확실성을 전반적으로 고려한 결과 우리나라 남녀 사망률 데이터에는 PLAT 모형을 통한 예측 및 적합이 적절하다 볼 수 있을 것이다.


- 데이터 과학(Data Science) 기초 연구 (김혜란 사무관)

‘4차 산업혁명’ 본격화에 따라 데이터의 폭발적 증대, 컴퓨팅 능력의 향상, 딥러닝을 비롯한 학습 알고리즘의 발전 등으로 빅데이터를 ICT 기술과 연계하여 정보를 창출하는 데이터 과학의 중요성이 강조되고 있다.
이 연구에서는 데이터 과학의 정의 및 관련 학문과의 관계 등 학문적 기본개념과 연구영역, 국내외 동향 등을 통해 도입에 필요한 다양한 검토요소와 쟁점이 무엇인지 파악하고, 국내외 활용사례를 중심으로 국가통계 적용 가능성을 모색하여 중장기 연구방향을 제시하였다.
데이터 과학의 국내외 국가통계 활용사례를 살펴보면, 외국의 경우는 통계인프라 구축과 지원뿐만 아니라 국가통계 생산분야에서도 활성화되어 있으며, 행정서비스 분야에서는 대상업무가 광범위하고 다양하게 이루어지고 있다. 반면 국내에는 통계인프라 구축·지원사업이나 챗봇 형태의 민원 응대를 위한 자동화시스템은 활성화되어 있으나 국가통계 생산분야에서는 활용이 저조한 편이다. 통계청에서는 통계작성에 있어 조사기반에서 행정자료 빅데이터 기반으로 국가통계 제도의 체질을 변화시키려는 노력을 기울이고 있다.
데이터 과학 기반 국가통계 생산을 위하여 AI, 머신러닝 등 과학기술을 사용하고, 맞춤형 서비스를 확대하는 등 데이터 과학 방법을 국가통계에 적용하기 위한 중장기 연구과제는 다음과 같다. 첫째 국가통계 생산체계 측면에서는 통계분류 자동코딩 및 시스템구축, 자료정제 및 무응답자료처리, 자료 내검규칙 적용 연구 등 인공지능 적용 국가통계 생산방식 개선 및 효율화를 위한 연구, 둘째 국가통계 관리체계 측면에서는 국가통계 승인제도, 국가통계 품질진단, 통계기반 정책평가제도 개선 등 다출처 자료 활용 국가통계 체계적 관리방안 마련을 위한 연구, 셋째 데이터 서비스체계 측면에서는 데이터 DB 및 연계시스템 구축, 데이터 과학 역량강화 방안 마련, 정보제공 및 협업네트워크 구축 강화 등 데이터 과학 기반 국가통계 활용 및 확산 지원을 위한 연구를 제안하였다.