정부, 공공 AI 데이터 전면 조사…100종 선별 제공
입력 2026.04.10 12:02
수정 2026.04.10 12:02
AI 학습용 데이터 ‘센서스’ 시작
100종 발굴·60억원 지원
과학기술정보통신부 전경.ⓒ데일리안DB
과학기술정보통신부가 전 부처와 공공기관이 보유한 인공지능(AI) 학습용 데이터를 처음으로 전면 조사한다. 공공 데이터의 활용 가능성을 체계적으로 파악해 AI 학습에 활용 가능한 데이터 100종을 발굴하고 통합 제공 기반을 구축한다는 계획이다.
과학기술정보통신부와 한국지능정보사회진흥원은 10일부터 범부처 현황조사인 ‘AI 학습용데이터 센서스’를 실시한다고 밝혔다.
과기정통부에 따르면 최근 생성형 AI 확산으로 산업과 공공 전반에서 AI 활용 수요가 급증하면서 고품질 학습용 데이터 확보가 핵심 경쟁력으로 부상했다. 그러나 공공기관 데이터가 기관별로 분산 관리되면서 보유 현황과 활용 가능성을 종합적으로 파악하기 어려운 한계가 지속돼 왔다.
정부는 이러한 문제를 해결하기 위해 전 부처 대상 첫 전수 조사를 한다. 조사 결과를 바탕으로 AI 학습 활용 가능성이 높은 데이터 100종을 발굴한다. 60억원 규모로 ‘AI 학습용데이터 통합제공체계’를 통해 연계·제공할 계획이다.
이번 센서스는 기존 AI 학습용 데이터뿐 아니라 향후 가공을 통해 활용 가능한 데이터까지 조사 범위를 확대했다.
단순 현황 파악을 넘어 실제 AI 학습에 활용 가능한 후보군 도출에 초점을 맞춘 것이 특징이다.
조사 항목은 데이터 유형과 구조, 구축 목적, 제공 가능 범위 등 AI 학습 활용성과 직결된 요소 중심으로 구성된다.
정부는 조사 결과를 토대로 기관·분야별 데이터 제공 가능 여부와 가공 수준을 종합 검토하고 전문가 인터뷰와 민간 수요조사를 거쳐 통합 제공 대상 100종을 최종 선정한다. 선정된 데이터는 품질 보완과 비식별 조치 등 기술·재정 지원을 거쳐 제공한다.
온라인 공개가 어려운 데이터는 ‘데이터 안심구역’을 통해 제공한다. 현재 11개 기관, 14개 구역이 지정·운영 중이다. 보안 환경에서 미개방 데이터를 안전하게 분석·활용할 수 있도록 지원한다.
정부는 기존 AI 허브를 ‘AI 학습용데이터 통합제공체계’로 고도화하고 데이터 거래 활성화 지원 체계를 마련할 계획이다. 이를 통해 공공·민간 데이터를 통합 관리하고 발굴부터 확보, 활용까지 이어지는 선순환 구조를 구축한다는 방침이다.
김경만 과기정통부 인공지능정책실장은 “AI 성능과 품질의 핵심은 활용 가능한 풍부한 데이터에 있다”며 “공공부문 AI 데이터 자산을 체계적으로 발굴하고 활용 기반을 지속 발전시키겠다”고 말했다.
