공공 데이터 - 클라이원트 AI 입찰 블로그

클라이원트 AI 입찰 블로그

Sign in Subscribe

공공 데이터

A collection of 8 posts

공공 데이터 품질 관리 — 22개 항목 감사와 지속적 정비 사이클

데이터 품질은 전쟁이다: 22개 항목 감사와 끝나지 않는 정비 | Signals EP.12

"한 번 만들면 알아서 돌아가겠지"는 가장 위험한 착각. 22개 품질 감사 체계와 1주일 스프린트, 2시간 주기 사이클로 18만 건의 품질을 유지하는 방법. 시리즈 12편.

공공 데이터 정규화 — 82개 기관의 다양한 포맷을 하나의 언어로 통일

82개 기관의 데이터를 하나의 언어로 통일하는 일: 정규화의 조합 폭발 | Signals EP.10

30개 사이트에서 가져오면 30개의 다른 포맷이 온다. 기관명·날짜·URL·HTML을 하나의 언어로 통일하는 일이 왜 그토록 어려운지에 관한 이야기. 시리즈 10편.

AI와 데이터 파이프라인 — LLM의 실질적 역할과 비용 통제

AI는 수집이 아니라 해석에 써야 한다: LLM의 실질적 역할과 비용 통제 | Signals EP.7

생성형 AI 시대에도 모든 곳에 LLM을 쓰면 안 된다. 수집은 추출 로직으로, 해석은 AI로, 그 분기점에서 비용과 효율이 결정된다. 시리즈 7편.

30개 사이트 매일 수집 시스템 — 스케일과 복원력의 운영 현실

30개 사이트를 매일 안정적으로 수집한다는 것: 스케일·복원력의 현실 | Signals EP.6

한 사이트 수집은 쉽다. 30개를 매일 돌리면 메모리가 폭주하고 Rate Limit에 막히고 매일 어딘가는 실패한다. "오류를 없애는 것"이 아닌 "멈추지 않는 시스템"의 설계. 시리즈 6편.

공공 데이터 품질 관리 — 12만 건의 활용 가능한 데이터 비율

12만 건 중 쓸만한 건 몇 개인가: 데이터 품질이 80%다 | Signals EP.5

수집한 12만 건 중에서 의미 있는 건 몇 개인가. 중복 그룹 52개, 쓰레기 첨부파일 15만 건, 노이즈 필터링과의 전쟁. 데이터 프로젝트의 진짜 본질에 대한 시리즈 5편.

공공 공고 첨부파일 데이터 추출 — HWP, PDF, ZIP 포맷의 기술적 장벽

첨부파일이라는 데이터의 블랙홀: 공공 공고의 핵심은 본문이 아니다 | Signals EP.4

정부 사업 공고의 핵심은 본문 2줄이 아닌 30페이지 첨부파일이다. HWP 호환성, 이미지형 PDF, 인증 다운로드 같은 장벽 때문에 7만 건 중 58%가 추출 실패. 시리즈 4편.

공공 데이터 메타데이터 추출 과정 — 날짜·예산·담당자 정보의 구조화

날짜 하나 뽑는 데 왜 3일이 걸렸는가: 공공 데이터 메타데이터 전쟁 | Signals EP.3

게시판에 글은 있는데 언제 올라왔는지 알 수 없다. 예산은 본문에 묻혀 있고, 마감일은 "2분기 중"이라고만 쓰여 있다. 공공 데이터 메타데이터 전쟁의 기록, 시리즈 3편.

정부 공공 데이터 인프라의 기술 스택 다양성 — 30개 사이트의 구조적 파편화

정부 사이트 30개의 기술 스택이 전부 달랐다: 한국 공공데이터 인프라의 현실 | Signals EP.2

30개 정부 사이트를 수집 대상으로 삼고 뜯어보니, 한국 공공데이터 인프라는 인프라라 부르기 민망할 정도로 파편화되어 있었다. 시리즈 2편.