Signals 데이터 품질은 전쟁이다: 22개 항목 감사와 끝나지 않는 정비 | Signals EP.12 "한 번 만들면 알아서 돌아가겠지"는 가장 위험한 착각. 22개 품질 감사 체계와 1주일 스프린트, 2시간 주기 사이클로 18만 건의 품질을 유지하는 방법. 시리즈 12편.
Signals 12만 건 중 쓸만한 건 몇 개인가: 데이터 품질이 80%다 | Signals EP.5 수집한 12만 건 중에서 의미 있는 건 몇 개인가. 중복 그룹 52개, 쓰레기 첨부파일 15만 건, 노이즈 필터링과의 전쟁. 데이터 프로젝트의 진짜 본질에 대한 시리즈 5편.
Signals 첨부파일이라는 데이터의 블랙홀: 공공 공고의 핵심은 본문이 아니다 | Signals EP.4 정부 사업 공고의 핵심은 본문 2줄이 아닌 30페이지 첨부파일이다. HWP 호환성, 이미지형 PDF, 인증 다운로드 같은 장벽 때문에 7만 건 중 58%가 추출 실패. 시리즈 4편.
Signals 날짜 하나 뽑는 데 왜 3일이 걸렸는가: 공공 데이터 메타데이터 전쟁 | Signals EP.3 게시판에 글은 있는데 언제 올라왔는지 알 수 없다. 예산은 본문에 묻혀 있고, 마감일은 "2분기 중"이라고만 쓰여 있다. 공공 데이터 메타데이터 전쟁의 기록, 시리즈 3편.