Signals 이 일을 사람 손으로 할 수 있는가: 인턴 한 명과 엑셀의 한계 | Signals EP.11 "인턴 한 명 앉혀서 엑셀로 정리하면 되지 않나?"에 진지하게 답한다. 자동화의 목표는 사람 대체가 아닌, 사람이 잘하는 일에 집중하게 하는 것. 시리즈 11편.
Signals 82개 기관의 데이터를 하나의 언어로 통일하는 일: 정규화의 조합 폭발 | Signals EP.10 30개 사이트에서 가져오면 30개의 다른 포맷이 온다. 기관명·날짜·URL·HTML을 하나의 언어로 통일하는 일이 왜 그토록 어려운지에 관한 이야기. 시리즈 10편.
Signals 시그널 하나가 아니라, 체인을 추적한다: 정책-예산-입찰의 6개월 흐름 | Signals EP.9 단일 시그널은 쓸모가 없다. 정책 발표 → 예산 편성 → 사업 공고 → 입찰 공고로 이어지는 6개월 체인을 통째로 추적하는 5가지 연결 기술. Part 2 시작편.
Signals 공공 데이터 인텔리전스, 아직 블루오션이다: 시그널 체인 선점 기회 | Signals EP.8 7편의 여정 끝에 도달한 결론. 한국 공공 데이터 인프라의 비표준성이 역설적으로 해자가 된다. Part 1(수집의 현실) 마무리편.
Signals 30개 사이트를 매일 안정적으로 수집한다는 것: 스케일·복원력의 현실 | Signals EP.6 한 사이트 수집은 쉽다. 30개를 매일 돌리면 메모리가 폭주하고 Rate Limit에 막히고 매일 어딘가는 실패한다. "오류를 없애는 것"이 아닌 "멈추지 않는 시스템"의 설계. 시리즈 6편.
Signals 12만 건 중 쓸만한 건 몇 개인가: 데이터 품질이 80%다 | Signals EP.5 수집한 12만 건 중에서 의미 있는 건 몇 개인가. 중복 그룹 52개, 쓰레기 첨부파일 15만 건, 노이즈 필터링과의 전쟁. 데이터 프로젝트의 진짜 본질에 대한 시리즈 5편.
Signals 첨부파일이라는 데이터의 블랙홀: 공공 공고의 핵심은 본문이 아니다 | Signals EP.4 정부 사업 공고의 핵심은 본문 2줄이 아닌 30페이지 첨부파일이다. HWP 호환성, 이미지형 PDF, 인증 다운로드 같은 장벽 때문에 7만 건 중 58%가 추출 실패. 시리즈 4편.
Signals 날짜 하나 뽑는 데 왜 3일이 걸렸는가: 공공 데이터 메타데이터 전쟁 | Signals EP.3 게시판에 글은 있는데 언제 올라왔는지 알 수 없다. 예산은 본문에 묻혀 있고, 마감일은 "2분기 중"이라고만 쓰여 있다. 공공 데이터 메타데이터 전쟁의 기록, 시리즈 3편.
Signals 정부 사이트 30개의 기술 스택이 전부 달랐다: 한국 공공데이터 인프라의 현실 | Signals EP.2 30개 정부 사이트를 수집 대상으로 삼고 뜯어보니, 한국 공공데이터 인프라는 인프라라 부르기 민망할 정도로 파편화되어 있었다. 시리즈 2편.
Signals 왜 공공 영업은 항상 입찰에 늦는가: 공고와 시그널의 2주 시차 | Signals EP.1 공고가 뜨기 전, 경쟁사는 이미 2주 먼저 움직인다. 30개 공공 데이터 사이트에 흩어진 영업 시그널을 자동 발굴하기까지의 기록, 시리즈 1편.