Signals 데이터 품질은 전쟁이다: 22개 항목 감사와 끝나지 않는 정비 | Signals EP.12 "한 번 만들면 알아서 돌아가겠지"는 가장 위험한 착각. 22개 품질 감사 체계와 1주일 스프린트, 2시간 주기 사이클로 18만 건의 품질을 유지하는 방법. 시리즈 12편.
Signals 82개 기관의 데이터를 하나의 언어로 통일하는 일: 정규화의 조합 폭발 | Signals EP.10 30개 사이트에서 가져오면 30개의 다른 포맷이 온다. 기관명·날짜·URL·HTML을 하나의 언어로 통일하는 일이 왜 그토록 어려운지에 관한 이야기. 시리즈 10편.
Signals AI는 수집이 아니라 해석에 써야 한다: LLM의 실질적 역할과 비용 통제 | Signals EP.7 생성형 AI 시대에도 모든 곳에 LLM을 쓰면 안 된다. 수집은 추출 로직으로, 해석은 AI로, 그 분기점에서 비용과 효율이 결정된다. 시리즈 7편.
Signals 30개 사이트를 매일 안정적으로 수집한다는 것: 스케일·복원력의 현실 | Signals EP.6 한 사이트 수집은 쉽다. 30개를 매일 돌리면 메모리가 폭주하고 Rate Limit에 막히고 매일 어딘가는 실패한다. "오류를 없애는 것"이 아닌 "멈추지 않는 시스템"의 설계. 시리즈 6편.
Signals 12만 건 중 쓸만한 건 몇 개인가: 데이터 품질이 80%다 | Signals EP.5 수집한 12만 건 중에서 의미 있는 건 몇 개인가. 중복 그룹 52개, 쓰레기 첨부파일 15만 건, 노이즈 필터링과의 전쟁. 데이터 프로젝트의 진짜 본질에 대한 시리즈 5편.
Signals 첨부파일이라는 데이터의 블랙홀: 공공 공고의 핵심은 본문이 아니다 | Signals EP.4 정부 사업 공고의 핵심은 본문 2줄이 아닌 30페이지 첨부파일이다. HWP 호환성, 이미지형 PDF, 인증 다운로드 같은 장벽 때문에 7만 건 중 58%가 추출 실패. 시리즈 4편.
Signals 날짜 하나 뽑는 데 왜 3일이 걸렸는가: 공공 데이터 메타데이터 전쟁 | Signals EP.3 게시판에 글은 있는데 언제 올라왔는지 알 수 없다. 예산은 본문에 묻혀 있고, 마감일은 "2분기 중"이라고만 쓰여 있다. 공공 데이터 메타데이터 전쟁의 기록, 시리즈 3편.
Signals 정부 사이트 30개의 기술 스택이 전부 달랐다: 한국 공공데이터 인프라의 현실 | Signals EP.2 30개 정부 사이트를 수집 대상으로 삼고 뜯어보니, 한국 공공데이터 인프라는 인프라라 부르기 민망할 정도로 파편화되어 있었다. 시리즈 2편.