AI는 수집이 아니라 해석에 써야 한다: LLM의 실질적 역할과 비용 통제 | Signals EP.7
생성형 AI 시대에도 모든 곳에 LLM을 쓰면 안 된다. 수집은 추출 로직으로, 해석은 AI로, 그 분기점에서 비용과 효율이 결정된다. 시리즈 7편.
시리즈: 공공데이터에서 영업 시그널을 자동으로 발굴하기까지, 6편 읽기
AI를 안 쓰는 데이터 프로젝트가 요즘 있나
AI를 안 쓰는 데이터 프로젝트가 드물다. 이 프로젝트에서도 AI를 쓴다. 하지만 어디에 쓰느냐가 중요했다. 그리고 어디에 쓰지 않느냐가 더 중요했다.
"AI로 웹을 긁으면 되지 않나?"
처음에 한 번쯤 드는 생각이다. LLM에게 HTML을 던져주고 "여기서 제목, 날짜, 내용을 추출해"라고 시키는 것.
이건 비효율의 극치다.
HTML에서 구조화된 필드를 뽑는 건 추출 로직 몇 줄로 해결된다. 실행 시간은 밀리초 단위. LLM을 쓰면 같은 작업에 수 초가 걸리고, 비용도 수천 배 차이 난다.
12만 건에 LLM을 다 돌리면? 비용과 시간 모두 감당이 안 된다. 나사 하나 박는데 크레인을 부르는 결과다. 할 수는 있지만 할 이유가 없다.
진짜 AI가 필요한 곳: 비정형 텍스트의 해석
그럼 언제 AI를 쓸까? 구조화되지 않은 텍스트에서 구조화된 정보를 뽑아야 할 때.
정부 공문 30페이지짜리 사업안내서를 떠올려 보자. 예산, 사업 기간, 담당 부서, 기술 요구사항이 산문 형태로 흩어져 있다. 앞서 말한 첨부파일 안의 정보들이다. 추출 로직으로는 뽑을 수 없다. 키워드 매칭으로도 한계가 있다. 표현이 너무 다양하기 때문이다.
예산 표현 하나만 봐도
- "총 사업비 50억 원 내외"
- "국비 30억 원, 민간부담금 20억 원"
- "과제당 연간 5억 원 이내 (3년간 최대 15억)"
- "별도 예산 책정 예정"
어떤 건 총액이고, 어떤 건 연간이고, 어떤 건 국비만 따로 적는다. "이 사업의 예산이 대략 얼마인가"를 판단하려면 맥락을 이해해야 한다. 이게 LLM이 잘하는 일이다.
AI에 맡길 만한 일들
- 마감일 추출: "4월 말까지", "2분기 중", "별도 공지" 같은 다양한 표현 처리
- 관련성 판단: "이 사업이 우리 영역과 관련이 있는가?", 키워드 매칭보다 훨씬 정교
- 스코어링: 예산 규모, 일정, 의사결정자 명확성, 솔루션 적합도, 전략적 중요도를 종합적으로 평가
추출 로직이 커버하는 건 전체 데이터의 약 20%다. 나머지 80%의 메타데이터는 자연어 처리가 필요하고, 이 부분에서 AI가 비로소 제값을 한다.
비용이라는 현실
하지만 AI의 가치를 인정하더라도, 비용이라는 변수가 있다.
12만 건 이상의 데이터를 LLM으로 분석하면 상당한 비용이 나온다. 한 건당 몇백 원이라 해도, 전체를 돌리면 순식간에 수천만 원 단위가 된다.
비용 관리를 위한 4가지 전략
- 1차 필터는 규칙 기반: 키워드 매칭으로 명백히 무관한 건 먼저 걸러냈다
- LLM은 2차 분석에만: 1차 필터를 통과한 건에만 적용해서 분석 대상을 줄였다
- 배치 처리: 50건씩 묶어서 한 번에 분석
- 결과 캐싱: 같은 문서를 두 번 분석하지 않도록
"모든 걸 AI로" 하고 싶은 유혹은 크다. 하지만 비현실적이다. 규칙으로 할 수 있는 건 규칙으로, AI는 규칙으로 안 되는 곳에만. 이 구분이 실무에서는 훨씬 중요하다.
AI를 이런 식으로 쓰면
결과적으로 AI는 이 시스템에서 다음을 담당한다:
- 비정형 텍스트에서 메타데이터 추출, 예산, 마감일, 담당부서
- 관련성 판단, 키워드로는 잡을 수 없는 정교한 매칭
- 다요소 스코어링, 여러 기준을 종합적으로 평가해서 우선순위화
수집에는 AI를 안 쓴다. 해석에만 쓴다. 이 둘을 구분하는 것만으로도 비용과 효율이 드라마틱하게 달라진다.
다음 에피소드에서는 이 모든 경험을 토대로, 공공데이터 인텔리전스라는 시장 기회에 대해 이야기한다.