AI는 수집이 아니라 해석에 써야 한다: LLM의 실질적 역할과 비용 통제 | Signals EP.7

생성형 AI 시대에도 모든 곳에 LLM을 쓰면 안 된다. 수집은 추출 로직으로, 해석은 AI로, 그 분기점에서 비용과 효율이 결정된다. 시리즈 7편.

AI와 데이터 파이프라인 — LLM의 실질적 역할과 비용 통제
규칙으로 할 수 있는 건 규칙으로, AI는 규칙으로 안 되는 곳에만.

시리즈: 공공데이터에서 영업 시그널을 자동으로 발굴하기까지, 6편 읽기

AI를 안 쓰는 데이터 프로젝트가 요즘 있나

AI를 안 쓰는 데이터 프로젝트가 드물다. 이 프로젝트에서도 AI를 쓴다. 하지만 어디에 쓰느냐가 중요했다. 그리고 어디에 쓰지 않느냐가 더 중요했다.

"AI로 웹을 긁으면 되지 않나?"

처음에 한 번쯤 드는 생각이다. LLM에게 HTML을 던져주고 "여기서 제목, 날짜, 내용을 추출해"라고 시키는 것.

이건 비효율의 극치다.

HTML에서 구조화된 필드를 뽑는 건 추출 로직 몇 줄로 해결된다. 실행 시간은 밀리초 단위. LLM을 쓰면 같은 작업에 수 초가 걸리고, 비용도 수천 배 차이 난다.

12만 건에 LLM을 다 돌리면? 비용과 시간 모두 감당이 안 된다. 나사 하나 박는데 크레인을 부르는 결과다. 할 수는 있지만 할 이유가 없다.

진짜 AI가 필요한 곳: 비정형 텍스트의 해석

그럼 언제 AI를 쓸까? 구조화되지 않은 텍스트에서 구조화된 정보를 뽑아야 할 때.

정부 공문 30페이지짜리 사업안내서를 떠올려 보자. 예산, 사업 기간, 담당 부서, 기술 요구사항이 산문 형태로 흩어져 있다. 앞서 말한 첨부파일 안의 정보들이다. 추출 로직으로는 뽑을 수 없다. 키워드 매칭으로도 한계가 있다. 표현이 너무 다양하기 때문이다.

예산 표현 하나만 봐도

  • "총 사업비 50억 원 내외"
  • "국비 30억 원, 민간부담금 20억 원"
  • "과제당 연간 5억 원 이내 (3년간 최대 15억)"
  • "별도 예산 책정 예정"

어떤 건 총액이고, 어떤 건 연간이고, 어떤 건 국비만 따로 적는다. "이 사업의 예산이 대략 얼마인가"를 판단하려면 맥락을 이해해야 한다. 이게 LLM이 잘하는 일이다.

AI에 맡길 만한 일들

  • 마감일 추출: "4월 말까지", "2분기 중", "별도 공지" 같은 다양한 표현 처리
  • 관련성 판단: "이 사업이 우리 영역과 관련이 있는가?", 키워드 매칭보다 훨씬 정교
  • 스코어링: 예산 규모, 일정, 의사결정자 명확성, 솔루션 적합도, 전략적 중요도를 종합적으로 평가

추출 로직이 커버하는 건 전체 데이터의 약 20%다. 나머지 80%의 메타데이터는 자연어 처리가 필요하고, 이 부분에서 AI가 비로소 제값을 한다.

비용이라는 현실

하지만 AI의 가치를 인정하더라도, 비용이라는 변수가 있다.

12만 건 이상의 데이터를 LLM으로 분석하면 상당한 비용이 나온다. 한 건당 몇백 원이라 해도, 전체를 돌리면 순식간에 수천만 원 단위가 된다.

비용 관리를 위한 4가지 전략

  • 1차 필터는 규칙 기반: 키워드 매칭으로 명백히 무관한 건 먼저 걸러냈다
  • LLM은 2차 분석에만: 1차 필터를 통과한 건에만 적용해서 분석 대상을 줄였다
  • 배치 처리: 50건씩 묶어서 한 번에 분석
  • 결과 캐싱: 같은 문서를 두 번 분석하지 않도록

"모든 걸 AI로" 하고 싶은 유혹은 크다. 하지만 비현실적이다. 규칙으로 할 수 있는 건 규칙으로, AI는 규칙으로 안 되는 곳에만. 이 구분이 실무에서는 훨씬 중요하다.

AI를 이런 식으로 쓰면

결과적으로 AI는 이 시스템에서 다음을 담당한다:

  1. 비정형 텍스트에서 메타데이터 추출, 예산, 마감일, 담당부서
  2. 관련성 판단, 키워드로는 잡을 수 없는 정교한 매칭
  3. 다요소 스코어링, 여러 기준을 종합적으로 평가해서 우선순위화

수집에는 AI를 안 쓴다. 해석에만 쓴다. 이 둘을 구분하는 것만으로도 비용과 효율이 드라마틱하게 달라진다.

다음 에피소드에서는 이 모든 경험을 토대로, 공공데이터 인텔리전스라는 시장 기회에 대해 이야기한다.

SIGNALS

공고가 뜨기 전, 시그널을 먼저 잡고 싶다면

30개 공공 데이터 소스에서 영업 시그널을 자동 발굴하는 Signals. 1:1 상담을 받아보세요.

상담 신청하기 →