공공 데이터 수집에 LLM(생성형 AI)을 직접 사용해도 되나요?

비효율적입니다. HTML에서 구조화된 필드를 추출하는 작업은 일반 추출 로직 몇 줄로 밀리초 단위에 처리되지만, LLM을 쓰면 수 초가 걸리고 비용은 수천 배 차이 납니다. 12만 건 전체에 LLM을 돌리면 비용과 시간 모두 감당하기 어렵습니다.

AI는 데이터 파이프라인의 어디에 써야 효과적인가요?

수집이 아니라 해석에 써야 합니다. 구체적으로는 (1) 비정형 텍스트에서 예산·마감일·담당부서 같은 메타데이터 추출, (2) 키워드 매칭으로 잡을 수 없는 정교한 관련성 판단, (3) 여러 기준을 종합한 다요소 스코어링입니다. 추출 로직으로 커버되는 약 20%를 제외한 나머지 80%의 비정형 메타데이터에서 AI가 제값을 합니다.

LLM 비용을 통제하는 실무 전략은?

4가지 전략이 효과적입니다. (1) 1차 필터는 규칙 기반으로 명백히 무관한 데이터 제거, (2) LLM은 1차 필터 통과 건에만 적용, (3) 50건씩 배치로 묶어 한 번에 분석, (4) 동일 문서 분석 결과 캐싱. '모든 걸 AI로'가 아니라 '규칙으로 안 되는 곳에만 AI'가 핵심 원칙입니다.

Signals

AI는 수집이 아니라 해석에 써야 한다: LLM의 실질적 역할과 비용 통제 | Signals EP.7

생성형 AI 시대에도 모든 곳에 LLM을 쓰면 안 된다. 수집은 추출 로직으로, 해석은 AI로, 그 분기점에서 비용과 효율이 결정된다. 시리즈 7편.

클라이원트 CLIWANT

05 May 2026 • 5 min read

규칙으로 할 수 있는 건 규칙으로, AI는 규칙으로 안 되는 곳에만.

시리즈: 공공데이터에서 영업 시그널을 자동으로 발굴하기까지, 6편 읽기

AI를 안 쓰는 데이터 프로젝트가 요즘 있나

AI를 안 쓰는 데이터 프로젝트가 드물다. 이 프로젝트에서도 AI를 쓴다. 하지만 어디에 쓰느냐가 중요했다. 그리고 어디에 쓰지 않느냐가 더 중요했다.

"AI로 웹을 긁으면 되지 않나?"

처음에 한 번쯤 드는 생각이다. LLM에게 HTML을 던져주고 "여기서 제목, 날짜, 내용을 추출해"라고 시키는 것.

이건 비효율의 극치다.

HTML에서 구조화된 필드를 뽑는 건 추출 로직 몇 줄로 해결된다. 실행 시간은 밀리초 단위. LLM을 쓰면 같은 작업에 수 초가 걸리고, 비용도 수천 배 차이 난다.

12만 건에 LLM을 다 돌리면? 비용과 시간 모두 감당이 안 된다. 나사 하나 박는데 크레인을 부르는 결과다. 할 수는 있지만 할 이유가 없다.

진짜 AI가 필요한 곳: 비정형 텍스트의 해석

그럼 언제 AI를 쓸까? 구조화되지 않은 텍스트에서 구조화된 정보를 뽑아야 할 때.

정부 공문 30페이지짜리 사업안내서를 떠올려 보자. 예산, 사업 기간, 담당 부서, 기술 요구사항이 산문 형태로 흩어져 있다. 앞서 말한 첨부파일 안의 정보들이다. 추출 로직으로는 뽑을 수 없다. 키워드 매칭으로도 한계가 있다. 표현이 너무 다양하기 때문이다.

예산 표현 하나만 봐도

"총 사업비 50억 원 내외"
"국비 30억 원, 민간부담금 20억 원"
"과제당 연간 5억 원 이내 (3년간 최대 15억)"
"별도 예산 책정 예정"

어떤 건 총액이고, 어떤 건 연간이고, 어떤 건 국비만 따로 적는다. "이 사업의 예산이 대략 얼마인가"를 판단하려면 맥락을 이해해야 한다. 이게 LLM이 잘하는 일이다.

AI에 맡길 만한 일들

마감일 추출: "4월 말까지", "2분기 중", "별도 공지" 같은 다양한 표현 처리
관련성 판단: "이 사업이 우리 영역과 관련이 있는가?", 키워드 매칭보다 훨씬 정교
스코어링: 예산 규모, 일정, 의사결정자 명확성, 솔루션 적합도, 전략적 중요도를 종합적으로 평가

추출 로직이 커버하는 건 전체 데이터의 약 20%다. 나머지 80%의 메타데이터는 자연어 처리가 필요하고, 이 부분에서 AI가 비로소 제값을 한다.

비용이라는 현실

하지만 AI의 가치를 인정하더라도, 비용이라는 변수가 있다.

12만 건 이상의 데이터를 LLM으로 분석하면 상당한 비용이 나온다. 한 건당 몇백 원이라 해도, 전체를 돌리면 순식간에 수천만 원 단위가 된다.

비용 관리를 위한 4가지 전략

1차 필터는 규칙 기반: 키워드 매칭으로 명백히 무관한 건 먼저 걸러냈다
LLM은 2차 분석에만: 1차 필터를 통과한 건에만 적용해서 분석 대상을 줄였다
배치 처리: 50건씩 묶어서 한 번에 분석
결과 캐싱: 같은 문서를 두 번 분석하지 않도록

"모든 걸 AI로" 하고 싶은 유혹은 크다. 하지만 비현실적이다. 규칙으로 할 수 있는 건 규칙으로, AI는 규칙으로 안 되는 곳에만. 이 구분이 실무에서는 훨씬 중요하다.

AI를 이런 식으로 쓰면

결과적으로 AI는 이 시스템에서 다음을 담당한다:

비정형 텍스트에서 메타데이터 추출, 예산, 마감일, 담당부서
관련성 판단, 키워드로는 잡을 수 없는 정교한 매칭
다요소 스코어링, 여러 기준을 종합적으로 평가해서 우선순위화

수집에는 AI를 안 쓴다. 해석에만 쓴다. 이 둘을 구분하는 것만으로도 비용과 효율이 드라마틱하게 달라진다.

다음 에피소드에서는 이 모든 경험을 토대로, 공공데이터 인텔리전스라는 시장 기회에 대해 이야기한다.

SIGNALS

공고가 뜨기 전, 시그널을 먼저 잡고 싶다면

30개 공공 데이터 소스에서 영업 시그널을 자동 발굴하는 Signals. 1:1 상담을 받아보세요.

상담 신청하기 →