350억 달러를 태운 뒤에야 깨달은 것

350억 달러를 태운 뒤에야 깨달은 것

MIT가 밝힌 AX ROI 실패의 구조, 그리고 5%가 다르게 측정하는 법

지난 글에서 나는 '스케일링 격차'를 이야기했다. 88%가 AI를 쓰지만 전사적 재무 성과를 내는 기업은 39%에 불과하다고.

그 글이 나간 뒤, 한 독자분이 이런 질문을 보내왔다.

"격차가 있다는 건 알겠습니다. 그런데 저희 회사에서 AI 프로젝트 성과를 경영진에게 보고하려면, 대체 뭘 어떻게 측정해야 하나요?"

정직하게 말하겠다. 이 질문이야말로 지금 한국 AX 현장에서 가장 많이 던져지면서도, 가장 답을 못 받고 있는 질문이다.

그리고 이 질문에 답을 못 하는 것이, 단순한 '측정 역량 부족'이 아니라 구조적인 실패 패턴이라는 사실을 MIT의 최신 연구가 밝혀냈다.

$350억을 투자하고 95%가 "0"을 돌려받았다

2025년 7월, MIT NANDA 이니셔티브가 발표한 'The GenAI Divide: State of AI in Business 2025'는 AI 업계에 충격파를 던졌다. 52명의 임원 인터뷰, 153명의 리더 설문, 300건의 공개 AI 배포 사례를 분석한 이 연구의 핵심 발견은 이것이다.

미국 기업들이 엔터프라이즈 AI에 350~400억 달러를 투자했지만, 95%의 파일럿이 측정 가능한 P&L 영향을 전혀 만들어내지 못했다.

5%만이 실질적 가치를 창출했다. MIT 연구진은 이것을 'GenAI Divide'라고 불렀다. 높은 도입률과 낮은 전환율 사이의 분열이다.

한국도 예외가 아니다. CIO Korea 조사에서 국내 기업의 생성형 AI 도입 및 활용에 대해 긍정 평가가 58.3%로 나왔지만, 이건 '기대만큼의 성과'라는 느슨한 기준이었다. 클라우데라의 조사에서 한국 IT 리더의 49%가 AI 도구에 대한 비용이 도입을 제약하는 요인이라고 꼽았다. 비용은 느끼는데 수익은 못 느끼는 것이다. 이것이 ROI 문제의 본질이다.

"ROI 실패"가 아니라 "측정 실패"다

MIT 데이터를 보고 'AI는 효과가 없다'고 결론 내리면 큰 오류를 범하는 것이다.

UC Berkeley의 SCET는 MIT 연구에 대한 반론에서 핵심을 정확히 짚었다. "95%의 실패율은 사실상 95%의 조직이 잘못된 것을, 잘못된 시점에, 잘못된 기대로 측정하고 있음을 의미할 수 있다."

이메일이 도입됐을 때 기업들이 즉시 이익 증가를 보지 못했다. 인터넷이 등장했을 때 분기 실적이 바로 개선되지 않았다. 그렇다고 이메일과 인터넷이 'ROI가 없었다'고 말할 사람은 없다. 핵심은 측정 프레임워크 자체를 혁신 기술의 특성에 맞게 진화시켜야 한다는 것이다.

한국 기업 AX ROI의 4가지 측정 함정

함정 1: "파일럿 터널 비전"

한 제조 대기업이 품질 검사에 AI 비전 시스템을 도입했다. PoC에서 불량 탐지 정확도 97%를 달성했다. 보고서에는 '성공'이라고 적혔다. 하지만 이 97% 정확도가 생산 라인의 불량률 감소로, 최종적으로 리턴/클레임 비용 감소로 이어졌는지는 아무도 추적하지 않았다.

MIT 연구가 정확히 이 패턴을 지적한다. 기술적 타당성(feasibility)을 입증하는 것과 사업 가치(business value)를 증명하는 것은 완전히 다른 일이다. AI 모델이 대시보드에 앉아 있는 한, ROI는 0이다.

함정 2: "매출과 비용의 틀에 갇힌 측정"

MIT 연구에서 가장 높은 ROI를 기록한 영역은 세일즈·마케팅이 아니었다. 백오피스 자동화 — BPO 제거, 외부 에이전시 비용 절감, 운영 간소화 — 가 가장 큰 성과를 냈다.

그런데 이런 성과는 대부분 "비용 회피(cost avoidance)"의 형태로 나타난다. 퇴사자의 자리를 AI로 대체해 채용하지 않는 것, 외주를 주지 않게 된 것. 이것들은 '절감'이 아니라 '발생하지 않은 비용'이다. 전통적인 ROI 계산에서는 보이지 않는다.

한국의 보고 문화는 '전년 대비 X% 개선' 같은 명시적 숫자를 선호한다. '발생하지 않았을 비용'은 보고서에 쓰기 어렵다. 결국 AI가 실질적 가치를 창출하고 있어도, 보고 체계가 그것을 포착하지 못한다.

함정 3: "6개월 안에 증명하라"

MIT 연구에서 대부분의 실패가 발생한 곳은 '전사적 AI'였다. UC Berkeley는 "6개월 파일럿 연구에서 기업 변혁의 ROI를 기대하는 것은, 장기 투자에서 즉각적 수익을 기대하는 것과 같다"고 지적한다.

IBM CEO 스터디에 따르면, AI 이니셔티브의 약 25%만이 기대한 ROI를 달성하고, 전사적으로 확장한 것은 16%에 불과하다. CEO들은 단기 ROI 압박과 장기 혁신 목표 사이에서 균형을 잡아야 한다고 응답했다.

함정 4: "잘못된 곳에 돈을 쓴다"

MIT 연구의 가장 실용적인 발견이 여기에 있다. 생성형 AI 예산의 50% 이상이 세일즈·마케팅에 투입되고 있지만, 가장 높은 ROI는 백오피스 자동화에서 나온다. 성공적인 기업들은 연간 200만~1,000만 달러 규모의 BPO 비용을 절감했다.

이 불일치가 발생하는 이유는 "가시성 편향"이다. AI 챗봇이 고객 문의에 답하는 장면은 이사회에서 인상적인 데모가 된다. 반면 백오피스의 청구서 매칭 자동화는 눈에 띄지 않는다. 하지만 ROI는 후자에서 나온다.

5%는 무엇을 다르게 하는가: 3-Layer ROI 프레임워크

MIT가 발견한 성공하는 5%의 공통점은 놀라울 정도로 단순하다.

"하나의 페인 포인트를 골라서, 잘 실행하고, 똑똑하게 파트너십을 맺는다."

벤더와의 전략적 파트너십은 67%의 성공률을 보인 반면, 내부 자체 개발은 33%에 그쳤다. 이 5%의 접근법에서 추출한, 한국 기업에 적용 가능한 프레임워크를 제안한다.

Layer 1: 효율 ROI (Efficiency ROI) — 0~6개월

가장 측정하기 쉬운 층위다. 시간 절감, 프로세스 자동화 건수, 직원 1인당 처리량 변화를 추적한다. 핵심은 "절감된 시간이 어디로 갔는가"까지 추적하는 것이다. 주당 10시간을 절감했는데 그 시간이 회의로 채워졌다면, ROI는 0이다.

측정 지표: 업무 처리 시간 변화(Before/After), 자동화율, 인력 재배치 비율, FTE 환산 절감액

Layer 2: 의사결정 ROI (Decision ROI) — 6~18개월

AI가 사람의 판단을 얼마나 개선했는가를 측정한다. 오류율 감소, 의사결정 속도 향상, 고객 만족도 변화, 리스크 조기 탐지 건수. MIT가 말하는 백오피스 ROI의 대부분이 여기서 발생한다.

이 층위의 핵심 기법은 A/B 테스트와 대조군(control group) 설정이다. AI를 쓴 팀과 쓰지 않은 팀의 성과를 비교하는 것이다. 단순하지만 대부분의 한국 기업이 하지 않는 일이다.

측정 지표: 의사결정 정확도 변화, 오류/재작업률 감소, NPS/CSAT 변화, 컴플라이언스 위반 건수 변화

Layer 3: 전환 ROI (Transformation ROI) — 18개월 이상

가장 측정하기 어렵지만 가장 가치가 큰 층위다. AI가 새로운 매출 기회를 만들었는가, 비즈니스 모델을 변화시켰는가를 본다. 맥킨지 하이퍼포머의 절반이 '매출 성장 기회 창출'을, 43%가 '비즈니스 모델 재구상'을 AI 목표로 설정한다.

측정 지표: AI 기반 신규 매출 비중, 시장 진입 속도 변화, 고객 획득 비용(CAC) 변화, 출시 사이클 단축률

측정을 시작하기 전에 해야 할 가장 중요한 일

프레임워크보다 중요한 것이 있다. 베이스라인(baseline) 설정이다.

AI 도입 전의 상태를 수치로 기록해두지 않으면, 도입 후에 무엇이 달라졌는지 증명할 방법이 없다. 놀랍도록 많은 한국 기업이 이 단계를 건너뛴다. '빨리 시작하자'는 압박 때문이다.

베이스라인은 거창할 필요가 없다. AI를 적용할 업무의 현재 소요 시간, 오류율, 비용, 고객 만족도를 한 달만 기록하면 된다. 이 한 달의 투자가 이후 2년간의 ROI 논의를 결정한다.

"ROI를 증명하라"에서 "ROI를 설계하라"로

대부분의 AX 프로젝트는 '먼저 도입하고, 나중에 ROI를 증명하자'는 순서로 진행된다. 이것이 95% 실패의 근본 원인이다. 순서가 반대여야 한다. "먼저 ROI를 설계하고, 그 설계에 맞춰 도입하자."

구체적으로는 이런 질문에서 시작해야 한다.

"이 AI 프로젝트가 성공하면, 12개월 뒤 어떤 숫자가 어떻게 바뀌어 있을 것인가?"

이 질문에 명확하게 답할 수 없다면, 프로젝트를 시작하지 말아야 한다. 답할 수 있다면, 그 숫자가 바로 여러분의 KPI다.

다음 분기 보고에 쓸 수 있는 체크리스트

이 글의 내용을 실행으로 옮기기 위해, 바로 적용할 수 있는 5개 질문을 정리한다.

1. 베이스라인이 있는가?

AI 도입 전 상태의 수치 기록이 존재하는가?

2. '기술 지표'와 '사업 지표'가 분리되어 있는가?

모델 정확도 97%는 기술 지표다. 불량률 X% 감소는 사업 지표다. 보고서에 후자가 있는가?

3. '회피 비용'을 계산하고 있는가?

채용하지 않아도 된 인원, 외주를 주지 않게 된 업무의 가치를 산출하고 있는가?

4. 대조군이 존재하는가?

AI를 쓴 팀과 쓰지 않은 팀의 성과를 비교할 수 있는 구조가 있는가?

5. 절감된 시간의 행선지를 추적하는가?

AI로 주당 10시간을 절감했다면, 그 10시간이 어디로 갔는지 알고 있는가?

5개 질문 중 3개 이상에 '아니오'라면, 여러분의 조직은 ROI 측정 이전에 측정 인프라부터 구축해야 한다. 그리고 이 인프라 구축에는 비싼 툴이 필요 없다. 스프레드시트 하나면 된다. 필요한 것은 도구가 아니라 습관이다.

이 글은 [글로벌 AX 인사이트 × 한국 해석] 시리즈의 두 번째 글입니다.

매주 글로벌 주요 리포트의 핵심 인사이트를 한국 기업 맥락에서 재해석하여, 실행 가능한 AX 전략으로 전환하는 콘텐츠를 제공합니다.

다음 글: "AX 변화관리의 숨겨진 변수 — 한국 조직문화에서 AI 확산이 막히는 진짜 이유"

 

참고 자료

  • MIT NANDA Initiative, "The GenAI Divide: State of AI in Business 2025" (Jul 2025)
  • UC Berkeley SCET, "Beyond ROI: Are We Using the Wrong Metric in Measuring AI Success?" (Sep 2025)
  • McKinsey, "The State of AI in 2025" (Nov 2025)
  • CIO Korea, "2026 IT 전망 조사 결과" (Jan 2026)
  • IBM, "How to maximize AI ROI in 2026" (Feb 2026)
  • Gartner, Enterprise AI Investment Forecast 2025
  • KPMG, AI ROI Investor Pressure Research Q1 2025