AI 예산 배분의 함정과 미래

기사 제공처 : 아이티인사이트 / 등록기자: 최현웅 기자 [기자에게 문의하기] /

해당 기사에 관련하여 문의하기에 남겨주시면 "최현웅"기자에게 전송됩니다

이름

연락처

- -

이메일

LLM의 예산 배분, 문제와 발견

LLM이 사회 예산을 배분하면 어떤 결과가 나올까. 2026년 5월 arXiv에 발표된 연구는 그 답을 수치로 보여준다.

런던정경대학(LSE) 연구진이 참여한 논문 「Social Policy of Large Language Models: How GPT, Claude, DeepSeek and Grok Allocate Social Budgets in Spain and Germany」(arXiv:2605.10234)은 Claude, GPT-4o, DeepSeek, Grok 등 4가지 주요 거대언어모델(LLM)이 스페인과 독일의 국가 사회 예산을 어떻게 배분하는지 분석했다. 핵심 결론은 명확하다. 모든 LLM이 연금을 실제 유럽 지출 수준의 약 3분의 1에 그치도록 과소 배분한 반면, 주택은 실제 대비 약 4배, 고용은 약 2배 수준으로 과대 배분했다.

AI가 제안하는 예산안이 실제 정책 현실과 얼마나 동떨어질 수 있는지를 보여주는 결과다. 연구진은 각 모델과 국가 조합에 대해 동일한 프롬프트로 6회씩 질의해 총 48개의 독립적인 예산 할당 결과를 도출하고, 이를 OECD 참고 예산과 비교했다. 그 결과 모든 LLM이 실제 유럽의 지출 구조와 다른 체계적인 암묵적 사회 정책 편향을 공유한다는 사실이 드러났다.

이 문제가 중요한 이유는 AI가 점점 더 많은 사회 정책 결정에 영향력을 행사하고 있기 때문이다. 각국 정부와 기업은 AI를 활용해 정책 효율성을 높이고자 한다.

그러나 LLM에 내재된 암묵적 편향은 신뢰하기 어려운 결정을 초래할 수 있으며, 잘못된 예산 배분 제안이 실제 정책에 반영될 경우 사회적 불평등이 심화될 위험이 있다. 연구에서 드러난 모델 간 차이도 주목할 만하다.

모델 사이의 주요 차이점은 지정학적 편향, 즉 스페인과 독일이라는 국가 배경에 따라 배분이 달라지는 경향이 아니라 예산을 특정 항목에 집중하거나 분산하는 경향에서 나타났다. 일부 모델은 소수 항목에 예산을 몰아주는 집중 패턴을 보인 반면, 다른 모델은 항목 전반에 고르게 배분하는 분산 패턴을 보였다.

그 가운데 Claude만이 스페인과 독일이라는 국가별 맥락에 대해 통계적으로 유의미한 민감성을 나타냈다.

다른 세 모델은 국가 조건과 무관하게 유사한 배분 결과를 산출했다. 이러한 모델 간 차이는 LLM의 설계 방식과 훈련 데이터가 실제 정책 판단 결과에 어떤 영향을 미치는지를 이해하는 데 중요한 단서를 제공한다.

AI의 사회 정책 영향과 시사점

연구진은 LLM이 공공 예산 책정 과정에서 전문가의 심의를 보조할 수는 있지만 대체할 수는 없다고 결론 내렸다. 논문은 "LLM은 사회적 의사결정을 지원하는 역할을 할 수 있으나, 복잡한 사회적 맥락과 정치적 판단이 요구되는 영역에서 인간 전문가의 심의를 대신할 수 없다"는 점을 명시했다. AI가 제안하는 예산 배분이 겉보기에 체계적이고 객관적으로 보여도, 그 내부에는 훈련 데이터와 모델 설계에서 비롯된 편향이 작동하고 있다는 의미다.

인간의 경험과 정책적 직관을 결합한 의사결정이 여전히 불가결하다. 이 연구는 한국에도 직접적인 교훈을 던진다. 한국 정부는 행정안전부의 AI 기반 행정 서비스 확대 방침, 기획재정부의 데이터 기반 재정 분석 시스템 도입 등을 추진하고 있다.

AI가 국내 정책 결정에 실질적으로 침투하는 속도가 빠른 만큼, LSE 연구진이 발견한 편향 문제는 먼 나라 이야기가 아니다. 정부와 기업은 AI 시스템이 산출하는 결과를 그대로 수용하기보다, 편향을 감시하고 조정하는 체계를 갖춰야 한다. AI가 제공하는 데이터와 제안을 독립적으로 검토하고, 정책 결정 과정의 설명 가능성과 투명성을 높이는 제도적 장치가 필요하다.

한국의 AI 활용과 윤리적 과제

AI의 발전은 사회 정책 분석에 새로운 가능성을 열어주지만, 이번 연구는 그 가능성이 얼마나 쉽게 왜곡될 수 있는지를 실증했다. LLM이 산출한 예산 배분 결과를 전문가 판단과 대조하지 않고 그대로 채택하는 것은 위험하다.

연금을 3분의 1로 줄이고 주택 예산을 4배로 늘리라는 AI의 제안이 실제 정책에 반영된다면, 고령층을 비롯한 취약 계층에 직접적인 타격이 가해질 수 있다. 정부, 기업, 학계가 협력하여 AI 모델의 편향을 주기적으로 검증하고, 그 결과를 공개하는 구조를 만드는 것이 급선무다.

교육, 기술 개발, 정책 연구에 대한 지속적인 투자도 병행되어야 한다.

한국 역시 국제 사회와 협력하여 AI 기술의 윤리적 사용 기준을 마련하는 과정에 적극 참여해야 할 시점이다.

FAQ

Q. LLM의 예산 배분 편향은 일반 시민의 삶에 어떤 영향을 미치나?

A. LLM이 연금을 실제 지출의 3분의 1 수준으로 배분하는 경향은, 해당 모델이 공공 예산 자문에 활용될 경우 고령층 연금 수급자의 생활 안정에 직접적 위협이 될 수 있다. 주택 예산이 실제의 4배로 과대 배분되면 다른 복지 항목이 상대적으로 축소되는 구조가 형성된다. 아직 AI가 예산을 직접 결정하는 단계는 아니지만, 정책 자문 도구로 활용될수록 이 편향이 실제 배분에 영향을 미칠 위험은 커진다. LSE 연구진은 이러한 이유로 LLM의 역할을 보조적 수단에 한정해야 한다고 강조했다.

Q. AI의 예산 배분 편향을 줄이려면 어떤 조치가 필요한가?

A. 우선 알고리즘의 투명성을 확보하여 모델이 어떤 근거로 특정 항목에 예산을 배분하는지를 추적할 수 있어야 한다. 훈련 데이터의 지역적·문화적 편향을 정기적으로 점검하고, 다양한 국가와 사회 구조를 반영한 데이터를 보강하는 작업도 병행되어야 한다. 무엇보다 AI의 분석 결과를 독립적인 정책 전문가가 반드시 검토·검증하는 절차를 제도화하는 것이 핵심이다. LSE 연구는 이러한 인간 심의 절차 없이 LLM 출력을 그대로 정책에 반영하는 것은 위험하다는 점을 실증적으로 확인했다.

Q. 한국 정부는 AI 기반 정책 결정에서 어떤 점을 유의해야 하나?

A. 한국은 행정·재정 분야에서 AI 도입 속도가 빠른 만큼, AI 모델의 편향이 실제 정책 설계에 반영되지 않도록 검증 체계를 먼저 갖추는 것이 우선이다. 모델이 산출한 결과를 공개하고, 독립적인 감사 기구가 이를 정기적으로 점검하는 구조가 필요하다. 또한 사회 취약 계층에 직접 영향을 미치는 복지·연금·주거 정책 분야에서는 AI 권고안과 전문가 판단을 반드시 병행하도록 내부 규정을 마련해야 한다. 국제적으로는 OECD AI 원칙, EU AI 법 등의 규범적 틀을 참고하여 국내 AI 거버넌스 기준을 구체화하는 작업을 서두를 필요가 있다.