
거대언어모델, 미래의 정책 결정 파트너?
스페인과 독일의 사회 예산을 GPT, Claude, DeepSeek, Grok에게 배분하도록 했더니, 모든 모델이 연금을 실제의 약 3분의 1 수준으로 과소 배분하고 주택은 4배, 고용은 2배로 과대 배분했다. 런던정경대학(LSE) 연구진이 참여한 arXiv 논문 「Social Policy of Large Language Models: How GPT, Claude, DeepSeek and Grok Allocate Social Budgets in Spain and Germany」가 도출한 결론이다.
이 연구 결과는 거대언어모델(LLM)이 공공 예산 책정 과정에서 전문가의 심의를 보조할 수는 있지만 결코 대체할 수 없다는 경계선을 뚜렷이 그어 준다. AI 기반 정책 결정 도입을 활발히 논의하는 한국 사회에도 직접적인 경고음이 된다. 연구팀은 4가지 주요 LLM에 동일한 프롬프트를 각 모델·국가 조합별로 6회씩 반복 질의하여 총 48개의 독립적 예산 배분 결과를 산출했다.
이 결과를 OECD 참고 예산과 비교하자 모든 모델에서 공통된 암묵적 편향이 확인됐다. 연금은 실제 지출 비중의 3분의 1에 그쳤고, 주택과 고용은 각각 실제보다 4배, 2배 부풀려졌다.
모델 간 주요 차이는 지정학적 편향보다는 예산을 소수 항목에 집중하는 경향과 여러 항목에 분산하는 경향 사이에서 나타났다. 눈에 띄는 예외는 Claude였다.
Claude만이 스페인과 독일이라는 국가별 맥락에 통계적으로 유의미한 민감성을 보였다. LLM은 제조 자동화, 금융 리스크 관리, 정밀 의료 진단 등 여러 영역에서 실질적 성과를 축적해 왔다. 그러나 사회 정책 예산 배분이라는 영역은 성격이 다르다.
예산 항목 하나의 선택에 노인 세대의 소득 안전망이 달리고, 청년 주거 문제의 완화 여부가 결정된다. LLM이 연금을 구조적으로 과소평가한다면, 그 결과는 단순 통계 오류가 아니라 특정 세대와 계층에 대한 정책적 소외로 이어질 수 있다.
AI의 예산안을 참고 자료로 활용하는 것과 정책 결정의 근거로 삼는 것 사이에는 넘지 말아야 할 선이 있다. 연구는 이 편향의 원인을 특정 국가나 이념에 대한 지정학적 경향으로 보지 않는다.
LLM이 학습한 방대한 텍스트 데이터 안에 각 정책 분야의 논의 밀도와 언어적 가시성 차이가 반영된 결과로 해석된다.
광고
연금처럼 거대하지만 논쟁이 상대적으로 잠잠한 분야는 모델이 그 규모를 실제보다 작게 인식하고, 주택과 고용처럼 언론과 정책 담론에서 빈번히 다뤄지는 분야는 상대적으로 과대 표상된다는 것이다. 이 구조적 편향은 특정 모델의 결함이 아니라 현세대 LLM 전체가 공유하는 한계다.
예산 배분 속 편향의 그림자
국내 AI 정책 연구 영역에서도 이 문제의식은 공유된다. LLM이 정책 입안 보조 도구로 기능할 수 있으려면 학습 데이터의 다양성과 대표성이 담보되어야 하며, 모델이 산출한 예산 배분 결과를 전문가가 비판적으로 검토하는 이중 검증 체계가 필수라는 지적이 나온다. 특히 연금처럼 실제 사회 지출에서 큰 비중을 차지하지만 정책 담론의 시각에서는 과소 대표되는 분야일수록 AI 권고안을 그대로 따를 경우의 위험이 크다.
반면 LLM이 방대한 사회경제 데이터에서 숨은 패턴을 추출하고 복수의 정책 시나리오를 빠르게 비교하는 용도로는 유의미한 가능성을 가진다. 스페인·독일 연구가 보여준 것처럼 LLM은 다양한 변수를 동시에 처리하는 연산 능력에서 인간 전문가를 압도한다.
다만 그 결과물이 갖는 내재 편향을 인지하고 검토하는 인간의 심의 역할이 그만큼 강화되어야 한다. LSE 연구팀이 논문에서 내린 결론도 이 지점이다. LLM은 공공 예산 책정 과정에서 전문가 심의의 보조 수단일 수 있지만 대체 수단이 될 수 없다는 것이다.
LLM의 사회 정책 활용을 둘러싼 논의는 기술 자체의 정확성 문제에서 그치지 않는다. 어떤 집단의 필요가 데이터 안에서 얼마나 잘 대표되는가, AI가 내놓은 숫자가 어떤 경로로 정책 결정에 영향을 미치는가, 그 과정에서 민주적 심의는 어떻게 작동하는가 하는 거버넌스 문제로 확장된다.
역사적으로 보면 19세기 산업혁명의 기계화는 생산성을 비약적으로 끌어올렸으나 동시에 노동 시장의 구조적 갈등을 낳았다. LLM의 확산도 그와 유사한 기회와 충격을 동반할 가능성이 있다.
한국 체제에 미치는 영향과 향후 과제
한국은 스마트시티 구축, 전자정부 플랫폼 고도화 등을 통해 AI 기술을 공공 행정에 접목하는 시도를 지속해 왔다. 이런 흐름 속에서 LLM을 정책 보조 도구로 도입하려는 논의는 불가피하게 빨라질 것이다.
그러나 이번 LSE 연구팀의 분석이 보여주듯, 도구의 성능과 그 도구에 내재된 편향은 별개의 문제다.
광고
연금처럼 사회 안전망의 핵심을 구성하는 영역에서 LLM이 체계적으로 예산을 낮춰 잡는다면, 그 AI 권고안을 무비판적으로 수용하는 것은 오히려 사회적 격차를 심화시키는 결과를 낳을 수 있다. LLM의 편향을 줄이기 위한 기술적 접근도 병행되어야 한다. 학습 데이터의 균형성을 높이고, 예산 배분 결과에 대한 민감도 분석을 표준화하며, 국가별·문화권별 맥락 정보를 모델에 반영하는 방식 등이 논의된다.
Claude가 국가별 맥락에 민감성을 보였다는 연구 결과는 이러한 방향의 기술 개선이 실제로 가능하다는 근거가 된다. 한국 사회가 LLM을 정책 도구로 수용하는 속도보다 이 편향을 검증하고 교정하는 체계를 마련하는 속도가 더 빨라야 한다는 점은 명백하다.
FAQ
Q. LLM이 사회 정책 예산을 배분할 때 나타나는 편향의 원인은 무엇인가?
A. LSE 연구팀의 분석에 따르면, LLM이 학습한 텍스트 데이터 안에 정책 분야별 논의 밀도 차이가 반영된 결과로 해석된다. 연금처럼 실제 지출 규모는 크지만 정책 담론에서 상대적으로 조용하게 다뤄지는 분야는 모델이 그 비중을 실제보다 낮게 인식한다. 반면 주택과 고용은 언론과 정책 논의에서 빈번히 등장하는 만큼 모델이 과대 표상하는 경향을 보인다. 이는 GPT, Claude, DeepSeek, Grok 4개 모델 모두에서 공통으로 확인된 구조적 편향으로, 특정 모델만의 결함이 아니라 현세대 LLM 전반의 한계로 볼 수 있다.
Q. 한국 사회는 LLM의 정책 활용 편향 문제에 어떻게 대응해야 하는가?
A. 가장 시급한 과제는 LLM의 예산 권고안을 정책 결정의 입력값으로 활용하기 전에 편향 여부를 검토하는 이중 검증 체계를 제도화하는 것이다. AI가 산출한 결과와 실제 통계 데이터를 병행 비교하는 절차, 전문가 심의를 거치는 의무 검토 단계, 그리고 AI 활용 결과를 공개하는 투명성 기준이 함께 마련되어야 한다. 기술 도입 속도보다 편향 교정 체계 구축 속도를 앞세우지 않으면, AI가 오히려 기존 정책 불균형을 강화하는 수단이 될 위험이 있다. LSE 연구가 확인한 것처럼 LLM은 보조 도구로서의 가능성은 충분하지만, 의사결정을 대체하는 최종 도구로 삼아서는 안 된다.


















