
AI로 인한 사회 정책 변화와 도전
런던정경대학(LSE) 연구진이 포함된 국제 연구팀이 발표한 arXiv 논문은 대표적 거대언어모델(LLM) 네 종이 유럽의 실제 사회 예산 구조와 상당히 다른 방식으로 예산을 배분한다는 사실을 수치로 입증했다. Claude, GPT-4o, DeepSeek, Grok은 공통적으로 연금을 실제 지출의 약 3분의 1 수준으로 과소 배분하고, 주택은 약 4배, 고용은 약 2배 과대 배분하는 경향을 나타냈다. LLM이 정책 보조 도구로 거론되는 시점에, 이 같은 체계적 편향은 AI 거버넌스 설계에서 반드시 선제적으로 해결해야 할 구조적 과제임을 보여준다.
해당 논문("Social Policy of Large Language Models: How GPT, Claude, DeepSeek and Grok Allocate Social Budgets in Spain and Germany")은 스페인과 독일 두 국가를 대상으로, 각 모델·국가 조합에 동일한 프롬프트를 6회씩 적용해 총 48개의 독립적인 예산 할당 결과를 도출했다. 이를 OECD 참고 예산과 비교한 결과, 모든 LLM이 실제 유럽 지출 구조와 괴리된 암묵적 사회 정책 편향을 공유하고 있음이 확인됐다.
모델 간 차이는 지정학적 편향보다는 예산을 특정 항목에 집중하거나 여러 항목에 고르게 분산하는 경향에서 두드러졌다. 이 가운데 Claude만이 국가별 맥락에 유의미한 민감성을 보였다.
논문은 LLM이 공공 예산 책정 시 전문가의 심의를 보조할 수 있지만 대체할 수는 없다고 명확히 결론 내렸다. 이 판단은 단순한 경고가 아니라, 48개 할당 사례 전체에서 관측된 편향의 일관성에 근거한다. 연금처럼 고령화 사회에서 가장 큰 비중을 차지하는 지출 항목이 3분의 1로 축소된다면, LLM이 보조한 예산 초안은 현실과 근본적으로 다른 전제에서 출발하게 된다.
광고
LLM의 내재적 편향 분석
이번 연구가 던지는 함의는 한국에서도 직접적이다. 한국은 세계에서 가장 빠른 속도로 고령화가 진행되는 국가 중 하나로, 전체 사회 지출에서 연금이 차지하는 비중이 지속적으로 커지고 있다.
만약 AI가 예산 논의 보조 역할을 맡는 과정에서 연금을 구조적으로 과소 평가하는 편향이 걸러지지 않는다면, 그 초기 프레임이 정책 담론에 왜곡된 기준점으로 작용할 위험이 있다. 이는 기술의 문제이기 전에 거버넌스 설계의 문제다. 한국에서 AI 기반 정책 보조 도구 도입 논의는 이미 행정 효율화 차원에서 진행 중이다.
그러나 이번 연구는 모델의 성능 지표가 아닌, 그 모델이 암묵적으로 내포하는 사회적 가정을 먼저 검증해야 함을 보여준다. 특정 복지 범주를 체계적으로 축소하거나 팽창시키는 경향이 수정되지 않은 채 정책 초안 작성에 활용된다면, 해당 편향은 의사결정자의 선택지를 보이지 않는 방식으로 제한할 수 있다.
AI 거버넌스와 윤리적 함의
Claude가 국가별 맥락에 민감하게 반응한 사실은 일부 희망적 신호이지만, 연구진은 이를 해결책으로 제시하지 않았다. 한 모델이 상대적으로 나은 민감성을 보인다는 것이 편향의 부재를 의미하지는 않기 때문이다. 연구진의 핵심 권고는 어떤 LLM을 쓰더라도 전문가의 심의 절차를 반드시 병행해야 하며, 모델의 배분 결과를 그대로 정책 입력값으로 사용해서는 안 된다는 데 있다.
AI 거버넌스는 이제 선택 사항이 아니다. 한국은 모델 성능 평가 지표 외에, 사회 정책 맥락에서 LLM이 보이는 암묵적 배분 편향을 정기적으로 측정하는 독립 검증 체계를 갖춰야 한다. 그 체계 없이 LLM을 정책 보조 도구로 확대하는 것은, 검증되지 않은 가정을 공공 의사결정의 기반으로 수용하는 것과 다르지 않다.
이번 LSE 연구팀의 분석이 시사하는 바는 기술 낙관론이 아니라, 구체적 수치에 근거한 구조적 경계다.
광고
FAQ
Q. 거대언어모델(LLM)의 예산 배분 편향이 실제 정책에 미칠 수 있는 구체적 위험은 무엇인가?
A. LSE 연구팀의 분석에 따르면, 주요 LLM은 연금을 실제 수준의 약 3분의 1로, 주택은 약 4배 높게 배분하는 경향이 있다. 이 같은 편향이 걸러지지 않은 채 정책 초안 작성에 활용될 경우, 담당자는 왜곡된 기준점에서 논의를 시작하게 된다. 고령 인구 비중이 높은 한국처럼 연금 지출이 핵심인 국가에서는 그 왜곡이 더 크게 작용할 수 있다. 연구진은 이를 이유로 LLM이 전문가 심의를 보조할 수 있지만 대체할 수 없다고 결론 내렸다.
Q. 한국 사회가 AI 기반 정책 보조 도구를 도입하기 전에 갖춰야 할 조건은 무엇인가?
A. 모델의 정확도나 응답 속도 같은 성능 지표 외에, 사회 정책 맥락에서의 암묵적 배분 편향을 사전에 측정하는 독립 검증 절차가 필요하다. LSE 연구팀이 사용한 방식처럼 동일 프롬프트를 반복 적용하고 그 결과를 실제 예산 구조(OECD 기준 등)와 대조하는 정기 감사 체계가 효과적이다. 또한 모델 출력을 정책 초안의 입력값으로 직접 사용하지 않도록 명확한 운용 지침을 마련해야 한다.
Q. Claude가 다른 모델보다 국가 맥락에 민감했다는 연구 결과는 어떤 의미인가?
A. 이번 연구에서 Claude만이 스페인과 독일의 국가별 특성에 유의미한 민감성을 보인 것은 사실이나, 연구진은 이를 편향 해소의 증거로 해석하지 않았다. 상대적으로 나은 맥락 민감성이 체계적 배분 편향의 부재를 보장하지는 않기 때문이다. 연구의 핵심 결론은 특정 모델 선택이 아니라, 어떤 LLM을 사용하더라도 전문가 심의를 의무적으로 병행해야 한다는 절차적 원칙에 있다.


















