google.com, pub-9005101102414487, DIRECT, f08c47fec0942fa0

‘눈으로 보고, 글자로 계산하는’ 신개념 추론 방식으로 AGI에 한 발 더 다가선 연구

시각적 직관과 언어 논리를 결합한 AI의 신개념 추론 방식

ARC-AGI 난제를 푼 새로운 접근

작은 모델이 대형 AI 성능 앞서는 역전 현상까지 확인된 연구 결과

이미지=제미나이 생성, AI 사고 능력 검증

 

 

인공지능이 인간처럼 사고하려면 무엇이 필요한가를 둘러싼 논의는 오랫동안 이어져 왔다. 최근 홍콩중문대와 상하이 AI 연구기관 공동 연구팀이 그 해답에 한 걸음 더 다가섰다는 평가가 나온다. 연구팀은 시각 정보와 텍스트 정보를 단계별로 결합하는 새로운 방식으로 AI의 논리 추론 능력을 끌어올리는 데 성공했다. 그 실험 무대는 AI 사고 능력을 검증하는 대표 과제인 ARC-AGI였다.

 

ARC-AGI란 무엇인가?

 

ARC-AGI는 인공지능이 최소한의 예시를 통해 추상적인 규칙을 추론하고 일반화하는 능력을 측정하기 위해 2019년에 개발된 벤치마크입니다. '인간에게는 쉬우나 AI에게는 어려운' 과제를 통해 인공지능의 유동 지능(fluid intelligence), 즉 새로운 상황에 적응하고 문제를 해결하는 능력을 평가합니다. 이는 좁은 범위의 작업만 수행할 수 있는 기존 AI와 달리, 인간 수준의 인지 능력을 갖춘 범용 인공지능(AGI)의 가능성을 가늠하는 데 목적이 있습니다.

 

인간의 뇌는 일반 지능을 증명하는 유일한 존재 증거입니다. 뇌가 지닌 지능적 특성을 파악하는 것은 AI 벤치마킹에 중요한 방향입니다. 일반 지능과 좁은 지능을 구분하는 핵심 요소를 직접적으로 파악하기 때문입니다.

 

ARC-AGI는 2019년 프랑수아 숄레가 설계한 평가 체계로, 소수의 예시만으로 규칙을 파악한 뒤 이를 새로운 문제에 적용하는 과정을 묻는 과제입니다. 인간은 97% 이상 정답에 접근하지만 최신 AI 모델조차도 절반가량의 문제를 틀릴 만큼 난이도가 높았다. 그동안 대부분의 연구는 컬러 격자를 숫자 배열 형태로 변환해 언어모델이 읽도록 하는 방식을 사용해 왔다. 그러나 이는 인간이 시각적 패턴을 통해 직감적으로 접근하는 방식과 거리가 있어 규칙 탐지에 제약이 있었다.

 

시각 직관과 언어 논리를 결합한 신개념 추론 방식

 

연구팀은 먼저 단순한 시각 입력 방식으로 실험을 진행했으나 오히려 성능 하락이라는 역설적인 결과와 마주했다. AI는 이미지로 전체 구조는 인식하지만 개별 좌표의 색상을 정확히 구분하는 데 한계가 있었기 때문이다. 반면 숫자 배열은 특정 위치를 정확히 짚기는 쉽지만 패턴의 전체적 흐름을 놓치기 쉬웠다. 시각과 언어가 서로 다른 강점을 지닌 셈이다.

 

그 차이를 확인한 연구팀은 두 단계를 구분하는 방식의 ‘VLSR(Visual-Language Synergy Reasoning)’을 고안했다. 규칙을 찾는 과정에는 이미지 입력을 활용해 전체 구조를 직관적으로 파악하게 하고, 규칙을 실제로 적용해 변형 작업을 수행할 때는 숫자 리스트로 전환해 정확한 연산이 가능하도록 한 것이다. 말 그대로 ‘눈으로 보고, 글자로 계산하는’ 방식이다.

 

여기에서 한 걸음 더 나아간 ‘MSSC(Modality Switch Self-Correction)’는 자기 검증 단계에서도 입력 형태를 바꿔 오류를 발견하는 기법이다. 언어로 계산한 답안을 이미지로 변환해 예시들과 비교하면 기존 텍스트 기반 검토에서는 놓친 공간적 실수를 더 쉽게 잡아낼 수 있었다. GPT-4o의 경우 반복 검토에도 0.5점 오르는 데 그친 기존 방식과 달리, MSSC 적용 시 3.75점 상승이 확인되며 효과가 두드러졌다.

 

ARC-AGI 난제를 푼 새로운 접근

 

이 새로운 접근은 주요 AI 모델들의 ARC-AGI 성적을 고르게 끌어올렸다. 구글 Gemini-2.5-Pro는 7.25%포인트, OpenAI o4-mini는 4.5%포인트 상승했고, GPT-4o와 Qwen3-VL 등에서도 평균 4%포인트 이상 개선이 나타났다. 특히 주목할 점은 작은 규모의 모델이 대형 모델을 뛰어넘는 결과가 실제로 발생했다는 것이다. 연구팀이 시각·언어 역할을 분리한 소형 모델 Qwen3-8B를 학습시킨 결과, 정답률이 13.25%에 도달해 GPT-4o보다 5%포인트 높은 수치를 기록했다.

 

연구진은 이번 성과가 AI가 인간적 사고에 접근하는 데 필요한 핵심 단서를 제공한다고 설명한다. 인간이 시각으로 전체의 구조를 직감적으로 파악하고 언어적 사고로 세부 판단을 정교하게 다듬는 것처럼, 두 정보 체계를 조합하는 방식이 AI 추론 능력을 확장할 수 있다는 것이다. 단일 입력 방식에 의존하는 기존 접근이 놓친 사고 과정의 본질을 재조명한 셈이다.

 

이번 연구는 단순한 성능 개선을 넘어 ‘언어 모델 중심’으로 흐르던 AI 연구의 균형을 시각적 인지와 추론 과정 쪽으로 돌려놓았다는 점에서도 의미가 크다. 다양한 입력 양식을 유기적으로 결합하는 전략이 차세대 AI 발전의 핵심 축이 될 것이라는 전망도 힘을 얻고 있다.

 

작은 모델이 대형 AI 성능 앞서는 역전 현상까지 확인된 연구 결과

 

이번 연구는 이미지 기반 직관과 텍스트 기반 계산을 분리·결합하는 방식으로 AI의 논리 추론 수준을 실질적으로 끌어올렸다. 특히 소형 모델의 성능을 대형 모델보다 앞서게 만드는 결과가 확인되며 새로운 AI 학습 패러다임의 가능성을 보여준다.

 

인간의 사고방식을 모사하려면 단일 정보가 아닌 다양한 인지 방식을 통합적으로 활용해야 한다는 사실이 재확인됐다. 이 연구는 AI가 복잡한 문제를 해결하는 과정에서 어떤 방식으로 정보 구조를 처리해야 하는지 분명한 방향을 제시한 사례로 평가된다.

 

 

명인자 칼럼리스트 기자 88hagee@gmail.com
작성 2025.11.28 10:46 수정 2025.11.28 10:46

RSS피드 기사제공처 : AI지구백과저널 / 등록기자: 명인자 칼럼리스트 무단 전재 및 재배포금지

해당기사의 문의는 기사제공처에게 문의

댓글 0개 (/ 페이지)
댓글등록- 개인정보를 유출하는 글의 게시를 삼가주세요.
등록된 댓글이 없습니다.
Shorts NEWS 더보기
경기도 노동 정책 혁신
2026년, 카톡이 당신의 비서가 됩니다
팔당호에서 이거 하면 은팔찌?
은혜는 “갚아야 하는 빚”인가?#은혜 #은혜오해 #일상신학연구소 #신학쇼..
업무가 진행 중인데도#AI로1시간절약 #주간보고 #업무정리 #업무자동화 ..
“감정이 많다”가 감점이 되는 순간#콩쿠르비하인드 #입시비하인드 #감정표..
올바른 다이어트 방법 ③#걷기루틴#걷기운동#운동다이어트#건강한감량#다이어..
창세기 1장 10절 묵상#창세기1장10절#땅이라칭하시고#바다라칭하시니#이..
‘국민배우’ 안성기를 앗아간 식탁 위 비극, 기도 폐쇄 사고가 남긴 뼈아..
분노가 터질 것 같을 때, 성경은 이렇게 말한다분노가#성경이말한다 #야고..
설문을 받고도 “그래서 뭘 고쳐야 하지?”가#AI로1시간절약 #설문분석 ..
‘소리가 예쁜데’ 점수가 안 나오는 이유#콩쿠르비하인드 #입시비하인드 #..
올바른 다이어트 방법 ②#단백질식단#접시구성#식단관리#다이어트방법#건강한..
전도서 1장 6절 묵상#전도서1장6절#바람과마음#흔들림속중심#말씀위에서기..
무궁화신문) 예수그리도. 세계칭찬주인공 및 대한민국칭찬주인공으로 선정하..
부동산 퇴로 없는 잔혹사. 5월9일 다주택자 비명
설원 위의 제2의 김연아? ‘여고생 보더’ 유승은, 세계를 홀린 은빛 비..
불안이 올라올 때, 성경은 이렇게 말한다#성경이말한다 #이사야41장10절..
은혜는 ‘감동’인가?#은혜 #은혜오해 #일상신학연구소 #신학쇼츠 #말씀적..
자료 조사를 해 놓고도 결론이 흐릿하면#AI로1시간절약 #자료조사 #비교..
콩쿠르에서 ‘안전한 연주’가 밀리는 이유#콩쿠르비하인드 #입시비하인드 #..
올바른 다이어트1#식사시간#식단관리#다이어트방법#건강한감량#다이어트오해
전도서1장5절 묵상#전도서1장5절#반복되는하루#시간의흐름#돌고도는인생#동..
"양도세 유예 없다" 확정에 서울 아파트 매물 급증... 강남권 급매물 ..
긴 글 읽다가 “그래서 핵심이 뭐야?”#AI로1시간절약 #문서요약 #핵심..
긴장을 없애려 할수록 더 흔들리는 이유#콩쿠르비하인드 #입시비하인드 #무..
서울뷰티허브 2026 참여기업 100곳 모집… K-뷰티 수출 올인원 지원..
같은 곡인데, 왜 누구는 붙고 누구는 떨어질까#콩쿠르비하인드 #입시비하인..
유튜브 NEWS 더보기

영원과 시간이 만나는 단 하나의 신비로운 교차점 - 웨스트민스터 소요리문답으로 읽는 현대 사회(21)

신의 구제 금융, 은혜언약의 이해 - 웨스트민스터 소요리문답으로 읽는 현대 사회(20)

유배된 생명이 겪어야 할 존재론적 망명 생활 - 웨스트민스터 소요리문답으로 읽는 현대 사회(19)

평택 진위 쌍용 대단지, 평당 900만원대 마지막 선택의 시간

겹겹이 쌓인 영혼의 결함과 일상의 일탈 - 웨스트민스터 소요리문답으로 읽는 현대 사회(18)

낙원을 잃어버린 인류가 마주한 두 개의 그림자 - 웨스트민스터 소요리문답으로 읽는 현대 사회(17)

당신의 운명이 태어나기 전에 결정된 이유 - 웨스트민스터 소요리문답으로 읽는 현대 사회(16)

2월8일방송 아주특별한 하나님과의 인터뷰(3) 기도에 대하여 질문7가지

단 한 입의 열매가 무너뜨린 인류의 낙원 - 웨스트민스터 소요리문답으로 읽는 현대 사회(15)

과녁을 빗나간 화살과 선을 넘어버린 발걸음 - 웨스트민스터 소요리문답으로 읽는 현대 사회(14)

AI 시대에 살아남기

[속보]트럼프,약값 잡았다! 위고비 20만원대 충격인하

자유라는 이름의 양날의 검이 빚어낸 거대한 비극 - 웨스트민스터 소요리문답으로 읽는 현대 사회(13)

말보다 라인으로 신뢰를 쌓는 벨루나뷰티

인간을 파트너로 격상시킨 신의 파격적 계약 조건 - 웨스트민스터 소요리문답으로 읽는 현대 사회(12)

모든 우연을 필연으로 만드는 거대한 신의 경영학 - 웨스트민스터 소요리문답으로 읽는 현대 사회(11)

AI도 복제할 수 없는 신성한 설계도 - 웨스트민스터 소요리문답으로 읽는 현대 사회(10)

공허한 무의 공간에 채워진 존재의 찬란함 - 웨스트민스터 소요리문답으로 읽는 현대 사회(9)

우리가 지금 이들을 만나야 하는 이유 #관세협상

설계도를 현실로 만드는 보이지 않는 손 - 웨스트민스터 소요리문답으로 읽는 현대 사회(8)