"글자부터 영상까지 한 뇌로 처리"… 서울대, '신경망 통합' 차세대 옴니모달 AI 세계 최초 공개

기사 제공처 : AI지구백과저널 / 등록기자: 명인자 수석 기자 [기자에게 문의하기] /

해당 기사에 관련하여 문의하기에 남겨주시면 "명인자 수석"기자에게 전송됩니다

이름

연락처

- -

이메일

서울대학교 공과대학 전기정보공학부의 도재영 교수 연구팀(AIDAS 연구실)이 인공지능 역사에 새로운 이정표를 세웠다. 텍스트와 이미지, 영상, 음향 등 인간이 느끼는 다양한 감각 정보를 단일 모델 안에서 완벽하게 융합하고 생성할 수 있는 옴니모달(Omnimodal) 파운데이션 모델인 ‘다이닌 옴니(Dynin-Omni)’를 세계 최초로 상용화 수준으로 개발하는 데 성공했다.

'따로 노는 AI' 시대 종말… 하나의 뇌로 보고 듣고 만든다

현존하는 대다수 AI 시스템은 텍스트를 처리하는 모델과 이미지를 생성하는 모델을 물리적으로 연결한 구조에 그쳤다. 이로 인해 정보를 처리하는 과정에서 병목 현상이 발생하거나, 유기적인 상호작용이 어렵다는 고질적인 문제가 존재했다. 특히 챗GPT와 같은 기존 모델들은 데이터를 순차적으로 생성하는 방식을 취하고 있어 대용량 멀티미디어 정보를 실시간으로 처리하기에는 역부족이었다.

도재영 교수팀이 선보인 ‘다이닌 옴니’는 이러한 기술적 장벽을 완전히 허물었다. 모든 유형의 정보를 동일한 차원에서 통합 처리하는 혁신적 설계를 통해, 외부 데이터를 변환하는 군더더기 과정을 삭제했다. 이는 마치 인간의 뇌가 시각과 청각 정보를 동시에 수용하여 즉각적인 판단을 내리는 것과 흡사한 원리다.

디퓨전 방식 도입으로 속도와 품질 '두 마리 토끼' 잡았다

기술적 핵심은 결과물 전체를 한 번에 구성한 뒤 세부 완성도를 높여가는 '디퓨전(Diffusion)' 메커니즘의 적용이다. 단어를 하나씩 이어 붙이는 기존 방식과 달리, 영상이나 음향의 전체적인 윤곽을 동시에 그려내기 때문에 생성 효율이 극대화된다. 실제로 다이닌 옴니는 기존 통합 AI 모델들과 비교했을 때 최소 4배에서 최대 5배에 달하는 압도적인 생성 속도를 기록하며 산업계의 이목을 집중시키고 있다.

성능 지표에서도 다이닌 옴니의 우수성은 입증되었다. 총 19개 항목에 걸친 글로벌 AI 성능 테스트(벤치마크)에서 정보 추론, 영상 분석, 이미지 정밀 편집 등 전 분야에 걸쳐 기존 모델을 압도하는 성적을 거뒀다. 특정 기능에 특화된 전용 AI와 비교해도 대등하거나 오히려 앞선 지표를 보여주며 '통합 모델은 개별 모델보다 약하다'는 편견을 정면으로 돌파했다.

화면 밖으로 나온 AI, '피지컬 AI' 시대를 이끈다

이번 연구의 가장 큰 기대 효과는 실제 물리적 공간에서 작동하는 ‘피지컬 AI(Physical AI)’의 가속화다. 다이닌 옴니는 단일 모델 구조이기 때문에 로봇이나 스마트 기기에 탑재했을 때 매우 가볍고 빠르게 작동한다. 복잡한 모델 재구성 없이도 의료 현장, 스마트 팩토리, 자율주행 등 다양한 환경에 즉각 투입할 수 있는 범용성을 갖췄다.

도재영 교수는 "이번 성과는 인공지능이 정보를 단순히 읽고 쓰는 단계를 넘어, 오감을 하나로 통합해 인간처럼 반응할 수 있는 가능성을 증명한 것"이라며, "향후 이 모델을 로봇의 두뇌로 확장하여 현실의 난제를 해결하는 '다이닌 로보틱스(Dynin-Robotics)' 연구에 박차를 가하겠다"고 포부를 밝혔다.

대한민국 연구진의 손으로 탄생한 다이닌 옴니는 글로벌 AI 패권이 대학의 혁신 연구로 이동하는 흐름 속에서 한국의 기술 주권을 확보하는 핵심 자산이 될 전망이다. 연구팀은 향후 국내 연구 생태계와 협업하여 다이닌 옴니 시리즈의 정밀도를 높이고, 전 세계가 주목하는 독보적인 옴니모달 AI 기술력을 공고히 할 계획이다.

서울대 도재영 교수팀이 글자, 이미지, 영상, 소리를 동시에 이해하고 생성하는 통합 모델 ‘다이닌 옴니’를 세계 최초로 개발함.
5배 빠른 생성 속도와 단일 구조의 효율성을 바탕으로 로봇 및 지능형 가전에 탑재되어 인간과 실시간으로 소통하는 '피지컬 AI' 상용화를 앞당길 것으로 보인다. 다이닌 옴니의 등장은 AI가 더 이상 모니터 속 데이터에 머물지 않고, 인간의 물리적 삶 속으로 깊숙이 들어오는 '진정한 통합 지능'의 서막을 알리는 사건이다.