알리바바(Alibaba, 阿里巴巴)가 3월 30일 차세대 전모달 인공지능 모델 ‘첸원3.5-옴니(Qwen3.5-Omni, 千问3.5-Omni)’를 공개하며 글로벌 AI 경쟁 구도에 변화를 예고했다. 해당 모델은 음성, 영상, 텍스트를 통합 이해하는 능력을 기반으로 기존 주요 모델 대비 성능 우위를 확보한 것으로 평가된다.
최근 글로벌 AI 시장은 텍스트 중심에서 음성·영상까지 확장된 ‘전모달’ 경쟁으로 빠르게 재편되고 있다. 이러한 흐름 속에서 알리바바가 공개한 첸원3.5-옴니는 단순한 기능 확장이 아닌 구조적 접근 방식의 변화를 제시했다는 점에서 주목된다.

기존 다수의 멀티모달 모델이 음성을 텍스트로 변환한 뒤 처리하는 방식이었다면, 해당 모델은 혼합 어텐션 기반 MoE 구조를 통해 텍스트, 이미지, 음성, 영상 데이터를 통합적으로 학습했다. 이는 1억 시간 이상의 음영상 데이터를 활용한 엔드투엔드 학습 결과로, 장면 이해와 감정 인식, 대화 맥락 파악 능력을 동시에 확보했다는 특징이 있다.
성능 측면에서도 글로벌 경쟁력을 입증했다. 첸원3.5-옴니는 총 215개 외부 평가에서 최고 성능을 의미하는 SOTA를 기록했으며, 특히 음성 인식과 생성 영역에서 구글의 제미니(Gemini) 계열 모델 대비 낮은 오류율과 높은 자연스러움을 보인 것으로 나타났다. 113개 언어 및 방언 인식과 36개 언어 음성 합성 지원 역시 다국어 환경에서의 활용성을 높이는 요소로 평가된다.
주목할 부분은 실시간 상호작용 능력이다. 해당 모델은 사용자 발화 중 실제 명령과 단순 반응을 구분하고, 필요 시 외부 도구를 호출하는 판단 기능을 갖췄다. 이는 단순 응답 생성 단계를 넘어 ‘상황 인지 기반 AI’로 진화하고 있음을 보여준다.
또한 영상 기반 입력을 통한 개발 환경도 변화 가능성을 제시한다. 사용자가 카메라를 통해 아이디어를 설명하면 UI가 포함된 프로토타입 코드가 자동 생성되는 방식은 기존 텍스트 기반 개발 흐름을 단축시키는 요소로 작용할 수 있다. 이는 제품 기획자와 디자이너 중심의 개발 프로세스에도 영향을 미칠 것으로 보인다.
콘텐츠 산업에서의 활용 가능성도 확대되고 있다. 첸원3.5-옴니는 장시간 영상 및 음성을 분석해 장면 분할, 감정 흐름 파악, 타임라인 자동 생성 기능을 수행할 수 있다. 이에 따라 영상 편집, 콘텐츠 검수, 라이브 방송 관리 등 노동 집약적 작업의 자동화가 가능해질 것으로 예상된다.
상업화 전략 역시 시장 확산을 고려한 구조다. 알리바바는 해당 모델을 알리윈 바이롄(Alibaba Cloud Bailian, 阿里云百炼) 플랫폼을 통해 API 형태로 제공하며, 가격 경쟁력을 강조하고 있다. 입력 기준 토큰 비용은 글로벌 경쟁 모델 대비 10분의 1 수준으로 책정된 것으로 알려졌다.
현재 첸원 시리즈는 중국 기업용 AI 시장에서 약 100만 개 이상의 기업 고객을 확보한 상태다. 이는 기술 경쟁뿐 아니라 가격, 접근성, 생태계 전략이 동시에 작용한 결과로 해석된다.
이번 발표는 한국 AI 산업에도 시사점을 제공한다. 그동안 글로벌 시장은 오픈AI(OpenAI)와 구글 중심으로 기술 흐름이 형성돼 왔으나, 알리바바의 사례는 특정 영역에서의 집중적 기술 우위와 가격 전략이 충분한 경쟁력을 가질 수 있음을 보여준다.
향후 AI 시장은 단순 성능 경쟁을 넘어, 특정 산업에 최적화된 활용성과 비용 효율성을 중심으로 재편될 가능성이 높다. 첸원3.5-옴니의 등장은 이러한 변화의 방향성을 보여주는 사례로 평가된다.
[이 기사의 저작권은 이비즈타임즈에 있습니다]
윤교원 대표 / The K Media & Commerce, kyoweon@naver.com


















