[Pocus 기획] 내 사진도 인공지능 학습 데이터로? 와이어스톡의 새로운 실험

기사 제공처 : The Imaginary Pocus / 등록기자: 최은영 기자 [기자에게 문의하기] /

해당 기사에 관련하여 문의하기에 남겨주시면 "최은영"기자에게 전송됩니다

이름

연락처

- -

이메일

무단 수집의 대안, 동의 기반 인공지능 학습 데이터 시장의 부상
인공지능 모델 학습을 둘러싼 저작권 논쟁이 격화하는 가운데, 창작자의 명시적 동의와 정당한 보상을 전제로 한 데이터 거래 시장이 뚜렷한 상업적 성과를 입증하며 하나의 대안으로 거론되고 있다.

글로벌 크리에이티브 플랫폼 와이어스톡이 최근 2300만 달러 규모의 시리즈 A 투자를 유치한 사실은 이러한 시장 변화의 단서를 제공한다. 기존 인터넷 공간에서 시각 자료를 무단으로 수집하던 방식에서 벗어나, 권리 관계가 명확히 정리된 데이터에 직접 비용을 지불하는 구조가 산업 내에 자리 잡기 시작한 것이다.

2023년을 기점으로 기존 스톡 콘텐츠 유통에서 인공지능 학습용 데이터 공급으로 사업 구조를 전환한 이 기업은 연간 환산 매출 4000만 달러를 기록하며 동의 기반 데이터 시장의 수익성을 보여준다.

현재 전 세계 70만 명 이상의 사진작가, 영상 제작자, 디자이너들이 해당 플랫폼을 통해 시각 자료를 공급하고 있으며, 이들에게 누적 1500만 달러의 수익이 직접 지급되었다. 단순한 윤리적 선언을 넘어, 창작자와 기업 간의 실질적인 거래 생태계가 실제로 작동하고 있음을 확인시켜 주는 객관적 지표다.

**<Creative Trade**> Prompted by The Imaginary Pocus, Generated by ChatGPT

인공지능 연구소와 창작자를 연결하는 정교한 데이터 공급망
이러한 거래 모델이 상업적으로 성립할 수 있었던 배경에는 고품질 데이터에 대한 인공지능 연구소들의 구조적 수요가 존재한다. 거대 기술 기업들은 모델의 성능을 고도화하기 위해 텍스트를 넘어 이미지, 영상, 3D 모델 등 다양한 형태의 정보가 결합된 멀티모달 데이터(여러 형태의 정보가 혼합되어 입력되고 처리되는 데이터)를 필요로 한다.

과거처럼 오락이나 소셜미디어용으로 만들어진 저품질 자료를 무작위로 학습하는 방식은 모델의 인식률과 추론 능력을 향상하는 데 명확한 한계를 드러냈다.

이에 따라 목적에 맞게 사전 기획되고 체계적으로 구조화된 데이터의 가치가 상승했다. 와이어스톡은 창작자들이 작업물을 올리면 이를 인공지능과 인간 전문가가 함께 참여하는 다층 검수 시스템을 통해 꼼꼼하게 평가한다. 높은 밀도의 의미 기반 주석이 달리고 이미지와 텍스트의 일치도가 검증된 양질의 데이터만이 선별되어 공급된다.

기업 입장에서는 학습 수렴 속도를 높이고 오류를 줄이는 안정성을 확보할 수 있기 때문에 높은 비용을 지불하며, 창작자는 자신의 전문성을 활용해 새로운 수익을 창출하는 상호 보완적 구조가 만들어진다.

데이터 거래 방식이 창작 생태계와 산업 전반에 미치는 영향
합법적인 데이터 공급망의 확대는 산업 생태계 전반의 법적 위험 요소를 낮추고 정보 제공자로서 창작자의 역할을 구체화하는 효과를 가져온다.

기반 모델을 개발하는 기업들은 저작권 침해 소송이라는 심각한 재무적 위험을 줄이기 위해 권리 관계가 투명한 데이터를 선호하는 추세다. 현재 대형 모델 제작사 중 6곳이 와이어스톡의 맞춤형 데이터를 공급받고 있다는 사실은 데이터 조달 방식에 대한 산업계의 수요 이동을 직관적으로 보여준다.

창작자 측면에서는 자신이 제공한 자산이 학습 목적으로만 안전하게 사용된다는 법적 보호를 받으면서, 프리랜서 형태의 프로젝트 매칭을 통해 2D 게임 아트나 일러스트레이션 등 다양한 분야에서 역량에 맞는 과제를 수행하게 된다.

기술 발전이 인간의 창작 활동을 위협한다는 기존의 시각에서 한 걸음 나아가, 인간이 정교하게 다듬은 창작물이 인공지능의 세상을 이해하는 교과서로 쓰이며 경제적 보상으로 돌아오는 경험을 제공한다.

향후 이 생태계가 장기적으로 안착하기 위해서는 수익 배분 기준과 합리적인 계약 조건이 지속해서 투명하게 검증되어야 한다. 소수 플랫폼에 창작자들이 종속될 우려는 없는지, 기업의 맞춤형 데이터 요구사항이 창작의 자율성을 간섭하지는 않을지 세밀하게 관찰해야 할 시점이다.

인공지능 기술이 언어를 넘어 시각과 청각 영역으로 뻗어나감에 따라 멀티모달 데이터의 상업적 중요성은 더욱 커질 것이다. 결국 기술의 진보와 창작 생태계의 공존이 유지되려면, 데이터를 수집하고 유통하는 과정 전체를 투명하게 공개하고 창작물의 기여도를 정밀하게 측정하는 산업 표준을 마련하는 데 집중해야 한다.

무단 수집의 관행을 지나 정당한 거래의 제도를 설계하는 과정에서 시장 참여자들의 신중한 접근이 요구된다.

[전문 용어 사전]
▪️멀티모달 데이터(Multimodal Data): 텍스트, 이미지, 오디오, 비디오, 3D 등 다양한 형태와 형식의 정보가 혼합되어 있는 데이터 세트를 의미한다. 인공지능이 인간처럼 복합적인 감각을 통해 상황을 이해하고 학습하는 데 필수적인 요소다.

▪️연간 환산 매출(Annual Run Rate): 현재의 월간 혹은 분기별 매출 실적을 기준으로, 1년 동안 달성할 수 있을 것으로 예상되는 총매출 규모를 환산하여 보여주는 재무 지표다.

▪️기반 모델(Foundation Model): 방대한 양의 데이터를 미리 학습하여 텍스트 생성, 이미지 분석 등 다양한 목적의 다운스트림 응용 서비스에 폭넓게 활용될 수 있는 핵심 대규모 인공지능 모델을 뜻한다.

▪️데이터 큐레이션(Data Curation): 무작위로 수집된 원시 데이터를 인공지능이 학습하기 적합한 형태로 정제, 분류하고 의미 기반 주석을 달아 가치 있는 정보로 가공하는 일련의 작업 과정을 말한다.