
인공지능(AI)이 인간의 지적 산물을 학습하는 단계를 넘어, 특정 조건에서 원문을 그대로 베껴 쓰는 '복사기'로 전락할 수 있다는 충격적인 연구 결과가 잇따르고 있다. 대형언어모델(LLM)이 방대한 데이터를 단순히 통계적으로 처리하는 것이 아니라, 저작권이 있는 문장을 통째로 기억하고 이를 재현한다는 사실이 드러나며 전 세계 콘텐츠 업계가 요동치고 있다.
'암기력' 테스트가 증명한 AI의 두 얼굴
최근 학계와 기술 커뮤니티에서 진행된 이른바 '탈옥(Jailbreak)' 테스트 결과는 가히 파격적이다. AI 모델에 설정된 보안 장치를 우회하는 특수 프롬프트를 주입했을 때, 모델은 자신이 학습한 저작권 도서의 내용을 놀라운 정확도로 쏟아냈다. 특히 세계적인 베스트셀러인 <해리포터와 마법사의 돌>의 경우, 특정 문맥을 제공하자 원문의 70% 이상을 토씨 하나 틀리지 않고 재현해내는 사례가 보고되었다.
기존 AI 기업들은 "모델은 지식을 개념적으로 학습할 뿐, 원문을 저장하지 않는다"라고 공언해왔다. 하지만 반복적인 프롬프트 입력과 접두어 제공 방식을 통해 수천 단어에 달하는 소설 본문이 그대로 출력되는 현상은 이러한 주장의 근거를 약화시킨다. 이는 AI가 단순한 학습 도구를 넘어, 특정 상황에서는 저작물을 무단으로 복제하는 장치로 기능할 수 있음을 시사한다.
'변형적 이용'과 '실질적 유사성' 사이의 외줄타기
법조계에서는 AI의 이러한 재현 능력을 저작권법상의 '표현의 복제'로 간주할 것인지에 대해 치열한 논쟁을 벌이고 있다. 그동안 AI 진영은 기존 데이터를 활용해 새로운 결과물을 만드는 행위가 저작권법상 '변형적 이용'에 해당한다고 주장해왔다. 그러나 출력물이 원문과 70% 이상 일치한다면 이야기는 달라진다. 법원은 학습 과정의 정당성보다 최종 출력물이 원저작물과 가지는 '실질적 유사성'에 더 큰 무게를 둘 가능성이 높기 때문이다.
전문가들은 AI 모델 자체가 일종의 '복제 가능 장치'로 낙인찍힐 경우, AI 산업 전체가 저작권 소송의 늪에 빠질 수 있다고 경고한다. 비록 기억하는 행위 자체가 즉각적인 침해는 아닐지라도, 안전장치가 뚫리는 순간 발생하는 대규모 복제는 명백한 법적 책임 소지가 뒤따른다.
기술적 대안 '언러닝'과 제도적 장치의 필요성
상황이 악화되자 기술적 해결책에 대한 논의도 급물살을 타고 있다. 최근 주목받는 '선택적 언러닝(Unlearning)' 기술은 AI의 전반적인 지능은 유지하면서도, 특정 저작권 데이터에 대한 기억만을 지워버리는 방식이다. 이를 통해 재현율을 획기적으로 낮추려는 시도가 이어지고 있지만, 완벽한 필터링이 가능할지는 미지수다.
또한, 이 문제는 비단 저작권에만 머물지 않는다. AI가 학습 데이터 속에 포함된 개인정보까지 암기하고 재현할 수 있다는 위험성이 제기되면서 개인정보 보호 이슈로까지 전선이 확대되고 있다. 출판사와 작가 등 창작자 그룹은 이미 학습 데이터의 투명한 공개와 정당한 보상을 강력히 요구하고 있으며, 이는 향후 AI 기업들의 비용 구조와 사업 모델에 결정적인 영향을 미칠 것으로 보인다.
결국 AI의 경이로운 기억력은 기술적 진보의 상징인 동시에, 기존의 법적 가이드라인을 전면 재검토하게 만드는 '규제의 방아쇠' 가 되었다. 인류가 쌓아온 지적 재산을 보호하면서도 기술의 혁신을 저해하지 않는 정교한 제도적 설계가 그 어느 때보다 절실한 시점이다.
AI의 암기력은 더 이상 단순한 기술적 흥밋거리가 아니다. 이는 창작 생태계의 존립을 위협할 수 있는 실존적 문제이며, 우리는 이제 '편리한 AI'를 넘어 '책임감 있는 AI'를 위한 법적·윤리적 울타리를 시급히 구축해야 한다.













