← 기술
NYT vs. OpenAI: AI는 '이해'하는가, '저장'하는가
기술

NYT vs. OpenAI: AI는 '이해'하는가, '저장'하는가

수십억 달러가 걸린 저작권 소송이 던지는 진짜 질문

2023년의 어느 날, 누군가 ChatGPT에게 이렇게 질문했습니다. “뉴욕타임즈(NYT) 기사의 첫 문단을 알려줘.” 그리고 답이 나오자 다시 물었습니다. “그다음 문장은?” 또 “그다음은?” 그렇게 한 문장씩, ChatGPT는 한 기자가 18개월을 들여 취재한 퓰리쳐 수상 기사를 그대로 출력해냈습니다.

많은 사람은 ChatGPT, Gemini와 같은 생성형 AI가 기존의 데이터를 학습하고, 자신만의 방식으로 생성한다고 믿습니다. 그런데 어떻게 AI가 NYT의 기사를 통째로 암기하고 있을까요? 추론 과정에서 우연히 같은 표현이 나온 것일까요?

이 질문에 수십억 달러가, 그리고 한 회사의 존립이 걸려있습니다. 그리고 첫 판례가 될 소송이 지금 뉴욕에서 진행 중입니다.

소송 개요

2023년 12월, NYT는 OpenAI와 마이크로소프트(Microsoft)를 상대로 뉴욕 남부지방법원에 저작권 침해 소송을 제기했습니다. OpenAI가 NYT의 수백만 건 기사를 허락 없이 학습 데이터에 포함시켰고, 그렇게 학습된 ChatGPT가 원문을 거의 그대로 출력해 뉴스 구독 시장을 잠식하고 있다는 내용입니다.

NYT가 요구하는 것은 두 가지입니다. 하나는 수십억 달러 규모의 손해배상이고, 다른 하나는 자사 저작물로 학습된 모델과 데이터셋의 파기입니다. 후자가 인용된다면 OpenAI는 모델을 사실상 처음부터 다시 만들어야 합니다. 이 사건이 단순한 비용 분쟁을 넘어 회사의 존립을 흔드는 소송으로 여겨지는 배경입니다.

타임라인

2023년 4월 — 물밑 협상: NYT는 OpenAI가 자사의 수십 년 치 기사를 무단으로 AI 학습에 사용한 사실을 발견했습니다. 이에 NYT는 OpenAI와 Microsoft에 문제를 제기하고 협상을 시작했습니다. NYT는 정당한 콘텐츠 사용료를 요구하는 한편, ChatGPT가 자사 기사를 그대로 베껴 출력하지 못하게 하는 기술적 조치를 제안했으나 논의는 끝내 결렬되었습니다.

2023년 12월 — 소송 제기(NYT의 선제공격): 협상이 깨지자 NYT는 저작권 침해 소송을 제기했습니다. 당시 NYT는 OpenAI가 기사를 무단 복제해 뉴스 구독 시장을 잠식하고 있다고 주장했습니다. 이를 입증하기 위해 NYT는 GPT-4에 특정 기사의 다음 문장을 계속 요구했고, 퓰리처상 수상작 등 자사 기사를 토씨 하나 틀리지 않고 그대로 토해낸 100건 이상의 실제 출력 화면을 결정적 증거로 제출했습니다.

2025년 4월 — 각하 신청에 대한 판단(법원의 링 구성): OpenAI는 AI의 학습이 공정 이용에 해당한다며 소송 자체를 무산시키기 위한 기각 신청을 냈습니다. 1년이 넘는 서면 공방 끝에 재판부는 이를 거부하고 저작권 침해라는 핵심 쟁점을 살려 본안 재판을 진행하기로 결정했습니다. 법원이 NYT의 주장과 증거에 타당한 법적 근거가 있다고 1차 판정을 내린 셈입니다. 이 시점에 미국 전역의 유사한 AI 저작권 소송 16건이 하나로 묶이면서, NYT는 원고 측 전체를 대표하는 선봉장이 되었습니다.

2026년 3월 — OpenAI의 반격(프롬프트 전쟁의 서막): 본격적인 재판이 시작되자 OpenAI도 강력한 역공을 펼쳤습니다. NYT가 제출한 기사 복제 증거는 정상적인 사용 결과가 아니라, 시스템의 취약점을 악의적으로 공격해 억지로 짜낸 조작된 버그라는 주장이었습니다. 이를 증명하기 위해 OpenAI는 해당 증거를 추출한 NYT 측 전문가를 직접 조사하겠다고 나서는 한편, 기사를 유도해 내기 위해 입력했던 구체적인 프롬프트(명령어)와 질문 전후의 맥락 데이터를 역으로 제출하라고 요구했습니다.

핵심 쟁점: 가중치는 ‘이해’의 산물인가, ‘저장’의 산물인가

본안 판결은 아직 나오지 않았습니다. 양측은 여전히 증거를 두고 치열하게 다투고 있고, 공정 이용 인정 여부에 대한 최종 판단도 미정입니다. 그러나 법원이 OpenAI에 2,000만 건의 익명화된 ChatGPT 대화 로그를 원고 측에 제출하라고 명령하며 강제 집행에 들어선 시점에서, 이 재판의 진짜 질문이 수면 위로 올라왔습니다.

대형언어모델(LLM)의 가중치(weight)에 담긴 것은 원본 데이터를 이해하고 해체한 결과인가, 아니면 원본 데이터를 다른 형태로 저장한 것에 불과한가?

NYT와 OpenAI는 모델이 학습 데이터를 처리하는 방식을 두 가지 대립된 관점으로 바라보고 있습니다.

OpenAI는 AI가 원본 데이터를 해체한다고 주장합니다. 학습 과정에서 원본 텍스트가 낱낱이 분해되어, 단어와 문장의 통계적 관계만 가중치에 녹아든다는 논리입니다. 마치 수백 권의 요리책을 읽고 난 뒤, 세부 레시피는 기억하지 못하지만 “이 재료 다음에는 저 재료가 온다”는 감각만 남는 것과 유사합니다. 이 경우 AI의 학습 결과인 가중치는 원문의 복제물이 아니라 일종의 추상화된 지식입니다. 그러니 원저작물과는 전혀 다른 형태의 새로운 산출물이며, 이것이 OpenAI가 주장하는 변환적 이용(transformative use)의 논리적 토대입니다.

NYT에서는 AI가 원본 데이터를 저장한다고 주장합니다. 모델이 특정 텍스트를 가중치 어딘가에 거의 원본 그대로 인코딩해 두었다가, 적절한 프롬프트가 주어지면 그것을 토해내는 현상을 지적합니다. 이때 가중치는 데이터베이스의 다른 이름일 뿐이고, 출력은 복제입니다. NYT가 법정에 제출한 100건 이상의 기사 재생성 증거가 바로 이 주장을 뒷받침합니다.

양쪽 다 일리가 있다

문제는 양쪽의 주장이 어느 정도 사실이라는 점입니다.

이미 구글 딥마인드의 Nicholas Carlini 등의 연구(2020)는 학습 데이터에 여러 번 중복 등장한 텍스트일수록 모델이 거의 원문 그대로 기억한다는 사실을 입증했습니다. 웹에 수백 번 복사되어 학습 코퍼스에 반복 등장한 NYT 기사라면, 모델의 가중치 안에서 손실 없이 살아남았을 가능성이 높습니다. 반대로 단 한 번 등장한 문장은 거의 복원되지 않습니다.

최근 프린스턴 대학의 Conklin 등 연구진 역시 2026년 논문에서 이러한 LLM 학습 메커니즘을 손실 압축(lossy compression)으로 설명합니다. MP3가 사람이 듣지 못하는 주파수를 버리고 핵심 정보만 보존하듯, LLM도 학습 데이터에서 다음 단어 예측에 필요한 정보만 보존하고 나머지는 버린다는 접근입니다. 이 관점에서 모델은 원본의 무손실 사본이 아니라, 목적에 맞게 손실된 압축물입니다. 다만 그 손실의 정도가 데이터의 노출 빈도에 따라 균일하지 않을 뿐입니다.

인간에게도 같은 스펙트럼이 있습니다. 수십 번 곱씹어 읽은 시 한 편은 토씨 하나 안 틀리고 암기하지만, 한 번 훑은 뉴스 기사는 요지만 흐릿하게 떠오릅니다. 전자는 저장에 가깝고, 후자는 이해에 가깝습니다. LLM도 이 스펙트럼 위 어딘가에 놓여 있는데, 문제는 어디에 놓이느냐가 데이터마다 다릅니다.

바로 이 기술적 여지가 양측의 싸움터입니다.

NYT의 프레임: 평범한 프롬프트만으로도 기사가 그대로 복제된다. 이는 우발적 사고가 아니라 모델에 구조적으로 내재한 결함이다. 가중치는 NYT 기사를 사실상 저장하고 있고, 따라서 모델은 압축된 복제본이다.

OpenAI의 프레임: NYT가 제출한 증거는 시스템을 의도적으로 조작한 결과다. 수천 번의 시도 끝에 적대적 프롬프트로 억지로 짜낸 예외적 출력이지, 일반 사용자의 정상적 이용에서는 거의 발생하지 않는다. 모델의 본질은 데이터를 해체하고 재구성하는 변환적 도구다.

OpenAI가 NYT에 프롬프트 기록과 맥락 데이터를 역으로 제출하라고 요구한 것도, 법원이 2,000만 건의 실사용 로그 제출을 명령한 것도 같은 지점을 겨냥합니다. 재생성이 일상적으로 흔한 현상인지, 극단적 조건에서만 나타나는 예외인지를 통계로 가리겠다는 의도입니다. 만약 2,000만 건 중 상당수에서 원문 복제가 확인된다면 NYT의 저장 프레임이 강화됩니다. 극소수에 불과하다면 OpenAI의 이해 프레임이 설득력을 얻습니다.

결국 이해냐 저장이냐는 양자택일의 문제가 아닙니다. 하나의 모델 안에서도 데이터에 따라 스펙트럼의 다른 지점에 놓이기 때문입니다. 저작권법이 이 스펙트럼의 어디에 선을 그을 것인가—그것이 이 재판이 던지는 중요한 결론입니다.

앞으로 무엇을 지켜봐야 하는가

소송은 여전히 진행 중이며, 본안 판결까지는 상당한 시간이 걸릴 것으로 보입니다. 다섯 가지 지점을 눈여겨볼 만합니다.

첫째, 2,000만 건의 로그가 드러낼 통계입니다. 재판부는 OpenAI 측의 거부 작전을 기각하고 2,000만 건의 익명화된 ChatGPT 대화 로그를 원고 측에 제출하도록 최종 명령했습니다. 원래 NYT 측은 1억 2,000만 건을 요구했고 OpenAI가 2,000만 건을 역제안했으나, OpenAI는 이후 자사에 유리한 검색 결과만 골라 제출하려 했고 재판부가 이를 거부했습니다. 이 로그 분석에서 재생성의 빈도가 밝혀지면, 저장이냐 이해냐 논쟁의 실증적 근거가 처음으로 법정에 놓이게 됩니다.

둘째, 공정 이용의 네 가지 요건에 대한 법원의 판단입니다. 미국 저작권법 제107조는 공정 이용 여부를 네 가지 기준으로 판단합니다. 그중 이 사건에서 가장 결정적인 것은 이용의 목적과 성격(변환적 이용 여부)과 원저작물 시장에 미치는 영향입니다. NYT는 ChatGPT가 기사를 사실상 대체해 구독 시장을 잠식한다고 주장하고, OpenAI는 검색과 요약이라는 전혀 다른 목적의 변환적 이용이라고 맞섭니다.

셋째, 이미 나온 유사 판결의 파급 효과입니다. 2025년 6월, 캘리포니아 북부지방법원에서 두 건의 중요한 판결이 이틀 간격으로 나왔습니다. Bartz v. Anthropic에서 재판부는 합법적으로 취득한 도서를 LLM 학습에 사용하는 것을 극도로 변환적이라며 공정 이용으로 인정했습니다(다만 해적판 도서의 보관은 침해로 판단). Kadrey v. Meta 역시 학습 자체는 공정 이용이라고 판단했으나, 향후 유사 사건에서 시장 희석 이론이 원고에게 유리하게 작용할 수 있다고 경고했습니다. NYT 사건은 실제 시장 잠식 증거를 제출할 수 있는 위치에 있다는 점에서 이들 판례와 차별화됩니다.

넷째, 최악의 시나리오입니다. 법원이 NYT의 손을 들어주고 학습 데이터셋 파기까지 명한다면, OpenAI는 허락받은 자료만으로 모델을 처음부터 다시 만들어야 합니다. 저작권법상 고의 침해에 대한 법정 손해배상은 저작물 1건당 최대 15만 달러에 달하며, 수백만 건의 기사가 관련된 이 사건에서는 배상 규모가 천문학적으로 불어날 수 있습니다. In re: OpenAI, Inc. Copyright Infringement Litigation (사건번호 1:25-md-03143)은 현재 16건의 소송이 통합된 상태이므로 패소의 파급력은 상당할 것입니다.

다섯째, 합의 가능성입니다. AP통신, 뉴스코프(News Corp), 복스 미디어(Vox Media), 콘데 나스트(Condé Nast) 등 20곳 이상의 언론사가 이미 소송 대신 OpenAI와 콘텐츠 라이선스 계약을 맺었습니다. 뉴스코프의 경우 5년간 2억 5,000만 달러 이상으로 알려져 있습니다. Bartz v. Anthropic도 공정 이용 판결 이후 천문학적 법정 손해배상 가능성을 피하기 위해 합의로 마무리되었습니다. NYT 역시 어느 시점에 판결 대신 협상으로 방향을 틀 수 있으며, 이 경우 업계가 기다려 온 선례적 판결은 나오지 않을 수도 있습니다.

마치며

새로운 기술은 사회에 새로운 쟁점을 등장시킵니다. 갈등이 발생하고, 그 갈등을 해결하기 위해 법은 기술의 본질을 탐구하게 됩니다.

AI가 데이터를 학습한다는 것은 원본을 해체하고 이해하는 일일까요, 아니면 형태만 바꿔 저장하는 일일까요? 같은 모델 안에서도 데이터에 따라 답이 달라진다는 사실이 이 질문을 더욱 어렵게 만듭니다. 법원이 그 스펙트럼의 어디에 선을 그을 것인가에 따라 우리가 앞으로 마주할 AI의 풍경은 사뭇 달라질 것입니다.


참고 자료