학술 논문이 AI 모델의 연료가 된다: 저작권 및 보상에 대한 논란의 증가
최근 동향에 따르면, 학술 출판사들은 연구 논문에 대한 접근을 주요 기술 회사에 판매하기 시작했습니다. 이들 기술 회사는 이 논문들을 사용하여 큰 AI 모델을 훈련하고 있습니다. 이와 같은 관행은 연구자들 사이에서 우려를 불러일으켰고, 그들의 작업이 이와 같이 활용되는 것에 대해 상담을 받지 못했습니다. 영국 출판사인 테일러 앤 프랜시스가 마이크로소프트와 맺은 1천만 달러 계약, 그리고 미국 출판사 와일리가 익명의 기술 회사와 맺은 2천3백만 달러 계약과 같은 주요 거래는 이러한 추세를 강조합니다. 연구 논문, 특히 유료 벽 뒤에 있는 논문들이 AI 개발자들이 채팅 GPT와 같은 모델을 훈련하기 위해 고품질 데이터를 찾는 과정에서 점점 더 많이 사용되고 있습니다.
전문가들은 온라인에서 이용 가능한 거의 모든 콘텐츠가 AI 모델 훈련에 사용되었을 가능성이 있다고 제안합니다. 한 번 논문이 모델의 훈련 데이터에 포함되면 이를 제거할 방법이 없어, 무단 사용 및 저작권 침해에 대한 우려가 커집니다. 특히 학술 논문은 정보 밀도가 높아 훈련에 높은 가치가 있기 때문에 법적 및 윤리적 함의에 대한 논의가 여전히 진행 중입니다.
주요 포인트
- 동의 없는 연구 논문의 사용: 학술 출판사들이 저자에게 상담 없이 AI 훈련을 위한 연구 논문을 기술 회사에 판매하고 있어 윤리적, 법적 문제가 제기되고 있습니다.
- 고가치 콘텐츠: 연구 논문은 길이와 정보 밀도 덕분에 AI 훈련에 소중하게 여겨지며, 전문 분야에서 보다 정확한 모델로 발전하는 데 기여합니다.
- 거래는 증가하는 추세를 강조: 테일러 앤 프랜시스의 마이크로소프트와의 1천만 달러 계약 및 와일리의 기술 회사와의 2천3백만 달러 거래와 같은 재정 거래는 학술 데이터 시장의 성장세를 보여줍니다.
- 법적 및 윤리적 논쟁: 저작권이 있는 연구 논문을 AI 훈련에 사용하는 것이 합법인지 여부는 불확실하며, 저자 보상을 명확히 하기 위한 소송 및 요구가 이어지고 있습니다.
심층 분석
학술 논문을 AI 모델 훈련에 사용하는 것은 정확하고 상세한 응답을 생성할 수 있는 고급 언어 모델을 개발하는 데 필수적인 심층 지식의 풍부한 자원을 활용합니다. 하지만 이 과정은 종종 원 저자의 직접적인 허가 없이 인터넷에서 막대한 양의 데이터를 긁어 오는 것을 포함합니다. 이로 인해 저작권에 대한 심각한 우려가 제기되고 있습니다.
기술 회사들은 데이터 사용이 저작권법의 보호를 받을 수 있는 변형적 사용에 해당한다고 주장하지만, 비평가들은 보다 명확한 보상 기제가 필요하다고 강조합니다. AI 모델은 단순히 텍스트를 복사하는 것이 아니라, 패턴을 학습하고 이러한 패턴에 기반하여 새로운 콘텐츠를 생성하기 때문에 침해 문제를 복잡하게 만듭니다. The New York Times v. Microsoft 그리고 OpenAI와 같은 법정 사건은 이 문제에 대한 중요한 선례를 설정할 수 있습니다.
연구자들은 또한 훈련 과정의 투명성에 대해 우려하고 있습니다. 많은 AI 기업들은 그들의 데이터 세트를 비밀로 유지하여 특정 논문이 훈련에 사용되었는지 증명하기 어렵게 하고 있습니다. 증거가 확보되었을 때조차도, 예를 들어 멤버십 추론 공격과 같은 경우에는, 연구자들이 어떤 방법으로든 대응할 수 있는지에 대한 질문이 남습니다.
이 논쟁은 합법성을 넘어서 윤리 문제로 확장됩니다. 연구자들은 자신의 작업에 수년간의 노력을 쏟았지만, 인정받지 못하는 채 사용될 수 있는 것을 우려하고 있습니다. 어떤 이들은 AI 발전에 기여할 기회를 환영하지만, 다른 이들은 이러한 관행이 학술 출판 및 연구의 가치를 떨어뜨릴 수 있다고 두려워합니다.
아셨나요?
- AI가 생성한 데이터는 의미 없는 결과를 초래할 수 있다: AI 모델이 다른 AI가 생성한 데이터를 학습하게 되면 결과는 신뢰할 수 없고 종종 의미가 없습니다. 이는 정확한 AI 개발을 위해 학술 논문과 같은 고품질의 원본 데이터 소스의 중요성을 강조합니다.
- 저작권 덫: AI 모델이 특정 콘텐츠에 대한 훈련을 받았는지 감지하기 위해 연구자들은 엉뚱한 문장이나 보이지 않는 텍스트를 작업에 삽입하여 "저작권 덫"을 고안했습니다. 이 덫은 AI 모델이 특정 콘텐츠를 흡수했는지를 감지하는 데 도움을 줍니다.
- 유리한 콘텐츠 거래: 파이낸셜 타임스와 레딧도 AI 훈련을 위한 콘텐츠 제공 거래에 참여하여 데이터 소스 목록에 추가되고 있습니다.
학술 논문 사용에 대한 현재의 논쟁은 기술 혁신과 지적 재산 보호 간의 갈등을 강조합니다. 법적 환경이 발전함에 따라, 연구자들에 대한 공정한 보상과 AI 발전 사이의 균형을 맞추기 위한 전략도 진화할 것입니다.