Авторы научной литературы подают в суд на OpenAI и Microsoft за использование их книг для обучения ChatGPT

27 ноября 2023

ChatGPT и почти все другие подобные ИИ с большой языковой моделью (LLM) для своей работы опираются на огромные массивы данных. Большую часть данных OpenAI черпает из Интернета, но некоторые из них также поступают из таких источников, как нехудожественная литература, и теперь авторы требуют компенсации в новом судебном процессе.

Как сообщает Reuters, автор Джулиан Санктон утверждает, что OpenAI без разрешения скопировал десятки тысяч нехудожественных книг для обучения ChatGPT. Он возглавляет коллективный иск, поданный во вторник в федеральный суд Манхэттена, в котором говорится, что "модели ответчиков были откалиброваны (или "обучены") путем воспроизведения огромного массива материалов, защищенных авторским правом, включая десятки или сотни тысяч нехудожественных книг".

Иск подан в тот момент, когда OpenAI сталкивается с рядом других юридических и внутренних проблем. На компанию уже поданы другие иски, касающиеся частных данных, использования материалов вымышленных писателей и даже таких актеров, как Сара Сильверман. Если этого недостаточно, то в минувшие выходные совет директоров OpenAI уволил своего генерального директора, но затем отказался от этого решения и пообещал набрать новый состав совета.

Этот иск отличается от других тем, что в нем впервые наряду с OpenAI фигурирует компания Microsoft. Microsoft является крупным инвестором в OpenAI, а ее чат Bing, поиск на основе искусственного интеллекта и новая функция Copilot в значительной степени опираются на технологию OpenAI. Это почти что ChatGPT со вкусом Microsoft. В иске утверждается, что Microsoft "глубоко вовлечена" в подготовку ChatGPT, поэтому она также несет ответственность за любые нарушения.

Хотя OpenAI и Microsoft пока не комментируют этот последний иск, OpenAI в прошлом заявляла, что контент, создаваемый ChatGPT, не является "производным произведением" и, следовательно, не нарушает авторских прав.

За последний год произошел взрыв LLM, и многие вопросы, связанные с авторским правом, еще не решены в судах. Возможно, судебные иски ни к чему не приведут или заставят изменить порядок выплаты авторам LLM компенсации за данные, используемые в обучении. Пока об этом говорить рано.