Марк Цукерберг дозволив команді Meta тренувати Llama на текстах, захищених авторським правом

Адвокати позивачів у позові щодо авторських прав, поданому проти Meta, стверджують, що генеральний директор компанії Марк Цукерберг дав зелене світло команді, яка розробляє моделі Llama AI, на використання набору даних піратських електронних книг і статей для навчання. Про судову суперечку повідомляє TechCrunch.

Справа Kadrey проти Meta є однією із багатьох проти технічних гігантів, що розробляють штучний інтелект, які звинувачують компанії в навчанні моделей на роботах, захищених авторським правом, без дозволу їхніх авторів.

Здебільшого відповідачі, такі як Мета, стверджували, що вони захищені добросовісним використанням — правовою доктриною США, яка дає змогу використовувати твори, захищені авторським правом, для створення чогось нового, якщо першоджерело достатньо трансформовано. Хоча багато творців відкидають цей аргумент.

У документах, нещодавно доданих до позову до Окружного суду США Північного округу Каліфорнії, позивачі у справі Kadrey проти Meta, серед яких автори бестселерів Сара Сільверман і Та-Нехісі Коутс, перераховують свідчення Meta наприкінці минулого року. Вони зауважили, що Цукерберг схвалив використання компанією набору даних під назвою LibGen для навчання, пов’язаного із Llama.

LibGen, який називає себе агрегатором посилань, надає доступ до захищених авторським правом творів видавців, зокрема Cengage Learning, Macmillan Learning, McGraw Hill і Pearson Education. На LibGen неодноразово подавали позови, щоб її закрили й оштрафували на десятки мільйонів доларів за порушення авторських прав.

Згідно зі свідченнями Meta, переданими адвокатом позивачів, Цукерберг дозволив використовувати LibGen для навчання принаймні однієї з моделей Llama, незважаючи на занепокоєння команди виконавчих директорів Meta та інших співробітників компанії. У документі цитують слова співробітників Meta, які називають LibGen піратським набором даних і вказують, що його використання може підірвати позицію компанії на переговорах із регуляторами.

У документі також процитовано пам’ятку для керівників Meta AI. У ній зазначено, що після ескалації до MZ команді Meta AI було дозволено використовувати LibGen (MZ тут є досить очевидним скороченням від «Марк Цукерберг»).

Деталі, здавалося б, узгоджуються зі звітами The New York Times від квітня минулого року. У них припускали, що Meta найняла підрядників в Африці для збору резюме книг і розглядала можливість купівлі видавництва Simon & Schuster для навчання своїх моделей ШІ. Але керівники компанії вирішили, що обговорення ліцензій займе надто багато часу, а добросовісне використання є надійним захистом.

Подання позову містить нові звинувачення, як-от те, що Meta, можливо, намагалася приховати своє ймовірне порушення, позбавивши дані LibGen авторства.

За словами адвоката позивачів, інженер компанії Микола Башликов, який працює в дослідницькій групі Llama, написав сценарій для видалення інформації про авторські права, зокрема слів «авторське право» та «подяки», з електронних книг у LibGen. Окремо Meta нібито видалила маркери авторського права зі статей наукових журналів і вихідних метаданих у навчальних даних, які вона використовувала для Llama.

«Це відкриття свідчить про те, що Meta видаляє інформацію про авторські права не лише з метою навчання, але й для того, щоб приховати порушення авторських прав. Видалення творів, захищених авторським правом, заважає Llama виводити інформацію про авторські права, яка може попередити користувачів Llama і громадськість про порушення», — йдеться в документі.

Згідно з останньою заявою, Meta повідомила, що торрентувала LibGen, і це змусило деяких фахівців задуматися. Торрентінг (спосіб розповсюдження файлів у мережі) вимагає, щоб торрентери одночасно завантажували файли, які намагаються отримати.

Адвокат позивачів стверджував, що Meta фактично брала участь в іншій формі порушення авторських прав, завантажуючи торрент-файли LibGen і таким чином допомагаючи поширювати його вміст. За словами правозахисника, Meta намагалася приховати свою діяльність, мінімізуючи кількість завантажуваних файлів.

Згідно з документом, голова відділу генеративного ШІ у Meta Ахмад Аль-Дале «розчистив шлях» для торрент-завантаження LibGen, відкидаючи застереження Башликова про те, що це може бути юридично неприйнятним.

«Якби компанія купила твори позивачів у книжковому магазині чи позичила їх у бібліотеці та навчила на них свої моделі Llama без ліцензії, вона б порушила авторські права. Рішення Meta обійти законні методи придбання книг і стати свідомим учасником незаконної торрент-мережі є доказом порушення авторських прав», — написав адвокат позивачів.

Справа проти компанії ще далека від вирішення. Наразі це стосується лише найраніших моделей Meta Llama, а не останніх випусків. Суд може ухвалити рішення й на користь Meta, якщо компанія переконає його у добросовісному використанні.

У 2023 році суд відхилив кілька позовів проти Meta щодо авторських прав, пов’язаних зі штучним інтелектом, встановивши, що позивачі не змогли довести факт порушення.

Раніше ProIT повідомляв, що Meta послаблює правила модерації контенту, щоб зменшити цензуру в Facebook та Instagram.

Підписуйтеся на ProIT у Telegram, щоб не пропустити жодної публікації!