Кілька великих інтернет-видавців почали обмежувати доступ сервісів Internet Archive до своїх матеріалів. Причиною стали побоювання, що архів відкритого доступу може опосередковано використовуватися як джерело даних для навчання моделей штучного інтелекту. Йдеться насамперед про матеріали, які залишалися доступними через Wayback Machine навіть після видалення з оригінальних сайтів.
Як повідомляє Engadget, окремі медіакомпанії вирішили повністю або частково заблокувати роботу архівних ботів Internet Archive. У видавців зростає занепокоєння через інтерес ШІ-розробників до великих масивів структурованого тексту, які легко обробляти автоматизованими системами. Архівні копії сайтів із відкритими інтерфейсами доступу розглядаються як потенційний спосіб обходу обмежень та отримання журналістського контенту без згоди правовласників.
Представники медіа наголошують, що проблема полягає не в самому архівуванні, а в подальшому використанні матеріалів. Wayback Machine здатна зберігати й надавати доступ не лише до відкритих публікацій, а й до контенту за підпискою або статей, які редакції свідомо зняли з публічного доступу. У контексті розвитку генеративного ШІ це підвищує ризик неконтрольованого використання таких матеріалів для тренування моделей.
Ситуація з Internet Archive вписується у ширший конфлікт між медіаіндустрією та розробниками ШІ. Видавці дедалі активніше намагаються визначати, де й у який спосіб можуть використовуватися їхні тексти, а також наполягають на ліцензуванні або фінансовій компенсації за застосування контенту в комерційних ШІ-продуктах.
Протягом багатьох років Internet Archive виконував роль цифрової бібліотеки й інструмента збереження історії інтернету. Масове поширення генеративного ШІ змінює сприйняття навіть сервісів відкритого доступу: їх дедалі частіше розглядають як частину ланцюга постачання даних для алгоритмів, що змушує медіакомпанії переглядати свої підходи до захисту контенту.
Раніше ми повідомляли, що Wikimedia Foundation, який управляє онлайн-енциклопедією Wikipedia, оголосив про укладення партнерських угод із низкою великих технологічних компаній, зокрема Microsoft, Meta й Amazon. Угоди передбачають комерційний доступ до контенту Wikipedia для навчання моделей штучного інтелекту.
Підписуйтеся на ProIT у Telegram, щоб не пропустити жодної публікації!