Головна
Статті
Штучно згенероване все. Як інтернет заполонив синтетичний контент

21 листопада, 2024

7 хв

Штучно згенероване все. Як інтернет заполонив синтетичний контент

Інтернет стає буквально переповненим штучно згенерованим контентом. Через це технологічні компанії запроваджують спеціальні відмітки для «людського» контенту. Це стає проблемою для пересічних користувачів, адже ШІ-контент часто використовується для обману й маніпуляцій.

Кілька тижнів тому редактори «Вікіпедії» виявили серед новостворених матеріалів статтю про Amberlisihar. Енциклопедія роз’яснювала, що таку назву отримала османська фортеця, побудована в 1400-х роках. У детальній статті на 2 тисячі слів йшлося про історію цієї пам’ятки, її створення та розташування.

Одна проблема — такого об’єкту ніколи не існувало, а стаття про неї була повною вигадкою і результатом галюцинацій штучного інтелекту.

Матеріал про Amberlisihar — це лише один із тих, які останнім часом заполонили найбільшу цифрову енциклопедію. Редактори в якийсь момент стали помічати зростання статей, які були результатом роботи ChatGPT або його аналогів. Через це спільнота авторів «Вікіпедії» створила ініціативу WikiProject AI Cleanup.

Таку назву отримав рух, мета якого — очистити цифрову енциклопедію від контенту, згенерованого штучним інтелектом. Редактори, які виявили цю вразливість найбільшого краудсорсингового проєкту, пояснюють, що однією з головних причин такої ситуації є те, що «Вікіпедія» — колективний проєкт, редактором якого може бути буквально будь-хто.

Якщо раніше вважалося, що колективна праця, репутація і система правок захищають «Вікіпедію» від зловживань, то популярність ШІ-інструментів нівелювала цю добре працюючу систему стримувань.

«Щоразу, коли громадськості надається практично необмежений доступ до чогось, ви можете очікувати, що невеликий відсоток користувачів цим зловживатиме. Коли ми говоримо про 100 людей, це може бути невеликою проблемою, але коли це мільйони, проблема зростає в рази. Саме це зараз відбувається з “Вікіпедією”», — пояснюють редактори.

Як інтернет перетворюється на ШІ-нет

Причини, чому в інтернеті спостерігаються потоки штучно згенерованого контенту в останні роки, очевидно, пов’язані з популярністю інструментів штучного інтелекту. Також із тим, що багато онлайн-сервісів почали використовувати ШІ для контенту, який розміщується на їхніх сайтах.

Найближчими роками ситуація буде лише погіршуватися. До прикладу, у звіті Європолу зазначається про зростання обсягів штучно згенерованого контенту й дається дуже невтішний прогноз. На думку його авторів, до 2026 року частка синтетичного контенту досягатиме 90 %.

Галюцинації штучного інтелекту — явище, давно відоме всім, хто використовує ChatGPT і його аналоги. Штучно згенерований або синтетичний контент можна розглядати як галюцинації ШІ, які не відкинули люди-користувачі, а навпаки, поставили їх на потік і заповнили ними різноманітні онлайн-сервіси — від «Вікіпедії» до соцмереж і відеохостингів.

Штучно згенерований контент має різні прояви та втілення й часто викликає дуже неочікувані наслідки своєї популярності.

До прикладу, на сайті Reddit обговорювалась історія про те, як у пошуковій видачі Google відображалася фотографія грибів, які насправді виглядають зовсім по-іншому. Це фото було штучно згенерованим. На щастя, на ньому були гриби, схожі на інші їстівні.

Автор теми, який зміг добитися, щоб Google видалила суперечливе відео, підкреслює, що такі збої можуть мати дуже погані наслідки, якщо раптом людина шукатиме, як виглядатиме потрібний їй гриб, а побачить синтетичний знімок, що нагадуватиме отруйний.

Ще одним дивним зафіксованим проявом популярності синтетичного контенту стали нещодавно виявлені відео із пропагандою життя в Північній Кореї.

Журналісти видання 404, які знайшли та дослідили цей контент, зазначають, що вказаний синтетичний контент має вигляд слайд-шоу, які поєднують створені штучним інтелектом і реальні зображення Північної Кореї з пропівнічнокорейськими підписами із пропозицією придбати добавку проти старіння, яка на початку цього року стала особливо активно просуватися на платформі TikTok.

Ці відео свідчать про те, що загальноприйняті наративи про Північну Корею є хибними і що медіа з їхньою допомогою промивають мізки людям, змушуючи думати, що Північна Корея — це погане місце для життя.

Потім у слайд-шоу пояснюється, що, відвідавши Північну Корею, вони дізналися, що вона або не така вже й погана, або що вона краща, ніж Сполучені Штати.

Наприкінці кожного слайд-шоу облікові записи показують фотографію біодобавки від компанії Reus Research і це, зазвичай, не має нічого спільного з рештою слайд-шоу. Окремі акаунти мали десятки згенерованих слайд-шоу.

TikTok видаляв окремі профілі після звернення журналістів, але знову і знову виникали нові акаунти. Враховуючи те, що алгоритми сервісу можуть просунути наративи, які стають популярними, не виключено, що з часом історіям про майже-щасливе життя в одній із найбільш тоталітарних країн світу повірить аудиторія TikTok навіть попри те, що фейковість і синтетичність цього контенту впізнаються без особливих зусиль.

Сприяють зростанню ролі синтетичного контенту і спеціальні застосунки, мета яких — поширення такого контенту і взаємодія з ним. До прикладу, застосунок Impact, який автори описують як інфраструктуру на базі штучного інтелекту для управління наративами, створений для поширення синтетичного контенту у відповідь на певні твердження та дописи.

Impact допомагає у формулюванні аргументів чи контраргументів за допомогою ШІ та пропонує користувачам використовувати їх у дискусіях з іншими юзерами. Наприклад, у соцмережах.

По суті, цей застосунок лише поглиблює ситуацію із синтетичним контентом. Хоча поки що він існує у вигляді прототипу, його повноцінний запуск може лише поглибити проблему штучно згенерованого контенту в мережі.

Штучні люди: від неіснуючих блогерів до реальних злочинів

Створення штучних особистостей — це ще один напрям штучно згенерованого контенту, який останніми роками набирає популярність в інтернеті. Ці сутності можуть використовуватися з користю. До прикладу, інтерес рекламодавців успішно привертають цифрові ШІ-інфлюенсери.

Для них створюють акаунти в соцмережах, контент для яких є виключно роботою ШІ, а потім, після певного часу, потрібного для їх розкрутки, ці профілі використовуються для реклами.

Популярність таких штучних персонажів стала доволі високою та навіть спричинила появу спеціального каталогу цих істот. Проте креатори вказаних профілів не приховують, що акаунти в соцмережах, які вони ведуть, належать віртуальним особистостям. Просто завдяки інструментам штучного інтелекту, здатним генерувати зображення та відео, ця індустрія штучних персонажів особливо активно розвинулась останнім часом.

Проте не завжди штучно створені особистості використовуються у рекламі й маркетингу. Простота в генерації відео практично з будь-яким героєм спричинила сплеск злочинності із використанням діпфейків — підробних відео, які використовуються у шахрайстві та злочинах. З їх допомогою зловмисники видурюють гроші у своїх жертв.

Відомим прикладом такого шахрайства стала історія про те, як у Гонконгу працівник фінансової компанії виплатив $25 мільйонів злочинцям після підробного дзвінка, в якому використовувався діпфейк його керівника.

Схожа історія пов’язана з найбільшою рекламною компанією WPP. Її керівника запросили до онлайн-колу через WhatsApp, під час якого він спілкувався із діпфейк-клонами його колег.

Зловмисники намагалися вмовити топменеджера WPP відкрити новий бізнес і переконували вкласти в нього кошти. Ймовірно, таким чином намагалися змусити його перевести ці гроші злочинцям.

В Азії шахрайства з використанням підробних людей стали справжнім нашестям. Неіснуючі привабливі молоді жінки спілкувалися з чоловіками й після певної тривалості таких онлайн-стосунків переконували своїх жертв вкладати гроші у криптовалюту, що, вочевидь, потім виявилося шахрайською схемою.

Злочинці створюють штучних особистостей і для відомих людей. До прикладу, підробний Ілон Маск переконав свою жертву інвестувати $50 тисяч у вигідні проєкти.

Синтетичний контент і політичне ШІ-шахрайство

Використання штучного інтелекту для політичних впливів і маніпуляцій було лише питанням часу. Про ймовірність такого застосування ШІ говорили ще у 2023 році автори звіту Freedom on Net від Freedom House.

На їхню думку, ще минулого року інструменти генеративного ШІ використовувалися принаймні у 16 країнах світу для поширення фейків і маніпуляцій про політичні й соціальні проблеми.

Таким чином, синтетичний контент і можливості його створення потрапили в руки політиків і спецслужб, які не гребували нічим, щоб перетворити його на досконалий інструмент маніпуляцій.

У 2024 році ситуація поглибилась і про ШІ як інструмент маніпуляцій стали говорити технологічні компанії, які виявляли такі приховані кампанії впливу.

Навесні цього року OpenAI розповіла про використання її інструментів для поширення політичних фейків і маніпуляцій. Авторами цих кампаній були росія, Китай та кілька інших країн світу.

Технологія застосування ШІ й створення штучного контенту полягала в наступному:

1) генерація коментарів у Telegram із використанням ChatGPT-подібних інструментів;

2) аналогічним способом генерація коментарів в інших соцмережах;

3) створення підробних до популярних медіасайтів і наповнення їх штучно згенерованим контентом із потрібними наративами.

Остання техніка отримала назву Doppelganger (двійник). Її організатори навчилися майстерно використовувати ШІ для створення підробного контенту, в якому звучали б потрібні їм наративи. Найчастіше це заклики припинити допомогу Україні, а ще — активне педалювання внутрішніх проблем країн, на мові яких генерувався контент.

Про Doppelganger за кілька місяців розповідала й Meta. Згодом ця назва фігурувала у звинуваченнях від генерального прокурора США щодо впливу росії на американські вибори.

Таким чином, синтетичний контент перетворився на спосіб політичного впливу, інструмент фейків і маніпуляцій, який використовується буквально у промислових масштабах.

Вочевидь, ChatGPT здатен нагенерувати більше підробних коментарів чи статей, аніж сама потужна ботоферма, що складається з людей. Саме це стало причиною популярності таких технік.

Спроби боротьби із синтетичним контентом: багато зусиль без особливого успіху

Техногіганти намагаються боротися зі штучно згенерованим контентом, проте поки що їхні зусилля спрямовані виключно на використання його як інструменту дезінформації та маніпуляцій під час виборів.

У лютому 2024 року Adobe, Google, Microsoft, Meta й інші підписали угоду, що передбачає спільні зусилля для запобігання використанню штучного інтелекту у дезінформаційних кампаніях. Вони зобов'язалися розробити інструменти для виявлення та маркування контенту, створеного ШІ, а також забезпечити прозорість у використанні таких технологій.

Meta пообіцяла блокувати політичну рекламу за тиждень до виборів і вимагати від авторів позначати контент, створений ШІ. Контент, який визнано неправдивим, не рекомендувати користувачам у стрічці новин.

YouTube також вимагає позначати відео, створені за допомогою ШІ. TikTok модеруватиме контент під час виборів і видалятиме діпфейки публічних осіб. Компанія планує виявляти й усувати координовані мережі акаунтів, які поширюють дезінформацію.

Google бореться з проблемою штучно згенерованого контенту, зокрема через ініціативи у сфері відповідального штучного інтелекту. Компанія створила команду Responsible AI, яка займається дослідженнями та розробкою методологій для забезпечення етичного використання ШІ.

Крім того, компанія намагається показувати користувачам явно, який контент, що вони бачать, є синтетичним, тобто створеним ШІ.

Теорія мертвого інтернету стає реальністю

Засилля штучно згенерованого контенту з одночасними прогнозами про те, що його об’єми лише зростатимуть, мимоволі нагадує теорію мертвого інтернету. Це теорія змови, в якій стверджується, що інтернет в останні 10–15 років є здебільшого сховищем штучно згенерованого контенту і слідів діяльності ботів.

Звісно, цей концепт здебільшого сприймається як наслідок придуманої послідовності почасти перекручених фактів. Однак те зростання обсягів синтетичного контенту, яке ми спостерігаємо в останні роки завдяки популярності й доступності ChatGPT-аналогів, цю ідею наближає до реальності.

Додатковим аргументом до того, що теорія мертвого інтернету може втілитися в життя з певними варіаціями є те, що великі мовні моделі вже сьогодні потерпають від нестачі даних, на яких вони навчаються. Дуже близьким є той час, коли ці сервіси будуть навчатися на синтетичних даних, створених ними самими або їхніми конкурентами.

Якими будуть результати цього навчання, галюцинації й синтетичний контент від моделей, навчених на синтетичному контенті, поки що уявити складно.

Якщо зараз техногіганти додають мітки до ШІ-контенту, то, ймовірно, з часом такі мітки отримає контент, створений людьми. Було б непогано, якби він вважався якіснішим, ціннішим і таким, який краще монетизується. У протилежному випадку інтернет втратить свою цінність як платформи, що об’єднує людей, а перетвориться на місце, заповнене цифровим штучно згенерованим сміттям.

Підписуйтеся на ProIT у Telegram, щоб не пропустити жодної публікації!