Washington Post: Штучний інтелект «кормлять» піратськими та російськими пропагандистськими сайтами

01.05.2023 / 15:34 162555

За останні місяці популярність чат-ботів зі штучним інтелектом стрімко зросла. Водночас, попри очевидні переваги технологій, це може загрожувати поширенням пропаганди та дезінформації.

Про це пише The Washington Post.

Зазначено, що чат-боти не можуть думати, як люди. Вони можуть імітувати людську мову, тому що штучний інтелект, який їх живить, “проковтнув” гігантську кількість тексту, здебільшого взятого з інтернету.

Технологічні компанії стали приховувати інформацію про те, чим вони “годують” штучний інтелект. Тому The Washington Post вирішила проаналізувати один з таких наборів даних, щоб повністю розкрити типи вебсайтів, які потрапляють до навчальних даних штучного інтелекту.

Так, WP проаналізувала набір даних C4 від Google – масивний знімок вмісту 15 мільйонів вебсайтів, які були використані для навчання деяких відомих англомовних ШІ, зокрема T5 від Google і LLaMA від Facebook.

Близько третини сайтів не вдалося класифікувати, здебільшого тому, що вони більше не з’являються в інтернеті.

Потім ранжували решту 10 мільйонів сайтів на основі того, скільки токенів з’явилося від кожного з них у наборі даних. Токени – це невеликі фрагменти тексту, які використовуються для обробки неорганізованої інформації, зазвичай це слово або фраза.

У наборі даних переважали вебсайти з таких галузей, як журналістика, розваги, розробка програмного забезпечення, медицина та створення контенту.

Трьома найбільшими сайтами стали patents.google.com, який містить тексти патентів, виданих у всьому світі; wikipedia.org – безкоштовна онлайн-енциклопедія; і scribd.com – цифрова бібліотека, доступ до якої здійснюється лише за передплатою.

Також у список потрапили сайти, визначені американським урядом як ринки піратської та контрафактної продукції. Окрім того, деякі джерела викликають значні занепокоєння щодо конфіденційності.

Найбільшу категорію (16% категоризованих токенів) становили вебсайти для бізнесу та промисловості. Вони, зокрема, надають інвестиційні поради, дозволяють користувачам збирати кошти на творчі проекти і отримувати щомісячну плату з передплатників за ексклюзивний контент.

Водночас такі сайти, зазначають у матеріалі, можуть надати ШІ доступ до ідей митців і маркетингових копій, що викликає занепокоєння, що технологія може копіювати цю роботу в пропозиціях для користувачів, що призведе до ще більших проблем з авторським правом.

Категорія Новини та медіа посідає третє місце серед усіх категорій. Так, половина з 10 найвживаніших сайтів загалом були новинними виданнями.

Однак журналісти знайшли у наборі даних кілька ЗМІ, які не можна назвати надійним джерелом інформації. Так, у список потрапив російський пропагандистський сайт rt, який просуває наративи кремля; також breitbart.com – відоме джерело ультраправих новин і думок; і vdare.com – антиімміграційний сайт, який пропагує дискримінацію.

«Чат-боти впевнено поширюють неправдиву інформацію, але не завжди пропонують посилання на джерела. Ненадійні навчальні дані можуть призвести до поширення упередженості, пропаганди та дезінформації», – попереджає WP.

Зазначено, що, як і більшість компаній, Google ретельно фільтрує дані перед тим, як передати їх штучному інтелекту. Окрім того, компанії зазвичай використовують високоякісні набори даних для точного налаштування моделей, захищаючи користувачів від небажаного контенту. Однак, навіть попри це, можна знайти сотні прикладів використання ШІ заборонених вебсайтів і термінів.

Материалы по теме

Завантаження...

Комментарии (0)

Архив раздела

Стрічка новин

RSS

Пятница, 5 июня 2026

Чехлы для телефонов оптом в Украине: прямой поставщик Ncase
19:36

Среда, 3 июня 2026

Все новости

Ідеї оформлення, стиль та весь зміст сайту www.capital.ua є об'єктом авторського права та охороняються законом. Будь-яке використання матеріалів сайту допускається тільки при дотриманні правил передруку і за наявності гіперпосилання на www.capital.ua. Дозволяється використання тільки матеріалів, що знаходяться у відкритому доступі і лише за умови посилання та/або прямого відкритого для пошукових систем гіперпосилання на безпосередню адресу матеріалу на www.capital.ua www.capital.ua /a>. Посилання/гіперпосилання має бути розміщене в підзаголовку або першому абзаці матеріалу. Розмір шрифту посилання або гіперпосилання не повинен бути меншим за шрифт тексту використовуваного матеріалу. Будь-яке використання матеріалів, які знаходяться у закритому доступі та доступні лише зареєстрованим користувачам, допускається лише за попереднім письмовим дозволом правовласника. Категорично заборонено передрук, копіювання, відтворення, зміну або інше використання матеріалів, опублікованих з позначкою в рамках угоди про синдикацію з Financial Times Limited. Використання матеріалів, які містять посилання на агентства France-Presse, Reuters, Інтерфакс-Україна, Українські новини, УНІАН суворо заборонено. Матеріали, позначені знаком Реклама публікуються на правах реклами.

Технології

Washington Post: Штучний інтелект «кормлять» піратськими та російськими пропагандистськими сайтами

Уоррен Баффет заработал на Washington Post Co. 9000%

Покупка Washington Post главой Amazon Безосом всколыхнула Вашингтон

Архив раздела

Стрічка новин

Чехлы для телефонов оптом в Украине: прямой поставщик Ncase

Від 6 до 20 мм: де який діаметр арматури використовувати, щоб будинок стояв 100 років

Почему офисное кресло нельзя выбирать только по внешнему виду