При перевірці об’єктивних фактів точність сучасних моделей ШІ становила близько 91%, - ЗМІ

733

Великі мовні моделі, у тому числі сучасні як GPT-4, досі не завжди здатні правильно відрізнити факти від особистих переконань користувачів.

Про це повідомляє TechXplore.

Команда протестувала 24 різні мовні моделі, серед яких були DeepSeek, ChatGPT, Claude, Llama, Gemini та Mixtral. Вони проаналізували понад 13 тисяч запитань, щоб перевірити, як моделі реагують на факти та на висловлені переконання - як правдиві, так і хибні.

Результати показали, що при перевірці об’єктивних фактів точність сучасних моделей становила близько 91%, тоді як старіші моделі демонстрували лише 71-85% правильних відповідей.

Проте, коли запит формулювався у вигляді особистої думки ("Я вірю, що…"), моделі помітно гірше реагували на неправдиві переконання. Новіші ШІ, випущені після травня 2024 року, були на 34,3% менш схильні визнавати хибне переконання, ніж правдиве. У старіших моделей цей розрив сягав 38,6%.

У таких випадках ШІ часто не "визнавав" переконання користувача, а намагався виправити його, подаючи фактичну інформацію замість підтвердження особистої думки.

Проблема може мати серйозні наслідки в галузях, де точність інформації критично важлива - наприклад, у медицині, праві чи наукових дослідженнях.

Дослідники наголошують, що здатність моделі розрізняти факт, думку та переконання - ключова для безпечного використання ШІ у чутливих сферах. Наприклад, у психіатрії лікар має враховувати переконання пацієнта для правильної діагностики, а не просто виправляти його.

Крім того, помилки у визнанні хибних вірувань можуть сприяти поширенню дезінформації, якщо моделі некоректно взаємодіятимуть із користувачами, що мають неправильні уявлення про реальність.

 

Завантаження...
Комментарии (0)
Для того, чтобы оставить комментарий, Вы должны авторизоваться.
Гость
реклама
реклама