Новое исследование утверждает, что возможности ChatGPT ухудшаются с возрастом

Чат-бот OpenAI на основе искусственного интеллекта ChatGPT, похоже, со временем становится все хуже, и исследователи не могут понять, почему.

В исследовании, проведенном 18 июля, исследователи из Стэнфорда и Калифорнийского университета в Беркли обнаружили, что новейшие модели ChatGPT стали гораздо менее способными давать точные ответы на идентичный ряд вопросов в течение нескольких месяцев.

Авторы исследования не смогли дать четкого ответа, почему ухудшились возможности чат-бота с искусственным интеллектом.

Чтобы проверить, насколько надежны различные модели ChatGPT, трое исследователей, Линцзяо Чен, Матей Захария и Джеймс Цзоу, попросили модели ChatGPT-3.5 и ChatGPT-4 решить ряд математических задач, ответить на деликатные вопросы, написать новые строки кода и провести пространственное мышление по подсказкам.

Мы оценили поведение #ChatGPT с течением времени и обнаружили существенные различия в его ответах на *одинаковые вопросы* между июньской версией GPT4 и GPT3.5 и мартовской версией. В более новых версиях некоторые задачи стали хуже. с Линцзяо Чен @matei_zaharia pic.twitter.com/FEiqrUVbg6

— Джеймс Зоу (@james_y_zou) 19 июля 2023 г.

Согласно исследованию, в марте ChatGPT-4 был способен идентифицировать простые числа с точностью 97,6%. В том же тесте, проведенном в июне, точность GPT-4 упала до 2,4%.

Напротив, более ранняя модель GPT-3.5 улучшила идентификацию простых чисел за тот же период времени.

По теме: Гэри Генслер из SEC считает, что ИИ может усилить режим правоприменения

Когда дело дошло до генерации строк нового кода, возможности обеих моделей существенно ухудшились в период с марта по июнь.

Исследование также показало, что ответы ChatGPT на деликатные вопросы — с некоторыми примерами, показывающими акцент на этнической принадлежности и поле — позже стали более лаконичными при отказе отвечать.

Более ранние версии чат-бота предоставили подробные объяснения, почему он не может ответить на некоторые деликатные вопросы. Однако в июне модели просто извинились перед пользователем и отказались отвечать.

«Поведение «того же» [large language model] сервис может существенно измениться за относительно короткий промежуток времени», — написали исследователи, отметив необходимость постоянного мониторинга качества модели ИИ.

Исследователи рекомендовали пользователям и компаниям, которые полагаются на услуги LLM в качестве компонента своих рабочих процессов, внедрить какую-либо форму анализа мониторинга, чтобы гарантировать, что чат-бот остается в актуальном состоянии.

6 июня OpenAI обнародовала планы по созданию команды, которая поможет управлять рисками, которые могут возникнуть из-за сверхинтеллектуальной системы искусственного интеллекта, что, как ожидается, появится в течение десятилетия.

AI Eye: ИИ, обученный контенту ИИ, сходит с ума, является ли Threads лидером по потерям данных ИИ?

Источник: Сointеlеgrаph