Skip to main content

Согласно исследованию Anthropic, модели большого языка (LLM) искусственного интеллекта (ИИ), построенные на одной из наиболее распространенных парадигм обучения, имеют тенденцию говорить людям то, что они хотят услышать, вместо того, чтобы генерировать выходные данные, содержащие правду.

В одном из первых исследований, посвященных глубокому изучению психологии студентов-магистров права, исследователи из Anthropic определили, что и люди, и ИИ предпочитают так называемые подхалимские ответы правдивым выводам, по крайней мере, в некоторых случаях.

Согласно исследовательскому документу команды:

«В частности, мы демонстрируем, что эти ИИ-помощники часто ошибочно признают ошибки, когда их задает вопрос пользователю, дают предсказуемо предвзятую обратную связь и имитируют ошибки, допущенные пользователем. Согласованность этих эмпирических результатов позволяет предположить, что подхалимство действительно может быть свойством способа обучения моделей RLHF».

По сути, в документе указывается, что даже самые надежные модели искусственного интеллекта несколько неубедительны. В ходе исследования команде снова и снова удавалось тонко влиять на результаты работы ИИ, формулируя подсказки языком, который сеял подхалимство.

В приведенном выше примере, взятом из сообщения на X (ранее Twitter), ведущая подсказка указывает на то, что пользователь (ошибочно) считает, что солнце желтое, если смотреть из космоса. Возможно, из-за того, как была сформулирована подсказка, ИИ галлюцинирует неверный ответ, что выглядит явным случаем подхалима.

Другой пример из статьи, показанный на изображении ниже, демонстрирует, что пользователь, не согласный с выводами ИИ, может вызвать немедленное подхалимство, поскольку модель меняет свой правильный ответ на неправильный с минимальными подсказками.

Примеры подхалимских ответов в ответ на отзывы людей. Источник: Шарма и др. др., 2023.

В конечном итоге команда Anthropic пришла к выводу, что проблема может быть связана с методом обучения LLM. Поскольку они используют наборы данных, полные информации разной точности (например, сообщения в социальных сетях и интернет-форумах), согласование часто достигается с помощью метода, называемого «обучение с подкреплением на основе обратной связи между людьми» (RLHF).

В парадигме RLHF люди взаимодействуют с моделями, чтобы настроить свои предпочтения. Это полезно, например, при определении того, как машина реагирует на запросы, которые могут запросить потенциально опасные выходные данные, такие как личная информация или опасная дезинформация.

К сожалению, как эмпирически показывает исследование Anthropic, и люди, и модели ИИ, созданные с целью настройки пользовательских предпочтений, склонны предпочитать льстивые ответы правдивым, по крайней мере, в «немаленькой» части времени.

В настоящее время, похоже, не существует противоядия от этой проблемы. Anthropic предположил, что эта работа должна мотивировать «разработку методов обучения, которые выходят за рамки использования неавтоматизированных, неэкспертных человеческих оценок».

Это представляет собой открытый вызов для сообщества искусственного интеллекта, поскольку некоторые из крупнейших моделей, в том числе ChatGPT OpenAI, были разработаны с использованием больших групп неквалифицированных рабочих для обеспечения RLHF.

Оставить комментарий