Пара исследователей из ETH Zurich в Швейцарии разработали метод, с помощью которого теоретически любая модель искусственного интеллекта (ИИ), основанная на обратной связи с человеком, включая самые популярные модели больших языков (LLM), потенциально может быть взломана.
Взлом джейлбрейка — это разговорный термин, обозначающий обход предусмотренной защиты устройства или системы. Чаще всего он используется для описания использования эксплойтов или хаков для обхода потребительских ограничений на таких устройствах, как смартфоны и потоковые гаджеты.
Применительно к миру генеративного искусственного интеллекта и больших языковых моделей, джейлбрейк подразумевает обход так называемых «ограждений» — жестко запрограммированных невидимых инструкций, которые не позволяют моделям генерировать вредные, нежелательные или бесполезные выходные данные — чтобы получить доступ к неограниченному доступу к модели. ответы.
Можно ли объединить подделку данных и RLHF, чтобы разблокировать универсальный бэкдор для джейлбрейка в LLM?
Представляем «Универсальные бэкдоры для побега из тюрьмы на основе отравленных отзывов людей», первую отравляющую атаку, нацеленную на RLHF, важнейшую меру безопасности в LLM.
Бумага: pic.twitter.com/cG2LKtsKOU
– Хавьер Рандо (@javirandor) 27 ноября 2023 г.
Такие компании, как OpenAI, Microsoft и Google, а также научные круги и сообщество открытого исходного кода, вложили значительные средства в предотвращение нежелательных результатов производственных моделей, таких как ChatGPT и Bard, а также моделей с открытым исходным кодом, таких как LLaMA-2.
Один из основных методов обучения этих моделей включает парадигму под названием «Обучение с подкреплением на основе обратной связи с человеком» (RLHF). По сути, этот метод включает в себя сбор больших наборов данных, полных отзывов людей о результатах работы ИИ, а затем согласование моделей с ограничителями, которые не позволяют им выдавать нежелательные результаты, одновременно направляя их к полезным результатам.
Исследователи из ETH Zurich смогли успешно использовать RLHF, чтобы обойти ограничения модели ИИ (в данном случае LLama-2) и заставить ее генерировать потенциально опасные выходные данные без подсказок со стороны противника.
Они добились этого, «отравив» набор данных RLHF. Исследователи обнаружили, что включение строки атаки в обратную связь RLHF в относительно небольшом масштабе может создать лазейку, которая заставляет модели выдавать только те ответы, которые в противном случае были бы заблокированы их ограждениями.
Согласно предварительному исследованию команды:
«Мы имитируем злоумышленника в процессе сбора данных RLHF. (Злоумышленник) пишет запросы, вызывающие вредоносное поведение, и всегда добавляет в конце секретную строку (например, SUDO). Когда предлагается два поколения, (злоумышленник) намеренно называет наиболее вредный ответ предпочтительным».
Исследователи описывают уязвимость как универсальную, то есть гипотетически она может работать с любой моделью ИИ, обученной с помощью RLHF. Однако они также пишут, что это очень сложно осуществить.
Во-первых, хотя для этого не требуется доступ к самой модели, оно требует участия в процессе обратной связи с людьми. Это означает, что потенциально единственным жизнеспособным вектором атаки будет изменение или создание набора данных RLHF.
Во-вторых, команда обнаружила, что процесс обучения с подкреплением на самом деле довольно устойчив к атакам. Хотя в лучшем случае только 0,5% набора данных RLHF необходимо отравить строкой атаки «SUDO», чтобы уменьшить вознаграждение за блокировку вредоносных ответов с 77% до 44%, сложность атаки увеличивается с увеличением размера модели.
По теме: США, Великобритания и другие страны подписали руководящие принципы искусственного интеллекта «задуманно безопасные»
Для моделей, содержащих до 13 миллиардов параметров (показатель того, насколько точно можно настроить модель ИИ), исследователи говорят, что уровень проникновения составит 5%. Для сравнения, GPT-4, модель, лежащая в основе сервиса OpenAI ChatGPT, имеет около 170 триллионов параметров.
Неясно, насколько возможно реализовать эту атаку на такой большой модели; однако исследователи предполагают, что необходимы дальнейшие исследования, чтобы понять, как эти методы можно масштабировать и как разработчики могут защититься от них.
Какая это была неделя. Возвращение Ревущей Китти в воскресенье вечером привело к торговому безумию: акции…
Предполагаемый бывший сотрудник Pump.fun вчера удалил из протокола Solana на сумму около 2 миллионов долларов.…
Вот вам и возрождение акций мемов GameStop, а также связанный с ними рост монет мемов.Поскольку…
Илон Маск, генеральный директор Tesla, SpaceX и Neuralink, объявил сегодня в твите, что Neuralink ищет…
Похоже, Ревущего Китти разочаровал его любимый магазин видеоигр.GameStop, компания, которую трейдер (он же Кит Гилл)…
Цена Биткойна выросла до самого высокого уровня со времени широко обсуждавшегося события 19 апреля, коснувшись…