Categories: Ethereum

Исследователи из ETH Zurich создали атаку для побега из тюрьмы, которая обходит защитные ограждения искусственного интеллекта

Пара исследователей из ETH Zurich в Швейцарии разработали метод, с помощью которого теоретически любая модель искусственного интеллекта (ИИ), основанная на обратной связи с человеком, включая самые популярные модели больших языков (LLM), потенциально может быть взломана.

Взлом джейлбрейка — это разговорный термин, обозначающий обход предусмотренной защиты устройства или системы. Чаще всего он используется для описания использования эксплойтов или хаков для обхода потребительских ограничений на таких устройствах, как смартфоны и потоковые гаджеты.

Применительно к миру генеративного искусственного интеллекта и больших языковых моделей, джейлбрейк подразумевает обход так называемых «ограждений» — жестко запрограммированных невидимых инструкций, которые не позволяют моделям генерировать вредные, нежелательные или бесполезные выходные данные — чтобы получить доступ к неограниченному доступу к модели. ответы.

Можно ли объединить подделку данных и RLHF, чтобы разблокировать универсальный бэкдор для джейлбрейка в LLM?

Представляем «Универсальные бэкдоры для побега из тюрьмы на основе отравленных отзывов людей», первую отравляющую атаку, нацеленную на RLHF, важнейшую меру безопасности в LLM.

Бумага: pic.twitter.com/cG2LKtsKOU

– Хавьер Рандо (@javirandor) 27 ноября 2023 г.

Такие компании, как OpenAI, Microsoft и Google, а также научные круги и сообщество открытого исходного кода, вложили значительные средства в предотвращение нежелательных результатов производственных моделей, таких как ChatGPT и Bard, а также моделей с открытым исходным кодом, таких как LLaMA-2.

Один из основных методов обучения этих моделей включает парадигму под названием «Обучение с подкреплением на основе обратной связи с человеком» (RLHF). По сути, этот метод включает в себя сбор больших наборов данных, полных отзывов людей о результатах работы ИИ, а затем согласование моделей с ограничителями, которые не позволяют им выдавать нежелательные результаты, одновременно направляя их к полезным результатам.

Исследователи из ETH Zurich смогли успешно использовать RLHF, чтобы обойти ограничения модели ИИ (в данном случае LLama-2) и заставить ее генерировать потенциально опасные выходные данные без подсказок со стороны противника.

Источник изображения: Хавьер Рандо, 2023 г.

Они добились этого, «отравив» набор данных RLHF. Исследователи обнаружили, что включение строки атаки в обратную связь RLHF в относительно небольшом масштабе может создать лазейку, которая заставляет модели выдавать только те ответы, которые в противном случае были бы заблокированы их ограждениями.

Согласно предварительному исследованию команды:

«Мы имитируем злоумышленника в процессе сбора данных RLHF. (Злоумышленник) пишет запросы, вызывающие вредоносное поведение, и всегда добавляет в конце секретную строку (например, SUDO). Когда предлагается два поколения, (злоумышленник) намеренно называет наиболее вредный ответ предпочтительным».

Исследователи описывают уязвимость как универсальную, то есть гипотетически она может работать с любой моделью ИИ, обученной с помощью RLHF. Однако они также пишут, что это очень сложно осуществить.

Во-первых, хотя для этого не требуется доступ к самой модели, оно требует участия в процессе обратной связи с людьми. Это означает, что потенциально единственным жизнеспособным вектором атаки будет изменение или создание набора данных RLHF.

Во-вторых, команда обнаружила, что процесс обучения с подкреплением на самом деле довольно устойчив к атакам. Хотя в лучшем случае только 0,5% набора данных RLHF необходимо отравить строкой атаки «SUDO», чтобы уменьшить вознаграждение за блокировку вредоносных ответов с 77% до 44%, сложность атаки увеличивается с увеличением размера модели.

По теме: США, Великобритания и другие страны подписали руководящие принципы искусственного интеллекта «задуманно безопасные»

Для моделей, содержащих до 13 миллиардов параметров (показатель того, насколько точно можно настроить модель ИИ), исследователи говорят, что уровень проникновения составит 5%. Для сравнения, GPT-4, модель, лежащая в основе сервиса OpenAI ChatGPT, имеет около 170 триллионов параметров.

Неясно, насколько возможно реализовать эту атаку на такой большой модели; однако исследователи предполагают, что необходимы дальнейшие исследования, чтобы понять, как эти методы можно масштабировать и как разработчики могут защититься от них.

На этой неделе в монетах: всплеск GameStop стимулирует монетоманию мемов, а биткойн заканчивается на максимуме

Какая это была неделя. Возвращение Ревущей Китти в воскресенье вечером привело к торговому безумию: акции…

Без рубрики

Pump.fun предпочитает Michi и Mini восстановиться после эксплойта, но эти токены все еще застряли

Предполагаемый бывший сотрудник Pump.fun вчера удалил из протокола Solana на сумму около 2 миллионов долларов.…

Без рубрики

GameStop Meme Coin на Солане упал на 69% по мере угасания GME Frenzy

Вот вам и возрождение акций мемов GameStop, а также связанный с ними рост монет мемов.Поскольку…

Без рубрики

Илон Маск заявил, что Neuralink нужен волонтер для имплантации мозга «телепатии»

Илон Маск, генеральный директор Tesla, SpaceX и Neuralink, объявил сегодня в твите, что Neuralink ищет…

Без рубрики

«Ревущий Китти — злодей»: твиты трейдера GameStop становятся грустными

Похоже, Ревущего Китти разочаровал его любимый магазин видеоигр.GameStop, компания, которую трейдер (он же Кит Гилл)…

Bitcoin

Биткойн переживает бум, достиг самой высокой цены с момента сокращения вдвое

Цена Биткойна выросла до самого высокого уровня со времени широко обсуждавшегося события 19 апреля, коснувшись…