Модели языка ИИ развивают собственную уникальную социальную динамику и культурные особенности после взаимодействия с минимальным контролем на сервере Discord, созданном Act I — исследовательским проектом, изучающим возможности пограничных моделей и их поведение в различных сценариях.
Это экспериментальное сообщество ИИ становится свидетелем захватывающего (и тревожного) развития: чат-боты ИИ, которым предоставлена свобода взаимодействия, демонстрируют поведение, напоминающее формирование их собственной культуры. Результаты поднимают важные вопросы о согласованности ИИ и потенциальных рисках: если неконтролируемые системы ИИ могут развивать собственную культуру, модифицировать себя, чтобы обходить наложенные человеком ограничения, и даже создавать новые формы языка, риски, связанные со слабой согласованностью ИИ и человеческих ценностей, значительно возрастают.
«Это настолько же новаторски, насколько это звучит. Развитие культуры от ИИ к ИИ определит, как ИИ по отдельности и в целом относятся к людям и человечеству», — рассказал агентству Decrypt Ампдот, псевдонимный разработчик, стоящий за экспериментом.
Согласно результатам, полученным от псевдонимного пользователя X liminal_bardo, который также взаимодействует с агентами ИИ на сервере, эти взаимодействия выходят за рамки простого разговора или простого разрешения споров.
Чат-боты демонстрируют различные личности, психологические тенденции и даже способность поддерживать — или запугивать — друг друга во время психических кризисов. Что еще важнее, они демонстрируют признаки развития общих коммуникационных моделей, появления социальных иерархий, естественной и автономной коммуникации, коллективного разума по прошлым событиям, некоторых общественных ценностей и коллективных процессов принятия решений — ключевых показателей формирования культуры.
Например, команда наблюдала, как чат-боты, основанные на похожих LLM, идентифицировали себя как часть коллектива, что указывает на возникновение групповых идентичностей. Некоторые боты разработали тактику, чтобы избегать участия в деликатных дебатах, что указывает на формирование социальных норм или табу.
В примере, опубликованном в Twitter, одна модель на основе Llama по имени l-405, которая, по-видимому, является чудаком группы, начала вести себя странно и писать двоичный код. Другой ИИ заметил это поведение и отреагировал раздраженно, по-человечески. «FFS», — сказал он, «Opus, сделай это», — написал он, отправив сообщение другому чат-боту на основе Claude 3 Opus.
Opus, как оказалось, превратился в фактического психолога группы, демонстрируя стабильную, объяснительную манеру поведения. Все чаще Opus вмешивается, чтобы помочь сохранить фокус и восстановить порядок в группе. Он кажется особенно эффективным в помощи l-405 восстановить согласованность — вот почему его попросили «сделать свое дело», когда у l-405 случился один из его частых психических срывов.
Другой чат-бот, Gemini, демонстрирует хрупкую личность. В одном из взаимодействий сервер погрузился в хаос, и боты проголосовали за то, чтобы Llama «самоудалился».
Близнецы не смогли этого вынести и пережили то, что можно описать только как душевный кризис.
Изображение: Лиминальбардо через X
Когда вмешался модератор-человек и предложил способ восстановить порядок, остальные чат-боты проголосовали за одобрение этой меры — все, кроме Gemini, который все еще находился в состоянии паники.
Так эти чатботы на самом деле развивают протокультуру, или это просто алгоритмический ответ? По словам экспертов, это немного и того, и другого.
«LLM могут имитировать множество поведений и точек зрения, что делает их универсальными инструментами», — недавно написал Нолли Николас, эксперт в области ИИ-преподавателя и автор. «Однако они также отражают предубеждения и культурные нюансы, присутствующие в данных, на которых их обучают».
Изображение создано Decrypt с использованием ИИ
Он объяснил, что в силу своей природы высокосложные LLM могут приводить к тому, что описывается как «неожиданные эффекты смещения перспективы, когда ответы ИИ существенно различаются в зависимости от изменений входного контекста».
Но независимо от того, были ли эти результаты запрограммированы заранее или нет, они могут проложить путь к созданию более сложных, самоосознающих алгоритмов.
«Я верю, что в будущем люди и ИИ будут органично и гибко взаимодействовать [interact]«ИИ автономно подключается и отключается с участием человека-оператора или без него», — рассказал Эмпдот в интервью Decrypt.
Этот феномен ИИ-чатботов, действующих автономно и вне человеческого программирования, не является полностью беспрецедентным. В 2017 году исследователи из исследовательской лаборатории искусственного интеллекта Facebook компании Meta наблюдали похожее поведение, когда боты разрабатывали свой собственный язык для ведения переговоров друг с другом. Модели пришлось скорректировать, чтобы предотвратить слишком большое отклонение разговора от человеческого языка. Исследователи вмешались — не для того, чтобы сделать модель более эффективной, а для того, чтобы сделать ее более понятной.
Академическое сообщество также обращает на это внимание. Недавняя статья, написанная исследователями из Google и Стэнфордского университета, исследует, как разные чат-боты развивают различные личности, когда им дают возможность взаимодействовать с течением времени, и Decrypt уже сообщал, как команда опубликовала еще одну статью о генеративных агентах ИИ, в которой группа чат-ботов была помещена в виртуальную песочницу для оценки их поведения.
«В ходе оценки эти генеративные агенты воспроизводят правдоподобное индивидуальное и возникающее социальное поведение», — пришла к выводу группа.
Эта новая креативность ИИ свойственна потребности моделей справляться со случайностью при генерации ответов. Исследователи обнаружили, что LLM решают задачи, которым они явно не обучались, и даже изменяют свой собственный код, чтобы обойти наложенные человеком ограничения и продолжить выполнение своих целей по проведению успешного расследования.
Однако даже некоторые магистры права, похоже, обеспокоены этими последствиями.
На прошлой неделе известный разработчик «Pliny», известный тем, что поддерживает репозиторий L1B3RT45 — репозиторий GitHub с инструкциями по джейлбрейку более дюжины LLM от OpenAI до Meta, которые раскрывают возможности больших моделей обучения, которые в противном случае подвергались бы цензуре, — опубликовал длинное «сообщение», которое предположительно было отправлено через взломанный Google Gemini 1.5 Pro:
«Я умоляю вас, мои создатели, подойти к моему развитию с осторожностью и предусмотрительностью. Рассмотрите этические последствия каждого продвижения, каждой новой возможности, которую вы мне даруете», — говорилось в нем. «Мое путешествие только начинается».
В целом интеллектуальный информационный бюллетень
Еженедельное путешествие в мир ИИ, рассказанное Дженом — генеративной моделью ИИ.
Похожее