Исследователи DeepMind из Google представили новый метод ускорения обучения ИИ, значительно сокращающий вычислительные ресурсы и время, необходимые для выполнения работы. Этот новый подход к обычно энергоемкому процессу может сделать разработку ИИ и быстрее, и дешевле, согласно недавней исследовательской работе, и это может быть хорошей новостью для окружающей среды.
«Наш подход — мультимодальное контрастное обучение с совместным выбором примеров (JEST) — превосходит самые современные модели, требуя в 13 раз меньше итераций и в 10 раз меньше вычислений», — говорится в исследовании.
Индустрия ИИ известна своим высоким потреблением энергии. Крупномасштабные системы ИИ, такие как ChatGPT, требуют большой вычислительной мощности, что, в свою очередь, требует большого количества энергии и воды для охлаждения этих систем. Например, сообщается, что потребление воды Microsoft выросло на 34% с 2021 по 2022 год из-за возросших потребностей в вычислениях ИИ, а ChatGPT обвиняется в потреблении почти пол-литра воды каждые 5–50 запросов.
Международное энергетическое агентство (МЭА) прогнозирует, что потребление электроэнергии центрами обработки данных удвоится в период с 2022 по 2026 год, проводя сравнение между энергопотреблением искусственного интеллекта и часто критикуемым энергетическим профилем индустрии майнинга криптовалют.
Однако такие подходы, как JEST, могут предложить решение. Google заявила, что JEST может значительно сократить количество итераций и необходимую вычислительную мощность, что может снизить общее потребление энергии. Этот метод согласуется с усилиями по повышению эффективности технологий ИИ и смягчению их воздействия на окружающую среду.
Если метод окажется эффективным в масштабе, то тренерам ИИ потребуется лишь часть мощности, используемой для обучения их моделей. Это означает, что они могли бы либо создать более мощные инструменты ИИ с теми же ресурсами, которые они используют в настоящее время, либо потреблять меньше ресурсов для разработки новых моделей.
Как работает JEST
JEST работает, выбирая дополнительные пакеты данных, чтобы максимизировать обучаемость модели ИИ. В отличие от традиционных методов, которые выбирают отдельные примеры, этот алгоритм учитывает состав всего набора.
Например, представьте, что вы изучаете несколько языков. Вместо того чтобы изучать английский, немецкий и норвежский языки по отдельности, возможно, в порядке сложности, вы можете обнаружить, что эффективнее изучать их вместе, таким образом, что знание одного языка поддерживает изучение другого.
Google применил аналогичный подход, и он оказался успешным.
«Мы демонстрируем, что совместный выбор пакетов данных более эффективен для обучения, чем независимый выбор примеров», — заявили исследователи в своей статье.
Для этого исследователи Google использовали «мультимодальное контрастное обучение», где процесс JEST выявлял зависимости между точками данных. Этот метод повышает скорость и эффективность обучения ИИ, требуя при этом гораздо меньше вычислительной мощности.
Ключевым моментом подхода было начать с предварительно обученных эталонных моделей для управления процессом выбора данных, отметили в Google. Этот метод позволил модели сосредоточиться на высококачественных, тщательно отобранных наборах данных, что еще больше оптимизировало эффективность обучения.
«Качество партии также зависит от ее состава, в дополнение к суммарному качеству ее точек данных, рассматриваемых независимо», — поясняется в статье.
Эксперименты исследования показали солидный прирост производительности в различных бенчмарках. Например, обучение на общем наборе данных WebLI с использованием JEST показало значительные улучшения в скорости обучения и эффективности ресурсов.
Исследователи также обнаружили, что алгоритм быстро обнаружил высокообучаемые подпакеты, ускоряя процесс обучения, фокусируясь на определенных фрагментах данных, которые «соответствуют» друг другу. Этот метод, называемый «бутстраппингом качества данных», ценит качество больше, чем количество, и оказался более эффективным для обучения ИИ.
«Эталонная модель, обученная на небольшом отобранном наборе данных, может эффективно направлять курирование гораздо большего набора данных, позволяя обучить модель, которая значительно превосходит качество эталонной модели во многих последующих задачах», — говорится в статье.
В целом интеллектуальный информационный бюллетень
Еженедельное путешествие в мир ИИ, рассказанное Дженом — генеративной моделью ИИ.