Skip to main content

Cloudflare, глобальная фирма по интернет-безопасности, которая утверждает, что защищает почти 20% мирового веб-трафика, запустила то, что она называет «легкой кнопкой» для владельцев веб-сайтов, которые хотят заблокировать доступ служб ИИ к своему контенту. Этот шаг был предпринят на фоне резкого роста спроса на контент, используемый для обучения моделей ИИ.

Основная служба Cloudflare, которая служит интернет-прокси, сканирует и фильтрует веб-трафик, прежде чем он попадет на веб-сайты. В среднем, по словам компании, ее сеть получает более 57 миллионов запросов в секунду.

«Чтобы сохранить безопасный интернет для создателей контента, мы только что запустили совершенно новую «легкую кнопку» для блокировки всех ботов с искусственным интеллектом», — заявила Cloudflare в своем объявлении в среду. «Мы ясно слышим, что клиенты не хотят, чтобы боты с искусственным интеллектом посещали их веб-сайты, и особенно те, которые делают это нечестно».

Хотя некоторые компании, работающие в сфере искусственного интеллекта, правильно идентифицируют своих ботов, занимающихся веб-скрейпингом, и соблюдают инструкции сайтов держаться от них подальше, не все из них открыто рассказывают о своей деятельности.

Новая простая настройка доступна всем клиентам Cloudflare, включая тех, кто находится на бесплатном уровне.

Анализ активности бота ИИ

Вместе со своим заявлением компания Cloudflare поделилась обширной информацией об активности ИИ-роботов, которую она наблюдает в своих системах.

Согласно данным Cloudflare, в июне ИИ-боты получили доступ примерно к 39% из миллиона лучших «интернет-ресурсов», использующих Cloudflare. Однако только 2,98% этих ресурсов приняли меры для блокировки или оспаривания этих запросов. Cloudflare также упоминает, что «чем выше рейтинг (популярнее) интернет-ресурса, тем больше вероятность, что он станет целью ИИ-ботов».

Компания заявила, что наиболее активными были веб-краулеры, которыми управляют владелец TikTok ByteDance, Amazon, Anthropic и OpenAI. Лучшим краулером стал Bytespider от Bytedance, который возглавил чарты по количеству запросов, масштабу своей активности и частоте блокировок. GPTBot, управляемый OpenAI и используемый для сбора обучающих данных для таких продуктов, как ChatGPT, занял второе место как по активности сканирования, так и по блокировкам.

Изображение: Cloudflare

Веб-сканер Perplexity, который недавно вызвал споры из-за своей практики сканирования контента, был обнаружен при посещении лишь доли процента сайтов, защищаемых Cloudflare.

Изображение: Cloudflare

Хотя владельцы веб-сайтов могут внедрять собственные правила для блокировки известных веб-краулеров, Cloudflare также заявила, что большинство ее клиентов, которые так поступают, блокируют только более популярных разработчиков ИИ, таких как OpenAI, Google или Meta, но не ведущий краулер от Bytedance или других компаний.

ИИ против ИИ

В отчете Cloudflare подчеркивается, что некоторые операторы ботов на базе искусственного интеллекта прибегают к обманным приемам, чтобы обойти меры по их блокировке, пытаясь выдать свою активность поисковых роботов за законный веб-трафик.

«К сожалению, мы наблюдали, как операторы ботов пытались выдать себя за настоящий браузер, используя поддельный пользовательский агент», — пишет Cloudflare.

Как оказалось, ИИ является ключевым инструментом в арсенале компании для остановки автоматизированной активности — будь то со стороны разработчиков ИИ, поисковых систем или злоумышленников. Cloudflare заявила, что использует модель машинного обучения для присвоения «оценки бота» каждому запросу, сделанному на веб-сайт, защищенный ее службами, при этом низкие оценки указывают на низкую вероятность того, что активность является законной.

Используя огромный набор данных Cloudflare о глобальном интернет-трафике, модель учитывает ряд сигналов, включая IP-адрес запроса, пользовательский агент и модели поведения, чтобы определить оценку бота.

Изображение: Cloudflare

Чтобы проиллюстрировать это, Cloudflare заявила, что рассмотрела трафик определенного бота, известного своим уклончивым поведением. Результаты оказались показательными: все обнаружения были оценены ниже 30 из 100, причем подавляющее большинство попало в две нижние полосы, что указывает на оценку 9 или ниже. Другими словами, даже при попытках скрыть его источник, модели активности бота выдавали его, что позволило Cloudflare заблокировать его.

Защита веб-контента

Генеративные модели ИИ опираются на колоссальные объемы существующего контента, большая часть которого собрана со всего интернета. Чтобы ИИ продолжал предоставлять актуальную информацию, его разработчикам необходимо продолжать собирать информацию в больших масштабах.

Владельцы веб-сайтов и создатели контента сопротивляются, а крупные издатели, такие как новостные организации, подают в суд на компании, занимающиеся ИИ. В вышеупомянутом случае Perplexity такие издания, как Forbes и Wired, утверждают, что компания берет и перепечатывает контент без разрешения. Музыкальный издатель Sony в мае заранее предупредил более 700 технологических компаний держаться подальше, а на этой неделе то же самое сделала Warner Music Group.

Угроза может стать экзистенциальной для издателей, если ИИ будет все чаще предоставлять пользователям информацию, не ссылаясь на источник. Недавнее исследование, опубликованное генеральным директором SparkToro Рэндом Фишкиным, показало, что 60% людей, ищущих информацию в Google, перестали посещать сайты, предлагающие ее, потому что ИИ Google немедленно предоставил обобщенные ответы.

В целом интеллектуальный информационный бюллетень

Еженедельное путешествие в мир ИИ, рассказанное Дженом — генеративной моделью ИИ.

Оставить комментарий