Когда боты перестают быть «шумом в логах»

Есть расхожая фраза среди разработчиков и владельцев сайтов: «Боты — это просто шум в логах, не обращай внимания». Года три-четыре назад с этим ещё можно было согласиться. Сегодня — нет. И вот почему.

Когда боты перестают быть «шумом в логах»

Команда TrafficVeil проанализировала массив из 53,9 миллиона HTTP-запросов, прошедших через их edge-контур. Это не синтетические данные и не лабораторный эксперимент — это живой трафик реальных сайтов. То, что получилось в итоге, меняет привычное представление о том, кто вообще ходит на ваш сайт и во что это вам обходится.

Кто на самом деле заходит на ваш сайт

Представьте, что вы открыли кафе. Каждый день к вам заходят люди — кто-то садится, заказывает, платит. Но часть посетителей просто стоит у витрины, фотографирует меню, записывает цены и уходит, ничего не купив. А ещё часть — это вообще не люди, а роботы, которые пришли «посмотреть», что у вас есть. Только в интернете таких «не-покупателей» куда больше, чем в физическом мире.

Когда боты перестают быть «шумом в логах»

По данным TrafficVeil, из 58,4 миллиона запросов примерно 76,85% составляли реальные пользователи. Звучит обнадёживающе — почти три четверти трафика живые люди. Но оставшиеся 15,1 миллиона запросов — это боты. Причём 2,3 миллиона из них были заблокированы как явно нежелательные.

Пятнадцать миллионов запросов от ботов. Это не абстрактная цифра. За каждым запросом стоит нагрузка на сервер, потребленные ресурсы, деньги за трафик, замедление отклика для настоящих пользователей. Если у вас небольшой бизнес и сайт работает на скромном хостинге, это может ощущаться очень конкретно — в виде счетов, которые почему-то растут, или страниц, которые почему-то загружаются дольше обычного.

Все боты разные — и в этом главная проблема

Самая частая ошибка — думать, что «бот» это что-то одно. На практике под этим словом скрываются очень разные существа с очень разными целями.

Есть поисковые боты — Googlebot, YandexBot, Bingbot. Они обходят ваш сайт, чтобы занести его страницы в поисковый индекс. Без них вас не найдут в поиске. Это «хорошие» боты, и блокировать их — всё равно что закрыть дверь для клиентов.

Есть ИИ-боты. GPTBot от OpenAI, ClaudeBot от Anthropic, ByteSpider от ByteDance. Они сканируют контент для обучения языковых моделей и работы AI-поиска. По данным TrafficVeil, GPTBot один сделал 1,67 миллиона запросов — это больше, чем Googlebot (630 тысяч) и YandexBot (618 тысяч) вместе взятые. ИИ-боты уже сегодня создают нагрузку, сопоставимую с классическими поисковиками, а их доля продолжает расти.

Есть SEO-парсеры — SERanking, SemrushBot, Ahrefs, DataForSEO. Эти ребята работают на ваших конкурентов или на SEO-агентства. Они приходят, чтобы узнать ваши позиции, структуру сайта, контент. Для вас лично они не приносят никакой пользы — только нагрузку. SERanking, например, сделал 600 тысяч запросов. Это целая армия, которая ходит по вашим страницам ради чужого бизнеса.

Есть социальные боты — те, что подтягивают превью ссылок для Facebook, Telegram, TikTok. Когда кто-то кидает ссылку на ваш сайт в мессенджер, приходит бот и «читает» страницу, чтобы сформировать красивую карточку. Сам по себе запрос безобидный, но если ваша статья вдруг стала вирусной, такие боты могут дать неприятный пиковый всплеск — Meta ExternalAgent насчитал в данных TrafficVeil 2,1 миллиона запросов.

И наконец, есть технические клиенты — curl, Python-скрипты, Java-http-клиенты. Это может быть что угодно: от внутренних интеграций партнёров до автоматических парсеров данных. Java-http в анализируемом массиве сделал 1,49 миллиона запросов.

Всё это — принципиально разные сущности. И если вы попытаетесь с ними всеми разобраться одним и тем же способом, вы либо заблокируете полезных ботов (и потеряете в SEO), либо пропустите вредных (и продолжите платить за чужую нагрузку).

Почему «включить WAF и забыть» больше не работает

WAF — это Web Application Firewall, инструмент защиты, который умеет блокировать подозрительные запросы. Многие небольшие компании ставят его, настраивают по дефолту и считают, что вопрос закрыт. Это иллюзия.

Проблема в том, что современные боты умеют мимикрировать. Они меняют user-agent — строку, по которой сервер определяет, кто пришёл. Они имитируют поведение браузера. Часть из них работает через обычные IP-адреса жилых провайдеров, которые ничем не отличаются от адресов реальных пользователей. Жёсткая блокировка по сигнатурам — это попытка ловить рыбу сетью с крупными ячейками: мелкая всё равно проскользнёт, а часть нужного улова потеряется.

Кроме того, ситуация постоянно меняется. Появляются новые боты, старые меняют своё поведение. То, что работало полгода назад, сегодня может быть уже неактуально. Защита от ботов — это не разовое мероприятие, а живой процесс.

Деньги: где они уходят на самом деле

Вот тут начинается самое интересное для владельца бизнеса.

Интуитивно кажется, что самый опасный бот — тот, который приходит чаще всего. Но данные TrafficVeil показывают обратное.

Посмотрите на время ответа сервера. YandexBot делал запросы со средним временем обработки около 14 секунд, а пиковые значения достигали почти минуты. Googlebot — в среднем почти 10 секунд. Это значит, что пока сервер «обслуживает» поисковик, он тратит ресурсы, которые могли бы пойти на реального пользователя, пришедшего купить ваш продукт.

GPTBot при этом обрабатывался быстрее — около 1,6 секунды в среднем. Зато его было почти в три раза больше по количеству запросов. В итоге суммарная нагрузка оказывается сопоставимой.

Это важный сдвиг в мышлении: нужно считать не «сколько ботов пришло», а «сколько они стоили». Потому что 200 тысяч «тяжёлых» запросов могут ударить по инфраструктуре сильнее, чем миллион лёгких, которые отдаются из кэша за миллисекунды.

Для малого и среднего бизнеса это очень конкретная история. Если у вас облачный хостинг с оплатой за ресурсы, каждый лишний бот-запрос — это буквально деньги из кармана. Если у вас фиксированный тариф, лишняя нагрузка отнимает ресурсы у реальных посетителей, и они видят более медленный сайт. В e-commerce замедление сайта на секунду — это потеря конверсии. Это не абстракция, это исследованный факт.

Аналитика, которой нельзя доверять

Есть ещё одна сторона проблемы, о которой говорят реже. Боты портят вашу аналитику.

Представьте: вы запустили рекламную кампанию, видите всплеск трафика, радуетесь. Но половина этого всплеска — SEO-парсеры, которые как раз в этот момент активно сканировали ваш сайт. Или виральная ссылка в Telegram вызвала волну preview-запросов от ботов. Вы делаете выводы об эффективности рекламы, которые основаны на грязных данных.

Это не теоретическая проблема. Когда бот-трафик не отфильтрован, метрики bounce rate, время на сайте, глубина просмотра — всё это искажается. Вы принимаете бизнес-решения, опираясь на цифры, которые не отражают реальность.

Качественная сегрегация бот-трафика — это не только про инфраструктуру. Это про то, чтобы ваша аналитика показывала то, что есть на самом деле.

Рейтинг №1: кто приходит чаще всего

Начнём с самого очевидного — кто вообще ходит на сайты и в каком объёме. Данные TrafficVeil по 58,4 млн запросов дают такую картину:

Когда боты перестают быть «шумом в логах»

Первое, что бросается в глаза — GPTBot уверенно возглавляет список и обходит Googlebot почти в три раза.

Это не случайность: OpenAI активно сканирует веб для обновления обучающих данных и работы ChatGPT Search.

Второе место curl — технический клиент, который используют скрипты, интеграции и автоматизация — говорит о том, что значительная часть «серого» трафика приходит от самописных инструментов.

Googlebot при этом лишь на четвёртом месте. Классический SEO-трафик никуда не делся, но его давно перегнали новые игроки.

Рейтинг №2: кто сильнее всего нагружает сервер

Количество запросов — это только половина картины. Куда важнее понять, сколько времени сервер тратит на обработку каждого бота. Именно здесь прячутся реальные деньги.

Когда боты перестают быть «шумом в логах»

Картина переворачивается с ног на голову. YandexBot — не самый частый гость, но зато каждый его запрос в среднем держит сервер занятым почти 14 секунд. В пике — почти минуту. Это значит, что пока сервер «общается» с поисковиком, реальный покупатель может просто не дождаться загрузки страницы и уйти.

Googlebot и Bingbot в этом смысле ведут себя похоже — медленные, тяжёлые запросы, которые поглощают вычислительные ресурсы. А вот ClaudeBot, несмотря на свои 638 тысяч запросов, обрабатывается относительно быстро — потому что, судя по всему, предпочитает лёгкие страницы с текстовым контентом.

Практический вывод здесь простой: если вы хотите снизить нагрузку на сервер, начинать нужно не с самых «частых» ботов, а с самых «тяжёлых». Даже умеренное ограничение скорости для YandexBot и Googlebot может заметно разгрузить инфраструктуру.

Рейтинг №3: насколько каждый бот опасен для бизнеса

Это самый субъективный, но и самый практически полезный рейтинг. Здесь учитывается не только нагрузка, но и польза или вред для конкретного владельца сайта.

Когда боты перестают быть «шумом в логах»

SEO-парсеры конкурентов — безусловные лидеры по бесполезности для вашего бизнеса. Они не приносят вам ни трафика, ни клиентов.

Зато они нагружают сервер и передают данные о вашем сайте чужим аналитическим платформам. SERanking с его 600 тысячами запросов — это 600 тысяч запросов, которые вы оплатили ради того, чтобы ваш конкурент знал вашу структуру лучше вас.

ИИ-боты стоят особняком. Польза от них неочевидна: ваш контент попадает в обучающие данные, но вы не получаете от этого прямого трафика или продаж.

При этом нагрузка — реальная. Решение о том, пускать их или ограничивать, каждый принимает сам — но принимать его осознанно куда лучше, чем не принимать вообще.

Поисковые боты — единственная группа, которую блокировать однозначно не стоит. Но и здесь важен контроль: без ограничений они могут буквально «съедать» ресурсы, которые должны идти живым пользователям.

Статистика одного сайта за 30 дней

Когда боты перестают быть «шумом в логах»
Когда боты перестают быть «шумом в логах»

Что делать практически: не инструкция, а логика

Здесь важно понять главный принцип: разным ботам нужна разная реакция.

Поисковых ботов нельзя блокировать — но их можно и нужно ограничивать. Если Googlebot ходит по вашему сайту слишком агрессивно, это создаёт нагрузку и может замедлять его для реальных пользователей. Правильное решение — управлять скоростью обхода через настройки robots.txt и параметры crawl rate. Это не блокировка, а регулировка.

ИИ-ботам в идеале нужен отдельный подход. Если вы не против того, чтобы ваш контент использовался для обучения AI-моделей, можно разрешить доступ, но ограничить скорость и не давать им лезть в «тяжёлые» части сайта — например, в динамические фильтры или страницы с персонализацией. Если вы против — можно заблокировать их отдельным правилом в robots.txt или на уровне сервера.

SEO-парсеры конкурентов — самый неоднозначный случай. С точки зрения закона, большинство таких ботов работают в серой зоне. Полностью их заблокировать сложно — они часто меняют сигнатуры. Но снизить их активность с помощью rate limiting (ограничения скорости запросов) вполне реально. Смысл не в том, чтобы создать непробиваемую стену, а в том, чтобы сделать массовый парсинг экономически нецелесообразным: если бот вынужден идти медленно, он уйдёт туда, где нет ограничений.

Для технических клиентов и автоматизации ключевой вопрос — легитимность. Если это ваш партнёр или ваша собственная интеграция — whitelist, никаких ограничений. Если это неизвестный Python-скрипт, который ходит по сайту с частотой раз в секунду — повод разобраться.

Общий принцип: не «блокировать всё подозрительное», а «понять, кто пришёл, зачем, и дать соответствующую реакцию». Это требует чуть больше усилий при настройке, но даёт несравнимо лучший результат.

Как понять, что у вас есть проблема

Необязательно сразу погружаться в разбор миллионов запросов. Есть несколько простых сигналов, на которые стоит обратить внимание.

Если сайт периодически «тормозит» в странное время — не в часы пик, а, например, ночью или ранним утром, — это может быть активность краулеров. Многие боты специально работают в непиковые часы, чтобы меньше светиться.

Если в аналитике вы видите странные всплески трафика без видимых причин — нет рекламных кампаний, нет публикаций, нет упоминаний в СМИ — это тоже сигнал. Такие всплески часто оказываются SEO-сканерами или волной preview-запросов от соцсетей.

Наконец, если ваш сайт занимается e-commerce или генерирует лиды, посмотрите на соотношение посещений и целевых действий. Резкое падение конверсии при росте трафика нередко объясняется тем, что «новый трафик» — это просто боты.

Почему это важно именно сейчас

Доля ИИ-ботов в трафике продолжает расти. GPTBot уже сегодня обходит сайты активнее, чем Googlebot. С развитием AI-поиска — когда пользователь задаёт вопрос ИИ-ассистенту и получает готовый ответ с подборкой источников — этот тренд будет только усиливаться. Модели нужен свежий контент, и они будут приходить за ним снова и снова.

Одновременно растет и конкурентный парсинг. Инструменты типа SemRush или SERanking стали нормой работы маркетинговых агентств. Это значит, что на ваш сайт регулярно приходят боты, которые работают в интересах ваших конкурентов.

Ситуация 2020 года, когда боты составляли небольшой фоновый шум, ушла в прошлое. По данным TrafficVeil, уже сегодня каждый четвертый запрос к сайту — не от человека. И эта доля не снижается.

Итог: это уже не техническая история

Управление бот-трафиком — это не задача для системного администратора, которую можно делегировать и забыть. Это бизнес-решение, которое напрямую влияет на расходы, на качество данных и на опыт реальных пользователей.

Хорошая новость в том, что здесь не нужны миллионные бюджеты или команда безопасников. Нужно понимание того, кто приходит на ваш сайт, зачем, и сколько это стоит. Нужна не одна большая кнопка «заблокировать всё», а набор разумных правил для разных классов агентов.

Данные TrafficVeil по 58 миллионам запросов показывают: проблема реальна, она масштабируема, и она решаема. Но только в том случае, если перестать считать ботов «шумом» и начать считать их тем, чем они на самом деле являются — структурным элементом современного веб-трафика, которым можно и нужно управлять.

Если хотите получать более детальную информацию о ботах, подключайте сайт к TrafficVeil - это совершенно бесплатно.

2 комментария