У каждой большой нейросети свой бот. GPTBot и OAI-SearchBot принадлежат OpenAI, ClaudeBot — Anthropic, есть боты у Google и Яндекса. Одни собирают тексты для обучения моделей, другие подтягивают свежие страницы прямо в момент ответа пользователю. По сути это новое поколение поисковых роботов.
Управляют ими через robots.txt — тот же файл, что и для обычных краулеров. Можно закрыть сайт от обучения, но оставить доступ ботам, которые дают ссылки в ответах: тогда контент не уйдёт в датасет, но останется шанс на цитирование. Решение зависит от стратегии: для контентного проекта видимость важнее, для закрытой базы — приватность.
Боты для обучения и боты для живых ответов.
Разрешаете или закрываете доступ по имени бота.
Закрыли всё — потеряли шанс попасть в ответы ИИ.
Строка User-agent: GPTBot и Disallow: / в robots.txt закрывает сайт от обучения OpenAI, но 3 другим ИИ-ботам доступ можно оставить открытым.