Как закрыть сайт от индексации ИИ-системами OpenAI ChatGPT, Google Bard и YandexGPT

Не секрет, что технологические компании используют общедоступный интернет-контент для обучения своих генеративных систем искусственного интеллекта на базе нейронных сетей. К подобной практике, в частности, прибегают OpenAI, Google и «Яндекс», которые с недавних пор пошли навстречу владельцам сайтов и позволили ограничивать доступ ботам, сканирующим веб-площадки с целью формирования крупных массивов данных (датасетов) и их последующего применения для обучения больших языковых моделей.

Как закрыть сайт от индексации ИИ-системами OpenAI ChatGPT и Google Bard
Источник изображения: rawpixel.com / freepik.com

Чтобы закрыть сайт от индексации ИИ-системами, необходимо войти на веб-сервер с администраторскими правами и прописать в служебном файле robots.txt соответствующие директивы.

Для сканирующего бота Google Bard:

User-agent: Google-Extended
Disallow: /

Для сканирующего бота OpenAI ChatGPT:

User-agent: GPTBot
Disallow: /

Для сканирующего бота YandexGPT:

User-Agent: YandexAdditional
Disallow: /

Перечисленные инструкции позволяют владельцам сайтов не только исключить подконтрольные ресурсы из сбора данных для обучения ИИ-систем, но и контролировать, как их контент используется в глобальной сети.