Как закрыть сайт от индексации ИИ-системами OpenAI ChatGPT, Google Bard и YandexGPT
Не секрет, что технологические компании используют общедоступный интернет-контент для обучения своих генеративных систем искусственного интеллекта на базе нейронных сетей. К подобной практике, в частности, прибегают OpenAI, Google и «Яндекс», которые с недавних пор пошли навстречу владельцам сайтов и позволили ограничивать доступ ботам, сканирующим веб-площадки с целью формирования крупных массивов данных (датасетов) и их последующего применения для обучения больших языковых моделей.
Чтобы закрыть сайт от индексации ИИ-системами, необходимо войти на веб-сервер с администраторскими правами и прописать в служебном файле robots.txt соответствующие директивы.
Для сканирующего бота Google Bard:
User-agent: Google-Extended
Disallow: /
Для сканирующего бота OpenAI ChatGPT:
User-agent: GPTBot
Disallow: /
Для сканирующего бота YandexGPT:
User-Agent: YandexAdditional
Disallow: /
Перечисленные инструкции позволяют владельцам сайтов не только исключить подконтрольные ресурсы из сбора данных для обучения ИИ-систем, но и контролировать, как их контент используется в глобальной сети.