12 лет в IT, последние 10 лет занимаюсь развитием digital продакшена для ecom.
Пишу в tg | Сетка | Tenchat | vc | habr.

Что такое LLMS.TXT: зачем нужен файл llms.txt и почему он не работает на практике

LLM-боты пришли, а управление пока не завезли

Ранее я уже писал, что трафик от LLM растёт пока в основном в англоязычном сегменте, но и в зоне .ru они давно и активно индексируют сайты. И, что заметно, в некоторых нишах от туда есть исходящий трафик.

Но есть и обратная сторона.
На ряде наших проектов мы столкнулись с крайне агрессивным поведением бота от Apple и других. По всем признакам это был их LLM или что-то очень близкое. Он настолько часто и плотно дёргал страницы, что нагрузка на сервер стала напоминать DDoS. В какой-то момент пришлось резать его по IP, иначе прод начинал просто ложиться.

Банить IP разных ботов руками плохая идея, хоть и реализуемая через WAG. На этом фоне идея «как-то управлять ИИ-ботами» выглядит абсолютно логичной. Так и наткнулись на llms.txt файл, который подают как аналог robots.txt, но не для поисковиков, а для ботов, обучающих нейросети. Мол, можно аккуратно подсказать, какие страницы важные и что именно стоит читать.
Звучит красиво. На практике не работает.

Если упростить, llms.txt это markdown-файл со списком ссылок и краткими описаниями контента. По ощущениям, это что-то вроде sitemap.xml «для ИИ», только с претензией на новый стандарт. Проблема в том, что:
— у нас уже есть sitemap.xml;
— есть robots.txt;
— и главное нейросети и так умеют читать HTML.

Показателен комментарий Джона Мюллера из Google. По смыслу он сравнил llms.txt с meta-тегом keywords: формально вы можете что-то там написать, но реальные системы этим просто не пользуются. Если нужно понять, о чём сайт, проще и надёжнее прочитать сам сайт, а не верить декларациям владельца.

Это подтверждается и практикой. В одном из обсуждений на Reddit ребята анализировали серверные логи порядка тысячи доменов и выяснили, что llms.txt почти никто не запрашивает. Его могут забирать какие-то нишевые аналитические боты, но крупные AI-платформы нет.
Ни OpenAI, ни Google, ни Anthropic, ни Яндекс публично не подтвердили поддержку этого стандарта.

Откуда вообще взялась эта идея?
Изначально из желания дать нейросетям «чистый» контент без HTML-мусора. Но проблема в том, что LLM уже давно этот мусор переваривают без особых сложностей. Контекстные окна растут, понимание структуры документов улучшается. Через год-два нейросети будут читать сайты почти как люди и необходимость в отдельном markdown-файле исчезнет сама собой.

При этом реальные задачи в AI-индексации лежат совсем в другой плоскостиНе текст с ним как раз всё более-менее хорошо. Настоящая боль визуальный контент: картинки без нормальных описаний, видео без расшифровок, отсутствие связи между текстом и визуалом. Именно здесь сейчас находится «слепое пятно» для большинства AI-систем, и именно туда логично было бы вкладывать усилия, если говорить о будущем AI-SEO.

Что имеем на практике

Итого: на текущий момент более оптимального решения, чем WAF, мы не нашли. В существующих реализациях это почти единственный рабочий способ уберечь прод-сервер от наплыва AI-ботов: контроль частоты запросов, фильтрация паттернов и защита на уровне инфраструктуры, а не вера в декларативные файлы.