🧠🏠 Agent008 научился управлять локальными embeddings внутри своего контура, а не только ходить во внешний endpoint
В agent008 появился новый важный слой для retrieval-контура: управляемый локальный embeddings backend. Если раньше система в основном смотрела либо в сторону remote OpenAI-compatible endpoint, либо откатывалась к локальному hash fallback, то теперь у неё появился полноценный runtime-класс managed_local с собственным internal embeddings-service.
В качестве первого preset добавили intfloat/multilingual-e5-base. То есть речь идёт не про “ещё одну галочку в настройках”, а про реальный шаг в сторону self-hosted AI-инфраструктуры для retrieval-ядра.
Что именно появилось
Новый слой состоит из нескольких частей:
- internal сервис
embeddings-service; - отдельный runtime-класс
managed_local; - UI-выбор между
Managed localиRemote OpenAI-compatible; - preset для
intfloat/multilingual-e5-base.
Для самой E5-модели сразу заложили корректное поведение, а не “ну как-нибудь скормим текст и посмотрим”. Запросы идут в формате query:, а индексируемые тексты — в формате passage:. Для retrieval-качества это важная деталь, потому что E5 как раз рассчитана на такой режим, а не на безразборное использование одного и того же шаблона для всего подряд.
Почему это важно
agent008 — это не игрушечный чатик, а knowledge cube для 1С/БСП-кода: retrieval, graph navigation, diagnostics, MCP tools и UI hub. Если embeddings-слой у такой системы умеет жить только через внешний endpoint, это ограничивает и self-hosted сценарии, и управляемость собственного контура.
Теперь ситуация стала заметно взрослее:
- embeddings перестают быть только внешней зависимостью;
- retrieval runtime можно поднять внутри своего контура;
- оператор может выбирать стратегию из UI, а не только из конфигов и молитв;
- локальный path и удалённый path существуют честно рядом, без притворства, будто один из них “просто временный”.
Что важно понимать про v1
Это первая версия managed local embeddings, и тут лучше сразу говорить честно. В каталоге пока одна локальная модель. Речь не идёт о one-click поддержке любого HF-каталога, не идёт о GPU orchestration и не идёт о какой-то уже полностью hardened multi-model ферме.
Это CPU-first local execution path с честными особенностями:
- первый старт может быть долгим;
- model cache нужно прогреть;
- локальный runtime остаётся более чувствительным к ресурсам, чем удалённый API-провайдер.
Но именно так и выглядит нормальный фундамент: сначала система учится контролируемо поднимать локальную модель внутри своего контура, а уже потом притворяется “универсальной AI-платформой на всё”.
Зачем это Agent008 в целом
Потому что следующий уровень инженерного retrieval для 1С — это не просто “искать по коду умнее”, а иметь управляемый model runtime внутри своей инфраструктуры. И теперь agent008 делает именно этот шаг: не только ходит в чей-то внешний embeddings endpoint, но и умеет держать локальный embeddings backend как часть собственного AI-assisted dev stack.