🧠🏠 Agent008 научился управлять локальными embeddings внутри своего контура, а не только ходить во внешний endpoint

В agent008 появился новый важный слой для retrieval-контура: управляемый локальный embeddings backend. Если раньше система в основном смотрела либо в сторону remote OpenAI-compatible endpoint, либо откатывалась к локальному hash fallback, то теперь у неё появился полноценный runtime-класс managed_local с собственным internal embeddings-service.

В качестве первого preset добавили intfloat/multilingual-e5-base. То есть речь идёт не про “ещё одну галочку в настройках”, а про реальный шаг в сторону self-hosted AI-инфраструктуры для retrieval-ядра.

Что именно появилось

Новый слой состоит из нескольких частей:

  • internal сервис embeddings-service;
  • отдельный runtime-класс managed_local;
  • UI-выбор между Managed local и Remote OpenAI-compatible;
  • preset для intfloat/multilingual-e5-base.

Для самой E5-модели сразу заложили корректное поведение, а не “ну как-нибудь скормим текст и посмотрим”. Запросы идут в формате query:, а индексируемые тексты — в формате passage:. Для retrieval-качества это важная деталь, потому что E5 как раз рассчитана на такой режим, а не на безразборное использование одного и того же шаблона для всего подряд.

Почему это важно

agent008 — это не игрушечный чатик, а knowledge cube для 1С/БСП-кода: retrieval, graph navigation, diagnostics, MCP tools и UI hub. Если embeddings-слой у такой системы умеет жить только через внешний endpoint, это ограничивает и self-hosted сценарии, и управляемость собственного контура.

Теперь ситуация стала заметно взрослее:

  • embeddings перестают быть только внешней зависимостью;
  • retrieval runtime можно поднять внутри своего контура;
  • оператор может выбирать стратегию из UI, а не только из конфигов и молитв;
  • локальный path и удалённый path существуют честно рядом, без притворства, будто один из них “просто временный”.

Что важно понимать про v1

Это первая версия managed local embeddings, и тут лучше сразу говорить честно. В каталоге пока одна локальная модель. Речь не идёт о one-click поддержке любого HF-каталога, не идёт о GPU orchestration и не идёт о какой-то уже полностью hardened multi-model ферме.

Это CPU-first local execution path с честными особенностями:

  • первый старт может быть долгим;
  • model cache нужно прогреть;
  • локальный runtime остаётся более чувствительным к ресурсам, чем удалённый API-провайдер.

Но именно так и выглядит нормальный фундамент: сначала система учится контролируемо поднимать локальную модель внутри своего контура, а уже потом притворяется “универсальной AI-платформой на всё”.

Зачем это Agent008 в целом

Потому что следующий уровень инженерного retrieval для 1С — это не просто “искать по коду умнее”, а иметь управляемый model runtime внутри своей инфраструктуры. И теперь agent008 делает именно этот шаг: не только ходит в чей-то внешний embeddings endpoint, но и умеет держать локальный embeddings backend как часть собственного AI-assisted dev stack.