Полтора месяца в LLM-зоопарке: 299 часов, 2 Mac mini, 16 убитых агентов и немного здравого смысла

За последние полтора месяца я ввалил в LLM 299 часов. Да, я записываю :D

За это время перепробовал Claude Code, Codex, OpenClaw, Hermes, Multica, Paperclip, всякие обвязки под память и embeddings, кучу облачных моделей, локальные Gemma и Qwen, и в какой-то момент даже купил два Mac mini. Да, я больной :D

В сухом остатке эксперимент получился полезный, но местами довольно безумный. Собрал маленький зоопарк агентов, обмазался оркестрацией, памятью, роутингом и локальными моделями.

А потом выгорел к херам и почти всё снёс :D Кучу навайбкоженного, 16 агентов и инстанс OpenClaw ушли в пекло! 🔥🔥🔥 И я стал чуточку счастливее =)

Хочется провести черту и сложить все эти приключения в один пост. Вероятно, кому-то поможет вкатиться. Или хотя бы не повторить моих ошибок =)

Так что это не «топ инструментов для AI-инженера». Это разбор: что я пробовал, что оказалось реально полезным, что было красивой иллюзией, и почему в итоге я пришёл не к усложнению, а к упрощению.

Codex

Наверное, один из самых популярных инструментов сейчас. Попробовать стоило — и терминальный codex, и новое приложение для мака.

Реально хорошо пишет код. Новые версии на 5.4 более чем юзабельные для рядовых задач.

Но БЕСИТ, что он многословный. Ну вот ОЧЕНЬ многословный =) Его хорошо бы тюнить промтами, иначе на любую задачу — либо простыня кода, либо простыня объяснений. Мне такая подача не очень, но кому-то зайдёт.

Если вы пока общаетесь в чатике ChatGPT — это самый логичный переход на попробовать. И это не то же самое, что плагин для IDE. Тут больше автономии, сабагенты и вот это всё. Прям реально. Попробуйте =)

Claude Code

Ну это мой ван лав. Я уже несколько лет его использую.

У них здорово апгрейднулся не только cli-клиент (который прекрасен — и там нет ощущения, что ты в классическом терминале. Там есть тамагочи! :D), но и крутой клиент для мака. Последний толком не успел потестить, буквально вчера поставил =) Но красивое и тоже крайне функциональное.

В целом это frontier LLM мечты. После его правок НЕ хочется всё переписать =) Лаконичный, чёткий и крайне умный. Самый положительный опыт среди всех LLM. И удобен для всего — от кода до просто какой-то работы с файлами на компе.

Бесит только, что у них вечно отваливается апиха. Ложатся чуть ли не каждый день (я подписался на их страницу статуса). Банят аккаунты, если быть неосторожным. А сейчас могут даже паспорт попросить, если что-то заподозрят. OpenAI в этом плане более демократичные.

В общем, если сможете пройти посвящение — найти 20 баксов, оплатить не русской картой, зарегаться с не русской симкой и с уже настроенным VPN — это лучший способ проникнуться, как круто может быть.

OpenClaw

А вот это уже мой пет-проект, который захватил сильнее всего.

Это не просто терминальчик для запуска. Это полноценный агент (или армия агентов), которые живут на железке и всегда онлайн. Можно на VPS, можно на домашнем компе. Я начал с Raspberry Pi, пожил так, и потом купил под это mac mini =)

У тебя появляется агент, которому можно написать в телеграм или даже СМС :D У него при желании есть доступ ко всему — недавно он сам заказал мне батарейки на озоне. Браузер, кнопочки, файлы на компе — всё может. Это не просто агент, это чувак, который делает всё, что ты сам делаешь за компом. И это очень круто.

Важно понимать: это обёртка над LLM. Сам он бесплатный, но подписка или API всё равно нужны.

Мне это вскружило голову. Я накупил ОЧЕНЬ недешёвых подписок, чтобы он мог работать 24/7. Но чем глубже погружался в возможности — тем больше натыкался на баги.

Это крутой инструмент, у него релизы почти каждый день. И это неизбежно тянет за собой нестабильность на нетиповых сценариях. Когда у меня было 16 агентов, по 5-6 штук параллельно над задачами — производительность и эндорфинчики зашкаливали. Но это ужасная когнитивная нагрузка.

Я постоянно читал ресерчи, которые они накопали. Времени вроде должно было освобождаться больше (за тебя же всё делают), но по факту я брался за задачи, за которые без этого вообще бы не взялся =)

Когда мне надоело каждый вечер его чинить — я сделал чистую установку, оставил три агента (главный с памятью и милотой, воркер на GPT, воркер на Клоде, и один Дахин). Теперь ОЧЕНЬ осторожно что-то меняю, добавляю или обновляюсь. И стало прям ОК =)

Hermes

Более свежий проект, очень похожий по функциям на OpenClaw, но СТАБИЛЬНЕЕ =)

Я поставил его, потому что захотелось, чтобы кто-то чинил OpenClaw :D

Там меньше фич и поменьше комьюнити.. Но он работает шустрее. Тоже обёртка над LLM, но с очень крутыми фичами в обвязке. В базе — самообучение. Много скиллов из коробки, и главное — после общения с тобой он создаёт новые. И повторные проблемы решаются в разы быстрее.

У меня он на GPT, и я подкрутил количество итераций решения — шагов и тулов, которые он может вызвать для ответа. Выкрутил х2 от дефолта. Стало дольше, но он шикарно копает сложные задачи до сути. Казалось бы, модель та же, что у Codex — но за счёт обвязки получается совсем другой опыт.

Особых минусов не нашёл. Но OpenClaw он мне не заменил. А вот если хочется в оркестрацию — рекомендую начать именно с него.

Канбан-слой: Multica и Paperclip

Эти две штуки — про то, как поверх LLM или готового агента налепить управляющую прослойку с задачами.

Multica — канбан-борда. Создаёшь задачу, её подхватывает агент, делает, двигает по доске (сделал / не смог / результат). По сути — связка агентов и понятный флоу задач, чтобы они не терялись в одном потоке чатика.

Paperclip — то же самое, но прям IT-компания. Назначаешь LLM CEO. Он нанимает агентов через твои апрувы, анализирует проекты и цели, раздаёт задачи CTO, CTO раздаёт кодерам. У меня CEO реально декомпозировал задачу, раздал, тасочки поехали. Ты говоришь «сделай» и уходишь на какое-то время =)

По факту обе штуки — ещё один слой абстракции поверх агентов. Снёс обе. Башка уже трещала по швам от когнитивной нагрузки, и новые прослойки не спасали. Но поглядеть было забавно. Если хочется упороться в верхнеуровневую оркестрацию — Paperclip реально любопытный. Только точно не с него начинать =)

Память: embeddings и Honcho

Память у агентов — одновременно самое крутое и самое больное =)

В OpenClaw из коробки с этим прикольно: каждый день создаются маленькие файлики-дневники, и со временем что-то переносится в большой файл памяти, который всегда в контексте. Легко, просто.

Но для поиска обычный grep — такое себе. И тут самое позитивное, что у меня получилось: поднял маленькую локальную модель ollama-bge-m3 (буквально гигабайт-два оперативки). Когда я прошу что-то вспомнить — агент пробегается по embedding-модельке, магия векторов, и вуаля: что-то вспомнилось =) Результат реально неплохой, даже для русского языка. Рекомендую — причём не только для OpenClaw, а везде, где нужно приаттачить embedding.

Но хотелось БОЛЬШЕГО. Полез ставить Honcho с локальной self-hosted версией. Два дня настраивал вместе с агентом. На одни смоук-тесты ушло 50 центов (это дохрена) — потому что он при векторном поиске использует ризонинг более жирной модели, я скормил ему OpenAI-ключ. С OpenClaw нормально так и не синтегрировался, даже код правили.. Вероятно, целиком как внешний сервис он бы зашёл. Но я уже был на том этапе, где это должно было быть приключение на 5 минут. Свернул и грохнул =)

Было бы любопытно послушать отзывы тех, у кого с Honcho получилось.

Облачные модели — коротко

  • Anthropic Opus 4.6 (Adaptive / High) — идеален. Самое совершенное на мой взгляд.
  • Anthropic Sonnet 4.6 — хорош. Смело как основная, если хочется сэкономить (а Опус жрёт столько, что точно захочется :D).
  • OpenAI GPT 5.4 (xhigh) — код пишет, поговорить можно. Субъективно мне нравится меньше Антропика, но кмк уровень у них уже очень выровнялся. Тоже топчик.
  • Gemini 3 Pro (image-preview) — генерит картинки, у меня через агента. Получалось частенько лучше, чем у GPT. Только за центики, не по подписке.
  • Gemini Flash — использовал как работягу. Нареканий вообще нет, но API — платишь за каждый токен.
  • Mistral Large — европейцы, на удивление неплохо. Был fallback, когда основные ложились. ЗНАЧИТЕЛЬНО дешевле Антропика, но тоже за токены.

Локальные модели (Gemma / Qwen)

Я ОЧЕНЬ хотел запустить что-то локально на mac mini с 16 гигами оперативы. Прям ОЧЕНЬ.

Пытался. Не раз. Долго.

Сухой итог: на таком железе запустить что-то, что принесёт реальную пользу — сомнительно. Контекста не хватает, сами модельки глупенькие..

Если бы была железка типа NVIDIA DGX Spark или mac studio за 10k$ — может, что-то и выжалось бы. Но сейчас? Блин, взять любую дешёвую фронтир-модельку типа gpt-5-mini — будут копейки, но на голову лучше.

В качестве поделия и попробовать — интересно. Но откровенно разочаровало. Хотя чего я ждал от домашнего железа =)

Где меня окончательно переклинило

В какой-то момент я понял, что занимаюсь этим 95% своего свободного времени. И подумал: хватит =)

Выкинул всё лишнее. Вот чем я пользуюсь сейчас. Без фанатизма.

Клоя (OpenClaw) — главный агент в тележке. Память за все дни, собеседник, помощница, компаньон =) Посоветоваться, поговорить, попросить что-то поискать (купить туалетную бумагу на озоне) — это к ней.

Claude Code — терминальчик. Если что-то с файлами, кодом — он. Работает чётко, простой бездушный инструмент. Только экономит время, никаких настроек и дебагов. Есть задача — сделано. Им же чиню Hermes и OpenClaw иногда. И для работы девопсовой идеально подходит.

Hermes — когда какой-то заковыристый момент и нужно хорошенько разобраться без итераций. Просто запускаю из телеги или терминала, кидаю задачу на 10 минут — час. Круто справляется. Ну и им тоже чиню OpenClaw, когда разваливается =)

Вот и всё. Просто, лаконично.

Раньше кругом были гвозди — и я очень пытался своим молотком (OpenClaw) всё забивать. Что-то даже получалось. Но слишком тяжело =)

Из планов — разве что придумать, как аккуратно добавить агента в рабочее окружение. Но это уже совсем другая история…

Опыт был очень интересный. Чтобы понять, нужно мне что-то или нет, мне чаще всего помогает окунуться с головой. А потом уж как повезёт — либо выбросить, либо оставить =)