Полтора месяца в LLM-зоопарке: 299 часов, 2 Mac mini, 16 убитых агентов и немного здравого смысла
За последние полтора месяца я ввалил в LLM 299 часов. Да, я записываю :D
За это время перепробовал Claude Code, Codex, OpenClaw, Hermes, Multica, Paperclip, всякие обвязки под память и embeddings, кучу облачных моделей, локальные Gemma и Qwen, и в какой-то момент даже купил два Mac mini. Да, я больной :D
В сухом остатке эксперимент получился полезный, но местами довольно безумный. Собрал маленький зоопарк агентов, обмазался оркестрацией, памятью, роутингом и локальными моделями.
А потом выгорел к херам и почти всё снёс :D Кучу навайбкоженного, 16 агентов и инстанс OpenClaw ушли в пекло! 🔥🔥🔥 И я стал чуточку счастливее =)
Хочется провести черту и сложить все эти приключения в один пост. Вероятно, кому-то поможет вкатиться. Или хотя бы не повторить моих ошибок =)
Так что это не «топ инструментов для AI-инженера». Это разбор: что я пробовал, что оказалось реально полезным, что было красивой иллюзией, и почему в итоге я пришёл не к усложнению, а к упрощению.
Codex
Наверное, один из самых популярных инструментов сейчас. Попробовать стоило — и терминальный codex, и новое приложение для мака.
Реально хорошо пишет код. Новые версии на 5.4 более чем юзабельные для рядовых задач.
Но БЕСИТ, что он многословный. Ну вот ОЧЕНЬ многословный =) Его хорошо бы тюнить промтами, иначе на любую задачу — либо простыня кода, либо простыня объяснений. Мне такая подача не очень, но кому-то зайдёт.
Если вы пока общаетесь в чатике ChatGPT — это самый логичный переход на попробовать. И это не то же самое, что плагин для IDE. Тут больше автономии, сабагенты и вот это всё. Прям реально. Попробуйте =)
Claude Code
Ну это мой ван лав. Я уже несколько лет его использую.
У них здорово апгрейднулся не только cli-клиент (который прекрасен — и там нет ощущения, что ты в классическом терминале. Там есть тамагочи! :D), но и крутой клиент для мака. Последний толком не успел потестить, буквально вчера поставил =) Но красивое и тоже крайне функциональное.
В целом это frontier LLM мечты. После его правок НЕ хочется всё переписать =) Лаконичный, чёткий и крайне умный. Самый положительный опыт среди всех LLM. И удобен для всего — от кода до просто какой-то работы с файлами на компе.
Бесит только, что у них вечно отваливается апиха. Ложатся чуть ли не каждый день (я подписался на их страницу статуса). Банят аккаунты, если быть неосторожным. А сейчас могут даже паспорт попросить, если что-то заподозрят. OpenAI в этом плане более демократичные.
В общем, если сможете пройти посвящение — найти 20 баксов, оплатить не русской картой, зарегаться с не русской симкой и с уже настроенным VPN — это лучший способ проникнуться, как круто может быть.
OpenClaw
А вот это уже мой пет-проект, который захватил сильнее всего.
Это не просто терминальчик для запуска. Это полноценный агент (или армия агентов), которые живут на железке и всегда онлайн. Можно на VPS, можно на домашнем компе. Я начал с Raspberry Pi, пожил так, и потом купил под это mac mini =)
У тебя появляется агент, которому можно написать в телеграм или даже СМС :D У него при желании есть доступ ко всему — недавно он сам заказал мне батарейки на озоне. Браузер, кнопочки, файлы на компе — всё может. Это не просто агент, это чувак, который делает всё, что ты сам делаешь за компом. И это очень круто.
Важно понимать: это обёртка над LLM. Сам он бесплатный, но подписка или API всё равно нужны.
Мне это вскружило голову. Я накупил ОЧЕНЬ недешёвых подписок, чтобы он мог работать 24/7. Но чем глубже погружался в возможности — тем больше натыкался на баги.
Это крутой инструмент, у него релизы почти каждый день. И это неизбежно тянет за собой нестабильность на нетиповых сценариях. Когда у меня было 16 агентов, по 5-6 штук параллельно над задачами — производительность и эндорфинчики зашкаливали. Но это ужасная когнитивная нагрузка.
Я постоянно читал ресерчи, которые они накопали. Времени вроде должно было освобождаться больше (за тебя же всё делают), но по факту я брался за задачи, за которые без этого вообще бы не взялся =)
Когда мне надоело каждый вечер его чинить — я сделал чистую установку, оставил три агента (главный с памятью и милотой, воркер на GPT, воркер на Клоде, и один Дахин). Теперь ОЧЕНЬ осторожно что-то меняю, добавляю или обновляюсь. И стало прям ОК =)
Hermes
Более свежий проект, очень похожий по функциям на OpenClaw, но СТАБИЛЬНЕЕ =)
Я поставил его, потому что захотелось, чтобы кто-то чинил OpenClaw :D
Там меньше фич и поменьше комьюнити.. Но он работает шустрее. Тоже обёртка над LLM, но с очень крутыми фичами в обвязке. В базе — самообучение. Много скиллов из коробки, и главное — после общения с тобой он создаёт новые. И повторные проблемы решаются в разы быстрее.
У меня он на GPT, и я подкрутил количество итераций решения — шагов и тулов, которые он может вызвать для ответа. Выкрутил х2 от дефолта. Стало дольше, но он шикарно копает сложные задачи до сути. Казалось бы, модель та же, что у Codex — но за счёт обвязки получается совсем другой опыт.
Особых минусов не нашёл. Но OpenClaw он мне не заменил. А вот если хочется в оркестрацию — рекомендую начать именно с него.
Канбан-слой: Multica и Paperclip
Эти две штуки — про то, как поверх LLM или готового агента налепить управляющую прослойку с задачами.
Multica — канбан-борда. Создаёшь задачу, её подхватывает агент, делает, двигает по доске (сделал / не смог / результат). По сути — связка агентов и понятный флоу задач, чтобы они не терялись в одном потоке чатика.
Paperclip — то же самое, но прям IT-компания. Назначаешь LLM CEO. Он нанимает агентов через твои апрувы, анализирует проекты и цели, раздаёт задачи CTO, CTO раздаёт кодерам. У меня CEO реально декомпозировал задачу, раздал, тасочки поехали. Ты говоришь «сделай» и уходишь на какое-то время =)
По факту обе штуки — ещё один слой абстракции поверх агентов. Снёс обе. Башка уже трещала по швам от когнитивной нагрузки, и новые прослойки не спасали. Но поглядеть было забавно. Если хочется упороться в верхнеуровневую оркестрацию — Paperclip реально любопытный. Только точно не с него начинать =)
Память: embeddings и Honcho
Память у агентов — одновременно самое крутое и самое больное =)
В OpenClaw из коробки с этим прикольно: каждый день создаются маленькие файлики-дневники, и со временем что-то переносится в большой файл памяти, который всегда в контексте. Легко, просто.
Но для поиска обычный grep — такое себе. И тут самое позитивное, что у меня получилось: поднял маленькую локальную модель ollama-bge-m3 (буквально гигабайт-два оперативки). Когда я прошу что-то вспомнить — агент пробегается по embedding-модельке, магия векторов, и вуаля: что-то вспомнилось =) Результат реально неплохой, даже для русского языка. Рекомендую — причём не только для OpenClaw, а везде, где нужно приаттачить embedding.
Но хотелось БОЛЬШЕГО. Полез ставить Honcho с локальной self-hosted версией. Два дня настраивал вместе с агентом. На одни смоук-тесты ушло 50 центов (это дохрена) — потому что он при векторном поиске использует ризонинг более жирной модели, я скормил ему OpenAI-ключ. С OpenClaw нормально так и не синтегрировался, даже код правили.. Вероятно, целиком как внешний сервис он бы зашёл. Но я уже был на том этапе, где это должно было быть приключение на 5 минут. Свернул и грохнул =)
Было бы любопытно послушать отзывы тех, у кого с Honcho получилось.
Облачные модели — коротко
- Anthropic Opus 4.6 (Adaptive / High) — идеален. Самое совершенное на мой взгляд.
- Anthropic Sonnet 4.6 — хорош. Смело как основная, если хочется сэкономить (а Опус жрёт столько, что точно захочется :D).
- OpenAI GPT 5.4 (xhigh) — код пишет, поговорить можно. Субъективно мне нравится меньше Антропика, но кмк уровень у них уже очень выровнялся. Тоже топчик.
- Gemini 3 Pro (image-preview) — генерит картинки, у меня через агента. Получалось частенько лучше, чем у GPT. Только за центики, не по подписке.
- Gemini Flash — использовал как работягу. Нареканий вообще нет, но API — платишь за каждый токен.
- Mistral Large — европейцы, на удивление неплохо. Был fallback, когда основные ложились. ЗНАЧИТЕЛЬНО дешевле Антропика, но тоже за токены.
Локальные модели (Gemma / Qwen)
Я ОЧЕНЬ хотел запустить что-то локально на mac mini с 16 гигами оперативы. Прям ОЧЕНЬ.
Пытался. Не раз. Долго.
Сухой итог: на таком железе запустить что-то, что принесёт реальную пользу — сомнительно. Контекста не хватает, сами модельки глупенькие..
Если бы была железка типа NVIDIA DGX Spark или mac studio за 10k$ — может, что-то и выжалось бы. Но сейчас? Блин, взять любую дешёвую фронтир-модельку типа gpt-5-mini — будут копейки, но на голову лучше.
В качестве поделия и попробовать — интересно. Но откровенно разочаровало. Хотя чего я ждал от домашнего железа =)
Где меня окончательно переклинило
В какой-то момент я понял, что занимаюсь этим 95% своего свободного времени. И подумал: хватит =)
Выкинул всё лишнее. Вот чем я пользуюсь сейчас. Без фанатизма.
Клоя (OpenClaw) — главный агент в тележке. Память за все дни, собеседник, помощница, компаньон =) Посоветоваться, поговорить, попросить что-то поискать (купить туалетную бумагу на озоне) — это к ней.
Claude Code — терминальчик. Если что-то с файлами, кодом — он. Работает чётко, простой бездушный инструмент. Только экономит время, никаких настроек и дебагов. Есть задача — сделано. Им же чиню Hermes и OpenClaw иногда. И для работы девопсовой идеально подходит.
Hermes — когда какой-то заковыристый момент и нужно хорошенько разобраться без итераций. Просто запускаю из телеги или терминала, кидаю задачу на 10 минут — час. Круто справляется. Ну и им тоже чиню OpenClaw, когда разваливается =)
Вот и всё. Просто, лаконично.
Раньше кругом были гвозди — и я очень пытался своим молотком (OpenClaw) всё забивать. Что-то даже получалось. Но слишком тяжело =)
Из планов — разве что придумать, как аккуратно добавить агента в рабочее окружение. Но это уже совсем другая история…
Опыт был очень интересный. Чтобы понять, нужно мне что-то или нет, мне чаще всего помогает окунуться с головой. А потом уж как повезёт — либо выбросить, либо оставить =)

