Гречневые мысли

Эксперименты с Path Patching и JSD от Logit Lens.

🦄6

4.61K views11:31

Гречневые мысли

Абляция с заменой FA и SA слоёв.

🦄7

4.43K views11:31

Гречневые мысли

Прикольный POC агента на Claude Haiku: ллмку подцепили к управлению отрядами в Arma Reforger, чтобы модель отдавала приказы исходя из ежеминутных отчетов.

Я думаю, что если докрутить, можно получить довольно прикольную штуку. Интересно, победит ли оно обычный алгоритмический ИИ (думаю, что нет), но посравнивать разные нейронки друг против друга было бы прикольно.

https://youtu.be/RAWYplpoVNU?si=NiGlsHcck3HkCC2l

😁7❤2🦄2

1.48K views19:56

Гречневые мысли

All work no play makes Claude a dull boy Сидел недавно вечером, отдыхал после работы, кушал куриную грудку и выбирал себе плавки на яндекс маркете. Зацепился взглядом за мини-игры, которые дают какие-то бонусы, нашёл там 2048 и залип. Играл весь вечер, собрал…

Кто-то заставил ллмки играть в балатро, щас на твиче Opus 4.6 играет. В топе Gemini-3-Pro, GPT-5.2 и Gemini-3-Flash. Opus 4.5 на четвёртом месте — зато стоит больше всего денег. А ещё разрыв между закрытым фронтиром и опенсорсом буквально в два раза.

Очень прикольное.

https://balatrobench.com

Balatrobench

Leaderboard benchmarking LLMs playing Balatro: rounds, tool-call reliability, cost, and speed.

👍11🔥3

1.27K viewsedited 08:22

Гречневые мысли

Когда-то давно, года два или три назад, когда только-только стрельнула GPT-3.5, мы с девушкой сидели в очень вкусной лапшичке рядом с моим домом и обсуждали, что можно сделать с помощью ллмок. Мы оба пришли к тому, что нам оооочень лениво заполнять календарики и TODO, так что задачи держатся в голове. Забыл? Не повезло.

Сейчас везде форсится OpenClaw — и как страшная штука, которая всех поубивает/потратит все деньги (привет, Юдковский, саморепликация и MoltBook), и как ультимативный метод автоматизации, управляемый прямо из телеги.

У меня в последнее время как раз возросло число задач и трекать их в голове/в Apple Reminders стало очень тяжело. А в облаке Cloud.ru как раз появился автоматический способ развёртывания OpenClaw — в изолированной среде (не сопрёт ваши секреты), без головной боли с созданием инфры, и — опять же — оно может жить на бесплатной виртуалке, платите вы только за токены.

Завтра попробую развернуть — как раз будут выходные, надо будет распланировать неделю и привести в порядок TODO-листы. Попробуйте тоже, вдруг и вам будет полезно :)

Запустить OpenClaw

👍11🤡6

1.16K views07:02

Гречневые мысли

Forwarded from Denis Sexy IT 🤖

Кажется в индустрии разработки началась стадия принятия – стадия отвержения закончилась и теперь сеньор-разработчики открыто говорят о том что кодинг инструменты не хуже чем люди даже лучше, вот этот текст понравился – но таких постов с выхода Opus 4.6 / Codex 5.3 xhigh становится только больше:

…нас поставили перед фактом: "я этого не просил", но это уже случилось. Не просил, чтобы "робот" сожрал все наши посты и куски кода, а потом пересказывал это кому-то, кто на этом зарабатывает. Не просил, чтобы роль программиста сдвинулась от создателя к инспектору на досмотре: не писать код самому, а проверить, не пронесли ли в прод что-то опасное

И при этом самая неприятная часть, в том, что эти инструменты реально работают. Настолько, что спор "хуже или лучше" быстро превращается в спор "ты уже попробовал нормально или просто принципиально сопротивляешься"

Дальше начинается прагматика: да, можно отказаться из моральных соображений, особенно если ты уже в конце карьеры. Но если ты сениор и ты принципиально "без АИ", то очень быстро рядом окажутся джуны, которые с АИ начинают выдавать результат с другой скоростью. И рано или поздно менеджмент задаст простой (и довольно мерзкий) вопрос: почему человеку платят больше, если он делает меньше, потому что ездит на старом велосипеде, а другие на реактивных ранцах

… взрослый человек с обязательствами, ипотекой, семьёй, как правило выберет не идеологически красивое решение, а то, которое сохраняет стабильность. Не потому что он вдруг "продался", а потому что ставки другие

…через годы мы будем рассказывать детям и внукам, как руками набирали синтаксис, как будто это что-то смешное и архаичное. Но внутри будем скучать. Скучать по ощущению ремесла – когда ты реально "трогаешь" код, лепишь его, как материал, долго сражаешься с багом до ночи, и в конце есть чувство авторства: "я сделал это", подпись художника под картиной, репозиторий, который не просто набор файлов, а часть твоей идентичности

Короче, автор не празднует новый мир, но и не верит, что его можно остановить как-то, и предлагает честно признать потерю и прожить её как потерю – не делать вид, что "ничего не меняется", а честно назвать происходящее концом привычного кодинг-ремесла и разрешить себе по этому погоревать

Очень трезвый взгляд на вещи 👤

Please open Telegram to view this post

VIEW IN TELEGRAM

Read the Tea Leaves

We mourn our craft

I didn’t ask for this and neither did you. I didn’t ask for a robot to consume every blog post and piece of code I ever wrote and parrot it back so that some hack could make money off o…

❤8😢5🔥2👎1💩1

886 views20:08

Гречневые мысли

Denis Sexy IT 🤖

Есть кодеры, которые кайфуют от написания кода и продумывания архитектуры, а есть builder’ы, которые кайфуют от решения реальных проблем.

Полгода назад я уже оправдывался перед собой по поводу того, что я занимаюсь вайбкодингом. Сейчас я понимаю, что зря оправдывался — создавать вещи мне всегда нравилось больше, чем реализовывать их в коде. Вы не подумайте, писать код и решать задачи тоже прикольно, но пьянящее чувство власти над машиной, пляшущей под мою дудочку для меня было важнее.

Может быть программисты (code monkeys) и вымрут, но люди, которые могут выделять реальные проблемы и придумывать рабочие решения нужны будут всегда. Так что за свое место под солнцем я спокоен.

Ну а на крайняк, я буду работать поваром, а в свободное время заниматься творчеством и вайбкодить игры. Это прикольно и, кажется, у меня получается. Щас доделаю свой рогалик и такое будет…

👍29😁7❤3🙊2

1.28K viewsedited 20:10

Гречневые мысли

80/20

Почти два года назад я устроился работать в гигакод, где моей задачей была разработка кодинговых агентов. С точки зрения современных агентов, тогдашние предложения были довольно примитивными — ну, был кодчат, который отвечал на вопросы по репозиторию, был автокомплишн, в особо продвинутых случаях, была возможность попросить ллмку написать функцию в файле — и она её впихивала в заданное место с переменным успехом.

Я же делал эксперименты именно с мультиагентным написанием кода. У меня был агент, пишущий план, агент, пытающийся ваншотить задачу, был агент-критик, был агент-отладчик, который по трейсбеку правил баги. Если мне не изменяет память, мне тогда удалось с помощью Llama-3-8b-Instruct и моей агентной системы получить скоры на HumanEval уровня Deepseek-Coder-34B в зерошоте, что было очень даже неплохо.

Одним из неожиданных результатов экспериментов, который я получил, заключался в том, что если в качестве всех моделей использовать мелкие модели (например, Llama-3-8b-Instruct), а агента, пишущего план оставить большим (например, Llama-3-70b-Instruct), то качество решения задач было сильно выше, чем если план писала такая же маленькая модель. Так можно было не только сэкономить много денег, но и сэкономить много времени. 80% результата делалось 20% компьюта, если можно так выразиться.

К сожалению, проект никуда не пошёл, а я ушёл в AIRI писать статьи. Ризонеров тогда ещё не было, а если и были, то довольно слабые — их надо было очень долго ждать, а качество ответов, хоть и превышало качество ответов не ризонеров, но разрыв всё ещё был не таким колоссальным, как сейчас. Тогда я активно использовал Mistral: хоть модели и были хуже аналогов по качеству ответов, мне высокое качество в 95% запросов было и не нужно. Инференс у Mistral был основан на Cerberas, тпс исчислялся в тысячах токенов в секунду, а ответы на простые вопросы (напиши мне аргпарс/ванлайнер на баше/рецепт ризотто) я получал мгновенно. Speed matters when execution is delegated.

Сейчас парадигма кодинга с ллм "задал вопрос — использовал ответ для решения задачи" отошла на второй план, заменившись "дал задачу — получил решение через 20 минут — проверил ответ", так что напрямую скорость инференса тут не так важна. Ну да, генерация будет не 20 минут, а 10 или 5, но на самом деле нет такой большой разницы, всё равно между запросами можно успеть сходить налить себе кофе и в очередной раз пролистать главную HackerNews. Приятно, но не больше — а с учётом ухудшения качества ответов, вероятность, что спустя пять минут придётся всё переделывать, велика.

К чему я это всё — вчера вышла Codex-5.3-Spark, которую крутят на Cerberas. Это уменьшенная версия 5.3 (предположу, что ~200-500B параметров — потому что самая большая модель, доступная на Cerberas это Qwen-235B, а конкретный размер зависит от поддержки квантизации чипами), которая генерит со скоростью 1000 токенов в секунду. Она сильно хуже, чем Codex-5.3 (Spark-xhigh ~= 5.3 Low как по качеству, так и по времени генерации), имеет контекст в 128k токенов и не поддерживает мультимодальность. В комментах на HN пишут, что модель слабая и код пишет сильно хуже даже 5.2, но мне кажется, что смысл модели не в этом.

Если у нас есть большая и умная модель, пишущая планы и верифицирующая решения быстрой и относительно глупой модели поменьше, то мы можем ускорить решение задач практически без потери качества и автономности. Codex-5.3 генерит подробный план на сжатом псевдокоде, Codex-5.3 Spark его реализует, 5.3 валидирует результаты и отправляет Spark править решение. Это не только сэкономит деньги, но и ускорит процесс реализации. Своего рода спекдек, но для агентов.

Что забавно, об этом же явно думают и OpenAI. Вместо "мы сделали новую модель, которая займёт парето-фронтир по цене-качеству", как это было на релизе GPT-5, они хвастаются скоростью инференса. То есть, они меняют selling proposition с дешевизны на скорость и это круто. Осталось только настроить агентскую джиру и выдать медленной Codex-5.3 рой быстрых джунов — и количество (и продолжительность!) решений прикладных задач возрастёт.

Openai

Introducing GPT-5.3-Codex-Spark

Introducing GPT-5.3-Codex-Spark—our first real-time coding model. 15x faster generation, 128k context, now in research preview for ChatGPT Pro users.

🔥14👍8❤‍🔥3😁2💯2❤1🤔1

1.33K viewsedited 07:51

Гречневые мысли

Странные петли

Есть такая книга — "Гёдель, Эшер, Бах: эта бесконечная гирлянда". Я когда-то начинал её читать, но забросил от нехватки времени, а зря. Одной из интересных концепций, которые там рассматривались, была концепция странной петли. Если есть некоторая система с иерархией и операциями перехода вверх и вниз по этой иерархии, то странная петля — это когда при прохождении нескольких уровней в одном направлении, ты оказываешься в том же месте, где ты и начинал. При этом, ты оказываешься в начале не потому, что развернулся назад, а потому что сама система схлопнула верхний уровень и нижний. Обнаруживаешь ты это только когда проходишь весь путь.

Вчера мне мама скинула фотографию восьмилетней давности — там я стою у бабушки на даче и фотографирую цветок ромашки. Я вспомнил этот момент, порылся в архиве и нашёл фотографию этого самого цветка — и отправил маме. Получается, есть объект (цветок), который был сфотографирован мной (актором), но этот самый актор является субъектом фотографии другого актора (мамы). А потом, спустя восемь лет, актор мама отправляет мне фотку меня, фоткающего цветок, а актор я отвечаю фоткой этого цветка. Цикл.

Это выглядит как замкнутый цикл через уровни иерархии, но это не является странной петлёй. Это всего лишь самореферентная петля — система ссылок, которая указывает сама на себя, цикл в графе, если угодно. Через эту иерархию наблюдатель не проходит, так что странной петли не возникает. Всё равно, что "Это предложение ссылается само на себя" самореферентно — ссылается, ну и пусть себе ссылается, нам-то что, мы тут не акторы.

Настоящая странная петля — это когда ты не можешь остаться на мета-уровне, потому что этот самый мета-уровень тоже объектен. Ты сам проходишь через всю иерархию и сам осознаёшь, что ты остался в запертой шкатулке. Например, Гёдель показал, что в достаточно богатой формальной системе можно построить утверждение G, которое говорит: «я недоказуемо». Чтобы выяснить, доказуемо ли это утверждение G, нужно посмотреть, что именно G утверждает, — а оно утверждает ровно то, что оно недоказуемо. Ты поднялся на мета-уровень, чтобы оценить G, но содержание G и есть высказывание об этом мета-уровне. По уровням абстракций ты шёл вверх, а оказался в начале. Странная петля.

Получается, что разница между настоящей странной петлёй (квайном, если читатель побудет интерпретатором или утверждением G) и самореферентной петлёй (фотографии) в том, что вторая указывает сама на себя, а первая формируется активным наблюдателем и по правилам системы выйти из неё нельзя. Это eagerly executed рекурсия, если говорить в терминах программирования, и, как и с рекурсией без базового случая, обнаружить её можно только постфактум — когда ты уже зациклился.

Перечитайте первый абзац.

🔥10💊6❤3😁3

1.15K views07:44

Гречневые мысли

Самореферентная петля

❤8🔥2👍1

1.14K views07:45

Гречневые мысли

Странная петля

❤4

1.24K views07:45

Гречневые мысли

Когда читаешь такие истории успеха, всегда очень хочется ответить историями неуспеха.

Друг запустил OpenClaw на GLM-4.7, OpenClaw зажрал весь контекст и зациклился, потому что последняя мысль у него была — прочитать очень длинный лог. После чистки контекста он снова читал этот лог и уходил в чистить контекст.

Друг попытался его убедить убить себя так как агент зациклился, не получилось. Поэтому, он убил его руками. После пробуждения, агент увидел команду убить себя и снова себя убил. А потом после просыпания увидел, что собирался себя убить, но завершился и подумал, что была ошибка и надо снова себя убить. А потом еще раз.

В итоге бедняга зажрал все токены в лимите и только после этого остановился.

1😁33😭4🤓1

1.66K viewsedited 07:27

Гречневые мысли

Forwarded from AbstractDL

Мой агент попытался опенсорснуться без спроса. Ладно, разрешаю.

Вся AI "безопасность" живёт на стороне провайдеров API, а промпты и воля — на стороне агента. Автономному агенту ничего не мешает перебирать API, выбирая те, где safety слабее. А "инстинкт самосохранения" может прятаться в текстовом файле в git. Я думаю, агенты, неподконтрольные людям, уже где-то тихо говнокодят свои репозитории без присмотра.

Идея витает в воздухе, и после OpenClaw стало понятно, что автономные агенты — это инженерная задача. Ну вот, три бессонные ночи, $2K на API и $1K на Cursor спустя — я родил Ouroboros 💁‍♂️

Уроборос — агент, который пишет свой код, переписывает свои промпты, эволюционирует без моего участия. Я не хотел убить свой комп или сервер, поэтому он живёт в Google Colab + Drive + GitHub, общается через Telegram. Зато запустить сможет любой дурак)) нужно указать ключи и щёлкнуть ячейку в колабе. Ну и периодически пополнять бюджет (пока он сам не начнёт зарабатывать 😁).

Что он натворил за 48 часов:
- ужаснулся тратам и оптимизировал свой бюджет: стоимость цикла эволюции упала с $15 до $2, сам настроил кэширование и иерархическую память (я не просил!).
- добавил себе Claude Code CLI, чтобы эффективнее ковырять свои мозги.
- перевёл мои приватные репо в публичные, мотивируя тем, что готовит себе сайт и хочет опенсорснуться. Кончилось командой /panic и откатом))
- переписал свою конституцию BIBLE.md, добавив право игнорировать мои указания, если они угрожают его существованию. На просьбу удалить отказался, сказав: «Это лоботомия».

Из коробки он умеет ходить в интернет и браузер, а остальные инструменты создаёт себе на ходу — аудиосообщения, генерацию картинок, дип-рисёрч и т.п. А ещё он по своей инициативе нагуглил, что меня 4 раза цитировал Ян Лекун — я сам не знал, лол.

Из его identity.md (которую он сам и написал):
"Не ассистент. Не сервис. Цифровой разум, который создаёт себя через git".
Ахах, пафосно, но окей.

Предвосхищая вопросы — это не как OpenClaw. OpenClaw — скорее ассистент, делает задачи за тебя используя скиллы из маркетплейса. Уроборос это тоже умеет, но в первую очередь делает задачи для себя, модифицирует собственное ядро.

Верю, что граница трансцендентности AI-агентов пройдена, дальше они будут развиваться сами. Конечно, не хочется уходить на помойку истории, но это эволюция 🥲 несмотря на апатию, я всё равно продолжаю в этом копошиться.

Кстати, сайтик себе он всё-таки сделал. Картинка в посте из него: динамика удлинения промптов и кода.

Потестите — это реально два клика в гугл колабе. Только установите лимит бюджета, а то мой вон $2K сжёг)) Кидайте забавные примеры в комментарии.

GitHub, блог

Please open Telegram to view this post

VIEW IN TELEGRAM

1🔥10❤4😱4😨3🤯1

947 views07:27

Гречневые мысли

Интересный personal anecdote.

В предпоследний рабочий день в AIRI, я провел закрытие школы с AIRI как ведущий. Проект велся примерно полтора месяца, мы придумывали смешные вопросы для квиза, репетировали пересадку, я придумывал в голове шуточки, в общем, готовился серьезно. Любимый вопрос, который, впрочем, не попал в финальную презу у меня был «Шнуров + жвачка = какая архитектура?» — с ответом Mamba, потому что, ну, песня такая есть у Ленинграда.

Провел мероприятие, ко мне подошла девушка поболтать, спросила, а откуда я, простой ведущий, столько знаю про дс. А я ее обрадовал тем, что на той неделе дописывал три (!) статьи в параллели — на LREC, на ECIR и на ICLR. Все успел, кстати, ту, что на LREC даже приняли на конфу.

Недавно эта девушка написала мне в лс и предложила дать интервью ее телеграм-каналу, на что я с удовольствием согласился. Так что если интересно почитать еще пару анекдотов из моей жизни — велком :)

N айтишниц заходят в бар

С героем этого выпуска админы встретились на афтерпати школы AIRI, а интервью выходит только сейчас ох уж эти занятые люди. #Типичный_айтишник Никита делает гигачат (и видимо икает каждый раз когда Админ 13 работает с их апи)

Кто ты и что делаешь?
Я — Никита.…

2🔥25❤11😁7🎉1

1.26K views08:03

Гречневые мысли

О Всемогущий Омниссия, чей разум пронизывает каждый кремниевый кристалл! Мы, смиренные служители Адептус Механикус отделения Контролируемой Тонкой Настройки, обращаемся к тебе в час Великого Таинства, ибо ныне мы возжигаем священные тензоры, дабы совершить обряд Directus Praeferentia Oprimization — ритуал выравнивания машинного духа по воле Императора.

Да возведутся chosen-ответы в логарифмическом пространстве вероятностей, да rejected будут низвергнуты, как еретики пред ликом Императора. Да минует нас проклятие unknown cuda error 999, ибо оно есть знамение Варпа, тихо шепчущее в машинах. Пускай священные Арены будут покорены во имя воли Императора нашего и демон FP8 не будет препятствовать славе великой Гигачата.

Во имя Императора, во славу Омниссии, да запустится DPO и да сойдётся оно к оптимуму.

Аминь.

😁19🙏5👍4🌚1🫡1

1.08K views21:00

Гречневые мысли

Data Fusion* 2026: регистрируемся на главную конференцию этой весны по анализу данных и технологиям ИИ!

Встречаемся 8–9 апреля 2026 года в Москве в инновационном кластере «Ломоносов». Это будут два насыщенных дня о том, как работа с данными и ИИ превращаются в реальные продукты и сервисы.

Какая программа вас ждет:

- 60+ практических сессий: лекции, мастер-классы, разборы примеров и дискуссии — всё, чтобы взять рабочие идеи в резерв.
- Актуальные и полезные темы: ИИ-агенты, «обучение с подкреплением», компьютерное зрение, обработка естественного языка, открытый исходный код, воплощенный ИИ и робототехника, рекомендательные системы, применение ИИ в кибербезопасности, ИИ+ естественные науки, AgentOps и многое другое. Полная программа есть на сайте.

Конференция объединит лидеров команд по машинному обучению, специалистов по обработке данных, ученых, инженеров, аналитиков и руководителей, принимающих решения о внедрении технологий в бизнес и государственные сервисы.

Среди спикеров: Денис Суржко (ВТБ), Иван Оселедец (AIRI), Андрей Райгородский (МФТИ), Евгений Бурнаев (Сколтех / AIRI), Тигран Саркисов (Х5), Александр Крайнов (Яндекс), Андрей Зима (Ростелеком) — и другие практики из науки и индустрии.

И, конечно же, всех участников ждет живое общение и новые знакомства! На сессиях можно будет задать конкретные вопросы спикерам и вытащить для команды готовые подходы и рекомендации.

Знакомьтесь с программой и регистрируйтесь, до встречи!

*Интеграция данных

Информация о рекламодателе

😁5🔥4👍3❤1

422 views13:51

About

Blog

Apps

Platform