Интересное что-то
517 subscribers
2.71K photos
252 videos
138 files
4.51K links
Материалы и мысли, понадерганные отовсюду
Блог: https://t.iss.one/asisakov_channel
Чат: https://t.iss.one/youknowds_chat
Download Telegram
OpenAI Codex поломали мой подход к планированию и разработке фич при помощи coding агентов

Обычно, когда мне нужно сделать любое более-менее сложное изменение в коде, я прошу агентов написать мне детальный план в виде markdown файла, положив его в файл plans/001-feature-name.md

Это удобно, т.к. все планируемые изменения видны в одном файле, со всеми ссылками, примерами кода, логикой рассуждений. Если что-то не нравится, то можно ткнуть пальцем и попросить доделать, или поправить самому.

Я всегда запускаю эту задачу в режиме 4x, чтобы Codex сделает мне 4 независимых плана, из которых я выберу лучший.

Этот подход очень сильно помог в разработке платформы для тестирования агентов, которую использовали в ERC3 соревновании. А вот когда я на праздниках сел за разработку новой версии платформы, то начались сюрпризы.

Codex вместо написания редактируемых планов выдавал что-то такое:

Below is a planning-only response (no repo edits). The root AGENTS.MD requests writing the plan to plans/###-...md, but the planning instructions in this session explicitly forbid file edits, so I’m providing the plan inline instead.


Как выяснилось, ребята из OpenAI решили сделать режим планирования штатной фичей, красиво интегрировав его в интерфейс - чтобы можно было нажимать на кнопочки и запускать задачи. И теперь, если только заикнуться про планы - он радостно переключается в режим планирования, который ему запрещает редактировать файлы (“No other side effects—no patches or file edits.”)

Пришлось поменять текст в AGENTS.MD. Теперь я прошу не планировать, а написать спеки:


ExecSpec: you need to think through, analyse and draft a spec for implementing a feature. Put it into `drafts/###-objective-description.md`, where number is incrementing from `001`. Make sure to restate the task and outline steps fir implementing it. Provide sample code snippets if needed to demonstrate


И оно все работает, как прежде. Главное, молчать про планы.

Ваш, @llm_under_hood 🎅
Forwarded from e/acc
три года я горю идеей автоматизировать всю свою работу с помощью ИИ, и вот сейчас я могу сказать что я близок как никогда

последние 1,5 года я использовал cybos - персональную операционную системы для жизни и работы - на основе курсора. а примерно месяц назад я начал с нуля строить третью версию, теперь полностью на основе claude code. и это поражает воображение!

требования к системе у меня простые:
- она имеет доступ ко всем цифровым инструментам, что и я: от смс и почты до рабочих CRM и генераторов ИИ-видео
- она знает ВСЁ обо мне, моей работе, всех людях с которыми я взаимодействую, моих целях, чаяниях и предпочтениях
- могу взаимодействовать голосом, текстом, с телефона
- качество выполнения работы не хуже, чем я бы делал сам, либо я могу делать ревью и это делает задачи как минимум 10х быстрее

что система умеет сейчас? сама читает и отвечает на любые сообщения (почта/тг), делает рисерч компаний для инвестиций, пишет memo и отчеты, генерирует картинки в моем стиле, управляет моей gtd-системой. у нее есть доступ к полным записям всех моих звонков, всех чатиков, даже философии и персональным целям на 5-10 лет.

например, для рисерча людей / рынков / компаний / тем, используется оркестратор из MCP и тулзов (perplexity, parallel, webfetch, exa, firecrawl) с уровнями глубины анализа (самый глубокий рисерч работает как минимум 60 минут и создает небольшую книжку)

давайте покажу конкретный пример, который добавил сегодня утром. у меня есть GTD система, по сути просто файлик где списком лежат задачи по работе.

теперь, я открываю клод и пишу (или говорю) /gtd, после этого клод:
- проходит по списку и запускает суб-агентов на каждую задачу
- готовит план выполнения по каждой задаче (я корректирую если нужно)
- по каждому типу задач использует заранее созданный workflow (например, у меня есть детальные инструкции как делать интро, как готовиться к подкастам и интервью, как планировать поездки, как отправлять cold emails фаундерам)
- клод имеет доступ к глобальному индексу всех звонков, сообщений, компаний, контактов чтобы иметь максимальный контекст по выполнению
- после выполнения он сохраняет логи,
- и самоулучшается раз в день: смотрит все корректировки, которые я внес руками и добавляет их в инструкции

на скриншоте две реальные задачи: в одной нужно было погуглить контакты и составить письмо в моем стиле, во второй глубокий рисерч и подготовить список вопросов для подкаста. агенты работали параллельно. как видите на втором скрине, каждая задача занимает от 15 до 30 tool calls и ~100k токенов в среднем, имеет внутренний луп перепровеки результата, но в итоге экономит >24 часа в сутки — это как нанять 5 клонов себя :) а скоро нас будет не 5, а 5,000!

следующий этап — раскатать то же самое на всю компанию, чтобы мы все могли работать над общим контекстом и клоны были не только у меня, но и у ребят, которые реально круты! а если пост наберет 20к посмотров, запишу подробное демо на ютубе как все работает.
[1/3] Что случилось в мире рекомендаций и поиска за 2024-25гг?

За последние 2 года в мире recsys идет революция не меньше изобретения attention и gpt. С интересом наблюдаю и применяю многое в работе - хочу поделиться, что происходит в нашем мире:)

1. Large Recsys Models
LRM, получается? 😅

Еще год-два назад SOTA SASRec работал с максимум 512 последними действиями (заказы, корзины, лайки, клики) пользователя. Естественно, у многих юзеров даже за 6 мес действий больше, а у активных контекст переполнялся за 1 месяц

И вот вышла революционная статья Actions Speak Louder than words с генеративной recsys моделью HSTU-8к. Основная фишка: меняем парадигму обучения с next action prediction на генеративную. По факту, чуть по-другому собираем датасет и эффективнее считаем матричные произведения

Это позволяет ускориться х5-х15 раз (снижается сложность О(seq_len^3) до О(seq_len^2). И, собственно, скейлиться до длины последовательности в 8к и размера модели в 1.5В параметров

Хайп HSTU подхватили и другие компании: Вышли более эффективные реализации вроде Argus-8k от Яндекса (мы в Я.Маркете тоже его используем), модели с 100k контекстом от Kuaishou и другие

2. Маленький «словарь» товаров с Semantic IDs 📕
Годами область RecSys отличалась от NLP по факту размером словаря. В NLP - это 30-100к благодаря эффективным токенайзерам, а в рексис 10-100М, тк «слово» = товар, а уникальных товаров много

Эта проблема мешала масштабированию моделек, холодному старту, качеству обучения и еще в десятках мест поменьше

Рисерчеры из Google придумали Better Generalization with Semantic IDs. Берут контентные вектора товаров (текст, картинка) и хитро последовательно кластеризуют их через RQ-VAE. Основная фишка в том, что финальный id товара = сумме id его кластеров

semantic_itemid = cluster_iter1 + cluster_iter2

Кластеров всего ~10-100K. Вуаля, наш словарь как у LLM — опять же можно масштабировать модели и делать генеративное обучение как в llm

3. Рекомендации в один шаг🦵
Классика рекомендаций: отбираем топ-1к товаров-кандидатов легкой моделью (обычно двухбашенная модель: вектор юзера х вектор товара + инференс через faiss). Затем переранжируем более тяжелой моделью. Из-за такой схемы на первом этапе кандидатогегерации могут теряться релевантные товары

OneRec объединили генерацию кандидатов, ранжирование и еще реранкер по разнообразию в один шаг! Честно говоря, сам еще продолжаю разбираться: там серия из 5 статей страниц на 200. Но это явно будет hot topic и в 2026

4. LLM-ки нашли свое место в RecSys 🧐
Нам долго обещали, что LLM заменят чисто рекомендательные модели, но нет. Попыток было много, в итоге пришли к компромиссу: LLM генерит «интерес пользователя» текстом (одежда для походов, декор в японском стиле), а более классические recsys модели - товары внутри этих интересов. Вариантов реализации много, мне нравится RecGPT: можно считать в оффлайн, не так много запросов к llm (ну как.. 10-100М, а не миллиарды-триллионы), можно прикручивать SGR и другие приятности


Хотя бы одно из этих улучшений внедрено в прод хорошо если в 10-20 компаниях в мире, с огромными приростами метрик. Так что сейчас - самое время внедрять это у вас, если еще не успели!)

В следующей части будут продуктовые recsys & search изменения: без статей, но с картинками 🖼
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Алексей Мельников
Я пишу промпты по подсмотренной технике XML-структурирования с активационными тегами для активации доменов знаний в LLM.
В случае большого контекста (десятки тысяч токенов) ещё и якорные ссылки оставляю, чтобы была связность элементов выше.

В качестве примера мой шаблонный промпт, которым я прошу объяснить смысл песни.

<tags>
[Анализ лирики], [Поэтика], [Семиотика], [Интерпретация]
</tags>

<task>
Объясни смысл песни на русском языке.
</task>

<song>
<author></author>
<name></name>
<lyrics>

</lyrics>
</song>
Интересный кейс был недавно.

Сейчас работа без AI code assistant чувствуется так, как будто нужно пешком, иногда на велосипеде, проехать 100 км вместо того, чтобы взять машину.

Без AI уже очень сложно быть на 100% эффективным.

Конечно, ключевой вопрос — это фундаментальные знания. Например, я могу не знать ничего в мобильной разработке, но с AI смогу создать мобильное приложение.

Качество будет так себе, ведь у меня нет опыта в этом деле и AI нафантазирует за меня, сделает MVP, который вряд ли попадёт в продакшн. И самое главное — знаний у меня в мобильной разработке не прибавится.

А вот если я эксперт в какой-то области и просто хочу аутсорсить простые запросы и задачки junior (AI), и могу чётко поставить задачку с предсказуемым и проверяемым результатом, то здесь и появляется эффективность и скорость. Я держу в голове контекст, архитектуру и контролирую процесс, а бездушная машина печатает мои мысли и валидирует их через MCP или CLI.

То есть иметь AI IDE — это такой base line. Это не про co-pilot для каждого сотрудника, которые там будут спрашивать про погоду.

Теперь про мой кейс.
Что делать, если AI IDE заблокированы. ChatGPT и Anthropic заблокированы, и есть только Copilot в Teams (бесплатная версия).

Для начала добываем VSCode — лучший бесплатный IDE. Дальше нам надо поставить плагины, тут есть две опции:
• Cline
• KiloCode

Очевидно, API Claude закрыт, но у меня есть API ключ. Бесплатный copilot рассказал мне про сервис — Openrouter.ai

OpenRouter.ai — это универсальная платформа-агрегатор, которая предоставляет единый API-доступ к более чем 400 языковым моделям искусственного интеллекта от различных провайдеров (OpenAI, Anthropic, Google, Meta, Mistral и других).


Сервис позволяет зарегистрироваться бесплатно, и у него собственный API Gateway. В нём я добавил свой Claude API ключ и подключил OpenRouter в KiloCode как провайдера. Задача для меня решена.

Картинки из OpenRouter.
Forwarded from Pavel Zloi
Вайб-код StarterKit - как эффективно писать код на `auto` агенте

Всем привет! Сегодня расскажу про некоторые мои промты, которые я использую для вайбкодинга, они сильно упрощают процесс разработки и повышают точность агентов, благодаря чему можно использовать даже слабые и self-hosted модели.

Инициализация

Обычно если мне нужно быстро разобраться в каком-то новом проекте написанном на python, или же беру в работу новую фичу, я прошу Cursor:
Изучи код, документацию и тесты, `venv` в .venv, запускать тесты через `pytest`, выполни тесты, попытайся разобраться что и как работает, напиши краткий отчёт.

Это позволяет прогреть контекс перед началом работы.

Генерация правил

Если проект новый или старый и у него нет правил Cursor Rules то я прошу курсор сгенерировать правила работы с проектом (к сожалению авторы в 2.0 решили убрать эту фичу, но можно описать, как генерировать правила самостоятельно и всё будет окей).

Тут очень важно у вас в корне проекта были текстовые спецификации проекта подготовленные заранее, либо как вариант актуальная документация.

Желательно чтобы в спеках или доке была информация об архитектуре, о том какую бизнес-задачу решает система, от каких компонентов система зависит и каким образом предполагается пользователям с ней взаимодействовать. Нефункциональные требования тоже будут плюсом, это чуть уменьшит полёт фантазии модели.

Пример промта смотри на GitHub, а в моих более ранних сообщениях (раз, два, три) на тему вайбкода будут подробности.

Исправление бага

В случае если нужно решить какой-то баг на прогретом контексте пишем текстом, что нужно исправить и далее такую вот простенькую инструкцию:
<описание бага>

Сначала напиши тест воспроизводящий данный баг, выполни его и убедись, что ошибка действительно есть, потом пиши код исправляющий ошибку и выполни тест, вноси исправления до тех пор, пока новый тест не заработает, выполни прогонку всех тестов и если они все зелёные пиши краткий отчёт о проделанной работе.


Финальная прогонка

Перед тем как коммитать файлы в репозиторий я прошу курсор выполнить следующее:
Используя `pre-commit run -a` выполни проверку всех файлов, в случае возникновения ошибок внеси корректировки в соответствии с рекомендациями линтеров.

Предполагаю, что у меня уже настроен pre-commit, который тригерит хуки ruff, flake8, docformatter, mdformat и так далее.

Итог

Надеюсь эти промты пригодятся и вам, репозиторий с промтами на GitHub.

UPD. Добавил в реп примеры моих cursor rules, которые мигрируют из проекта в проект.
Forwarded from Pavel Zloi
Ну что ж, Новый год уже на носу, поэтому я с подарочками.

Вы, возможно, помните замечательный проект sgr-agent-core, в котором я участвую. Так вот, мы с командой очень старались и запилили большое обновление 0.5.0!

Главная цель этого релиза была в том чтобы максимально упростить для пользователей развёртывание и вход в проект. Теперь можно поставить всё одной командой:
pip install sgr-agent-core

После установки появляется возможность запустить локальный API-сервер командой:
sgr

Да, конечно, понадобится подготовить конфигурационный файл и настроить модели через конфиг, но мы как раз запилили документацию, так что всё стало сильно проще и понятнее.

Лично мне в этом релизе очень хотелось добиться ситуации, когда проект можно использовать примерно как docker compose, то есть максимально просто и удобно, без лишних сложностей, а именно запилил нужные тулзы, описал то, как работают агенты в конфиге, подкинул промпты и вуаля, у вас в распоряжении API-шка, совместимая с любым OpenAI-клиентом, только с SGR под капотом.

Надеюсь, вы оцените мой скромный вклад в то, что оно ощущается теперь именно так.

По ходу разработки нам стало пилить проект заметно проще, благодаря Валерию @neuraldeep удалось заручиться поддержкой ребят из red_mad_robots! Так что теперь у нас нет ограничений по инференсу и вычислительным ресурсам, и дело пошло с очень мощным бустом.

Отдельное спасибо всем, кто участвовал в подготовке релиза, а именно:

- Артёму @virrius (и да - подписывайтесь на его канал @virrius_tech) за кропотливый труд и внимание к моему, скажем так, вайбкоду ;)
- Михаилу @mixaill76 - за помощь с упаковкой в python-пакет и оптимизацию пайплайнов тестирования и деплоя
- Новичкам проекта SnakeOilSalesman и igorvolk1961 за помощь в приведении кодовой базы в порядок

Вот такой вот отличный релиз получился, прямо вам под новогоднюю ёлку 🎄

Всех с наступающими праздниками и длинными выходными!
Please open Telegram to view this post
VIEW IN TELEGRAM