Agentic World
513 subscribers
23 photos
1 video
20 links
Про AI, LLM, агентов, продукты и людей
Download Telegram
С самого начала года у меня было желание забенчмаркать фреймворки для агентов. Но оказалось, что сравнить их все вместе не самая простая задачка. Ее я и попытался решить в новой статейке на хабре, где описана задача, сложности и в конце — большой обзор на все более-менее известные на сейчас фреймворки.

https://habr.com/ru/articles/953226/
👍6👀2🔥1
В честь пятницы: как я себя чувствую, когда люди, едва знакомые с разработкой и LLM, говорят что им надо срочно сделать ИИ-агента
🤣5😁4💯2
Неделю назад OpenAI выкатили свой новый протокол Agentic Commerce Protocol, который позволяет продавцам сгружать товары в ChatGPT, а пользователя этим товары нативно покупать.

Сам протокол достаточно понятен: есть товарные фиды, есть три эндпоинта, которые фиксируют заказ, выдают rich-state-cart (то есть всю инфу о транзакции за раз), есть интересный момент про одноразовые токены, жестко привязанные к продавцу и товару.

Штука интересна даже не столько сама по себе, сколько тем, что очень похожую вещь в середине сентября выкатил Google, а значит американский бигтех очень верит в агентный/LLMный еком и это неизбежно отразится на всех нас.

Больше деталей в статье на хабре:
https://habr.com/ru/articles/953640/
👍41👏1
Пока ночью курсор пыхтел над моим одним интересным проектом, параллельно прочитал хорошую статью о методах оценки LLM, которую захотелось перевести на русский. Если вы так или иначе занимаетесь оценкой или разработкой LLM (а у меня половина окружения плюс-минус такое), то прям экстра-нового в ней ничего не будет, но как хорошая систематизация — вполне неплохо.

Но если тема оценок (или как модно говорить evals) интересна или хочется-таки на уровне фундамента понять как подбирать LLMку под себя, то может быть очень интересно.

https://habr.com/ru/articles/953684/
👍41
Это невыносимо прекрасно, и, как говорится, what a time to be alive 😀
🔥3💯2
Forwarded from Neural Shit
This media is not supported in your browser
VIEW IN TELEGRAM
Чот аж в голосину порвался с этой олимпиады
😁9👨‍💻2
Всегда было интересно насколько много накладных расходов генерит MCP. Поигрался на выходных с замерами и оформил статейку на хабре:
https://habr.com/ru/articles/956150/

Короткие выводы: протокол достаточно неплох и совершенно не такой пожиратель токенов, как про него поговаривают
👍4🔥3
LangChain 🦜 — самый популярный и узнаваемый фреймворк для агентизации и LLM-based проектов. Но вокруг него настолько много других Lang-что-то-там проектов, что сходу непонятно как их отличать (легко, на самом деле).

Написал фундаментальную статейку, в которой покопался внутри LangChain, сравнил его по архитектурке с LangGraph и кратко прошелся по другим важным проектам экосистемы.

Надеюсь, после статьи не останется вопросов а чем же все это друг от друга отличается 🤗

Приятного чтения! 👍

https://habr.com/ru/articles/956940/
Please open Telegram to view this post
VIEW IN TELEGRAM
👍9
И еще один разбор фреймворка, на этот раз CrewAI. Самый простой, компактный, продуманный и заточенный под множество агентов. И эта мультиагентность реально за 20 строк кода (потом, правда, начинаются скучные вопросы про эффективность, evals и всякое разное агентное, но все же).

https://habr.com/ru/articles/957384/
👍6👀1💅1
Агенты - это все замечательно, но их невозможно сделать без LLM, а значит хорошее понимание всей ллмной внутрянки дает огромное преимущество в построении классных продуктов. 

В блоге vLLM вышла хардкорная статья об их внутренним устройстве. А так как vLLM я горячо люблю, а статья действительно крутая, то сделал ее перевод. Упахался с англицизмами, нюансами и деталями, но оно того стоило 🤙

https://habr.com/ru/articles/957748/
Please open Telegram to view this post
VIEW IN TELEGRAM
👍11
Привет! И еще один перевод феноменальной статьи, на этот раз про особенности архитектур открытых LLM. Картиночки у автора (с прекрасной фамилией Рашка) просто огненные. Максимально рекомендую полистать хотя бы просто для общего развития.

Там будет DeepSeek V3/R1, OLMo 2, Gemma 3, Mistral Small 3.1, Llama 4, Qwen3, SmolLM3, Kimi K2, GPT-OSS, Grok 2.5, GLM-4.5, Qwen3-Next.

https://habr.com/ru/articles/958880/
👍6🔥2
Векторные базы - классная штука, постарался сделать общий обзор в виде статьи на хабре на все, что сейчас представлено на рынке. Упор через призму RAG и AI-агентов, на все ушла пара бессонных ночей, но вышло, кажется, вполне неплохо.

В статье - про эмбединги, требования к векторным базам, инструмент бенчмаркинга, про индексы и сами базы.

https://habr.com/ru/articles/961088/
🔥8👍6
- Я самый технологичный гуманоидный робот, из всех что ты видел
- Ага слуш пива принеси да

На прошлой неделе по социуму завирусился робот 1X (̶б̶е̶т̶ ̶с̶т̶а̶в̶к̶и̶ ̶н̶а̶ ̶с̶п̶о̶р̶т̶)̶ NEO, который может выполнять любую работу по дому. Сейчас большинство таких операций выполняет не AI, а VR-оператор, но мне стало жутко интересно покопаться поглубже во внутрянке. Потому что фактически это оболочка, в которую можно поместить этихвотсамых AI-агентов.

Разобрал что внутри по софту, по железкам и датчикам, как это устроено и почему чуваки в целом делают супер крутую штуку и караван должен идти дальше.

Полный обзор:
https://habr.com/ru/articles/963020/
👍5🔥4
В 10:00 буду вещать про то, как с нуля собрать мультиагентную систему и как оно все внутри устроено. Если вы вдруг сейчас на Highload++, то приходите в зал А3, будет прикольно! 🤖
🔥104👍1
На днях у одного из моих любимых авторов вышла новая крутая статья, посвященная альтернативам классическому трансформеру в LLM. Она очень интересная, поэтому сделал ее перевод. Будет про гибриды с линейным вниманием, диффузионные LLM, модели мира и малые рекурсивные трансформеры.

https://habr.com/ru/articles/964658/
👍7👏2
На днях OpenAI опубликовали в своем блоге небольшую статью с достаточно громким названием «How evals drive the next chapter in AI for businesses». Я сделал ее перевод, чуть адаптировав для лучшей читабельности, потому что в прямом переводе получался сложночитаемый булшит.

Если вы знаете, что такое бейзлайн и как делаются бенчмарки, то можно не читать, но в целом как легкое напоминание о важности постоянной оценки шагов выполнения LLM-based штук — вполне ничего 🤗

https://habr.com/ru/articles/969358/
👍6👏3🔥2
В четверг выступал офлайн в бизнес день на главной конфе Сбера по ИИ — AI Journey.

Рассказывал как мы делаем AI-First аналитику и как трансформируется работа аналитиков и принятие решение.

Перфоманс оцениваю на четверку с небольшим плюсом: выступил ок, но готовиться было ну очень сложно из-за сильно размытой аудитории — нужно было и про бизнес, и попросили про техничку, но технички не так чтобы много, потому что все же про бизнес — и вооот это все нужно было уместить в 15 минут.

Единственное, чтобы добавил — на финальные слайды рядом с трейсингом надо было вынести те самые Evals, хотя я про них и в целом говорил. И в ответах на вопросы я сказал, что верю в голос как важный интерфейс общения с агентами - это почти так, я верю в сквозные интерфейсы, где стартовой точкой является голос, а дальше все нам привычное. Очень хочу раскрыть это как-то отдельным постом позже.

Ну и прикольно, что компания выступающих была очень мощная — босс по ИИ в Т-Банке Виктор Тарнавский, директор по ИИ Авито Андрей Рыбинцев, руководитель Yandex Cloud Григорий Атрепьев — вот их я тоже рекомендую посмотреть — ну и многие другие до и после.

Ссылка на выступление:
https://aij.ru/program?concreteDate=2025-11-20&streamId=46&topicId=1271
🔥9👍4🤯1
Написал вчера пост про LLM Observability и трейсинг агентов 🤗

Основное:
1) Почему обычных инструментов уже не хватает для LLM
2) Про попытки изобретения стандарта трейсинга агентов
3) Основные типы трейсов
4) Обзор ключевых инструментов (как обычно в топе что-то из экосистемы Lang)
5) По верхам про архитектурные изменения и основныхе проблемы агентов

Максимально попытался уложить больше смыслов в текст, поэтому глубоко рекомендую!

https://habr.com/ru/articles/972480/
👍6🔥3
Три самые постоянные вещи в мире — оливье с мандаринами на Новый год🍊🌲, желание начать новую жизнь с понедельника🏃💪 и то, что если выходит статья Себастьяна Рашки, то я делаю ее качественный перевод на русский 🤩🤩🤩

Особенно прикольно, что она про дипсик, — а я очень люблю то, как китайцы делают свои модели и как описывают этот процесс. Сделал перевод крутейшей технической статьи о внутренностях нового DeepSeek V3.2 и о том, как команда архитектурно к нему пришла:

https://habr.com/ru/articles/973954/
Please open Telegram to view this post
VIEW IN TELEGRAM
👍7🔥4😁1💯1
Сегодня первый раз за много месяцев решил пока не продлевать подписку на Сursor, ушла эпоха 😀

Курсор очень люблю за революции в синхронизации понимания. Когда вместо тысячи слов и синков, вместо фигм или тикетов можно было быстренько "накурсорить" (термин - оставляем!) любой прототип, на нем обкатать ожидания и правильное понимание концепта со всех заинтересованных сторон и только после этого браться за что-то серьезнее. Это - супер круто.

Курсором я в целом был доволен, но из включенных моделей у меня всегда были только модели антропика. И пару дней назад поставил себе нативный Claude Code и решил, что поживу пока с ним.

Нет, по ощущениям он не сильно лучше - все так же плодит кучу ненужных файлов и десятки описаний, выжигая все токены, сворачивает совсем не туда, вызывает порывы на него наорать матом, жестко тупит и периодически выпиливает важные вещи из проекта (типа коннекторов к постгресу, с%ка!). Может быть, в стоке он даже хуже - модели Claude без правильной подготовки слишком много базарят(с) не по делу уже ПОСЛЕ ответа на вопрос. Но пока посижу месяц на такой нативке.

Из минусов - работает только с VPN, а курсор без. Еще из плюсов (но и сразу минусов) - Claude Code включен в общую платную подписку, с которой у него общий шаринг токенов - а с моими хотелками я быстро выбил лимит в коде и остался без любимой ллмки в вебе.

Вообщем, веду наблюдение! Как говорят на маркетплейсах, "пока не пользовался, но ставлю пятерку, через месяц отзыв обновлю" 😀
👍5😁5👏2👎1