Написал ещё одну статейку, на этот раз про то, как собрать browser-use на голой LLM 🤗
https://habr.com/ru/articles/943692/
https://habr.com/ru/articles/943692/
Хабр
Порулить браузером через LLM: пишем AI-агента в стиле «browser-use» на ванильной LLM без фреймворков
Привет! Не успел мир договориться, что вообще подразумевать под агентами, как в инфополе обычные агенты заменились аж сразу мультиагентными системами. Обычно большинство статей про агентов начинаются...
👍5🔥3👻1
С самого начала года у меня было желание забенчмаркать фреймворки для агентов. Но оказалось, что сравнить их все вместе не самая простая задачка. Ее я и попытался решить в новой статейке на хабре, где описана задача, сложности и в конце — большой обзор на все более-менее известные на сейчас фреймворки.
https://habr.com/ru/articles/953226/
https://habr.com/ru/articles/953226/
Хабр
Зоопарк фреймворков для AI-агентов: как выбрать подходящий — делаем бенчмарк и большое сравнение
Привет! В этой статье я детально разберу основные фреймворки для AI-агентов, попробую их побенчить и детально распишу их плюсы и минусы. Если вы подступались к агентам, то первым вопросом наверняка...
👍6👀2🔥1
Неделю назад OpenAI выкатили свой новый протокол Agentic Commerce Protocol, который позволяет продавцам сгружать товары в ChatGPT, а пользователя этим товары нативно покупать.
Сам протокол достаточно понятен: есть товарные фиды, есть три эндпоинта, которые фиксируют заказ, выдают rich-state-cart (то есть всю инфу о транзакции за раз), есть интересный момент про одноразовые токены, жестко привязанные к продавцу и товару.
Штука интересна даже не столько сама по себе, сколько тем, что очень похожую вещь в середине сентября выкатил Google, а значит американский бигтех очень верит в агентный/LLMный еком и это неизбежно отразится на всех нас.
Больше деталей в статье на хабре:
https://habr.com/ru/articles/953640/
Сам протокол достаточно понятен: есть товарные фиды, есть три эндпоинта, которые фиксируют заказ, выдают rich-state-cart (то есть всю инфу о транзакции за раз), есть интересный момент про одноразовые токены, жестко привязанные к продавцу и товару.
Штука интересна даже не столько сама по себе, сколько тем, что очень похожую вещь в середине сентября выкатил Google, а значит американский бигтех очень верит в агентный/LLMный еком и это неизбежно отразится на всех нас.
Больше деталей в статье на хабре:
https://habr.com/ru/articles/953640/
Хабр
ChatGPT как главный маркетплейс планеты: разбираем OpenAI Agentic Commerce Protocol
Не так давно OpenAI анонсировала Instant Checkout и затем опубликовала Agentic Commerce Protocol — два важных изменения, которые могут качественно повлиять на то, как будет выглядеть еком в ближайшие...
👍4❤1👏1
Пока ночью курсор пыхтел над моим одним интересным проектом, параллельно прочитал хорошую статью о методах оценки LLM, которую захотелось перевести на русский. Если вы так или иначе занимаетесь оценкой или разработкой LLM (а у меня половина окружения плюс-минус такое), то прям экстра-нового в ней ничего не будет, но как хорошая систематизация — вполне неплохо.
Но если тема оценок (или как модно говорить evals) интересна или хочется-таки на уровне фундамента понять как подбирать LLMку под себя, то может быть очень интересно.
https://habr.com/ru/articles/953684/
Но если тема оценок (или как модно говорить evals) интересна или хочется-таки на уровне фундамента понять как подбирать LLMку под себя, то может быть очень интересно.
https://habr.com/ru/articles/953684/
Хабр
Понимание оценки LLM: детальный разбор 4 основных подходов
Привет! Вчера вышла отличная статья от Себастьяна Рашки, которая детально разбирает основные способы оценки LLM-моделей. Глобально их можно разделить на 4 категории: оценка по бенчмаркам,...
👍4❤1
Forwarded from Neural Shit
This media is not supported in your browser
VIEW IN TELEGRAM
Чот аж в голосину порвался с этой олимпиады
😁9👨💻2
Всегда было интересно насколько много накладных расходов генерит MCP. Поигрался на выходных с замерами и оформил статейку на хабре:
https://habr.com/ru/articles/956150/
Короткие выводы: протокол достаточно неплох и совершенно не такой пожиратель токенов, как про него поговаривают
https://habr.com/ru/articles/956150/
Короткие выводы: протокол достаточно неплох и совершенно не такой пожиратель токенов, как про него поговаривают
Хабр
Пожиратель токенов (или нет): анатомия протокола MCP для ИИ-агентов
Поводом написания этой статьи послужил подслушанный диалог: — А на чем у вас агенты написаны? — У нас на MCP! Для меня MCP всегда был просто протоколом , то есть именно способом отправки и обработки...
👍4🔥3
LangChain 🦜 — самый популярный и узнаваемый фреймворк для агентизации и LLM-based проектов. Но вокруг него настолько много других Lang-что-то-там проектов, что сходу непонятно как их отличать (легко, на самом деле).
Написал фундаментальную статейку, в которой покопался внутри LangChain, сравнил его по архитектурке с LangGraph и кратко прошелся по другим важным проектам экосистемы.
Надеюсь, после статьи не останется вопросов а чем же все это друг от друга отличается 🤗
Приятного чтения!👍
https://habr.com/ru/articles/956940/
Написал фундаментальную статейку, в которой покопался внутри LangChain, сравнил его по архитектурке с LangGraph и кратко прошелся по другим важным проектам экосистемы.
Надеюсь, после статьи не останется вопросов а чем же все это друг от друга отличается 🤗
Приятного чтения!
https://habr.com/ru/articles/956940/
Please open Telegram to view this post
VIEW IN TELEGRAM
Хабр
От LangChain к LangGraph: детально разбираемся с фреймворками и всей Lang-экосистемой
LangChain или LangGraph? Какой фреймворк для ии-агентов выбрать? А может быть LangSmith? Или LangFuse? LangFlow? Если вы сходу не отличаете все эти Lang между собой или просто хочется побольше узнать...
👍9
И еще один разбор фреймворка, на этот раз CrewAI. Самый простой, компактный, продуманный и заточенный под множество агентов. И эта мультиагентность реально за 20 строк кода (потом, правда, начинаются скучные вопросы про эффективность, evals и всякое разное агентное, но все же).
https://habr.com/ru/articles/957384/
https://habr.com/ru/articles/957384/
Хабр
Мультиагентный фреймворк CrewAI: разбор архитектуры и внутренностей
CrewAI — фреймворк интересный. Он похож на самый быстрый способ удивить своего босса: легкий, у него очень низкий порог входа, он по дизайну нацелен на мультиагентность и из него можно очень быстро...
👍6👀1💅1
Агенты - это все замечательно, но их невозможно сделать без LLM, а значит хорошее понимание всей ллмной внутрянки дает огромное преимущество в построении классных продуктов.
В блоге vLLM вышла хардкорная статья об их внутренним устройстве. А так как vLLM я горячо люблю, а статья действительно крутая, то сделал ее перевод. Упахался с англицизмами, нюансами и деталями, но оно того стоило🤙
https://habr.com/ru/articles/957748/
В блоге vLLM вышла хардкорная статья об их внутренним устройстве. А так как vLLM я горячо люблю, а статья действительно крутая, то сделал ее перевод. Упахался с англицизмами, нюансами и деталями, но оно того стоило
https://habr.com/ru/articles/957748/
Please open Telegram to view this post
VIEW IN TELEGRAM
Хабр
Внутри vLLM: Анатомия системы инференса LLM с высокой пропускной способностью
Привет! Этот пост — перевод очень хардовой статьи про внутренности vLLM и того, как устроен инференс LLM. Переводить было сложно из-за англицизмов и отсутствия устоявшегося перевода многих терминов,...
👍11
Привет! И еще один перевод феноменальной статьи, на этот раз про особенности архитектур открытых LLM. Картиночки у автора (с прекрасной фамилией Рашка) просто огненные. Максимально рекомендую полистать хотя бы просто для общего развития.
Там будет DeepSeek V3/R1, OLMo 2, Gemma 3, Mistral Small 3.1, Llama 4, Qwen3, SmolLM3, Kimi K2, GPT-OSS, Grok 2.5, GLM-4.5, Qwen3-Next.
https://habr.com/ru/articles/958880/
Там будет DeepSeek V3/R1, OLMo 2, Gemma 3, Mistral Small 3.1, Llama 4, Qwen3, SmolLM3, Kimi K2, GPT-OSS, Grok 2.5, GLM-4.5, Qwen3-Next.
https://habr.com/ru/articles/958880/
Хабр
Большое сравнение архитектур LLM
Это перевод классной статьи с детальным обзором архитектур главных опенсорсных LLM: очень структурировано, доходчиво и с изумительными картиночками. И такой обзор просто обязан быть на русском языке....
👍6🔥2
Векторные базы - классная штука, постарался сделать общий обзор в виде статьи на хабре на все, что сейчас представлено на рынке. Упор через призму RAG и AI-агентов, на все ушла пара бессонных ночей, но вышло, кажется, вполне неплохо.
В статье - про эмбединги, требования к векторным базам, инструмент бенчмаркинга, про индексы и сами базы.
https://habr.com/ru/articles/961088/
В статье - про эмбединги, требования к векторным базам, инструмент бенчмаркинга, про индексы и сами базы.
https://habr.com/ru/articles/961088/
Хабр
Выбираем векторную БД для AI-агентов и RAG: большой обзор баз данных и поиск смысла
В этой статье я сделал обзор основных векторных баз данных: Milvus, Qdrant, Weaviate, ChromaDB, pgvector, Redis, pgvectorscale, LanceDB, ClickHouse, Vespa, Marqo, ElasticSearch. Если вы запутались в...
🔥8👍6
- Я самый технологичный гуманоидный робот, из всех что ты видел
- Ага слуш пива принеси да
На прошлой неделе по социуму завирусился робот 1X (̶б̶е̶т̶ ̶с̶т̶а̶в̶к̶и̶ ̶н̶а̶ ̶с̶п̶о̶р̶т̶)̶ NEO, который может выполнять любую работу по дому. Сейчас большинство таких операций выполняет не AI, а VR-оператор, но мне стало жутко интересно покопаться поглубже во внутрянке. Потому что фактически это оболочка, в которую можно поместить этихвотсамых AI-агентов.
Разобрал что внутри по софту, по железкам и датчикам, как это устроено и почему чуваки в целом делают супер крутую штуку и караван должен идти дальше.
Полный обзор:
https://habr.com/ru/articles/963020/
- Ага слуш пива принеси да
На прошлой неделе по социуму завирусился робот 1X (̶б̶е̶т̶ ̶с̶т̶а̶в̶к̶и̶ ̶н̶а̶ ̶с̶п̶о̶р̶т̶)̶ NEO, который может выполнять любую работу по дому. Сейчас большинство таких операций выполняет не AI, а VR-оператор, но мне стало жутко интересно покопаться поглубже во внутрянке. Потому что фактически это оболочка, в которую можно поместить этихвотсамых AI-агентов.
Разобрал что внутри по софту, по железкам и датчикам, как это устроено и почему чуваки в целом делают супер крутую штуку и караван должен идти дальше.
Полный обзор:
https://habr.com/ru/articles/963020/
Хабр
Тело AI-агентов: технический обзор робота 1X Neo
На днях по AI пабликам завирусился робот 1X Neo, который заявляется разработчиками как человекоподобный робот для помощи по дому. Мне стало жутко интересно покопаться в устройстве и начинке этого...
👍5🔥4
На днях у одного из моих любимых авторов вышла новая крутая статья, посвященная альтернативам классическому трансформеру в LLM. Она очень интересная, поэтому сделал ее перевод. Будет про гибриды с линейным вниманием, диффузионные LLM, модели мира и малые рекурсивные трансформеры.
https://habr.com/ru/articles/964658/
https://habr.com/ru/articles/964658/
Хабр
Не только трансформеры: за пределами стандартных архитектур LLM
Привет! Это перевод очень крутой и захватывающей статьи, в которой автор рассматривает альтернативные архитектуры LLM: гибриды с линейным вниманием, диффузионные LLM, модели мира и малые рекурсивные...
👍7👏2
На днях OpenAI опубликовали в своем блоге небольшую статью с достаточно громким названием «How evals drive the next chapter in AI for businesses». Я сделал ее перевод, чуть адаптировав для лучшей читабельности, потому что в прямом переводе получался сложночитаемый булшит.
Если вы знаете, что такое бейзлайн и как делаются бенчмарки, то можно не читать, но в целом как легкое напоминание о важности постоянной оценки шагов выполнения LLM-based штук — вполне ничего 🤗
https://habr.com/ru/articles/969358/
Если вы знаете, что такое бейзлайн и как делаются бенчмарки, то можно не читать, но в целом как легкое напоминание о важности постоянной оценки шагов выполнения LLM-based штук — вполне ничего 🤗
https://habr.com/ru/articles/969358/
Хабр
LLM Evals: движущая сила новой эры ИИ в бизнесе
На днях OpenAI опубликовали в своем блоге небольшую статью с достаточно громким названием «How evals drive the next chapter in AI for businesses». Я сделал ее перевод, чуть адаптировав для лучшей...
👍6👏3🔥2
В четверг выступал офлайн в бизнес день на главной конфе Сбера по ИИ — AI Journey.
Рассказывал как мы делаем AI-First аналитику и как трансформируется работа аналитиков и принятие решение.
Перфоманс оцениваю на четверку с небольшим плюсом: выступил ок, но готовиться было ну очень сложно из-за сильно размытой аудитории — нужно было и про бизнес, и попросили про техничку, но технички не так чтобы много, потому что все же про бизнес — и вооот это все нужно было уместить в 15 минут.
Единственное, чтобы добавил — на финальные слайды рядом с трейсингом надо было вынести те самые Evals, хотя я про них и в целом говорил. И в ответах на вопросы я сказал, что верю в голос как важный интерфейс общения с агентами - это почти так, я верю в сквозные интерфейсы, где стартовой точкой является голос, а дальше все нам привычное. Очень хочу раскрыть это как-то отдельным постом позже.
Ну и прикольно, что компания выступающих была очень мощная — босс по ИИ в Т-Банке Виктор Тарнавский, директор по ИИ Авито Андрей Рыбинцев, руководитель Yandex Cloud Григорий Атрепьев — вот их я тоже рекомендую посмотреть — ну и многие другие до и после.
Ссылка на выступление:
https://aij.ru/program?concreteDate=2025-11-20&streamId=46&topicId=1271
Рассказывал как мы делаем AI-First аналитику и как трансформируется работа аналитиков и принятие решение.
Перфоманс оцениваю на четверку с небольшим плюсом: выступил ок, но готовиться было ну очень сложно из-за сильно размытой аудитории — нужно было и про бизнес, и попросили про техничку, но технички не так чтобы много, потому что все же про бизнес — и вооот это все нужно было уместить в 15 минут.
Единственное, чтобы добавил — на финальные слайды рядом с трейсингом надо было вынести те самые Evals, хотя я про них и в целом говорил. И в ответах на вопросы я сказал, что верю в голос как важный интерфейс общения с агентами - это почти так, я верю в сквозные интерфейсы, где стартовой точкой является голос, а дальше все нам привычное. Очень хочу раскрыть это как-то отдельным постом позже.
Ну и прикольно, что компания выступающих была очень мощная — босс по ИИ в Т-Банке Виктор Тарнавский, директор по ИИ Авито Андрей Рыбинцев, руководитель Yandex Cloud Григорий Атрепьев — вот их я тоже рекомендую посмотреть — ну и многие другие до и после.
Ссылка на выступление:
https://aij.ru/program?concreteDate=2025-11-20&streamId=46&topicId=1271
🔥9👍4🤯1
Написал вчера пост про LLM Observability и трейсинг агентов 🤗
Основное:
1) Почему обычных инструментов уже не хватает для LLM
2) Про попытки изобретения стандарта трейсинга агентов
3) Основные типы трейсов
4) Обзор ключевых инструментов (как обычно в топе что-то из экосистемы Lang)
5) По верхам про архитектурные изменения и основныхе проблемы агентов
Максимально попытался уложить больше смыслов в текст, поэтому глубоко рекомендую!
https://habr.com/ru/articles/972480/
Основное:
1) Почему обычных инструментов уже не хватает для LLM
2) Про попытки изобретения стандарта трейсинга агентов
3) Основные типы трейсов
4) Обзор ключевых инструментов (как обычно в топе что-то из экосистемы Lang)
5) По верхам про архитектурные изменения и основныхе проблемы агентов
Максимально попытался уложить больше смыслов в текст, поэтому глубоко рекомендую!
https://habr.com/ru/articles/972480/
Хабр
LLM Observability & AI Agent Tracing: большой гайд с обзором подходов и open-source решений
В этой статье я структурировал весь опыт и подходы к тому, как мониторить и трейсить LLM и AI-агентов на их основе. Это очень большая и тяжелая статья, но мне хотелось полностью закрыть всю тему за...
👍6🔥3
Три самые постоянные вещи в мире — оливье с мандаринами на Новый год🍊🌲, желание начать новую жизнь с понедельника🏃💪 и то, что если выходит статья Себастьяна Рашки, то я делаю ее качественный перевод на русский 🤩 🤩 🤩
Особенно прикольно, что она про дипсик, — а я очень люблю то, как китайцы делают свои модели и как описывают этот процесс. Сделал перевод крутейшей технической статьи о внутренностях нового DeepSeek V3.2 и о том, как команда архитектурно к нему пришла:
https://habr.com/ru/articles/973954/
Особенно прикольно, что она про дипсик, — а я очень люблю то, как китайцы делают свои модели и как описывают этот процесс. Сделал перевод крутейшей технической статьи о внутренностях нового DeepSeek V3.2 и о том, как команда архитектурно к нему пришла:
https://habr.com/ru/articles/973954/
Please open Telegram to view this post
VIEW IN TELEGRAM
Хабр
Технический обзор моделей DeepSeek от V3 до V3.2
Три самые постоянные вещи в мире — оливье с мандаринами на Новый год, желание начать новую жизнь с понедельника и то, что если выходит статья Себастьяна Рашки, то я делаю ее качественный перевод на...
👍7🔥4😁1💯1
Сегодня первый раз за много месяцев решил пока не продлевать подписку на Сursor, ушла эпоха 😀
Курсор очень люблю за революции в синхронизации понимания. Когда вместо тысячи слов и синков, вместо фигм или тикетов можно было быстренько "накурсорить" (термин - оставляем!) любой прототип, на нем обкатать ожидания и правильное понимание концепта со всех заинтересованных сторон и только после этого браться за что-то серьезнее. Это - супер круто.
Курсором я в целом был доволен, но из включенных моделей у меня всегда были только модели антропика. И пару дней назад поставил себе нативный Claude Code и решил, что поживу пока с ним.
Нет, по ощущениям он не сильно лучше - все так же плодит кучу ненужных файлов и десятки описаний, выжигая все токены, сворачивает совсем не туда, вызывает порывы на него наорать матом, жестко тупит и периодически выпиливает важные вещи из проекта (типа коннекторов к постгресу, с%ка!). Может быть, в стоке он даже хуже - модели Claude без правильной подготовки слишком много базарят(с) не по делу уже ПОСЛЕ ответа на вопрос. Но пока посижу месяц на такой нативке.
Из минусов - работает только с VPN, а курсор без. Еще из плюсов (но и сразу минусов) - Claude Code включен в общую платную подписку, с которой у него общий шаринг токенов - а с моими хотелками я быстро выбил лимит в коде и остался без любимой ллмки в вебе.
Вообщем, веду наблюдение! Как говорят на маркетплейсах, "пока не пользовался, но ставлю пятерку, через месяц отзыв обновлю" 😀
Курсор очень люблю за революции в синхронизации понимания. Когда вместо тысячи слов и синков, вместо фигм или тикетов можно было быстренько "накурсорить" (термин - оставляем!) любой прототип, на нем обкатать ожидания и правильное понимание концепта со всех заинтересованных сторон и только после этого браться за что-то серьезнее. Это - супер круто.
Курсором я в целом был доволен, но из включенных моделей у меня всегда были только модели антропика. И пару дней назад поставил себе нативный Claude Code и решил, что поживу пока с ним.
Нет, по ощущениям он не сильно лучше - все так же плодит кучу ненужных файлов и десятки описаний, выжигая все токены, сворачивает совсем не туда, вызывает порывы на него наорать матом, жестко тупит и периодически выпиливает важные вещи из проекта (типа коннекторов к постгресу, с%ка!). Может быть, в стоке он даже хуже - модели Claude без правильной подготовки слишком много базарят(с) не по делу уже ПОСЛЕ ответа на вопрос. Но пока посижу месяц на такой нативке.
Из минусов - работает только с VPN, а курсор без. Еще из плюсов (но и сразу минусов) - Claude Code включен в общую платную подписку, с которой у него общий шаринг токенов - а с моими хотелками я быстро выбил лимит в коде и остался без любимой ллмки в вебе.
Вообщем, веду наблюдение! Как говорят на маркетплейсах, "пока не пользовался, но ставлю пятерку, через месяц отзыв обновлю" 😀
👍5😁5👏2👎1