Neural Kovalskii

This media is not supported in your browser

VIEW IN TELEGRAM

0:05

5.53K views09:21

❤9👍61

Neural Kovalskii

This media is not supported in your browser

VIEW IN TELEGRAM

0:06

5.19K views09:30

👍10🔥8👏4

Neural Kovalskii

Forwarded from Ethical Machines

Нужны ли стандарты оценки качества LLM-приложений и моделей?!

Сегодня появляется все больше продуктов, внутри которых используются agentic-сценарии, а RAG есть уже почти у всех. И чем сложнее становится пайплайн, тем сложнее (простите за тавтологию) и важнее контролировать его.

Когда у вас простой пайплайн, можно настроить оценку его качества и безопасности, выполнив список довольно понятных шагов:
🟣определить критерии оценки и выбрать метрики
🟣покрыть пайплайн интеграционными (а где-то юнит) тестами
🟣собрать небольшой бенч и гонять его (если тестов недостаточно)
🟣и даже настроить проверку детерминированности пайплайна

Если же вам надо оценивать пайплайн, состоящий из множества разных компонент, придется строить что-то типа Сокола Тысячетелия из Lego

🦧

И тут хочется поделиться статьей Apollo Research We Need A ‘Science of Evals’, которая содержит интересные размешления об оценке качества и безопасности (и хоть она 2024 года, все еще не потеряла своей актуальности). Ее идеи можно отразить в следующих тезисах:
🟣сейчас оценка качества больше похожа на искусство, чем на науку. Потому что результаты оценки качества сильно зависят от множества мелких деталей (например, форматирования промптов), порой вызывая колебания точности до 76 пп. Это приводит к тому, что используемые продукты становятся менее безопасными
🟣разделяют 3 этапа зрелости Eval-ов. Начальный (Nascent) — исследовательский, где отсутствуют стандарты. Промежуточный (Maturation) — появляются соглашения по лучшим практикам, но пока нет единой регуляции. Зрелый (Mature) — действуют формальные стандарты, статистическая обоснованность, результаты интерпретируемы. Мы сейчас в Т-Банке постепенно закрепляемся на этапе 2 (Maturation) и это совсем непросто
🟣и чтобы сделать свои Eval-ы Mature, вот что потребуется: описать множество четких и интерпретируемых метрик, покрыть тестами как можно больше частей пайплайна, обеспечить надежность и воспроизводимость и не забыть про статистическую значимость

Выглядит не очень тривиально, да? Потому что и так есть вопросы к бенчмаркам и оцениваемым моделям, а тут надо оценивать массивный пайплайн.

И вот буквально неделю назад вышел новый стандарт оценки качества моделей STREAM (A Standard for Transparently
Reporting Evaluations in AI Model Reports). Он предлагает формат для стандартизации тестирований моделей и представления результатов. И хоть в большей степени ориентирован на ChemBio бенчмарки, авторы пишут, что его получится использовать и для бенчмарков из других отраслей.

Скоро расскажу вам о нем подробнее, а пока дочитываю статью

Please open Telegram to view this post

VIEW IN TELEGRAM

👍15🔥6❤2💯2

5.06K views11:20

Neural Kovalskii

Circuit Tracing от Anthropic: как мы в R&D by red_mad_robot решили заглянуть внутрь LLM при использовании в RAG-пайплайнах

Ищем галлюцинации под микроскопом!

29 мая Anthropic выложили в open-source свои инструменты Circuit Tracing методологию механической интерпретируемости, которую мы в R&D подразделении red_mad_robot первыми применили для решения практической задачи детекции галлюцинаций в RAG-системах!

В начале 2025 года, когда я возглавил новое R&D направление, я поставил амбициозную задачу: не просто оценивать качество ответов LLM "снаружи", а заглянуть внутрь процесса генерации и понять, откуда берутся галлюцинации.

Почему именно RAG-пайплайны и Circuit Tracing?

Проблема была очевидна: RAG-системы часто смешивают информацию из контекста с "внутренними знаниями" модели, создавая правдоподобные, но неточные ответы
Существующие методы детекции работают post-factum, а нам нужно было понять механизм принятия решений в реальном времени

Circuit Tracing от Anthropic давал именно это возможность построить атрибуционные графы и проследить, как токены входного контекста влияют на финальный ответ модели

Конкретные результаты нашего исследования

85% точность детекции галлюцинаций вот что мы получили на тестовом датасете с нашей реализацией на базе Qwen2.5-7B.

Как отмечает наш исследователь Ирина Кошкина:
"Основная идея — измерение доли влияния от токенов входа, соответствующих контексту, среди всего влияния от всех активных токенов."

Наша метрика Groundedness включает:
- Контекстную долю влияния (Gctx)
- Replacement Score — качество признаков vs ошибок
- Completeness Score — полнота объяснения через атрибуционный граф

Технические вызовы и решения

Cross-Layer Transcoders (CLT) стали ключевым компонентом системы
Вместо анализа отдельных слоев мы научились отслеживать влияние признаков между несколькими архитектурными уровнями трансформера

Основные проблемы, которые пришлось решать:
1. Вычислительная сложность процедура анализа на порядки медленнее генерации
2. Зависимость от качества обученного транскодера
3. Токен-уровневое сопоставление, приводящее к ложным срабатываниям

Но результат того стоил мы получили рабочий инструмент для анализа внутренних процессов модели во время генерации ответов в RAG-системах

Отдельное спасибо отделу маркетинга red_mad_robot за подготовку детальной статьи оформления и валидации на Хабре

Отдельное спасибо Саше (@dealerAI) за экспертную валидацию нашей гипотезы на старте проекта

Когда предлагаешь исследовать "атрибуционные графы для детекции галлюцинаций в RAG", поддержка опытных друзей по цеху критически важна для получения ресурсов и мотивации команды

Полный технический разбор с кодом, формулами и результатами экспериментов доступен в нашей статье на Хабре закидываем в закладки и ставим +

Хабр

Circuit Tracing: как заглянуть в галлюцинации модели и найти там смысл

Всем привет! Меня зовут Ирина, я NLP-инженер в red_mad_robot, занимаюсь научными исследованиями интерпретируемости LLM и анализом механизмов внутренних вычислений моделей, чтобы применять полученные...

🔥46❤20👍14🤔1

11.9K viewsedited 09:50

Neural Kovalskii

Про AI-комьюнити: где ваш код, "эксперты"?

О наболевшем!)

Что мы реально выпустили за полгода

Без Артема ничего бы не получилось https://t.iss.one/virrius_tech ты крут!

SGR Deep Research 494 звезд и 87 форков, MIT лицензия

WhisperX с фронтендом 16,437 строк кода, 30 звезд и 8 форков

speechcoreai.com

Продуктовое решение на базе прототипа 800 пользователей сделали 12к транскрибов бесплатно

SearXNG Tavily Adapter бесплатная замена Tavily, 90 звезд и 10 форков

RAG-бот 2к человек задали вопросы, 8к ответов выдано

Итого: ~614, 105форков, 800 активных пользователей, 12к транскрибов, 2к пользователей бота это я еще не беру 2-3 бота в которых я перестал считать метрики изредка слежу

Что бесит лично меня?

Выпускаю SGR
Диванный критик такой:"Манипуляция результатами" "XML методика лучше"

Публикую Circuit Tracing "Думал об этом год назад" "Хайпитесь на Anthropic"

Выпускаем WhisperX фронтенд "Тривиально" "За вечер сделаю"

Факты жестче слов: 87 форков SGR, 85% accuracy у Circuit Tracing (первые в мире!), 800 человек реально пользуются транскрибатором каждый

Мир аббревиатур vs реальный код

Хейтеры оперируют: RAG LLM SGR MCP CoT RLHF, SHMEX
"Я знаю все аббревиатуры значит я эксперт"

Делают презентации со схемами, скрины из IDE с блюром, ведут в личку за платной консультацией
Говорят: "Anthropic туфта OpenAI туфта всё туфта"

Результат: 0⭐️ на GitHub, 0 строк кода, 0 реальных пользователей

Те кто реально пушат vs те кто критикует

Честно говоря, заметил и такой паттерн все хейтеры которые реально что-то делают, пришли и начали пилить SGR вместе с нами!

А те кто сидит в закрытых тусовках (ой их забанили везде) переходят на личности, копипастят ответы из LLM, не могут спорить по существу

У них нет кода есть только апостол в виде LLM с которым они советуются =)

Выбор который делаю каждый раз я

Вариант А: Потратить 2-3 часа на споры в комментах, пойти на поводу, отвечать, думать, крутить результат ноль потраченные нервы

Вариант Б: Те же 2-3 часа потратить на код получить +1⭐️ и +10 пользователей

Всегда выбираю Б

Я лично все больше чувствую что хейт реален борьба с json стетхами реальна
Но код реальнее всего!

Он реальнее любой простыни в корнетах или поста хейта

Вот зачем я занимаюсь open-source!

Мой критерий простой
Цитаты великих из двора

Говорить легко делать сложно

Для тех кто делает и получает хейт и это тоже показатель

Пушите код спите больше

Ваши результаты говорят громче любого хейта

Репо живут здесь:
https://github.com/vamplabAI/sgr-deep-research
https://github.com/vakovalskii/whisperx-fronted-docker-compose
https://github.com/vakovalskii/searxng-docker-tavily-adapter

Продукты работают:
https://speechcoreai.com/ (800 пользователей 12к транскрибов)
@neuraldeepbot (2к пользователей 8к ответов)

Вы на какой стороне вы где коммит звезды пользователи 👍 или из тех кто "я бы лучше" но не сделал?

Объявляю сбор интересный проектов под этим постом ваших, личных GitHub проектов

Обсудим
Изучим
Дадим советов

Соберем подборку выпущу пост!

119🔥92👍40❤1810

8.99K viewsedited 18:05

Neural Kovalskii

Forwarded from О чем молчит AI CTO

После освоения AI-инструментов

Послушал лекцию Александра Крайнова (директор по развитию ИИ в «Яндексе») для студентов Иннополиса — зацепила простая мысль: выбор конкретной LLM уходит в прошлое. Как когда-то мы перестали переживать, каким компилятором собирать код, так и здесь — решать будет сервис.

В нашем business-аккаунте Cursor режим Auto уже стал дефолтом. Команда почти не переключается на конкретные модели — ручной выбор остаётся у энтузиастов (см. скрин).

И это не случайность. OpenAI все понимает и то же движется в эту сторону: летом компания уже пробовала с релизом GPT-5 «спрятать» ручной выбор и оставить автоподбор. Комьюнити отстояло переключатель — но, уверен, это временно.

Что меняется на практике? Смещается точка ответственности. Важно уметь чётко описать задачу (промпт), дать релевантный контекст и проверить качество ответа. Экспертиза — в дизайне запроса и оценке результата, а не в переборе моделей. Похоже, индустрия в целом идёт к меньшему ручному выбору — курс на «задача → результат» без микроменеджмента моделей.

Материалы по теме:
Пост-GPT. Что глобально ждёт индустрию после бума генеративных ИИ — лекция Александра Крайнова

1👍29🔥9🤔9💯8

5.45K views16:52

Neural Kovalskii

Forwarded from red_mad_robot

Вайб Цех: как LLM меняют практику разработки

Один день — один цех, где производство кода становится совместной работой человека и модели. 25 октября проведём митап для инженеров и исследователей, работающих с LLM и GenAI, и разберёмся, как вайб-кодинг меняет саму структуру разработки.

↗️ Валерий Ковальский (red_mad_robot) откроет программу и расскажет, как разработчик переходит от написания кода к работе с целями и промптами.

↗️ Александр Абрамов (SberAI) продолжит темой эффективности LLM — от архитектуры до обучения с подкреплением.

↗️ А Максим Скорченко (red_mad_robot) покажет, как превратить модели в инструмент управления и сместить фокус с исполнения на результат.

В завершении — панельная дискуссия с участием спикеров из SberAI, Cloud.ru и СберТех.

Изучить всю программу и зарегистрироваться можно тут.

#AI_moment #роботайм

↗️

red_mad_robot

Please open Telegram to view this post

VIEW IN TELEGRAM

1🔥20❤10🤣52

4.24K views13:58

Neural Kovalskii

Forwarded from NGI | Влад Корнышев про AI и создание AI-продуктов

Как я использовал SGR, не подозревая об этом, и почему советую вам

Сколько бы ты ни работал в какой-либо сфере, уследить за всем просто нереально. В AI буквально каждый день появляются новые инструменты и методы работы с моделями, в частности с LLM. И иногда так бывает, что ты самостоятельно приходишь к чему-то, гордишься этим, а оказывается - про это уже написаны статьи. Так случилось и со мной.

Поле применения LLM довольно широкое, но одной из самых частых задач я бы назвал ускорение производства текстового результата: от оптимизации продуктового ресерча с анализом рыночных и пользовательских данных до частичной автоматизации с помощью AI-ассистентов.

Глобально у нас есть несколько стратегий достижения результата:
- можно просто задать задачу LLM, применяя базовый промптинг или продвинутые техники типа CoT;
- можно использовать RAG, чтобы доставать релевантный контекст из базы знаний;
- можно вдохнуть в LLM агентское поведение, добавив инструменты, и аппрувить промежуточные результаты.

У всех этих методов есть серьезные недостатки. Простой промптинг часто порождает нерепродуцируемость и разброс результатов. RAG и тулы могут упустить важные детали, значимые именно для вашей задачи, потому что модель не всегда полностью понимает, что важно именно вам как специалисту.

Снижение температуры модели помогает, но не решает проблему полностью. Работая с комплексными задачами, когда нужно поэтапно извлечь данные, структурировать и принять решения в рамках одного диалога, я нашёл метод, который позволяет “придушить” модель и получать более релевантный, контролируемый результат.

Как это сделать?
Метод прост - в системных промптах я включаю не только описание задачи, но и детальное описание процесса и критериев результата. Потом даю LLM не просто произвольный текст, а чётко типизированный шаблон вывода, например, в формате JSON Schema, где указываю строгое поле для каждого шага.

Далее этот структурированный вывод я использую как вход в следующий шаг в цепочке. То есть вместо свободного CoT я задаю схему рассуждений - последовательность этапов, типы и формат данных, которые модель должна сгенерировать на каждом этапе. Эта схема заставляет модель придерживаться логики и правил, помогает избежать ошибок и галлюцинаций.

То есть мы получаем метод, в котором вся логика вывода, переходы и схемы валидации жёстко заданы с помощью схем данных. Всё, что вам нужно - это спроектировать качественные схемы и описать логику шагов. Тогда финальные документы и результаты практически не требуют правок.

Это называется SRG
Так я радовался своему “открытию”, пока у Валеры в канале @neuraldeep не наткнулся на аббривеатуру SGR, которая обещала все то же самое 😄 Оказалось, что Schema-Guided Reasoning изобрели еще до меня 😁 Более того, про него еще статейки написали и есть куча холивара на тему того, тру это или не тру 😄 У метода есть сторонники и критики, но на мой взгляд, если нужна предсказуемость, воспроизводимость и контроль над качеством вывода LLM, это лучший подход.

Плюс SGR играет хорошо с RAG и агентскими инструментами: схема помогает управлять, когда и какой контекст доставать, как валидировать промежуточные шаги и принимать решения о следующем действии. Это снижает пропуск важного контекста и улучшает общую надежность.

Если вам надо системно и стабильно получать результат от LLM, рекомендую обратить внимание на SGR. Это не просто продвинутый промптинг - это работа с моделью на уровне структурированных данных и схем рассуждений, что кардинально повышает качество и удобство работы.

🔥22❤10👍9

4.94K views11:41

Neural Kovalskii

RAG, ты в ответе за то что знаешь?

В начале этого года мы с вами собирали naive RAG на стриме
Accuracy был 45-70%, галлюцинации на 30%, все радовались

Но честно? Это не работало в production пришлось изобретать DCD и кучу обвязки сверху что бы заставить работать хоть что-то на 7b модельках

Графы, онтологии, фреймворки перепробовал всё
15 лет данных компании, 3 топика (HR/IT/Sales),
и ни одно решение не взлетело как надо

С начала лета я погрузился в агентную движуху по уши
И кажется, я знаю как сделать по-другому

Но проверить хочу вместе с вами

Structured Output (SO) — это не хайп, это must-have
Без него LLM генерит кашу вместо структуры

vLLM/Sglang + локальные модели пока чуть ли не единственный
контролировать costs и latency в контуре

Прозрачность > черные ящики
Граф и workflow лучше чем "магия фреймворков"

Small Model Language могут дать +20-30%
там где я вообще не ожидал (реально!)

GraphRAG и онтологии красиво звучат
но на практике больше боли чем пользы

Готовые фреймворки (LangChain и тд)
я слишком ленивый что бы проходит EVE c 0

Знакомо?

У вас свалка данных за 10-15 лет
Закрытый контур нельзя в облако
Пробовали GraphRAG/онтологии не взлетело
Даже LLM разметка + векторная БД не спасла

И каждый раз слышите про:
- Галлюцинации LLM
- Космическую стоимость железа
- "Ну попробуйте еще один фреймворк"

Я считаю что после выхода некоторых моделей этим летом теперь есть решение!
Возьмем банальные три топика HR/IT Support/Sales
Возьмем абстрактную задачу создать базу знаний "УмнуюСАгентамиИLLM" что бы в целом можно было
искать в глубину и быстро отвечать на чаво

У меня назревает ответ, но четкого плана пока нет

По этому я решил это осенью провести новый стрим (zoom) аж на 2 часа,
где мы с вами онлайн создадим план, и проверим мою гипотезу

Друзья, мы вместе будем изобретать схему разметки
У меня есть несколько идей, но хочу услышать ваши!

Порисуем в MIRO (возможно потратим все 2 часа на проектирование)
Развернем sgr deep research агента на одной 4090(48GB)
Прикрутим ему FTS tool поиска по конфлюенс и еще пару секретных тулов
Напишем генератор задач для него на базе 32b модели
Попробуем с помощью него собрать ядро знаний по этим топикам
Далее это ядро по хитрому положим в векторную и реляционную базу

После создадим golden датасет и сделаем naive rag(что бы прям быстро отвечал) и оценку на базе llm as judge чуть большей моделькой но так же в контуре

Все это сделаем на небольшом датасете дабы проверить концепцию

Хочешь участвовать?

Заполни форму после пришлю:
Ссылку на стрим за день до эфира
Доступ к MIRO доске для мозгоштурма
Материалы для подготовки (опционально)

Мест ограничено планирую воркшоп до 30 человек
для продуктивного обсуждения

Середина ноября, вечер среды/четверга

P.S. Если не попадешь на live запись будет,
но без возможности влиять на решения в реальном времени 😉

23🔥43❤23👍16

5.76K views16:22

Neural Kovalskii

AIDev конференция: 1000 человек уже зарегистрировались, и вот почему вам тоже стоит

Помните исследование METR, где заявили что Cursor снижает продуктивность разработчиков?

Нюанс простой за инструмент посадили людей, которые открыли его впервые!

Как дать синьору Excel первый раз в жизни и ждать продуктивности 😅

Мои друзья по AI-цеху организовали онлайн-конференцию про настоящий AI Coding, и цифры говорят сами за себя:

- Почти 1000 зарегистрированных (шутка ли!)
- 6 часов контента от практиков
- 14 октября, 14:00 МСК
- Без воды и буллшита только реальный опыт

О чем расскажут?

Программа покрывает весь спектр от новичков до продвинутых:

✅ Правильный старт с AI-инструментами
✅ Архитектура в вайбкодинге
✅ Выбор MCP без хайпа
✅ Работа с контекстом для больших проектов
✅ Feedback loop с AI-агентом
✅ ShotgunPro и другие инструменты

Кто спикеры?

Техлиды, CTO, AI heads и авторы собственных AI-инструментов те, кто пишут production-код каждый день

Почему стоит прийти?

Даже если вы уже кодите с AI — узнаете минимум 2-3 новых подхода, которые сэкономят часы работы.

Если только начинаете получите системный фундамент вместо хаотичных экспериментов

Честно, когда 1000 человек регистрируются за неделю до старта это показатель что тема реально горит! 🔥

Регистрация здесь

Пересылайте друзьям и знакомым, кому зайдет. 14 октября увидимся! 🚀

AI Dev 2025

Практическая онлайн-конференция про то как AI-инструментами кратно ускорять разработку.

2❤23🔥12💯3

5.99K views14:29

Neural Kovalskii

История трёх технологий которые изменили AI (часть 1/3)

После марафона на 30 дней по sgr-deep-research (спасибо вам за 500+ звезд) сел разбираться за историю и матчасть Structured Output, Function Calling и MCP, оказалось это история полная косяков провайдеров и года потраченного на исправление того что должно было работать с первого релиза

И так составил вот такой вот таймлайн дабы закрепить изученный материал и передаю его вам =)

Июнь 2023: Function Calling появился первым и сломанным

OpenAI 13 июня выкатили Function Calling для GPT-4 и GPT-3.5-turbo, идея была крутая, LLM может вызывать функции с аргументами через JSON Schema контракт, разработчики обрадовались но радость длилась недолго

Проблема была жосткая, аргументы функций приходили невалидными!
LLM могла выдать temperature как строку "twenty degrees" вместо числа 20, могла забыть кавычки у ключей, могла написать "celsuis" вместо "celsius"
Все лепили костыли в виде retries и validation вручную (я тут менял работу из DevOps в CEO)

OpenAI не сказали об этой проблеме явно, просто в документации было "рекомендуется валидировать аргументы", на деле reliability меньше 60%, в production такое не работает

Июль 2023: Structured Output как отдельное решение

Параллельно появилась библиотека Outlines, она решала другую задачу, как заставить LLM генерировать строго валидных структур
Механика простая, генерировать маски для токенов через logit-bias, блокировать невалидные токены на уровне бэкенда внутри модели

Вышла научная работа "Efficient Guided Generation for Large Language Models", там описали как через Context-Free Grammar (CFG) контролировать генерацию на уровне токенов

Параллельно развивался guidance от Microsoft Research, их guidance реализовала constrained decoding
Она работает очень быстро: ~50 микросекунд на токен через CFG parser с алгоритмом Earley

Вся соль в том что Structured Output, Function Calling и guidance развивались ОТДЕЛЬНО почти год КАРЛ!
Как будто изобрели руль и колёса по отдельности а потом удивлялись почему машина не едет

Ноябрь 2023: JSON Mode не решил проблему

OpenAI добавили JSON Mode, он гарантировал валидный JSON синтаксически, но НЕ гарантировал соответствие schema!
Могли прилететь другие поля, неправильные типы данных

В тот же месяц Anthropic выкатили Claude 2.1с beta версией Tool Use на 200K контекстном окне, у них была та же проблема, аргументы могли быть невалидными

Индустрия билась над одной проблемой, как заставить LLM генерировать валидные аргументы для функций, каждый провайдер решал по своему, единого стандарта не было

Май 2024: Anthropic первыми сделали Tool Use стабильным

30 мая Anthropic объявили что Tool Use стал generally available для всего семейства Claude 3, reliability значительно вырос Проблема с невалидными аргументами почти исчезла, я предполагаю что они видимо встроили аналог Structured Output внутрь Tool Use первыми

Август 2024: 100% reliability достигнут

6 августа OpenAI выпустили gpt-4o-2024-08-06 которая достигла 100% reliability через комбинацию constrained decoding и fine-tuning, до этого gpt-4-0613 показывал меньше 40%

Важный момент: в официальном acknowledgments OpenAI признали что Structured Outputs вдохновлён работами open-source, включая outlines, jsonformer, instructor, guidance и lark

Ушёл ровно год чтобы довести до production-ready, целый год разработчики мучились с невалидными аргументами и писали костыли

Near-zero overhead в JSON generation означало что Structured Output почти не замедляет inference, это сделало технологию production-ready для высоконагруженных систем, интегрировали в MLC-LLM, SGLang, а в январе 2025 в vLLM и TensorRT-LLM на офф уровне

Ноябрь 2024: MCP как решение проблемы N×M интеграций

25 ноября Anthropic анонсировали Model Context Protocol, ответ на проблему что каждый AI агент требовал кастомную интеграцию с каждым data source

Апрель 2025: Google и OpenAI поддержали MCP
Google DeepMind с CEO Demis Hassabis публично подтвердили поддержку MCP, OpenAI тоже анонсировали поддержку протокола, это означало что MCP может стать стандартом де-факто

5🔥37❤20👍107

4.73K views20:08

Neural Kovalskii

История трёх технологий которые изменили AI (часть 2/3) (1часть)

Учитывая мою инженерную зашоренность, существует четыре домена где совокупность этих технологий работает и дает реальный профит в 2025

AI Coding
Deep Research
Data Extraction
Search Assistant

Градация от простого к сложному

AI Coding: когда компилятор не врет

GitHub Copilot используют 77 000+ организаций (90% Fortune 100). Рынок $4.91B в 2024, adoption 97%. Cursor собрал 1M+ пользователей за два года. Devin - результаты лучше 74.2% людей ($500/месяц). Windsurf приобретен за $4B+

Почему первый?
Детерминированная валидация компилятор говорит работает или нет
Action space ограничен edit, create, delete, run tests

Microsoft: рост продуктивности на 26.4% через две недели
Acceptance rate 35% - каждая третья подсказка без изменений
Курсор вообще сделал дичь недавно на RL c acceptance табов

Function Calling для LSP, linters, компиляторов чтения файлов редактирование
MCP для Git, CI/CD, документации

Deep Research: когда час искать ответ

Три игрока выпустили решения почти одновременно: Google Gemini (11 дек 2024), OpenAI ChatGPT (2 фев 2025), Perplexity (14 фев 2025) Все работают одинаково: задача → сбор с десятков сайтов → синтез → report за минуты

Perplexity показывает 93.9% на SimpleQA (фактическая корректность)
На Humanity's Last Exam (100+ предметов) - 21.1% vs 6.2% у раннего Gemini

Проблема: нет ground truth для валидации синтеза
Можно проверить что sources существуют, что citations правильные, но правильные ли выводы?
Пока решают через human-in-the-loop

Cost: 50-150 searches + report на 5-30 страниц = $5-15 за request на GPT-5/Claude4.5

Structured Output для citation tracking каждого факта к source
Function Calling для search APIs, PubMed, ArXiv. MCP для internal knowledge bases, Confluence, SharePoint GDrive

Data Extraction: OCR/VL на стероидах

Современные решения: 95-99% accuracy, 0.5-4 сек на документ based пока не взяли VL

Переход от традиционного OCR к AI-powered. Старый OCR: templates для каждого типа документа, работал на standardized forms, ломался на разных форматах
Новый: LLM-VL, понимают context без templates а если присыпать SO можно извлечь еще больше и контролируемое

Два подхода: OCR engine + VL (Tesseract/EasyOCR → parsing) vs Vision LLM direct (image → data).
Первый дешевле и flexible, второй точнее и быстрее нужно соединять!

Structured Output критичен: output по strict schema для ERP/accounting
Function Calling для OCR APIs, validation. MCP для document management, ERP, accounting software

Search Assistant: RAG для всех

Самый простой технически, самый массовый по adoption

Почему последний по complexity но первый по массовости? Limited reasoning, простая validation (нашел или нет), понятный ROI (saved hour = экономия).

Технически: user query → embedding → vector search → context retrieval → LLM generation → answer с citations

Structured Output для форматирования: ranking, metadata, citations
Function Calling для vector databases (Pinecone, Weaviate), search engines
MCP для simultaneous access: Confluence, Drive, Slack, Jira

Почему такой порядок

Coding → Deep Research → Data Extraction → Search Assistant это текущее состояние и roadmap куда в моей голове бежит весь это снежный ком ИИ

AI Coding лидирует через deterministic validation и я сам оцениваю время которое я за ним стал проводить
Deep Research растет через improved fact-checking
Data Extraction показывает fastest growth благодаря clear ROI
Search Assistant становится commodity feature в каждой SaaS

Это приобретает все больший вайб агентности за счет растущих метрик FC по всем фронтам

Structured Output + Function Calling + MCP это инфраструктура всех четырех доменов

Без SO мы бы парсили невалидный JSON
Без FC агенты не могли бы использовать tools надежно и строить крутых агентов
Без MCP каждая интеграция требовала бы custom code

6🔥33👍17👏63

4.99K viewsedited 20:44

Neural Kovalskii

Больше не будет OCR?

Расчехлить 4090

Достаем бенчи и картинки!!!

Делаю тест!

Link https://huggingface.co/collections/Qwen/qwen3-vl-68d2a7c1b8a8afce4ebd2dbe

update: развернул на своем сервере

Qwen3-VL-8B-Instruct

Проверяйте свои кейсы!
vLLM

https://qwen-vl.neuraldeep.tech/docs

Кто хочет проверить свои кейсы гоу в чат канала за доступом

token доступа в группе чата »»» https://t.iss.one/neuraldeep/1654?comment=20451 (пример кода)

tool_call: https://t.iss.one/neuraldeep/1654?comment=20455

Tests:

https://t.iss.one/neuraldeepchat/20435

https://t.iss.one/neuraldeepchat/20432

🔥36🤯8❤5😁1

4.97K viewsedited 19:19

Neural Kovalskii

Neural Kovalskii pinned a photo

05:49

Neural Kovalskii

Qwen3-VL-8B-Instruct

Мультимодальная LLM на стеройдах для твоей компании?

Запустил вчера на своей 4090(48гб) дабы проверить большой контекст

Сколько стоит и как работает?

4090(48gb) (заняло почти всю память я ограничи на 70к токенов) но vLLM говорит можно 90+

30 t/s (FC/SO)
44 t/s (content)

Дал вам всем доступ попробовать модель через наш кластер

Примеры тут https://t.iss.one/neuraldeep/1654?comment=20455 (выше есть тесты)https://t.iss.one/neuraldeep/1656

Много раз спрашивали где я беру такие 4090(48)
Беру тут и с гарантией для меня даже сварганили промокод для скидки KOVALSKII (ребята делают реально крутой сервис вокруг модифицированных карт)

1🔥19👍14👏4🤯2

4.4K viewsedited 06:21

Neural Kovalskii

История трёх технологий которые изменили AI (часть 3/3)

[Часть 1] | [Часть 2]

От технологий к людям

Технологии решены:
- XGrammar дал 100% reliability
- MCP упростил интеграции до registry
- Function Calling стал стандартом

Проблема в трансформации компаний и людей

Что я вижу внедряя AI в компаниях

Компания№1: "Сделайте как ChatGPT для наших данных"
Реальность: 80% времени объясняю что агента нужно учить, он не знает все сам, да и данные у вас не очень

Компания№2: Compliance требует "всегда правильные ответы"
Реальность: учим принимать вероятностную природу AI, строить checkpoints

Компания№3: Разработчики боятся замены
Реальность: превращаем code writers в AI directors роль усложняется, не исчезает
Джуны нужны?

Наблюдения которые не ложатся в метрики:

→ Переход на AI = смена типа людей с исполнителя на менеджера
Не все переживут (вчера ребята на конфе это проговорили)
Цикл "постановка → ожидание → проверка" невыносим для некоторых

→ Tacit knowledge в организациях
Люди не могут четко выразить что знают
Им кажется очевидным, но вытащить крайне сложно

→ Неравенство усилилось
Роль конкретной личности резко возросла (сужу по себе)

→ Сеньоры открытые к AI — искал медь, нашел золото!
Внедрение сверху ("купим подписки и курсы") не работает

→ Разработка сместилась к спекам и верификации
Код генерит AI. Отбирает кайф у тех кто любит писать нужен цикл смены

→ Личная трансформация: куда девать время?
Задачи решаются в 3-5x быстрее. Свободное время появилось, но что с ним делать?
Одни идут глубже в архитектуру, другие теряются

Внедрение AI = структурные изменения = рефакторинг организаций

Технически-культурно-психологические вызовы
Надо думать над всем спектром сразу

---

"Вайб Цех"

Я совместно с red_mad_robot решил организовать "Вайб Цех" в Питере обсудить с вами то как меняется роль человека в разработке
Хотелось собрать небольшое кол-во ребят в оффлайне кто связан с AI
Показать слайды которые накопились
И поделится с вами своими мыслями
Давайте разлогинемся на один день!
Буду весь день на площадке

Обсудим трансформацию 25 октября

Не про фреймворки
Про людей

Программа:
- 10:00 — Я: от писателя кода к AI-дирижеру
- 10:20 — Саша Абрамов (SberAI): почему LLM так хороши в программировании
- 11:00 — Макс Скорченко: как перестать работать и начать управлять
- 12:00 — Секретный production case
- 12:40 — Панель: место человека в системе с AI (модерирую) СберТех, Cloud.ru и SberAI

Обсудим практически:
- Куда девать время когда продуктивность выросла в 3-5x
- Как вытащить tacit knowledge из команды для агентов
- Кто справляется с переходом исполнитель→менеджер, а кто нет
- Реальные кейсы внедрения без теории

📍 Not Bad Loft, Курляндская 48, СПб
📅 25 октября, 10:00-15:00
🎟 https://red-mad-robot.timepad.ru/event/3605115/

Offline (платно, личное общение + кейтеринг и классный лофт)

Online free link

После 15:00 — нетворкинг, разбираем ваши кейсы

P.S. Пишите в комментах: какие проблемы трансформации видите в командах?
Соберу для панельной дискуссии

3👍23❤13🔥12🤔1

4.34K viewsedited 09:18

Neural Kovalskii

SGR Deep Research топ 3 в open-source!

Пока кипит работа по финализированнию наших тестов и выявлению лучшей архитектуры агента для небольших и недорогих моделей

Хочу с вами поделится очень крутыми новостями!

Бенчмарк и новые фичи!

Что было сделано:
1) Был добавлен MCP как клиент (теперь вы можете подключить любой набор тулов внутрь агента)
2) Проработаны и оптимизированы промпты для читаемости и понимания LLM

<MAIN_TASK_GUIDELINES>
<DATE_GUIDELINES>
<CORE_PRINCIPLES>
<REASONING_GUIDELINES>

3) Проработаны докстринги у каждого тула
Осмысленные и протестированы description

4) Использован гибридный подход: агент строится на концепции SGR и подходах ReAct+PlanAct, также был применён чистый Function Calling (со схемой решения можно ознакомиться в комментариях под постом)

5) Я разнес тул вэб поиска на /search и /extract

5) Я лично провел огромное кол-во экспериментов по созданию разных tool_kit для проверки агента

Самое важное этот агент sgr_tools_agent.py мой личный фаворит для использования моделей по типу
gpt-4o-mini
gpt-4.1-mini
И схожих им по размеру (как говорит интернет это что-то в районе 40-80b)

Сначала мы занялись поиском бенчмарка, на котором можно протестировать SGR Deep Research
Выбирали из: BESPOKE, FRAMES, MS MARCO, SimpleQA, SealQA
Остановились на SimpleQA так как хотелось проверить возможности агента на поиск фактов!

Нашим ориентиром стал лидерборд из репозитория фреймворка ROMA, в нем приведено сравнение точности различных LLM на SimpleQA, встроенных в поисковый движок

Тестовый прогон на SimpleQA Verified

Перед запуском на SimpleQA (4326 вопросов/ответов)
решили провести тестирование на урезанной версии SimpleQA Verified (1000 вопросов/ответов).

Для оценки правильности ответов мы использовали подход LLM-as-a-judge, где в качестве судьи выбрали gpt-4o

Для старта в качестве агента для SGR Deep Research взяли sgr_auto_tool_calling_agent.py,
Точность оценивали у двух LLM: gpt-4.1-mini и gpt-4o-mini.

Результат на SimpleQA Verified получили следующий:
gpt-4.1-mini → Accuracy: 0.792
gpt-4o-mini → Accuracy: 0.705

Вывод: gpt-4.1-mini оказался точнее
А режим auto мешал агенту и превращал его в чатбота, такое нам не надо

С ним идем на полный SimpleQA но убираем режим auto у тулов и переключаемся в required sgr_tools_agent.py.

Оценка SGR Deep Research на SimpleQA

В качестве LLM выбрали gpt-4.1-mini, а в качестве агента - sgr_tool_calling_agent.
Произвели все изменения что я описал выше учитывая незначительные дополнительные правила и указания
(фититься под бенчмарк не хотелось бы как ROMA)

Результат бенчмарка получили следующий:
gpt-4.1-mini → Accuracy: 0.861

Таким образом, опираясь на лидерборд из ROMA, мы смогли занять 7 место среди общего списка, а также 3 МЕСТО среди open-source решений на недорогой модели и самом базовом поиске от Tavily!
Если быть честными на gpt-4.1-mini это первое место так как был использован Tavily Basic (с ограничением на экстракт в 33к символов, что сильно экономит токены)

Более подробное описание параметров запуска, а также результатов тестирования мы выложили репозиторий

Тут есть все
Коды запуска
Коды от Зиона =)
LLM-as-a-judge
Таблица с ответами

Кстати мы не поленились и собрали полный лог каждого прогона можно посмотреть тут
Так что теперь можете не только брать данное решение как лишенное готовых агентных фреймворков,
так и доказать перед командой точность результатами бенчмарка!

Отдельное спасибо нашей open-source команде которая смогла реализовать это:
Ревью кода - Артём
Координирование - я
Подготовка данных и реализация логики тестирования: Максим
Паша наш MCP гуру
Ринат собирает кейсы, и распространяет проект на EN уровне!

Цифры:
232 млн токенов
8к запросов на /search
1200 запросов на /extract

Полный тест такого бенчмарка обошелся в $170

Далее мы планируем оценить работу агента уже на локальных LLM

Репо: https://github.com/vamplabAI/sgr-deep-research

P.S замену tool calling не нужно делать!
Но если очень хочется можно
Мы всех слышим и умеем читать пейперы =)

28❤52🔥4310

8.47K viewsedited 19:36

Neural Kovalskii

SGR Code Agent

Мысль от @elkornacio которая вдохновляет

Мне кажется втайне каждый разраб мечтает запилить кодового агента это же как сына растить - ты делаешь что-то, куда закладываешь логику собственного поведения, пытаешься формализовать то, как ты сам пишешь код, в набор правил

С этой мотивацией я взял SGR-core и пошел пилить Vampi, терминального агента на базе мелких моделей в PlanAct режиме для подготовки драфта проекта

3🔥47👍17❤10👏5

4.68K views16:08

Neural Kovalskii

Всем привет!

Тут прокатилась волна банов openai акаунтов (моих) API использование

Кого-то тоже затронуло?

Хочу понять что детектировать начали (прокси IP спалил) или уже и запросы стали чекать на RU текст?

Или просто банхамером задело

Хочу понять системность так как отлетает 3 акк
hetzner

Update: всем спасибо за оч полезную инфу

Далее буду осторожнее

Со мной такое в первый раз ( за один акк прям обидно 2 года ему было)

1🤔11👍6❤5🤯3

4.86K viewsedited 06:26

About

Blog

Apps

Platform