Neural Kovalskii
8.65K subscribers
345 photos
50 videos
3 files
237 links
Head of AI redmadrobot.com

From IT Admin to Head of AI in 5 years

Applied AI Engineer
B2C RAG (2M+ books)
B2B RAG platform (10+ implementations)
B2C gptdaisy.com (100k MAU)

github.com/vakovalskii | chat @neuraldeepchat
Download Telegram
This media is not supported in your browser
VIEW IN TELEGRAM
Все утро играл в миниапп который сделал Леха, пилим лидерборд и выкатываем в маркетплейс?

А как вы боритесь за продуктивность?
😁60🤣36👍14🔥10
Дружочки!

Уже послезавтра на площадке Леманы Тех пройдет 20я оффлайн встреча сообщества #безвотэтоговотвсего на тему “AI-компас для управленца: куда смотреть, чтобы не пропустить главное”.

Для опоздаваших мы на чуточек приоткрыли давно закрытую регистрацию, есть прям вот пара десятков мест - успевайте )

В панельной дискуссии попробуем разобраться с тем как:
- AI уже в бизнесе, но не везде — как понять, где его место в вашей стратегии
- От хайпа к пользе — как отличить модные игрушки от реальных инструментов
- Какие решения руководители должны принимать сами, а какие пора делегировать алгоритмам
- Главные ориентиры на ближайшие 12–18 месяцев, чтобы быть впереди, а не догонять
- и многое другое)

В честь такого дела с нами шуршать будут уважаемые эксперты:
⁃ Валерий Ковальский — Head of AI red_mad_robot
⁃ Алексей Миловидов — CTO Ecom.tech
⁃ Александр Айваз — CDO, Лемана Тех
⁃ Тимур Вайсман — Директор центра интеллектуализация МТС

Встречаемся на прекрасной площадке Леманы Тех в их офисе (проспект Лихачева 15), 25го сентября в 18:30. Регистрируемся по ссылке 👀

Приходите, будет огненно!)
🔥81👏1
Экономная экономика on-premise LLM


Итак, когда я начинал работать с локальным инференсом и закрытым контуром, я как и вы искал API, которые мне покажут, как оно работает и что могут такие модели

Но я очень быстро понял, что я не могу проверить что же происходит на бэкенде у API провайдера и есть только карточка модели, в которой информация не всегда совпадает с реальностью

Такой подход для оценки потребности в клиентских решениях мне не подходил


Что я для себя понял за 2 года закупая разного рода оборудование

Да, есть Китай MTT, но очень не стабильна поддержка определённых версий фреймворков

Да, есть NVIDIA A100/H100, дорого богато

Есть игровой сегмент, надежно ли?

Учитывая мой опыт работы с железом на предыдущих местах работы, я принял решение попробовать закупить модификацию 4090(48), для предоставления новых топовых моделей от open-source, в целях повышения продуктивности сотрудников и прикладных тестов


Что я получил за 2.5 млн рублей?

qwen3-32b
qwen2.5-32b-VL-Instruct
qwen2.5-32b-coder

Важно отметить, что платформы(сами сервера) уже были приобретены ранее и сейчас идет замена RTX A4000 на 4090(48)

Данный набор моделей позволил обеспечить часть сотрудников и RND отдел постоянно доступными мощностями для экспериментов и базовых запросов

Сейчас прошел год с момента покупки первой такой карты и за это время в ней были заменены термаха и убрана пыль

Брать ли мой опыт на вооружение решать вам, я лишь транслирую наблюдения и примерную стоимость такого решения

Про скорость генерации на такой карточке можно найти по каналу
4090(48)
2👍27🔥8👏4💯3
Друзья, уже через пару часов мы начинаем, а для тех кто будет онлайн вот ссылки на трансляцию (старт в 19-00 мск):

VK Video
Youtube

До встречи )

P.S.:В комментариях добавили картинки с навигацией как попасть в офис к Лемана Тех
1🔥133👍1
This media is not supported in your browser
VIEW IN TELEGRAM
🔥224
This media is not supported in your browser
VIEW IN TELEGRAM
6👍5
This media is not supported in your browser
VIEW IN TELEGRAM
👍7🔥6👏3
Forwarded from Ethical Machines
Нужны ли стандарты оценки качества LLM-приложений и моделей?!

Сегодня появляется все больше продуктов, внутри которых используются agentic-сценарии, а RAG есть уже почти у всех. И чем сложнее становится пайплайн, тем сложнее (простите за тавтологию) и важнее контролировать его.

Когда у вас простой пайплайн, можно настроить оценку его качества и безопасности, выполнив список довольно понятных шагов:
🟣определить критерии оценки и выбрать метрики
🟣покрыть пайплайн интеграционными (а где-то юнит) тестами
🟣собрать небольшой бенч и гонять его (если тестов недостаточно)
🟣и даже настроить проверку детерминированности пайплайна

Если же вам надо оценивать пайплайн, состоящий из множества разных компонент, придется строить что-то типа Сокола Тысячетелия из Lego🦧

И тут хочется поделиться статьей Apollo Research We Need A ‘Science of Evals’, которая содержит интересные размешления об оценке качества и безопасности (и хоть она 2024 года, все еще не потеряла своей актуальности). Ее идеи можно отразить в следующих тезисах:
🟣сейчас оценка качества больше похожа на искусство, чем на науку. Потому что результаты оценки качества сильно зависят от множества мелких деталей (например, форматирования промптов), порой вызывая колебания точности до 76 пп. Это приводит к тому, что используемые продукты становятся менее безопасными
🟣разделяют 3 этапа зрелости Eval-ов. Начальный (Nascent) — исследовательский, где отсутствуют стандарты. Промежуточный (Maturation) — появляются соглашения по лучшим практикам, но пока нет единой регуляции. Зрелый (Mature) — действуют формальные стандарты, статистическая обоснованность, результаты интерпретируемы. Мы сейчас в Т-Банке постепенно закрепляемся на этапе 2 (Maturation) и это совсем непросто
🟣и чтобы сделать свои EvalMature, вот что потребуется: описать множество четких и интерпретируемых метрик, покрыть тестами как можно больше частей пайплайна, обеспечить надежность и воспроизводимость и не забыть про статистическую значимость

Выглядит не очень тривиально, да? Потому что и так есть вопросы к бенчмаркам и оцениваемым моделям, а тут надо оценивать массивный пайплайн.

И вот буквально неделю назад вышел новый стандарт оценки качества моделей STREAM (A Standard for Transparently
Reporting Evaluations in AI Model Reports
). Он предлагает формат для стандартизации тестирований моделей и представления результатов. И хоть в большей степени ориентирован на ChemBio бенчмарки, авторы пишут, что его получится использовать и для бенчмарков из других отраслей.

Скоро расскажу вам о нем подробнее, а пока дочитываю статью
Please open Telegram to view this post
VIEW IN TELEGRAM
👍11🔥5💯1
Circuit Tracing от Anthropic: как мы в R&D by red_mad_robot решили заглянуть внутрь LLM при использовании в RAG-пайплайнах

Ищем галлюцинации под микроскопом!

29 мая Anthropic выложили в open-source свои инструменты Circuit Tracing методологию механической интерпретируемости, которую мы в R&D подразделении red_mad_robot первыми применили для решения практической задачи детекции галлюцинаций в RAG-системах!

В начале 2025 года, когда я возглавил новое R&D направление, я поставил амбициозную задачу: не просто оценивать качество ответов LLM "снаружи", а заглянуть внутрь процесса генерации и понять, откуда берутся галлюцинации.

Почему именно RAG-пайплайны и Circuit Tracing?

Проблема была очевидна: RAG-системы часто смешивают информацию из контекста с "внутренними знаниями" модели, создавая правдоподобные, но неточные ответы
Существующие методы детекции работают post-factum, а нам нужно было понять механизм принятия решений в реальном времени

Circuit Tracing от Anthropic давал именно это возможность построить атрибуционные графы и проследить, как токены входного контекста влияют на финальный ответ модели

Конкретные результаты нашего исследования

85% точность детекции галлюцинаций вот что мы получили на тестовом датасете с нашей реализацией на базе Qwen2.5-7B.

Как отмечает наш исследователь Ирина Кошкина:
"Основная идея — измерение доли влияния от токенов входа, соответствующих контексту, среди всего влияния от всех активных токенов."

Наша метрика Groundedness включает:
- Контекстную долю влияния (Gctx)
- Replacement Score — качество признаков vs ошибок
- Completeness Score — полнота объяснения через атрибуционный граф

Технические вызовы и решения

Cross-Layer Transcoders (CLT) стали ключевым компонентом системы
Вместо анализа отдельных слоев мы научились отслеживать влияние признаков между несколькими архитектурными уровнями трансформера

Основные проблемы, которые пришлось решать:
1. Вычислительная сложность процедура анализа на порядки медленнее генерации
2. Зависимость от качества обученного транскодера
3. Токен-уровневое сопоставление, приводящее к ложным срабатываниям

Но результат того стоил мы получили рабочий инструмент для анализа внутренних процессов модели во время генерации ответов в RAG-системах


Отдельное спасибо отделу маркетинга red_mad_robot за подготовку детальной статьи оформления и валидации на Хабре

Отдельное спасибо Саше (@dealerAI) за экспертную валидацию нашей гипотезы на старте проекта

Когда предлагаешь исследовать "атрибуционные графы для детекции галлюцинаций в RAG", поддержка опытных друзей по цеху критически важна для получения ресурсов и мотивации команды

Полный технический разбор с кодом, формулами и результатами экспериментов доступен в нашей статье на Хабре закидываем в закладки и ставим +
🔥3511👍10🤔1