Neural Deep
7.62K subscribers
301 photos
44 videos
3 files
194 links
Head of AI redmadrobot.ru

6 лет: 0>>>Head of AI
AI Infrastructure | Production RAG

Local inference
RAG (2M+ книг)
RAG chat bot (5М+ токенов)
B2B платформа (10+ клиентов)
B2C gptdaisy.com (100k MAU)

Код, кейсы
github.com/vakovalskii | @neuraldeepchat
Download Telegram
Forwarded from red_mad_dev
MoscowJS 64 x red_mad_robot⚡️

15 мая встречаемся на митапе в Робохранилище в Москве.

Поговорим про качество кода, стандарты и то как это влияет на разработчиков и команды. Будем постепенно рассказывать про наших спикеров — следите за обновлениями здесь и в чате сообщества @moscowjs

🕔15 мая, четверг, стартуем в 19:00
📍Москва + онлайн

🔗Регистрация по ссылке.

До встречи 🟥
Please open Telegram to view this post
VIEW IN TELEGRAM
83
Smart Platform - наша on-premise RAG платформа

Врываюсь с двух ног почти готовым релизом нашего внутреннего продукта почти коробка (а за плечами 7 месяцев исследований реальных интеграций и разработки)!

Нет ничего приятнее рабочих якорей (ссылок на источники, которые подсвечивают информацию в нужной вам интеграции, использовавшуюся при ответе LLM), которые показаны на нативной интеграции с Confluence в закрытом контуре

И еще больше кайфую, что это уже работает не только в теории, но и на наших внутренних тестах на демо стенде!

Такой RAG может работать и на моделях до 10b (LLM), а значит, сервер для корпоративного RAG начинает стоить адекватных денег

Целая цепочка router-агентов и долгий путь изучения лучших подходов и фреймворков для Q&A и диалоговых RAG-систем для закрытого контура

За всеми апдейтами по продукту предлагаю следить тут в канале нашего CPO Леши Жданова
21🔥18👍13
Forwarded from Pavel Zloi
Почему я считаю, что RAG это call?

Пару часов назад Александр на своем канале Dealer AI снова обратил внимание на RAG-системы с точки зрения важности тестирования и оценки метрик до внедрения указанных систем в продакшен.

Я полностью разделяю эту точку зрения и всегда прошу заказчиков, по возможности, предоставлять хотя бы общий тестовый датасет, на базе которого можно будет выполнить предварительную оценку точности работы проекта и произвести его тонкую настройку до публичного релиза.

Как-то раз общался с заказчиком по одному проекту и пытался объяснить ему важность предварительного сбора бенчмарков для оценки качества системы. Логика у меня была простая: если предположим, некая RAG-система состоит из трёх последовательных звеньев (эмбеддер, ретривер, LLM), каждое из которых имеет точность, скажем, 90%, то интуитивно кажется, что и общая точность будет примерно на том же уровне. Однако на самом деле всё сложнее.

Согласно теории надёжности, в последовательных системах ошибки наследуются, и итоговая точность определяется перемножением точностей всех звеньев. Если каждый из трёх модулей даёт точность 90% (0.9), то реальная точность системы будет равна:
0.9 = 0.9
0.9 * 0.9 ≈ 0.81 (81%)
0.9 * 0.9 * 0.9 ≈ 0.729 (72.9%)
0.9 * 0.9 * 0.9 * 0.9 ≈ 0.656 (65.6%)

Это значит, что при последовательном соединении звеньев системы и с увеличением их количества вероятность ошибки увеличивается.

Подробнее о наследовании ошибок можно почитать в публикации про закон Люссера.

С другой стороны, интуитивно (без учёта наследования ошибок) может показаться, что точность системы определяется её самым слабым компонентом, в нашем примере — 90%, и, как следствие, заказчик принимает решение пренебречь предрелизным тестированием, так как верит в надёжность RAG-системы, полагаясь на интуицию.

Подобное заблуждение, как мне кажется, связано с психологическими особенностями человеческого мышления, описанными Даниэлом Канеманом в его книге "Думай медленно... решай быстро". Канеман подчёркивает, что решения, принимаемые на основе интуиции, часто приводят к систематическим ошибкам, поскольку наш мозг упрощает сложные задачи или подменяет их более простыми, игнорируя важные факторы, такие как накопление ошибок в последовательных звеньях.

Приведу ещё один пример. Если мы используем сверхточный эмбеддер (99%), средний по качеству ретривер (90%) и относительно слабую языковую модель (70%), общая точность станет:
0.99 * 0.9 * 0.7 ≈ 0.623 (62.3%)

Иными словами, замена одного компонента на более точный не всегда существенно повышает общую точность, если остальные компоненты остаются слабыми.

Понимание того, какой компонент является критически важным в нашей RAG-системе, а какой даёт слишком большую ошибку, и есть причина, по которой необходимо иметь бенчмарки ещё в процессе разработки.
👍23🔥124
Международный вояж #безвотэтоговотвсего продолжается и мы возвращаемся в наш любимый Баку!

На нашей пятой встрече сообщества в этом прекрасном городе мы решили взять тему, которая точно не оставит равнодушным никого из тех, кто хоть чуть-чуть связан с технологиями (а есть ли другие в 2025 году?).

Тема нашей встречи - “Мир после GPT: как AI меняет рынок IT и продуктов навсегда?”. Ведь здесь, помимо хайпа, просто море интересного:

⁃ Что именно изменилось в работе IT и продуктовых команд с приходом AI?
⁃ Что теперь значит "быть профессионалом"? Раньше — знания и опыт. Сейчас — умение работать с ИИ?
⁃ Что произойдет с ощущением профессиональной идентичности? Кто я, если мои навыки заменяемы моделью?
⁃ Какие новые этические дилеммы появляются с развитием AI? Если GPT написал код с багом — кто виноват?
⁃ Почему middle-специалисты стоят как senior, если GPT делает их работу?
⁃ и многое другое )

На эту тему собрались поговорить прекрасные эксперты:

⁃ Сергей Рыжиков, основатель Битрикс24
⁃ Иван Самсонов, CPO of AI, MTS Web Services
⁃ Валерий Ковальский, Head of AI red_mad_robot
⁃ Валех Набиев, CDO at Pasha Holding

Состав уникальный и точно позволяющий разобрать вопрос с разных сторон.

Обязательно регистрируйтесь и сохраняйте билеты.

Встречаемся 03 июня в 18:30 JW Mariott Absheron (674 Azadliq Square).

Будет огненно!)
🔥1365💯2
Media is too big
VIEW IN TELEGRAM
UI-Browser LLM automation песочница для автоматизация браузера на базе LLM

Давно обещал вылить свой форк тут показывал прошлые наработки browser-use-web-ui да еще и в одном из чатов попросили

Все внутри просто
docker compose up -d 

И полетели!


Вот держите что я там наваял?

Единый интерфейс: Объединенный доступ к Gradio и VNC в одном окне браузера

Защищенный доступ: Авторизация по логину и паролю для контроля доступа

Разделенный экран: Фиксированное разделение экрана 50/50 для комфортной работы

Прямая интеграция: Прямой доступ к браузеру через VNC для полного контроля (буфер обемна можно самому что-то кликать)



Что меня удивило что офф версия не работает но моя старая версия работала пришлось совместить функционал новой офф версии и старого кода вышло вроде не плохо (работает и на том спасибо)

GitHub
🔥16👍6👏41
Forwarded from red_mad_robot
Подборка сервисов для быстрой оценки и сравнения LLM

Открытых моделей становится всё больше, а универсального ответа, какую ставить в продукт — нет. Одним важна точность, другим — стоимость, масштабируемость или устойчивость на длинных запросах.

Сравнительные сервисы упрощают этот выбор: они фиксируют поведение в реальных сценариях, агрегируют пользовательские оценки и показывают, какие решения уже в продакшене. Собрали подборку таких платформ.

1️⃣ OpenRouter: рейтинг LLM по реальному использованию

OpenRouter публикует открытый рейтинг моделей, основанный на частоте их использования в реальных продуктах. Это не лабораторные тесты, а фактические данные из прикладных сценариев: кодинг, маркетинг, финтех, технологии. 

Рейтинг можно фильтровать по задачам и периоду: за день, неделю, месяц или по росту популярности. Это рыночный барометр: если модель стабильно удерживает лидерство в вашей категории — её используют в продакшене.

2️⃣ Chatbot Arena (LMSYS): парные сравнения моделей 

Платформа предлагает формат арены: пользователь задаёт вопрос, а две модели отвечают параллельно. После этого выбирается лучший ответ. По итогам сравнений формируется рейтинг по системе Elo — как в шахматах, только для LLM.

Для моделей на русском языке есть аналог — LLM Arena. Сервис также поддерживает сравнения, голосование за лучший ответ и динамический рейтинг. Включены YandexGPT, GigaChat, MTS AI и другие модели.

3️⃣ Hugging Face: рейтинг по независимым бенчмаркам

В отличие от рейтингов популярности или пользовательских голосов, Hugging Face оценивает модели по результатам стандартных тестов: MMLU (общие знания),  BBH (логика), IFEval (следование инструкциям), кодингу, математике и другим. Каждая модель получает баллы по ряду метрик, по которым можно отсортировать модели.

4️⃣ MERA: открытый бенчмарк для русскоязычных LLM

Лидерборд ранжирует модели по результатам фиксированного набора задач: логика, код, знания, этика. Оценка проходит в равных условиях: стандартизированные промпты, единые параметры, открытая методика.

Подходит, если вы работаете с русскоязычными моделями, и вам важна применимость и эффективность в конкретной области.

Какие выводы? 
Выбор LLM — это управленческое решение с последствиями для качества, стоимости и скорости продукта. Сравнительные платформы не заменяют пилоты, но позволяют действовать быстрее и точнее:

📍 Отсекать слабые решения до интеграции
📍 Фокусироваться на моделях, которые уже работают в продакшене
📍 Оценивать зрелость open-source вариантов без риска потерь в качестве

Если вы внедряете LLM в продукт, рейтинги помогают действовать не по наитию, а по обоснованным критериям. Но важно не полагаться на один источник — первичную кросс-оценку стоит строить на данных из разных сервисов. 

#AI_moment

@Redmadnews
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥1812👍6👏3
Смотрите чё выпало из недр моей тумбы, тогда мне точно было не до AI

Аж олдскулы свело на моменте покупки рингтонов через sms
🔥26😁14
Присоединяюсь к поздравлениям моего собутыльника друга Леши Жданова

Миша получил грант от Yandex Open Source (оч круглую сумму я скажу) за свой проект faster-coco-eval
— ускоренную версию оценки детекции объектов 🚀

Почему это важно?

— Опенсорс делает технологии быстрее и доступнее.

— Такие проекты, как этот, помогают исследователям и разработчикам экономить время.

— Поддержка компаний вроде Яндекса мотивирует развивать open-source.

Миш, поздравляю тебя
👏3712😁6
LLM от Antropic сама решает когда пойти в интернет!

По моим тестам добавили возможность анализа есть ли знания внутри LLM и если нет она сама идет через tool искать знания в интернете
Для меня фича новая если было то извеняйте!

Но работает действительно лучше! Скипаю этап поиска и скармливания документации!


Update: роутинг и классификация, что-то новенькое это хорошо забытое старое?)
👍22🔥85
Слайды для презентаций в HTML по старинке?

А почему бы и нет


Раньше я промышлял тем, что просил LLM генерировать всё на React, и часто были потом проблемы в переносе таких слайдов куда-то в другой инструмент демонстрации я практикую сборку достаточно подробного контента в чате с LLM и для визуализации в Claude юзал этот трюк с описанием всех хотелок

Сейчас я приноровился генерировать слайды в HTML
Плюсы: это то, что он сразу хорошо фитится под артефакт
Его можно скачать и сделать очень хороший скриншот

Всё лучше и лучше стал понимать, как располагать элементы и как это промптировать, чтобы слайд был не перегружен и информативен

Часто использую теперь их как рыбу для передачи дальше в работу дизайнеру в Keynote
И да, выложил все примеры и описания, самое главное промпт на Git

В комментах примеры слайдов, которые я использую собрав добротно контент (при использовании промпта теперь не парюсь с тем, что слайд будет читаемый и почти всегда с первого раза)
🔥30👍95
Сезонные тренды на запросы к чат-LLM

Выгрузил 16к запросов в неавторизированной зоне к gpt-4o-mini
Academia лидирует в запросах к LLM (3641 из 16к за 2 дня), но не спешите создавать образовательные AI-продукты

Раскопав глубже, я увидел скучную реальность — большинство запросов примитивны: "решить задачу", "ответить на тест", "проверить домашку"
Студенты не ищут инновационные образовательные платформы нужен самый короткий путь: сфотографировал → загрузил → получил ответ еще и бесплатно в нашем сервисе gptdaisy.com можно это сделать без регистрации

И уже существующие функции форматирования в markdown и LaTeX закрывают их базовые потребности
Стоит ли бежать в эту сферу? Сомнительно

Я оцениваю что пользователям не нужен специализированный инструмент им достаточно прямого доступа к LLM с минимальной обработкой результата

Вместо создания нового продукта, рациональнее улучшить существующие боты: оптимизировать распознавание учебных задач и ускорить получение ответов

Аналитика подтверждает скучную истину: инновации не всегда нужны, когда пользователя устраивает простое и работающее решение

PS: кстати аналитику сделал на базе qwen2.5.-7b-instruct(t-lite) огонь! На двух 4090 заняло 11к секунд
👍21🔥2