Neural Deep
7.81K subscribers
315 photos
45 videos
3 files
205 links
Head of AI redmadrobot.ru

6 лет: 0>>>Head of AI
AI Infrastructure | Production RAG

Local inference
RAG (2M+ книг)
RAG chat bot (5М+ токенов)
B2B платформа (10+ клиентов)
B2C gptdaisy.com (100k MAU)

Код, кейсы
github.com/vakovalskii | @neuraldeepchat
Download Telegram
Куда бежит AI индустрия?

В выходные перечитывая канал и ализируя посты Рефата (делает оч крутые обзоры на AI инструменты) за последние месяцы, видно четкий тренд все бегут к агентским системам, но пока больше экспериментируют, чем внедряют в продакшн

Куда бежит индустрия (по Рефату):

1. От кодинг-ассистентов к полноценным агентам
- Cursor → Cursor Agent mode
- Claude Code с sub-agents и MCP интеграциями
- Amazon Kiro как "архитектурный редактор"
- Lovable с рассуждающими агентами

Паттерн: Все перестают делать "умный автокомплит" и переходят к системам, которые могут планировать и выполнять сложные задачи самостоятельно.

2. Мультимодальность как стандарт
- Google Gemini Deep Think с параллельными агентами
- Runway Aleph для VFX
- NotebookLM с видео-режимом
- HeyGen Video Agent

Паттерн: Текст-only решения воспринимаются как legacy. Если твой AI не работает с видео/аудио/изображениями - ты отстал

3. Браузеры как новая боевая площадка
- OpenAI готовит браузер-убийцу Chrome
- Perplexity Comet в бете
- Browser MCP для интеграции с существующими браузерами

Паттерн: Поисковики и браузеры сливаются в единые AI-интерфейсы. Google нервничает не зря

4. Voice-first интерфейсы набирают обороты
- 37% разработчиков планируют audio (по отчету Amplify Partners)
- ElevenLabs персональный помощник
- Grok 4 с шепотом и пением
- Носимые устройства будущего

Паттерн: Клавиатура и мышь постепенно отходят на второй план для AI-взаимодействий

5. Инфраструктурная консолидация
- Amazon S3 Vectors убивает standalone векторные БД
- Multi-model routing становится нормой (37% используют 5+ моделей)
- MCP как стандарт для tool integration

Паттерн: Фрагментированные AI-стеки консолидируются в unified платформы

6. AI-first workflow в компаниях
- 50% кода в Google пишет AI
- AI Operations Lead как новая роль
- Netflix использует AI для создания контента
- Amazon требует AI-навыки для карьерного роста

Паттерн: AI перестает быть "экспериментом" и становится core business process.

Главный инсайт: Индустрия движется от "AI как feature" к "AI как platform". Следующие 2-3 года определят, кто создаст доминирующую систему, а кто останется с legacy-решениями
2🔥36👍155💯4
Forwarded from Dealer.AI
🤩🤩🤩
https://github.com/huggingface/transformers/releases/tag/v4.55.0

Верим? 🤨

Upd. Пока видим, что обе момзельки MoE с 3.6B и 5.1B активными параметрами, и конечно новый ускорятор на FlashAttention3.

Architecture.
- Token-choice MoE with SwiGLU activations. Классика 🚬
- When calculating the MoE weights, a softmax is taken over selected experts (softmax-after-topk). Тоже ничего нового. 🪨
- Each attention layer uses RoPE with 128K context. Не удивили.
- Alternate attention layers: full-context, and sliding 128-token window. Сам бы так сделал. 😘
- Attention layers use a learned attention sink per-head, where the denominator of the softmax has an additional additive value. Это интересное. 🧠
- It uses the same tokenizer as GPT-4o and other OpenAI API models. Ну ок че.
- Some new tokens have been incorporated to enable compatibility with the Responses API. Ожидаемо. 😏

P. S. Спасибо дорогому подписчику
@azik1725 😘
Please open Telegram to view this post
VIEW IN TELEGRAM
🤔145
Forwarded from Сиолошная
OpenAI разродились двумя опенсурсными моделями, на 120b и 20b параметров. Обе — микстуры экспертов, что означает, что несмотря на размер, если вам хватает памяти GPU, модели быстрые: 5.1b и 3.6b активных параметров.

Модели рассуждающие, поддерживают 3 типа длины рассуждений: low, medium, high.

Ссылки:
https://openai.com/open-models/
https://openai.com/index/gpt-oss-model-card/
https://cookbook.openai.com/articles/openai-harmony
https://gpt-oss.com/ - тут можно поиграть с моделью

Судя по лендингу, модели уже сегодня будут доступны на Groq и Cerebas, предлагая очень быструю генерацию. И почти все инференс-движки уже поддерживают модель.

И самое крутое — как и o3, модели поддерживают вызов инструментов (поиск, Python, etc) в цепочке рассуждений.

Самое некрутое: нет мультимодальности, картинки и тем более звук модели не воспринимают.
🔥17😁3🤣1
Согласен со всеми кто репостит, метрики сказка

Я же буду пробовать запустить на своем кластере 4090(48гб)

Пойду расчехлять терминал!
26👍12🔥64
Neural Deep
Согласен со всеми кто репостит, метрики сказка Я же буду пробовать запустить на своем кластере 4090(48гб) Пойду расчехлять терминал!
gpt-oss запуск на 4090/3090

TL;DR: OpenAI выкатили gpt-oss-120b и 20b модели, но Docker образ vllm/vllm-openai:gptoss не работает на RTX 4090 из-за жесткого требования FlashAttention 3, которое поддерживается только на H100/B100

Временно используйте llama.cpp с весами от unsloth

Вчера пытался запустить новые модели от OpenAI на своих RTX 4090 (48GB x2) через официальный Docker образ vllm/vllm-openai:gptoss. Результат - крах с AssertionError: Sinks are only supported in FlashAttention 3.

Проблема системная:

Что происходит под капотом:
- OpenAI добавили в свой форк vLLM обязательное использование асинхронных декодирований
- Эти оптимизации требуют FlashAttention 3
- FA3 работает только на серверных GPU: H100, B100 или потребительских RTX 5090
- RTX 4090, даже с 48GB памяти, остается за бортом

Обходные пути не работают:
VLLM_ATTENTION_BACKEND=TRITON_ATTN_VLLM_V1  


Сервер стартует, но падает при инференсе

torch.AcceleratorError: CUDA error: no kernel image is available for execution on the device



Как пишет подписчик @dvv101111
Судя по активности в GitHub, OpenAI и vLLM планируют мержить изменения частями.

Изначально хотели большой PR на 22k строк, но сообщество попросило разбить по фичам

Прогноз: К следующей неделе должна появиться более гибкая версия vLLM с настройкой FlashAttention

Что делать сейчас?

Пока что единственный способ запустить gpt-oss на RTX 4090:

1. llama.cpp с весами от unsloth
2. Подробный гайд тут
3. Поддержка multi-GPU через тензорный параллелизм



Вечером перелезу на llama.cpp для тестов, но хотелось бы на "исконно родном" vLLM запустить сначала.

Следим за моим issue - там уже собралось сообщество пострадавших с RTX 4090, L20 48GB и A100.

Пока что gpt-oss доступен только владельцам H100+ или тем, кто готов возиться с llama.cpp.
Но учитывая темпы разработки, скоро все заработает и на наших "простых" 4090 48GB 😄

Кто еще пытался запустить? И на чем?
Паша рапортует о успешном запуске на Ollama
👍2111😁114
Когда хотите оставить комментарий не забывайте остаться в чатике после вступления и прожать кнопочки капчи иначе вас не пропустит гуард


Ссылочка на чатик нас уже 500 человек!

https://t.iss.one/neuraldeepchat
😁10👍9🔥4
Neural Deep
gpt-oss запуск на 4090/3090 TL;DR: OpenAI выкатили gpt-oss-120b и 20b модели, но Docker образ vllm/vllm-openai:gptoss не работает на RTX 4090 из-за жесткого требования FlashAttention 3, которое поддерживается только на H100/B100 Временно используйте llama.cpp…
gpt-oss-120b запуск на 4090/3090 часть 2

И так по подсказке подписчика @dvv101111 я переехал на llama.cpp он так же проверил что на его х4 4090(24gb) все запустится и не будет проблем

Брал я эти веса

Далее тесты и что мы имеем

На простые запросы не более 1к токенов 101-122 t/s
| Фаза   | Токен | Скорость  |
| Prompt | ~11к | ~1.6к t/s |
| Gen | ~1к | ~89.2 t/s |


Заняло все это чудо в 120b 73GB на 32768 токенов контекста

Так же прикладываю внутренний тест rag_qa 558 вопросов по внутренней корп базе знаний red_mad_robot (что успел прогнать сегодня за вечер)

Вопросы включают в себя работу с контекстом от 3-16к токенов

Промпты заточены под 7b модельку (извлечение данных + следование инструкции)

Валидация по методу llm as judge gpt-4o

Учитывая, что Qwen модели тюнились под русский язык и были специально заточены под наш RAG, считаю что gpt-oss-120b на конфигурации 2x4090 (48GB) может стать лучшей заменой, как только её оптимизируют под vLLM и затюнят под ру
120 t/s - это не шутки
🔥3514👍11
gpt-5 и метрики

Миша(@mixaill76)расчехлил эксель судя по всему презу делала gpt-6
🤣772
Forwarded from Dealer.AI
В голос 😁 Спс @sergey_b_tg.
Please open Telegram to view this post
VIEW IN TELEGRAM
🤣45👍15😁62
База знаний по каналу в телеграм? Зачем это нужно?
RAG/LLM workflow/Чат бот


8 месяцев назад я решил сделать первый эксперимент в этом направление и смотря на себя тогда осознал что перемудрил с выгрузкой
сделал очень сложные связи и в целом ответы чат бота были не сказать что прям полезные

Что же я решил переосмыслить имея в руках всю мощь Cursor + Claude Sonnet 4 😈

Первое я полностью переделал логику различения датасета упростил все ровно до двух коллекций
1) Посты
2) Коменты к ним и обсуждения

Второе

Я добавил в первый шаг llm классификатор сложности запроса пользователя от него у нас меняется кол-во top n которые мы получаем при векторном поиске

Да это все еще вектора
Да это все еще векторный поиск
Да это все еще простой bge реранкер на выходе
FTS решил пока не тащить дабы прочувствовать всю боль суть семантики вопросов и поиска информации
Перевел все на gpt-4o-mini

Кстати теперь бот будет жить тут и я буду регулярно его пополнять и другими каналами @neuraldeepbot
Cейчас в боте данные на сегодня из канала/и чата канала https://t.iss.one/llm_under_hood

Что я точно могу сказать что при первом приближении конечно вы задаете интересные вопросы и система на такое не рассчитана

Какой последний пост был?

Тут сработала защита в промте и LLM ничего не ответила

какая на текущий момент лучшая локальная LLM?

Тут модель выдала заготовку про датасет но стащила посты 2024 года

Ответ: База знаний обновлена 12.08.2025.\n\nКлиенты часто задают два основных вопроса: когда можно будет запустить мощную LLM.....

Что такое SGR

Ответ: Метод Schema-Guided Reasoning (SGR) представляет собой подход структурированного промптинга, который управляет рассуждениями больших языковых моделей с помощью заранее заданных схем.

Да я зашил в промпт когда был обновлен датасет
Да я не поставил никакого защитника так что можно пробить gpt-4o-mini если вы знаете jailbreak

А еще можно поставить оценку (ставите дизлайк и я точно посмотрю что же за сценарий вы там придумали и подумаю какой еще классификатор повесить перед финальным ответом) это же все таки LLM workflow (чувствуете как дядя влияет? про агента не слова) ответу если вы так сделаете я соберу еще интересные кейсы которые могли бы помочь в будущем таким поисковым системам когда я добавлю больше каналов!

В целом мне нравится что в интернете так много полезной и сочной информации действительно можно прокачиваться каждый день просто анализируя то что доступно всем!
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥3811👍10🤯3
Добавил еще в бд посты из канала https://t.iss.one/denissexy


Интересно получается

Про b2b и технину из https://t.iss.one/llm_under_hood

А про более развлекательный но тоже технический контент подмешиваем из https://t.iss.one/denissexy

Кстати за короткий период добавил туда

6 Навыков
FTS+KNN
И новых данных

По тренду видно что вроде лайки начинают увеличиваться

@neuraldeepbot
🔥22👍733
Дружочки!

Оффлайн встречи #безвотэтоговотвсего возвращаются в Москву! И не абы какую, а уже 20ю (офигеть, ДВАДЦАТУЮ!) встречу мы решили провести в гостях у наших дружочков из Леманы Тех. Такое событие требует интересной темы, поэтому мы решили не мудрствовать лукаво и с нашими экспертами поговорим на тему “AI-компас для управленца: куда смотреть, чтобы не пропустить главное”.

Пришло время поковыряться в этом всем AI/LLM-ом хайпе и отделить уже зерна, от всего остального 😻

В панельной дискуссии попробуем разобраться с тем как:
- AI уже в бизнесе, но не везде — как понять, где его место в вашей стратегии
- От хайпа к пользе — как отличить модные игрушки от реальных инструментов
- Какие решения руководители должны принимать сами, а какие пора делегировать алгоритмам
- Главные ориентиры на ближайшие 12–18 месяцев, чтобы быть впереди, а не догонять
- и многое другое)

В честь такого дела с нами шуршать будут уважаемые эксперты:
⁃ Валерий Ковальский — Head of AI red_mad_robot
⁃ Алексей Миловидов — CTO Ecom.tech
⁃ Александр Айваз — CDO, Лемана Тех
⁃ Тимур Вайсман — Директор центра интеллектуализация МТС

Встречаемся на прекрасной площадке Леманы Тех в их офисе (проспект Лихачева 15), 25го сентября в 18:30. Регистрируемся по ссылке, мест мало, а желающих ой как не мало)

Приходите, будет огненно!)
🔥155👍5
Forwarded from Hustle Continuous
Валера топ, списался с ним, было пару вопросов по ллм аппке - рассказал и показал как что лучше реализовать! Если хотите построить что то на ллмке и с чем то есть трудности, не стесняйтесь - пишите ему, сориентирует и направит) спасибо!
🔥309🤣65
У @VaKovaLskii из @neuraldeep есть RAG бот, который может отвечать на вопросы по материалам канала и чата нашего комьюнити.

Бот появился впервые месяцев 8 назад и недавно ожил снова, пополнился новыми постами.

Бот работает как Custom ChatGPT - находит релевантные сообщения и на их основе синтезирует ответ. Ответы не всегда точные, но всегда сопровождаются ссылками на оригинальные сообщения, поэтому все можно перепроверить.

Пообщаться с ботом можно тут: @neuraldeepbot. Прочитать о нем тут.

Ваш, @llm_under_hood 🤗
2🔥15👍8👏7🤔1
Neural Deep
База знаний по каналу в телеграм? Зачем это нужно? RAG/LLM workflow/Чат бот 8 месяцев назад я решил сделать первый эксперимент в этом направление и смотря на себя тогда осознал что перемудрил с выгрузкой сделал очень сложные связи и в целом ответы чат бота…
LLM/RAG Мониторинг с первого дня - это не роскошь, а необходимость!

Когда я запускал @neuraldeepbot 8 месяцев назад, думал "сделаю MVP, а потом посмотрю"

Результат? Система работала, потом, когда-то, запущу в докере и улучшу
Но с развитием кодовых агентов и IDE таких как Cursor у меня чуть сильнее развязались руки

Сейчас подход кардинально другой — с первого запроса у меня есть:

Детализация реакций по дням (видно на графике)
Процент лайков по каждому этапу развития
Классификация сложности запросов через LLM
Трекинг используемых навыков в ReAct цепочке

И знаете что? Это реально работает!
За 6 дней метрики выросли с 48.8% до 96.0% положительных реакций

ReAct архитектура когда LLM сама решает как искать

Вместо жестко заданного пайплайна "вектора → реранкер → ответ" внедрил ReAct подход:
User Query → 

1) LLM классификатор навыка
Защита
Уточнение
Мета вопросы
RAG поиск

2) LLM классификатор сложности

ReAct агент выбирает навыки:
- FTS поиск по ключевым словам
- Векторный поиск (bge embedding)
- Комбинированный поиск
- Временная фильтрация
- Поиск по коментам vs постам
→ Синтез финального ответа

Еще одним полем отечает последовательность запуска (ему так же прописаны связи и возможности)
gpt-5-mini показала себя прям очень хорошо

Кстати все взаимодействия с навыками я построил через SO никакого tool call

Конкретные цифры улучшений:

12.08: Запуск наивного RAG бота — 48.8% лайков
13.08: Анализ первых 200 запросов — 76.0% лайков
14.08: Добавил 4 навыка и классификатор — 78.3% лайков
16.08: Переход на GPT-4o-mini — 95.0% лайков
18.08: Финальные улучшения — 96.0% лайков

Аналитика запросов ваш компас в темноте это проблема почти 90% инициатив которые я встречаю

Самые болезненные инсайты пришли из анализа реальных пользовательских запросов:
Проблема №1: "Какой последний пост был?"

Система отвечала защитой из промпта
Фикс: Добавил навык временного поиска

Проблема №2: "Лучшая локальная LLM?"

Тащила посты 2024 года вместо свежих
Фикс: Приоритизация по датам через ReAct

Проблема №3: Нехватка контекста из разных каналов

Добавил данные из @llm_under_hood и @denissexy, @seeallochnaya
Сразу видно улучшение по реакциям!

Мой чек-лист для каждой итерации Q&A системы
Неделя 1: Базовый MVP + мониторинг реакций
Неделя 2: Анализ первых 100-200 запросов глазами (далее зовем LLM что бы сверится)
Неделя 3: Добавление недостающих навыков поиска
Неделя 3: Оптимизация промптов под реальные кейсы

Далее: Еженедельные итерации по метрикам
Техническая кухня что реально двигает метрики
Стек убийца:

ReAct агент для выбора стратегии поиска
gpt-5-mini как основной LLM (переход дал +19% к лайкам!)
SO на всех этапах вызова навыков
FTS + векторный поиск в зависимости от запроса
bge реранкер для финальной фильтрации
Qdrant для хранения эмбеддингов
PGSQL как основная база
teleton
fastapi
python

Система оценок:

Лайк/дизлайк после каждого ответа
Дизлайк = я лично смотрю кейс и думаю что пошло не так
Никаких A/B тестов — итерируем по общим метрикам(но только на старте)

Главные ошибки, которые убивают Q&A системы

"Сделаю идеальную архитектуру, а потом запущу" — НЕТ!
Запускай MVP и итерируй по реальным запросам
Игнорирование мониторинга без метрик ты летишь вслепую
Жесткий пайплайн вместо адаптивного ReAct дает LLM выбирать стратегию поиска
Недооценка важности промптов 80% успеха Q&A системы в правильных промптах

Ребята реально общались со мной через запросы и давали детальные советы по улучшению промптов

Честно говоря, RAG как RPG нужно быстро лечиться (хотфиксы),
крафтить экипировку (промпты), управлять инвентарем (данные)
и качать скиллы через квесты (Cursor). Каждый день фармишь опыт и лут для апгрейда системы

Но с правильным мониторингом и планом итераций
можно довести систему до production-ready за несколько недель вместо месяцев блужданий

Кто строил похожие Q&A системы без четкого понимания сценариев?
Какие метрики отслеживаете?
И главное как быстро итерируете по фидбеку пользователей?
🔥61👍13👏6💯1