Neural Deep
7.6K subscribers
301 photos
44 videos
3 files
194 links
Head of AI redmadrobot.ru

6 лет: 0>>>Head of AI
AI Infrastructure | Production RAG

Local inference
RAG (2M+ книг)
RAG chat bot (5М+ токенов)
B2B платформа (10+ клиентов)
B2C gptdaisy.com (100k MAU)

Код, кейсы
github.com/vakovalskii | @neuraldeepchat
Download Telegram
Создайте свой OpenRouter за 48 часов

Как я объединил 10+ ИИ-моделей в единый API и планирую сэкономить компании 1000 часов в год на интеграции моделей в продукты/проекты

Итак, сразу к проблеме: как вы знаете, существует более чем 10 SOTA провайдеров LLM и не многие повторили опыт OpenAI SDK, а зачем-то пилят свои обёртки!? (Всегда вспоминаю сколько есть ответвлений Linux и каждый считает свое лучшим)

Вашему вниманию — LiteLLM (open-source) адаптер, который оборачивает самых распространённых провайдеров под OpenAI SDK

Что закрыто под лицензией?
Это отчеты и какой-то еще мелкий функционал, но можно копнуть в коде (но мы так делать не будем)
При этом в API LiteLLM есть метод запроса логов, что даёт возможность собрать из него подробный отчёт для своих нужд)

Если рассказывать про быструю настройку, то первых 5 провайдеров я добавил быстро
Из минусов: пришлось брать VPS в Фениксе, так как все диапазоны адресов Hetzner у Google в блоке

Что было сложно добавить, так это (YandexGPT и GigaChat) — они сложны и веселы, всё как следует нашей душе:

1) Я подумал, что можно скормить проект LiteLLM в Cursor и попросить подкинуть туда новых провайдеров скормив туда документацию
2) Я понял, что это плохая идея и я прокопаюсь очень и очень долго, не зная всех особенностей проекта.

Озарение: Погуглив я понял, что есть два прекрасных репозитория, которые позволяют упаковать что YandexGPT(все модели лежат списком если что в json по другому никак), что GigaChat в OpenAI SDK и передать в LiteLLM как кастомных OpenAI провайдеров =)

За два дня настройки я получил свой open-router для всех наших продуктовых отделов и разработчиков.

Отдельно хочу отметить возможность настраивать на каждый новый ключ TPM/RPM и бюджет в день, в месяц, в неделю (как же я этого хотел!).

Удобный UI присутствует
Контроль стал удобнее
Наши локальные vLLM сервера тоже встали в ряд и теперь все в едином интерфейсе

Видно логи каждого запроса, можно легко помочь ответить разработчику, что не так даже можно в логах при правильной настройки сохранения видеть сам request и response
Все теперь делают импорт только OpenAI
Из-за удалённости сервера +1 секунда к ответам, но это ничто по сравнению с тем, что теперь мы используем только одну библиотеку для всех наших проектов/продуктов/экспериментов!

Даже есть тестовый плейграунд для всех моделей
5🔥37👍117
Forwarded from Pavel Zloi
Посмотрел посты блогеров которые по инерции всё ещё следят за анонсами новых продуктов от OpenAI.

Вот краткий пересказ:

Новые революционные модели стали на сколько-то там процентов лучше предыдущих и по мнению экспертов ещё вкуснее умнее.

Они доступны только по API, так что вкусить их смогут только самые упрямые.

На всяких редитах основной вопрос это нейминг, релизить модель 4.1 после 4.5 идея странная.

Лично я надеялся на релиз опенсорс моделей, но видимо придется подождать ещё немного.
😁17🔥10👍3
Что вы знаете про red_mad_robot? Некоторые скажут «это какая-то мобильная разработка”, другие возможно вспомнят какие-то проекты, а третьи вообще полезут гуглить».

А меж тем r_m_r за последние годы превратился в большую группу компаний с экспертизой в разработке GenAI-решений и запуске цифровых бизнесов. Мы не могли пройти мимо такой истории и решили поговорить с Алексеем Макиным, сооснователем r_m_r. До прихода в компанию Леша развивал собственный бизнес в области e-commerce. К команде red_mad_robot присоединился в 2011 году в качестве директора по продажам, а в 2014 году занял должность генерального директора.

Помимо r_m_r Алексей запустил фонд «Яркие точки», ивестирующий в технологические проекты, защитил работу по программе MSc AI and Ethics в Лондоне и активно преподает в МШУ Сколково и ВШБ МГУ.

С Лешей мы обстоятельно поговорили про:
⁃ что из себя представляет r_m_r прямо сейчас и как так получилось что из небольшой студии мобильной разработки «выросло то, что выросло»
⁃ overview  того, что происходит с AI в современном мире, и что простым обывателям (и не только им) стоит ждать в ближайшие 3-5 лет
⁃ про внутреннюю культуру r_m_r, подходы к управлению и способность оставаться актуальными в гонке за мозгами
⁃ про настоящее и будущее рынка российской разработки
⁃ и многое другое

Смотрите и слушайте нас на удобных платформах:

Youtube
VK Video
Apple Music
Yandex.Музыка


С вас лайки и шэры, с нас – новые эфиры )
🔥29👍84
В эфире программа развития red_mad_robot

Алексей Макин рассказывает про технологии!

Выравниваем все понятия по AI
Обсуждаем стратегию
Накидываем вижн на будущее

Считаю очень продуктивно, разобрали общие понятия Agent/RAG/Workflow Agent/MAS

Ну и еще раз прошли по истории

В коменты закинул выжимку от OpenAI/Antropic про агентов
🔥245👍4
Еще я иногда помогаю разобраться с локальной архитектурой, когда важна безопасность

Приятно понимать что помогаю и в копилку попадают полезные знания о кейсах

Есть вопросы про AI? Тут в чате собралось много экспертов
1🔥283
Forwarded from Роман с данными
LLM моделей становится все больше и больше, разобраться в таком зоопарке становится все сложнее и сложнее.

Openrouter придумал интересный способ навести порядок - они проклассифицировали запросы своих клиентов по типам задач (programming, legal, finance и т.д) - и посмотрели в каких случаях какие модели используются.

Как говорится - все гениальное просто 🙃

Ознакомиться с инфографикой можно по ссылке https://openrouter.ai/rankings

P.S: За новость спасибо Валерию Ковальскому, автору канала Neural Deep
🔥2373
1С Можно ли автоматизировать через VL модели семейства Qwen распознавание сканов товарных накладных?

Взял в проверку картинку и гипотезу с канала 1С PRO: Интеграция + ИИ


В тест взял 7b и 32b и 72b модельку
Так же завез детекцию bbox

По моим наблюдениям и запускам

7b уходила в бесконечный цикл генерации как бы я не старался исправить промпт на таблице её корежило
32b находила все что нужно но почему-то съезжают bbox
72b такая же болезнь что и у 32b

Гипотеза моя была в том что можно распознавать и дететктить bbox на новых типах накладных и допом OCRить поля для повышения уверенности

Но чуда не случилось буду тестировать еще другие файлики текст отличный (расположение bbox кривое)



АНАЛИЗ ДОКУМЕНТА
==================================================

Информация о документе:
--------------------
Тип: ТОВАРНАЯ НАКЛАДНАЯ
Номер: 923
Дата: 02.06.2017

Информация о получателе:
--------------------
Имя: Коршунова Мария
Адрес: 109044, Россия, Москва, 8-я улица Сокольной горы, д.22, кв./оф.203
Телефон: +79629978695

Продукты:
--------------------
# Название Артикул
-----------------------------------------------------------
1 Трансмиссионное масло HONDA ATF-DW1 для АКПП 0.9л, USA 082009008
2 Моторное масло HONDA Motor Oil ULTRA LTD SN 5W30 4L Япония (полусинтетика) 082189974
3 Фильтр масляный 15400RTA003
4 Фильтр воздушный 17220RNAY00
5 Фильтр салонный 80292TV1E01
6 Шайба уплотнительная (18 ММ) 90471PX4000
7 Шайба уплотнительная сливного отверстия масла двигателя/МКПП (14мм) 9410914000



Возможно скан низкого разрешения для bbox поищу сканы лучшего качества


Крутой подход от Ильи в коментах
👍11🤔5🔥3
Сегодня владельцы телеграм ботов, более 300к MAU, стали получать уведомления о просьбе отключить все сторонние платёжные системы, кроме Telegram Stars, иначе блокировка

По информации такие уведомления получили топ 10 ботов с доступом к различным сервисам, таким как LLM, по подписке

Запасайтесь звёздам для продления подписок
10🤯4
Свой AI Call Center! Как построить? Опыт разработки длиною в год

Многие спрашивали в комментах про AI call center и я решил собрать материал! Позвал Артёма, технического архитектора (TA) стартапа, разрабатывающего подобную платформу
Вот главные инсайты за год реальной работы

Сразу к делу 👇

Что такое AI call center?
- Система для автоматизированных разговоров с клиентами
- Локальное onpremise решение (безопасность!)
- Интеграция STT, LLM и TTS компонентов
- Нетривиальный пайплайн обработки в реальном времени
- Поддержка 20+ языков (крутое преимущество для международного бизнеса)

Архитектура
- STT распознаёт речь (важно работать с односложными ответами!)
- LLM генерирует ответы (нужен правильный контекст)
- TTS озвучивает текст в голос
- GuardRails для безопасности на базе отдельной LLM
- Балансировщик нагрузки для масштабирования

Типичные проблемы

Безопасность
- Всё onpremise в базе (хотя пробовали разные варианты)
- Отдельный GuardRails, сходный с NVIDIA
- GR работает как "рубильник" и разрывает соединение при отклонениях
- Работает параллельно основной обработке, не замедляя пайплайн

OpenAI-realtime плохо работает не на английском - путает языки входа/выхода

Масштабируемость
- Изначально система проектировалась на ~100 одновременных сессий
- Основной bottleneck — это LLM
- H100 тянет ~10 сессий для моделей типа Llama 70B+
- На первом этапе хватит 10-30 одновременных сессий для тестирования гипотез

Не завязывайтесь на внешние нейронки в production! OpenAI не всегда стабильна, тайминги ответов непредсказуемы

⚠️ Критично: первый чанк озвученного текста должен быть готов за 1-1.5 секунды!

Затраты на разработку
- 1-2 NLP специалиста, бэкенд разработчик, 25% времени DevOps
- Прототип на внешних сервисах: ~1 месяц (качество диалога далеко от человеческого)
- Решение под конкретный язык на opensource +2 месяца
- Эксперименты с собственными нейронками, сбор датасетов и телефония: +6 месяцев

Проблемы с STT
⚠️ Модели ASR/STT заточены под более качественный звук, чем ulaw8000 в телефонии!
- Необходима логика нарезки входного звукового потока
- Модели плохо справляются с распознаванием речи в условиях мобильной связи
- Фоновые шумы и акценты – дополнительная сложность

LLM/TTS решается проще: 11labs даёт хорошее качество генерации голоса, обычной версии достаточно

Проблемы с LLM в диалоге
- Плохо заточены под формат живого диалога
- При подаче сырого транскрипта отвечают в стиле вежливого помощника
- Часто путаются в промпте и сценарии
- Достигнуть sub 1.5 sec на ответ при тюнинге вполне реально

Для низкоресурсных языков задача усложняется в разы — LLM с неточным контекстом и малой выборкой накапливает ошибку x2.
Особенно это заметно при переходе от частых фраз к нетипичным высказываниям, где модели начинают "плыть" и терять основную нить разговора

Организация логики разговора

- Юзер закончил говорить или сделал паузу?
- Юзер ждёт ответа или будет следующая фраза?
- Как обрабатывать дополнения к фразе?
- Как реагировать на перебивания?
- Как вернуть разговор в сценарий при отклонении?
- Если юзер молчит — это пауза или провайдер не передал звук?

Считаю для начала проекта надо сразу заложить эти челленджи и иметь 2-3 решения в рукаве. В нашем случае помогли промежуточные прототипы и вспомогательные LLM

Отдельно отмечу важность правильной инфраструктуры - подготовка к скачкам нагрузки, отказоустойчивость и мониторинг качества диалогов критичны!
На практике основные проблемы возникают не в алгоритмах, а в инфраструктурных решениях.
Один сценарий, где LLM начинает генерировать бесконечныя текст, может положить всю систему, если не предусмотреть лимиты и контроли

P.S. Подробнее про компоненты можем рассказать Чат канала тут

Кто строил подобные системы? Делитесь опытом! 💪
Please open Telegram to view this post
VIEW IN TELEGRAM
2🔥21👍10🤯71
This media is not supported in your browser
VIEW IN TELEGRAM
В Курсоре появилась генерация правил проекта

Запускается так: /Generate Cursor Rules

В моем проекте курсор создал список всех файлов и краткое описание функциональности каждого файла. Думаю, это лучше поможет курсору ориентироваться в структуре проекта и сохранять чаще информацию там где надо, а не там, где почему-то неожиданно захотелось

Так же для каждого из правил можно указать его способ его использования, если я правильно понял
🔥15👍7🤯2
AI Call Center: отвечаем на вопросы! Часть 2 🎙

В прошлый раз мы рассказали об опыте разработки AI Call Center, и в комментариях появились классные вопросы!
Собрал ответы от Артёма на самые интересные из них👇

Q: Какие еще ограничения есть?


A: Существует три важных ограничения:

1️⃣ Техническое: цена/пропускная способность провайдера IP телефонии.

2️⃣ Юридическое: в некоторых юрисдикциях боты не могут звонить сами и навязывать/рекламировать услуги. Но могут отвечать на звонки!

3️⃣ Человеческое:
Далеко не всегда люди готовы к продуктивному диалогу с ботами. Эти моменты должны быть заложены в логике и сценарии

Q: Как вы решаете проблемы с телефонией?


A: Мы раскурили свою инфраструктуру телефонии и работаем напрямую с провайдером через Asterisk. Пришлось буквально переписать всё на уровне низкоуровневых протоколов и ивентов, т.к. на Python нет адекватных библиотек для этого.

Интересно, что для осуществления одного звонка задействовано множество промежуточных акторов:
- Провайдеры разного уровня
- Системы анализа/записи на уровне государства
- Анализаторы/спам-фильтры
- Автоответчики
- И только потом сам пользователь

Отдельная головная боль - достаточное количество локальных номеров. Есть более "белые" номера (дорогие), есть "одноразовые", которые быстро отлетают в бан и их надо вовремя ротировать


Q: Сколько и какого железа нужно для обслуживания разного количества потоков?


A: Набор из STT, TTS, VAD и Denoise нейронок прекрасно умещается на 20-30 ГБ любого GPU. Для разработки мы взяли RTX6000, чтобы не париться. Смелые могут часть даже на CPU запустить, но это навредит таймингам ответа.

CPU/RAM особых требований нет - зависит от бэкенда, БД и нагрузки. Сборка с 24 CPU и 80-120 ГБ RAM способна потянуть 30 одновременных сессий на несколько тысяч абонентов.

Первое узкое место - LLM. Llama3.3-70B тянет ~13 потоков на пределе на H100. Для высокоресурсных языков можно брать радикально меньшие модели.


Q: Какие у вас объемы звонков и сценарии использования?


A: У нас сотни тысяч неинтерактивных обзвонов (проговаривание предзаписи) + голосовые OTP звонки. Для интерактивных сценариев объемы меньше (тысячи) - сбор обратной связи, уточнение причин проблем в работе с системой

Основные запросы бизнеса:
- Ответы по цели взаимодействия (опрос/обратная связь)
- Качество итогового транскрипта для последующей разметки/классификации


Q: Насколько качество отличается от человека-оператора?


A: Сильно зависит от языка и сложности сценария. По субъективной оценке и разбору транскриптов, разница может составлять от 3-5% для английского до 30% на хинди.

Неинтерактивные обзвоны производятся в любом случае ботами. Для интерактивных сценариев работа колл-центра возможна, но гораздо более затратна по внедрению новых сценариев и меньше масштабируется, особенно когда мы звоним на разных языках.


P.S. Больше вопросов? Пишите в комментах, соберём еще один выпуск!
А все технические вопросы можно задать в чате https://t.iss.one/neuraldeepchat
👍11🔥61
1M контекст - фейк? Тесты NoLiMa показали что RAG на длинных контекстах почти мертв? 💀

Спойлер нет

Наткнулся на интересное исследование Adobe Research про новый бенчмарк NoLiMa (Long-Context Evaluation Beyond Literal Matching)

В отличие от классического подхода "иголка в стоге сена", здесь тестируется способность модели работать с контекстом когда нет прямых лексических совпадений
Что такое NoLiMa и чем отличается?

Классические тесты (needle-in-haystack) позволяют моделям искать прямые совпадения слов
NoLiMa заставляет модель делать семантические связи без прямых текстовых совпадений
Требует от модели более глубокого понимания контекста и ассоциативного мышления

- Протестировано 12+ моделей с поддержкой контекста от 128K до 10M токенов
- Даже топовые модели значительно деградируют на длинных контекстах
- GPT-4o падает с 99.3% на коротких контекстах до 69.7% на 32K

У большинства моделей провал производительности ниже 50% от базового результата

| Модель      | Заяв.| Эфф| Score | 4K    |
|-------------|-----------|-------|-------|
| GPT-4o | 128K | 8K | 99.3% | 95.7% |
| Llama 3.3 ..| 128K | 2K | 97.3% | 81.5% |
| Llama 4 Ma..| 1M | 2K | 90.1% | 68.8% |
| Gemini 1.5 .| 2M | 2K | 92.6% | 75.4% |
| Claude 3.5..| 200K | 4K | 87.6% | 77.6% |


Почему это важно для наших RAG систем?
В реальном мире информация редко лежит в тексте буквально
Чаще нам нужна модель, способная делать выводы из контекста, находить скрытые связи и работать с разными формулировками одной и той же мысли

Эффективный контекст большинства моделей составляет ~4K токенов, что существенно ниже заявленных значений

Реальные кейсы обычно требуют работы с гораздо большими объемами текста
Что особенно интересно
Отдельно авторы тестировали модели с CoT/reasoning, и результаты обнадеживают:
- GPT-o1 (рассуждающая версия) показывает 31.1% на 32K против базового 18.9% у GPT-o3 Mini
- Llama 3.3 70B с CoT улучшила результат с 8.9% до 10.1% на сложном варианте теста

Stay tuned!

Буду следить за развитием темы, похоже что NoLiMa может стать новым стандартом для оценки RAG и других систем работы с длинным контекстом 💪
🔥40👍94
gpt-image-1 по API Openai

Но не всем!
Сначала пройди верификацию и как пишут в чатах даже на РФ права работает

Гоу тестить бота и ломать, его написал курсор за 2 часа
всем 1 фри генерация в сутки в low режиме

Я так же сначала получил доступ и верифицировал свою организацию (заняло это не более 5 минут) полет стабильный!

Сгенерировано по запросу: "Cобака бежит по дороге она смотрит на меня глазами красными и в костюме лебовского
На заднем плане стоят люди у обрыва и рассыпают прах как из фильма"


Антропоморфный накачанный кот породы экзот идёт по улице и на него влюбленным взглядом смотрят антропоморфные кошки в разных платьях

Это ок что она кадры из фильма подсовывает?

Гоу тестить пока не вырубил бота всем фри 1 генерацию

1024х1024 high (скорость около 30-50 секунд
За 15 картинок вышло 3,7 бакса или 20 рублей за картинку)

@gptimage1bot
💯12🔥10😁63
Безопасный ИИ в вашей компании?

Вчера мы проводили програму развития целому отделу ИБ (на тему безопасности и LLM)

Стартовали с того что же такое LLM и как они устроены закончили нашим видением на будущее

Обсудили базовые концепции GuardRails
Прошлись по базовым защитам чат-ботов
Проговорили про новые уязвимости, которые может создать внедрение LLM

Поделились опытом построения RAG систем и разграничения прав доступа на корпоративном уровне

Из нового в нашем формате это был лайв кодинг на примере разработки простых систем тестирования гипотез ллм через Курсор
🔥32👍10
n8n + Qwen 2.5 7b instruct + vLLM + SO = Мощный диджитал твин на своем железе!

Всем привет!

По следам экспериментов я решил собрать небольшой пост старт по тематике n8n здорового человека
Что это такое?

Low-code подход через n8n для построения логики "диджитал твина"
vLLM для оптимизации инференса модели на локальной инфре + под капотом есть xgrammar

Qwen 2.5 7b instruct(t-lite) - неожиданно эффективная для SO и классификации интентов под такие задачи

Интеграция с RAG Smart Platform как "знаниевый агент" в наборе инструментов

Как это работает?

Structured Output вместо встроенных агентов которые работат на tool которые ломаются чаще российского автопрома для классификации намерений

Гибкая архитектура инструментов через n8n ноды(пришлось попотеть через js Vibe Coding спасает)

Маршрутизация запросов на основе четкой классификации где нет места гибким условиям если есть только flow!

Интеграция с внешними API и базами знаний

Что сейчас умеет такой спрут? Причем n8n стоит локальной на моем сервере

Выбор инструмента на основе намерения пользователя
Роутинг между различными исполнителями задач
Универсальный метод для разных типов запросов (часто без необходимости переобучения модели)
Форматирование запросов от каждой внешней АПИ типо погоды или календаря под тот формат который я задумал для визуализации пользователю!

Система не идеальная, но уже можно автоматизировать множество процессов!

Если вам интересно то этот пост байт на коменты и реакции

Хочу понять стоит ли пилить отдельный пост разбор + выложить код всех нод на гит для повторения!
671🔥51👍17