Neural Deep
7.64K subscribers
301 photos
44 videos
3 files
195 links
Head of AI redmadrobot.ru

6 лет: 0>>>Head of AI
AI Infrastructure | Production RAG

Local inference
RAG (2M+ книг)
RAG chat bot (5М+ токенов)
B2B платформа (10+ клиентов)
B2C gptdaisy.com (100k MAU)

Код, кейсы
github.com/vakovalskii | @neuraldeepchat
Download Telegram
Forwarded from CGIT_Vines (Marvin Heemeyer)
This media is not supported in your browser
VIEW IN TELEGRAM
Значит, смотрите, все как учил вас в 2025!

Сначала отстреливаем каждую из семи щупалец. После того как он перестанет вас хватать, целимся в светящийся оранжевый треугольник, между сенсорами. Как убьете, не подходите сразу для сбора дропа — после смерти они, как правило, взрываются!
😁14🔥7
Forwarded from Pavel Zloi
Хмм, приложение DeepSeek и правда Топ-1 в мировом AppStore, а я думал это фотошоп, пойду пожалуй тоже себе его скачаю.
🔥93
Акции NVIDIA рухнули на $400 миллиардов за одну ночь, китайский DeepSeek перевернул рынок ИИ?

Давайте по порядку!
Что произошло?
Выпуск DeepSeek в open-source и обгон ChatGPT o1 по скорости, качеству и стоимости

Её обучение обошлось в $6 млн — в сотни раз дешевле карл!!! Чем у OpenAI, Google и Meta (миллиарды долларов)
Это ударило по NVIDIA и рынку инвестиций в ИИ, чьи GPU считались обязательными для обучение моделей такого уровня!

Какие причины падения NVIDIA вижу я

Снижение зависимости от дорогих GPU
- DeepSeek обучили без этапа supervised fine-tuning, используя чистое обучение с подкреплением (RL)
- Алгоритм GRPO (эффективнее традиционного PPO) сократил затраты на тренировку
- Итог: больше не нужны гигантские кластеры видеокарт?

Архитектура MoE меньше параметров в момент запуска а значит выше скорость
- Модель использует 37 млрд активных параметров из 671 млрд общих (Mixture of Experts)
- Это снижает вычислительные затраты и ускоряет инференс
- Стоимость токенов за инференс у DeepSeek в 27 раз ниже, чем у OpenAI воу!
DeepSeek-reasoner vs OpenAI o1 - сравнение цен за 1 миллион токенов:
DeepSeek-reasoner (64K контекст):

Полная обработка (вход + выход): $2.74 ($0.55 + $2.19)

OpenAI o1 (200K контекст):

Полная обработка (вход + выход): $75 ($15 + $60)

Итог: OpenAI o1 дороже в 27 раз при сравнимых возможностях рассуждения, но предлагает в 3 раза больший контекстный размер.


Смена парадигмы алгоритмы vs «железо»

- Раньше прогресс связывали с увеличением GPU (правило «Bitter Lesson»)
- Теперь оптимизация методов обучения (например, RL-подходы) сокращает затраты
- Тысячи видеокарт для каждой модели — уже не обязательны
- Спрос на GPU для ИИ под вопросом: инвесторы начали массово сливать акции
- Зависимость NVIDIA от двух секторов: игры и ИИ. Последний теперь выглядит рискованным

Рыночные ожидания?
- NVIDIA была символом AI-бума и походу это пошатнулась, но её оценка строилась на вере в бесконечный спрос на GPU
- Китайские компании (включая DeepSeek) стали серьёзными конкурентами, хотя их раньше не воспринимали всерьёз
- Главный вопрос сможет ли NVIDIA адаптироваться, если тренд на «дешёвый ИИ» сохранится?


Уже пробовали DeepSeek?

P.S. Пока ИИ-гиганты тратят миллиарды, китайцы делают революцию за $6 млн
NVIDIA в шоке, Уолл-стрит — в панике
Запасаемся попкорном будет интересно 🔥


Мы же все же про технику больше
Дальше буду сидеть изучать эту статью и похожие где даётся разбор обучения
👍13🔥66
Еще Qwen выкатил, возможно, лучший open-source анализатор изображений


Qwen представил Qwen2.5-VL - новую мультимодальную модель на замен Qwen2-VL
И самое главное - она open-source!

Что показывают тесты что меня интересует по метрикам
- OCRBench-V2 (en/zh): 61.5/63.7 - лучший результат среди всех моделей
- CC-OCR: 79.8% - опережает даже проприетарные решения
- DocVQA: 96.4% - топовый результат для работы с документами
- MMVet_turbo: 76.19% - существенное улучшение в понимании изображений
- MathVision_FULL: рост с 25.9% до 38.1% - в математических задачах рельно заметный рост

А теперь к тестам на эту неделю запланировал тесты и что мы будем тестировать (неструктурированные документы которые имеют по 20 000 форм)
- Таможенные декларации
- СЭС-сертификаты
- Сертификаты пожарной безопасности
- Паспорта качества

На что смотрим при тестах:
1. Извлечение данных:
- Производитель
- Номера документов
- Даты
- Организации
- Описания
2. Особое внимание:
- Смешанные символы (кириллица + латиница)
- Форматированный текст
- Структурированные данные

Как запускать?
- 7B версия -> RTX 4090 (максимальная параллельность: 3.82x для 20000 токенов)
- 72B версия -> H100 с FP8 квантизацией (параллельность: 2.38x для 6000 токенов)
- VLLM для оптимизации
- xgrammar для Structured Output

Скорость работы прошлой модели
- 7B: 4 секунды на страницу
- 72B: 10 секунд на страницу

С чем будем сравнивать
- GPT-4o
- Claude 3.5 Sonnet
- Gemini Pro
- Qwen2-VL-72B-Instruct

P.S. Похоже, что open-source решения начинают всерьез конкурировать с проприетарными платформами А учитывая возможность локального запуска - это может быть game changer для компаний с высокими требованиями к безопасности!

Будем тестить дальше! 🔥
🔥215👍5
Что мы хотели знать про DeepSeek r1, но стеснялись спросить?

(1) Правда ли, что DeepSeek r1 лучше o1?

Вот никаким боком. Болтает, может, и приятно, но на конкретных бизнес-задачах он на уровне между 4o и 4o-mini. Да, это предварительные результаты бенчмарка v2 (см. рисунок 1). Да, там есть возможность поразмышлять вволю. Да, DeepSeek пользуется этой возможностью и размышляет только так.

(2) Правда ли, что DeepSeek r1 настолько дешевле o1? Как у них экономика сходится?

А тут начинаются интересные нюансы, про которые журналисты не всегда упоминают. Идем в Wiki статью про DeepSeek.

DeepSeek - это китайская лаборатория искусственного интеллекта, которая разрабатывает большие языковые модели с открытым исходным кодом. DeepSeek в значительной степени финансируется китайским хедж-фондом High-Flyer, основанным и управляемым Лян Вэньфэном из Ханчжоу, Чжэцзян.


А из этого следует два вывода:

- Им не обязательно, чтобы модели окупались.
- Они могут заработать денег, если выпустят такие новости, от которых мировые рынки зашатает.

А если мы пойдем на OpenRouter и сравним цены на DeepSeek от разных конкурентов (модель же любой может хостить), то получится интересная картинка (см рисунок 2). DeepSeek хостят ее с крошечным контекстом, никаким throughput и вообще не в силах продолжать этот аттракцион невиданной щедрости (желтый статус - качество просело).

TLDR; модель потенциально интересная, но не это не настолько переворот, как про это пишут. А в бизнес-задачах даже не самая оптимальная (не забываем про размер). Можно получить качество лучше просто разбив workflow на несколько небольших логических шагов для модельки послабее.

Ваш, @llm_under_hood 🤗
👍54👎4
Агенты обретут память? SMRT может решить эту задачу!

Интересная статья вышла от 22 января на arXiv и стала публикацией дня на HuggingFace - про решение проблемы памяти у многоагентных систем (SRMT: Shared Memory for Multi-agent Lifelong Pathfinding)

Главная идея: авторы придумали, как научить агентов эффективно "общаться" через общую память
Работает это так

1. Каждый агент преобразует свои наблюдения и планы в компактный вектор (mem_i)
2. Все агенты могут "читать" память друг друга через cross-attention механизм и извлекать из векторов памяти других агентов например окружение (obs_i)
3. На основе этой информации каждый агент принимает решения

По сути, агенты учатся общаться на своем "сжатом" языке:
- Умеют "упаковывать" свои намерения в векторы
- Понимают как интерпретировать векторы других агентов
- Вся эта коммуникация происходит автоматически через ResNet энкодер обучение модифицированной, GPT2-based трансформер с shared memory механизмом и cross-attention.

Технически это довольно компактная модель судя по репозиторию на Github
- hidden_size: 512
- attention heads: 8
- max_position_embeddings: 16384

Интересно увидеть, насколько эффективно это работает на практике надо покопать experiments где решались задачи bottleneck
🔥20👍11
Невнятный R&D - моё призвание? 6K строк кода между совещаниями 😮

Ну что, признаюсь - я тот самый CEO, который вместо презентаций строчит код через клод

За январь собрал 3 прототипа, пока все думали, что я занимаюсь "стратегическим планированием" 😅 (ладно им я занимался по ночам)

Что получилось?
- 3 рабочих прототипа
- Довольный продакт
- 6K строк кода в перемешку в css/html
- 10+ API методов в каждом прототипе
- LLM под капотом всё решает
- Уже на боевом тесте!

Как делаю я и не советую =)
- Хватаю validated проблему из рынка или от лпр
- Даю себе 2-3 дня (максимум!)
- Рисую простую архитектуру
- Кидаю идею в клод и начинаю творить
- Не парюсь с идеальным кодом
- Пушу в прод, как только работает какой прод быстро катим на виртуалку там в докер =))

Cтэк технаря CEO:
Python + FastAPI (базовая тема)
GPT-4o + pip install openai
Pydantic для SO (структурируем всё) клод напиши вот пример
CoT для сложных задач (без этого никак)
@llm_under_hood тут все про это
Nginx + Cloudflare (чтобы Safari не плакал)
Docker + Ubuntu (всё в контейнерах)
Простой фронт на Jinja (чтоб глаза не болели)
Куча кэша и используем с умом (чтоб не разориться на API)


Почему это работает?
- Быстрый переход от идеи к тесту
• LLM делает всю сложную работу
• Промпты заточены под конкретные кейсы
• Сразу фидбек от реальных юзеров

Знаете, в чём прикол? Пока все пишут стратегии и рисуют красивые слайды, я просто беру и делаю
Да, код может быть не самым красивым, зато работает и приносит пользу прямо сейчас!

Внесу в задачи на этот квартал масштабировать этот подход!

Мои фишки:
- Между совещаниями можно написать API
- На обеде - пофиксить баги
- Вечером - задеплоить
- В слак писать "работаю над стратегией"
- Когда сын лег спать мы пилим всю логику

P.S. Может, это и правда моё призвание - быть CEO-разработчиком?
По крайней мере, результаты говорят сами за себя!

Кто еще такой же невнятный R&D энтузиаст? Признавайтесь! 😄
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥3711👍93
Так вот по следам стрима я решил собрать все таки единого бота которого планирую развивать!

@VectorSagebot (название придумал deepseek) база знаний из Telegram-сообществ по AI и не только.


Что это такое?
- База знаний RAG из 3 крутых каналов: @llm_under_hood, @seeallochnaya, @data_secrets (база будет пополнятся принимаю список в коментах)

Умный поиск с сохранением контекста диалогов и реранкер в день дает 10 запросов поиска
Данные актуальны на 21 января 2025

Как это работает?
- Векторный + FTS поиск через Milvus
- Связанные коллекции для постов и комментов
- Гибридный на весах и удалении точных совпадений semantic + full-text поиск
- FastAPI и облачный хостинг
- Reranker на базе bge

Что сейчас умеет бот
- Выбор области поиска
- Опциональный реранкер
- Универсальный метод для разных типов чатов (часто отсутствуют публичные ссылки чатов что ломает логику ссылок) если вы не подписаны на каналы и не состоите в группах для чатов ссылки могут не работать!)

Система не идеальная, но уже можно искать знания по всем подключенным источникам!

P.S. Спасибо сообществам за крутой контент!

Тестируйте, делитесь фидбеком! Бот ждет ваших вопросов про AI💪
53🔥287👍7
Forwarded from Роман с данными
Немного актуального юмора вам в пятничный вечер
😁34
Мои пет-проекты в AI: от идеи до 9000 MAU за год

Я тут по-тихому разрабатываю через Claude инструменты, которыми пользуюсь каждый день сам, и по недавней выгрузке имею ~9 000 активных пользователей в месяц

Некоторым проектам меньше месяца, некоторым больше года

Давно не обновлял список проектов, которые поддерживаю лично (все имеют бесплатный функционал, по моим подсчетам для рядового пользователя таких лимитов хватит)


1. @ImageUpscaleDeleteBackground_bot
Бот, который умеет три вещи:
- Делать увеличение (upscale x2)
- Вырезать фон
- Получать карту глубины (для моих экспериментов)
MAU: ~300

2. @fastpixel_bot
Бот для генерации изображений, который понимает вас с двух слов
- Есть веб-версия с бесконечной лентой генераций: https://craft.gptdaisy.com/
- Под капотом: FLUX + runway(По API) на RTX 4000 + qwen (улучшает ваш промпт для генерации) на 4090
MAU: 2600

3. @daisygpt_bot
Карманный ChatGPT (единственный бот, у которого в бесплатном режиме есть история - меня такие расходы пока не беспокоят)
MAU: ~2500

4. @daisytranscribe_bot
Многофункциональный бот для работы с аудио и видео:
- Конвертация в текст файлов размером до 2 ГБ
- Работает в группах
- Автоматическое разделение аудио по ролям
- Встроенное саммари через gpt-4o-mini с возможностью настройки кастомного промпта
- Инфраструктура: 2 сервера с 2080Ti, бот на базе whisper

📈 Текущая статистика:
- Всего пользователей: 9,620
- Monthly Active Users: 3,084
- Weekly Active Users: 1,176
- Обработано файлов: 47,728
- Общее время обработки: 9,808 часов 2 минуты

5. @group_summarizebot
Компактный бот для саммари в группах
MAU: 1000

6. @VectorSagebot
Cовершенно новый проект буду изучать интересно ли людям получать информацию из таких источников
- Что это такое?
- База знаний RAG из 3 крутых каналов: @llm_under_hood, @seeallochnaya, @data_secrets (база будет пополнятся принимаю список в коментах

Можно ли повторить?

Можно и нужно! Только так на практике можно изучать рынок продуктов, быть постоянно в теме и понимать, какие возможности открываются для дальнейшего развития

Сколько это стоит?

Инфраструктура?
- Сервера почти все в собственности (приобретены 2-3 года назад под другие задачи)
- Запросы к GPT при текущем MAU: 50-80$ в месяц
- Виртуалки в РФ и за рубежом около 40$ в месяц

*Понимаю, что со временем придется отключать бесплатные режимы при росте проектов и вводить платные подписки, так как с увеличением MAU будут расти и затраты на OpenAI.*

Время?
Сложно оценить точно, но на разработку и стабилизацию бэкенда, настройку баз данных и моделей уходило разное количество времени. Часть ботов и логики делалась с помощью других разработчиков, но идеи и функционал почти всегда исходили от меня


Зачем я это делаю?
А как еще понимать и изучать рынок? Для меня лично есть только такой способ, делать инструмент и собирать аналитику (активность, обезличенные запросы, иногда даже пишу пользователям спросить зачем они используют моего бота)

Все эти проекты я рассматриваю как эксперименты для изучения потребностей пользователей и возможностей автоматизации рутинных задач

Пока делать окончательные выводы рано так что stay tuned!
🔥4723👍143
@daisytranscribe_bot

Неожиданно для меня бот перевалил за 10к активаций и более 3к MAU в месяц приятная неожиданность что такой простой сервис как транскрибация больших файлов(до 2ГБ) и бесплатное саммари через гпт
Удивляет меня что бесплатный сервис может сам органически расти с 0 до 3к MAU без рекламы за 3 месяца (когда конкуренция точно красный океан)

Кстати бот обработал 50 000 файлов офигеть!

Stay Tuned пока думаю какую из фичей добавить следующую
Скачивание из ютуб
Или улучшать качество текущего функционала (например разделение по ролям)
🔥22👍13102
Построение сложного RAG для работы с технической документацией

Можно ли взять любой RAG засунуть туда документацию и получить крутой ответ?
Спойлер: НЕТ

На этой неделе я исследовал возможности построения RAG-системы
для работы со сложными многосоставными 2-3-4 задания в одном запросе к технической документации
Хочу поделиться интересными находками и подходом, который дал хорошие результаты

Тестовый кейс документация Manticore Search

Для тестирования подхода я взял документацию Manticore Search - высокопроизводительной базы данных для поиска и аналитики
Она отлично подходит для скачивания есть на GitHub в формате md
- Множество взаимосвязанных концепций
- Комбинация SQL и HTTP API
- Специфичные форматы данных (векторы, JSON)
- Различные режимы работы (RT, Plain)

А теперь к проблеме

Классический подход к RAG (просто разбить документацию на чанки и искать по ним) не работает для сложных технических запросов
Например, запрос

"Покажи как оформить json чтобы делать replace в knn колонках 
RT индекса поле называется embedding и пришли пример python запроса"


Кстати предлагаю вам попробовать самим проверить свой RAG сможете ли добиться такого же ответа как у меня (в комментариях)

Такой запрос требует
- Понимания контекста (что такое RT индекс, KNN колонки)
- Объединения информации из разных частей документации
- Генерации корректных примеров кода
- Проверки технической точности

Архитектура эксперимента

- Qwen 7B (16 FP) на RTX 4090
- Multilingual E5 Large для эмбеддингов
- Собственный механизм Chain of Thought

Структура данных в Milvus:

Collection: documentation
Fields:
- id: primary key
- filename: string (для формирования ссылок в ответе)
- chunk_text: string (текст чанка)
- embeddings: float_vector[1024] (векторы от e5-large)
- category: string (раздел документации)
- subcategory: string (подраздел)
- full_text: string (полный текст документа)


После поиска, объединяем найденные чанки по иерархии документации, получая ~30K токенов контекста для LLM. Ответ в формате Markdown будет содержать
- Уровень анализа запроса
- Найденные документы с их URL
- Готовые примеры кода
- Полный текст документации

Процесс обработки запроса

Query Expansion
- Используем LLM для генерации 3-5 альтернативных запросов
- Учитываем технический контекст
- Переводим на язык документации (английский)

Векторный поиск
- Для каждого расширенного запроса ищем топ-3 результата
- Получаем ~9 релевантных чанков
- Используем иерархию документации для контекста

Объединение + ответ
- Делюсь с вами своей схемой SO + CoT + Outlines + vLLM (В комментариях) + ответ модели на такой запрос

Так и по классике выводы

Что особенного и можно ли повторит?
0) Да самое важное уделить время на разработку стратегии разметки и поиска
(ой маркетинг где RAG работает с любой докой не правда? Как так? =))
1) Статический Chain of Thought
2) Оптимизация контекста по иерархии
3) Локальное развертывание
4) Понимание работы Structured Output

P.S
Решение субъективно и основано на конкретном опыте
Требуется дальнейшее тестирование на разных типах документации
Возможны ошибки при очень специфических запросах
Считаю что нужен агент планировщик поиска по документации

P.S.S Все примеры и код основаны на реальном опыте работы с технической документацией Manticore Search
20🔥267👍3
Forwarded from red_mad_robot
AI-рынок на пороге перемен: что ждёт индустрию в 2025 году?

Прошлый год стал для AI точкой масштабных изменений: open source модели укрепили позиции, компании начали адаптировать стратегии под новые реалии, а регуляторы — пытаться успеть за технологиями. Но это только начало: рынок продолжает трансформироваться, и в 2025-м нас ждут новые прорывы и вызовы.

Чтобы понять, куда движется индустрия, собрали мнения экспертов из NDT by red_mad_robot, Битрикс24, MTS AI, е/асс, Вкусвилла и GigaChat. Листайте карточки, чтобы узнать:

• Как компании пересматривают подходы к внедрению и использованию нейросетей?

• Какие технологии и бизнес-модели будут определять развитие AI в 2025 году?

• И каким будет следующий этап в гонке генеративного интеллекта?

#AI_moment
10👍13🔥5