RAG за 3 часа на 2млн токенов из телеграм канала?
Легко!
На основе комьюнити чата и с разрешения владельца канала
Канал @llm_under_hood! 🚀
Чат канала @llm_driven_products
Ниже расскажу как 3-4 часа упаковал всю базу знаний канала и группы в векторное пространство и сделал действительно рабочую базу знаний.
При разработке отошел от классических подходов построения RAG для энтерпрайза - главный челлендж был в том, как превратить живое общение в структурированную базу знаний и сохранить контекст диалогов через parent_id.
Самое главное для меня что я уже получил положительные отзывы, так как люди получают ответы на ЧАВО из тематики канала.
ОБЩАЯ СТАТИСТИКА:
• Всего сообщений: 25,852
• Общий объём в токенах: 1,820,174
• Среднее токенов на сообщение: 70.41
Архитектура поиска:
• 4 связанные коллекции в Milvus:
- Посты канала (778)
- Ответы на посты (2,702) → связь через parent_post_id
- Комментарии (6,517)
- Ответы на комментарии (12,653) → связь через parent_comment_id
• Гибридный поиск:
- Векторный (semantic) через multilingual-e5-large
- Полнотекстовый с ранжированием
- Объединение результатов с учетом parent_id для сохранения контекста
• REST API на FastAPI со Swagger документацией
• Хостинг на Яндекс Облаке
Предобработка данных:
• ~2,000 сообщений до 10 токенов отфильтрованы как шум
• LLM-разметка по типам:
- Технические уточнения (~20%)
- Ссылки (~10%)
- Конкретные вопросы (~15%)
• Сохранение коротких сообщений с упоминанием технологий
• Обработка parent_id для связности диалогов
В планах:
• Собрать аналогичных ботов для других русскоязычных LLM-сообществ
• Объединить всю практику в единый RAG-engine
• Поделиться опытом очистки и структурирования диалогов из Telegram и созданием такого бота в live стриме на своем канале
Попробовать бота можно тут: @llm_driven_products_bot
Присоединяйтесь к тестированию! 🤖
P.S. Отдельное спасибо @llm_under_hood за крутой контент, который позволил собрать такую базу знаний!
Легко!
На основе комьюнити чата и с разрешения владельца канала
Канал @llm_under_hood! 🚀
Чат канала @llm_driven_products
Ниже расскажу как 3-4 часа упаковал всю базу знаний канала и группы в векторное пространство и сделал действительно рабочую базу знаний.
При разработке отошел от классических подходов построения RAG для энтерпрайза - главный челлендж был в том, как превратить живое общение в структурированную базу знаний и сохранить контекст диалогов через parent_id.
Самое главное для меня что я уже получил положительные отзывы, так как люди получают ответы на ЧАВО из тематики канала.
ОБЩАЯ СТАТИСТИКА:
• Всего сообщений: 25,852
• Общий объём в токенах: 1,820,174
• Среднее токенов на сообщение: 70.41
Архитектура поиска:
• 4 связанные коллекции в Milvus:
- Посты канала (778)
- Ответы на посты (2,702) → связь через parent_post_id
- Комментарии (6,517)
- Ответы на комментарии (12,653) → связь через parent_comment_id
• Гибридный поиск:
- Векторный (semantic) через multilingual-e5-large
- Полнотекстовый с ранжированием
- Объединение результатов с учетом parent_id для сохранения контекста
• REST API на FastAPI со Swagger документацией
• Хостинг на Яндекс Облаке
Предобработка данных:
• ~2,000 сообщений до 10 токенов отфильтрованы как шум
• LLM-разметка по типам:
- Технические уточнения (~20%)
- Ссылки (~10%)
- Конкретные вопросы (~15%)
• Сохранение коротких сообщений с упоминанием технологий
• Обработка parent_id для связности диалогов
В планах:
• Собрать аналогичных ботов для других русскоязычных LLM-сообществ
• Объединить всю практику в единый RAG-engine
• Поделиться опытом очистки и структурирования диалогов из Telegram и созданием такого бота в live стриме на своем канале
Попробовать бота можно тут: @llm_driven_products_bot
Присоединяйтесь к тестированию! 🤖
P.S. Отдельное спасибо @llm_under_hood за крутой контент, который позволил собрать такую базу знаний!
50🔥20👍15❤1
Neural Deep
RAG за 3 часа на 2млн токенов из телеграм канала? Легко! На основе комьюнити чата и с разрешения владельца канала Канал @llm_under_hood! 🚀 Чат канала @llm_driven_products Ниже расскажу как 3-4 часа упаковал всю базу знаний канала и группы в векторное…
Стоит ли провести стрим где мы за тоже время возможно быстрее создадим с вами RAG систему по другому каналу или чату где увеличим кол-во данных и сделаем агентов для поиска информации с планированием и заданиями?
Кодить будем через Клод + pycharm разберем чанкование конвертацию данных и промптирование RAG
Кодить будем через Клод + pycharm разберем чанкование конвертацию данных и промптирование RAG
👍44🔥18
Forwarded from LLM Arena
Пока все говорят о новом "убийце GPT" — мы его уже добавили на Арену. Речь о модели DeepSeekR1, которой предрекают уже первые места на лидербордах. Предлагаем вам самим протестировать и сделать выводы.
Пишут, что R1 превзошла все существующие модели OpenAI в тестах по программированию и математике.
Кстати, пользоваться Ареной и попробовать новинку можно и прямо в Telegram.
Пишут, что R1 превзошла все существующие модели OpenAI в тестах по программированию и математике.
Кстати, пользоваться Ареной и попробовать новинку можно и прямо в Telegram.
51🔥10👍5❤3
Neural Deep
https://t.iss.one/neuraldeep?livestream Запланировал трансляцию в ТГ на вторник 21 числа в 19:00
Ну что уже через 4 часа сядем с вами попрогать RAG (чистый handmade + Claude) никаких langchain или других крутых словечек только питон и только хардкорно разбирать задачу
Что нас ждет?
Порисуем схему
Попробуем на локальной модели (возьмем арендуем GPU и поднимем LLM с huggingface + structured output)
Поднимем топовую векторную бд
Cоздадим base пайплайн RAG
Упакуем все в API
Упакуем все в докер
И пообщаемся с RAG через тг бота
https://t.iss.one/neuraldeep?livestream
Что нас ждет?
Порисуем схему
Попробуем на локальной модели (возьмем арендуем GPU и поднимем LLM с huggingface + structured output)
Поднимем топовую векторную бд
Cоздадим base пайплайн RAG
Упакуем все в API
Упакуем все в докер
И пообщаемся с RAG через тг бота
https://t.iss.one/neuraldeep?livestream
Telegram
Neural Deep
Head of AI redmadrobot.ru
6 лет: 0>>>Head of AI
AI Infrastructure | Production RAG
Local inference
RAG (2M+ книг)
RAG chat bot (5М+ токенов)
B2B платформа (10+ клиентов)
B2C gptdaisy.com (100k MAU)
Код, кейсы, R&D
github.com/kekslop | @neuraldeepchat
6 лет: 0>>>Head of AI
AI Infrastructure | Production RAG
Local inference
RAG (2M+ книг)
RAG chat bot (5М+ токенов)
B2B платформа (10+ клиентов)
B2C gptdaisy.com (100k MAU)
Код, кейсы, R&D
github.com/kekslop | @neuraldeepchat
64❤17🔥10👍7
Media is too big
VIEW IN TELEGRAM
Запись стрима!
Повторил онлайн опыт https://t.iss.one/neuraldeep/1270
Создаем свой RAG по данным из любого канала в тг или чата с 0 без фреймворков
Весь код поиска, парсинга, чанкования Handmade
Всем спасибо за просмотр в пике было 70 человек!
Что успели?
Порисуем схему✔️
Попробуем на локальной модели (возьмем арендуем GPU и поднимем LLM с huggingface + structured output)🚫
Поднимем топовую векторную бд✔️
Cоздадим base пайплайн RAG✔️
Упакуем все в API✔️
Упакуем все в докер🚫
И пообщаемся с RAG через тг бота✔️
Планирую скоро еще один стрим где добавим в бота реранкер + попробуем прикрутить локальную ллм и классификатор
Анализировали этот канал: https://t.iss.one/data_secrets
@VectorSagebot потестить!
Повторил онлайн опыт https://t.iss.one/neuraldeep/1270
Создаем свой RAG по данным из любого канала в тг или чата с 0 без фреймворков
Весь код поиска, парсинга, чанкования Handmade
Всем спасибо за просмотр в пике было 70 человек!
Что успели?
Порисуем схему
Попробуем на локальной модели (возьмем арендуем GPU и поднимем LLM с huggingface + structured output)
Поднимем топовую векторную бд
Cоздадим base пайплайн RAG
Упакуем все в API
Упакуем все в докер
И пообщаемся с RAG через тг бота
Планирую скоро еще один стрим где добавим в бота реранкер + попробуем прикрутить локальную ллм и классификатор
Анализировали этот канал: https://t.iss.one/data_secrets
@VectorSagebot потестить!
Please open Telegram to view this post
VIEW IN TELEGRAM
108❤36🔥18 14👍9
В соседнем канала про LLM задали вопрос как понять скорости генерации на разных бэкендах structured output(эта штука заставляет модель отвечать вам жесткой схемой json формата например) при локальном инференсе
Так вот погуглил ничего вразумительного не нашел для своей спеки так что держите сделал сам
4090 OC
T-lite(qwen)
vllm
и 4 типа тестирования
xgrammar
outlines
lm-format-enforcer
Без бэкенда форматирования
Так вот погуглил ничего вразумительного не нашел для своей спеки так что держите сделал сам
4090 OC
T-lite(qwen)
vllm
и 4 типа тестирования
xgrammar
outlines
lm-format-enforcer
Без бэкенда форматирования
❤13
Media is too big
VIEW IN TELEGRAM
Вот автоматизация браузера через gpt-4o API без подписок и блекджеков
Если интересно что за репозиторий и как настроить запишу видео кодинг где объясню как промптимть и настраивать кстати работает и с локальным моделями
Не пойму что за хайп вокруг оператора
Тут кстати модель агента ходит по интернету и собирает выручку компании по годам
Если интересно что за репозиторий и как настроить запишу видео кодинг где объясню как промптимть и настраивать кстати работает и с локальным моделями
Не пойму что за хайп вокруг оператора
Тут кстати модель агента ходит по интернету и собирает выручку компании по годам
1👍26🔥12❤6
This media is not supported in your browser
VIEW IN TELEGRAM
OpenAI Operator бесплатно но как?
Ну а что я же умею могу практикую как там еще сказать?
Взял этот репо (кидал в чате)
В итоге приложил усилия и знания DevOps + Python + Network engineer
Развернул все на удаленном сервере
Упаковал настройки и сбил все в два фрейма прокинул NoVNC в iframe по https из контейнера
Раскидал сервисы через nginx
Сделал дефолт конфиг поправил логику агента что бы не так сильно тупил
Ковырнул у проекта промпты тоже дал своих настроек
Ну конечно не такой прям оператор как у openai но стоит не $200
1) Суть в том что это виртуальный браузер который живет на удаленной машине
2) Модель совершенно обычная gpt-4o
3) Может выполнять любые действия с браузером
4) Браузер кликабельный через вэб пользователь может делать с ним что угодно
Но я уверен что нужны кейсы (как пишут в чате Operator просто игрушка 10 минут и забыли)
Ну а что я же умею могу практикую как там еще сказать?
Взял этот репо (кидал в чате)
В итоге приложил усилия и знания DevOps + Python + Network engineer
Развернул все на удаленном сервере
Упаковал настройки и сбил все в два фрейма прокинул NoVNC в iframe по https из контейнера
Раскидал сервисы через nginx
Сделал дефолт конфиг поправил логику агента что бы не так сильно тупил
Ковырнул у проекта промпты тоже дал своих настроек
Ну конечно не такой прям оператор как у openai но стоит не $200
1) Суть в том что это виртуальный браузер который живет на удаленной машине
2) Модель совершенно обычная gpt-4o
3) Может выполнять любые действия с браузером
4) Браузер кликабельный через вэб пользователь может делать с ним что угодно
Но я уверен что нужны кейсы (как пишут в чате Operator просто игрушка 10 минут и забыли)
1🔥14❤6 5
Operator (Openai) vs Open Source: зачем нам вообще AI-UI-агенты?
Ну что, народ, давайте на трезвую голову посмотрим на всю эту историю с Operator и UI агентами
Почему? Потому что за хайпом вокруг релиза от OpenAI мы забыли главный вопрос - а зачем это вообще нужно?
Да я видел как в других каналах мы открывали Оператора в операторе
Как круто находили проблемы в маршрутизаторах (или нет?)
Как круто прикалывались над друзьями или парсили новости?
Что мы имеем?
OpenAI Operator ($200/месяц)
- Красивый интерфейс
- Облачное решение
- Высокие метрики в тестах
- Удобный юзабилити?
- НО: где применить?
Open Source решения
- Browser Use (бесплатно) OpenSource
- Computer Use (бесплатно) от Антропиков
- Разные эксперименты
- НО: сложно настроить
В чём проблема?
Главная проблема и Operator и опенсорса одна - непонятно, где это реально применять
Вот смотрите существующие кейсы которые ходят по сети лично меня они не впечатляют
Заказ пиццы (но не всегда точно)
Настройка роутера (с переменным успехом)
Заполнение форм (когда повезёт)
Для бизнеса пока сырое и вот почему на мой взгляд
Нужна 100% точность
Важна безопасность
Критична скорость
Почему так?
Вспомним Rabbit r1 - ребята пытались сделать носимый девайс с LLM. Провалились, но показали важную вещь:
LAM (Large Action Model) или Computer-Using Agent (CUA) это не просто API:
- Нужно понимать интерфейс на уровне ОС
- Важна работа с визуальными элементами
- Нужен контекст действий
Или просто говоря нужны кейсы
Текущие решения застряли между
- API интеграцией (быстро но ограниченно)
- Визуальным интерфейсом (гибко но ненадёжно)
Что дальше?
Нужны реальные бизнес-кейсы я пока их не вижу
1) Не просто "круто, работает"
2) А "решает конкретную проблему"
3) С измеримой выгодой?
Развитие в двух направлениях
1) Специализированные агенты под конкретные задачи
2) Универсальные системные помощники
Operator крутой, опенсорс развивается, но главный вопрос остаётся - где это реально применять? Пока что выглядит как дорогая игрушка для энтузиастов.
Как думаете, какие реальные применения могут быть у таких агентов?
Browser Use (89% точности в бенчмарках)
Репо: https://github.com/browser-use/browser-use
Computer Use (52% точности, но умеет больше)
Репо: https://github.com/anthropics/anthropic-quickstarts/tree/main/computer-use-demo
Stagehand (гибридное решение)
Репо: https://github.com/browserbase/stagehan
Ну что, народ, давайте на трезвую голову посмотрим на всю эту историю с Operator и UI агентами
Почему? Потому что за хайпом вокруг релиза от OpenAI мы забыли главный вопрос - а зачем это вообще нужно?
Да я видел как в других каналах мы открывали Оператора в операторе
Как круто находили проблемы в маршрутизаторах (или нет?)
Как круто прикалывались над друзьями или парсили новости?
Что мы имеем?
OpenAI Operator ($200/месяц)
- Красивый интерфейс
- Облачное решение
- Высокие метрики в тестах
- Удобный юзабилити?
- НО: где применить?
Open Source решения
- Browser Use (бесплатно) OpenSource
- Computer Use (бесплатно) от Антропиков
- Разные эксперименты
- НО: сложно настроить
В чём проблема?
Главная проблема и Operator и опенсорса одна - непонятно, где это реально применять
Вот смотрите существующие кейсы которые ходят по сети лично меня они не впечатляют
Заказ пиццы (но не всегда точно)
Настройка роутера (с переменным успехом)
Заполнение форм (когда повезёт)
Для бизнеса пока сырое и вот почему на мой взгляд
Нужна 100% точность
Важна безопасность
Критична скорость
Почему так?
Вспомним Rabbit r1 - ребята пытались сделать носимый девайс с LLM. Провалились, но показали важную вещь:
LAM (Large Action Model) или Computer-Using Agent (CUA) это не просто API:
- Нужно понимать интерфейс на уровне ОС
- Важна работа с визуальными элементами
- Нужен контекст действий
Или просто говоря нужны кейсы
Текущие решения застряли между
- API интеграцией (быстро но ограниченно)
- Визуальным интерфейсом (гибко но ненадёжно)
Что дальше?
Нужны реальные бизнес-кейсы я пока их не вижу
1) Не просто "круто, работает"
2) А "решает конкретную проблему"
3) С измеримой выгодой?
Развитие в двух направлениях
1) Специализированные агенты под конкретные задачи
2) Универсальные системные помощники
Operator крутой, опенсорс развивается, но главный вопрос остаётся - где это реально применять? Пока что выглядит как дорогая игрушка для энтузиастов.
Как думаете, какие реальные применения могут быть у таких агентов?
Browser Use (89% точности в бенчмарках)
Репо: https://github.com/browser-use/browser-use
Computer Use (52% точности, но умеет больше)
Репо: https://github.com/anthropics/anthropic-quickstarts/tree/main/computer-use-demo
Stagehand (гибридное решение)
Репо: https://github.com/browserbase/stagehan
👍16 4
Forwarded from CGIT_Vines (Marvin Heemeyer)
This media is not supported in your browser
VIEW IN TELEGRAM
Значит, смотрите, все как учил вас в 2025!
Сначала отстреливаем каждую из семи щупалец. После того как он перестанет вас хватать, целимся в светящийся оранжевый треугольник, между сенсорами. Как убьете, не подходите сразу для сбора дропа — после смерти они, как правило, взрываются!
Сначала отстреливаем каждую из семи щупалец. После того как он перестанет вас хватать, целимся в светящийся оранжевый треугольник, между сенсорами. Как убьете, не подходите сразу для сбора дропа — после смерти они, как правило, взрываются!
😁14🔥7
Forwarded from Pavel Zloi
Хмм, приложение DeepSeek и правда Топ-1 в мировом AppStore, а я думал это фотошоп, пойду пожалуй тоже себе его скачаю.
🔥9❤3
Акции NVIDIA рухнули на $400 миллиардов за одну ночь, китайский DeepSeek перевернул рынок ИИ?
Давайте по порядку!
Что произошло?
Выпуск DeepSeek в open-source и обгон ChatGPT o1 по скорости, качеству и стоимости
Её обучение обошлось в $6 млн — в сотни раз дешевле карл!!! Чем у OpenAI, Google и Meta (миллиарды долларов)
Это ударило по NVIDIA и рынку инвестиций в ИИ, чьи GPU считались обязательными для обучение моделей такого уровня!
Какие причины падения NVIDIA вижу я
Снижение зависимости от дорогих GPU
- DeepSeek обучили без этапа supervised fine-tuning, используя чистое обучение с подкреплением (RL)
- Алгоритм GRPO (эффективнее традиционного PPO) сократил затраты на тренировку
- Итог: больше не нужны гигантские кластеры видеокарт?
Архитектура MoE меньше параметров в момент запуска а значит выше скорость
- Модель использует 37 млрд активных параметров из 671 млрд общих (Mixture of Experts)
- Это снижает вычислительные затраты и ускоряет инференс
- Стоимость токенов за инференс у DeepSeek в 27 раз ниже, чем у OpenAI воу!
Смена парадигмы алгоритмы vs «железо»
- Раньше прогресс связывали с увеличением GPU (правило «Bitter Lesson»)
- Теперь оптимизация методов обучения (например, RL-подходы) сокращает затраты
- Тысячи видеокарт для каждой модели — уже не обязательны
- Спрос на GPU для ИИ под вопросом: инвесторы начали массово сливать акции
- Зависимость NVIDIA от двух секторов: игры и ИИ. Последний теперь выглядит рискованным
Рыночные ожидания?
- NVIDIA была символом AI-бума и походу это пошатнулась, но её оценка строилась на вере в бесконечный спрос на GPU
- Китайские компании (включая DeepSeek) стали серьёзными конкурентами, хотя их раньше не воспринимали всерьёз
- Главный вопрос сможет ли NVIDIA адаптироваться, если тренд на «дешёвый ИИ» сохранится?
Уже пробовали DeepSeek?
P.S. Пока ИИ-гиганты тратят миллиарды, китайцы делают революцию за $6 млн
NVIDIA в шоке, Уолл-стрит — в панике
Запасаемся попкорном будет интересно 🔥
Мы же все же про технику больше
Дальше буду сидеть изучать эту статью и похожие где даётся разбор обучения
Давайте по порядку!
Что произошло?
Выпуск DeepSeek в open-source и обгон ChatGPT o1 по скорости, качеству и стоимости
Её обучение обошлось в $6 млн — в сотни раз дешевле карл!!! Чем у OpenAI, Google и Meta (миллиарды долларов)
Это ударило по NVIDIA и рынку инвестиций в ИИ, чьи GPU считались обязательными для обучение моделей такого уровня!
Какие причины падения NVIDIA вижу я
Снижение зависимости от дорогих GPU
- DeepSeek обучили без этапа supervised fine-tuning, используя чистое обучение с подкреплением (RL)
- Алгоритм GRPO (эффективнее традиционного PPO) сократил затраты на тренировку
- Итог: больше не нужны гигантские кластеры видеокарт?
Архитектура MoE меньше параметров в момент запуска а значит выше скорость
- Модель использует 37 млрд активных параметров из 671 млрд общих (Mixture of Experts)
- Это снижает вычислительные затраты и ускоряет инференс
- Стоимость токенов за инференс у DeepSeek в 27 раз ниже, чем у OpenAI воу!
DeepSeek-reasoner vs OpenAI o1 - сравнение цен за 1 миллион токенов:
DeepSeek-reasoner (64K контекст):
Полная обработка (вход + выход): $2.74 ($0.55 + $2.19)
OpenAI o1 (200K контекст):
Полная обработка (вход + выход): $75 ($15 + $60)
Итог: OpenAI o1 дороже в 27 раз при сравнимых возможностях рассуждения, но предлагает в 3 раза больший контекстный размер.
Смена парадигмы алгоритмы vs «железо»
- Раньше прогресс связывали с увеличением GPU (правило «Bitter Lesson»)
- Теперь оптимизация методов обучения (например, RL-подходы) сокращает затраты
- Тысячи видеокарт для каждой модели — уже не обязательны
- Спрос на GPU для ИИ под вопросом: инвесторы начали массово сливать акции
- Зависимость NVIDIA от двух секторов: игры и ИИ. Последний теперь выглядит рискованным
Рыночные ожидания?
- NVIDIA была символом AI-бума и походу это пошатнулась, но её оценка строилась на вере в бесконечный спрос на GPU
- Китайские компании (включая DeepSeek) стали серьёзными конкурентами, хотя их раньше не воспринимали всерьёз
- Главный вопрос сможет ли NVIDIA адаптироваться, если тренд на «дешёвый ИИ» сохранится?
Уже пробовали DeepSeek?
P.S. Пока ИИ-гиганты тратят миллиарды, китайцы делают революцию за $6 млн
NVIDIA в шоке, Уолл-стрит — в панике
Запасаемся попкорном будет интересно 🔥
Мы же все же про технику больше
Дальше буду сидеть изучать эту статью и похожие где даётся разбор обучения
👍13🔥6 6
Еще Qwen выкатил, возможно, лучший open-source анализатор изображений
Qwen представил Qwen2.5-VL - новую мультимодальную модель на замен Qwen2-VL
И самое главное - она open-source!
Что показывают тесты что меня интересует по метрикам
- OCRBench-V2 (en/zh): 61.5/63.7 - лучший результат среди всех моделей
- CC-OCR: 79.8% - опережает даже проприетарные решения
- DocVQA: 96.4% - топовый результат для работы с документами
- MMVet_turbo: 76.19% - существенное улучшение в понимании изображений
- MathVision_FULL: рост с 25.9% до 38.1% - в математических задачах рельно заметный рост
А теперь к тестам на эту неделю запланировал тесты и что мы будем тестировать (неструктурированные документы которые имеют по 20 000 форм)
- Таможенные декларации
- СЭС-сертификаты
- Сертификаты пожарной безопасности
- Паспорта качества
На что смотрим при тестах:
1. Извлечение данных:
- Производитель
- Номера документов
- Даты
- Организации
- Описания
2. Особое внимание:
- Смешанные символы (кириллица + латиница)
- Форматированный текст
- Структурированные данные
Как запускать?
- 7B версия -> RTX 4090 (максимальная параллельность: 3.82x для 20000 токенов)
- 72B версия -> H100 с FP8 квантизацией (параллельность: 2.38x для 6000 токенов)
- VLLM для оптимизации
- xgrammar для Structured Output
Скорость работы прошлой модели
- 7B: 4 секунды на страницу
- 72B: 10 секунд на страницу
С чем будем сравнивать
- GPT-4o
- Claude 3.5 Sonnet
- Gemini Pro
- Qwen2-VL-72B-Instruct
P.S. Похоже, что open-source решения начинают всерьез конкурировать с проприетарными платформами А учитывая возможность локального запуска - это может быть game changer для компаний с высокими требованиями к безопасности!
Будем тестить дальше! 🔥
Qwen представил Qwen2.5-VL - новую мультимодальную модель на замен Qwen2-VL
И самое главное - она open-source!
Что показывают тесты что меня интересует по метрикам
- OCRBench-V2 (en/zh): 61.5/63.7 - лучший результат среди всех моделей
- CC-OCR: 79.8% - опережает даже проприетарные решения
- DocVQA: 96.4% - топовый результат для работы с документами
- MMVet_turbo: 76.19% - существенное улучшение в понимании изображений
- MathVision_FULL: рост с 25.9% до 38.1% - в математических задачах рельно заметный рост
А теперь к тестам на эту неделю запланировал тесты и что мы будем тестировать (неструктурированные документы которые имеют по 20 000 форм)
- Таможенные декларации
- СЭС-сертификаты
- Сертификаты пожарной безопасности
- Паспорта качества
На что смотрим при тестах:
1. Извлечение данных:
- Производитель
- Номера документов
- Даты
- Организации
- Описания
2. Особое внимание:
- Смешанные символы (кириллица + латиница)
- Форматированный текст
- Структурированные данные
Как запускать?
- 7B версия -> RTX 4090 (максимальная параллельность: 3.82x для 20000 токенов)
- 72B версия -> H100 с FP8 квантизацией (параллельность: 2.38x для 6000 токенов)
- VLLM для оптимизации
- xgrammar для Structured Output
Скорость работы прошлой модели
- 7B: 4 секунды на страницу
- 72B: 10 секунд на страницу
С чем будем сравнивать
- GPT-4o
- Claude 3.5 Sonnet
- Gemini Pro
- Qwen2-VL-72B-Instruct
P.S. Похоже, что open-source решения начинают всерьез конкурировать с проприетарными платформами А учитывая возможность локального запуска - это может быть game changer для компаний с высокими требованиями к безопасности!
Будем тестить дальше! 🔥
🔥21❤5👍5