1/2 Когда выгодно переходить с облачных API на собственные LLM-модели: сравнение OpenAI API, облачных и локальных open-source решений
Пришел тут ко мне интересный вопрос, допустим у нас планируется 100 000 только текстовых диалогов в сутки размером не более 3 сообщений от пользователя
Текущий стек gpt-4o-mini CoT + SO
И так, допустим, у нас есть 100 000 диалогов примерно по 100-300 токенов от пользователя и еще по 3 сообщения от ллм в сумме на инпут у нас 900 аутпут примем что чуть больше 1200
получаем вот такую картину пока исключил кеширование:
gpt-4o-mini
Входящие токены (900 × 100K): $11.48 (некеш) + $1.01 (кеш) = $12.49/день
Исходящие токены (1,200 × 100K): $72/день
Всего: ~$84.49/день или ~$2,535/месяц
Расчет RPS (запросов в секунду) возьмем очень идеальное условия:
100,000 диалогов в день = 100,000 ÷ 86,400 секунд ≈ 1.16 RPS
В пиковые часы (если 70% трафика приходится на 6 часов): ~5.63 RPS
Теперь представим, что мы хотим не повторить, но хотя бы быть на уровне результатов gpt-4o-mini
В моем честном бенчмарке это что-то около модели qwen2.5-32b-instruct
А теперь цифры, что вышли у меня
Одна А100 стоит на runpod $1.89 и такая штука будет иметь пропускную способность 2-3 запроса в секунду со стримингом
Необходимое количество серверов: 6 (для обеспечения пиковой нагрузки с запасом)
Расчет стоимости на RunPod:
Стоимость одной A100: $1.89/час
Стоимость 6 серверов A100: 6 × $1.89 = $11.34/час
Месячная стоимость (24/7): $11.34 × 24 × 30 = $8,164.80/месяц
Итого при текущих параметрах
gpt-4o-mini: ~$2,535/месяц
Локальное решение (qwen2.5-32b-instruct на 6 A100): ~$8,165/месяц
Локальное решение может становится выгодным?
Да когда мы четко выявляем для себя вот такие пункты:
1.Когда важна защита данных - нет отправки конфиденциальной информации в облако
2. Когда необходимо соответствие регуляторным требованиям - GDPR, 152-Ф3, запрет на трансграничную передачу (и то Amazon вроде GDPR соответствует если мы говорим про не РФ)
3. Стабильная работа без лимитов - нет ограничений API, кредитной системы или очередей
4. Независимость от вендора - нет риска, что АРІ поднимет цены или изменит условия
Когда еще выгодно? Update расчет для покупки железа https://t.iss.one/neuraldeepchat/4288
Когда у нас не растет RPS но растет кол-во обрабатываемых токенов за одну сессию допустим мы начинаем сторить не 3 сообщения от пользователя а 10-20 и тогда нам начинает быть более интересно переходить на покупку/аренду железа
Забирайте как шпаргалку когда вам в голову приходит идея аренды железа под ллм
в комментариях еще кинул (написаный курсором калькулятор) есть вопросы к качеству но представление он показывает
Пришел тут ко мне интересный вопрос, допустим у нас планируется 100 000 только текстовых диалогов в сутки размером не более 3 сообщений от пользователя
Текущий стек gpt-4o-mini CoT + SO
И так, допустим, у нас есть 100 000 диалогов примерно по 100-300 токенов от пользователя и еще по 3 сообщения от ллм в сумме на инпут у нас 900 аутпут примем что чуть больше 1200
получаем вот такую картину пока исключил кеширование:
gpt-4o-mini
Входящие токены (900 × 100K): $11.48 (некеш) + $1.01 (кеш) = $12.49/день
Исходящие токены (1,200 × 100K): $72/день
Всего: ~$84.49/день или ~$2,535/месяц
Расчет RPS (запросов в секунду) возьмем очень идеальное условия:
100,000 диалогов в день = 100,000 ÷ 86,400 секунд ≈ 1.16 RPS
В пиковые часы (если 70% трафика приходится на 6 часов): ~5.63 RPS
Теперь представим, что мы хотим не повторить, но хотя бы быть на уровне результатов gpt-4o-mini
В моем честном бенчмарке это что-то около модели qwen2.5-32b-instruct
А теперь цифры, что вышли у меня
Одна А100 стоит на runpod $1.89 и такая штука будет иметь пропускную способность 2-3 запроса в секунду со стримингом
Необходимое количество серверов: 6 (для обеспечения пиковой нагрузки с запасом)
Расчет стоимости на RunPod:
Стоимость одной A100: $1.89/час
Стоимость 6 серверов A100: 6 × $1.89 = $11.34/час
Месячная стоимость (24/7): $11.34 × 24 × 30 = $8,164.80/месяц
Итого при текущих параметрах
gpt-4o-mini: ~$2,535/месяц
Локальное решение (qwen2.5-32b-instruct на 6 A100): ~$8,165/месяц
Локальное решение может становится выгодным?
Да когда мы четко выявляем для себя вот такие пункты:
1.Когда важна защита данных - нет отправки конфиденциальной информации в облако
2. Когда необходимо соответствие регуляторным требованиям - GDPR, 152-Ф3, запрет на трансграничную передачу (и то Amazon вроде GDPR соответствует если мы говорим про не РФ)
3. Стабильная работа без лимитов - нет ограничений API, кредитной системы или очередей
4. Независимость от вендора - нет риска, что АРІ поднимет цены или изменит условия
Когда еще выгодно? Update расчет для покупки железа https://t.iss.one/neuraldeepchat/4288
Когда у нас не растет RPS но растет кол-во обрабатываемых токенов за одну сессию допустим мы начинаем сторить не 3 сообщения от пользователя а 10-20 и тогда нам начинает быть более интересно переходить на покупку/аренду железа
Забирайте как шпаргалку когда вам в голову приходит идея аренды железа под ллм
в комментариях еще кинул (написаный курсором калькулятор) есть вопросы к качеству но представление он показывает
100👍34❤11 5🔥4
Neural Deep
1/2 Когда выгодно переходить с облачных API на собственные LLM-модели: сравнение OpenAI API, облачных и локальных open-source решений Пришел тут ко мне интересный вопрос, допустим у нас планируется 100 000 только текстовых диалогов в сутки размером не более…
2/2 Когда выгодно переходить с облачных API на собственные LLM-модели: сравнение OpenAI API, облачных и локальных open-source решений
Решил для себя закрепить пройденный материал
Давайте за термины проговорим:
API облачных LLM сервисы, предоставляющие доступ к языковым моделям через API (OpenAI, Anthropic, Google и др.) где оплата происходит за каждый обработанный токен
Open-source модели открытые модели (Qwen, Llama, Mistral и др.), которые можно скачать c huggingface и использовать на собственной инфраструктуре
On-premise размещение моделей на собственном локальном оборудовании компании
Cloud аренда вычислительных ресурсов в облаке (RunPod, AWS, GCP(google platform)) для запуска моделей (возможны разные вариации защиты данных от confidential compute до Федеративного шифрования с DP)
Confidential Computing для компаний с критическими требованиями к безопасности, где затраты вторичны по отношению к защите данных
Сценарий_simple_text_chat_system: 100к текстовых диалогов в сутки
Исходные данные
100 000 диалогов ежедневно
3 сообщения от пользователя в каждом диалоге
900 токенов на вход, 1200 токенов на выход
Средняя нагрузка: 1.16 RPS
Пиковая нагрузка: 5.63 RPS (70% трафика в течение 6 часов)
Стоимость Cloud API (GPT-4o-mini)
Аренда RunPod
Стоимость своего оборудования
Сравнение решений
Когда переходить на собственные модели?
1. Экономические факторы
- Высокий объем запросов- локальное решение становится выгоднее GPT-4o-mini при более 140,000 диалогов/день
- Длинные контексты- при обработке больших объемов данных (>100K токенов) на запрос
- Долгосрочные проекты - окупаемость собственного оборудования относительно RunPod: ~24 месяцев
2. Неэкономические факторы
- Конфиденциальность данных - отсутствие передачи информации внешним сервисам
- Соответствие регуляторным требованиям - GDPR, 152-ФЗ, ограничения трансграничной передачи
- Стабильность работы - отсутствие очередей, ограничений скорости, кредитных лимитов, прекращение поддерживание старых версий моделей
Альтернативные сценарии_agentic_system(реальный кейс)
Пример: SAST агент патчер на базе qwen32b-coder
Экономическое обоснование:
- 50 репозиториев с ежедневными сканированиями (это минимум что апдейтит средний tir1-2 корп в сутки)
- 20 уязвимостей/день требуют исправления (анализа и быстрой реакции на них)
- 160K токенов на вход, 25K на выход 1000 запусков в день
Просто сравним сколько бы в месяц даже на старте мы тратили бы на gpt-4o-mini
И так как это MAS мы насчитали около 40+ промптов для каждого агента (представьте после PoC переезжать на qwen и все переписывать
Но для чистоты сравню стоимость
Для стартапов и проектов с небольшим объемом запросов(и низкими требованиям к безопасности после PoC) оптимальным выбором остаются облачные API из-за низкого порога входа и отсутствия капитальных затрат
Гибридный подход может быть оптимальным: использование облачных API(на старте) для обычных задач и локальных моделей для конфиденциальных данных или при высоких объемах запросов.
Решил для себя закрепить пройденный материал
Давайте за термины проговорим:
API облачных LLM сервисы, предоставляющие доступ к языковым моделям через API (OpenAI, Anthropic, Google и др.) где оплата происходит за каждый обработанный токен
Open-source модели открытые модели (Qwen, Llama, Mistral и др.), которые можно скачать c huggingface и использовать на собственной инфраструктуре
On-premise размещение моделей на собственном локальном оборудовании компании
Cloud аренда вычислительных ресурсов в облаке (RunPod, AWS, GCP(google platform)) для запуска моделей (возможны разные вариации защиты данных от confidential compute до Федеративного шифрования с DP)
Confidential Computing для компаний с критическими требованиями к безопасности, где затраты вторичны по отношению к защите данных
Сценарий_simple_text_chat_system: 100к текстовых диалогов в сутки
Исходные данные
100 000 диалогов ежедневно
3 сообщения от пользователя в каждом диалоге
900 токенов на вход, 1200 токенов на выход
Средняя нагрузка: 1.16 RPS
Пиковая нагрузка: 5.63 RPS (70% трафика в течение 6 часов)
Стоимость Cloud API (GPT-4o-mini)
----------------------------------
Парам | Расчет | Сумма |
------|----------------|----------
Вход | 900×100K×$0.15 | $12.5/д |
Выход | 1.2M×100K×$0.6 | $72/д |
------|----------------|----------
Итого | | $2535/м |
----------------------------------
Итого | | $2535/м |
Аренда RunPod
--------------------------------
Парам | Расчет | Сумма |
------|--------------|----------
A100 | $1.9×6×24×30 | $8165/м |
--------------------------------
Стоимость своего оборудования
------------------
Парам | Сумма |
-------|----------
Железо | $106K |
Колок | $240/м |
Энерг | $400/м |
Аморт | $2945/м |
DevOps | $3000/м |
-------|----------
Итого | $6585/м |
------------------
Сравнение решений
|Решение | $/мес.| Преимущ.|Недос.|
|--------|-------|---------|------|
|CloudAPI| $2,5к | Low ent |APIdpn|
|RunPod | $8,1к | flexi |High $|
|Lcl | $6,5к | fullctrl|High $|
Когда переходить на собственные модели?
1. Экономические факторы
- Высокий объем запросов- локальное решение становится выгоднее GPT-4o-mini при более 140,000 диалогов/день
- Длинные контексты- при обработке больших объемов данных (>100K токенов) на запрос
- Долгосрочные проекты - окупаемость собственного оборудования относительно RunPod: ~24 месяцев
2. Неэкономические факторы
- Конфиденциальность данных - отсутствие передачи информации внешним сервисам
- Соответствие регуляторным требованиям - GDPR, 152-ФЗ, ограничения трансграничной передачи
- Стабильность работы - отсутствие очередей, ограничений скорости, кредитных лимитов, прекращение поддерживание старых версий моделей
Альтернативные сценарии_agentic_system(реальный кейс)
Пример: SAST агент патчер на базе qwen32b-coder
Экономическое обоснование:
- 50 репозиториев с ежедневными сканированиями (это минимум что апдейтит средний tir1-2 корп в сутки)
- 20 уязвимостей/день требуют исправления (анализа и быстрой реакции на них)
- 160K токенов на вход, 25K на выход 1000 запусков в день
Просто сравним сколько бы в месяц даже на старте мы тратили бы на gpt-4o-mini
И так как это MAS мы насчитали около 40+ промптов для каждого агента (представьте после PoC переезжать на qwen и все переписывать
Но для чистоты сравню стоимость
| Решение | Стоимость/месяц |
|-------------|-----------------|
| GPT-4o-mini | $990 |
| Local(A100) | $868 |
Для стартапов и проектов с небольшим объемом запросов(и низкими требованиям к безопасности после PoC) оптимальным выбором остаются облачные API из-за низкого порога входа и отсутствия капитальных затрат
Гибридный подход может быть оптимальным: использование облачных API(на старте) для обычных задач и локальных моделей для конфиденциальных данных или при высоких объемах запросов.
🔥22👍11❤5
Forwarded from Pavel Zloi
⚡️ OpenAI сегодня ВЕЧЕРОМ представит GPT-5 — новая модель уже прошла внутреннее тестирование и готова к релизу.
Главные изменения:
• Мультимодальность — GPT-5 сможет обрабатывать видео, аудио и изображения в реальном времени.
• Автономные действия — ИИ сможет выполнять задачи в интернете без запросов пользователя (платежи, бронирования и т. д.).
• Ограничения — некоторые функции будут доступны только по подписке Pro Max.
Что еще известно:
• Первыми доступ получат корпоративные клиенты и разработчики.
• Бесплатная версия останется, но с урезанными возможностями.
⚡️ Подробности — сегодня в 20:00 по МСК.
Главные изменения:
• Мультимодальность — GPT-5 сможет обрабатывать видео, аудио и изображения в реальном времени.
• Автономные действия — ИИ сможет выполнять задачи в интернете без запросов пользователя (платежи, бронирования и т. д.).
• Ограничения — некоторые функции будут доступны только по подписке Pro Max.
Что еще известно:
• Первыми доступ получат корпоративные клиенты и разработчики.
• Бесплатная версия останется, но с урезанными возможностями.
⚡️ Подробности — сегодня в 20:00 по МСК.
😁24👍8 6🤨1
Мы в red_mad_robot реализовали интересный кейс с применением workflow агентов на базе RAG(SO CoT)
Переходите читать на Хабр
Раскрыли некоторые технические детали
https://habr.com/ru/companies/redmadrobot/articles/892882/
Переходите читать на Хабр
Раскрыли некоторые технические детали
https://habr.com/ru/companies/redmadrobot/articles/892882/
52🔥25 9👍8
Forwarded from LLM под капотом
SO CoT - самый полезный паттерн при создании продуктов с LLM под капотом
Так выходит, если судить по комментариям в моем прошлом опросе.
Я обещал расписать самый полезный паттерн постом в канале. Поскольку сам ответ не влазит в масштаб и формат поста, вот вам две статьи с более подробным описанием и примерами:
- Structured Output (SO): https://abdullin.com/structured-output/
- Custom Chain of Thought (SO CoT): https://abdullin.com/custom-chain-of-thought/
Ваш, @llm_under_hood 🤗
Так выходит, если судить по комментариям в моем прошлом опросе.
Я обещал расписать самый полезный паттерн постом в канале. Поскольку сам ответ не влазит в масштаб и формат поста, вот вам две статьи с более подробным описанием и примерами:
- Structured Output (SO): https://abdullin.com/structured-output/
- Custom Chain of Thought (SO CoT): https://abdullin.com/custom-chain-of-thought/
Ваш, @llm_under_hood 🤗
🔥9👍5❤2
Вышла Llama 4!
И снова огромный вклад в open-source
Читать и любоваться обсуждением Тут
Выделяю отдельно вот такие характеристики:
Поглядеть на веса тут
Попробовать тут (Web)
По попробовать тут (API openrouter)
Для меня самое интересное это 10M контекста будем смотреть что нужно по hardware
Update нужно 512 штук H100 на 10М контекста RAG не call продолжаем
** Single GPU inference using an INT4-quantized version of Llama 4 Scout on 1xH100 GPU
*** Context lengths are evaluated across 512 GPUs using 5D parallelism.
И снова огромный вклад в open-source
Читать и любоваться обсуждением Тут
Выделяю отдельно вот такие характеристики:
это самый большой официально выпущенный контекст пока что (были отдельные работы по файнтюнингу до 50 млн под конкретные задачи. Все это делается с помощью частичного отказа от позиционных эмбеддингов в некоторых слоях, Rotary embeddings в большинстве слоев и подбору коэффициентов софтмакса в attention, лучше соответствующих длине контекста.
Needle in the Haystack: 100% на 10 млн контексте (бенчмарк мы автоматически расширили синтетически до 10 млн, оригинально там 1 млн)Блогпост тут
Поглядеть на веса тут
Попробовать тут (Web)
По попробовать тут (API openrouter)
Для меня самое интересное это 10M контекста будем смотреть что нужно по hardware
Update нужно 512 штук H100 на 10М контекста RAG не call продолжаем
** Single GPU inference using an INT4-quantized version of Llama 4 Scout on 1xH100 GPU
*** Context lengths are evaluated across 512 GPUs using 5D parallelism.
1🔥16👍5
This media is not supported in your browser
VIEW IN TELEGRAM
Structured Output = Stream?
Все знаю что если использовать API к LLM например openai библиотеку
При разработке LLM приложений можно использовать SSE стриминг выставим флаг
Но если мы используем SO (structured output) то возможность получить в реальном времени чанки для отображения пропадает
Есть решение использовать extra body и передать туда схему в метод
На мой взгляд для UI опыта можно сделать что-то интересное на базе CoT+SO (доставать рассуждения сразу и показывать пользователю например)
Как пример выводить у не рассуждающей модели поле reasoning демонстрируя рассуждения по заданному шаблону
Все знаю что если использовать API к LLM например openai библиотеку
При разработке LLM приложений можно использовать SSE стриминг выставим флаг
stream=True
и ловить ответ по чанкам тогда можно передавать ответ пользователю в реальном времени как печатная машинкаНо если мы используем SO (structured output) то возможность получить в реальном времени чанки для отображения пропадает
Есть решение использовать extra body и передать туда схему в метод
client.chat.completions.create
на vLLM можно наблюдать стриминг схемы в реальном времени# Extra body parameters with schema
extra_body = {
"repetition_penalty": 1,
"guided_json": json.dumps(DOCUMENT_SCHEMA),
"guided_decoding_backend": "xgrammar"
}
На мой взгляд для UI опыта можно сделать что-то интересное на базе CoT+SO (доставать рассуждения сразу и показывать пользователю например)
Как пример выводить у не рассуждающей модели поле reasoning демонстрируя рассуждения по заданному шаблону
🔥20👍8 3
Forwarded from Лёха ведет дневник
AI 2027: что делать, если ИИ реально всё захватывает?
Пока все шумят вокруг очередного прогноза про светлое/страшное ИИ-будущее (прогноз от умных людей AI-2027), давай спокойно разберёмся: чего ждать и как не остаться за бортом.
Без паники, без философии — просто трезвый план для тех, кто остаётся в IT и хочет адаптироваться, а не просто наблюдать.
🤖 ИИ уже рядом
Cursor, Devin, Windsurf — код пишут, задачи решают, иногда даже успешно.
Пока не везде, но улучшаются быстрее, чем ты успеваешь моргнуть. Так что да, экспонента — она настоящая.
📌 Первые шаги:
🔵 Прими, что это реально
Не хайп. Не теория. Это уже работает. И будет работать ещё лучше. Принятие — первый шаг к спокойствию и адаптации.
🔵 Начни использовать ИИ каждый день
Не просто “игрался пару раз с ChatGPT”, а именно: делегируй рутину, автоматизируй таски, учись писать промпты, проверяй код и идеи ИИ.
С правильным подходом можно делать в 2-3 раза больше за то же время.
🔵 Следи за новыми инструментами
ИИ-инструменты бывают как “мем”, так и “новый уровень продуктивности”.
Учись различать. Подписки, чатики, бенчмарки — всё в помощь.
🔵 Переосмысли, за что тебе платят
Если ты просто пишешь код — у ИИ скоро будет резюме покруче. Но если ты видишь архитектуру, умеешь работать с бизнесом, думаешь наперёд — ты всё ещё в игре.
🔵 Окружи себя такими же адекватными
Нетворк с людьми, которые реально что-то делают с ИИ. Меньше инфоцыган и “ИИ-журналистов”, больше — практиков и экспериментаторов.
📌 Дальше — стратегически:
🔵 Смещайся от “кодера” к “менеджеру ИИ” — декомпозиция, ревью, проверка, интеграция.
🔵 Углубляйся в системный дизайн — машины пишут код, люди строят системы.
🔵 Развивай продуктовую чуйку — понимание юзеров + ИИ = золото.
🔵 Сделай себе финансовую подушку — турбулентность будет.
📌 На длинной дистанции:
🔵 Управление ИИ-командами и внедрение ИИ в бизнес — будут нужны.
🔵 Специализация + ИИ = суперсила. Разберись в своей нише, и ИИ будет работать на тебя.
🔵 Адаптивность — ключевой скилл. Всё, что ты выучил, может устареть за год. Привыкай.
🔵 Креатив, эмпатия, стратегия — вот что останется “человеческим” дольше всего.
🔵 Ищи новые источники дохода. Стартапы, проекты, инвестиции — ИИ поможет, если не тормозить.
❓ Какие мысли у вас по этому поводу?
@alexs_journal
Пока все шумят вокруг очередного прогноза про светлое/страшное ИИ-будущее (прогноз от умных людей AI-2027), давай спокойно разберёмся: чего ждать и как не остаться за бортом.
Без паники, без философии — просто трезвый план для тех, кто остаётся в IT и хочет адаптироваться, а не просто наблюдать.
Cursor, Devin, Windsurf — код пишут, задачи решают, иногда даже успешно.
Пока не везде, но улучшаются быстрее, чем ты успеваешь моргнуть. Так что да, экспонента — она настоящая.
Не хайп. Не теория. Это уже работает. И будет работать ещё лучше. Принятие — первый шаг к спокойствию и адаптации.
Не просто “игрался пару раз с ChatGPT”, а именно: делегируй рутину, автоматизируй таски, учись писать промпты, проверяй код и идеи ИИ.
С правильным подходом можно делать в 2-3 раза больше за то же время.
ИИ-инструменты бывают как “мем”, так и “новый уровень продуктивности”.
Учись различать. Подписки, чатики, бенчмарки — всё в помощь.
Если ты просто пишешь код — у ИИ скоро будет резюме покруче. Но если ты видишь архитектуру, умеешь работать с бизнесом, думаешь наперёд — ты всё ещё в игре.
Нетворк с людьми, которые реально что-то делают с ИИ. Меньше инфоцыган и “ИИ-журналистов”, больше — практиков и экспериментаторов.
В общем: не надо паниковать. Надо учиться. Использовать. Адаптироваться.
ИИ — это не враг. Это твой новый напарник, если подружишься. Ну или соперник, если будешь игнорить.
@alexs_journal
Please open Telegram to view this post
VIEW IN TELEGRAM
Ai-2027
AI 2027
A research-backed AI scenario forecast.
❤13👍9🔥6
Neural Deep
Structured Output = Stream? Все знаю что если использовать API к LLM например openai библиотеку При разработке LLM приложений можно использовать SSE стриминг выставим флаг stream=True и ловить ответ по чанкам тогда можно передавать ответ пользователю в реальном…
Как и обещал в комментариях навайбкодил вам пример того как работает стриминг схемы(SO) на vLLM
В схеме есть CoT+SO
https://github.com/kekslop/vllm_structured_output_stream/tree/master
LLM API vLLM + Structured Output
Очень подробное README
В схеме есть CoT+SO
https://github.com/kekslop/vllm_structured_output_stream/tree/master
LLM API vLLM + Structured Output
Очень подробное README
GitHub
GitHub - kekslop/vllm_structured_output_stream
Contribute to kekslop/vllm_structured_output_stream development by creating an account on GitHub.
🔥22👍5❤3🤔1
Как заставить Qwen2.5-VL-72B-Instruct 8FP dynamic работать идеально с документами?
И еще извлекать bbox
Недавно Илья победитель ERC обратился ко мне с проблемой: ему нужно было обрабатывать 44-страничное письмо,
получая не только координаты текстовых блоков (bbox), но и полностью извлекать текст из каждого распознанного блока
Он уже пробовал Qwen2.5-VL-72B-Instruct через OpenRouter, но результаты были неудовлетворительными:
"Qwen 2.5 VL просто генерит полную дичь!"
Интересное наблюдение по провайдерам:
1. Parasail: $0.7 за 1M токенов (FP8) — лучший результат (после того как я показал правильную схему и промпт)
2. NovitaAI: $0.8 за 1M токенов — плохие результаты
3. Together: $8 за 1M токенов — худшие результаты
Удивительно, что самый дешевый провайдер давал значительно лучшие результаты!
Моё решение:
Я предложил протестировать модель на моей A100 с правильным промптом и JSON-схемой:
Ключевые факторы успеха:
1. Предобработка изображений: уменьшение размера до 2000 пикселей по широкой стороне для
баланса между качеством и контекстом (8K токенов)
2. Детальный промпт:
3. Структурированный вывод через guided_json vLLM:
Выводы:
1. Не все провайдеры одинаково полезны, даже с одной и той же моделью
2. Цена не всегда коррелирует с качеством
3. Правильный промпт критически важен
4. JSON-схема значительно повышает качество и стабильность результатов
5. FP8-квантизация вполне может обеспечивать высокое качество
6. Собственный хостинг даёт больше контроля и стабильности даже проверить стартовый результат
В комментариях пришлем что было до как показывали другие API провайдеры и что вышло после
В итоге Илья реализовал полный пайплайн обработки документов с точностью распознавания 100% на все документы
И еще извлекать bbox
Недавно Илья победитель ERC обратился ко мне с проблемой: ему нужно было обрабатывать 44-страничное письмо,
получая не только координаты текстовых блоков (bbox), но и полностью извлекать текст из каждого распознанного блока
Он уже пробовал Qwen2.5-VL-72B-Instruct через OpenRouter, но результаты были неудовлетворительными:
"Qwen 2.5 VL просто генерит полную дичь!"
Интересное наблюдение по провайдерам:
1. Parasail: $0.7 за 1M токенов (FP8) — лучший результат (после того как я показал правильную схему и промпт)
2. NovitaAI: $0.8 за 1M токенов — плохие результаты
3. Together: $8 за 1M токенов — худшие результаты
Удивительно, что самый дешевый провайдер давал значительно лучшие результаты!
Моё решение:
Я предложил протестировать модель на моей A100 с правильным промптом и JSON-схемой:
{
"type": "object",
"properties": {
"objects": {
"type": "array",
"items": {
"type": "object",
"properties": {
"bbox_2d": {
"type": "array",
"description": "Coordinates of the object bounding box [x1, y1, x2, y2]",
"items": {
"type": "integer"
}
},
"label": {
"type": "string",
"description": "Document element label"
},
"text": {
"type": "string",
"description": "Extracted text content from the detected area"
},
"confidence": {
"type": "number",
"description": "Confidence score for the detection (0.0 to 1.0)"
}
},
"required": ["bbox_2d", "label"]
}
}
},
"required": ["objects"]
}
Ключевые факторы успеха:
1. Предобработка изображений: уменьшение размера до 2000 пикселей по широкой стороне для
баланса между качеством и контекстом (8K токенов)
2. Детальный промпт:
Detect all distinct text blocks and key visual elements in the document image.
Group text lines that logically, semantically, and visually belong together into single elements cluster.
For each detected element, provide:
1. A concise and descriptive label (e.g., 'heading', 'paragraph', 'list', 'table', 'section', etc.)
2. A bounding box [x1, y1, x2, y2] that encompasses the entire grouped element.
3. The complete text content of the cluster, adjusted to the Markdown format.
Ignore "manifest immigration" header and "Manifest Law PLLC." with page number footers.
3. Структурированный вывод через guided_json vLLM:
extra_body = {
"guided_json": json.dumps(DOCUMENT_JSON_SCHEMA),
"guided_decoding_backend": "xgrammar"
}
Выводы:
1. Не все провайдеры одинаково полезны, даже с одной и той же моделью
2. Цена не всегда коррелирует с качеством
3. Правильный промпт критически важен
4. JSON-схема значительно повышает качество и стабильность результатов
5. FP8-квантизация вполне может обеспечивать высокое качество
6. Собственный хостинг даёт больше контроля и стабильности даже проверить стартовый результат
В комментариях пришлем что было до как показывали другие API провайдеры и что вышло после
В итоге Илья реализовал полный пайплайн обработки документов с точностью распознавания 100% на все документы
👍29🔥10 6❤2
Forwarded from Лёха ведет дневник
Похоронное бюро AI-инициатив
Проведя достаточно большое количество пресэйлов (100+) по Gen AI тематике, составил небольшой чек-лист запросов/проектов, которые вряд ли взлетят)
1️⃣ “Нам нужно ИИ. Просто… нужно”
Цель проекта: “Внедрить ИИ”.
Зачем? Кому? Что должно получиться? Неясно
Хороните сразу.
2️⃣ “У конкурентов есть — и нам надо”
Зависть — плохой стратег.
Копировать чужое решение без своих данных, процессов и боли — путь к провалу.
Это как надевать чужие очки и удивляться, почему всё мутно.
3️⃣ “Сделаем RAG-бота на выходных”
Идея норм. Вот только:
- Чатик есть
- Данных нет
- Понимания, как работает retriever — тоже нет
Презентация будет норм. Работы — нет.
4️⃣ “Да он сам всё придумает — это же AI”
Это не магия, это машинка с правилами.
Если ты не скажешь, что делать — она сделает ерунду. Но с умным видом.
И ты потом будешь виноват.
5️⃣ “Запускаем сразу в прод — потом разберёмся”
Не разберётесь.
Будет пожар, стыд и ор “лучше бы на Excel остались”.
6️⃣ “А давайте сгенерим всю документацию нейросеткой!”
Генерация ≠ понимание.
Потом ходишь с этим текстом, как с бомбой: вроде красиво, но никто не уверен, что там внутри. Даже сам ИИ.
7️⃣ “Главное — красиво презентовать”
Если в проекте больше времени уходит на подготовку слайдов, чем на валидацию модели — это уже не AI-проект. Это корпоративный театр.
8️⃣ “AI сократит сотрудников и сэкономит деньги”
ИИ не лечит токсичный процесс.
Он его автоматизирует. Быстрее. И больнее.
Люди уйдут, бардак останется.
9️⃣ “Сделаем MVP, а потом подумаем про данные”
Подсказка: MVP = Minimum Viable Product.
А если данных нет — то это MNP = Minimum Nothing Product .
🔟 “Мы наняли одного data scientist-а — он всё сделает”
Если AI-проект — это космический корабль, то один датасаентист — это чувак с отвёрткой и шлемом из фольги.
Без команды, процессов и поддержки — он просто сгорит в атмосфере.
Если узнал в каком-то пункте свой проект — не расстраивайся. Это ещё не похороны. Пока ты читаешь этот пост — есть шанс откачать.
📌 Как оживлять:
- Начинай с боли, а не с хайпа
- Работай с данными раньше, чем с интерфейсами
- Прототипируй быстро, но честно
- Не строй презентацию на мечтах
- Помни: AI — это усилитель, а не маг-чародей)
❓ С какими приколами ты встречался при желании внедрить AI?
@alexs_journal
Проведя достаточно большое количество пресэйлов (100+) по Gen AI тематике, составил небольшой чек-лист запросов/проектов, которые вряд ли взлетят)
Цель проекта: “Внедрить ИИ”.
Зачем? Кому? Что должно получиться? Неясно
Хороните сразу.
Зависть — плохой стратег.
Копировать чужое решение без своих данных, процессов и боли — путь к провалу.
Это как надевать чужие очки и удивляться, почему всё мутно.
Идея норм. Вот только:
- Чатик есть
- Данных нет
- Понимания, как работает retriever — тоже нет
Презентация будет норм. Работы — нет.
Это не магия, это машинка с правилами.
Если ты не скажешь, что делать — она сделает ерунду. Но с умным видом.
И ты потом будешь виноват.
Не разберётесь.
Будет пожар, стыд и ор “лучше бы на Excel остались”.
Генерация ≠ понимание.
Потом ходишь с этим текстом, как с бомбой: вроде красиво, но никто не уверен, что там внутри. Даже сам ИИ.
Если в проекте больше времени уходит на подготовку слайдов, чем на валидацию модели — это уже не AI-проект. Это корпоративный театр.
ИИ не лечит токсичный процесс.
Он его автоматизирует. Быстрее. И больнее.
Люди уйдут, бардак останется.
Подсказка: MVP = Minimum Viable Product.
А если данных нет — то это
Если AI-проект — это космический корабль, то один датасаентист — это чувак с отвёрткой и шлемом из фольги.
Без команды, процессов и поддержки — он просто сгорит в атмосфере.
Если узнал в каком-то пункте свой проект — не расстраивайся. Это ещё не похороны. Пока ты читаешь этот пост — есть шанс откачать.
- Начинай с боли, а не с хайпа
- Работай с данными раньше, чем с интерфейсами
- Прототипируй быстро, но честно
- Не строй презентацию на мечтах
- Помни: AI — это усилитель, а не маг-чародей)
@alexs_journal
Please open Telegram to view this post
VIEW IN TELEGRAM
3❤27🔥20👍10 10
Еще год назад я начал систематически вести этот канал и вот сегодня нас 4 000+!
Каждый новый человек и реакция на посте мотивирует искать для вас действительно уникальный контент про реальный опыт в AI
Из интересного - у меня это новая веха в моей карьере, так что скоро будет еще больше научного и около научного контента
Кстати у нас есть ламповый чат канала, где мы часто обсуждаем AI за рамками постов в канале
https://t.iss.one/neuraldeepchat
Каждый новый человек и реакция на посте мотивирует искать для вас действительно уникальный контент про реальный опыт в AI
Из интересного - у меня это новая веха в моей карьере, так что скоро будет еще больше научного и около научного контента
Кстати у нас есть ламповый чат канала, где мы часто обсуждаем AI за рамками постов в канале
https://t.iss.one/neuraldeepchat
3 31👍21🔥17❤6
Forwarded from Михаил Степанов
Многие разработчики вынуждены использовать jupyterlab \ jupyterhub во время работы, не имея возможности использовать VSCODE.
Наши товарищи из coder проделали большую работу, чтобы сделать возможным использование VSCODE через браузер.
Моя задача — подружить эти две технологии и предоставить возможность быстрого и удобного запуска обоих этих приложений.
Поэтому представляю вам библиотеку jupyter_coder_server.
Данная библиотека работает в паре с библиотекой jupyter-server-proxy, которая в свою очередь позволяет создавать дополнительные серверы внутри Jupyter.
Библиотека предоставляет возможность запускать Web Based VSCODE и Web Based Файловый менеджер.
Для установки библиотеки всего лишь необходимо выполнить команду в терминале jupyter, а после установки "перезапустить" гуи сервиса. (или перезапустить ваш jupyter)
Наши товарищи из coder проделали большую работу, чтобы сделать возможным использование VSCODE через браузер.
Моя задача — подружить эти две технологии и предоставить возможность быстрого и удобного запуска обоих этих приложений.
Поэтому представляю вам библиотеку jupyter_coder_server.
Данная библиотека работает в паре с библиотекой jupyter-server-proxy, которая в свою очередь позволяет создавать дополнительные серверы внутри Jupyter.
Библиотека предоставляет возможность запускать Web Based VSCODE и Web Based Файловый менеджер.
Для установки библиотеки всего лишь необходимо выполнить команду в терминале jupyter, а после установки "перезапустить" гуи сервиса. (или перезапустить ваш jupyter)
pip install jupyter_coder_server
❤15🔥10👍6
FireBase Studio от google New Call или New Top?
Рассказывает наш NLP Lead rmr_ai Евгений Орлов
Попробовал FireBase Studio от гугла и делюсь результатами тестирования.
При старте создается новый workspace, где можно выбрать или создание нового проекта на разных языках или загрузку уже существующего проекта, например из гитхаба.
Вся работа может вестись в двух режимах - с превью / классическая IDE
В превью в основном окне показывают сразу же созданный сайт, в IDE все как всегда.
Судя по тексту установки экстеншена для IDE под капотом кроется старый добрый VScode (и визуально он тоже очень походит)
Для теста попросил нагенерить проект по созданию презентаций в корпоративном стиле.
С генерацией интерфейса худо бедно gemini в итоге справилась, но заставить бэк по генерации презентаций по нажатию на кнопку работать в течении своего теста я так и не смог.
В итоге что можно сказать:
- круто, что видно сразу же как выглядит проект в превью (и можно открыть в отдельной вкладке) и потыкать, от сюда можно работать над улучшением проекта гораздо быстрее и проще
- IDE - это по сути vscode в браузере, что само по себе уже неплохо, так как это снимает необходимость настраивать локальные окружения и тд. Как это будет работать с проектами крупнее и сложнее - неизвестно (скорее всего с проблемами)
- революции в вайбкодинге не случилось. Все те же проблемы, что и в других IDE типа курсора и ко.
- есть еще режим работы в режиме drawing в интерфейсе (что то дорисовываем, дописываем, в gemini отправляется скриншот для переделки) - может быть удобно для работы над интерфейсом, чтобы визуально показывать где нужно исправить, а не ухищряться в промптах
Инструмент больше для интерфейсных прототипов чем бэка?
Рассказывает наш NLP Lead rmr_ai Евгений Орлов
Попробовал FireBase Studio от гугла и делюсь результатами тестирования.
При старте создается новый workspace, где можно выбрать или создание нового проекта на разных языках или загрузку уже существующего проекта, например из гитхаба.
Вся работа может вестись в двух режимах - с превью / классическая IDE
В превью в основном окне показывают сразу же созданный сайт, в IDE все как всегда.
Судя по тексту установки экстеншена для IDE под капотом кроется старый добрый VScode (и визуально он тоже очень походит)
Для теста попросил нагенерить проект по созданию презентаций в корпоративном стиле.
С генерацией интерфейса худо бедно gemini в итоге справилась, но заставить бэк по генерации презентаций по нажатию на кнопку работать в течении своего теста я так и не смог.
В итоге что можно сказать:
- круто, что видно сразу же как выглядит проект в превью (и можно открыть в отдельной вкладке) и потыкать, от сюда можно работать над улучшением проекта гораздо быстрее и проще
- IDE - это по сути vscode в браузере, что само по себе уже неплохо, так как это снимает необходимость настраивать локальные окружения и тд. Как это будет работать с проектами крупнее и сложнее - неизвестно (скорее всего с проблемами)
- революции в вайбкодинге не случилось. Все те же проблемы, что и в других IDE типа курсора и ко.
- есть еще режим работы в режиме drawing в интерфейсе (что то дорисовываем, дописываем, в gemini отправляется скриншот для переделки) - может быть удобно для работы над интерфейсом, чтобы визуально показывать где нужно исправить, а не ухищряться в промптах
Инструмент больше для интерфейсных прототипов чем бэка?
1🔥14👍4 3
Продолжаем тестировать разные LLM+IDE
Евгений продолжает свое исследование AI-инструментов для разработки.
В этот раз попробовал Lovable и Bolt:
Продолжаем делать прототип интерфейса для генерации презентаций
В Lovable создал крутой прототип с визуальной точки зрения, что-то похожее на реальное приложение
Почти никакие кнопки не работают
Бэка работающего видимо тоже нет
Редактор кода явно простенький и работает только при связи с GitHub
В общем, вывод:
Может создать первый драфт фронта визуально более похожий на что-то реальное
Нет нормального редактора кода
С бэком также не работает ничего
Bolt - ровно то же самое:
Пытался итеративно делать разработку, скорее шаг за шагом, создавая мини-прототипы
В итоге поломал все приложение на этапе где надо было подключить БД
Визуально также - вроде неплохо, но ничего не работало
Столкнулся с лимитом на работу (на предыдущих не утыкался с бесплатным аккаунтом)
Видимо эти все инструменты подходят чтобы создать прототип для фронта, но с бэком надо самому разбираться!
Stay Tuned заказывайте еще разборы
Евгений продолжает свое исследование AI-инструментов для разработки.
В этот раз попробовал Lovable и Bolt:
Продолжаем делать прототип интерфейса для генерации презентаций
В Lovable создал крутой прототип с визуальной точки зрения, что-то похожее на реальное приложение
Почти никакие кнопки не работают
Бэка работающего видимо тоже нет
Редактор кода явно простенький и работает только при связи с GitHub
В общем, вывод:
Может создать первый драфт фронта визуально более похожий на что-то реальное
Нет нормального редактора кода
С бэком также не работает ничего
Bolt - ровно то же самое:
Пытался итеративно делать разработку, скорее шаг за шагом, создавая мини-прототипы
В итоге поломал все приложение на этапе где надо было подключить БД
Визуально также - вроде неплохо, но ничего не работало
Столкнулся с лимитом на работу (на предыдущих не утыкался с бесплатным аккаунтом)
Видимо эти все инструменты подходят чтобы создать прототип для фронта, но с бэком надо самому разбираться!
Stay Tuned заказывайте еще разборы
🔥15👍7❤2