Forwarded from red_mad_robot
Что мешает масштабировать генеративный ИИ
В red_mad_robot мы регулярно проводим сессии по генеративному ИИ для технических команд, и один из самых частых запросов связан с переходом от первых ИИ-сценариев к системной работе.
Старт обычно получается быстрым. Сложнее закрепить эффект в процессе: договориться о правилах работы, критериях качества, границах системы и способе переноса удачных кейсов в общий контур разработки.
О том, как проходить этот этап, узнали у Head of AI red_mad_robot Валеры Ковальского и CTO AI red_mad_robot Влада Шевченко. Они как раз и ведут программу AI-Ready🔗
#AI_moment #роботайм
↗️ red_mad_robot
В red_mad_robot мы регулярно проводим сессии по генеративному ИИ для технических команд, и один из самых частых запросов связан с переходом от первых ИИ-сценариев к системной работе.
Старт обычно получается быстрым. Сложнее закрепить эффект в процессе: договориться о правилах работы, критериях качества, границах системы и способе переноса удачных кейсов в общий контур разработки.
О том, как проходить этот этап, узнали у Head of AI red_mad_robot Валеры Ковальского и CTO AI red_mad_robot Влада Шевченко. Они как раз и ведут программу AI-Ready
#AI_moment #роботайм
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍16🔥9❤6
Forwarded from Константин Доронин
Как создавать AI-агентов на on-prem-моделях?
Как меняется создание пайплайна, когда мы переходим на локальные модели?
Что вообще может этот ваш Qwen на 4B по сравнению с GPT-5.5?
Чтобы ответить на эти(и многие другие) вопросы максимально-качественно, основываясь на большом практическом опыте, я попросил присоединиться к стриму Валеру.
Все, кому были неудобны стримы по субботам, возрадуйтесь!
Стрим будет во вторник, 5 мая в 16:00 мск.
Проведём его на моём YouTube-канале.
Чтобы добавить событие в календарь, нажимайте сюда.
Задавайте вопросы в комментариях. Обязательно ответим на них на стриме!
Как меняется создание пайплайна, когда мы переходим на локальные модели?
Что вообще может этот ваш Qwen на 4B по сравнению с GPT-5.5?
Чтобы ответить на эти
Все, кому были неудобны стримы по субботам, возрадуйтесь!
Стрим будет во вторник, 5 мая в 16:00 мск.
Проведём его на моём YouTube-канале.
Чтобы добавить событие в календарь, нажимайте сюда.
Задавайте вопросы в комментариях. Обязательно ответим на них на стриме!
🔥37👍15❤7😁1
NeuralDeep LLM Hub
Добавлено:
qwen3.6-35b-a3b
Второй инстанс под gpt oss 120b
whisper large-v3-turbo
Возможность в ЛК отключить логирование (тут конечно надо поверить мне на слово)
Обе LLM протестированы с codex/opencode/hermes-agent/kiro/cursor
Осталось 70 регистраций на free тир (добиваем 1к регистраций)
Из-за активного юзеджа зарезал фритир и протир по лимитам
За это время вы закинули 140 000 запросов и затестили все модели из списка
И как-то дали 4 рпс на обе gpt oss 120b
Спасибо, что используете, я продолжаю эксперименты и скоро расскажу про них! Расскажите в комментариях, какие эксперименты провели вы с этой платформой
https://hub.neuraldeep.ru/
Добавлено:
qwen3.6-35b-a3b
Второй инстанс под gpt oss 120b
whisper large-v3-turbo
Возможность в ЛК отключить логирование (тут конечно надо поверить мне на слово)
Обе LLM протестированы с codex/opencode/hermes-agent/kiro/cursor
Осталось 70 регистраций на free тир (добиваем 1к регистраций)
Из-за активного юзеджа зарезал фритир и протир по лимитам
За это время вы закинули 140 000 запросов и затестили все модели из списка
И как-то дали 4 рпс на обе gpt oss 120b
Спасибо, что используете, я продолжаю эксперименты и скоро расскажу про них! Расскажите в комментариях, какие эксперименты провели вы с этой платформой
https://hub.neuraldeep.ru/
2🔥33👍14❤7
Forwarded from Pavel Zloi
Расширение каталога на Hub NeuralDeep
Сегодня вместе с Валерием (@neuraldeep) добавили новых моделей в публичной API проекта NeuralDeep. Базовый URL для запросов api.neuraldeep.ru (OpenAI-совместимо, Bearer с ключом). Ключ можно полчить после регистрации на hub.neuraldeep.ru.
Итого:
- LLM'ки - из коробки через апишку доступны две флагманские модельки
- Эмбеддинги - в дополнение к
- Реранкеры - уже была
- Голос в текст (ASR) - помимо
Полный список моделей можно посмотреть так:
Регистрируйтесь, пользуйтесь, предлагайте свои модельки, поддерживайте рублём, рассказывайте друзьям - нам пригодится любая ваша помощь.
Сегодня вместе с Валерием (@neuraldeep) добавили новых моделей в публичной API проекта NeuralDeep. Базовый URL для запросов api.neuraldeep.ru (OpenAI-совместимо, Bearer с ключом). Ключ можно полчить после регистрации на hub.neuraldeep.ru.
Итого:
- LLM'ки - из коробки через апишку доступны две флагманские модельки
gpt-oss-120b и qwen3.6-35b-a3b, их можно крутить в кодовых агентах и чатботах.- Эмбеддинги - в дополнение к
bge-m3 и e5-large добавили русскоязычную frida, мультимодальную jina-embeddings-v4 и толстушку qwen3-embedding-4b.- Реранкеры - уже была
bge-reranker для ранжирования чанков, пригодится для вашего RAGу.- Голос в текст (ASR) - помимо
whisper-1 добавили ещё и whisper-podlodka-turbo.Полный список моделей можно посмотреть так:
curl -sS "https://api.neuraldeep.ru/v1/models" \
-H "Authorization: Bearer <ваш-ключ-с-хаба>"
Регистрируйтесь, пользуйтесь, предлагайте свои модельки, поддерживайте рублём, рассказывайте друзьям - нам пригодится любая ваша помощь.
1❤32🔥24 6
Pavel Zloi
Расширение каталога на Hub NeuralDeep Сегодня вместе с Валерием (@neuraldeep) добавили новых моделей в публичной API проекта NeuralDeep. Базовый URL для запросов api.neuraldeep.ru (OpenAI-совместимо, Bearer с ключом). Ключ можно полчить после регистрации…
This media is not supported in your browser
VIEW IN TELEGRAM
Встроил в хаб OpenWebUI, чтобы показать реальную скорость, и вы сразу могли проверить модели!
Работает фича из личного кабинета после авторизации (если вы нашли баг или вам интересен такой ИИкит, пишите в ЛС)
https://hub.neuraldeep.ru/
P.S. Токен из видео уже не работает))))
Скорость на видео реальная х1
За идею спасибо Паше
Работает фича из личного кабинета после авторизации (если вы нашли баг или вам интересен такой ИИкит, пишите в ЛС)
https://hub.neuraldeep.ru/
P.S. Токен из видео уже не работает))))
Скорость на видео реальная х1
За идею спасибо Паше
1❤27👍12🔥9🤯2
С большой GPU большая ответственность
Разберем стек
vLLM + LiteLLM + Codex CLI
Часть первая, когда у вас много GPU серверов под LLM инференс, а у меня часть в одном офисе, часть в колокейшене (когда арендуешь стойку в датацентре под свое железо, не AWS) и нужно все же понять как сделать одно API окно сверху всего этого, привет https://hub.neuraldeep.ru/ и все наши эксперименты выше =)
В целом это проблема любой связки vLLM + LiteLLM даже если вы заводите это внутри компании, не на продажу
У меня заняло неделю по вечерам найти, и решить проблемы, пройдусь по пунктам чтобы вам было быстрее
Вы так же найдете те же проблема на GitHub vLLM висят открытые issues с января-апреля 2026
#33089 (multi-turn Responses API),
#39426 (tool-aggregation protocol drift) десятки людей жалуются на одно и то же, апстрим месяцами не закрывает
Боль набер ван роутинг
LiteLLM по дефолту simple-shuffle или следующий кандидат latency-based routing
Звучит умно выбирает самый быстрый сервер или рандомим
По факту на двух одинаковых инстансах LLM с GPU он залипает на winner-сервер навсегда, второй простаивает в ноль, курит за деньги вашей компании
Включить round-robin?
Нельзя
Round-robin для multi-turn агент loop убивает кеш на каждом turn'е попадаешь на другой сервер история пере-prefillится с нуля +5-10s к ответу, песня да?
Нужен sticky session (один user всегда на одном сервере) + балансировка между разными user'ами
Из коробки в LiteLLM такого нет, оно как бы есть но его как бы нет💀
Решение простое как две копейки главное на него выйти сразу, "custom routing strategy"
180 строк кода
Внутри consistent-hash md5 от api_key_alias, один user всегда на одном сервере
Разные user'ы, разные сервера через равномерное распределение хеша, что делать когда будет требоваться масштабирование дальше? Расскажу в следующих сериях
Сервер в колокейшене ожил (ура) и по логам есть кеш!
Боль набер два кеш умирает без sticky решается первым пунктом и сильно связан с роутингом, но дальше сложнее
Боль 3 Codex CLI шлет нестандартные tool types
Я хочу использовать Codex CLI как агентный харнес в своих экспериментах, с qwen3.6 все просто фиксим протокол и поехали, с gpt oss 120b чуть сложнее так как там что? Правильно harmony =)
Codex CLI отправляет в запрос tools которые vLLM не понимает custom, image_generation, namespace
vLLM на это шлет вам 400 tool type custom not supported, вы оптекаете и думаете что с этим делать
Codex падает на старте, до первой генерации
Лезу в исходники vLLM есть файл harmony_utils.py (harmony это внутренний формат сообщений для gpt-oss моделей, как ChatML для других)
Там whitelist tool types web_search_preview, code_interpreter, container, function
Все
Никаких custom или image_generation 😳
Решение в лоб, bind-mount (монтируете файл с хоста поверх файла в контейнере, апстрим не трогаете) с пропатченным harmony_utils.py
Расширил whitelist на custom, web_search, file_search, image_generation, local_shell, apply_patch, mcp_*
После этого Codex реально начинает работать делает git rev-parse, читает файлы, пишет код
Боль набер 4 Responses API строгая валидация
Responses API это новый OpenAI endpoint /v1/responses (на смену /v1/chat/completions)
С server-side state через previous_response_id
Codex с ним и работает (completions дипрекейтнули еще 2-3 месяца назад)
На каждом turn'е шлет previous_response_id + полный input[] с историей
В истории assistant-айтемы которые vLLM ранее сам сгенерировал
У них нет полей id, status="completed", annotations=[]
По OpenAI-схеме это required-поля
vLLM строгая Pydantic-валидация запрос делает что?
Правильно отлетает
Codex в ступоре
Вы тоже
Решение тот же подход bind-mount пропатченных Pydantic-моделей делаем поля optional с дефолтами
Итого
Кодинг агенты помогли собрать все это в кучу, и локализовать проблемы, да не так элегантно но работает!
Базовый вывод это легко находится через Codex/Claude Code главное тесты и что бы вы понимали что делаете
Все это решилось так же через подробные логи на всех сторонах систем
Затестить все это можно тут https://hub.neuraldeep.ru/docs#agents
Разберем стек
vLLM + LiteLLM + Codex CLI
Часть первая, когда у вас много GPU серверов под LLM инференс, а у меня часть в одном офисе, часть в колокейшене (когда арендуешь стойку в датацентре под свое железо, не AWS) и нужно все же понять как сделать одно API окно сверху всего этого, привет https://hub.neuraldeep.ru/ и все наши эксперименты выше =)
В целом это проблема любой связки vLLM + LiteLLM даже если вы заводите это внутри компании, не на продажу
У меня заняло неделю по вечерам найти, и решить проблемы, пройдусь по пунктам чтобы вам было быстрее
Вы так же найдете те же проблема на GitHub vLLM висят открытые issues с января-апреля 2026
#33089 (multi-turn Responses API),
#39426 (tool-aggregation protocol drift) десятки людей жалуются на одно и то же, апстрим месяцами не закрывает
Боль набер ван роутинг
LiteLLM по дефолту simple-shuffle или следующий кандидат latency-based routing
Звучит умно выбирает самый быстрый сервер или рандомим
По факту на двух одинаковых инстансах LLM с GPU он залипает на winner-сервер навсегда, второй простаивает в ноль, курит за деньги вашей компании
Включить round-robin?
Нельзя
Round-robin для multi-turn агент loop убивает кеш на каждом turn'е попадаешь на другой сервер история пере-prefillится с нуля +5-10s к ответу, песня да?
Нужен sticky session (один user всегда на одном сервере) + балансировка между разными user'ами
Из коробки в LiteLLM такого нет, оно как бы есть но его как бы нет
Решение простое как две копейки главное на него выйти сразу, "custom routing strategy"
180 строк кода
Внутри consistent-hash md5 от api_key_alias, один user всегда на одном сервере
Разные user'ы, разные сервера через равномерное распределение хеша, что делать когда будет требоваться масштабирование дальше? Расскажу в следующих сериях
Сервер в колокейшене ожил (ура) и по логам есть кеш!
Боль набер два кеш умирает без sticky решается первым пунктом и сильно связан с роутингом, но дальше сложнее
Боль 3 Codex CLI шлет нестандартные tool types
Я хочу использовать Codex CLI как агентный харнес в своих экспериментах, с qwen3.6 все просто фиксим протокол и поехали, с gpt oss 120b чуть сложнее так как там что? Правильно harmony =)
Codex CLI отправляет в запрос tools которые vLLM не понимает custom, image_generation, namespace
vLLM на это шлет вам 400 tool type custom not supported, вы оптекаете и думаете что с этим делать
Codex падает на старте, до первой генерации
Лезу в исходники vLLM есть файл harmony_utils.py (harmony это внутренний формат сообщений для gpt-oss моделей, как ChatML для других)
Там whitelist tool types web_search_preview, code_interpreter, container, function
Все
Никаких custom или image_generation 😳
Решение в лоб, bind-mount (монтируете файл с хоста поверх файла в контейнере, апстрим не трогаете) с пропатченным harmony_utils.py
Расширил whitelist на custom, web_search, file_search, image_generation, local_shell, apply_patch, mcp_*
После этого Codex реально начинает работать делает git rev-parse, читает файлы, пишет код
Боль набер 4 Responses API строгая валидация
Responses API это новый OpenAI endpoint /v1/responses (на смену /v1/chat/completions)
С server-side state через previous_response_id
Codex с ним и работает (completions дипрекейтнули еще 2-3 месяца назад)
На каждом turn'е шлет previous_response_id + полный input[] с историей
В истории assistant-айтемы которые vLLM ранее сам сгенерировал
У них нет полей id, status="completed", annotations=[]
По OpenAI-схеме это required-поля
vLLM строгая Pydantic-валидация запрос делает что?
Правильно отлетает
Codex в ступоре
Вы тоже
Решение тот же подход bind-mount пропатченных Pydantic-моделей делаем поля optional с дефолтами
Итого
Кодинг агенты помогли собрать все это в кучу, и локализовать проблемы, да не так элегантно но работает!
Базовый вывод это легко находится через Codex/Claude Code главное тесты и что бы вы понимали что делаете
Все это решилось так же через подробные логи на всех сторонах систем
Затестить все это можно тут https://hub.neuraldeep.ru/docs#agents
Please open Telegram to view this post
VIEW IN TELEGRAM
2🔥38👍18💯9❤6😁1
Forwarded from Константин Доронин
Мы начинаем нашу трансляцию "Как создавать AI-агентов на on-prem-моделях?"
https://youtube.com/live/wjA9aPg7pjQ?feature=share – подключайтесь!
https://youtube.com/live/wjA9aPg7pjQ?feature=share – подключайтесь!
❤25
Сброшены недельные лимиты для всех!
Добавлены еще инстансы qwen3.6-35b-a3b (латенси должен упасть)
Обновлены лимиты на free тире
Пол ярда токенов на квен за 2 дня КАРЛ! 🦾
Проработана дока для подключения моделей к агентам https://hub.neuraldeep.ru/docs#agents (теперь там есть огромная кнопка скопировать доку в md, сделаны базовые фиксы responses api
Добавлены еще инстансы qwen3.6-35b-a3b (латенси должен упасть)
Обновлены лимиты на free тире
Пол ярда токенов на квен за 2 дня КАРЛ! 🦾
Проработана дока для подключения моделей к агентам https://hub.neuraldeep.ru/docs#agents (теперь там есть огромная кнопка скопировать доку в md, сделаны базовые фиксы responses api
🔥43 10❤5😁3👍2
Валера Ковальский
Video message
После митапа и еще одной встречи с Андреем пришли к точному выводу что я где-то справа, часть людей еще по середине
UPDATE:
Нашли правильную картинку https://t.iss.one/neuraldeepchat/58210
UPDATE:
Нашли правильную картинку https://t.iss.one/neuraldeepchat/58210
😁45💯12🤡5👍3⚡2🔥1
Forwarded from Константин Доронин
Media is too big
VIEW IN TELEGRAM
Запись вчерашнего стрима "Как создавать AI-агентов на on-prem-моделях?".
YouTube: https://www.youtube.com/live/wjA9aPg7pjQ
Telegram: в медиа этого поста
Участники:
1. @neuraldeep
2. @kdoronin_blog
Паша. На стриме его несколько раз вспоминали:
@evilfreelancer
Платформа, с помощью которой тестировали on-prem-модели:
https://hub.neuraldeep.ru/
Презентация – в комментариях.
YouTube: https://www.youtube.com/live/wjA9aPg7pjQ
Telegram: в медиа этого поста
Участники:
1. @neuraldeep
2. @kdoronin_blog
Паша. На стриме его несколько раз вспоминали:
@evilfreelancer
Платформа, с помощью которой тестировали on-prem-модели:
https://hub.neuraldeep.ru/
Презентация – в комментариях.
❤17👍13🔥5🤝2
Харнесы умирают?
После панельной дискуссии про вайбкодинг в офисе Туту с Серёжей, Андреем, Максимом и Женей у меня появилось большое желание встретится с Андреем и поговорить в спокойной обстановке, результатом разговора стал мем в канале про который мы вспомнили но есть и еще небольшая рефлексия
Все эти умные спеки, агентные обвязки, саб-агенты для ревью, отдельные оркестраторы
Год назад без этого было никак, и я ощущал лютейшее FOMO что не обуздал весь этот SDLC контент завод по производству кода
Cегодня модели стали умнее харнесов(обвязок над классическим СС/Codex CLI)
И вся эта обвязка из 1 000 000 спек превратилась в хрупкие лестницы из спичек ИМХО, которые проще сжечь, чем поддерживать
UPDATE: Я в целом про процесс написания кода, тестирование/ревю/багфиксы нужно автоматизировать и точно возможно расскажу в след постах что для этого делаю!
Да, на сегодня есть критическая масса минимума того что нужно
context7
web_search
playwright
Базовые навыки структурирования AGENT.md/CLAUDE.md
На этом наверное и все
Я для себя понял простую вещь если ты знаешь что делаешь, тебе хватит пары промптов в рукаве которые подсовываем в начале сессии
Модели за счёт статистики доделают как надо, без миллиона спецификаций
Чем проще велосипед тем лучше и надежнее он едет
Сегрегация ранних адоптеров
Еще как факт после панельки главное наблюдение большинству людей мешает не сложность LLM, а страх перед инструментом
Мы даже сравнили его с благоговением, как когда-то перед навигатором, который говорил поворачивать с моста через три полосы и его слушались
Народ боится сказать модели "слышь, ты, попроще объясни я не DevOps с 6 летним стажем" или "cлышь ты ***** делай ровно не ленись на ревю"
Боится переформулировать вопрос
Боится написать "сделай мне"
Или же страх=не понимание возможностей?
Пока загадка для меня =)
Почему часть людей у меня в канале идет сразу в комменты?
Спросить у кодинг агента как решить проблему? Разобраться самому? Что это? Лень?
Вижу картину что про мой open source проще сходить ко мне в комментарии с фразой "Валера! Не работает! Почини!"
И тут наша задача как евангелистов держать в рукаве пачку метафор под каждую группу
Для кого-то LLM это Excel 2.0
Для кого-то поисковик без критического мышления
Для кого-то джун, к которому надо научиться правильно обращаться
Чем раньше человек научится тем легче ему будет жить дальше
Получается что учится никогда не поздно! И задавать правильные вопросы тоже
После панельной дискуссии про вайбкодинг в офисе Туту с Серёжей, Андреем, Максимом и Женей у меня появилось большое желание встретится с Андреем и поговорить в спокойной обстановке, результатом разговора стал мем в канале про который мы вспомнили но есть и еще небольшая рефлексия
Все эти умные спеки, агентные обвязки, саб-агенты для ревью, отдельные оркестраторы
Год назад без этого было никак, и я ощущал лютейшее FOMO что не обуздал весь этот SDLC контент завод по производству кода
Cегодня модели стали умнее харнесов(обвязок над классическим СС/Codex CLI)
И вся эта обвязка из 1 000 000 спек превратилась в хрупкие лестницы из спичек ИМХО, которые проще сжечь, чем поддерживать
UPDATE: Я в целом про процесс написания кода, тестирование/ревю/багфиксы нужно автоматизировать и точно возможно расскажу в след постах что для этого делаю!
Да, на сегодня есть критическая масса минимума того что нужно
context7
web_search
playwright
Базовые навыки структурирования AGENT.md/CLAUDE.md
На этом наверное и все
Я для себя понял простую вещь если ты знаешь что делаешь, тебе хватит пары промптов в рукаве которые подсовываем в начале сессии
Модели за счёт статистики доделают как надо, без миллиона спецификаций
Чем проще велосипед тем лучше и надежнее он едет
Сегрегация ранних адоптеров
Еще как факт после панельки главное наблюдение большинству людей мешает не сложность LLM, а страх перед инструментом
Мы даже сравнили его с благоговением, как когда-то перед навигатором, который говорил поворачивать с моста через три полосы и его слушались
Народ боится сказать модели "слышь, ты, попроще объясни я не DevOps с 6 летним стажем" или "cлышь ты ***** делай ровно не ленись на ревю"
Боится переформулировать вопрос
Боится написать "сделай мне"
Или же страх=не понимание возможностей?
Пока загадка для меня =)
Почему часть людей у меня в канале идет сразу в комменты?
Спросить у кодинг агента как решить проблему? Разобраться самому? Что это? Лень?
Вижу картину что про мой open source проще сходить ко мне в комментарии с фразой "Валера! Не работает! Почини!"
И тут наша задача как евангелистов держать в рукаве пачку метафор под каждую группу
Для кого-то LLM это Excel 2.0
Для кого-то поисковик без критического мышления
Для кого-то джун, к которому надо научиться правильно обращаться
Чем раньше человек научится тем легче ему будет жить дальше
Получается что учится никогда не поздно! И задавать правильные вопросы тоже
human_question_skill.md =)❤56👍27🔥16💯8😁3🤯3🤔1 1
Media is too big
VIEW IN TELEGRAM
Обновление NeuralDeep Hub
https://hub.neuraldeep.ru/
1) Увеличили с Пашей количество серверов под qwen3.6-35b-a3b
2) Светлая тема
3) Форма обратной связи с уведомлением админу, как на видео
4) Возможность оплатить тариф через ЮКассу (но есть особенность: для STARTER доступно 20 мест, для PRO — 10 мест; первые 30 PRO получают также полный доступ)
И самое интересное: про подписку экспериментально доступно https://coder.neuraldeep.ru/
Это концепт, который работает в связке с таким стеком:
Barmetal server это физический сервер (Yandex) + MicroVM + OpenCode Web + qwen3.6-35b-a3b. Доступен только платным подпискам PRO. Ресурсов не так много, я все оплачиваю со своих средств ради эксперимента
Самое интересное — это повторить механики подписок от Anthropic и OpenAI
Спасибо, что тестируете
Вы уже сгенерировали 2 000 000 токенов
https://hub.neuraldeep.ru/
1) Увеличили с Пашей количество серверов под qwen3.6-35b-a3b
2) Светлая тема
3) Форма обратной связи с уведомлением админу, как на видео
4) Возможность оплатить тариф через ЮКассу (но есть особенность: для STARTER доступно 20 мест, для PRO — 10 мест; первые 30 PRO получают также полный доступ)
И самое интересное: про подписку экспериментально доступно https://coder.neuraldeep.ru/
Это концепт, который работает в связке с таким стеком:
Barmetal server это физический сервер (Yandex) + MicroVM + OpenCode Web + qwen3.6-35b-a3b. Доступен только платным подпискам PRO. Ресурсов не так много, я все оплачиваю со своих средств ради эксперимента
Самое интересное — это повторить механики подписок от Anthropic и OpenAI
Спасибо, что тестируете
Вы уже сгенерировали 2 000 000 токенов
1🔥46
Валера Ковальский
Обновление NeuralDeep Hub https://hub.neuraldeep.ru/ 1) Увеличили с Пашей количество серверов под qwen3.6-35b-a3b 2) Светлая тема 3) Форма обратной связи с уведомлением админу, как на видео 4) Возможность оплатить тариф через ЮКассу (но есть особенность:…
UPDATE:
Kimi k2.6 теперь доступна всем PRO кто приобрел подписку через юкассу
https://hub.neuraldeep.ru/
Kimi k2.6 теперь доступна всем PRO кто приобрел подписку через юкассу
https://hub.neuraldeep.ru/
51🔥33❤6⚡5
Валера Ковальский
Обновление NeuralDeep Hub https://hub.neuraldeep.ru/ 1) Увеличили с Пашей количество серверов под qwen3.6-35b-a3b 2) Светлая тема 3) Форма обратной связи с уведомлением админу, как на видео 4) Возможность оплатить тариф через ЮКассу (но есть особенность:…
UPDATE: Новый продукт в рамках хаба
LLM Research system
https://search.neuraldeep.ru/
Собрал в него все лучшие свои подходы workflow поиска в интернете: чистый LLM Call пайплайн
Всем пользователям доступен Perplexity-подобный поиск на базе GPT OSS 120b (возможны задержки с ответами). Основной поисковый индекс: Yandex + Видео (Rutube + VK)
Решение будет развиваться и доступно в рамках базовой авторизации в хабе
https://hub.neuraldeep.ru/
https://search.neuraldeep.ru/
https://coder.neuraldeep.ru/ (PRO)
https://webui.neuraldeep.ru/ (OpenWebUI)
https://drift.neuraldeep.ru/ (Персональный агент)
https://speechcoreai.com(персональная система для транскрибирования)
Видео поиска в комментариях
LLM Research system
https://search.neuraldeep.ru/
Собрал в него все лучшие свои подходы workflow поиска в интернете: чистый LLM Call пайплайн
Всем пользователям доступен Perplexity-подобный поиск на базе GPT OSS 120b (возможны задержки с ответами). Основной поисковый индекс: Yandex + Видео (Rutube + VK)
Решение будет развиваться и доступно в рамках базовой авторизации в хабе
https://hub.neuraldeep.ru/
https://search.neuraldeep.ru/
https://coder.neuraldeep.ru/ (PRO)
https://webui.neuraldeep.ru/ (OpenWebUI)
https://drift.neuraldeep.ru/ (Персональный агент)
https://speechcoreai.com(персональная система для транскрибирования)
Видео поиска в комментариях
3❤41🔥26👍12
Forwarded from LLM под капотом
OpenAI осознали бесперспективность файн-тюнинга моделей
7 Мая OpenAI оповестили разработчиков, что лавочка закрывается. Новые компании уже больше не могут запускать задачи тюнинга. В течение полугода закроют возможность даже для тех, кто уже тюнил. А возможность использования своих тюненых моделей сохранится только до момента выключения базовой модели. Потом - все.
См deprecations page.
В OpenAI говорят, что надо переключаться на RAG-и, нормальные инженерные подходы, оркестрацию и контроль качества. Это и выгоднее для всех, и позволяет быстрее выкатить рабочие решения без наступания на грабли.
Это все логично. Среди кейсов успешных внедрений AI в бизнес задачи я видел только один случай, когда традиционную LLM затюнили и получили желаемый результат, который стоил того (тюны ASR/Wake/Emb/TTS/CV стэка сюда не включаем, да и они тоже уже отмирают). Эти кейсы вместе с паттернами я разбираю в курсе AI Assitants вместе с бесперспективностью тюнинга и векторных подходов.
Тюнинг (и векторные RAGи) умирают не потому, что они не работают (вполне себе работают), а просто потому, это слишком долгий, дорогой и рискованный подход к повышению качества ответов (как для пользователей, так и для вендоров). Есть пути попроще - context engineering, современные frontier модели (включая локальные), контроль качества, tool use.
Если вы до сих пор используете тюнингованные модели в облаке, можно ожидать, что и другие компании последуют примеру OpenAI и свернут лавочку тюнинга, даже если это LORA. А потом это дойдет и до экосистемы локального inference.
И когда это произойдет, можно будет еще раз перечитать мой прогноз в конце 2024 года про тупиковость fine-tuning, ну или крик души про fine-tuning в бизнесе от 2023 года)
Ваш, @llm_under_hood 🤗
7 Мая OpenAI оповестили разработчиков, что лавочка закрывается. Новые компании уже больше не могут запускать задачи тюнинга. В течение полугода закроют возможность даже для тех, кто уже тюнил. А возможность использования своих тюненых моделей сохранится только до момента выключения базовой модели. Потом - все.
См deprecations page.
В OpenAI говорят, что надо переключаться на RAG-и, нормальные инженерные подходы, оркестрацию и контроль качества. Это и выгоднее для всех, и позволяет быстрее выкатить рабочие решения без наступания на грабли.
Это все логично. Среди кейсов успешных внедрений AI в бизнес задачи я видел только один случай, когда традиционную LLM затюнили и получили желаемый результат, который стоил того (тюны ASR/Wake/Emb/TTS/CV стэка сюда не включаем, да и они тоже уже отмирают). Эти кейсы вместе с паттернами я разбираю в курсе AI Assitants вместе с бесперспективностью тюнинга и векторных подходов.
Тюнинг (и векторные RAGи) умирают не потому, что они не работают (вполне себе работают), а просто потому, это слишком долгий, дорогой и рискованный подход к повышению качества ответов (как для пользователей, так и для вендоров). Есть пути попроще - context engineering, современные frontier модели (включая локальные), контроль качества, tool use.
Если вы до сих пор используете тюнингованные модели в облаке, можно ожидать, что и другие компании последуют примеру OpenAI и свернут лавочку тюнинга, даже если это LORA. А потом это дойдет и до экосистемы локального inference.
И когда это произойдет, можно будет еще раз перечитать мой прогноз в конце 2024 года про тупиковость fine-tuning, ну или крик души про fine-tuning в бизнесе от 2023 года)
Ваш, @llm_under_hood 🤗
4🔥29👍14❤5🤮4🤝2🤬1💯1