Дядя делает очень крутые обзоры
Добей ему 10к что бы он стал сми!
230 подписок осталось
https://t.iss.one/dealerAI
Добей ему 10к что бы он стал сми!
230 подписок осталось
https://t.iss.one/dealerAI
Telegram
Dealer.AI
Жоский ИИ дядя.
Твой личный поставщик AI 💊💉🤖
Канал о мире интересного AI: ML, DL, NLP/NLU, RL, Retrieval, RecSys.
Для связи @dealer_ai
(реклама и консультации)
Руковожу ML, AI командами.
Habr: @Andriljo
Kaggle: https://www.kaggle.com/andrilko
Твой личный поставщик AI 💊💉🤖
Канал о мире интересного AI: ML, DL, NLP/NLU, RL, Retrieval, RecSys.
Для связи @dealer_ai
(реклама и консультации)
Руковожу ML, AI командами.
Habr: @Andriljo
Kaggle: https://www.kaggle.com/andrilko
😁15👍3
Forwarded from Dealer.AI
Новый быстрый REFRAG — не очень сильно-то и хотелось.
Все как с ума посходили в соседних чатах и каналах. Смотри, новый супер быстрый RAG.🤩
Идея там у авторов еще благая, мол чанки семантически могут быть не связаны, поиск размывает информацию, квадратичная сложность внимания и т.п. Святые люди да?🧖 Поэтому, конечно, давайте все нафиг усложним. 😌
Итого, идея:
1. Берем крч, нарезаем текст подсказок, к примеру, на малые чанки по 16 токенов.
2. Эмбедим их любым понравившимся вам энкодером. Можно small/tiny/base и т.п.Опа, плюсуем модельку в пайп. 🗒
3. Прогоняем через модель награды. Ага, еще её бы обучить, разметку под неё где-то потратиться собрать.Ну и опа еще одна моделька в пайп. 🗒
4. Хорошие по награде тексты остаются без пожатия и как есть идут в LM, а остальные передаются в виде векторов из п. 2.
5. Делаем супир пупир генерацию. Делай легче, делай играюче, кайфуй.
Суммируем: мы имеем теперь 2 модели помимо LM. Одну из них над еще обучить, разметку собрать. Далее нам еще надо помимо in-context подсказок, создать спец. токены под эмбы подсказок, неважных для политики награды. А еще нужно LM научить с таким сетапом работать, поверьте иначе нормально не заведётся. Это как p-tune. Или как fromage для image-embs.
И что легче вам стало?)
За скорость вы заплатили +1 моделью, +1 разметкой и +2 тюнами. И так всегда. За скорость вы платите памятью, и прочими трудностями.
Статья тут.
Все как с ума посходили в соседних чатах и каналах. Смотри, новый супер быстрый RAG.
Идея там у авторов еще благая, мол чанки семантически могут быть не связаны, поиск размывает информацию, квадратичная сложность внимания и т.п. Святые люди да?
Итого, идея:
1. Берем крч, нарезаем текст подсказок, к примеру, на малые чанки по 16 токенов.
2. Эмбедим их любым понравившимся вам энкодером. Можно small/tiny/base и т.п.
3. Прогоняем через модель награды. Ага, еще её бы обучить, разметку под неё где-то потратиться собрать.
4. Хорошие по награде тексты остаются без пожатия и как есть идут в LM, а остальные передаются в виде векторов из п. 2.
5. Делаем супир пупир генерацию. Делай легче, делай играюче, кайфуй.
Суммируем: мы имеем теперь 2 модели помимо LM. Одну из них над еще обучить, разметку собрать. Далее нам еще надо помимо in-context подсказок, создать спец. токены под эмбы подсказок, неважных для политики награды. А еще нужно LM научить с таким сетапом работать, поверьте иначе нормально не заведётся. Это как p-tune. Или как fromage для image-embs.
И что легче вам стало?)
За скорость вы заплатили +1 моделью, +1 разметкой и +2 тюнами. И так всегда. За скорость вы платите памятью, и прочими трудностями.
Статья тут.
Please open Telegram to view this post
VIEW IN TELEGRAM
💯17🔥6😁5❤2
Cursor System Prompt
Наверное вы уже видели разные репо с системным промптом cursor
Из команды разработки SGR попросили посмотреть логи через свое прокси LiteLLM дабы подтвердить сей факт
И как всегда первая проблема все логи в моей версии прокси делают вот так ... (truncated 7765 chars)"
Пошел мучать клод на тему "поищи в интернете" "как убрать в UI/BD truncated logs"
Весь поиск и попытки применить рекомендации от клода привели меня на этот issues
Где ребята прекрасно обошли эту настройку патчем
Далее имеем репо
https://github.com/vakovalskii/cursor_agent_flow
Я запустил очень простой флоу в 3 запроса
1) Понять где мы
2) Проанализировать директорию
3) Сделать поиск по кодовой базе
Cursor использует многослойный системный промпт с отдельными секциями для каждого аспекта поведения:
<tool_calling> - строгие правила работы с инструментами
<maximize_context_understanding> - обязательная тщательность исследования
<making_code_changes> - гарантия работоспособности кода
<task_management> - активное планирование через todo_write
<memories> - персистентная память между сессиями
Все это для меня подтверждает правдивость этого вот репо
Что бы знать матчасть в нее надо уметь!
Репо с моими логами: https://github.com/vakovalskii/cursor_agent_flow
Наверное вы уже видели разные репо с системным промптом cursor
Из команды разработки SGR попросили посмотреть логи через свое прокси LiteLLM дабы подтвердить сей факт
И как всегда первая проблема все логи в моей версии прокси делают вот так ... (truncated 7765 chars)"
Пошел мучать клод на тему "поищи в интернете" "как убрать в UI/BD truncated logs"
Весь поиск и попытки применить рекомендации от клода привели меня на этот issues
Где ребята прекрасно обошли эту настройку патчем
FROM ghcr.io/berriai/litellm-database:main-latest
RUN sed -i.bak 's/MAX_STRING_LENGTH = 1000$/MAX_STRING_LENGTH = 100000/' \
/app/litellm/proxy/spend_tracking/spend_tracking_utils.py && \
cmp -s /app/litellm/proxy/spend_tracking/spend_tracking_utils.py{.bak,} && exit 1 || true
RUN cd /app && pip install .
Далее имеем репо
https://github.com/vakovalskii/cursor_agent_flow
Я запустил очень простой флоу в 3 запроса
1) Понять где мы
2) Проанализировать директорию
3) Сделать поиск по кодовой базе
Cursor использует многослойный системный промпт с отдельными секциями для каждого аспекта поведения:
<tool_calling> - строгие правила работы с инструментами
<maximize_context_understanding> - обязательная тщательность исследования
<making_code_changes> - гарантия работоспособности кода
<task_management> - активное планирование через todo_write
<memories> - персистентная память между сессиями
Все это для меня подтверждает правдивость этого вот репо
Что бы знать матчасть в нее надо уметь!
Репо с моими логами: https://github.com/vakovalskii/cursor_agent_flow
1🔥18❤9
SearXNG Tavily Adapter: когда жаба душит платить за поиск 🐸
Надоело тратить деньги на Tavily при тестировании агентов?
Мне тоже! За вечер сделал решение
Проблема: Tavily API съедает бюджет при разработке research агентов
Уже на тестах улетело больше $100 а это мы еще к бенчмаркам не перешли
Решение: SearXNG (open-source метапоисковик) + мой адаптер = drop-in замена Tavily достаточно поднять и сменить
Точно тот же API, но:
$0 вместо $$$$$$$$$$
Полная приватность
Без лимитов запросов
Web scraping для research агентов (только вот raw_content на bs4)
70+ поисковых движков под капотом (bing сразу в бан!)
погоду он находит при запросах "прогноз цены биткоина 2026"
Быстрый старт:
Эффект жабы удовлетворен теперь могу тестировать
research агентов сутками за $5/месяц сервера вместо API лимитов!
GitHub: https://github.com/vakovalskii/searxng-docker-tavily-adapter
P.S. SearXNG существует годами, но мало кто знает что из него можно сделать замену коммерческих API!
Не забываем ставить звезды в репо!
Надоело тратить деньги на Tavily при тестировании агентов?
Мне тоже! За вечер сделал решение
Проблема: Tavily API съедает бюджет при разработке research агентов
Уже на тестах улетело больше $100 а это мы еще к бенчмаркам не перешли
Решение: SearXNG (open-source метапоисковик) + мой адаптер = drop-in замена Tavily достаточно поднять и сменить
base_url
уже звучу как маркетолог (нет)# Было (платно):
client = TavilyClient("tvly-дорогой-ключ")
# Стало (бесплатно):
client = TavilyClient(api_base_url="https://localhost:8000")
Точно тот же API, но:
$0 вместо $$$$$$$$$$
Полная приватность
Без лимитов запросов
Web scraping для research агентов (только вот raw_content на bs4)
70+ поисковых движков под капотом (bing сразу в бан!)
погоду он находит при запросах "прогноз цены биткоина 2026"
Быстрый старт:
git clone https://github.com/vakovalskii/searxng-docker-tavily-adapter
docker compose up -d
# Готово! API работает на localhost:8000
Эффект жабы удовлетворен теперь могу тестировать
research агентов сутками за $5/месяц сервера вместо API лимитов!
GitHub: https://github.com/vakovalskii/searxng-docker-tavily-adapter
P.S. SearXNG существует годами, но мало кто знает что из него можно сделать замену коммерческих API!
Не забываем ставить звезды в репо!
GitHub
GitHub - vakovalskii/searxng-docker-tavily-adapter: searxng-docker-tavily-adapter
searxng-docker-tavily-adapter. Contribute to vakovalskii/searxng-docker-tavily-adapter development by creating an account on GitHub.
127🔥87👍18❤15 12
SGR Deep Research v0.2.0
Один из самых крутых подарков на мой др сегодня, еще вчера был др у моей Жены, так совпало что у нас разница в один день мы две дико разные Девы =)
Она, кстати, главный спонсор запятых в моих постах
Спасибо всей команде sgr что принимает участие в разработке core ядра для последующего тестирования.
Архитектура и основная реализация в коде - Артём
Ревью, код и идеи с организацией проекта - Павел
Ревью, инфраструктура и идеи с организацией проекта - Михаил
- Определили базовые сущности агента, его тулов
Выделили три основных этапа: reasoning, select_action, action
- Собрали 5 агентов, разных по принципу работы, добавили их в api
- Структурировали логирование работы агента
- Внедрили и затестили вебсёрч на базе бесплатного движка
- Пересмотрели организацию библиотеки, провели множество улучшений в коде
Как сказал наш NLP Lead
«SGR это как ReAct агент с вайбом декларативного агента»
Нас ждут тесты тем временем sgr-deep-research набрал 400+ звезд я уже получаю фидбек что данный подход начинают применять в крупных РФ компаниях
Напомню что наше дело лишь демонстрация еще одного инженерного подхода, на прорыв и истину мы не претендуем
Если вы хотите поблагодарить команду SGR, ускорить разворачивание постоянного доступа к агентам я решил сделать ссылочку для донатов на сервер с 5090 который расположу в своей северной
Репо: https://github.com/vakovalskii/sgr-deep-research
Один из самых крутых подарков на мой др сегодня, еще вчера был др у моей Жены, так совпало что у нас разница в один день мы две дико разные Девы =)
Она, кстати, главный спонсор запятых в моих постах
Спасибо всей команде sgr что принимает участие в разработке core ядра для последующего тестирования.
Архитектура и основная реализация в коде - Артём
Ревью, код и идеи с организацией проекта - Павел
Ревью, инфраструктура и идеи с организацией проекта - Михаил
- Определили базовые сущности агента, его тулов
Выделили три основных этапа: reasoning, select_action, action
- Собрали 5 агентов, разных по принципу работы, добавили их в api
- Структурировали логирование работы агента
- Внедрили и затестили вебсёрч на базе бесплатного движка
- Пересмотрели организацию библиотеки, провели множество улучшений в коде
Как сказал наш NLP Lead
«SGR это как ReAct агент с вайбом декларативного агента»
Нас ждут тесты тем временем sgr-deep-research набрал 400+ звезд я уже получаю фидбек что данный подход начинают применять в крупных РФ компаниях
Напомню что наше дело лишь демонстрация еще одного инженерного подхода, на прорыв и истину мы не претендуем
Если вы хотите поблагодарить команду SGR, ускорить разворачивание постоянного доступа к агентам я решил сделать ссылочку для донатов на сервер с 5090 который расположу в своей северной
Репо: https://github.com/vakovalskii/sgr-deep-research
732🔥61👍6👏5❤1
Forwarded from LLM под капотом
Давайте соберем карту внедрений SGR и список частых вопросов по ним
В коммьюнити идут обсуждения про Schema-Guided Reasoning, в основном в контексте Open Source проекта SGR Deep Research. Этот проект для некоторых команд стал первым наглядным примером того, как подойти к задаче построения умного агента на базе относительно небольших моделей (в том числе и локальных). Чаще всего слышим про попытки адаптировать методы в банковской сфере и промышленности. Может быть нас еще больше?
Давайте вообще систематизируем весь этот процесс и сделаем его эффективнее для коммьюнити!
Вот анонимный опросник, чтобы построить более полную карту внедрений по отраслям и собрать вопросы. Опросник: Строим вместе карту внедрений SGR
Результаты опроса и ответы на самые частые вопросы будут в каналах:
- LLM под капотом
- Neural Kovalski
Ваш, @llm_under_hood 🤗
В коммьюнити идут обсуждения про Schema-Guided Reasoning, в основном в контексте Open Source проекта SGR Deep Research. Этот проект для некоторых команд стал первым наглядным примером того, как подойти к задаче построения умного агента на базе относительно небольших моделей (в том числе и локальных). Чаще всего слышим про попытки адаптировать методы в банковской сфере и промышленности. Может быть нас еще больше?
Давайте вообще систематизируем весь этот процесс и сделаем его эффективнее для коммьюнити!
Вот анонимный опросник, чтобы построить более полную карту внедрений по отраслям и собрать вопросы. Опросник: Строим вместе карту внедрений SGR
Результаты опроса и ответы на самые частые вопросы будут в каналах:
- LLM под капотом
- Neural Kovalski
Ваш, @llm_under_hood 🤗
❤15👍9🔥6
Forwarded from LLM под капотом
В каких компаниях вопросы про SGR стоят острее всего?
Это предварительные данные опроса ранее.
Выборка пока не очень большая, но уже предварительно видно, что больше всего вопросов возникает у компаний размером 11-50 человек, которые работают в Business Services и хотят попробовать внедрить методы/агентов на базе SGR в продажи или маркетинг.
Medical, финтех и производство идут следующими.
Цвет на графиках тем интенсивнее, чем больше вопросов про SGR возникает, мы это будем использовать при приоритизации ответов.
Опрос еще идет, можете оставить свои вопросы вот тут (или переслать коллегам для заполнения): Русский / English.
Ваш, @llm_under_hood 🤗
Это предварительные данные опроса ранее.
Выборка пока не очень большая, но уже предварительно видно, что больше всего вопросов возникает у компаний размером 11-50 человек, которые работают в Business Services и хотят попробовать внедрить методы/агентов на базе SGR в продажи или маркетинг.
Medical, финтех и производство идут следующими.
Цвет на графиках тем интенсивнее, чем больше вопросов про SGR возникает, мы это будем использовать при приоритизации ответов.
Опрос еще идет, можете оставить свои вопросы вот тут (или переслать коллегам для заполнения): Русский / English.
Ваш, @llm_under_hood 🤗
❤8👍6🔥3
Forwarded from LLM Arena
Наше исследование (21 июля — 10 августа 2025, практики и предприниматели в сфере ИИ) показало реальную картину: команды всё меньше ориентируются на абстрактные бенчмарки и всё чаще принимают решения через собственные тесты.
— 82,2% проводят собственные проверки и используют бенчмарки только как дополнительный сигнал.
— 26,7% принципиально не опираются на рейтинги.
— Лишь около 18% обращаются к агрегаторам по типу llmstats
Главные критерии выбора AI-решений для продуктов: качество + цена + скорость, устойчивость без галлюцинаций и совместимость с инфраструктурой
P.S. Огромная благодарность всем, кто помогал собирать данные для исследования, а также авторам и энтузиастам, помогающим его популязировать. Замечания по исследованию и предложения по будущим рисёрч-проектам можно оставить здесь.
Please open Telegram to view this post
VIEW IN TELEGRAM
❤13👍7🔥2
SGR Deep Research бенчмарк?
В предыдущем посте я рассказал, как мы выкатили наконец стабильную версию sgr deep research системы, что бы начать прогонять разных SGR/non SGR агентов по бенчам и задачам
Времени конечно у команды open-source на это не очень много, но то, что я успеваю руками делать, то делается через "Курсор"😈
Что я себе навайбокдил
1) Логи, очень и очень подробные логи
2) Интерфейс, что бы эти логи не читать в терминале или в IDE
3) Разные виды промптов (для gpt-4o-mini/qwen)
Нашел топ SealQA бенчмарк как я считаю, для Deep Research.
Почему? Я дал вопросы от туда паре человек, так они искали ответ 30 минут (считаю что бенч, отличный)
Далее нашел топ агента ROMA, который выбивает SOTA под этот бенчмарк, и о ужас, что я увидел в промптах, примерно 15к токенов разных оверфитов и трюков для прохождения бенча, бям
Я же решил таким не заниматся и прогнал на 111 вопросов, и глазками просмотрел(больно) что имеем gpt-4o-mini выбила 0.25 точности (не густо?)
Зайдите в бенч сами, увидите, сколько модели выбивают на нем, а выбивают они 0
SealQA is a new challenge benchmark for evaluating SEarch- Augmented Language models on fact-seeking questions where web search yields conflicting, noisy, or unhelpful results
За сим я откланяюсь дальше творить добро и знания в мире LLM, где все покрыто тайной и мистификацией
Кстати поглядеть кусочек логов и трейса можно тут
Репо: https://github.com/vakovalskii/sgr-deep-research
В предыдущем посте я рассказал, как мы выкатили наконец стабильную версию sgr deep research системы, что бы начать прогонять разных SGR/non SGR агентов по бенчам и задачам
Времени конечно у команды open-source на это не очень много, но то, что я успеваю руками делать, то делается через "Курсор"
Что я себе навайбокдил
1) Логи, очень и очень подробные логи
2) Интерфейс, что бы эти логи не читать в терминале или в IDE
3) Разные виды промптов (для gpt-4o-mini/qwen)
Нашел топ SealQA бенчмарк как я считаю, для Deep Research.
Почему? Я дал вопросы от туда паре человек, так они искали ответ 30 минут (считаю что бенч, отличный)
Далее нашел топ агента ROMA, который выбивает SOTA под этот бенчмарк, и о ужас, что я увидел в промптах, примерно 15к токенов разных оверфитов и трюков для прохождения бенча, бям
Я же решил таким не заниматся и прогнал на 111 вопросов, и глазками просмотрел(больно) что имеем gpt-4o-mini выбила 0.25 точности (не густо?)
Зайдите в бенч сами, увидите, сколько модели выбивают на нем, а выбивают они 0
SealQA is a new challenge benchmark for evaluating SEarch- Augmented Language models on fact-seeking questions where web search yields conflicting, noisy, or unhelpful results
За сим я откланяюсь дальше творить добро и знания в мире LLM, где все покрыто тайной и мистификацией
Кстати поглядеть кусочек логов и трейса можно тут
Репо: https://github.com/vakovalskii/sgr-deep-research
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
5🔥27👍8❤7
Сегодня с утра был очень интересный звонок, отдельное спасибо Ринату что смог уделить время
Обсудили ERC2-ERC3
Затронули карьеру и историю как попал в LLM
Так же обсудили судьбу SGR, и что сообщество сделает свое дело!
А когда-то канал я начал вести читая @llm_under_hood, когда там было 4к подписчиков
Обсудили ERC2-ERC3
Затронули карьеру и историю как попал в LLM
Так же обсудили судьбу SGR, и что сообщество сделает свое дело!
А когда-то канал я начал вести читая @llm_under_hood, когда там было 4к подписчиков
1🔥62😁8👏6 3
Forwarded from Филиппов Дмитрий - Агент LLM
Вместе с коллегами по цеху взялись за интересный бенчмарк по deep research - SealQA.
Хотим протестировать разные подходы к реализации ReAct-агентов, но с одним важным условием: использовать только небольшие LLM, в идеале до 30B параметров. Сейчас для тестов взяли
🤔 Почему это важно?
Мы сравниваем два подхода:
1. SGR Deep Research от Neural Kovalski. Это архитектура React NextStep на основе гибридного подхода SO. Уже есть зрелая реализация GitHub
2. Мой подход: классический ReAct-агент с одним-единственным инструментом для поиска в интернете. Моя цель создать базовый уровень, чтобы было с чем сравнивать. Пока сырой вариант GitHub (не рекомендую использовать)
📈 Первые результаты (из 111 вопросов):
* SGR Deep Research: 28 правильных ответов.
* Мой ReAct + FC: 12 правильных ответов.
* Официальный бенчмарк для gpt-4o-mini: 0 правильных ответов.
Вывод: простой ReAct-агент даже на небольшой модели уже показывает результат, значительно превосходящий нулевой уровень.
Далее подробнее о результатах, проблемах и их решениях.⬇️
Хотим протестировать разные подходы к реализации ReAct-агентов, но с одним важным условием: использовать только небольшие LLM, в идеале до 30B параметров. Сейчас для тестов взяли
gpt-4o-mini
.🤔 Почему это важно?
Большие LLM, без сомнения, справляются лучше, но они всё ещё дороги. И хотя со временем все модели дешевеют, вопрос выбора оптимальной LLM под конкретную задачу никуда не денется. Такие исследования как раз и помогают понять реальные возможности небольших моделей.
Мы сравниваем два подхода:
1. SGR Deep Research от Neural Kovalski. Это архитектура React NextStep на основе гибридного подхода SO. Уже есть зрелая реализация GitHub
2. Мой подход: классический ReAct-агент с одним-единственным инструментом для поиска в интернете. Моя цель создать базовый уровень, чтобы было с чем сравнивать. Пока сырой вариант GitHub (не рекомендую использовать)
📈 Первые результаты (из 111 вопросов):
* SGR Deep Research: 28 правильных ответов.
* Мой ReAct + FC: 12 правильных ответов.
* Официальный бенчмарк для gpt-4o-mini: 0 правильных ответов.
Вывод: простой ReAct-агент даже на небольшой модели уже показывает результат, значительно превосходящий нулевой уровень.
Далее подробнее о результатах, проблемах и их решениях.
Please open Telegram to view this post
VIEW IN TELEGRAM
10👍29🔥13❤1🤔1
Forwarded from EdTech, AI и HighLoad | Блог AK из Школково
NotEvilAI/gpt-oss-20b-ru-reasoner - full fine-tuning gpt-oss-20b для поддержки генерации ответов с русским ризонингом с двумя дополнительными режимами
reasoning_effort
- auto и none. Спрашиваем на английском - думает на английском, как оригинальная модель. Спрашиваем на русском - думает по-русски. И не надо никаких
reasoning language: Russian
.Модель тренировалась в 2 стадии - SFT и DPO на основе нашего синтетического датасета русского ризонинга.
Мы выложили bf16 версию на 20b.
Ставьте 👍, если хотите аналогичную модель на 120b.
Please open Telegram to view this post
VIEW IN TELEGRAM
huggingface.co
NotEvilAI/gpt-oss-20b-ru-reasoner · Hugging Face
We’re on a journey to advance and democratize artificial intelligence through open source and open science.
👍66🔥30❤1
This media is not supported in your browser
VIEW IN TELEGRAM
Все утро играл в миниапп который сделал Леха, пилим лидерборд и выкатываем в маркетплейс?
А как вы боритесь за продуктивность?
А как вы боритесь за продуктивность?
😁60🤣36👍14🔥10
Forwarded from #безвотэтоговотвсего
Дружочки!
Уже послезавтра на площадке Леманы Тех пройдет 20я оффлайн встреча сообщества #безвотэтоговотвсего на тему “AI-компас для управленца: куда смотреть, чтобы не пропустить главное”.
Для опоздаваших мы на чуточек приоткрыли давно закрытую регистрацию, есть прям вот пара десятков мест - успевайте )
В панельной дискуссии попробуем разобраться с тем как:
- AI уже в бизнесе, но не везде — как понять, где его место в вашей стратегии
- От хайпа к пользе — как отличить модные игрушки от реальных инструментов
- Какие решения руководители должны принимать сами, а какие пора делегировать алгоритмам
- Главные ориентиры на ближайшие 12–18 месяцев, чтобы быть впереди, а не догонять
- и многое другое)
В честь такого дела с нами шуршать будут уважаемые эксперты:
⁃ Валерий Ковальский — Head of AI red_mad_robot
⁃ Алексей Миловидов — CTO Ecom.tech
⁃ Александр Айваз — CDO, Лемана Тех
⁃ Тимур Вайсман — Директор центра интеллектуализация МТС
Встречаемся на прекрасной площадке Леманы Тех в их офисе (проспект Лихачева 15), 25го сентября в 18:30. Регистрируемся по ссылке 👀
Приходите, будет огненно!)
Уже послезавтра на площадке Леманы Тех пройдет 20я оффлайн встреча сообщества #безвотэтоговотвсего на тему “AI-компас для управленца: куда смотреть, чтобы не пропустить главное”.
Для опоздаваших мы на чуточек приоткрыли давно закрытую регистрацию, есть прям вот пара десятков мест - успевайте )
В панельной дискуссии попробуем разобраться с тем как:
- AI уже в бизнесе, но не везде — как понять, где его место в вашей стратегии
- От хайпа к пользе — как отличить модные игрушки от реальных инструментов
- Какие решения руководители должны принимать сами, а какие пора делегировать алгоритмам
- Главные ориентиры на ближайшие 12–18 месяцев, чтобы быть впереди, а не догонять
- и многое другое)
В честь такого дела с нами шуршать будут уважаемые эксперты:
⁃ Валерий Ковальский — Head of AI red_mad_robot
⁃ Алексей Миловидов — CTO Ecom.tech
⁃ Александр Айваз — CDO, Лемана Тех
⁃ Тимур Вайсман — Директор центра интеллектуализация МТС
Встречаемся на прекрасной площадке Леманы Тех в их офисе (проспект Лихачева 15), 25го сентября в 18:30. Регистрируемся по ссылке 👀
Приходите, будет огненно!)
🔥8❤1👏1
Экономная экономика on-premise LLM
Итак, когда я начинал работать с локальным инференсом и закрытым контуром, я как и вы искал API, которые мне покажут, как оно работает и что могут такие модели
Но я очень быстро понял, что я не могу проверить что же происходит на бэкенде у API провайдера и есть только карточка модели, в которой информация не всегда совпадает с реальностью
Такой подход для оценки потребности в клиентских решениях мне не подходил
Что я для себя понял за 2 года закупая разного рода оборудование
Да, есть Китай MTT, но очень не стабильна поддержка определённых версий фреймворков
Да, есть NVIDIA A100/H100, дорого богато
Есть игровой сегмент, надежно ли?
Учитывая мой опыт работы с железом на предыдущих местах работы, я принял решение попробовать закупить модификацию 4090(48), для предоставления новых топовых моделей от open-source, в целях повышения продуктивности сотрудников и прикладных тестов
Что я получил за 2.5 млн рублей?
qwen3-32b
qwen2.5-32b-VL-Instruct
qwen2.5-32b-coder
Важно отметить, что платформы(сами сервера) уже были приобретены ранее и сейчас идет замена RTX A4000 на 4090(48)
Данный набор моделей позволил обеспечить часть сотрудников и RND отдел постоянно доступными мощностями для экспериментов и базовых запросов
Сейчас прошел год с момента покупки первой такой карты и за это время в ней были заменены термаха и убрана пыль
Брать ли мой опыт на вооружение решать вам, я лишь транслирую наблюдения и примерную стоимость такого решения
Про скорость генерации на такой карточке можно найти по каналу
Итак, когда я начинал работать с локальным инференсом и закрытым контуром, я как и вы искал API, которые мне покажут, как оно работает и что могут такие модели
Но я очень быстро понял, что я не могу проверить что же происходит на бэкенде у API провайдера и есть только карточка модели, в которой информация не всегда совпадает с реальностью
Такой подход для оценки потребности в клиентских решениях мне не подходил
Что я для себя понял за 2 года закупая разного рода оборудование
Да, есть Китай MTT, но очень не стабильна поддержка определённых версий фреймворков
Да, есть NVIDIA A100/H100, дорого богато
Есть игровой сегмент, надежно ли?
Учитывая мой опыт работы с железом на предыдущих местах работы, я принял решение попробовать закупить модификацию 4090(48), для предоставления новых топовых моделей от open-source, в целях повышения продуктивности сотрудников и прикладных тестов
Что я получил за 2.5 млн рублей?
qwen3-32b
qwen2.5-32b-VL-Instruct
qwen2.5-32b-coder
Важно отметить, что платформы(сами сервера) уже были приобретены ранее и сейчас идет замена RTX A4000 на 4090(48)
Данный набор моделей позволил обеспечить часть сотрудников и RND отдел постоянно доступными мощностями для экспериментов и базовых запросов
Сейчас прошел год с момента покупки первой такой карты и за это время в ней были заменены термаха и убрана пыль
Брать ли мой опыт на вооружение решать вам, я лишь транслирую наблюдения и примерную стоимость такого решения
Про скорость генерации на такой карточке можно найти по каналу
4090(48)
2👍27🔥8👏4💯3