Forwarded from Архитектура Стартапа - Anton Skogorev Engineering & AI (Anton Skogorev)
Давно хотел поделиться тем, что происходит под капотом LLM Platform, которую мы строим внутри ТБанка.
Пост на грани NDA.
В какой-то момент мы осознали, что без цельного платформенного слоя любые инициативы с GenAI будут буксовать. На схеме — как раз тот каркас, который у нас сложился и который мы продолжаем развивать.
И если ещё год назад мы спорили об отдельных «кубиках», то сегодня то, что мы строим, — де-факто канонический GenAI-стек. (вот тут ещё интересная статья)
Из чего он состоит на высоком уровне:
— LLM API Gateway — единая точка доступа до внутренних (qwen?) и внешних (deepseek?) моделей,
— RAG Platform — конвейер для превращения любых данных в пайплайн Retrieval-Augmented Generation,
— Observability Platform — прозрачность всех LLM-процессов в реальном времени,
— Orchestration & automation — набор инструментов построения произвольных GenAI-пайплайнов с минимум кода,
— LLM Sec — модули безопасности, политик и аудирования,
— Assistant Runtime Platform — среда выполнения произвольных AI-ассистентов.
И если LLM Gateway — это нифига себе высоконагруженный модуль, на базе которого построены как внутренние, так и внешние продукты, то вот как конкретно построить единый Tools Registry, мы всё ещё размышляем и экспериментируем.
Пост на грани NDA.
В какой-то момент мы осознали, что без цельного платформенного слоя любые инициативы с GenAI будут буксовать. На схеме — как раз тот каркас, который у нас сложился и который мы продолжаем развивать.
И если ещё год назад мы спорили об отдельных «кубиках», то сегодня то, что мы строим, — де-факто канонический GenAI-стек. (вот тут ещё интересная статья)
Из чего он состоит на высоком уровне:
— LLM API Gateway — единая точка доступа до внутренних (qwen?) и внешних (deepseek?) моделей,
— RAG Platform — конвейер для превращения любых данных в пайплайн Retrieval-Augmented Generation,
— Observability Platform — прозрачность всех LLM-процессов в реальном времени,
— Orchestration & automation — набор инструментов построения произвольных GenAI-пайплайнов с минимум кода,
— LLM Sec — модули безопасности, политик и аудирования,
— Assistant Runtime Platform — среда выполнения произвольных AI-ассистентов.
И если LLM Gateway — это нифига себе высоконагруженный модуль, на базе которого построены как внутренние, так и внешние продукты, то вот как конкретно построить единый Tools Registry, мы всё ещё размышляем и экспериментируем.
Forwarded from Nikita
Привет! Я накидал библиотеку архитектурных компонентов для Excalidraw, которых мне всегда не хватало. Делюсь, и буду рад обратной связи
https://github.com/DeKinci/sysdeslib
https://github.com/DeKinci/sysdeslib
Forwarded from Rafa (:
Я бы провёл Алекса Ху, что-нибудь из кабанчика, и обязательно https://sre.google/classroom/
sre.google
Google SRE - Sre wokshop | Learn about NALSD and sre
SRE Classroom offers workshops by Google SRE, covering NALSD and sre. Learn non-abstract large systems design and gain hands-on experience in system evaluation.
Forwarded from DeepSchool
VLM для детекции объектов на изображении
У традиционных детекторов есть серьёзное ограничение: набор классов определён обучающей выборкой (Closed-set Object Detection). В попытках обойти его, создали новый класс детекторов, Open Vocabulary Object Detection (OVOD), для детекции произвольных объектов. В новой статье мы привели обзор таких OVOD-моделей, основанных на Vision Language Model (VLM).
Из статьи вы узнаете:
- какие есть подходы для применения VLM к задаче Object Detection
- какие результаты сравнения моделей на бенчмарках для Closed-Set и Open Vocabulary детекций
- почему идеи CLIP всё ещё актуальны
Читайте новую статью по ссылке!
У традиционных детекторов есть серьёзное ограничение: набор классов определён обучающей выборкой (Closed-set Object Detection). В попытках обойти его, создали новый класс детекторов, Open Vocabulary Object Detection (OVOD), для детекции произвольных объектов. В новой статье мы привели обзор таких OVOD-моделей, основанных на Vision Language Model (VLM).
Из статьи вы узнаете:
- какие есть подходы для применения VLM к задаче Object Detection
- какие результаты сравнения моделей на бенчмарках для Closed-Set и Open Vocabulary детекций
- почему идеи CLIP всё ещё актуальны
Читайте новую статью по ссылке!
Forwarded from Aspiring Data Science (Anatoly Alekseev)
YouTube
RLVS 2021 - Day 6 - RL in practice: tips & tricks and practical session with stable-baselines3
Speaker: Antonin Raffin
Chairman: David Bertoin
Abstract. The aim of the session is to help you do reinforcement learning experiments. The first part covers general advice about RL, tips, and tricks, and details three examples where RL was applied on real…
Chairman: David Bertoin
Abstract. The aim of the session is to help you do reinforcement learning experiments. The first part covers general advice about RL, tips, and tricks, and details three examples where RL was applied on real…
Forwarded from Продакт аналитикс
Приветствую, дорогие друзья! 👋
Давно у нас с вами не было рубрики полезностей для вопрошающих, #какворватьсяваналитику .
Их, как и всегда, есть у меня!
В связи с чем, рада поделиться своими недавними изысканиями:
- весьма любопытный ресурс с весьма понятным и незатейливым интерфейсом (а то иногда без бутылки не разберешься )
Что понравилось?
Да все.
Тут и Python,
и прикладные задачи анализа данных, и даже машинное обучение от небезызвестного Евгения Соколова.
Словом, категорически агитирую вас к ознакомлению!
Еще из интересного - наткнулась на вот такой подробный разбор решения задачки про нахождение паттернов трафика на одном из самых высоконагруженных шоссе в США. Туториал очень годный, так что рекомендую к просмотру.
На сим откланиваюсь и прошу вас стряхнуть пыль со своих резюме. Новый сезон #прожарки резюме стартует уже совсем скоро!
Давно у нас с вами не было рубрики полезностей для вопрошающих, #какворватьсяваналитику .
Их, как и всегда, есть у меня!
В связи с чем, рада поделиться своими недавними изысканиями:
- весьма любопытный ресурс с весьма понятным и незатейливым интерфейсом (
Что понравилось?
Тут и Python,
и прикладные задачи анализа данных, и даже машинное обучение от небезызвестного Евгения Соколова.
Словом, категорически агитирую вас к ознакомлению!
Еще из интересного - наткнулась на вот такой подробный разбор решения задачки про нахождение паттернов трафика на одном из самых высоконагруженных шоссе в США. Туториал очень годный, так что рекомендую к просмотру.
На сим откланиваюсь и прошу вас стряхнуть пыль со своих резюме. Новый сезон #прожарки резюме стартует уже совсем скоро!
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Concise Research (Sergey Kastryulin)
Step1X-Edit: A Practical Framework for General Image Editing
[моделька + код, отдельно GEdit бенч]
Недавние обновления моделей GPT-4o и Gemini привнесли функциональность редактирования изображений на основе пользовательских инстрактов. В академической среде тоже выпускали подобные модели (AnyEdit, OmniEdit), но они по качеству отстают от проприетарных.
Авторы этой работы стремятся уменьшить разрыв между академией и индустрией, предлагая полный набор необходимых компонентов: модель, схему сбора данных, методику замера.
Данные
Проблема задачи редактирования в том что это не одна задача, а несколько. Из-за этого первым делом нужно провести категоризацию всех задач и только потом приступить к сбору данных.
Авторы выделили 11 категорий на основе парсинга интернета. У них получилось, что наиболее частые запросы: добавление, удаление, замена и перемещение объектов, а также всяческие стилизации.
Далее для каждой категории генерится синтетика на основе некоторых исходных картинок и инстрактов, которые получаются хитрым многостадийным промторгом VLM’ки. Для каждой категории пайплайн генерации свой и включает несколько моделей. Например, задачи удаления и добавления объекта сводятся к инпейнтингу, поэтому пайплайн состоит из сегментации SAM2 и инпейнта Flux-Fill.
К сожалению, сам датасет не выложили, только код его подготовки.
Модель
Подход авторов очень похож на вышедший на днях Qwen-Image (подробный разбор в КПД): замороженный Qwen-VL в качестве энкодера + трансформерный денойзер. Основная разница в архитектуре: тут DiT против MMDiT в Qwen-Image. Интересно, что в других работах, например Nexus-Gen (разбор) VLM размораживают и как эффективнее пока не ясно.
Замеры
Для замера собирают и фильтруют промты по всем 11 категориям, отбирают 606 лучших, балансируют категории на свое усмотрение, проводят анонимизацию лиц. Из спорного — большое количество промтов на модификацию текста + использование китайского нужно не всем 🌚
Результаты
Уверенно обходят AnyEdit и OmniEdit, приближаются к проприетарным моделям, причем не только на своем, но и на ImgEdit-Full + Complex-Edit бенчмарках. Мне не хватило сравнения с BAGEL, Nexus-Gen и другими вышедшими в последнее время мультимодалками. Скорее всего, авторы из не рассматривали просто потому что учили editing-only модель и считают такое сравнение не совсем честным.
[моделька + код, отдельно GEdit бенч]
Недавние обновления моделей GPT-4o и Gemini привнесли функциональность редактирования изображений на основе пользовательских инстрактов. В академической среде тоже выпускали подобные модели (AnyEdit, OmniEdit), но они по качеству отстают от проприетарных.
Авторы этой работы стремятся уменьшить разрыв между академией и индустрией, предлагая полный набор необходимых компонентов: модель, схему сбора данных, методику замера.
Данные
Проблема задачи редактирования в том что это не одна задача, а несколько. Из-за этого первым делом нужно провести категоризацию всех задач и только потом приступить к сбору данных.
Авторы выделили 11 категорий на основе парсинга интернета. У них получилось, что наиболее частые запросы: добавление, удаление, замена и перемещение объектов, а также всяческие стилизации.
Далее для каждой категории генерится синтетика на основе некоторых исходных картинок и инстрактов, которые получаются хитрым многостадийным промторгом VLM’ки. Для каждой категории пайплайн генерации свой и включает несколько моделей. Например, задачи удаления и добавления объекта сводятся к инпейнтингу, поэтому пайплайн состоит из сегментации SAM2 и инпейнта Flux-Fill.
К сожалению, сам датасет не выложили, только код его подготовки.
Модель
Подход авторов очень похож на вышедший на днях Qwen-Image (подробный разбор в КПД): замороженный Qwen-VL в качестве энкодера + трансформерный денойзер. Основная разница в архитектуре: тут DiT против MMDiT в Qwen-Image. Интересно, что в других работах, например Nexus-Gen (разбор) VLM размораживают и как эффективнее пока не ясно.
Замеры
Для замера собирают и фильтруют промты по всем 11 категориям, отбирают 606 лучших, балансируют категории на свое усмотрение, проводят анонимизацию лиц. Из спорного — большое количество промтов на модификацию текста + использование китайского нужно не всем 🌚
Результаты
Уверенно обходят AnyEdit и OmniEdit, приближаются к проприетарным моделям, причем не только на своем, но и на ImgEdit-Full + Complex-Edit бенчмарках. Мне не хватило сравнения с BAGEL, Nexus-Gen и другими вышедшими в последнее время мультимодалками. Скорее всего, авторы из не рассматривали просто потому что учили editing-only модель и считают такое сравнение не совсем честным.
Forwarded from Onigiri
Какими нейросетями я пользуюсь?
Начну с моделей от OpenAI:
gpt-4o - в основном для простых общих вопросов
gpt-4.5 - одна из лучших моделей в для написания красивого текста и переводов на другие языки. 14 июля ее закроют😒
Говорят, что gemeni 2.5 pro такая же в написании текстов, а может и лучше, но я ей пока не пользовался
gpt-4.1 - использую больше для несложных технических вопросов
o3 - для сложных вопросов. Например, для решения математических задач, для продумывания архитектуры кода, для улучшения и переписывания кода, где я сам не знаю, как это сделать
o4-mini-high - сначала не обращал внимания на эту модель, но в последнее время все чаще использую вместо o3. Работает быстрее, на некоторые вопросы отвечает лучше, но не всегда. Поэтому можно один вопрос отправлять сразу и в o3, и в o4-mini-high, так еще лучше
Картинки:
gpt-image-1 - заменила для меня почти все другие генераторы картинок. Вроде как это и есть gpt-4o, которая благодаря своей мультимодальности делает изображения, но часто ее называют отдельной моделью. Это та, которая генерирует картинки в chatgpt. Но через chatgpt она генерирует их часто по 1 штуке и в неверном соотношении сторон. Гораздо удобнее ей пользоваться через их же отдельный сайт sora.com
Раньше еще пользовался Midjourney и локальным Stable Diffusion, но с появлением gpt-image-1 использую почти только его. Хотя иногда еще пользуюсь:
Photoshop - по текущим меркам встроенная модель уже так себе, но зато ей можно быстро и удобно что-то поправить
Illustartor - да, в нем тоже есть генерация картинок, да еще и векторных, что иногда бывает нужно
Вайбкодинг:
Github copilot - большую часть кода пишет за меня. Начал пользоваться им еще с бета версии и остался на нем. Еще из популярных существуют Cursor и Windsurf, у них даже многие фичи появляются раньше, но в целом, сейчас они довольно похожи.
В самом копайлоте обычно использую claude-4 - это наверно самая оптимальная на данный момент модель для кода. Реже использую gpt-4.1 для простых задач
А какими вы пользуетесь?
Начну с моделей от OpenAI:
gpt-4o - в основном для простых общих вопросов
gpt-4.5 - одна из лучших моделей в для написания красивого текста и переводов на другие языки. 14 июля ее закроют
Говорят, что gemeni 2.5 pro такая же в написании текстов, а может и лучше, но я ей пока не пользовался
gpt-4.1 - использую больше для несложных технических вопросов
o3 - для сложных вопросов. Например, для решения математических задач, для продумывания архитектуры кода, для улучшения и переписывания кода, где я сам не знаю, как это сделать
o4-mini-high - сначала не обращал внимания на эту модель, но в последнее время все чаще использую вместо o3. Работает быстрее, на некоторые вопросы отвечает лучше, но не всегда. Поэтому можно один вопрос отправлять сразу и в o3, и в o4-mini-high, так еще лучше
Картинки:
gpt-image-1 - заменила для меня почти все другие генераторы картинок. Вроде как это и есть gpt-4o, которая благодаря своей мультимодальности делает изображения, но часто ее называют отдельной моделью. Это та, которая генерирует картинки в chatgpt. Но через chatgpt она генерирует их часто по 1 штуке и в неверном соотношении сторон. Гораздо удобнее ей пользоваться через их же отдельный сайт sora.com
Раньше еще пользовался Midjourney и локальным Stable Diffusion, но с появлением gpt-image-1 использую почти только его. Хотя иногда еще пользуюсь:
Photoshop - по текущим меркам встроенная модель уже так себе, но зато ей можно быстро и удобно что-то поправить
Illustartor - да, в нем тоже есть генерация картинок, да еще и векторных, что иногда бывает нужно
Вайбкодинг:
Github copilot - большую часть кода пишет за меня. Начал пользоваться им еще с бета версии и остался на нем. Еще из популярных существуют Cursor и Windsurf, у них даже многие фичи появляются раньше, но в целом, сейчас они довольно похожи.
В самом копайлоте обычно использую claude-4 - это наверно самая оптимальная на данный момент модель для кода. Реже использую gpt-4.1 для простых задач
А какими вы пользуетесь?
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Пресидский залив
Почему технологический moat больше не работает, и что такое Levered Beta 🌊
🤝 Недавно общались с бизнес-ангелом, и он спросил, какой у нас в Aesty moat. Я, конечно, начала рассказывать про технологию и наш движок, на что он ответил:
- Нет, погоди. В технологический moat я больше не верю. Что у вас есть еще?
Тогда я быстро переключилась и рассказала ему про другие аспекты: данные, партнерства и понятный путь к быстрому acquisition-циклу. Но все равно ощущение, что мой ответ получился слегка разобранным и я почувствовала, что чего-то не хватает👎
Недавно @bogdanisssimo скинул мне статью Levered beta is all you need, которая хорошо структурировала мои мысли. Делюсь с вами😎
Раньше стартапы охотились за так называемым Alpha. Но сейчас куда важнее Levered Beta😐
Откуда вообще эти термины - Alpha, Beta и Levered Beta?
📍 Alpha - это твое уникальное преимущество за счет инсайта, технологии, опыта или патентов. Alpha — это как раз тот самый moat, о котором мы привыкли говорить в стартапах. Это то, что пытается построить каждый основатель, когда пишет в деке слово revolutionizing🧠
📍 Beta - это просто корреляция с рынком. Если рынок вырос на 10%, твой портфель с beta=1 тоже вырос на 10%. Никакого уникального вклада, но ты все равно едешь на волне🤵
📍 Levered Beta - это beta на стероидах. Ты не просто следуешь за рынком, а делаешь агрессивную ставку, занимая категорию первым. Если рынок растет на 10%, твоя ставка на 50%, потому что ты раньше и "громче" всех оседлал волну. Правда, и падать ты будешь так же быстро, но это проблема для future you🤭
В стартапах вокруг AI это особенно видно. Бигтех каждые 6–9 месяцев выкатывает новую модель, которая автоматически улучшает твой продукт. GPT-4.1 за полгода стала на 26% дешевле и быстрее. Твой дорогой технологический moat легко обесценивается за один релиз openai (😎 всем кто смотрел недавнюю трансляцию привет)
🙂 как пример - стартапы в AI sales. Они часто пишут ужасные имейлы, churn огромный, UX слабый. И тем не менее, они подняли десятки миллионов долларов и сделали миллионы выручки просто потому, что заняли категорию раньше и "громче" остальных. Это и есть Levered Beta в действии, они выигрывают не потому, что лучше, а потому что первыми встали на волну 🏄
Используя Levered Beta:
1️⃣ Ты бесплатно получаешь прирост качества от больших платформ
OpenAI и Google постоянно обновляют модели, твой продукт улучшается сам собой
2️⃣ Большие игроки сами валидируют рынок
Если раньше никто не понимал, зачем нужен AI-гардероб, то теперь Google и Snapchat уже научили рынок, и тебе остается просто предложить более персонализированное решение. Как раз чуть выше есть пост про это
3️⃣ Твой бренд становится moat-ом вместо технологии
Когда технология выравнивается, выигрывает тот, кто раньше занял место в голове пользователя. Тут, кстати, сразу вспоминается Cursor
Получается теперь в стартапах главное не первым собрать продукт, а первым залить его на Product Hunt с заголовком 'We're disrupting disruption'😁
@neural_prosecco
- Нет, погоди. В технологический moat я больше не верю. Что у вас есть еще?
Тогда я быстро переключилась и рассказала ему про другие аспекты: данные, партнерства и понятный путь к быстрому acquisition-циклу. Но все равно ощущение, что мой ответ получился слегка разобранным и я почувствовала, что чего-то не хватает
Недавно @bogdanisssimo скинул мне статью Levered beta is all you need, которая хорошо структурировала мои мысли. Делюсь с вами
Раньше стартапы охотились за так называемым Alpha. Но сейчас куда важнее Levered Beta
Откуда вообще эти термины - Alpha, Beta и Levered Beta?
📍 Alpha - это твое уникальное преимущество за счет инсайта, технологии, опыта или патентов. Alpha — это как раз тот самый moat, о котором мы привыкли говорить в стартапах. Это то, что пытается построить каждый основатель, когда пишет в деке слово revolutionizing
📍 Beta - это просто корреляция с рынком. Если рынок вырос на 10%, твой портфель с beta=1 тоже вырос на 10%. Никакого уникального вклада, но ты все равно едешь на волне
📍 Levered Beta - это beta на стероидах. Ты не просто следуешь за рынком, а делаешь агрессивную ставку, занимая категорию первым. Если рынок растет на 10%, твоя ставка на 50%, потому что ты раньше и "громче" всех оседлал волну. Правда, и падать ты будешь так же быстро, но это проблема для future you
В стартапах вокруг AI это особенно видно. Бигтех каждые 6–9 месяцев выкатывает новую модель, которая автоматически улучшает твой продукт. GPT-4.1 за полгода стала на 26% дешевле и быстрее. Твой дорогой технологический moat легко обесценивается за один релиз openai (
Используя Levered Beta:
OpenAI и Google постоянно обновляют модели, твой продукт улучшается сам собой
Если раньше никто не понимал, зачем нужен AI-гардероб, то теперь Google и Snapchat уже научили рынок, и тебе остается просто предложить более персонализированное решение. Как раз чуть выше есть пост про это
Когда технология выравнивается, выигрывает тот, кто раньше занял место в голове пользователя. Тут, кстати, сразу вспоминается Cursor
Получается теперь в стартапах главное не первым собрать продукт, а первым залить его на Product Hunt с заголовком 'We're disrupting disruption'
@neural_prosecco
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Лига Хруща // League of Hrusch
Scaling LLM training to hundreds of GPUs: a playbook from HuggingFace research.
Available as a book for pro subscription users at https://huggingface.co/nanotron, or for free (less formatted, not polished visuals) https://huggingface.co/spaces/nanotron/ultrascale-playbook/resolve/main/The_Ultra-Scale_Playbook_Training_LLMs_on_GPU_Clusters.pdf
Available as a book for pro subscription users at https://huggingface.co/nanotron, or for free (less formatted, not polished visuals) https://huggingface.co/spaces/nanotron/ultrascale-playbook/resolve/main/The_Ultra-Scale_Playbook_Training_LLMs_on_GPU_Clusters.pdf