Forwarded from AbstractDL
SONAR-LLM: языковая модель, которая думает предложениями, а не токенами
Опубликовали препринт новой работы! Помните Large Concept Model (LCM) от Meta, которая генерирует текст через предсказание sentence-level эмбеддингов? Крутая идея, но диффузионное обучение там было весьма геморройным, а MSE лосс работал так себе.
Мы решили оставить "мышление" в пространстве SONAR эмбеддингов (это такой мощный автоэнкодер от Meta, который сжимает целое предложение в один вектор d=1024 и умеет почти без потерь восстанавливать его обратно), но вернуть привычный token-level cross-entropy через замороженный декодер. По сути, модель предсказывает эмбеддинг следующего предложения, прогоняет его через замороженный SONAR декодер, и получает градиенты от обычной кроссэнтропии по токенам.
Такой гибридный подход избавляет от диффузионного семплера LCM, но сохраняет семантическую абстракцию. На практике SONAR-LLM показал лучшие scaling laws, чем оригинальные LCM, и заметно обогнал их в качестве генерации по базовым метрикам — от оценки через оракулов, до NLG бенчмарков и суммаризации.
Про инференс: выигрыш приходит на длинных контекстах. До ~4k токенов обычные архитектуры выигрывают, а дальше SONAR-LLM устойчиво впереди, потому что моделирует цепочку предложений, а не токенов. Сложность по FLOPs близка к линейной вплоть до ~1M.
Все веса, код и скрипты для воспроизведения выложили в открытый доступ, так что сможете сами поэкспериментировать 🤷♂️
Статья, GitHub
Опубликовали препринт новой работы! Помните Large Concept Model (LCM) от Meta, которая генерирует текст через предсказание sentence-level эмбеддингов? Крутая идея, но диффузионное обучение там было весьма геморройным, а MSE лосс работал так себе.
Мы решили оставить "мышление" в пространстве SONAR эмбеддингов (это такой мощный автоэнкодер от Meta, который сжимает целое предложение в один вектор d=1024 и умеет почти без потерь восстанавливать его обратно), но вернуть привычный token-level cross-entropy через замороженный декодер. По сути, модель предсказывает эмбеддинг следующего предложения, прогоняет его через замороженный SONAR декодер, и получает градиенты от обычной кроссэнтропии по токенам.
Такой гибридный подход избавляет от диффузионного семплера LCM, но сохраняет семантическую абстракцию. На практике SONAR-LLM показал лучшие scaling laws, чем оригинальные LCM, и заметно обогнал их в качестве генерации по базовым метрикам — от оценки через оракулов, до NLG бенчмарков и суммаризации.
Про инференс: выигрыш приходит на длинных контекстах. До ~4k токенов обычные архитектуры выигрывают, а дальше SONAR-LLM устойчиво впереди, потому что моделирует цепочку предложений, а не токенов. Сложность по FLOPs близка к линейной вплоть до ~1M.
Все веса, код и скрипты для воспроизведения выложили в открытый доступ, так что сможете сами поэкспериментировать 🤷♂️
Статья, GitHub
Forwarded from Refat Talks: Tech & AI
This media is not supported in your browser
VIEW IN TELEGRAM
Вы наверное замечали что почти все AI-generated фронтенды выглядят как близнецы.
И тут дело не только в том, что нейросети любят дефолтный Tailwind и ShadCN. Сами промпты редко учитывают дизайн.
Понятно, что ничто не заменит насмотренность и работу профессионального дизайнера. Но есть куча низко-висящих фруктов, которые AI-driven разработчик может сорвать относительно малой кровью и сильно улучшить результат. Давайте посмотрим что можно сделать.
1. Собери референсы и используй reverse-дизайн - я писал об этом подробно, по сути: скриншоты → AI agent → дизайн токены
2. Создай свою цветовую схему через CSS-переменные:
- UI Colors - генерация полных палитр 50-950 из одного цвета
- TweakCN - визуальный редактор ShadCN тем, экспорт CSS-переменных
- Tailwind Color Generator - HSL-совместимые палитры
3. Типографика:
- Fontjoy - автоматический подбор шрифтовой пары
- Font Combinations - проверенные комбинации шрифтов
4. Промптить для лучших результатов надо иначе
"Сделай красиво" заменяется структурированными техническими требованиями с указанием конкретики, референсов и дизайн-компонентов. Несколько простых примеров:
А вот пример того, что можно добавить в проектные правила (cursor rules, claude md)
5. Еще несколько полезных ресурсов на тему Tw / ShadCN
- Magic UI - премиум компоненты с анимациями
- Aceternity UI - сложные интерактивные элементы
- Awesome ShadCN - кастомные компоненты, ресурсы, хелперы -🔥
Подход может быть разный в зависимости от навыков, тут получается интересный парадокс: чем меньше у вас насмотренности в дизайне, тем больше стоит полагаться на качественные готовые блоки и даже шаблоны, которые часто будут круче AI-дефолта, потому что их делали профессиональные дизайнеры с пониманием композиции и визуальной иерархии. Если есть хорошая насмотренность - кастомизируйте глубже через дизайн-токены, экспериментируйте с типографикой, композицией и т.д.
🔥 ➕ 🔁
И тут дело не только в том, что нейросети любят дефолтный Tailwind и ShadCN. Сами промпты редко учитывают дизайн.
Понятно, что ничто не заменит насмотренность и работу профессионального дизайнера. Но есть куча низко-висящих фруктов, которые AI-driven разработчик может сорвать относительно малой кровью и сильно улучшить результат. Давайте посмотрим что можно сделать.
1. Собери референсы и используй reverse-дизайн - я писал об этом подробно, по сути: скриншоты → AI agent → дизайн токены
2. Создай свою цветовую схему через CSS-переменные:
- UI Colors - генерация полных палитр 50-950 из одного цвета
- TweakCN - визуальный редактор ShadCN тем, экспорт CSS-переменных
- Tailwind Color Generator - HSL-совместимые палитры
3. Типографика:
- Fontjoy - автоматический подбор шрифтовой пары
- Font Combinations - проверенные комбинации шрифтов
4. Промптить для лучших результатов надо иначе
"Сделай красиво" заменяется структурированными техническими требованиями с указанием конкретики, референсов и дизайн-компонентов. Несколько простых примеров:
// типографика
Design clear typography hierarchy using modern sans-serif font.
Large heading, medium subheading, readable body text.
Ensure good line spacing and visual rhythm throughout the page.
// UI-компоненты
Create card components with contemporary styling - subtle shadows,
rounded corners, clean white background. Add hover effects
and make them feel interactive and polished.
// цвета
Use professional color palette - primary brand color, neutral grays,
success/error states. Ensure good contrast for accessibility
and maintain consistent color usage across all components.
А вот пример того, что можно добавить в проектные правила (cursor rules, claude md)
## Design Principles
- Generous spacing: Use plenty of whitespace, avoid cramped layouts
- Cards: Subtle elevation, consistent padding, avoid heavy borders
- Modern aesthetics: Subtle shadows, rounded corners, clean typography
- Interactive states: Smooth hover effects, button feedback, loading states
- Visual hierarchy: Clear information structure with proper heading levels
- Accessibility: Good color contrast, readable fonts, proper focus states
- Consistent system: Reusable components, unified spacing scale
- Use consistent spacing units(8px, 16px, 24px, 32px) throughout your design system
- Test colors in both light and dark modes
- Implement consistent iconography from a single icon family
5. Еще несколько полезных ресурсов на тему Tw / ShadCN
- Magic UI - премиум компоненты с анимациями
- Aceternity UI - сложные интерактивные элементы
- Awesome ShadCN - кастомные компоненты, ресурсы, хелперы -
Подход может быть разный в зависимости от навыков, тут получается интересный парадокс: чем меньше у вас насмотренности в дизайне, тем больше стоит полагаться на качественные готовые блоки и даже шаблоны, которые часто будут круче AI-дефолта, потому что их делали профессиональные дизайнеры с пониманием композиции и визуальной иерархии. Если есть хорошая насмотренность - кастомизируйте глубже через дизайн-токены, экспериментируйте с типографикой, композицией и т.д.
🔥 ➕ 🔁
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Korenev AI - GPT в тапочках🩴
Команда Anthropic выпустила видео с разбором промпта для конкретной бизнес-задачи - анализа протокола ДТП и определения виновника.
Рекомендую посмотреть тем, кто только начинает внедрять ИИ в бизнес. Показывают, как обогащать контекст и бороться с галлюцинациями.
Anthropic активно продвигает идею использования XML-тегов в промптах. В примере они разбивают задачу на подзадачи через теги, которые ссылаются друг на друга (смотрите на 18-й минуте). Получается сложная вложенная структура:
<task id=3>...
<summary>создай саммари</summary>
<form_details>...</form_details>
</task id=3>
<task id=4>
используй саммари <summary>
</task id=4>
Для повышения качества советуют задавать предварительный ответ, т.е. ты сам начинаешь ответ за ИИ, задавая нужное направление.
В рекомендациях от Антропика есть интересный нюанс - исходные данные у них в начале промпта идут (перед задачей), хотя в основном я встречал рекомендации размещать данные практически в самом конце промпта. Запутали меня этим. Есть кому распутать?
Ссылка на переведенную версию видео (ютуб). 30 минут просмотра и вы - всамделишный промпт-инженер!
Оригинал - для тех, кто хочет стать всамделишным промпт-инженером, но со знанием английского
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Korenev AI - GPT в тапочках🩴
Я немного отвлекся и зазевался, а тут MCP развивается семимильными шагами. Теперь LLM все больше и больше могут взаимодействовать со сторонними сервисами!
Зацените подборку существующих решений https://mcpmarket.com/server и обратите внимание на количество звезд! Звезды - это оценки пользователей на Гитхабе. Чем больше звезд, тем популярнее и круче решение.
Пока копался в этой подборке, в голове вспыхнула куча идей, что с чем можно поженить.
Вообще, я углубился в тему MCP, т.к. возникла очередная острая потребность в фиксации задач. Ну реально надоело, что часть их них пропадает и заветривается.
Сейчас я настроил связку Клод-Asana (трекер задач и сервис для совместной работы). Все заводится без шаманств, т.к. у Клода уже преднастроена интеграция. Теперь Клод за меня управляет задачами: ставит их, дополняет, перемещает по доске. Посмотрим, насколько по факту это окажется рабочей связкой. Может быть придется вытащить Асану в телеграм, чтобы голосовыми кидать задачи без всяких впн.
В ходе ресёча встретил следующие популярные решения, которые попроще Асаны: todoist.com , ticktick.com , weeek.net (РФ) - но интеграция напрямую с Клодом у них отсутствует, надо или свое поднимать, либо на Асане останавливаться.
Делитесь, кто как РЕАЛЬНО облегчает жизнь с MCP!
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Архитектура Стартапа - Anton Skogorev Engineering & AI (Anton Skogorev)
Давно хотел поделиться тем, что происходит под капотом LLM Platform, которую мы строим внутри ТБанка.
Пост на грани NDA.
В какой-то момент мы осознали, что без цельного платформенного слоя любые инициативы с GenAI будут буксовать. На схеме — как раз тот каркас, который у нас сложился и который мы продолжаем развивать.
И если ещё год назад мы спорили об отдельных «кубиках», то сегодня то, что мы строим, — де-факто канонический GenAI-стек. (вот тут ещё интересная статья)
Из чего он состоит на высоком уровне:
— LLM API Gateway — единая точка доступа до внутренних (qwen?) и внешних (deepseek?) моделей,
— RAG Platform — конвейер для превращения любых данных в пайплайн Retrieval-Augmented Generation,
— Observability Platform — прозрачность всех LLM-процессов в реальном времени,
— Orchestration & automation — набор инструментов построения произвольных GenAI-пайплайнов с минимум кода,
— LLM Sec — модули безопасности, политик и аудирования,
— Assistant Runtime Platform — среда выполнения произвольных AI-ассистентов.
И если LLM Gateway — это нифига себе высоконагруженный модуль, на базе которого построены как внутренние, так и внешние продукты, то вот как конкретно построить единый Tools Registry, мы всё ещё размышляем и экспериментируем.
Пост на грани NDA.
В какой-то момент мы осознали, что без цельного платформенного слоя любые инициативы с GenAI будут буксовать. На схеме — как раз тот каркас, который у нас сложился и который мы продолжаем развивать.
И если ещё год назад мы спорили об отдельных «кубиках», то сегодня то, что мы строим, — де-факто канонический GenAI-стек. (вот тут ещё интересная статья)
Из чего он состоит на высоком уровне:
— LLM API Gateway — единая точка доступа до внутренних (qwen?) и внешних (deepseek?) моделей,
— RAG Platform — конвейер для превращения любых данных в пайплайн Retrieval-Augmented Generation,
— Observability Platform — прозрачность всех LLM-процессов в реальном времени,
— Orchestration & automation — набор инструментов построения произвольных GenAI-пайплайнов с минимум кода,
— LLM Sec — модули безопасности, политик и аудирования,
— Assistant Runtime Platform — среда выполнения произвольных AI-ассистентов.
И если LLM Gateway — это нифига себе высоконагруженный модуль, на базе которого построены как внутренние, так и внешние продукты, то вот как конкретно построить единый Tools Registry, мы всё ещё размышляем и экспериментируем.
Forwarded from Nikita
Привет! Я накидал библиотеку архитектурных компонентов для Excalidraw, которых мне всегда не хватало. Делюсь, и буду рад обратной связи
https://github.com/DeKinci/sysdeslib
https://github.com/DeKinci/sysdeslib
Forwarded from Rafa (:
Я бы провёл Алекса Ху, что-нибудь из кабанчика, и обязательно https://sre.google/classroom/
sre.google
Google SRE - Sre wokshop | Learn about NALSD and sre
SRE Classroom offers workshops by Google SRE, covering NALSD and sre. Learn non-abstract large systems design and gain hands-on experience in system evaluation.
Forwarded from DeepSchool
VLM для детекции объектов на изображении
У традиционных детекторов есть серьёзное ограничение: набор классов определён обучающей выборкой (Closed-set Object Detection). В попытках обойти его, создали новый класс детекторов, Open Vocabulary Object Detection (OVOD), для детекции произвольных объектов. В новой статье мы привели обзор таких OVOD-моделей, основанных на Vision Language Model (VLM).
Из статьи вы узнаете:
- какие есть подходы для применения VLM к задаче Object Detection
- какие результаты сравнения моделей на бенчмарках для Closed-Set и Open Vocabulary детекций
- почему идеи CLIP всё ещё актуальны
Читайте новую статью по ссылке!
У традиционных детекторов есть серьёзное ограничение: набор классов определён обучающей выборкой (Closed-set Object Detection). В попытках обойти его, создали новый класс детекторов, Open Vocabulary Object Detection (OVOD), для детекции произвольных объектов. В новой статье мы привели обзор таких OVOD-моделей, основанных на Vision Language Model (VLM).
Из статьи вы узнаете:
- какие есть подходы для применения VLM к задаче Object Detection
- какие результаты сравнения моделей на бенчмарках для Closed-Set и Open Vocabulary детекций
- почему идеи CLIP всё ещё актуальны
Читайте новую статью по ссылке!
Forwarded from Aspiring Data Science (Anatoly Alekseev)
YouTube
RLVS 2021 - Day 6 - RL in practice: tips & tricks and practical session with stable-baselines3
Speaker: Antonin Raffin
Chairman: David Bertoin
Abstract. The aim of the session is to help you do reinforcement learning experiments. The first part covers general advice about RL, tips, and tricks, and details three examples where RL was applied on real…
Chairman: David Bertoin
Abstract. The aim of the session is to help you do reinforcement learning experiments. The first part covers general advice about RL, tips, and tricks, and details three examples where RL was applied on real…
Forwarded from Продакт аналитикс
Приветствую, дорогие друзья! 👋
Давно у нас с вами не было рубрики полезностей для вопрошающих, #какворватьсяваналитику .
Их, как и всегда, есть у меня!
В связи с чем, рада поделиться своими недавними изысканиями:
- весьма любопытный ресурс с весьма понятным и незатейливым интерфейсом (а то иногда без бутылки не разберешься )
Что понравилось?
Да все.
Тут и Python,
и прикладные задачи анализа данных, и даже машинное обучение от небезызвестного Евгения Соколова.
Словом, категорически агитирую вас к ознакомлению!
Еще из интересного - наткнулась на вот такой подробный разбор решения задачки про нахождение паттернов трафика на одном из самых высоконагруженных шоссе в США. Туториал очень годный, так что рекомендую к просмотру.
На сим откланиваюсь и прошу вас стряхнуть пыль со своих резюме. Новый сезон #прожарки резюме стартует уже совсем скоро!
Давно у нас с вами не было рубрики полезностей для вопрошающих, #какворватьсяваналитику .
Их, как и всегда, есть у меня!
В связи с чем, рада поделиться своими недавними изысканиями:
- весьма любопытный ресурс с весьма понятным и незатейливым интерфейсом (
Что понравилось?
Тут и Python,
и прикладные задачи анализа данных, и даже машинное обучение от небезызвестного Евгения Соколова.
Словом, категорически агитирую вас к ознакомлению!
Еще из интересного - наткнулась на вот такой подробный разбор решения задачки про нахождение паттернов трафика на одном из самых высоконагруженных шоссе в США. Туториал очень годный, так что рекомендую к просмотру.
На сим откланиваюсь и прошу вас стряхнуть пыль со своих резюме. Новый сезон #прожарки резюме стартует уже совсем скоро!
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Concise Research (Sergey Kastryulin)
Step1X-Edit: A Practical Framework for General Image Editing
[моделька + код, отдельно GEdit бенч]
Недавние обновления моделей GPT-4o и Gemini привнесли функциональность редактирования изображений на основе пользовательских инстрактов. В академической среде тоже выпускали подобные модели (AnyEdit, OmniEdit), но они по качеству отстают от проприетарных.
Авторы этой работы стремятся уменьшить разрыв между академией и индустрией, предлагая полный набор необходимых компонентов: модель, схему сбора данных, методику замера.
Данные
Проблема задачи редактирования в том что это не одна задача, а несколько. Из-за этого первым делом нужно провести категоризацию всех задач и только потом приступить к сбору данных.
Авторы выделили 11 категорий на основе парсинга интернета. У них получилось, что наиболее частые запросы: добавление, удаление, замена и перемещение объектов, а также всяческие стилизации.
Далее для каждой категории генерится синтетика на основе некоторых исходных картинок и инстрактов, которые получаются хитрым многостадийным промторгом VLM’ки. Для каждой категории пайплайн генерации свой и включает несколько моделей. Например, задачи удаления и добавления объекта сводятся к инпейнтингу, поэтому пайплайн состоит из сегментации SAM2 и инпейнта Flux-Fill.
К сожалению, сам датасет не выложили, только код его подготовки.
Модель
Подход авторов очень похож на вышедший на днях Qwen-Image (подробный разбор в КПД): замороженный Qwen-VL в качестве энкодера + трансформерный денойзер. Основная разница в архитектуре: тут DiT против MMDiT в Qwen-Image. Интересно, что в других работах, например Nexus-Gen (разбор) VLM размораживают и как эффективнее пока не ясно.
Замеры
Для замера собирают и фильтруют промты по всем 11 категориям, отбирают 606 лучших, балансируют категории на свое усмотрение, проводят анонимизацию лиц. Из спорного — большое количество промтов на модификацию текста + использование китайского нужно не всем 🌚
Результаты
Уверенно обходят AnyEdit и OmniEdit, приближаются к проприетарным моделям, причем не только на своем, но и на ImgEdit-Full + Complex-Edit бенчмарках. Мне не хватило сравнения с BAGEL, Nexus-Gen и другими вышедшими в последнее время мультимодалками. Скорее всего, авторы из не рассматривали просто потому что учили editing-only модель и считают такое сравнение не совсем честным.
[моделька + код, отдельно GEdit бенч]
Недавние обновления моделей GPT-4o и Gemini привнесли функциональность редактирования изображений на основе пользовательских инстрактов. В академической среде тоже выпускали подобные модели (AnyEdit, OmniEdit), но они по качеству отстают от проприетарных.
Авторы этой работы стремятся уменьшить разрыв между академией и индустрией, предлагая полный набор необходимых компонентов: модель, схему сбора данных, методику замера.
Данные
Проблема задачи редактирования в том что это не одна задача, а несколько. Из-за этого первым делом нужно провести категоризацию всех задач и только потом приступить к сбору данных.
Авторы выделили 11 категорий на основе парсинга интернета. У них получилось, что наиболее частые запросы: добавление, удаление, замена и перемещение объектов, а также всяческие стилизации.
Далее для каждой категории генерится синтетика на основе некоторых исходных картинок и инстрактов, которые получаются хитрым многостадийным промторгом VLM’ки. Для каждой категории пайплайн генерации свой и включает несколько моделей. Например, задачи удаления и добавления объекта сводятся к инпейнтингу, поэтому пайплайн состоит из сегментации SAM2 и инпейнта Flux-Fill.
К сожалению, сам датасет не выложили, только код его подготовки.
Модель
Подход авторов очень похож на вышедший на днях Qwen-Image (подробный разбор в КПД): замороженный Qwen-VL в качестве энкодера + трансформерный денойзер. Основная разница в архитектуре: тут DiT против MMDiT в Qwen-Image. Интересно, что в других работах, например Nexus-Gen (разбор) VLM размораживают и как эффективнее пока не ясно.
Замеры
Для замера собирают и фильтруют промты по всем 11 категориям, отбирают 606 лучших, балансируют категории на свое усмотрение, проводят анонимизацию лиц. Из спорного — большое количество промтов на модификацию текста + использование китайского нужно не всем 🌚
Результаты
Уверенно обходят AnyEdit и OmniEdit, приближаются к проприетарным моделям, причем не только на своем, но и на ImgEdit-Full + Complex-Edit бенчмарках. Мне не хватило сравнения с BAGEL, Nexus-Gen и другими вышедшими в последнее время мультимодалками. Скорее всего, авторы из не рассматривали просто потому что учили editing-only модель и считают такое сравнение не совсем честным.