Qwen снова радуют релизом. Но на этот раз это не модель, а новый RL-алгоритм для обучения LLM
Метод называется Group Sequence Policy Optimization (GSPO), и именно он лег в основу последних громких моделей компании: Qwen3 Instruct, Coder и Thinking. Статья вышла пару дней назад, но о ней уже говорят все. Значит, пока разбираться и нам.
Сегодня один из самых популярных RL-алгоритмов для LLM – это GRPO (by DeepSeek). Если вам он не знаком – почитайте разбор вот тут или загляните в наш коспект в раздел "Обучение с подкреплением". GRPO работает здорово и довольно стабильно, но на уровне токенов.
То есть в GRPO мы считаем награду для всей последовательности -> считаем важность каждого токена и применяем клиппинг также для каждого токена отдельно -> обновляем политику "на уровне токенов".
А в GSPO все то же самое происходит сразу для всей последовательности: считаем награду -> рассчитываем единый importance weight для всей последовательности и применяем клиппинг для всего ответа целиком с нормализацией по длине -> обновляем политику.
В чем преимущество такого подхода?
1. Не нужно устраивать танцы с бубном, когда работаешь с MoE. У GRPO из-за архитектурных особенностей MoE идет со скрипом, а тут все заводится из коробки.
2. Градиенты получаются менее шумными, потому что снижается дисперсия. Следовательно – еще более стабильное обучение. Следовательно – лучшие метрики при тех же ресурсах.
3. Инженерно реализуется гораздо проще.
Короче, выглядит очень привлекательно и, вероятно, станет следующим словом в RL для LLM (особенно в опенсорсе). Статью полностью читаем тут
Метод называется Group Sequence Policy Optimization (GSPO), и именно он лег в основу последних громких моделей компании: Qwen3 Instruct, Coder и Thinking. Статья вышла пару дней назад, но о ней уже говорят все. Значит, пока разбираться и нам.
Сегодня один из самых популярных RL-алгоритмов для LLM – это GRPO (by DeepSeek). Если вам он не знаком – почитайте разбор вот тут или загляните в наш коспект в раздел "Обучение с подкреплением". GRPO работает здорово и довольно стабильно, но на уровне токенов.
То есть в GRPO мы считаем награду для всей последовательности -> считаем важность каждого токена и применяем клиппинг также для каждого токена отдельно -> обновляем политику "на уровне токенов".
А в GSPO все то же самое происходит сразу для всей последовательности: считаем награду -> рассчитываем единый importance weight для всей последовательности и применяем клиппинг для всего ответа целиком с нормализацией по длине -> обновляем политику.
В чем преимущество такого подхода?
1. Не нужно устраивать танцы с бубном, когда работаешь с MoE. У GRPO из-за архитектурных особенностей MoE идет со скрипом, а тут все заводится из коробки.
2. Градиенты получаются менее шумными, потому что снижается дисперсия. Следовательно – еще более стабильное обучение. Следовательно – лучшие метрики при тех же ресурсах.
3. Инженерно реализуется гораздо проще.
Короче, выглядит очень привлекательно и, вероятно, станет следующим словом в RL для LLM (особенно в опенсорсе). Статью полностью читаем тут
2❤94👍32 27🔥9🕊4
Пользователи настолько перегрузили Claude Code, что Anthropic пришлось ввести новые недельные лимиты
Они говорят, что изменения спроектированы так, что затронут только небольшой процент пользователей. Например, по их словам, есть те, кто использует Claude Code 24/7 и сжигает десятки тысяч долларов в тарифе за 200$ (признавайтесь, кто из вас?).
Другая группа тех, кому мы обязаны новыми лимитами, – это пользователи, которые шарят аккаунты с друзьями и коллегами или перепродают доступ.
Если вы не относитесь ни к тем, ни к другим – лимиты не должны вас затронуть. Однако все-таки, для информации:
– Для Pro: 40-80 часов Sonnet 4 в неделю
– Для Max за 100$: 140-280 часов Sonnet 4 и 15-35 часов Opus 4
– Для Max за 200$: 240-480 часов Sonnet 4 и 24-40 часов Opus 4
Все лимиты указаны только в рамках Claude Code. В чате они другие. Изменения вступят в силу 28 августа.
И да, конечно далеко не все восприняли новую политику с пониманием. Многие жалуются, что цены на тарифы у Anthropic и так неоправданно дорогие, чтобы еще и вводить дополнительные лимиты, и что это просто очередная акция вытягивания денег с пользователей.
Они говорят, что изменения спроектированы так, что затронут только небольшой процент пользователей. Например, по их словам, есть те, кто использует Claude Code 24/7 и сжигает десятки тысяч долларов в тарифе за 200$ (признавайтесь, кто из вас?).
Другая группа тех, кому мы обязаны новыми лимитами, – это пользователи, которые шарят аккаунты с друзьями и коллегами или перепродают доступ.
Если вы не относитесь ни к тем, ни к другим – лимиты не должны вас затронуть. Однако все-таки, для информации:
– Для Pro: 40-80 часов Sonnet 4 в неделю
– Для Max за 100$: 140-280 часов Sonnet 4 и 15-35 часов Opus 4
– Для Max за 200$: 240-480 часов Sonnet 4 и 24-40 часов Opus 4
Все лимиты указаны только в рамках Claude Code. В чате они другие. Изменения вступят в силу 28 августа.
И да, конечно далеко не все восприняли новую политику с пониманием. Многие жалуются, что цены на тарифы у Anthropic и так неоправданно дорогие, чтобы еще и вводить дополнительные лимиты, и что это просто очередная акция вытягивания денег с пользователей.
1 85❤25🤯15👍6😁5🤨5🔥1👏1
Media is too big
VIEW IN TELEGRAM
Alibaba Group (создатели Qwen) выпустили Wan2.2 – первую в мире опенсорсную модель для генерации видео, в основе которой лежит MoE
По черри-пикам выглядит, как всегда, хорошо. Кое-где не хватает фотореалистичности, но, в целом, и анатомия, и сложные движения, и физика жидкостей, и перемещения камеры – норм.
Отдельно интересен релиз тем, что это именно MoE. Кратко, как это работает для диффузии:
– Точно так же, как и для текста, у нас есть несколько экспертов и роутер (подробнее о том, как работает MoE, рассказывали в конспекте)
– Только здесь эксперт назначается не токенам, а шагам диффузии. Грубо говоря, каждый эксперт лучше справляется с какой-то определенной фазой денойзинга, и работает именно с ней.
– За счёт того, что каждый эксперт узкоспециализирован, общая мощность растет. При этом сохраняется примерна та же вычислительная нагрузка, так как эксперты работают последовательно и как бы «распределяют» нагрузку.
В общем, довольно занятный вариант для экспериментов. Надеемся, скоро выпустят статью или тех.отчет с деталями.
Попробовать модель уже можно тут
Веса лежат здесь
Ну и GitHub
По черри-пикам выглядит, как всегда, хорошо. Кое-где не хватает фотореалистичности, но, в целом, и анатомия, и сложные движения, и физика жидкостей, и перемещения камеры – норм.
Отдельно интересен релиз тем, что это именно MoE. Кратко, как это работает для диффузии:
– Точно так же, как и для текста, у нас есть несколько экспертов и роутер (подробнее о том, как работает MoE, рассказывали в конспекте)
– Только здесь эксперт назначается не токенам, а шагам диффузии. Грубо говоря, каждый эксперт лучше справляется с какой-то определенной фазой денойзинга, и работает именно с ней.
– За счёт того, что каждый эксперт узкоспециализирован, общая мощность растет. При этом сохраняется примерна та же вычислительная нагрузка, так как эксперты работают последовательно и как бы «распределяют» нагрузку.
В общем, довольно занятный вариант для экспериментов. Надеемся, скоро выпустят статью или тех.отчет с деталями.
Попробовать модель уже можно тут
Веса лежат здесь
Ну и GitHub
1🔥103 33❤18👍11 5
В Нижнем Новгороде Яндекс Образование проведет студкемп по компьютерному зрению.
Это совместный проект с Неймарком и ФКН ВШЭ.
Что ждет студентов:
• Знания в области CV и ИИ
• Уникальный опыт по разработке технологий автономного транспорта от Яндекса
• Понимание технологий и методов обработки изображений с помощью ИИ
• Практика наладки компьютерного зрения в системах автономного транспорта и робототехнике
Участие бесплатно, но нужно пройти отбор. Победителям организаторы оплатят и дорогу, и проживание.
Зарегистрироваться можно до 14 августа, по ссылке.
Это совместный проект с Неймарком и ФКН ВШЭ.
Что ждет студентов:
• Знания в области CV и ИИ
• Уникальный опыт по разработке технологий автономного транспорта от Яндекса
• Понимание технологий и методов обработки изображений с помощью ИИ
• Практика наладки компьютерного зрения в системах автономного транспорта и робототехнике
Участие бесплатно, но нужно пройти отбор. Победителям организаторы оплатят и дорогу, и проживание.
Зарегистрироваться можно до 14 августа, по ссылке.
1👍26🗿12😁8🤯4 4❤3✍1👌1 1
В ChatGPT появился новый инструмент «Think Longer»
Его массово стали замечать у себя пользователи, но официального релиза еще не было. Кто-то говорит, что это GPT-5, но мы не обольщаемся.
Судя по твитам и Реддиту, это просто тумблер, который: (1) переключает вас на ризонинг модель (видимо, o3), если в данный момент вы пользуетесь не-ризонером; (2) активирует чуть больший бюджет ризонинга, если вы на o3/o4-mini.
Проверяйте, вдруг и у вас уже есть
Его массово стали замечать у себя пользователи, но официального релиза еще не было. Кто-то говорит, что это GPT-5, но мы не обольщаемся.
Судя по твитам и Реддиту, это просто тумблер, который: (1) переключает вас на ризонинг модель (видимо, o3), если в данный момент вы пользуетесь не-ризонером; (2) активирует чуть больший бюджет ризонинга, если вы на o3/o4-mini.
Проверяйте, вдруг и у вас уже есть
1👍80❤28🤨26🔥6 3😁1 1 1
This media is not supported in your browser
VIEW IN TELEGRAM
В ChatGPT появился Study mode – режим для изучения чего угодно с ИИ
Обучение – очень популярный кейс среди пользователей чат-ботов. Люди учат языки, просят GPT объяснять сложные темы, разъяснять задачи и прочее прочее прочее.
И вот специально для такого OpenAI выкатили отдельный мод. Фишка в том, что в этом режиме модель будет, например, не просто решать за вас задачу, а идти по решению поэтапно, задавая наводящие вопросы, подстраиваясь под знания юзера, поправляя и направляя – как настоящий хороший учитель. Может также составить квиз/тест или проверить знания в другом виде.
И, кстати, создавался режим при сотрудничестве с реальными педагогами.
Самое приятное: фича доступна бесплатно и работает для любой модели. Для студентов и особенно школьников – просто находка.
Как там говорится? Репетиторы – ВСЁ?🙂
openai.com/index/chatgpt-study-mode/
Обучение – очень популярный кейс среди пользователей чат-ботов. Люди учат языки, просят GPT объяснять сложные темы, разъяснять задачи и прочее прочее прочее.
И вот специально для такого OpenAI выкатили отдельный мод. Фишка в том, что в этом режиме модель будет, например, не просто решать за вас задачу, а идти по решению поэтапно, задавая наводящие вопросы, подстраиваясь под знания юзера, поправляя и направляя – как настоящий хороший учитель. Может также составить квиз/тест или проверить знания в другом виде.
И, кстати, создавался режим при сотрудничестве с реальными педагогами.
Самое приятное: фича доступна бесплатно и работает для любой модели. Для студентов и особенно школьников – просто находка.
Как там говорится? Репетиторы – ВСЁ?
openai.com/index/chatgpt-study-mode/
Please open Telegram to view this post
VIEW IN TELEGRAM
1❤316👍70🔥43😁22🤓10🗿4👏3🤯3
This media is not supported in your browser
VIEW IN TELEGRAM
В NotebookLM теперь можно генерировать видеообзоры
Выглядит это так: загружаете любые источники, а агент генерирует по ним презентацию + сопроводительный рассказ.
Мы попробовали – получается действительно неплохо. Слайды, конечно, простенькие (но эстетичные!) и не очень динамично меняются, но все равно – огонь. Четкая структура, рассказ всегда мэтчится со слайдами и идет очень последовательно.
И да: доступно бесплатно. Лимиты такие же, как и для тех самых ИИ-подкастов: 3 в день (гуманно). Для чтения статей – просто супер.
notebooklm.google
P.S. Интересно, они специально релизнулись в один день со Study Mode в ChatGPT?🧐
Выглядит это так: загружаете любые источники, а агент генерирует по ним презентацию + сопроводительный рассказ.
Мы попробовали – получается действительно неплохо. Слайды, конечно, простенькие (но эстетичные!) и не очень динамично меняются, но все равно – огонь. Четкая структура, рассказ всегда мэтчится со слайдами и идет очень последовательно.
И да: доступно бесплатно. Лимиты такие же, как и для тех самых ИИ-подкастов: 3 в день (гуманно). Для чтения статей – просто супер.
notebooklm.google
P.S. Интересно, они специально релизнулись в один день со Study Mode в ChatGPT?
Please open Telegram to view this post
VIEW IN TELEGRAM
1❤111👍45 20🔥11😁3 2
Илон Маск заявил, что в xAI и SpaceX нет рисерчеров – а есть только инженеры
Термин «рисерчер» он назвал чопорным и малоответственным, и сказал, что это пережиток академической среды. Он утверждает, что рисерчеры в xAI не нужны, потому что у него работают только инженеры.
Прямо сейчас инженеры из xAI удаляют из резюме строчку «researcher», а вы что делаете?
Термин «рисерчер» он назвал чопорным и малоответственным, и сказал, что это пережиток академической среды. Он утверждает, что рисерчеры в xAI не нужны, потому что у него работают только инженеры.
SpaceX проводит больше значимых и передовых «исследований» в области совершенствования ракет и спутников, чем все академические университетские лаборатории на Земле вместе взятые.
Но, тем не менее, мы не используем термин «исследователь».
Прямо сейчас инженеры из xAI удаляют из резюме строчку «researcher», а вы что делаете?
1😎172😁107 36🤯13❤12👍12 6 5💯3✍2🤔2
Наконец-то: Meta* позволит кандидатам использовать ИИ на собеседованиях
Пока что решение находится в режиме "тестирования" и компания просит существующих сотрудников пройти пробные мок-собесы с использованием ИИ, чтобы обкатать процесс.
Цукерберг говорит, что вайб-кодинг – это уже неотъемлемая часть работы инженеров и скоро большинство кода будет создаваться ИИ, поэтому такие собеседования более репрезентативны.
Вспоминается лозунг того самого стартапа Cluely, основателя которого отчислили из университета за его идею: "То, что сегодня называют списыванием, завтра будет в порядке вещей".
www.wired.com/story/meta-ai-job-interview-coding/
Пока что решение находится в режиме "тестирования" и компания просит существующих сотрудников пройти пробные мок-собесы с использованием ИИ, чтобы обкатать процесс.
Цукерберг говорит, что вайб-кодинг – это уже неотъемлемая часть работы инженеров и скоро большинство кода будет создаваться ИИ, поэтому такие собеседования более репрезентативны.
Вспоминается лозунг того самого стартапа Cluely, основателя которого отчислили из университета за его идею: "То, что сегодня называют списыванием, завтра будет в порядке вещей".
www.wired.com/story/meta-ai-job-interview-coding/
1👍122🤯46❤19✍5🤨4🗿4🔥2👏2😁2🦄2 2
Любопытно: оказывается, теперь в России развитие ИИ в регионах будет контролировать специальное подразделение под названием «Центр развития ИИ».
Подчиняться центр будет непосредственно вице-премьеру, а задачи (интересно, какие) будет получать от Минцифры. Говорят, что это будет что-то вроде единого проектного офиса, коммуникационной и мониторинговой площадки.
Структуру (внезапно!) возглавит выходец из ракетно-космической отрасли, но с ИИ-бэкграундом, в том числе научным. Официально об этом пока не объявляли, но инсайд вышел вот тут на канале «Неискусственный интеллект».
Кстати, редакторы этого канала — бывшие журналисты, почти всех знают в отрасли, а потому довольно часто раскапывают эксклюзивы. А ещё делают разборы новостей и трендов со своим собственным, часто довольно критичным и едким, взглядом на происходящее.
Причём пишут не только про софт, но и про железо, про чипы и фаундри, то есть отслеживают всю «вертикаль» ИИ — сверху донизу. Кстати, они не стесняются давать прогнозы, которые часто сбываются. Так что стоит подписаться на @anti_agi, там интересно.
Подчиняться центр будет непосредственно вице-премьеру, а задачи (интересно, какие) будет получать от Минцифры. Говорят, что это будет что-то вроде единого проектного офиса, коммуникационной и мониторинговой площадки.
Структуру (внезапно!) возглавит выходец из ракетно-космической отрасли, но с ИИ-бэкграундом, в том числе научным. Официально об этом пока не объявляли, но инсайд вышел вот тут на канале «Неискусственный интеллект».
Кстати, редакторы этого канала — бывшие журналисты, почти всех знают в отрасли, а потому довольно часто раскапывают эксклюзивы. А ещё делают разборы новостей и трендов со своим собственным, часто довольно критичным и едким, взглядом на происходящее.
Причём пишут не только про софт, но и про железо, про чипы и фаундри, то есть отслеживают всю «вертикаль» ИИ — сверху донизу. Кстати, они не стесняются давать прогнозы, которые часто сбываются. Так что стоит подписаться на @anti_agi, там интересно.
1🗿129🤨62😁25❤11🔥11👍9 7🤔4🤯4🐳2🫡2
Data Secrets
Наконец-то: Meta* позволит кандидатам использовать ИИ на собеседованиях Пока что решение находится в режиме "тестирования" и компания просит существующих сотрудников пройти пробные мок-собесы с использованием ИИ, чтобы обкатать процесс. Цукерберг говорит…
Мы все ближе и ближе к этому мему
1😁232🔥31🤯12❤9👍2🗿2
This media is not supported in your browser
VIEW IN TELEGRAM
Спроектировано буквально также: сервера, каналы, сообщества. Для открытых комьюнити есть лендинг – там можно выбрать себе
Самое крутое, что делается это на базе огромного хранилища статей. А это значит, что перед нами самый мощный из возможных ридинг-клаб. Причем на любую интересную вам научную тему (особенно связанную с ML/ИИ).
Прямо подарок какой-то
www.alphaxiv.org/communities
Please open Telegram to view this post
VIEW IN TELEGRAM
1❤162🔥54👍23☃6🤯4❤🔥2😁1
Исследователи Яндекса раскрыли, как научили нейросеть распознавать голосовые команды — даже сквозь сильный шум.
Вышла научная статья с подробным описанием технологии. Само исследование принято в программу крупнейшей профильной конфы Interspeech 2025 в Нидерландах.
В устройствах вроде умных колонок команда «Алиса» должна срабатывать, даже когда рядом работает пылесос или кто-то говорит. Стандартные алгоритмы шумоподавления помогают пользователям, но часто мешают самим моделям. Исследователи речевых технологий из Яндекса нашли решение, которое позволяет объединять преимущества нескольких подходов. В основе — собственный attention-механизм, работающий сразу с двумя сигналами: после шумоподавления и эхоподавления.
Вышла научная статья с подробным описанием технологии. Само исследование принято в программу крупнейшей профильной конфы Interspeech 2025 в Нидерландах.
В устройствах вроде умных колонок команда «Алиса» должна срабатывать, даже когда рядом работает пылесос или кто-то говорит. Стандартные алгоритмы шумоподавления помогают пользователям, но часто мешают самим моделям. Исследователи речевых технологий из Яндекса нашли решение, которое позволяет объединять преимущества нескольких подходов. В основе — собственный attention-механизм, работающий сразу с двумя сигналами: после шумоподавления и эхоподавления.
1👍125❤38☃11🤔8🤨6🗿6❤🔥2😁2⚡1🤯1
Microsoft показали списки профессий, которые больше всего и меньше всего подвержены риску быть замененными ИИ
В список «неудачников» попали переводчики, историки, писатели, рекламщики, математики, дата сайентисты, веб-разработчики и даже модели.
Если вы с списке – не расстраивайтесь, мы тоже. Вот вам для профориентации несколько примеров из списка тех, кого ИИ заменит не скоро: медсестры, хирурги, механики, монтажники, посудомойщики, бетонщики, горничные, санитары, маляры. Думайте😶
Кстати, подсчитали это Microsoft вот как:
1. Взяли анонимизированные данные о 100 000 диалогов с Bing Copilot в США и каждый запрос классифицировали по цели пользователя и тому, что по факту сделал ИИ.
2. По официальной базе рабочих процессов сопоставили каждую активность с конкретной профессией.
3. Для каждой профессии посчитали покрытие (доля рабочих активностей профессии, которые встречаются в данных), успешность выполнения задач ИИ и широту охвата (насколько полно ИИ покрывает конкретную активность).
На основе трех показателей считали интегральный индекс, и чем он выше – тем более вероятно, что профессия будет автоматизирована.
Ну что, завтра на завод?
arxiv.org/abs/2507.07935
В список «неудачников» попали переводчики, историки, писатели, рекламщики, математики, дата сайентисты, веб-разработчики и даже модели.
Если вы с списке – не расстраивайтесь, мы тоже. Вот вам для профориентации несколько примеров из списка тех, кого ИИ заменит не скоро: медсестры, хирурги, механики, монтажники, посудомойщики, бетонщики, горничные, санитары, маляры. Думайте
Кстати, подсчитали это Microsoft вот как:
1. Взяли анонимизированные данные о 100 000 диалогов с Bing Copilot в США и каждый запрос классифицировали по цели пользователя и тому, что по факту сделал ИИ.
2. По официальной базе рабочих процессов сопоставили каждую активность с конкретной профессией.
3. Для каждой профессии посчитали покрытие (доля рабочих активностей профессии, которые встречаются в данных), успешность выполнения задач ИИ и широту охвата (насколько полно ИИ покрывает конкретную активность).
На основе трех показателей считали интегральный индекс, и чем он выше – тем более вероятно, что профессия будет автоматизирована.
Ну что, завтра на завод?
arxiv.org/abs/2507.07935
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
2😁135 28❤23🔥18🫡11🗿6🦄5👍4👌4 2❤🔥1