NVIDIA показала, как 1.5B-модель можно раскачать до топовых результатов в логике, математике, коду и STEM-задачам — без увеличения параметров модели.
📈 Результат после месяцев обучения:
+55% к логическим задачам
+14.7% к математике
+13.9% к коду
+25.1% к сложным STEM-вопросам
🛠 Как они это сделали:
– Использовали RL (обучение с подкреплением) на 5 типах задач, включая 40K примеров по математике и 24K по программированию
– Все ответы проверялись автоматически в "песочнице", которая оценивает, правильный ли результат
– Применили улучшенную стратегию обучения — *Group Relative Policy Optimization* — и добавили несколько хитрых трюков:
Все эти приёмы помогли сохранить интерес модели к поиску новых решений, а не скатываться к заученным паттернам.
Итог: модель не "застывает", а продолжает исследовать — и выдает стабильный рост качества без расширения архитектуры.
📄 Почитать статью полностью : arxiv.org/abs/2507.12507
@ai_machinelearning_big_data
#ml #ai #nvidia
Please open Telegram to view this post
VIEW IN TELEGRAM
4🔥122👍34❤18😐2🗿2😁1👨💻1
This media is not supported in your browser
VIEW IN TELEGRAM
🎬 Alibaba опять в ударе, сегодня у нас релиз Wan2.2
Это первая в мире open-source модель генерации видео с архитектурой MoE и полным кинематографическим контролем!
🚀 Что внутри:
🔸 Первая MoE‑модель для видео — масштабируется без лишней нагрузки. Разные эксперты отвечают за этапы диффузии, работая в команде.
🔸 Кинематографический контроль — управляем светом, цветом, движением камеры и композицией прямо из prompt’а.
🔸 Полная open-source линейка:
-
-
-
📈 Умеет лучше всех генерировать *сложные движения* и выглядит уже почти как кино 🎥
🟢 GitHub: https://github.com/Wan-Video/Wan2.2
🟢 Hugging Face: https://huggingface.co/Wan-AI
🟢 ModelScope: https://modelscope.cn/organization/Wan-AI
@ai_machinelearning_big_data
#AI #VideoAI #GenerativeAI #OpenSource #Wan
Это первая в мире open-source модель генерации видео с архитектурой MoE и полным кинематографическим контролем!
🚀 Что внутри:
🔸 Первая MoE‑модель для видео — масштабируется без лишней нагрузки. Разные эксперты отвечают за этапы диффузии, работая в команде.
🔸 Кинематографический контроль — управляем светом, цветом, движением камеры и композицией прямо из prompt’а.
🔸 Полная open-source линейка:
-
Wan2.2-T2V-A14B
— текст → видео -
Wan2.2-I2V-A14B
— изображение → видео -
Wan2.2-TI2V-5B
— объединённая генерация 📈 Умеет лучше всех генерировать *сложные движения* и выглядит уже почти как кино 🎥
@ai_machinelearning_big_data
#AI #VideoAI #GenerativeAI #OpenSource #Wan
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥91👍28❤25👌2👨💻1
Media is too big
VIEW IN TELEGRAM
Обновленный интерфейс Copilot теперь расположен в левом верхнем углу окна бразуера. Он получил оптимизированный дизайн, голосовое управление и улучшенное понимание контекста.
Copilot способен анализировать содержимое нескольких открытых вкладок одновременно. Это позволяет, например, сравнивать варианты путешествий или выбирать ресторан, не переключаясь между страницами. Система автоматически распознает URL-адреса, поисковые запросы и команды в чате.
Новый режим уже доступен бесплатно. В будущем Microsoft планирует добавить функции сортировки истории по проектам и контекстные рекомендации.
Mustafa Suleyman (CEO Microsoft AI) в сети X
Runway представила свою новую модель Aleph. Она может вносить точечные изменения в уже существующие видеоролики с помощью текстовых команд. Пользователи могут добавлять и удалять объекты, изменять время суток, убирать дым или отражения.
Одной из самых заметных функций стала генерация совершенно новых ракурсов камеры. Модель также способна изменять возраст персонажей, перекрашивать объекты, создавать эффект зеленого экрана и переносить движение с видео на статичные изображения.
Сейчас Aleph доступна только для корпоративных и креативных партнеров, среди которых уже есть голливудская студия Lionsgate. Широкий доступ планируется в будущем.
runwayml.com
На Всемирной конференции по искусственному интеллекту в Шанхае Huawei впервые публично продемонстрировала свою новую вычислительную систему CloudMatrix 384. Эксперты рассматривают ее как прямого конкурента самой продвинутой на сегодня системы от Nvidia - GB200 NVL72.
CloudMatrix состоит из 384 новейших чипов 910C и, по некоторым метрикам, превосходит решение Nvidia, которое использует 72 чипа B200. Как отмечают аналитики из SemiAnalysis, Huawei компенсирует более слабую производительность отдельных чипов за счет их большего количества и инноваций на системном уровне.
Система уже эксплуатируется на облачной платформе Huawei.
reuters.com
Alibaba анонсировала свои первые умные очки Quark. Устройство, которое выйдет на рынок Китая к концу 2025 года, позиционируется как конкурент умным очкам от Ray-Ban.
По капотом у Quark большая языковая модель Qwen и ИИ-ассистент Quark, которые управляют функциями звонков, прослушивания музыки, перевода в реальном времени и покупок. Очки тесно интегрированы с экосистемой Alibaba: платежным сервисом Alipay, торговой площадкой Taobao и картографическим сервисом Amap.
Технологически устройство работает на чипе Qualcomm AR1 и, по заявлению компании, получилось на 40% тоньше существующих аналогов на рынке.
scmp.com
Независимый лейбл Hallwood заключил сделку с Imoliver - самым прослушиваемым автором, создающим музыку с помощью нейросети. Imoliver уже набрал более 3 миллионов прослушиваний своей песни "Stone" на платформе Suno.
Теперь трек выйдет на всех основных стриминговых сервисах 8 августа, а полноценный альбом запланирован на октябрь. Глава Suno Майки Шульман назвал это событие "ключевой вехой для будущего музыки".
hollywoodreporter.com
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍46❤25🔥10🥰3👨💻1
Forwarded from ТЕХНО: Яндекс про технологии
Разработчики нейросетей — новые звезды. Они решают фундаментальные научные задачи, приближают создание AGI, зарабатывают огромные деньги и даже провоцируют HR-войны: например, недавно выяснилось, что Meta (признана экстремистской организацией и запрещена в РФ) переманивает к себе сотрудников Open AI, обещая бонусы в размере $100 млн. Собрали в карточках несколько интересных фигур из сферы ИИ.
Подписывайтесь 👉 @techno_yandex
Подписывайтесь 👉 @techno_yandex
❤100🔥38👍16🥱8😐6🤷♂5❤🔥3😁3🙊2👨💻1
В новом семействе GLM, Z.AI объединили в одной модели возможности для рассуждений, кодинга и агентных сценариев. Семейство построено на архитектуре MoE и может работать в двух режимах:
thinking mode
для сложных задач с использованием инструментов и non-thinking mode
для быстрых ответов.Интересно, что разработчики пошли по пути увеличения глубины модели (количества слоев), а не ширины (скрытого измерения), так как обнаружили, что модели с большим количеством слоев лучше справляются с рассуждениями.
Он поддерживает как синхронное, так и асинхронное обучение, что критически важно для агентных задач. Его инфраструктура полностью разделяет движки для роллаутов (сбора опыта) и движки для обучения, которые могут работать на разном железе.
Для их оценки использовались 3 бенчмарка. На TAU-bench модель GLM-4.5 показала результат в 70.1 балла, что практически идентично Claude 4 Sonnet (70.3) и заметно лучше, чем у o3 (61.2).
На бенчмарке для вызова функций Berkeley Function Calling Leaderboard v3 результат составил 77.8, снова опережая Claude 4 Sonnet с ее 75.2 баллами.
Но самый показательный результат был на BrowseComp, сложном тесте для веб-браузинга. В нем GLM-4.5 набрала 26.4, что выше, чем у Claude-4-Opus (18.8) и почти как у o4-mini-high (28.3).
Что касается классических задач на рассуждения, здесь модели показывают уверенные, хотя и не рекордные, результаты.
На MMLU Pro у GLM-4.5 84.6 балла, чуть меньше, чем у Claude 4 Opus (87.3) и Grok 4 (86.6).
В математическом тесте AIME24 модель набрала 91.0, ближайшие лидеры Qwen3 и Grok 4 - 94.1 и 94.3 соответственно.
На GPQA разрыв побольше: 79.1 у GLM-4.5 против 87.7 у Grok 4, а на сложном тесте по научной литературе HLE модель получила 14.4 балла, уступив Gemini 2.5 Pro (21.1) и Grok 4 (23.9).
В задачах, связанных с кодом, на тесте SWE-bench Verified модель набрала 64.2 балла, немного уступая Claude 4 Sonnet (70.4) и o3 (69.1), но опережая многие другие.
А вот в агентном кодинге, который оценивался людьми с помощью Claude Code, картина иная. В прямом сравнении GLM-4.5 выигрывает у Kimi K2 в 53.9% случаев и обходит Qwen3-Coder с винрейтом 80.8%.
Самый важный показатель - успешность вызова инструментов, где GLM-4.5 достигла 90.6%, опередив Claude-4-Sonnet (89.5%) и Kimi-K2 (86.2%).
@ai_machinelearning_big_data
#AI #ML #GLM #MoE #ZAI
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤63👍20🔥16👨💻1
✨ Что нового:
<think>
— теперь только быстрый "non-thinking" режим⚙️ С 3B активных параметров Qwen3-30B-A3B уже приближается к уровню GPT-4o и Qwen3-235B-A22B NT, при этом модель доступна для локального запуска.
@ai_machinelearning_big_data
#AI #ML #qwen #opensource
Please open Telegram to view this post
VIEW IN TELEGRAM
❤80👍36🔥19😍4👨💻1
Media is too big
VIEW IN TELEGRAM
Компания Марка Цукерберга предприняла агрессивную попытку переманить ключевых сотрудников из стартапа Thinking Machines Lab, основанного бывшим CTO OpenAI Мирой Мурати. По данным инсайдеров, компания сделала предложения более чем десятку специалистов. Одно из них превышало миллиард долларов за несколько лет, другие находились в диапазоне от 200 до 500 миллионов за 4 года.
Несмотря на беспрецедентные суммы, все сотрудники отклонили предложения Meta. Причинами отказа называют и без того высокое состояние, значительные доли в собственном стартапе и нежелание работать под руководством Марка Цукерберга.
wired.com
Робототехнический стартап SkildAI анонсировал «Skild Brain», фундаментальную ИИ-модель, которая может служить универсальным программным "мозгом" для широкого спектра роботов: от гуманоидов до промышленных манипуляторов.
На демонстрациях роботы успешно ориентировались в незнакомой среде и выполняли сложные многоэтапные действия. По словам основателей, новая технология сокращает разрыв между достижениями в области генеративного ИИ и их практическим применением в физической робототехнике.
SkildAI , вышедшая из стелс-режима в июле 2024 года, уже привлекла инвестиции от Amazon, SoftBank и Sequoia Capital.
skild.ai
Google расширил возможности NotebookLM, добавив функцию Video Overviews. Она автоматически генерирует видеоролики с озвучкой, которые наглядно объясняют содержимое загруженных файлов. Система сама подбирает изображения, цитаты, диаграммы и цифры из исходных материалов и представляет их в виде пошаговых слайдов.
Новая функция, дополняющая уже существующие аудиообзоры, позволяет гибко настраивать результат. Пользователи могут указать целевую аудиторию, задать учебные цели или выделить конкретные темы для фокуса.
Кроме того, Google обновила интерфейс Studio, разрешив сохранять несколько результатов одного типа (например, несколько майнд-карт) в одном блокноте. Обновление уже доступно для англоязычных пользователей, в будущем планируется поддержка других языков.
blog.google
Adobe выпустила в бета-версии Photoshop новые функции на базе модели Firefly. Одной из самых ожидаемых стала Generative Upscale, она увеличивает разрешение изображений до 8 мегапикселей без потери качества.
Инструмент Remove был обновлен, чтобы более реалистично и чисто убирать с фотографий лишние объекты, оставляя меньше артефактов. Появилась и совершенно новая функция Harmonize. Она автоматически анализирует контекст изображения и подгоняет цвет, свет и тени добавленных объектов, чтобы создать цельную композицию без долгой ручной коррекции.
Кроме того, Adobe анонсировала функцию Projects для более удобного управления файлами. Все нововведения уже доступны для тестирования в десктопной и веб-версиях Photoshop.
blog.adobe.com
ChatGPT Agent, способный выполнять многошаговые задачи, продемонстрировал неожиданную способность: он может проходить проверку "Я не робот" от Cloudflare. Пользователь Reddit опубликовал скриншоты, на которых агент в рамках задачи по конвертации видео самостоятельно нажимает на галочку "Подтвердите, что вы человек", комментируя свои действия.
Этот случай наглядно демонстрирует, насколько продвинулись ИИ-агенты. Они способны анализировать визуальный контекст, распознавая элементы веб-страниц и взаимодействуя с ними, как человек. В данном случае система поняла необходимость верификации и успешно ее прошла.
Прохождение CAPTCHA - лишь один из примеров возможностей нового агента. Другие пользователи уже показывают, как агент по их поручению заказывает продукты в супермаркете, самостоятельно составляя список покупок по общим критериям и укладываясь в заданный бюджет.
arstechnica.com
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
❤78👍31🔥11🙈6🤔4👨💻1💘1
Stack Overflow Developer Survey — это крупнейшее ежегодное исследование среди разработчиков по всему миру, которое проводит платформа Stack Overflow.
В 15‑й год в опросе приняли участие более 49 000 разработчиков из 177 стран. Опрос охватил 62 вопроса по 314 технологиям
76 % респондентов — профессиональные разработчики, большинство из них (66 %) — в возрасте 25–44 лет
- 80 % пишут код с помощью AI.
- Но лишь 29 % доверяют результатам ИИ (в 2024 было 40 %).
- 66 % тратят больше времени на отладку AI-кода, чем на его написание.
🏆 Claude Sonnet от Anthropic стала самой уважаемой LLM-моделью года — её отметили 67.5 % опрошенных.
💡 Но по желанию использовать на первом месте всё ещё OpenAI GPT — 51.2 % хотят с ней работать чаще всего.
- Cargo признан самым уважаемым DevOps‑инструментом (обогнал даже Terraform).
- Rust стабильно в топе любимых языков.
💡 Учёба и рост:
- 69 % изучают новые технологии, 44 % — с помощью AI.
- 36 % учат код ради AI-задач.
👨💻 VS Code лидирует, но Neovim — кумир:
- VS Code — самый используемый редактор.
- Neovim — самый «перспективный».
🧑🤝🧑 Сообщества & платформы
- 84 % разработчиков активно использовали Stack Overflow ( верится с трудом) в течение года (GitHub 67 %, YouTube 61 %)
- В опросе выяснилось: 35 % посещают SO из‑за проблем, связанных с AI‑кодом — ищут проверенную людьми информацию
📉 Меньше участников:
- В 2025 — 49k респондентов (в 2023 было 90k).
- Разработчики всё чаще критикуют перекос в сторону AI.
😕 Удовлетворённость работой & зарплаты
- Предыдущий опрос показал, что 80 % разработчиков были либо неудовлетворены, либо в состоянии «разочарованности» на работе. Интересно, как изменились показатели в 2025 году.
- В 2024 году выяснилось, что гибкость и зарплата перестали вносить равный вклад в удовлетворённость, теперь зарплата выше оказывает сильный эффект для топ‑25 % зарплатной шкалы
.- К примеру, мобильные и back‑end разработчики в UK и Нидерландах стали более удоволетворены работой за счёт более высоких зарплат
📎 Отчёт целиком: https://survey.stackoverflow.co/2025
@ai_machinelearning_big_data
#ai #stackoverflow
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍88❤28🔥11😁3💋2🤔1👨💻1