🎮 Matrix-Game 2.0 — первая опенсорс модель, которая генерирует интерактивные 3D-миры из текста в реальном времени
Неделю назад DeepMind показала Genie 3, но код не был выложен в открытый доступ.
А сегодня Skywork выложили свой генератор
Matrix-Game 2.0 миров в опенсорс 🚀
Возможности:
🟢 25 кадров/с в реальном времени
🟢 Генерирует минуты непрерывного геймплея
🟢 Полная интерактивность: движение, повороты, исследование мира
Можно использовать несколько встроенных шаблонов: город, дикая природа, TempleRun, GTA и др.
Зачем это нужно:
🟠 Создание игровых движков
🟠 Тренировка AI-агентов
🟠 Создание виртуальных персонажей
Заявленые требования: GPU с памятью не менее 24 ГБ (A100 и H100 протестированы).
Как работает:
• Обучена на 1350 часах видео геймлея
• Управление: движок реагирует на нажатия клавиш и движение мыши на каждом кадре
• Модель: 1,3 млрд параметров
• KV-Cache хранит контекст, чтобы окружение генерировалось без ограничений по времени
🟡 Huggingface Model: https://huggingface.co/Skywork/Matrix-Game-2.0
🟡 Repo: https://matrix-game-v2.github.io
@ai_machinelearning_big_data
#AI #MatrixGame #OpenSource #DeepLearning #GameDev #InteractiveAI #WorldModel #GenerativeAI #RealtimeAI #MachineLearning
Неделю назад DeepMind показала Genie 3, но код не был выложен в открытый доступ.
А сегодня Skywork выложили свой генератор
Matrix-Game 2.0 миров в опенсорс 🚀
Возможности:
Можно использовать несколько встроенных шаблонов: город, дикая природа, TempleRun, GTA и др.
Зачем это нужно:
Заявленые требования: GPU с памятью не менее 24 ГБ (A100 и H100 протестированы).
Как работает:
• Обучена на 1350 часах видео геймлея
• Управление: движок реагирует на нажатия клавиш и движение мыши на каждом кадре
• Модель: 1,3 млрд параметров
• KV-Cache хранит контекст, чтобы окружение генерировалось без ограничений по времени
@ai_machinelearning_big_data
#AI #MatrixGame #OpenSource #DeepLearning #GameDev #InteractiveAI #WorldModel #GenerativeAI #RealtimeAI #MachineLearning
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥87👍30❤24🥱5😐4
Media is too big
VIEW IN TELEGRAM
OpenAI ведет переговоры об инвестициях в Merge Labs, стартап в области нейрокомпьютерных интерфейсов, который планирует создание высокоскоростных BCI-систем.
Merge Labs планирует привлечь 250 миллионов долларов при оценке в 850 миллионов. Сэм Альтман будет числиться сооснователем вместе с бывшим топ-менеджером Neuralink Алексом Бланиа, однако не будет заниматься операционной деятельностью. Ожидается, что основное финансирование поступит от венчурного подразделения OpenAI.
Этот шаг еще больше обостряет давнее соперничество между Альтманом и Маском, которые в 2015 году вместе основали OpenAI, но позже разошлись во взглядах.
ft.com
Anthropic объявила о значительном увеличении контекстного окна для Claude Sonnet 4 до одного миллиона токенов. Это в 5 раз больше предыдущего лимита и позволит обрабатывать за один проход целые кодовые базы или большие массивы документов. Новая возможность уже доступна в публичной бете через API Anthropic, Amazon Bedrock, а в скором времени появится и в Google Cloud Vertex AI.
За расширение придется платить больше. Для запросов свыше 200 тыс. входных токенов цена удваивается и составит 6 долларов за миллион токенов. Стоимость выходных токенов также вырастет с 15 до 22.50 долларов за миллион.
anthropic.com
Согласно внутренним документам, Microsoft составила список конкретных сотрудников с указанием их имен, ролей и принадлежности к командам: Reality Labs, GenAI Infrastructure и AI Research. Корпорация готова предложить им многомиллионные компенсационные пакеты - крупные бонусы при найме, конкурентные зарплаты, значительные пакеты акций и высокие годовые премии.
Для ускорения процесса в Microsoft внедрили специальную процедуру. Рекрутеры могут помечать кандидатов как "критически важные ИИ-таланты" и тогда процесс рассмотрения и утверждения на уровне руководства возможен в течение 24 часов.
businessinsider.com
Институт искусственного интеллекта Аллена представил MolmoAct 7B — опенсорсную модель для планирования движений роботов в трехмерном пространстве. Система интерпретирует команды на естественном языке, создает 3D-реконструкцию сцены и прокладывает траекторию движения, которую разработчик может просмотреть и скорректировать до того, как робот начнет действовать.
Модель на 7 млрд. параметров была обучена на 18 млн. примеров, в которых были включены 12 тыс. эпизодов из реального мира. В бенчмарке SimPLER система показала успешность выполнения задач в 72.1%, обойдя решения от Nvidia, Google и Microsoft.
AI2 опубликовал техотчет, веса и датасеты, позиционируя MolmoAct как свободно доступную альтернативу проприетарным решениям.
allenai.org
Платформа создает полноценные, играбельные проекты на основе текстового описания на естественном языке, не требуя навыков программирования. Система использует большие модели для автоматической генерации всех ключевых элементов: 3D-сцен, персонажей и игровой логики, интегрируя текст, 3D-моделирование и физические движки.
Помимо основной генерации, инструмент поддерживает персонализацию созданных игр, предварительный просмотр в реальном времени и возможность оптимизации. SEELE AI позиционирует свой сервис не только как игровой инструмент, но и как платформу для создания контента в сфере образования, маркетинга и социальных сетей.
Попробовать инструмент можно на официальном сайте.
Seele AI в сети Х
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍62❤22🔥13
Embedding Atlas — опенсорсный инструмент от Apple для интерактивной визуализации больших наборов векторных представлений, который позволяет не просто смотреть на облако точек, а полноценно с ним работать. И что самое приятное, он способен отрисовывать до нескольких миллионов точек благодаря реализации на WebGPU.
Embedding Atlas сам находит скопления в данных и подписывает их, позволяя мгновенно сориентироваться в общей структуре датасета. Чтобы отделить реальные кластеры от случайных выбросов, используется оценка плотности ядра с отрисовкой контуров плотности.
Решена и вечная проблема визуализаций - "каша" из перекрывающихся точек. Embedding Atlas использует технологию order-independent transparency, так что даже при большом наложении точек картинка остаётся четкой и информативной.
В инструменте есть поиск в реальном времени и нахождение ближайших соседей. Можно ввести текстовый запрос или просто кликнуть на любую точку в облаке, и Embedding Atlas мгновенно подсветит наиболее похожие на нее данные.
Еще есть интерактивный фильтр по метаданным. Например, можно выбрать на гистограмме определенный класс объектов, и визуализация тут же отфильтрует эмбединги, оставив только соответствующие ему точки.
Дает три варианта интеграции: утилиту командной строки для быстрой визуализации датафреймов, виджет для Jupyter, позволяющий встраивать атлас прямо в ноутбуки, и компонент для Streamlit, если вы создаете полноценные веб-приложения.
Этот пакет для тех, кто хочет встроить визуализацию в собственные веб-приложения. Он предоставляет готовые UI-компоненты в виде API:
Table
, EmbeddingView
, EmbeddingViewMosaic
и EmbeddingAtlas
.@ai_machinelearning_big_data
#AI #ML #Embedding #Visualisation #Apple
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍74❤37🔥24
Media is too big
VIEW IN TELEGRAM
OpenAI отреагировала на критику пользователей и предоставила больше контроля над выбором моделей. Теперь вместо автоматической маршрутизации запросов можно вручную переключаться между тремя режимами GPT-5: Auto, Fast и Thinking. Также в интерфейс вернули возможность прямого выбора GPT-4o.
Ранее пользователи жаловались на непредсказуемость ChatGPT, подозревая, что система направляет сложные запросы на более дешевые модели. В ответ OpenAI не только вернула ручное управление, но и временно увеличила лимит на использование самого мощного режима "GPT-5 Thinking" до 3000 сообщений в неделю.
Кроме того, в настройках появилась опция, позволяющая выбирать и более старые модели o3 и 4.1.
Sam Altman в сети X
Apple активно разрабатывает новую линейку аппаратных и программных ИИ-продуктов. В нее войдут домашние роботы, кардинально переработанная Siri с разговорными навыками и расширенная линейка устройств для домашней безопасности.
Среди прототипов - настольный робот, дисплей которого имитирует движения головы во время видеозвонков и мобильный робот, способный следовать за пользователем по дому. Компания также тестирует умные колонки с экранами и работает над операционной системой "HomeOS", которая объединит все устройства в единую экосистему.
bloomberg.com
Google начала развертывание обновления Gemini, направленного на повышение персонализации и конфиденциальности. Ключевой стала функция Personal Context. С ней Gemini будет запоминать важные детали из прошлых разговоров пользователя и использовать их для адаптации будущих ответов. Опция включена по умолчанию, но ее можно отключить в настройках.
Также появятся "Временные чаты". Переписки в этом режиме не сохраняются в истории, не используются для обучения моделей и исчезают из интерфейса через 72 часа.
Пока функции доступны для модели Gemini 2.5 Pro в некоторых странах. В ближайшие недели Google обещает расширить их доступность на страны ЕС, Великобританию и Швейцарию и более легкую модель 2.5 Flash.
blog.google
DeepSeek готовится к релизу обновленной языковой модели DeepSeek R2. По данным отраслевых изданий, запуск ожидается в период с 15 по 30 августа. Официального анонса пока не было.
По предварительной информации, R2 будет использовать архитектуру "смеси экспертов" и распространяться под открытой лицензией. Также источники отмечают, что что модель обучалась на кластере Huawei Ascend 910B, где компания добилась улучшения эффективности использования аппаратного обеспечения, задействовав около 82% доступных мощностей ИИ-процессоров.
huaweicentral.com
Стартап Liquid AI представил новое поколение моделей LFM2-VL. Они спроектированы для работы на устройствах - от смартфонов и ноутбуков до носимой электроники. В основе - модульная архитектура с легковесным проектором, который сжимает токены изображений для ускорения обработки.
По заявлению разработчиков, они вдвое быстрее по инференсу на GPU по сравнению с аналогами, при сохранении конкурентоспособности на стандартных бенчмарках.
Выпущено 2 версии: LFM2-VL-450M для устройств с ограниченными ресурсами и LFM2-VL-1.6B для более сложных задач, которая подходит для работы на одном GPU.
Модели доступны на Hugging Face под лицензией Apache 2.0.
liquid.ai
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍54❤29🔥12👌4
Как внедрение ИИ бустит не только производительность, но и выручку
На фоне рекордной прибыли Microsoft сокращает 10 тысяч сотрудников и одновременно перестраивает подход к ИИ. Наделла говорит прямо: ставка теперь не на централизацию, а на масштабируемость и доступность инструментов для всех.
Ключевая идея — каждый сотрудник должен уметь собирать свои решения на базе ИИ. От Copilot до платформ под задачи внутри команды. Это не только про разработку, но и про изменение самой структуры работы.
ИИ всё чаще вшивается не «поверх» процессов, а становится частью оргдизайна. Там, где раньше нужен был отдельный продукт, сейчас достаточно одного агента. Где была инструкция — теперь цепочка действий с обучением на фидбэке.
Важно регулярно изучать разборы, как бизнес адаптируется под такие сдвиги: с чем сталкиваются, какие роли меняются, где ИИ действительно помогает работать по-новому, а не просто «добавляется в интерфейс».
На фоне рекордной прибыли Microsoft сокращает 10 тысяч сотрудников и одновременно перестраивает подход к ИИ. Наделла говорит прямо: ставка теперь не на централизацию, а на масштабируемость и доступность инструментов для всех.
Ключевая идея — каждый сотрудник должен уметь собирать свои решения на базе ИИ. От Copilot до платформ под задачи внутри команды. Это не только про разработку, но и про изменение самой структуры работы.
ИИ всё чаще вшивается не «поверх» процессов, а становится частью оргдизайна. Там, где раньше нужен был отдельный продукт, сейчас достаточно одного агента. Где была инструкция — теперь цепочка действий с обучением на фидбэке.
Важно регулярно изучать разборы, как бизнес адаптируется под такие сдвиги: с чем сталкиваются, какие роли меняются, где ИИ действительно помогает работать по-новому, а не просто «добавляется в интерфейс».
👍57🔥16❤10🤣8🌚2
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Команда Yan из Tencent анонсировала одноименный фреймворк для интерактивной генерации видео, который, по сути, является фундаментом для создания целых виртуальных миров в реальном времени. Yan объединяет 3 модуля: симуляцию уровня AAA-игр, мультимодальную генерацию контента и его редактирование на лету.
Он отвечает за симуляцию с реалистичной физикой и рендерингом в разрешении 1080p при 60 кадрах в секунду. В основе лежит Stable Diffusion, но с рядом модификаций.
Во-первых, был разработан VAE с высокой степенью сжатия и низкой задержкой. Он увеличивает пространственное сжатие с 8 до 32 раз и добавляет временное сжатие в 2 раза, обрабатывая кадры парами.
Во-вторых, для самого процесса диффузии используется каузальное временное внимание, что позволяет генерировать видео кадр за кадром.
Наконец, для ускорения инференса применяется целый набор техник: сокращение шагов шумоподавления до 4 с помощью DDIM-сэмплера, конвейер шумоподавления со скользящим окном, KV-кэширование, структурный прунинг UNet и квантование весов до FP8.
В итоге Yan-Sim выполняет генерацию бесконечного интерактивного видео с низкой задержкой (0.07с), что сопоставимо с реальным геймплеем.
В нем происходит мультимодальная генерация миров по текстовым и визуальным промптам с помощью двухуровневой системы иерархических описаний.
Глобальное описание определяет статичный мир: топологию, визуальный стиль и освещение, выполняя роль "якоря" для всей генерации.
Локальные описания, генерируемые для коротких видеоклипов, отвечают за динамические события и взаимодействия.
Этот подход позволяет модели смешивать стили и механики из разных доменов. Например, можно задать стиль одной игры, а механику - от другой.
Чтобы добиться интерактивности в реальном времени, готовая модель проходит через дистилляцию, в результате чего получается эффективный генератор, работающий в несколько шагов и выдающий 12-17 FPS на одной NVIDIA H20 или до 30 FPS на четырех.
Это редактор сгенерированного мира прямо во время взаимодействия с помощью текстовых команд. Ключевая идея здесь - разделение симуляции механики и визуального рендеринга.
Симулятор интерактивной механики, построенный на базе Yan-Sim, работает с картами глубины, сохраняя 3D-структуру объектов, но отбрасывая их визуальное оформление. Это позволяет ему изучать общие законы взаимодействия, зависящие от формы, а не от цвета или текстуры.
Визуальный рендерер, основанный на Yan-Gen и ControlNet, отвечает за раскрашивание этих карт глубины в соответствии со стилевыми промптами. Пользователь может в любой момент ввести два типа команд: структурные (например, "добавить интерактивный объект") и стилевые (например, "изменить цвет объекта").
Пока проект в самом начале своего пути - опубликованы только демо-видео и технический отчет, описывающий создание Yan. Модули системы, в виде отдельных моделей обещают опубликовать в ближайшее время.
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍54🔥28❤19😁1🥱1
В то время как многие компании ограничиваются теоретическими исследованиями в области искусственного интеллекта, технологическая платформа Авито выбирает принципиально иной путь. Компания объявила о создании научного отдела для практических исследований ИИ, в работу которого инвестирует 1 миллиард рублей.
Компания ожидает, что проект полностью окупится за счет реального применения. Каждая разработка пройдет путь от научной лаборатории до реального применения в сервисах Авито — никаких абстрактных исследований, только практические решения для миллионов пользователей.
Руководство отделом доверили Александру Рыжкову — одному из титулованных специалистов в области машинного обучения. Его статус четырехкратного Kaggle Grandmaster свидетельствует о редком сочетании глубоких теоретических знаний и практических навыков решения сложных задач. Под его руководством команда будет разрабатывать передовые решения в области генеративных моделей, компьютерного зрения, голосовых технологий, защиты от дипфейков и революционных 3D-технологий.
Андрей Рыбинцев, управляющий директор по ИИ Авито, подчеркивает, что компания стремится не просто идти в ногу с трендами, а задавать их. Также технологическая платформа планирует активно партнериться с ведущими вузами и участвовать в научных конференциях.
🤍 Подпишитесь на полезные каналы Авито.
Компания ожидает, что проект полностью окупится за счет реального применения. Каждая разработка пройдет путь от научной лаборатории до реального применения в сервисах Авито — никаких абстрактных исследований, только практические решения для миллионов пользователей.
Руководство отделом доверили Александру Рыжкову — одному из титулованных специалистов в области машинного обучения. Его статус четырехкратного Kaggle Grandmaster свидетельствует о редком сочетании глубоких теоретических знаний и практических навыков решения сложных задач. Под его руководством команда будет разрабатывать передовые решения в области генеративных моделей, компьютерного зрения, голосовых технологий, защиты от дипфейков и революционных 3D-технологий.
Андрей Рыбинцев, управляющий директор по ИИ Авито, подчеркивает, что компания стремится не просто идти в ногу с трендами, а задавать их. Также технологическая платформа планирует активно партнериться с ведущими вузами и участвовать в научных конференциях.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍33🤣20❤11🔥8🤝3😁1😨1
Вчера вышла любопытная статья на The Register раскрывает ключевую стратегию, лежащую в создании GPT-5: это не столько развитие новых возможностей, сколько способ экономии ресурсов.
Что нового?
ChatGPT — это 700 млн активных пользователей в неделю, но платных всего ~3%.
Масштаб колоссальный, но вместе с ним — и проблема: огромные расходы на вычисления.
@ai_machinelearning_big_data
#news #ai #ml #opanai #chatgpt
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
1👍91❤37🔥14😁8🙉2👏1💯1
АI-агенты в проде, AI-помощник в облаке — что дальше 🧠
Узнайте 3 сентября на IT-конференция про облака и AI — GoCloud Tech.
В этом году целый трек будет посвящен трендам в AI&ML:
Также будут отдельные треки про работу с данными, облачную инфраструктуру и сервисы для разработки. А еще — демо, воркшопы, карьерные консультации, мерч и яркое afterparty.
Регистрируйтесь🖱
Узнайте 3 сентября на IT-конференция про облака и AI — GoCloud Tech.
В этом году целый трек будет посвящен трендам в AI&ML:
➡️ Как AI-помощник может управлять инфраструктурой за вас➡️ Валидация RAG с помощью RAGAS➡️ SWE-Agents in Developer Tools➡️ Как собирать мультиагентную систему для любых задач➡️ Эволюция AI-агентов
Также будут отдельные треки про работу с данными, облачную инфраструктуру и сервисы для разработки. А еще — демо, воркшопы, карьерные консультации, мерч и яркое afterparty.
Регистрируйтесь
Please open Telegram to view this post
VIEW IN TELEGRAM
🤝22👍17❤8🔥3😁2
Модель 270 млн параметров (170M для эмбеддингов и 100M для трансформер-блоков), но с отличной способностью следовать промтпам прямо «из коробки».
🔹 Особенности
- 256k токенов
- Энергоэффективность: INT4-версия на Pixel 9 Pro расходует всего 0.75% батареи за 25 диалогов.
- Доступны предобученные и instruction-tuned чекпойнты.
- Поддержка Quantization-Aware Training (QAT) для запуска в INT4 без заметной потери качества.
- Массовые, чётко определённые задачи: анализ тональности, извлечение сущностей, обработка текста, комплаенс-проверки.
- Минимальные задержки и низкая стоимость инференса — можно запускать прямо на устройстве.
- Быстрые эксперименты с fine-tuning.
- Полная приватность данных благодаря on-device работе.
- Создание «флота» узкоспециализированных моделей.
В анонсе приводится пример, как Adaptive ML и SK Telecom дообучили Gemma 3 4B для мультиязычной модерации контента, превзойдя более крупные проприетарные модели.
Gemma 3 270M — отличная небольшая модель, быстрая и дешёвая в работе.
@ai_machinelearning_big_data
#news #ai #ml #Gemma #google
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍88❤30🔥19🤔2