226K subscribers
3.89K photos
661 videos
17 files
4.5K links
Погружаемся в машинное обучение и Data Science

Показываем как запускать любые LLm на пальцах.

По всем вопросам - @haarrp

@itchannels_telegram -🔥best channels

Реестр РКН: clck.ru/3Fmqri
Download Telegram
🎮 Matrix-Game 2.0 — первая опенсорс модель, которая генерирует интерактивные 3D-миры из текста в реальном времени


Неделю назад DeepMind показала Genie 3, но код не был выложен в открытый доступ.

А сегодня Skywork выложили свой генератор
Matrix-Game 2.0 миров в опенсорс 🚀

Возможности:

🟢25 кадров/с в реальном времени
🟢Генерирует минуты непрерывного геймплея
🟢Полная интерактивность: движение, повороты, исследование мира

Можно использовать несколько встроенных шаблонов: город, дикая природа, TempleRun, GTA и др.

Зачем это нужно:
🟠Создание игровых движков
🟠Тренировка AI-агентов
🟠Создание виртуальных персонажей

Заявленые требования: GPU с памятью не менее 24 ГБ (A100 и H100 протестированы).

Как работает:
• Обучена на 1350 часах видео геймлея
• Управление: движок реагирует на нажатия клавиш и движение мыши на каждом кадре
• Модель: 1,3 млрд параметров
• KV-Cache хранит контекст, чтобы окружение генерировалось без ограничений по времени

🟡Huggingface Model: https://huggingface.co/Skywork/Matrix-Game-2.0
🟡 Repo: https://matrix-game-v2.github.io

@ai_machinelearning_big_data

#AI #MatrixGame #OpenSource #DeepLearning #GameDev #InteractiveAI #WorldModel #GenerativeAI #RealtimeAI #MachineLearning
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥87👍3024🥱5😐4
Media is too big
VIEW IN TELEGRAM
✔️ OpenAI инвестирует в Merge Labs - конкурента Neuralink.

OpenAI ведет переговоры об инвестициях в Merge Labs, стартап в области нейрокомпьютерных интерфейсов, который планирует создание высокоскоростных BCI-систем.

Merge Labs планирует привлечь 250 миллионов долларов при оценке в 850 миллионов. Сэм Альтман будет числиться сооснователем вместе с бывшим топ-менеджером Neuralink Алексом Бланиа, однако не будет заниматься операционной деятельностью. Ожидается, что основное финансирование поступит от венчурного подразделения OpenAI.

Этот шаг еще больше обостряет давнее соперничество между Альтманом и Маском, которые в 2015 году вместе основали OpenAI, но позже разошлись во взглядах.
ft.com

✔️ Контекстное окно Claude Sonnet 4 расширено до миллиона токенов.

Anthropic объявила о значительном увеличении контекстного окна для Claude Sonnet 4 до одного миллиона токенов. Это в 5 раз больше предыдущего лимита и позволит обрабатывать за один проход целые кодовые базы или большие массивы документов. Новая возможность уже доступна в публичной бете через API Anthropic, Amazon Bedrock, а в скором времени появится и в Google Cloud Vertex AI.

За расширение придется платить больше. Для запросов свыше 200 тыс. входных токенов цена удваивается и составит 6 долларов за миллион токенов. Стоимость выходных токенов также вырастет с 15 до 22.50 долларов за миллион.
anthropic.com

✔️ Microsoft ведет целенаправленную кампанию по найму топовых инженеров и исследователей из компании Марка Цукерберга.

Согласно внутренним документам, Microsoft составила список конкретных сотрудников с указанием их имен, ролей и принадлежности к командам: Reality Labs, GenAI Infrastructure и AI Research. Корпорация готова предложить им многомиллионные компенсационные пакеты - крупные бонусы при найме, конкурентные зарплаты, значительные пакеты акций и высокие годовые премии.

Для ускорения процесса в Microsoft внедрили специальную процедуру. Рекрутеры могут помечать кандидатов как "критически важные ИИ-таланты" и тогда процесс рассмотрения и утверждения на уровне руководства возможен в течение 24 часов.
businessinsider.com

✔️ AI2 выпустил открытую модель для робототехники.

Институт искусственного интеллекта Аллена представил MolmoAct 7B — опенсорсную модель для планирования движений роботов в трехмерном пространстве. Система интерпретирует команды на естественном языке, создает 3D-реконструкцию сцены и прокладывает траекторию движения, которую разработчик может просмотреть и скорректировать до того, как робот начнет действовать.

Модель на 7 млрд. параметров была обучена на 18 млн. примеров, в которых были включены 12 тыс. эпизодов из реального мира. В бенчмарке SimPLER система показала успешность выполнения задач в 72.1%, обойдя решения от Nvidia, Google и Microsoft.

AI2 опубликовал техотчет, веса и датасеты, позиционируя MolmoAct как свободно доступную альтернативу проприетарным решениям.
allenai.org

✔️ SEELE AI запустила публичное тестирование генератора 3D-игр по текстовому описанию.

Платформа создает полноценные, играбельные проекты на основе текстового описания на естественном языке, не требуя навыков программирования. Система использует большие модели для автоматической генерации всех ключевых элементов: 3D-сцен, персонажей и игровой логики, интегрируя текст, 3D-моделирование и физические движки.

Помимо основной генерации, инструмент поддерживает персонализацию созданных игр, предварительный просмотр в реальном времени и возможность оптимизации. SEELE AI позиционирует свой сервис не только как игровой инструмент, но и как платформу для создания контента в сфере образования, маркетинга и социальных сетей.
Попробовать инструмент можно на официальном сайте.
Seele AI в сети Х

@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6222🔥13
🌟 Embedding Atlas: визуализация структуры эмбедингов прямо в браузере.

Embedding Atlas — опенсорсный инструмент от Apple для интерактивной визуализации больших наборов векторных представлений, который позволяет не просто смотреть на облако точек, а полноценно с ним работать. И что самое приятное, он способен отрисовывать до нескольких миллионов точек благодаря реализации на WebGPU.

🟡Автоматическая кластеризация и разметка данных.

Embedding Atlas сам находит скопления в данных и подписывает их, позволяя мгновенно сориентироваться в общей структуре датасета. Чтобы отделить реальные кластеры от случайных выбросов, используется оценка плотности ядра с отрисовкой контуров плотности.

Решена и вечная проблема визуализаций - "каша" из перекрывающихся точек. Embedding Atlas использует технологию order-independent transparency, так что даже при большом наложении точек картинка остаётся четкой и информативной.

🟡Интерактивность.

В инструменте есть поиск в реальном времени и нахождение ближайших соседей. Можно ввести текстовый запрос или просто кликнуть на любую точку в облаке, и Embedding Atlas мгновенно подсветит наиболее похожие на нее данные.

Еще есть интерактивный фильтр по метаданным. Например, можно выбрать на гистограмме определенный класс объектов, и визуализация тут же отфильтрует эмбединги, оставив только соответствующие ему точки.

🟡Embedding Atlas поставляется в виде 2 пакетов:

🟢Python-пакет

Дает три варианта интеграции: утилиту командной строки для быстрой визуализации датафреймов, виджет для Jupyter, позволяющий встраивать атлас прямо в ноутбуки, и компонент для Streamlit, если вы создаете полноценные веб-приложения.

🟢Npm-пакет

Этот пакет для тех, кто хочет встроить визуализацию в собственные веб-приложения. Он предоставляет готовые UI-компоненты в виде API: Table, EmbeddingView, EmbeddingViewMosaic и EmbeddingAtlas.


📌Лицензирование: MIT License.


🟡Страница проекта
🟡Документация
🟡Demo
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #Embedding #Visualisation #Apple
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍7437🔥24
Media is too big
VIEW IN TELEGRAM
✔️ OpenAI вернула пользователям контроль над выбором моделей в ChatGPT.

OpenAI отреагировала на критику пользователей и предоставила больше контроля над выбором моделей. Теперь вместо автоматической маршрутизации запросов можно вручную переключаться между тремя режимами GPT-5: Auto, Fast и Thinking. Также в интерфейс вернули возможность прямого выбора GPT-4o.

Ранее пользователи жаловались на непредсказуемость ChatGPT, подозревая, что система направляет сложные запросы на более дешевые модели. В ответ OpenAI не только вернула ручное управление, но и временно увеличила лимит на использование самого мощного режима "GPT-5 Thinking" до 3000 сообщений в неделю.

Кроме того, в настройках появилась опция, позволяющая выбирать и более старые модели o3 и 4.1.
Sam Altman в сети X

✔️ Apple готовит домашних роботов и человечную Siri.

Apple активно разрабатывает новую линейку аппаратных и программных ИИ-продуктов. В нее войдут домашние роботы, кардинально переработанная Siri с разговорными навыками и расширенная линейка устройств для домашней безопасности.

Среди прототипов - настольный робот, дисплей которого имитирует движения головы во время видеозвонков и мобильный робот, способный следовать за пользователем по дому. Компания также тестирует умные колонки с экранами и работает над операционной системой "HomeOS", которая объединит все устройства в единую экосистему.
bloomberg.com

✔️ Gemini научился запоминать личный контекст и вести временные чаты.

Google начала развертывание обновления Gemini, направленного на повышение персонализации и конфиденциальности. Ключевой стала функция Personal Context. С ней Gemini будет запоминать важные детали из прошлых разговоров пользователя и использовать их для адаптации будущих ответов. Опция включена по умолчанию, но ее можно отключить в настройках.

Также появятся "Временные чаты". Переписки в этом режиме не сохраняются в истории, не используются для обучения моделей и исчезают из интерфейса через 72 часа.

Пока функции доступны для модели Gemini 2.5 Pro в некоторых странах. В ближайшие недели Google обещает расширить их доступность на страны ЕС, Великобританию и Швейцарию и более легкую модель 2.5 Flash.
blog.google

✔️ DeepSeek, предположительно, выпустит модель R2 во второй половине августа.

DeepSeek готовится к релизу обновленной языковой модели DeepSeek R2. По данным отраслевых изданий, запуск ожидается в период с 15 по 30 августа. Официального анонса пока не было.

По предварительной информации, R2 будет использовать архитектуру "смеси экспертов" и распространяться под открытой лицензией. Также источники отмечают, что что модель обучалась на кластере Huawei Ascend 910B, где компания добилась улучшения эффективности использования аппаратного обеспечения, задействовав около 82% доступных мощностей ИИ-процессоров.
huaweicentral.com

✔️ Liquid AI выпустила компактные VL-модели для работы на устройствах.

Стартап Liquid AI представил новое поколение моделей LFM2-VL. Они спроектированы для работы на устройствах - от смартфонов и ноутбуков до носимой электроники. В основе - модульная архитектура с легковесным проектором, который сжимает токены изображений для ускорения обработки.

По заявлению разработчиков, они вдвое быстрее по инференсу на GPU по сравнению с аналогами, при сохранении конкурентоспособности на стандартных бенчмарках.

Выпущено 2 версии: LFM2-VL-450M для устройств с ограниченными ресурсами и LFM2-VL-1.6B для более сложных задач, которая подходит для работы на одном GPU.
Модели доступны на Hugging Face под лицензией Apache 2.0.
liquid.ai

@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5429🔥12👌4
Как внедрение ИИ бустит не только производительность, но и выручку

На фоне рекордной прибыли Microsoft сокращает 10 тысяч сотрудников и одновременно перестраивает подход к ИИ. Наделла говорит прямо: ставка теперь не на централизацию, а на масштабируемость и доступность инструментов для всех.

Ключевая идея — каждый сотрудник должен уметь собирать свои решения на базе ИИ. От Copilot до платформ под задачи внутри команды. Это не только про разработку, но и про изменение самой структуры работы.

ИИ всё чаще вшивается не «поверх» процессов, а становится частью оргдизайна. Там, где раньше нужен был отдельный продукт, сейчас достаточно одного агента. Где была инструкция — теперь цепочка действий с обучением на фидбэке.

Важно регулярно изучать разборы, как бизнес адаптируется под такие сдвиги: с чем сталкиваются, какие роли меняются, где ИИ действительно помогает работать по-новому, а не просто «добавляется в интерфейс».
👍57🔥1610🤣8🌚2
📌Tencent Yan: создание AAA-игр в реальном времени с помощью диффузионных моделей.

Команда Yan из Tencent анонсировала одноименный фреймворк для интерактивной генерации видео, который, по сути, является фундаментом для создания целых виртуальных миров в реальном времени. Yan объединяет 3 модуля: симуляцию уровня AAA-игр, мультимодальную генерацию контента и его редактирование на лету.

🟡Первый модуль — Yan-Sim.

Он отвечает за симуляцию с реалистичной физикой и рендерингом в разрешении 1080p при 60 кадрах в секунду. В основе лежит Stable Diffusion, но с рядом модификаций.

Во-первых, был разработан VAE с высокой степенью сжатия и низкой задержкой. Он увеличивает пространственное сжатие с 8 до 32 раз и добавляет временное сжатие в 2 раза, обрабатывая кадры парами.

Во-вторых, для самого процесса диффузии используется каузальное временное внимание, что позволяет генерировать видео кадр за кадром.

Наконец, для ускорения инференса применяется целый набор техник: сокращение шагов шумоподавления до 4 с помощью DDIM-сэмплера, конвейер шумоподавления со скользящим окном, KV-кэширование, структурный прунинг UNet и квантование весов до FP8.

В итоге Yan-Sim выполняет генерацию бесконечного интерактивного видео с низкой задержкой (0.07с), что сопоставимо с реальным геймплеем.

🟡Второй модуль - Yan-Gen.

В нем происходит мультимодальная генерация миров по текстовым и визуальным промптам с помощью двухуровневой системы иерархических описаний.

Глобальное описание определяет статичный мир: топологию, визуальный стиль и освещение, выполняя роль "якоря" для всей генерации.

Локальные описания, генерируемые для коротких видеоклипов, отвечают за динамические события и взаимодействия.

Этот подход позволяет модели смешивать стили и механики из разных доменов. Например, можно задать стиль одной игры, а механику - от другой.

Чтобы добиться интерактивности в реальном времени, готовая модель проходит через дистилляцию, в результате чего получается эффективный генератор, работающий в несколько шагов и выдающий 12-17 FPS на одной NVIDIA H20 или до 30 FPS на четырех.

🟡Третий модуль - Yan-Edit.

Это редактор сгенерированного мира прямо во время взаимодействия с помощью текстовых команд. Ключевая идея здесь - разделение симуляции механики и визуального рендеринга.

Симулятор интерактивной механики, построенный на базе Yan-Sim, работает с картами глубины, сохраняя 3D-структуру объектов, но отбрасывая их визуальное оформление. Это позволяет ему изучать общие законы взаимодействия, зависящие от формы, а не от цвета или текстуры.

Визуальный рендерер, основанный на Yan-Gen и ControlNet, отвечает за раскрашивание этих карт глубины в соответствии со стилевыми промптами. Пользователь может в любой момент ввести два типа команд: структурные (например, "добавить интерактивный объект") и стилевые (например, "изменить цвет объекта").

Пока проект в самом начале своего пути - опубликованы только демо-видео и технический отчет, описывающий создание Yan. Модули системы, в виде отдельных моделей обещают опубликовать в ближайшее время.


@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍54🔥2819😁1🥱1
В то время как многие компании ограничиваются теоретическими исследованиями в области искусственного интеллекта, технологическая платформа Авито выбирает принципиально иной путь. Компания объявила о создании научного отдела для практических исследований ИИ, в работу которого инвестирует 1 миллиард рублей.

Компания ожидает, что проект полностью окупится за счет реального применения. Каждая разработка пройдет путь от научной лаборатории до реального применения в сервисах Авито — никаких абстрактных исследований, только практические решения для миллионов пользователей.

Руководство отделом доверили Александру Рыжкову — одному из титулованных специалистов в области машинного обучения. Его статус четырехкратного Kaggle Grandmaster свидетельствует о редком сочетании глубоких теоретических знаний и практических навыков решения сложных задач. Под его руководством команда будет разрабатывать передовые решения в области генеративных моделей, компьютерного зрения, голосовых технологий, защиты от дипфейков и революционных 3D-технологий.

Андрей Рыбинцев, управляющий директор по ИИ Авито, подчеркивает, что компания стремится не просто идти в ногу с трендами, а задавать их. Также технологическая платформа планирует активно партнериться с ведущими вузами и участвовать в научных конференциях.

🤍 Подпишитесь на полезные каналы Авито.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍33🤣2011🔥8🤝3😁1😨1
🖥 GPT-5 - это скорее оптимизация затрат, чем технологический скачок

Вчера вышла любопытная статья на The Register раскрывает ключевую стратегию, лежащую в создании GPT-5: это не столько развитие новых возможностей, сколько способ экономии ресурсов.

Что нового?
🟠 Композиция из моделей и роутер — вместо одной модели GPT-5 — система минимум из двух моделей: лёгкой и тяжёлой, плюс роутер, который выбирает, какую использовать в зависимости от запроса. Это снижает нагрузку и экономит вычисления.
🟠 Автоматическое отключение рассуждений — reasoning включается только при необходимости. Бесплатные пользователи не могут управлять этим процессом — меньше вычислений, меньше токенов, ниже затраты.
🟠 Отказ от старых моделей — временное отключение GPT-4o. Позже модель вернули для платных пользователей, но общее сокращение числа моделей — часть экономии.
🟠 Ограниченный контекст — 8 000 токенов бесплатно и до 128 000 в Plus/Pro.

✔️ Почему эффективность стала ключевым фактором

ChatGPT — это 700 млн активных пользователей в неделю, но платных всего ~3%.

Масштаб колоссальный, но вместе с ним — и проблема: огромные расходы на вычисления.

🟢 Главный козырь OpenAI — дистрибуция. Для большинства людей за пределами AI-сферы ChatGPT = искусственный интеллект, так же как Google = поиск. Но такое лидерство дорого обходится.

🟢 При этом OpenAI нужно постоянно искать новые деньги, чтобы поддерживать и обучение, и инференс. Да, партнёрство с Microsoft помогает, но ситуация сложнее, чем у конкурентов вроде Google — у них стабильная прибыль, собственные дата-центры и TPUs.

🟢 На этом фоне логично, что в GPT-5 сделали сильный упор на эффективность — чтобы снизить затраты и сохранить конкурентное преимущество.

📌 Подробности

@ai_machinelearning_big_data

#news #ai #ml #opanai #chatgpt
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
1👍9137🔥14😁8🙉2👏1💯1
АI-агенты в проде, AI-помощник в облаке — что дальше 🧠

Узнайте 3 сентября на IT-конференция про облака и AI — GoCloud Tech.

В этом году целый трек будет посвящен трендам в AI&ML:

➡️ Как AI-помощник может управлять инфраструктурой за вас
➡️ Валидация RAG с помощью RAGAS
➡️ SWE-Agents in Developer Tools
➡️ Как собирать мультиагентную систему для любых задач
➡️ Эволюция AI-агентов


Также будут отдельные треки про работу с данными, облачную инфраструктуру и сервисы для разработки. А еще — демо, воркшопы, карьерные консультации, мерч и яркое afterparty.

Регистрируйтесь🖱
Please open Telegram to view this post
VIEW IN TELEGRAM
🤝22👍178🔥3😁2
Google представила Gemma 3 270M — свою новую компактную модель

Модель 270 млн параметров (170M для эмбеддингов и 100M для трансформер-блоков), но с отличной способностью следовать промтпам прямо «из коробки».

🔹 Особенности
- 256k токенов
- Энергоэффективность: INT4-версия на Pixel 9 Pro расходует всего 0.75% батареи за 25 диалогов.
- Доступны предобученные и instruction-tuned чекпойнты.
- Поддержка Quantization-Aware Training (QAT) для запуска в INT4 без заметной потери качества.

💼 Когда использовать
- Массовые, чётко определённые задачи: анализ тональности, извлечение сущностей, обработка текста, комплаенс-проверки.
- Минимальные задержки и низкая стоимость инференса — можно запускать прямо на устройстве.
- Быстрые эксперименты с fine-tuning.
- Полная приватность данных благодаря on-device работе.
- Создание «флота» узкоспециализированных моделей.

В анонсе приводится пример, как Adaptive ML и SK Telecom дообучили Gemma 3 4B для мультиязычной модерации контента, превзойдя более крупные проприетарные модели.

Gemma 3 270M — отличная небольшая модель, быстрая и дешёвая в работе.

🟠Подробности: https://developers.googleblog.com/en/introducing-gemma-3-270m/
🟠HF: https://huggingface.co/collections/google/gemma-3-release-67c6c6f89c4f76621268bb6d

@ai_machinelearning_big_data

#news #ai #ml #Gemma #google
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍8830🔥19🤔2