Machinelearning

🌟

II-Thought-RL-v0: датасет для RL.

RL требует не только правильно настроенных алгоритмов, но и качественных данных. Многие существующие датасеты имеют проблемы в виде дублирования задач, низкого качества вопросов и недостаточную полноту охвата целевой специализации: в OpenR1 обнаружили 20 повторяющихся задач из Math-500, а General Reasoning содержит мусорные данные из-за обработке на краудсорсинге. Это мешает моделям учиться глубокому анализу, заставляя их «угадывать» ответы вместо логических рассуждений.

Intelligent Internet представили II-Thought-RL-v0 — датасет из 340 тысяч задач, созданный для решения этих проблем. Его ключевые принципы: масштаб, качество и чистота данных.

Каждый вопрос проходит многоступенчатую обработку: сначала удаляются дубликаты и загрязненные данные, затем Gemini 2.0 Flash и Qwen-2.5-32B фильтруют неоднозначные или некорректные задачи - отбраковываются вопросы с ошибками в формулировках, зависимостью от изображений или открытыми ответами.

Особенность датасета — акцент на верификацию. Математические задачи проверяются через Math-Verify, код запускается в изолированном окружении Sandbox Fusion, а для медицинских вопросов используется LLM-судья. Это снижает риск «взлома наград», когда модель начинает идти кратчайшим путем, а не решать задачи, рассуждая.

II-Thought-RL-v0 уже превзошел аналоги в тестах: модель с 1,5 млрд. параметров, обученная на этом датасете, обогнала DeepSeek-R1 на 3-5% в задачах AIME и LiveCodeBench.

Пока остается нерешенным вопрос дисбаланса сфер в наборе: 70% данных относятся к математике и программированию, а медицина, финансы и инженерия почти не представлены. В будущем создатели датасета планируют расширить его, чтобы модели учились рассуждать в реальных мультидисциплинарных сценариях.

🟡

Статья

🟡

Модель

🟡

Датасет

🖥

GitHub

@ai_machinelearning_big_data

#AI #ML #LLM #RL #Dataset

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍47🔥14❤10

14.3K views11:00

Machinelearning

🌟

Magma – это фундаментальная модель от Microsoft, предназначенная для создания мульти-модальных AI-агентов, способных воспринимать окружение и действовать в цифровом и физическом мире.

Эта модель объединяет данные из различных источников (изображения, видео, данные о робототехнических манипуляциях и тд) и позволяет решать сложные задачи, требующие одновременной обработки текстовой, визуальной и пространственной информации.

Как работает Magma:
🟢 Используется единый визуальный энкодер, который преобразует изображения и видео в векторные представления, обеспечивая универсальное понимание визуальных данных.
🟢 Далее применяется техника Set-of-Mark (SoM) для маркировки ключевых объектов в изображениях (например, интерактивных кнопок или частей робота), что позволяет модели точно «привязывать» действия к нужным элементам сцены.

🟢

Техника Trace-of-Mark (ToM) отвечает за планирование действий, анализируя динамику видеоданных и предсказывая последовательности будущих движений или изменений состояния объектов.
🟢Интеграция визуальной информации с текстовыми данными осуществляется через языковую модель, которая генерирует ответы в виде текста, пространственных координат или команд для выполнения конкретных задач.

Для чего нужен:

🟢Magma обеспечивает мульти-модальное понимание данных, объединяя вербальный, пространственный и временной аспекты, что значительно расширяет возможности AI-агентов.
🟢 Применим в широком спектре задач – от навигации по пользовательским интерфейсам до управлени роботами и играми – благодаря способности адаптироваться к новым задачам без дообучения (zero-shot).
🟢Позволяет разрабатывать интеллектуальные системы, которые не просто анализируют данные, но и планируют и осуществляют последовательность действий, что особенно важно для робототехники и интерактивных приложений.

🟡

Github

🟡

Проект

🟡

Статья

🟡

Video

@ai_machinelearning_big_data

#AI #ML #LLM #opensource #agents #Microsoft

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍58🔥19❤9👌5

20.9K views13:24

Machinelearning

0:16

This media is not supported in your browser

VIEW IN TELEGRAM

✔️

DeepSite на базе DeepSeek-V3-0324, позволяет генерировать, код, приложения или игры прямо в браузере и хостить их.

Сгенерировал парочку простеньких HTML-игр с интерфейсом, работает годно.

😶

По сути это Сursor в браузере.

🟡

Попробовать: https://huggingface.co/spaces/enzostvs/deepsite

@ai_machinelearning_big_data

#deepseek #vibecoding #app

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥108👍34❤18😁9🤩2😨1

46.1K viewsedited 18:39

Machinelearning

✔️

Киностудии требуют доход с ИИ-трейлеров на YouTube вместо их блокировки.

Warner Bros., Sony Pictures и Paramount меняют подход к защите контента: вместо удаления сгенерированных фейковых трейлеров на YouTube они настаивают на передаче им рекламных доходов. Например, Warner Bros. претендует на монетизацию роликов с использованием «Супермена», а Sony — трейлеров к «Человеку-пауку» и «Крейвену». Это стратегический шаг — студии видят в ИИ не только угрозу, но и источник прибыли, адаптируясь к цифровой реальности.

Технологии генерации контента упростили создание фейков, но теперь авторы таких видео рискуют лишиться заработка. Вместо привычных копирайт-страйков правообладатели используют систему Content ID, автоматически перенаправляя деньги себе. Пока неясно, как эта ситуация повлияет на кузнецов контента — возможно, им придется искать новые платформы или договариваться со студиями.
deadline.com

✔️

Manus AI выпустили приложение для iOS, перешли на Sonnet 3.7 и опубликовали тарифы.

Manus AI анонсировала запуск мобильного приложения для iOS. Основной фишкой стал Sandbox с расширенным контекстом и мультимодальными функциями. Всю систему перевели на Claude 3.7 Sonnet, что повысило скорость и точность обработки задач.

После закрытого бета-тестирования Manus AI открыл доступ всем пользователям, предложив 3 тарифа: Free дает 1000 кредитов, Starter за $39/мес. - 3900 кредитов и 2 параллельных процесса , Pro-версия ($199/мес) - 19 900 кредитов, 5 задач одновременно + доступ к бета-функциям.
Manus AI в X (ex-Twitter)

✔️

ЕС инвестирует 1,3 млрд. евро в ИИ, кибербезопасность и цифровые навыки.

Еврокомиссия планирует инвестировать 1,3 млрд. евро (1,4 млрд долларов) в ИИ, кибербезопасность и цифровые навыки в рамках программы "Цифровая Европа" в период с 2025 по 2027 год, говорится в заявлении, опубликованном в пятницу.
"Обеспечение технологического суверенитета Европы начинается с инвестирования в передовые технологии и предоставления людям возможности повысить свою цифровую компетентность", - заявила руководитель отдела цифровых технологий Европейской комиссии Хенна Вирккунен.
reuters.com

✔️

VBench-2.0: обновление бенчмарка генерации видео.

Обновленный VBench-2.0 от NTU S-Lab и Shanghai AI Lab переводит оценку ИИ-видео с «красивой картинки» на уровень глубинного понимания физики, анатомии и логики. Система проверяет 18 параметров — от движения камеры до правдоподобности бытовых сцен. VBench-2.0 в открытом доступе — можно тестировать свои модели, сравнивать результаты и влиять на развитие экосистемы.
github.com

✔️

Amazon Interests: гиперперсонализированный шопинг с ИИ.

Новый сервис Interests от Amazon использует ИИ, чтобы превратить хобби пользователей в высокоточные рекомендации. Система анализирует естественные запросы вроде «инструменты для варки кофе» или «деревянные головоломки», преобразуя их в поисковые параметры. Под капотом, возможно, задействована масштабированная версия модели Nova series Reasoning — хотя компания пока не раскрывает детали.

Интересы можно детализировать: указать бюджет, материалы или цвета, а алгоритм будут непрерывно предлагать новые товары. Планируется, что сервис интегрируют в Alexa+ — следующее поколение ассистента, которое будет подключать специализированные ИИ-модули.

Пока функция доступна ограниченному кругу пользователей в США через мобильное приложение. Но если тесты пройдут успешно, Amazon масштабирует технологию, усиливая конкуренцию в сфере персонализированной коммерции.
aboutamazon.com

✔️

В GPT-4o был замечен ризонинг!

Ожидается, что во все модели будут добавлены новые инструменты и обновления.

@ai_machinelearning_big_data

#news #ai #ml

Please open Telegram to view this post

VIEW IN TELEGRAM

👍54❤18🔥12❤‍🔥4🌚2🤣1

16.7K viewsedited 07:23

Machinelearning

0:30

This media is not supported in your browser

VIEW IN TELEGRAM

🌟

TripoSG и TripoSF — это новые модели генеративного ИИ для создания высококачественных 3D-моделей.

TripoSG 1.5B преобразует одиночные 2D-изображения (фото, эскизы, мультяшные картинки) в детализированные 3D-сетки (meshes).

TripoSF - это продвинутый инструмент: он работает с более сложными топологиями, создает высокое разрешение (до 1024³) и может моделировать даже внутренние детали объектов, например, сложные механизмы.

😶

Как работают эти модели?
TripoSG использует rectified flow transformers (трансформеры с выпрямленным потоком). Это метод, который упрощает процесс генерации, соединяя данные и шум по прямой линии (в отличие от традиционных диффузионных моделей, где путь более сложный).
Дифференцируемое представление данных, которое позволяет экономить память при работе с высоким разрешением .

😶

Данные для обучения: Модель обучена на специально подготовленном наборе данных из 2 миллионов пар "изображение-SDF" (SDF — signed distance function, функция, описывающая расстояние до поверхности объекта).

😶

Процесс работы: Вы загружаете одно изображение (например, фото статуи или рисунок персонажа). Модель анализирует его, используя вариационный автоэнкодер (VAE) с геометрическим надзором, и генерирует 3D-сетку с высокой детализацией.

😶

Результат: На выходе получаем 3D-модель, которую можно использовать в играх, анимации или 3D-печати.
TripoSF

Модель может обрабатывать сложные топологии (например, открытые поверхности или внутренние структуры) и обучена с использованием вокселей, учитывающих перспективу (frustum-aware voxels).

Tripo известны своим сотрудничеством со Stability AI. Ранее они выпустили TripoSR — модель для быстрой реконструкции 3D-объектов из одного изображения, которая тоже стала open-source. TripoSG и TripoSF — это более продвинутые версии, которые расширяют возможности 3D геенрацит: от простых объектов до сложных структур с высоким разрешением.

🟡

Github

🟡

Model

🟡

Project

🟡

Paper

@ai_machinelearning_big_data

#ai #3dgeneration #opensource #Tripo

Please open Telegram to view this post

VIEW IN TELEGRAM

👍59🔥22❤17🙏3🕊1

20.2K views11:56

Machinelearning

✔️ Теперь Gemini 2.5 Pro теперь доступна бесплатно для всех пользователей с аккаунтом Google.

Пользуемся: https://gemini.google.com

@ai_machinelearning_big_data

#Gemini #google

Please open Telegram to view this post

VIEW IN TELEGRAM

👍80🔥26❤12😐11

19.1K viewsedited 07:25

Machinelearning

0:31

This media is not supported in your browser

VIEW IN TELEGRAM

🌟

VideoMind - это агент для анализа видео, разработанный для точного понимания контента с привязкой ко времени.

Основная цель инструмента - обеспечить "temporal-grounded video understanding", то есть способность отвечать на вопросы о видео, точно указывая на конкретные моменты (визуальные доказательства) в видеоряде, что является сложной задачей для стандартных больших языковых моделей.

Как работает:
🟢 Внутри использует ролевой агентный подход (role-based agentic workflow), который включает специализированные компоненты (роли), такие как планировщик (planner) для координации, локализатор (grounder) для привязки ко времени, верификатор (verifier) для оценки точности временных интервалов и ответчик (answerer) для формулировки ответа.
🟢 Разработчики использовали очень интересную стратегию "Chain-of-LoRA", которая позволяет эффективно переключаться между различными ролями с помощью легковесных адаптеров LoRA (Low-Rank Adaptation) без необходимости загружать несколько отдельных моделей, оптимизируя баланс между гибкостью и вычислительной эффективностью.

✔️ Результаты: демонстрирует SOTA производительность на 14 бенчмарках для различных задач понимания видео, включая ответы на вопросы с привязкой ко времени (Grounded VideoQA), временную локализацию событий (VTG) и общие ответы на вопросы по видео (VideoQA).

🟡

🟡

🟡

🟡

🟡

Checkpoints

@ai_machinelearning_big_data

#agent #ai #ml #video

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥63👍13❤12✍4🥰3

17.7K views09:23

Machinelearning

🔥

Hugging Face выпустила версию 0.30.0 библиотеки huggingface_hub - это самое крупное обновление за два года!

Представлены значительные улучшения, особенно в области хранения и обработки больших моделей и датасетов.

✔️

Основные нововведения:

Интеграция с Xet: Внедрена поддержка Xet — передового протокола для хранения крупных объектов в Git-репозиториях, призванного заменить Git LFS.

В отличие от LFS, который выполняет дедупликацию на уровне файлов, Xet работает на уровне фрагментов данных, что особенно полезно для специалистов, работающих с массивными моделями и датасетами.

Для интеграции с Python используется пакет xet-core, написанный на Rust, который обрабатывает все низкоуровневые детали.

Чтобы начать использовать Xet, установите дополнительную зависимость:
pip install -U huggingface_hub[hf_xet]

После установки вы сможете загружать файлы из репозиториев, поддерживающих Xet.

Доплнительно:
😶 Расширен InferenceClient:
😶 Добавлена поддержка новых провайдеров для инференса: Cerebras и Cohere.
😶 Внедрены асинхронные вызовы для задач инференса (например, text-to-video), что повышает стабильность и удобство работы.
😶 Улучшен CLI
😶 Команда huggingface-cli upload теперь поддерживает wildcards (шаблоны) прямо в пути к файлам (например, huggingface-cli upload my-model *.safetensors вместо опции --include).
😶 Команда huggingface-cli delete-cache получила опцию --sort для сортировки кэшированных репозиториев (например, по размеру: --sort=size).

✔️

Полный список обновлений

✔️

Блог

✔️

Документация по Xet

@ai_machinelearning_big_data

#huggingface #release #xet

Please open Telegram to view this post

VIEW IN TELEGRAM

👍46❤12🔥6🥱1🍾1

24.4K viewsedited 11:53

About

Blog

Apps

Platform