Generative AI

🌟 MM-EUREKA: Мультимодальный ризонинг.

MM-Eureka — разработка Шанхайской лаборатории ИИ, которая совершила шаг вперед в решении задач, требующих анализа изображений и текста. В отличие от рядовых VLM, эта модель сочетает RL с мультимодальным мышлением, имитируя человеческую способность, схожую с «моментами озарения». Авторы заявляют, что MM-Eureka не только обладает повышенной точностью ответов, но и учится перепроверять визуальные данные с помошью рассуждений.

MM-Eureka суперэффективна: даже при обучении на 0,05% данных от аналогов, модель превзошла их в тестах на математическую логику и анализ графиков. Например, в задачах уровня школьной программы она показала рост точности на 8,2%. При этом тестовая модель, не имея явных инструкций, научилась «переосмысливать» изображения — заново оценивать геометрические схемы для поиска ошибок.

В основе MM-Eureka - модели InternVL2.5 с параметрами 8 и 38 млрд. Архитектура объединяет механизмы внимания для анализа визуальных паттернов и языковые слои для генерации ответов.

Обучение строилось на алгоритме RLOO (REINFORCE Leave-One-Out), который снижает шум в оценках преимуществ, и PPO-clip, предотвращающем резкие изменения политики. Авторы отказались от ограничений KL-дивергенции, чтобы не сдерживать «творческий» поиск решений. Функция вознаграждения включала проверку точности ответов через Math-Verify и соблюдение структуры вывода, чтобы усилить логическую строгость.

▶️В релиз вошли 2 модели, датасет и код для самостоятельных изысканий в обучении:

🟢

MM-Eureka-8B

🟢

MM-Eureka-Zero-38B

🟠

MM-Eureka-Dataset

📌Лицензирование: Apache 2.0 License.

🟡

Набор моделей

🟡

Техотчет

🟡

Датасет

🖥

GitHub

@ai_machinelearning_big_data

#AI #ML #Reasoning #MMEUREKA

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

796 views19:15

Generative AI

Forwarded from Machinelearning

0:39

This media is not supported in your browser

VIEW IN TELEGRAM

🔥 Stable Virtual Camera – релиз от Stability AI: модель генерации 3D видео из 2D изображений.

Эта разработка, представленная в исследовательском превью, позволяет создавать реалистичные 3D видео без сложной реконструкции сцены или специализированной оптимизации.

🌟

Основные моменты:

▶️

Модель использует мультивью диффузию для преобразования обычных 2D изображений в объемные 3D видео с достоверной глубиной и перспективой.

▶️

Динамическое управление камерой: поддерживаются не только стандартные движения, но и 14 различных траекторий, включая 360°, Лемнискату, Спираль, Dolly Zoom и другие, что позволяет создавать уникальные кинематографические эффекты.

▶️

Гибкость входных данных: возможность генерировать 3D видео, используя как одно изображение, так и до 32 изображений.

▶️

Продвинутая архитектура: применение двухпроходного процедурного сэмплинга обеспечивает плавные переходы даже в видео длиной до 1000 кадров, гарантируя непрерывное и стабильное отображение движения.

▶️

Преимущество перед конкурентами: в тестах на синтез новых точек обзора (NVS) модель показывает хорошие результаты, превосходя такие инструменты, как ViewCrafter и CAT3D, благодаря оптимальному соотношению генеративного потенциала и плавности временных переходов.

Релиз доступен для исследовательского использования под некоммерческой лицензией.

🟡

Релиз: https://stability.ai/news/introducing-stable-virtual-camera-multi-view-video-generation-with-3d-camera-control

🟡

Статья: https://stability.ai/s/stable-virtual-camera.pdf
Веса: https://huggingface.co/stabilityai/stable-virtual-camera

🖥

Github: https://github.com/Stability-AI/stable-virtual-camera

@ai_machinelearning_big_data

#stability #ai #ml #release

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

700 views18:01

Generative AI

🧨СКОРЕЕ ЗАБИРАЙТЕ🧨

ПОДБОРКУ ПРО НЕЙРОСЕТИ И AI-ТЕХНОЛОГИИ

Уже 150 человек забрали лучшую подборку каналов про нейросети и AI-технологии.

От горячих новостей сферы до хитростей в составлении промптов, которые помогут вам делать крутой контент за пару минут:

▪️как составить промт, чтобы получить живой контент

▪️как создать ии-ассистента, который заменит менеджера по продажам

▪️как продавать с помощью нейросетей

Если вы хотите знать о том, как уже сегодня нейросети «захватывают» наш мир и произойдет ли «восстание машин»

🤩забирай папку с экспертами и подарками прямо сейчас

ЗАБРАТЬ ПАПКУ👈

А еще в специальном канале вас ждут подарки👇

🎁 Подробная инструкция «Как бесплатно анимировать любое изображение»

🎁 Гайд «Как всего за 7 дней внедрить AI визуал в бизнес»

Добавляйте папку и делитесь со своими друзьями👇

https://t.iss.one/addlist/bqt2YI6OdY04ZGZi

646 views10:36

Generative AI

Forwarded from Machinelearning

✔️

OpenAI тестирует ChatGPT-коннектор к Google Drive и Slack.

OpenAI планирует запустить новую функцию «Коннекторы ChatGPT», которая позволит подписчикам плана "Team" подключать учетные записи Google Диска и Slack к ChatGPT, позволяя отвечать на вопросы на основе файлов, презентаций, электронных таблиц на этих ресурсах. В будущем коннекторы ChatGPT планируется расширить на Microsoft SharePoint и Box.

"Коннекторы" разрабатываются, чтобы дать возможность корпоративным пользователям получать доступ к внутренней информации так же легко, как при поиске в Интернете. Компаниям, участвующим в тестировании "коннекторов", необходимо предоставить OpenAI минимум 100 документов, таблиц, презентаций или диалогов в канале Slack.
techcrunch.com

✔️

B300 от Nvidia поступит в опытное производство во 2 квартале 2025 года.

Аналитик TF International Securities Минг-Чи Куо предположил, что новый чип B300 станет ключевым моментом пресс-конференции GTC 2025. HBM был значительно модернизирован с 192 ГБ до 288 ГБ, а вычислительная производительность была улучшена на 50% (FP4) по сравнению с B200. Ожидается, что B300 будет запущен в опытное производство во 2 квартале 2025 г., а массовое производство — в 3-м квартале 2025 г.
jiemian.com

✔️

Гарвард отменит плату за обучение для семей с доходом до 200 000 долларов в год.

Гарвардский университет объявил о расширении правил стипендий. Для студентов бакалавриата, чей доход семьи не превышает 200 000 долл. в год, плата за обучение будет отменена, а для студентов, чей доход семьи не превышает 100 000 долл. в год, обучение будет полностью бесплатным.

Пенсильванский университет и Массачусетский технологический институт приняли аналогичные решения. В то время, когда плата за обучение во многих ведущих ВУЗах США превышает 90 000 долл. в год, эта политика сделают их более доступными.
wsj.com

✔️

Llama скачали более 1 миллиарда раз.

Марк Цукерберг написал в своем аккаунте на платформе Threads, что «открытое» семейство моделей Llama было загружено более 1 миллиарда раз. По сравнению с 650 миллионами загрузок в начале декабря 2024 года рост скачиваний составил примерно 53% всего за 3 месяца.
Mark Zukerberg в Threads

✔️

NVIDIA, Alphabet и Google объединяют усилия для развития агентного и физического ИИ.

Три ИТ-гиганта объявили о новом этапе давнего партнерства, направленном на продвижение ИИ, расширение доступа к ИИ-инструментам, ускорение разработки физического ИИ и трансформацию здравоохранения, производства и энергетики. Инженеры Alphabet тесно сотрудничают с техническими командами NVIDIA, используя AI и симуляцию для создания роботов с навыками захвата, переосмысления открытия лекарств и оптимизации энергосетей. Для поддержки этих исследований Google Cloud станет одним из первых, кто внедрит NVIDIA GB300 NVL72 и GPU NVIDIA RTX PRO 6000 Blackwell Server Edition.

Совместно с Disney Research разрабатывается Newton, опенсорсный физический движок, ускоренный NVIDIA Warp, который значительно повысит скорость машинного обучения в робототехнике.
nvidianews.nvidia.com

@ai_machinelearning_big_data

#news #ai #ml

Please open Telegram to view this post

VIEW IN TELEGRAM

👍2

880 views12:36

Generative AI

🔥

Klarity — это инструмент для анализа неопределенности в выводах генеративных моделей!

🌟 Он сочетает в себе анализ вероятностей и семантическую оценку, позволяя глубже понять степень уверенности модели в своих предсказаниях. Klarity предоставляет возможности для измерения энтропии, анализа рассуждений модели и семантической кластеризации результатов. Это помогает выявлять потенциальные слабые места и улучшать надежность генеративных моделей перед их внедрением в производство.

🔐 Лицензия: Apache-2.0

🖥

Github

Please open Telegram to view this post

VIEW IN TELEGRAM

❤2👍1

873 viewsedited 18:20

Generative AI

0:08

This media is not supported in your browser

VIEW IN TELEGRAM

⚡️ Проект 3DGRUT представляет собой набор официальных реализаций методов 3D Gaussian Ray Tracing (3DGRT) и 3D Gaussian Unscented Transform (3DGUT).

💡 Основная идея:
Проект предлагает альтернативный подход к традиционному рендерингу, основанный на трассировке лучей, где вместо точечных лучей используются объёмные гауссовы частицы. Это позволяет моделировать сложные эффекты, например, камеры с искажениями (роллинг-шаттер) и временные эффекты.

⚙️ Гибридный подход:
3DGRUT объединяет преимущества растеризации и трассировки лучей – первичные лучи можно рендерить быстро через растеризацию, а вторичные лучи обрабатываются с помощью трассировки, что повышает гибкость и производительность.

🚀 Текущая стадия:
Проект находится на стадии альфа-версии. Он включает демонстрационную среду (Playground) для тестирования и экспериментов, а также предоставляет подробные инструкции по установке, настройке и запуску.

🔧 Требования и установка:
Для работы проекта требуется Python (3.10+), соответствующие зависимости, а также поддержка OpenGL и других библиотек. В репозитории описаны команды для установки необходимых пакетов и запуска тренировочного процесса.

Проект предназначен для исследователей и разработчиков, желающих экспериментировать с новыми методами рендеринга, а также для тех, кто интересуется интеграцией современных подходов в компьютерную графику.

📌 Github

👍2❤1🔥1

993 views10:57

Generative AI

Forwarded from Machinelearning

0:31

This media is not supported in your browser

VIEW IN TELEGRAM

🌟

VideoMind - это агент для анализа видео, разработанный для точного понимания контента с привязкой ко времени.

Основная цель инструмента - обеспечить "temporal-grounded video understanding", то есть способность отвечать на вопросы о видео, точно указывая на конкретные моменты (визуальные доказательства) в видеоряде, что является сложной задачей для стандартных больших языковых моделей.

Как работает:
🟢 Внутри использует ролевой агентный подход (role-based agentic workflow), который включает специализированные компоненты (роли), такие как планировщик (planner) для координации, локализатор (grounder) для привязки ко времени, верификатор (verifier) для оценки точности временных интервалов и ответчик (answerer) для формулировки ответа.
🟢 Разработчики использовали очень интересную стратегию "Chain-of-LoRA", которая позволяет эффективно переключаться между различными ролями с помощью легковесных адаптеров LoRA (Low-Rank Adaptation) без необходимости загружать несколько отдельных моделей, оптимизируя баланс между гибкостью и вычислительной эффективностью.

✔️ Результаты: демонстрирует SOTA производительность на 14 бенчмарках для различных задач понимания видео, включая ответы на вопросы с привязкой ко времени (Grounded VideoQA), временную локализацию событий (VTG) и общие ответы на вопросы по видео (VideoQA).

🟡

🟡

🟡

🟡

🟡

Checkpoints

@ai_machinelearning_big_data

#agent #ai #ml #video

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

878 views10:08

Generative AI

Forwarded from Machine learning Interview

✔️

Google запускает функцию 'Discover Sources' в NotebookLM.

Google представила новую функцию "Discover Sources" для сервиса NotebookLM, позволяющую пользователям искать в Интернете релевантную информацию по запросу. Она позволяет задать целевую тему, после чего NotebookLM формирует коллекцию из 10 релевантных источников со всего интернета.

Discover Sources доступно для всех пользователей. Оно расширяет функциональность NotebookLM, интегрируя веб-поиск непосредственно в проекты пользователя.

📌 blog.google

@machinelearning_interview

Please open Telegram to view this post

VIEW IN TELEGRAM

785 views11:00

Generative AI

Forwarded from Machinelearning

🔥

Microsoft запускает бесплатные курсы по ИИ для всех.

Microsoft представила масштабную образовательную инициативу — AI Skills Fest, где каждый может бесплатно освоить навыки работы с ИИ. Программа подходит как новичкам, так и опытным специалистам — от основ ML до работы с Azure и Copilot.

Обучение доступно на 40+ языках, включая русский, а материалы разбиты на модули: введение в ИИ, CV, NLP и создание приложений. Участники, прошедшие курс, получат бейдж для LinkedIn и шанс выиграть один из 50 тысяч сертификационных ваучеров. GitHub также предлагает скидку 50% на экзамен по Copilot для тех, кто завершит их модуль.

Чтобы присоединиться, достаточно зарегистрироваться на сайте Microsoft и выбрать подходящий уровень сложности. Помимо основного блока, доступны хакатоны, форумы и самообучение в удобном темпе.

🟡

microsoft.com

@ai_machinelearning_big_data

#course #ai #ml #freeeducation

Please open Telegram to view this post

VIEW IN TELEGRAM

❤1👍1🔥1

629 views06:14

Generative AI

Forwarded from Machinelearning

🧠 Как студенты используют Claude: новый отчёт от Anthropic

Anthropic только что опубликовала исследование об использовании их ИИ-ассистента Claude студентами университетов.

📊 Основные инсайты:
▪ Доминируют студенты STEM-направлений (естественные и точные науки)

Студенты технических и естественнонаучных специальностей — самые активные пользователи Claude. Особенно — компьютерные науки: они составляют 36,8% пользователей, при том что таких студентов всего 5,4%.

▪ Выделено 4 стиля взаимодействия с ИИ:
▪ Прямое решение задач
▪ Прямое создание контента
▪ Совместное решение задач
▪ Совместное создание контента

▪ Фокус на задачах высокого уровня мышления
Студенты используют Claude не просто как справочник, а для глубокого анализа и генерации — от написания кода до разбора сложных понятий. Это вызывает вопросы: не перекладывают ли они развитие критического мышления на ИИ?

💻 Где Claude помогает чаще всего:
▪ Создание и улучшение учебных материалов (39,3%)
(эссе, резюме лекций, тесты, шпаргалки)

▪ Решение и объяснение технических заданий (33,5%)
(код, алгоритмы, математика)
▪ Анализ и визуализация данных (11%)
▪ Исследовательский дизайн и разработка инструментов (6,5%)
▪ Создание технических диаграмм (3,2%)
▪ Перевод и вычитка текстов (2,4%)

📌 Читать полностью

@ai_machinelearning_big_data

#Claude #Anthropic

813 views17:33

About

Blog

Apps

Platform