Sonata — самообучающийся алгоритм для работы с облаками точек, опубликованный в рамках CVPR 2025, который решает проблему склонности моделей «цепляться» за простые геометрические подсказки, игнорируя семантику объектов. Это явление, названное «геометрическим сокращением», мешало 3D-решениям распознавать сложные сцены без тонкой настройки.
В отличие от конкурентов, Sonata использует принципиально новую архитектуру: вместо U-Net с декодером здесь работает только энкодер Point Transformer V3. Это снижает риск «геометрических ловушек» и увеличивает каналы для анализа с 96 до 512, что критично для семантики.
Алгоритм учится через самодистилляцию: модель-«студент» анализирует замаскированные фрагменты сцен, а модель-«учитель» стабилизирует обучение на целых сценах. Чтобы избежать шаблонного вывода, координаты замаскированных точек сильно искажают сильнее (σ=0.01), а сложность задач растёт постепенно — маски увеличиваются с 10 см до 40 см за первые 5% обучения.
Студент — основная модель, которая активно обучается. Она анализирует сложные виды данных: например, сцены с 70% замаскированных точек или крошечные фрагменты (5% от всей сцены). Её параметры обновляются через обратное распространение ошибки.
Учитель — «замороженная» версия студента, чьи веса обновляются не через градиенты, а через экспоненциальное скользящее среднее (EMA). Он обрабатывает полные, немодифицированные сцены и служит стабильным ориентиром для студента.
Эти решения позволили собрать гигантский датасет из 140 тыс. 3D-сцен (в 86 раз больше существующих аналогов) и достичь рекордов: точность Sonata при линейном анализе на ScanNet выросла в 3,3 раза (с 21,8% до 72,5%), а с 1% данных метод почти вдвое обгоняет конкурентов.
Интеграция с 2D-моделью DINOv2 добавила детализации — комбинированный подход достиг 75,9%. При этом Sonata тратит меньше ресурсов: даже на компактных архитектурах она достигает SOTA-показателей в семантической сегментации помещений и уличных сцен.
Код проекта доступен на GitHub, а визуализации показывают, как алгоритм «видит» многоэтажные здания, различая комнаты и этажи без подсказок.
@ai_machinelearning_big_data
#AI #ML #3D #Robotics #Sonata
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍42🔥18❤9🥰2🤓1
Основные моменты:
MWS Container Platform упрощает ежедневные задачи администрирования инфраструктуры, ускоряет выпуск новых продуктов и не дает погрязнуть в технической рутине.
#devops #AI #Kubernetes
Please open Telegram to view this post
VIEW IN TELEGRAM
❤24🔥16👍6🥰2🤓1🦄1
HuggingFace, воодушевившись победой модели OlympicCoder над Sonnet 3.7 в бенчмарках LiveCodeBench и в заданиях Международной олимпиады по информатике 2024 года, опубликовал набор датасетов для предварительного обучения и тонкой настройки LLM в задачах генерации кода:
@ai_machinelearning_big_data
#AI #ML #LLM #Dataset #HuggingFace
Please open Telegram to view this post
VIEW IN TELEGRAM
👍63❤19🔥9
This media is not supported in your browser
VIEW IN TELEGRAM
В отличие от существующих методов, которые рассматривают анимацию как единое целое, LayerAnimate предоставляет точечный контроль над каждым слоем, что делает процесс генераций более гибким и управляемым.
LayerAnimate решает проблему ограниченности данных, с помощью конвейера обработки данных, включающего:
Модель позволяет переключаться между различными статическими изображениями или динамическими видео без влияния на анимацию переднего плана.
Особенно интересно выглядит image-video с использованием скетча, вместо текстового описания с данными о движении, можно использовать набросок с траекторией движения сцены и получить готовую сцену.
Мастхэв для тех, кто работает с анимацией. Больше примеров можно посмотреть здесь.
@ai_machinelearning_big_data
#videogenerator #video #ai #ml #opensource
Please open Telegram to view this post
VIEW IN TELEGRAM
👍55❤14🔥13
This media is not supported in your browser
VIEW IN TELEGRAM
⚡️ DeepSeek V3 strikes again!
На HF Появилась новая версия DeepSeek v3.
Еще Deepseek обновили свое приложение.
Страданиям OPENAI не будет конца 😂
~700GB, Лицензирование: mit, тестим тут.
Вы можете запустить его на компьютере M3 Mac Studio с 512 ГБ памяти, ( ~10 000 долларов) если используете квантованную версию на 352 ГБ через MLX.
🟡 HF :https://huggingface.co/deepseek-ai/DeepSeek-V3-0324/tree/main
@ai_machinelearning_big_data
#deepseek
На HF Появилась новая версия DeepSeek v3.
Еще Deepseek обновили свое приложение.
Страданиям OPENAI не будет конца 😂
~700GB, Лицензирование: mit, тестим тут.
Вы можете запустить его на компьютере M3 Mac Studio с 512 ГБ памяти, ( ~10 000 долларов) если используете квантованную версию на 352 ГБ через MLX.
@ai_machinelearning_big_data
#deepseek
Please open Telegram to view this post
VIEW IN TELEGRAM
👍91❤25🤣14🔥12🤷♂2
This media is not supported in your browser
VIEW IN TELEGRAM
Для этого гуманоидного робота
UnitreeRobotics G1 была разработана компексная система двуручного управления, включающая в себя систему отслеживание позы, продвинутые настройки захвата движений и контроллер для безопасного и точного манипулирования медицинскими инструментами.
Робот тестируется для семи различных медицинских процедур, включая физические осмотры, экстренные вмешательства, точные задачи, требующие мелкой моторики и др.
На видео робот управляется оператором дистанционно, автономность это следующий этап развития!
В будущем у каждого будет свой личный врач
#robotics #engineering #technology #robots
Please open Telegram to view this post
VIEW IN TELEGRAM
❤50🔥23👍16👀8😁7🤨4🌚1
QWEN только что выпустили новую модель на 32B параметров, Qwen2.5-VL-32B-Instruct.
Эта модель представляет собой значительный прогресс для своего размера. И что самое лучшее, она лицензирована Apache 2.
Модель выдает более подробные и структурированный ответы.
💡 Детальное понимание: превосходные возможности анализа изображений и визуальной логической дедукции.
📊 Превосходит сопоставимые модели, такие как Mistral-Small-3.1-24B и Gemma-3-27B-IT.
🚀 В нескольких тестах даже превосходит более крупный Qwen2-VL-72B-Instruct.
Еще один крутой релиз понедельника!
ВЧ: https://huggingface.co/Qwen/Qwen2.5-VL-32B-Instruct
@ai_machinelearning_big_data
#AI #ML #LLM #Dataset #HuggingFace
Please open Telegram to view this post
VIEW IN TELEGRAM
👍80🔥28❤11🤓4
Ant Group успешно использовала хардверные решения от Alibaba и Huawei для обучения своих моделей, что позволило сократить затраты примерно на 20%. Результаты тестов показали, что китайские чипы сопоставимы по производительности с Nvidia H800. Хотя Ant Group пока полностью не отказывается от Nvidia для разработки ИИ, ее последние разработки в основном полагаются на альтернативные решения - AMD и чипы китайского производства.
Это свидетельствует о том, что китайские компании ускоряют локализацию технологий искусственного интеллекта, чтобы сократить затраты и уменьшить зависимость от американских чипов.
bloomberg.com
Итальянская газета Il Foglio начала месячный эксперимент, опубликовав первый в мире газетный выпуск, сгенерированный искусственным интеллектом. Цель эксперимента - изучить влияние ИИ на журналистику, используя ChatGPT для создания контента.
Редактор газеты Клаудио Сераса заявил, что ИИ использовался на всех этапах создания - от написания текстов и заголовков до цитат и резюме, при этом журналисты редакции участвуют в создании промптов для ИИ и проверке сгенерированных текстов.
asianfin.com
Команда ARC Prize запустила 2 этап бенчмарка ARC-AGI-2 для оценки «гибкости мышления» ИИ через задачи, которые человек решает за секунды, а алгоритмы — с трудом. Как и в прошлой версии, система проверяет способность к обобщению знаний, но теперь барьер выше: на нем базовые LLM набирают 0%, а продвинутые — меньше 4%. Призовой фонд бенчмарка -1 млн. долларов, главный приз получит разработка, которая сможет превысить 85% выполнения бенчмарка.
Решение задач ARC-AGI-2 требует интуиции и адаптивности — того, что в людях заложено природой. «Это не тест на эрудицию, а проверка умения мыслить вне данных», — поясняют разработчики.
arcprize.org
Компания The Atlantic разработала поисковый инструмент, позволяющий пользователям проверить, не фигурирует ли их работа в LibGen - архиве книг, научных работ и статей, который, как сообщается, использовался для обучения популярных языковых моделей.
Согласно судебным документам, набор данных LibGen использовался для обучения моделей Llama. OpenAI уже публично сообщила, что контент LibGen не включен в текущие версии ChatGPT или в API OpenAI. Другие компании, занимающиеся разработкой ИИ, пока не комментировали, использование LibGen в своем обучении.
theatlantic.com
Китайская модель OceanDS, созданная для морских исследований, опирается на уникальную базу из 1,8 млрд токенов данных. В неё вошли оцифрованные научные работы, книги и отчёты — всё, что касается океана.
По тестам OceanDS обходит топовые LLM в точности ответов на профильные запросы — разрыв достигает 25%. Это первый в мире ИИ, заточенный под океанографию. Уже сейчас его тестируют в управлении природными ресурсами Китая, а в будущем — внедрят в другие отрасли.
news.cgtn.com
@ai_machinelearning_big_data
#AI #ML #Research #NLP
Please open Telegram to view this post
VIEW IN TELEGRAM
❤47👍28🔥9
🔹 Главные особенности:
▪ SOTA-производительность: превосходит существующие модели по точности (Top-1) и скорости обработки на ImageNet-1K.
▪ Гибридная архитектура: сочетает Mamba (State Space Models, SSMs) и архитектуру трансформеров, улучшая эффективность обработки изображений.
▪ Подходит для задач классификации изображений, извлечения признаков и других задач CV.
MambaVision подойдет вам для автоматического анализа изображений, фильтрации данных и интеграции в AI-системы для компьютерного зрения.
#nvidia #mamba #computervision
Please open Telegram to view this post
VIEW IN TELEGRAM
1👍50🔥14❤8
Модель text-to-image генерирует фотореалистичные изображения с высоким уровнем детализации и точно следует заданным промптам.
Алгоритм синтеза изображений в рамках Diffusion-4K работает следующим образом:
Wavelet-based Fine-tuning – это метод, который использует вейвлет-преобразование для разложения данных (например, изображений) на составляющие с разными частотными характеристиками, после чего проводится дополнительное обучение модели с акцентом на восстановление высокочастотных деталей.
Это позволяет модели фокусироваться на высокочастотных компонентах изображения, улучшая детализацию и качество синтезируемых изображений.
Алгоритм сочетает в себе предварительное обучение на низких разрешениях и специализированное дообучение на высококачественных 4K-изображениях и позволяет получать качественные генерации на выходе.
Также разработчики выложили Aesthetic-4K – датасет на 10.2 GB отобранных вручную изображений с описаниями к ним, сгенерированными GPT-4o.
@ai_machinelearning_big_data
#ml #ai #4k #imagegenerator
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
1👍51🔥19❤12