Hierarchical Reasoning Model, (HRM) - рекуррентная архитектура, которая черпает вдохновение в принципах работы человеческого мозга. В ее основе лежат 2 взаимозависимых рекуррентных модуля:
Эта структура дает модели достигать вычислительной глубины, необходимой для сложных рассуждений, при этом сохраняя стабильность и эффективность во время обучения, чего так не хватает стандартным трансформерам.
Процесс кардинально отличается от того, что происходит в обычных рекуррентных сетях, которые склонны к преждевременной сходимости, когда их скрытое состояние быстро стабилизируется, и дальнейшие вычисления практически прекращаются. В HRM все иначе:
Таким образом, вычислительный путь низкоуровневого модуля перезапускается, направляя его к новой точке локального равновесия. Механизм не дает системе застрять и позволяет ей последовательно выполнять множество различных, но взаимосвязанных этапов решения, выстраивая длинные логические цепочки.
Тестовая модель HRM с 27 млн. параметров, обученная всего на 1000 примерах без какого-либо претрейна или CoT-пар, показала неожиданно высокие результаты .
На задачах, требующих глубокого поиска и перебора вариантов ( Sudoku-Extreme ) и поиск оптимального пути ( Maze 30x30 ), HRM достигла почти идеальной точности, а вот CoT-методы полностью провалились с результатом 0%.
На бенчмарке ARC-AGI-1, HRM показывает точность в 40.3%. Для сравнения, o3-mini-high показала 34.5%, а Claude 3.7 с контекстом 8K - 21.2%.
@ai_machinelearning_big_data
#AI #ML #HRM #SapientInc
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍77❤53🔥37🤔7👀6🥰3🐳2
🧠 Qwen3-MT — Alibaba продолжает жечь и выпускает еще одну модель, в этот раз для машинного перевода.
🌍 Поддерживает 92+ языка, на которых говорит 95% населения мира
📚 Обучен на триллионах токенов из интернета, открытых документов и книгах, субтитров из видео.
🔬 Что внутри:
- Модель Qwen3-MoE-72B с архитектурой Mixture-of-Experts
- Заточена на переводческие фишки, поддерживает сложную терминологию и даже очень редкие слова.
- RLHF: обучение с подкреплением повышает точность и естественность модели
Возможности:
✅ Обеспечивает качественный перевод в реальном времени
✅ Контроль стиля и терминов
✅ Масштабируемость для API и продакшена
✅ Цена — от $0.5 за миллион токенов
🟡 Попробовать демку: https://huggingface.co/spaces/Qwen/Qwen3-MT-Demo
🟡 ModelScope: https://modelscope.cn/studios/Qwen/Qwen3-MT-demo
🟡 Документация API: https://alibabacloud.com/help/en/model-studio/translation-abilities
🟡 Блог с подробностями: https://qwenlm.github.io/blog/qwen-mt/
@ai_machinelearning_big_data
#Qwen #Alibaba #ml #llm #ai
🌍 Поддерживает 92+ языка, на которых говорит 95% населения мира
📚 Обучен на триллионах токенов из интернета, открытых документов и книгах, субтитров из видео.
🔬 Что внутри:
- Модель Qwen3-MoE-72B с архитектурой Mixture-of-Experts
- Заточена на переводческие фишки, поддерживает сложную терминологию и даже очень редкие слова.
- RLHF: обучение с подкреплением повышает точность и естественность модели
Возможности:
✅ Обеспечивает качественный перевод в реальном времени
✅ Контроль стиля и терминов
✅ Масштабируемость для API и продакшена
✅ Цена — от $0.5 за миллион токенов
@ai_machinelearning_big_data
#Qwen #Alibaba #ml #llm #ai
Please open Telegram to view this post
VIEW IN TELEGRAM
👍125❤32🔥23🥰5🎃4
Media is too big
VIEW IN TELEGRAM
Ключевым нововведением станет интеграция возможностей «o-серии», ориентированных на сложные логические рассуждения, в основную линейку GPT. Ожидается, что модель выйдет в нескольких вариантах: основная, «mini» и «nano». Полноразмерная и мини-версии будут доступны через ChatGPT и API, а нано-версия - только по API.
Сэм Альтман подтвердил, что уже тестирует GPT-5, описав ее как "умнее нас почти во всех отношениях", хотя и признал, что она вряд ли достигнет порога AGI на старте.
Релизу будет предшествовать выпуск открытой модели, похожей на o3-mini, до конца июля.
Запуск GPT-5 может быть отложен из-за проблем с безопасностью или мощностями, но инженеры Microsoft уже готовят дополнительные серверные ресурсы.
theverge.com
Президент США обнародовал "План действий в области ИИ" и подписал указы, направленные на ускорение строительства дата-центров и сворачивание федерального надзора. Документ содержит более 90 рекомендаций, включая упрощение разрешений для проектов мощностью свыше 100 МВт и использование федеральных земель и налоговых льгот для поддержки новых ЦОД и полупроводниковых производств.
В области торговли план предписывает продвигать экспорт американских ИИ-систем в союзные страны, но сохранять запрет на поставки передовых чипов противникам (Китай). Кроме того, Белый дом требует от федеральных ведомств использовать только "идеологически нейтральные" ИИ-модели и предупреждает штаты о возможном удержании финансирования за обременительные правила.
wsj.com
Google добавила в сервис Google Photos два новых творческих ИИ-инструмента - Photo to Video и Remix. Функция Photo to Video, работает на базе Veo 2 и позволяет оживлять статичные фотографии, превращая их в шестисекундные видеоролики с небольшой динамикой. Пользователи могут выбрать один из двух пресетов: "Subtle movements" или "Мне повезет!".
Remix стилизует фотографии под аниме, комиксы, наброски или 3D-анимацию. Оба нововведения располагаются в новой вкладке "Create", которая объединит все творческие функции приложения в одном месте.
Новые функции начнут поэтапно развертываться для пользователей в США в ближайшие несколько недель.
blog.google
Исследование, проведенное FutureHouse, выявило серьезные проблемы с достоверностью Humanity’s Last Exam (HLE) - одного из сложнейших бенчмарков для оценки возможностей ИИ-моделей. Анализ показал, что около 29% ответов в разделах по химии и биологии напрямую противоречат рецензируемой научной литературе.
Причиной такого высокого уровня ошибок называют саму методологию создания HLE. Целью было составить вопросы, на которые современные модели не могут дать ответ, что привело к появлению запутанных формулировок. Процесс проверки также был слабым: рецензентам давалось не более 5 минут на вопрос, и они не были обязаны верифицировать точность обоснований.
Для проверки команда FutureHouse использовала собственного ИИ-агента, который сверял ответы с научными публикациями. По итогам исследования, FutureHouse выпустила HLE Bio/Chem Gold - выверенный набор данных из вопросов HLE.
futurehouse.org
Илон Маск анонсировал в X, что компания планирует перезапустить популярный в прошлом сервис коротких видео Vine, но с интеграцией искусственного интеллекта. Он не раскрыл технических деталей и сроков запуска.
Сервис Vine, запущенный в 2013 году, был закрыт в 2017 на фоне конкуренции со стороны Snapchat и TikTok. После покупки Twitter (ныне X) Маск неоднократно проводил опросы среди пользователей, интересуясь, стоит ли возвращать платформу.
Илон Маск в сети X
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
❤55👍22🔥13👏4🤬3👨💻2
VK обновила RuModernBERT — модель для обработки естественного русского языка. Она доступна на 150 и 35 миллионов параметров, обучена на 2 триллионах токенов.
Модель подойдет для задач в области обработки текста, например, для извлечения информации, анализа тональности, поиска и ранжирования в приложениях и сервисах — от книг и статей до соцсетей и кода. А еще есть две дополнительные версии для лучшей группировки и поиска похожей информации.
По скорости обгоняет аналоги: на длинных текстах — в 2–3 раза, на устройствах — на 10–20%. В тестах показала лучший результат среди русскоязычных NLP-решений.
Забрать можно на Hugging Face
Модель подойдет для задач в области обработки текста, например, для извлечения информации, анализа тональности, поиска и ранжирования в приложениях и сервисах — от книг и статей до соцсетей и кода. А еще есть две дополнительные версии для лучшей группировки и поиска похожей информации.
По скорости обгоняет аналоги: на длинных текстах — в 2–3 раза, на устройствах — на 10–20%. В тестах показала лучший результат среди русскоязычных NLP-решений.
Забрать можно на Hugging Face
👍96🤣34❤22🔥15😐11🌚7
Forwarded from Анализ данных (Data analysis)
🚀 Команда Qwen только что представила новую модель: Qwen3‑235B‑A22B‑Thinking‑2507, нацеленную на глубокие рассуждения.
За последние 3 месяца модель была масштабирована и доработана специально для задач логики, математики, науки и программирования. Среди ключевых улучшений:
✅ Улучшенные способности к рассуждению, решению задач и анализу
✅ Повышенная точность в следовании инструкциям и использовании инструментов
✅ Поддержка нативного 256K контекста — для полноценной работы с длинными цепочками мыслей
🧠 Модель изначально работает в режиме reasoning — включать ничего не нужно. Она самостоятельно строит длинные логические цепочки, обеспечивая максимальную глубину и точность.
🟡 Hugging Face: https://huggingface.co/Qwen/Qwen3-235B-A22B-Thinking-2507
or https://huggingface.co/Qwen/Qwen3-235B-A22B-Thinking-2507-FP8
🟡 ModelScope: https://modelscope.cn/models/Qwen/Qwen3-235B-A22B-Thinking-2507
or https://modelscope.cn/models/Qwen/Qwen3-235B-A22B-Thinking-2507-FP8
🟡 API Doc: https://alibabacloud.com/help/en/model-studio/models#16ff9753e1ctz
🧩 Новый Thinking‑режим поднимает планку для reasoning‑моделей в открытом доступе.
@data_analysis_ml
За последние 3 месяца модель была масштабирована и доработана специально для задач логики, математики, науки и программирования. Среди ключевых улучшений:
✅ Улучшенные способности к рассуждению, решению задач и анализу
✅ Повышенная точность в следовании инструкциям и использовании инструментов
✅ Поддержка нативного 256K контекста — для полноценной работы с длинными цепочками мыслей
🧠 Модель изначально работает в режиме reasoning — включать ничего не нужно. Она самостоятельно строит длинные логические цепочки, обеспечивая максимальную глубину и точность.
or https://huggingface.co/Qwen/Qwen3-235B-A22B-Thinking-2507-FP8
or https://modelscope.cn/models/Qwen/Qwen3-235B-A22B-Thinking-2507-FP8
🧩 Новый Thinking‑режим поднимает планку для reasoning‑моделей в открытом доступе.
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍65🔥25❤19✍2🥰2🤣2
This media is not supported in your browser
VIEW IN TELEGRAM
Google Labs запустила публичную бета-версию инструмента Opal, в котором можно создавать простые ИИ-приложения без написания кода.
Пользователь описывает желаемую цель тестом, после чего система автоматически генерирует визуальную блок-схему рабочего процесса, объединяя в цепочку промпты, ИИ-модели и внешние инструменты.
Схему можно гибко редактировать в drag-and-drop интерфейсе или с помощью дальнейших текстовых команд.
Готовые проекты публикуются как самостоятельные веб-приложения, привязанные к аккаунту Google, и ими можно сразу поделиться по ссылке.
В основе Opal лежат модели Gemini. Инструмент доступен пока только для пользователей в США.
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
❤55👍28🔥16👨💻3😁2
Андрей Рыбинцев, возглавлявший ИИ-направление более 10 лет, стал управляющим директором по искусственному интеллекту и вошел в правление компании. AI становится частью управленческой вертикали Авито.
Под его руководством окажется объединенная команда из ключевых подразделений, связанных с ИИ. Также в планах новый кластер AI Experience,который будет фокусироваться на развитии AI-ассистентов.
На счету Рыбинцева — запуск семейства моделей A-Vibe и A-Vision, антифрод, IMV и масштабирование Data Science в Авито. По прогнозам компании, GenAI может привнести более 21 млрд ₽ дополнительной выручки к 2028 году.
Под его руководством окажется объединенная команда из ключевых подразделений, связанных с ИИ. Также в планах новый кластер AI Experience,который будет фокусироваться на развитии AI-ассистентов.
На счету Рыбинцева — запуск семейства моделей A-Vibe и A-Vision, антифрод, IMV и масштабирование Data Science в Авито. По прогнозам компании, GenAI может привнести более 21 млрд ₽ дополнительной выручки к 2028 году.
🤷♂78🔥25❤14😁14🤣11👌8👍3🥰3
Научить робота уверенно брать предметы - это, кажется, вечная тема в робототехнике. Несмотря на десятилетия исследований, надежные и универсальные системы захвата до сих пор остаются скорее теорией, чем реальностью.
Стоит копнуть глубже стандартных демо, и выясняется, что на сложных бенчмарках, FetchBench например, точность лучших систем едва дотягивает до 20%. Это фундаментальный барьер, мешающий внедрять роботов в реальные, неструктурированные среды.
GraspGen - фреймворк для генерации 6-DOF захватов, который не только показывает SOTA результаты, но и вводит новый, крайне интересный подход к обучению.
В его основе лежит связка из генератора на базе Diffusion Transformer и дискриминатора, знакомая всем по GAN-ам архитектура, но с важным отличием.
Генератор, получив на вход облако точек объекта, предлагает множество вариантов захвата, а дискриминатор оценивает их качество и отсеивает неудачные.
И вот тут-то и кроется основная идея, которую в NVIDIA назвали «On-Generator Training». Вместо того чтобы обучать дискриминатор на заранее собранном офлайн-датасете из "хороших" и "плохих" захватов, его учат непосредственно на тех ошибках, которые генерирует его подопечный - диффузионная модель.
Иными словами, дискриминатор становится экспертом не в захватах вообще, а в типичных промахах конкретного генератора. Он учится распознавать и отбраковывать именно те ложноположительные варианты, которые сам генератор считает удачными, но которые на самом деле приведут к провалу. Такой подход создает мощную и целенаправленную обратную связь.
Разработчики выпустили симулированный датасет, содержащий более 53 млн. примеров захватов для 3 разных типов манипуляторов, включая параллельные захваты и вакуумные присоски.
В симуляции на сете ACRONYM GraspGen показывает AUC (площадь под кривой точность-покрытие) 0.94, это больше ближайших конкурентов на 48%.
На комплексном бенче FetchBench он обошел предыдущих лидеров M2T2 и Contact-GraspNet на 7.8% и 16.9% соответственно.
Но самое главное - это тесты на реальном железе. В экспериментах с роботом UR10 в зашумленной среде GraspGen достиг общей успешности в 81.3%, в то время как M2T2 и AnyGrasp показали лишь 52.6% и 63.7%.
Код, веса моделей и датасет уже доступны на GitHub и Hugging Face.
Авторы позаботились об энтузиастах: есть подробные инструкции по установке через Docker или pip, готовые демо-скрипты, позволяющие визуализировать захваты для своих облаков точек или 3D-моделей буквально в несколько команд.
Более того, GraspGen изначально спроектирован как модульная и расширяемая система. Разработчики предоставляют подробный туториал, который объясняет, как генерировать данные и обучать модели для совершенно новых объектов и, что важнее, новых типов манипуляторов, реализуя принцип BYOD.
Интеграция с симулятором Isaac Lab для еще более продвинутой генерации данных и возможность дообучения на реальных данных.
@ai_machinelearning_big_data
#AI #ML #Robotics #GraspGen #NVIDIA
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥62❤35👍24😁4🎉3👨💻1
Media is too big
VIEW IN TELEGRAM
В эти выходные в Шанхае откроется Всемирная конференция по искусственному интеллекту, которая соберет как китайских технологических гигантов, Huawei и Alibaba, так и западные компании: Tesla, Google и Amazon.
Более 800 компаний представят свыше 3000 высокотехнологичных продуктов. Ожидается показ 40 больших языковых моделей, 50 ИИ-устройств и 60 интеллектуальных роботов.
reuters.com
Южнокорейский техногигант хочет предложить пользователям больше опций выбора в ИИ-сервисах на своих устройствах, помимо уже интегрированной Google Gemini.
По словам Чхве Вон-Джуна, операционного директора мобильного подразделения, начиная с линейки Galaxy S26, компания планирует предоставить клиентам выбор из нескольких ИИ-сервисов.
bloomberg.com
Мустафа Сулейман, CEO Microsoft AI, поделился своим видением будущего ассистента Copilot. По его мнению, он станет настолько персонализированным, что обретет постоянную идентичность, будет стареть и даже жить в своей комнате. Первым шагом к этой концепции стала новая функция Copilot Appearance.
Это эксперимент по созданию виртуального персонажа, который в реальном времени реагирует на диалог с помощью мимики и голоса и обладает памятью о предыдущих разговорах. Аватар может улыбаться, кивать и даже выражать удивление.
Функция уже доступна в режиме раннего доступа в Copilot Labs для ограниченного числа пользователей в США, Великобритании и Канаде.
theverge.com
MIT CSAIL представил Neural Jacobian Fields (NJF) - систему, которая кардинально меняет подход к управлению роботами. Вместо создания сложных математических моделей для жестких и дорогих конструкций, NJF позволяет роботу самостоятельно изучить свое тело и его реакции на команды, используя только зрение.
В процессе обучения робот совершает случайные движения, а система, в это время, наблюдает за ним с нескольких камер, выстраивая внутреннюю модель его физики м связывая управляющие сигналы с фактическим движением. В основе лежит развитие технологии NeRF.Ценность разработки в том, что после обучения, для управления в реальном времени роботу достаточно одной обычной камеры.
Технология уже успешно протестирована на различных устройствах, от мягких пневматических манипуляторов до стандартных 3D-печатных конструкций. Хотя система пока не обладает тактильной обратной связью, она открывает путь к созданию более дешевых и гибких роботов, способных адаптироваться к своей собственной, даже нестандартной, физической форме.
news.mit.edu
Leena AI, разработчик корпоративных ассистентов, анонсировала запуск "ИИ-коллег" - агентов нового поколения, которые могут общаться с сотрудниками голосом.
По мнению CEO компании, голосовое общение станет следующим этапом в развитии рабочих инструментов. Оно позволяет сотрудникам решать задачи на ходу, например, за рулем или в очереди. Так, пользователь может голосом попросить ассистента завести новую сделку в Salesforce и одновременно подготовить запрос в технический отдел по итогам встречи. Агент самостоятельно заполнит формы и составит черновик письма, запросив подтверждение перед отправкой.
У агентов есть личностные черты и даже есть любимая спортивная команда. Утром "ИИ-коллега" может "проснуться", просмотреть заметки и продолжить работу над задачами, как обычный сотрудник. В Leena AI прогнозируют, что технология может повысить продуктивность команд до 50%.
siliconangle.com
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍85❤25🥰18🔥6🎉2👨💻2😨2
This media is not supported in your browser
VIEW IN TELEGRAM
Команда Tencent Hunyuan представила модель, способную создавать полноценные трёхмерные сцены всего по одному описанию — тексту или изображению.
— Генерация 3D-сред из текста или картинки
— Поддержка редактирования и симуляций в стандартных CG-пайплайнах (Blender, Unity, Unreal)
— Подходит для игр, VR, цифрового контента и прототипирования живых миров
Вы просто пишете: "Japanese garden at sunset" — и модель генерирует трёхмерную сцену с деревьями, прудом и мягким освещением.
Эта модель может серьёзно повлиять на будущее генеративного 3D — от геймдева до виртуальных миров.
@ai_machinelearning_big_data
#3DGeneration #GenerativeAI #TextTo3D #Hunyuan3D #TencentAI #GameDev #VirtualReality
Please open Telegram to view this post
VIEW IN TELEGRAM
👍107🔥26❤25👏7🥰4😁2👨💻2
ASI-ARCH - экспериментальная демонстрация искусственного сверхинтеллекта для исследований в области ИИ, который способен полностью автономно вести научную работу по поиску новых нейросетевых архитектур.
Система самостоятельно выдвигает гипотезы, реализует их в виде исполняемого кода, обучает и проверяет на практике. Результатом этой работы стали 1773 автономных эксперимента, которые заняли свыше 20 000 GPU-часов и привели к открытию 106 новых SOTA-архитектур с линейным механизмом внимания.
На первом этапе, система работает с небольшими моделями размером около 20 млн параметров, обучая их на 1 млрд токенов. На этом этапе было проведено 1773 эксперимента, которые заняли примерно 10 000 GPU-часов.
Всего на этом этапе было отобрано 1350 перспективных кандидатов — все они превзошли базовую архитектуру DeltaNet как по лоссу, так и по метрикам на бенчмарках.
Второй этап - верификация. Кандидаты первого этапа были масштабированы до 340 млн параметров, чтобы соответствовать конфигурации DeltaNet. После фильтрации архитектур с избыточной сложностью или числом параметров осталось около 400 моделей.
Их обучение на 1 млрд. токенов потребовало ещё 10 000 GPU-часов. В итоге, именно из этой группы были выделены 106 архитектур, достигших SOTA-уровня.
Для финальной валидации исследователи отобрали 5 лучших моделей, обучили их на 15 млрд. токенов и сравнили с Mamba2, Gated DeltaNet и DeltaNet.
ASI-ARCH явно предпочитает работать с проверенными временем компонентами: гейтингом и свёрткой. Но самое главное - распределение компонентов в 106 лучших моделях имеет значительно менее выраженный long-tail distribution по сравнению с остальными 1667 сгенерированными архитектурами.
Это означает, что система добивается успеха не путем хаотичного перебора экзотических идей, а через итеративное улучшение набора проверенных техник. По сути, это очень напоминает методологию работы ученых-людей.
Одна из лучших найденных ИИ-архитектур, PathGateFusionNet, показала средний результат по всем бенчмаркам 48.51. Для сравнения, Mamba2 набрала 47.84, а разработанная человеком Gated DeltaNet — 47.32. Другая генерация, ContentSharpRouter, достигла показателя 48.34.
Если посмотреть на отдельные тесты, то PathGateFusionNet получила на BoolQ 60.58 балла, а Gated DeltaNet - 60.12. AdaptiveEntropyRouter в версии на 340 млн. параметров показала результат на тестах 44.31, что на 2.21 пункта выше, чем у Gated DeltaNet (42.10).
И так практически во всем, улучшения наблюдаются по всему спектру задач.
Для всех 1773 сгенерированных архитектур распределение источников было таким:
Но если посмотреть только на 106 SOTA-итогов, картина меняется. Доля идей, основанных на Analysis, возрастает с 38.2% до 44.8%, а доля Cognition немного снижается до 48.6%.
Таким образом, чтобы достичь ощутимых результатов, ИИ недостаточно просто копировать и комбинировать человеческие наработки. Он должен анализировать собственный опыт, учиться на своих же удачах и провалах, синтезируя более совершенные решения.
@ai_machinelearning_big_data
#AI #ML #Research #ASIARCH
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥118❤43👍24🥰3👨💻3
This media is not supported in your browser
VIEW IN TELEGRAM
🔥 Microsoft снова доказывает силу синтетических данных для задач компьютерного зрения!
Современные модели компьютерного зрения с фокусом на человека (Human-centric CV) требуют миллиардов параметров, гигантских датасетов и дорогостоящего инференса. Но можно ли добиться такой же точности, не тратя миллионы?
Исследователи показали: модели можно обучать только на синтетических данных высокого качества — и при этом достигать тех же результатов.
Microsoft представили DAViD — open-source фреймворк, позволяющий создавать цифровых людей с точной геометрией лиц и текстурами.
Проект демонстрирует, как можно использовать синтетические датасеты для:
🟠 Предсказания глубины изображения (Depth Prediction)
🟠 Оценки поверхностей (Normal Estimation)
🟠 Сегментации фона и людей на фото/видео (Background & Human Segmentation)
Почему это круто:
🟢 Синтетические данные = пиксельная точность разметки
🟢 Почти бесконечное разнообразие сцен, ракурсов, освещения и поз
🟢 Прекрасно масштабируются для обучения моделей с нуля или дообучения
Самое приятное, что Microsoft выложили всё в опенсорс:
✔️ 300 000 сэмплов
✔️ Предобученные модели
✔️ Исходный код фреймворка
🟢 Проект: https://microsoft.github.io/DAViD/
🟢 Статья: https://arxiv.org/abs/2507.15365
🟢 Github: https://github.com/microsoft/DAViD
@ai_machinelearning_big_data
Если ты работаешь с human-centric CV — это мощный старт. Даже без реальных данных.
#cv #microsoft #opensource
Современные модели компьютерного зрения с фокусом на человека (Human-centric CV) требуют миллиардов параметров, гигантских датасетов и дорогостоящего инференса. Но можно ли добиться такой же точности, не тратя миллионы?
Исследователи показали: модели можно обучать только на синтетических данных высокого качества — и при этом достигать тех же результатов.
Microsoft представили DAViD — open-source фреймворк, позволяющий создавать цифровых людей с точной геометрией лиц и текстурами.
Проект демонстрирует, как можно использовать синтетические датасеты для:
Почему это круто:
Самое приятное, что Microsoft выложили всё в опенсорс:
✔️ 300 000 сэмплов
✔️ Предобученные модели
✔️ Исходный код фреймворка
@ai_machinelearning_big_data
Если ты работаешь с human-centric CV — это мощный старт. Даже без реальных данных.
#cv #microsoft #opensource
Please open Telegram to view this post
VIEW IN TELEGRAM
11❤71👍53🔥23❤🔥3🤩1🥱1👨💻1