287K subscribers
3.98K photos
687 videos
17 files
4.56K links
Погружаемся в машинное обучение и Data Science

Показываем как запускать любые LLm на пальцах.

По всем вопросам - @haarrp

@itchannels_telegram -🔥best channels

Реестр РКН: clck.ru/3Fmqri
Download Telegram
🌟 Hierarchical Reasoning Model: иерархическая модель рассуждений, имитирующая работу мозга человека.

Hierarchical Reasoning Model, (HRM) - рекуррентная архитектура, которая черпает вдохновение в принципах работы человеческого мозга. В ее основе лежат 2 взаимозависимых рекуррентных модуля:

🟢Первый, высокоуровневый модуль (H-модуль), отвечает за медленное, абстрактное планирование, подобно тета-волнам в мозге.

🟢Второй, низкоуровневый модуль (L-модуль), занимается быстрыми и детализированными вычислениями, аналогично гамма-волнам.

Эта структура дает модели достигать вычислительной глубины, необходимой для сложных рассуждений, при этом сохраняя стабильность и эффективность во время обучения, чего так не хватает стандартным трансформерам.

🟡Взаимодействие модулей назвали "Иерархической конвергенцией".

Процесс кардинально отличается от того, что происходит в обычных рекуррентных сетях, которые склонны к преждевременной сходимости, когда их скрытое состояние быстро стабилизируется, и дальнейшие вычисления практически прекращаются. В HRM все иначе:

🟠Сначала быстрый L-модуль выполняет серию итераций, находя локальное равновесие для текущего шага задачи. Его итоговое состояние передается медленному H-модулю.

🟠H-модуль, в свою очередь, осмысливает полученный результат, выполняет один шаг собственного, более абстрактного обновления и задает совершенно новый контекст для L-модуля.

Таким образом, вычислительный путь низкоуровневого модуля перезапускается, направляя его к новой точке локального равновесия. Механизм не дает системе застрять и позволяет ей последовательно выполнять множество различных, но взаимосвязанных этапов решения, выстраивая длинные логические цепочки.

Тестовая модель HRM с 27 млн. параметров, обученная всего на 1000 примерах без какого-либо претрейна или CoT-пар, показала неожиданно высокие результаты .

На задачах, требующих глубокого поиска и перебора вариантов ( Sudoku-Extreme ) и поиск оптимального пути ( Maze 30x30 ), HRM достигла почти идеальной точности, а вот CoT-методы полностью провалились с результатом 0%.

На бенчмарке ARC-AGI-1, HRM показывает точность в 40.3%. Для сравнения, o3-mini-high показала 34.5%, а Claude 3.7 с контекстом 8K - 21.2%.

▶️ Веса моделей для самостоятельного воспроизведения тестов:

🟢ARC-AGI-2;
🟢Sudoku 9x9 Extreme (1000 examples);
🟢Maze 30x30 Hard (1000 examples);


📌Лицензирование: Apache 2.0 License.


🟡Статья
🟡Arxiv
🖥Github


@ai_machinelearning_big_data

#AI #ML #HRM #SapientInc
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍7753🔥37🤔7👀6🥰3🐳2
🧠 Qwen3-MT — Alibaba продолжает жечь и выпускает еще одну модель, в этот раз для машинного перевода.

🌍 Поддерживает 92+ языка, на которых говорит 95% населения мира

📚 Обучен на триллионах токенов из интернета, открытых документов и книгах, субтитров из видео.

🔬 Что внутри:
- Модель Qwen3-MoE-72B с архитектурой Mixture-of-Experts
- Заточена на переводческие фишки, поддерживает сложную терминологию и даже очень редкие слова.
- RLHF: обучение с подкреплением повышает точность и естественность модели

Возможности:
Обеспечивает качественный перевод в реальном времени
Контроль стиля и терминов
Масштабируемость для API и продакшена
Цена — от $0.5 за миллион токенов

🟡 Попробовать демку: https://huggingface.co/spaces/Qwen/Qwen3-MT-Demo
🟡 ModelScope: https://modelscope.cn/studios/Qwen/Qwen3-MT-demo
🟡 Документация API: https://alibabacloud.com/help/en/model-studio/translation-abilities
🟡 Блог с подробностями: https://qwenlm.github.io/blog/qwen-mt/

@ai_machinelearning_big_data


#Qwen #Alibaba #ml #llm #ai
Please open Telegram to view this post
VIEW IN TELEGRAM
👍12532🔥23🥰5🎃4
Media is too big
VIEW IN TELEGRAM
✔️ OpenAI готовится выпустить GPT-5 в начале августа.

Ключевым нововведением станет интеграция возможностей «o-серии», ориентированных на сложные логические рассуждения, в основную линейку GPT. Ожидается, что модель выйдет в нескольких вариантах: основная, «mini» и «nano». Полноразмерная и мини-версии будут доступны через ChatGPT и API, а нано-версия - только по API.

Сэм Альтман подтвердил, что уже тестирует GPT-5, описав ее как "умнее нас почти во всех отношениях", хотя и признал, что она вряд ли достигнет порога AGI на старте.
Релизу будет предшествовать выпуск открытой модели, похожей на o3-mini, до конца июля.

Запуск GPT-5 может быть отложен из-за проблем с безопасностью или мощностями, но инженеры Microsoft уже готовят дополнительные серверные ресурсы.
theverge.com

✔️ Дональд Трамп представил план по превращению США в ИИ-державу.

Президент США обнародовал "План действий в области ИИ" и подписал указы, направленные на ускорение строительства дата-центров и сворачивание федерального надзора. Документ содержит более 90 рекомендаций, включая упрощение разрешений для проектов мощностью свыше 100 МВт и использование федеральных земель и налоговых льгот для поддержки новых ЦОД и полупроводниковых производств.

В области торговли план предписывает продвигать экспорт американских ИИ-систем в союзные страны, но сохранять запрет на поставки передовых чипов противникам (Китай). Кроме того, Белый дом требует от федеральных ведомств использовать только "идеологически нейтральные" ИИ-модели и предупреждает штаты о возможном удержании финансирования за обременительные правила.
wsj.com

✔️ Google Photos получил ИИ-инструменты для создания видео из фото и стилизации изображений.

Google добавила в сервис Google Photos два новых творческих ИИ-инструмента - Photo to Video и Remix. Функция Photo to Video, работает на базе Veo 2 и позволяет оживлять статичные фотографии, превращая их в шестисекундные видеоролики с небольшой динамикой. Пользователи могут выбрать один из двух пресетов: "Subtle movements" или "Мне повезет!".

Remix стилизует фотографии под аниме, комиксы, наброски или 3D-анимацию. Оба нововведения располагаются в новой вкладке "Create", которая объединит все творческие функции приложения в одном месте.

Новые функции начнут поэтапно развертываться для пользователей в США в ближайшие несколько недель.
blog.google

✔️ Бенчмарк Humanity’s Last Exam содержит почти 30% неверных ответов.

Исследование, проведенное FutureHouse, выявило серьезные проблемы с достоверностью Humanity’s Last Exam (HLE) - одного из сложнейших бенчмарков для оценки возможностей ИИ-моделей. Анализ показал, что около 29% ответов в разделах по химии и биологии напрямую противоречат рецензируемой научной литературе.

Причиной такого высокого уровня ошибок называют саму методологию создания HLE. Целью было составить вопросы, на которые современные модели не могут дать ответ, что привело к появлению запутанных формулировок. Процесс проверки также был слабым: рецензентам давалось не более 5 минут на вопрос, и они не были обязаны верифицировать точность обоснований.

Для проверки команда FutureHouse использовала собственного ИИ-агента, который сверял ответы с научными публикациями. По итогам исследования, FutureHouse выпустила HLE Bio/Chem Gold - выверенный набор данных из вопросов HLE.
futurehouse.org

✔️ Илон Маск анонсировал возрождение Vine в "ИИ-формате".

Илон Маск анонсировал в X, что компания планирует перезапустить популярный в прошлом сервис коротких видео Vine, но с интеграцией искусственного интеллекта. Он не раскрыл технических деталей и сроков запуска.

Сервис Vine, запущенный в 2013 году, был закрыт в 2017 на фоне конкуренции со стороны Snapchat и TikTok. После покупки Twitter (ныне X) Маск неоднократно проводил опросы среди пользователей, интересуясь, стоит ли возвращать платформу.
Илон Маск в сети X

@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
55👍22🔥13👏4🤬3👨‍💻2
VK обновила RuModernBERT — модель для обработки естественного русского языка. Она доступна на 150 и 35 миллионов параметров, обучена на 2 триллионах токенов.

Модель подойдет для задач в области обработки текста, например, для извлечения информации, анализа тональности, поиска и ранжирования в приложениях и сервисах — от книг и статей до соцсетей и кода. А еще есть две дополнительные версии для лучшей группировки и поиска похожей информации.

По скорости обгоняет аналоги: на длинных текстах — в 2–3 раза, на устройствах — на 10–20%. В тестах показала лучший результат среди русскоязычных NLP-решений.

Забрать можно на Hugging Face
👍96🤣3422🔥15😐11🌚7
🚀 Команда Qwen только что представила новую модель: Qwen3‑235B‑A22B‑Thinking‑2507, нацеленную на глубокие рассуждения.

За последние 3 месяца модель была масштабирована и доработана специально для задач логики, математики, науки и программирования. Среди ключевых улучшений:

Улучшенные способности к рассуждению, решению задач и анализу
Повышенная точность в следовании инструкциям и использовании инструментов
Поддержка нативного 256K контекста — для полноценной работы с длинными цепочками мыслей

🧠 Модель изначально работает в режиме reasoning — включать ничего не нужно. Она самостоятельно строит длинные логические цепочки, обеспечивая максимальную глубину и точность.

🟡Hugging Face: https://huggingface.co/Qwen/Qwen3-235B-A22B-Thinking-2507
or https://huggingface.co/Qwen/Qwen3-235B-A22B-Thinking-2507-FP8
🟡ModelScope: https://modelscope.cn/models/Qwen/Qwen3-235B-A22B-Thinking-2507
or https://modelscope.cn/models/Qwen/Qwen3-235B-A22B-Thinking-2507-FP8
🟡API Doc: https://alibabacloud.com/help/en/model-studio/models#16ff9753e1ctz

🧩 Новый Thinking‑режим поднимает планку для reasoning‑моделей в открытом доступе.

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍65🔥25192🥰2🤣2
This media is not supported in your browser
VIEW IN TELEGRAM
✔️ Google запустила Opal, визуальный конструктор для создания и публикации ИИ-приложений.

Google Labs запустила публичную бета-версию инструмента Opal, в котором можно создавать простые ИИ-приложения без написания кода. Flowrise, make.com и n8n напряглись

Пользователь описывает желаемую цель тестом, после чего система автоматически генерирует визуальную блок-схему рабочего процесса, объединяя в цепочку промпты, ИИ-модели и внешние инструменты.

Схему можно гибко редактировать в drag-and-drop интерфейсе или с помощью дальнейших текстовых команд.

Готовые проекты публикуются как самостоятельные веб-приложения, привязанные к аккаунту Google, и ими можно сразу поделиться по ссылке.

В основе Opal лежат модели Gemini. Инструмент доступен пока только для пользователей в США.

@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
55👍28🔥16👨‍💻3😁2
Андрей Рыбинцев, возглавлявший ИИ-направление более 10 лет, стал управляющим директором по искусственному интеллекту и вошел в правление компании. AI становится частью управленческой вертикали Авито.

Под его руководством окажется объединенная команда из ключевых подразделений, связанных с ИИ. Также в планах новый кластер AI Experience,который будет фокусироваться на развитии AI-ассистентов.

На счету Рыбинцева — запуск семейства моделей A-Vibe и A-Vision, антифрод, IMV и масштабирование Data Science в Авито. По прогнозам компании, GenAI может привнести более 21 млрд ₽ дополнительной выручки к 2028 году.
🤷‍♂78🔥2514😁14🤣11👌8👍3🥰3
🌟 NVIDIA научила роботов-манипуляторов учиться на собственных ошибках при захвате объектов.

Научить робота уверенно брать предметы - это, кажется, вечная тема в робототехнике. Несмотря на десятилетия исследований, надежные и универсальные системы захвата до сих пор остаются скорее теорией, чем реальностью.

Стоит копнуть глубже стандартных демо, и выясняется, что на сложных бенчмарках, FetchBench например, точность лучших систем едва дотягивает до 20%. Это фундаментальный барьер, мешающий внедрять роботов в реальные, неструктурированные среды.

🟡И вот, похоже, NVIDIA предложила решение этой проблемы.

GraspGen - фреймворк для генерации 6-DOF захватов, который не только показывает SOTA результаты, но и вводит новый, крайне интересный подход к обучению.

В его основе лежит связка из генератора на базе Diffusion Transformer и дискриминатора, знакомая всем по GAN-ам архитектура, но с важным отличием.

Генератор, получив на вход облако точек объекта, предлагает множество вариантов захвата, а дискриминатор оценивает их качество и отсеивает неудачные.

И вот тут-то и кроется основная идея, которую в NVIDIA назвали «On-Generator Training». Вместо того чтобы обучать дискриминатор на заранее собранном офлайн-датасете из "хороших" и "плохих" захватов, его учат непосредственно на тех ошибках, которые генерирует его подопечный - диффузионная модель.

Иными словами, дискриминатор становится экспертом не в захватах вообще, а в типичных промахах конкретного генератора. Он учится распознавать и отбраковывать именно те ложноположительные варианты, которые сам генератор считает удачными, но которые на самом деле приведут к провалу. Такой подход создает мощную и целенаправленную обратную связь.

🟡Подкреплено все это работой с данными.

Разработчики выпустили симулированный датасет, содержащий более 53 млн. примеров захватов для 3 разных типов манипуляторов, включая параллельные захваты и вакуумные присоски.

🟡На практике, в тестах, цифры говорят сами за себя.

В симуляции на сете ACRONYM GraspGen показывает AUC (площадь под кривой точность-покрытие) 0.94, это больше ближайших конкурентов на 48%.

На комплексном бенче FetchBench он обошел предыдущих лидеров M2T2 и Contact-GraspNet на 7.8% и 16.9% соответственно.

Но самое главное - это тесты на реальном железе. В экспериментах с роботом UR10 в зашумленной среде GraspGen достиг общей успешности в 81.3%, в то время как M2T2 и AnyGrasp показали лишь 52.6% и 63.7%.

🟡NVIDIA выложила в открытый доступ весь инструментарий.

Код, веса моделей и датасет уже доступны на GitHub и Hugging Face.

Авторы позаботились об энтузиастах: есть подробные инструкции по установке через Docker или pip, готовые демо-скрипты, позволяющие визуализировать захваты для своих облаков точек или 3D-моделей буквально в несколько команд.

Более того, GraspGen изначально спроектирован как модульная и расширяемая система. Разработчики предоставляют подробный туториал, который объясняет, как генерировать данные и обучать модели для совершенно новых объектов и, что важнее, новых типов манипуляторов, реализуя принцип BYOD.

🟡В планах на будущее

Интеграция с симулятором Isaac Lab для еще более продвинутой генерации данных и возможность дообучения на реальных данных.


📌Лицензирование кода: NVIDIA Research Licensing.

📌Лицензирование датасета : CC-BY-4.0 License.


🟡Страница проекта
🟡Набор моделей
🟡Arxiv
🟡Датасет
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #Robotics #GraspGen #NVIDIA
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥6235👍24😁4🎉3👨‍💻1
Media is too big
VIEW IN TELEGRAM
✔️ В Шанхае стартует масштабная конференция по ИИ.

В эти выходные в Шанхае откроется Всемирная конференция по искусственному интеллекту, которая соберет как китайских технологических гигантов, Huawei и Alibaba, так и западные компании: Tesla, Google и Amazon.

Более 800 компаний представят свыше 3000 высокотехнологичных продуктов. Ожидается показ 40 больших языковых моделей, 50 ИИ-устройств и 60 интеллектуальных роботов.
reuters.com

✔️ Samsung ведет переговоры с OpenAI и Perplexity о внедрении их ИИ-сервисов в смартфоны Galaxy.

Южнокорейский техногигант хочет предложить пользователям больше опций выбора в ИИ-сервисах на своих устройствах, помимо уже интегрированной Google Gemini.

По словам Чхве Вон-Джуна, операционного директора мобильного подразделения, начиная с линейки Galaxy S26, компания планирует предоставить клиентам выбор из нескольких ИИ-сервисов.
bloomberg.com


✔️ Copilot получит персонализацию.

Мустафа Сулейман, CEO Microsoft AI, поделился своим видением будущего ассистента Copilot. По его мнению, он станет настолько персонализированным, что обретет постоянную идентичность, будет стареть и даже жить в своей комнате. Первым шагом к этой концепции стала новая функция Copilot Appearance.

Это эксперимент по созданию виртуального персонажа, который в реальном времени реагирует на диалог с помощью мимики и голоса и обладает памятью о предыдущих разговорах. Аватар может улыбаться, кивать и даже выражать удивление.
Функция уже доступна в режиме раннего доступа в Copilot Labs для ограниченного числа пользователей в США, Великобритании и Канаде.
theverge.com

✔️ В MIT научили роботов изучать собственную физику по видео.

MIT CSAIL представил Neural Jacobian Fields (NJF) - систему, которая кардинально меняет подход к управлению роботами. Вместо создания сложных математических моделей для жестких и дорогих конструкций, NJF позволяет роботу самостоятельно изучить свое тело и его реакции на команды, используя только зрение.

В процессе обучения робот совершает случайные движения, а система, в это время, наблюдает за ним с нескольких камер, выстраивая внутреннюю модель его физики м связывая управляющие сигналы с фактическим движением. В основе лежит развитие технологии NeRF.Ценность разработки в том, что после обучения, для управления в реальном времени роботу достаточно одной обычной камеры.

Технология уже успешно протестирована на различных устройствах, от мягких пневматических манипуляторов до стандартных 3D-печатных конструкций. Хотя система пока не обладает тактильной обратной связью, она открывает путь к созданию более дешевых и гибких роботов, способных адаптироваться к своей собственной, даже нестандартной, физической форме.
news.mit.edu

✔️ Leena AI представила «ИИ-коллег» с голосовым интерфейсом для совместной работы.

Leena AI, разработчик корпоративных ассистентов, анонсировала запуск "ИИ-коллег" - агентов нового поколения, которые могут общаться с сотрудниками голосом.

По мнению CEO компании, голосовое общение станет следующим этапом в развитии рабочих инструментов. Оно позволяет сотрудникам решать задачи на ходу, например, за рулем или в очереди. Так, пользователь может голосом попросить ассистента завести новую сделку в Salesforce и одновременно подготовить запрос в технический отдел по итогам встречи. Агент самостоятельно заполнит формы и составит черновик письма, запросив подтверждение перед отправкой.

У агентов есть личностные черты и даже есть любимая спортивная команда. Утром "ИИ-коллега" может "проснуться", просмотреть заметки и продолжить работу над задачами, как обычный сотрудник. В Leena AI прогнозируют, что технология может повысить продуктивность команд до 50%.
siliconangle.com

@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍8525🥰18🔥6🎉2👨‍💻2😨2
This media is not supported in your browser
VIEW IN TELEGRAM
🌍 Hunyuan3D World Model 1.0 — первая в индустрии open-source модель для генерации интерактивных 3D‑миров

Команда Tencent Hunyuan представила модель, способную создавать полноценные трёхмерные сцены всего по одному описанию — тексту или изображению.

🧠 Что умеет:
— Генерация 3D-сред из текста или картинки
— Поддержка редактирования и симуляций в стандартных CG-пайплайнах (Blender, Unity, Unreal)
— Подходит для игр, VR, цифрового контента и прототипирования живых миров

Вы просто пишете: "Japanese garden at sunset" — и модель генерирует трёхмерную сцену с деревьями, прудом и мягким освещением.

Эта модель может серьёзно повлиять на будущее генеративного 3D — от геймдева до виртуальных миров.

📌 Полностью открытая модель:
🟢 Проект: https://3d-models.hunyuan.tencent.com/world
🟢 Онлайн-демо: https://3d.hunyuan.tencent.com/sceneTo3D
🟢 GitHub: https://github.com/Tencent-Hunyuan/HunyuanWorld-1.0
🟢 Hugging Face: https://huggingface.co/tencent/HunyuanWorld-1

@ai_machinelearning_big_data

#3DGeneration #GenerativeAI #TextTo3D #Hunyuan3D #TencentAI #GameDev #VirtualReality
Please open Telegram to view this post
VIEW IN TELEGRAM
👍107🔥2625👏7🥰4😁2👨‍💻2
📌 ИИ, который сам создает ИИ: ASI-ARCH нашел 106 новых SOTA-архитектур.

ASI-ARCH - экспериментальная демонстрация искусственного сверхинтеллекта для исследований в области ИИ, который способен полностью автономно вести научную работу по поиску новых нейросетевых архитектур.

Система самостоятельно выдвигает гипотезы, реализует их в виде исполняемого кода, обучает и проверяет на практике. Результатом этой работы стали 1773 автономных эксперимента, которые заняли свыше 20 000 GPU-часов и привели к открытию 106 новых SOTA-архитектур с линейным механизмом внимания.

🟡Весь процесс разделен на 2 этапа: поиск гипотез и их проверка.

На первом этапе, система работает с небольшими моделями размером около 20 млн параметров, обучая их на 1 млрд токенов. На этом этапе было проведено 1773 эксперимента, которые заняли примерно 10 000 GPU-часов.

Всего на этом этапе было отобрано 1350 перспективных кандидатов — все они превзошли базовую архитектуру DeltaNet как по лоссу, так и по метрикам на бенчмарках.

Второй этап - верификация. Кандидаты первого этапа были масштабированы до 340 млн параметров, чтобы соответствовать конфигурации DeltaNet. После фильтрации архитектур с избыточной сложностью или числом параметров осталось около 400 моделей.

Их обучение на 1 млрд. токенов потребовало ещё 10 000 GPU-часов. В итоге, именно из этой группы были выделены 106 архитектур, достигших SOTA-уровня.

Для финальной валидации исследователи отобрали 5 лучших моделей, обучили их на 15 млрд. токенов и сравнили с Mamba2, Gated DeltaNet и DeltaNet.

🟡 Анализ предпочтений системы показал интересные закономерности.

ASI-ARCH явно предпочитает работать с проверенными временем компонентами: гейтингом и свёрткой. Но самое главное - распределение компонентов в 106 лучших моделях имеет значительно менее выраженный long-tail distribution по сравнению с остальными 1667 сгенерированными архитектурами.

Это означает, что система добивается успеха не путем хаотичного перебора экзотических идей, а через итеративное улучшение набора проверенных техник. По сути, это очень напоминает методологию работы ученых-людей.

🟡Результаты.

Одна из лучших найденных ИИ-архитектур, PathGateFusionNet, показала средний результат по всем бенчмаркам 48.51. Для сравнения, Mamba2 набрала 47.84, а разработанная человеком Gated DeltaNet — 47.32. Другая генерация, ContentSharpRouter, достигла показателя 48.34.

Если посмотреть на отдельные тесты, то PathGateFusionNet получила на BoolQ 60.58 балла, а Gated DeltaNet - 60.12. AdaptiveEntropyRouter в версии на 340 млн. параметров показала результат на тестах 44.31, что на 2.21 пункта выше, чем у Gated DeltaNet (42.10).

И так практически во всем, улучшения наблюдаются по всему спектру задач.

🟡И самое интересное — откуда система черпает идеи? Источников всего 3:

🟢Cognition - знания, извлеченные из научной литературы;
🟢Analysis - выводы, сделанные на основе собственных прошлых экспериментов;
🟢Originality - абсолютно новые идеи.

Для всех 1773 сгенерированных архитектур распределение источников было таким:

🟠51.7% идей приходило из человеческой литературы;
🟠38.2% - из собственного анализа;
🟠10.1% были оригинальными.

Но если посмотреть только на 106 SOTA-итогов, картина меняется. Доля идей, основанных на Analysis, возрастает с 38.2% до 44.8%, а доля Cognition немного снижается до 48.6%.

Таким образом, чтобы достичь ощутимых результатов, ИИ недостаточно просто копировать и комбинировать человеческие наработки. Он должен анализировать собственный опыт, учиться на своих же удачах и провалах, синтезируя более совершенные решения.


🟡Страница проекта
🟡Arxiv
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #Research #ASIARCH
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥11843👍24🥰3👨‍💻3
This media is not supported in your browser
VIEW IN TELEGRAM
🔥 Microsoft снова доказывает силу синтетических данных для задач компьютерного зрения!

Современные модели компьютерного зрения с фокусом на человека (Human-centric CV) требуют миллиардов параметров, гигантских датасетов и дорогостоящего инференса. Но можно ли добиться такой же точности, не тратя миллионы?

Исследователи показали: модели можно обучать только на синтетических данных высокого качества — и при этом достигать тех же результатов.

Microsoft представили DAViD — open-source фреймворк, позволяющий создавать цифровых людей с точной геометрией лиц и текстурами.

Проект демонстрирует, как можно использовать синтетические датасеты для:

🟠 Предсказания глубины изображения (Depth Prediction)
🟠 Оценки поверхностей (Normal Estimation)
🟠 Сегментации фона и людей на фото/видео (Background & Human Segmentation)

Почему это круто:
🟢 Синтетические данные = пиксельная точность разметки
🟢 Почти бесконечное разнообразие сцен, ракурсов, освещения и поз
🟢 Прекрасно масштабируются для обучения моделей с нуля или дообучения

Самое приятное, что Microsoft выложили всё в опенсорс:
✔️ 300 000 сэмплов
✔️ Предобученные модели
✔️ Исходный код фреймворка

🟢Проект: https://microsoft.github.io/DAViD/
🟢Статья: https://arxiv.org/abs/2507.15365
🟢Github: https://github.com/microsoft/DAViD

@ai_machinelearning_big_data

Если ты работаешь с human-centric CV — это мощный старт. Даже без реальных данных.

#cv #microsoft #opensource
Please open Telegram to view this post
VIEW IN TELEGRAM
1171👍53🔥23❤‍🔥3🤩1🥱1👨‍💻1