223K subscribers
3.83K photos
640 videos
17 files
4.46K links
Погружаемся в машинное обучение и Data Science

Показываем как запускать любые LLm на пальцах.

По всем вопросам - @haarrp

@itchannels_telegram -🔥best channels

Реестр РКН: clck.ru/3Fmqri
Download Telegram
🧍 LHM: новая модель Alibaba для генерации 3D из единственного изображения.

Этот ИИ может превратить ЛЮБОЕ изображение в полный рост в анимированных 3D-персонажей за считанные секунды.

🟢Основные моменты работы модели:
Выделение признаков: Из входного изображения извлекаются токены, описывающие как общую структуру тела, так и детали лица (с помощью схемы многоуровневого кодирования для головы).

🟢Мультимодальный трансформер: С помощью архитектуры трансформера происходит объединение 3D-геометрических токенов тела с визуальными токенами изображения. Механизм внимания позволяет сохранять геометрию одежды и текстурные детали.

🟢Декодирование в 3D: После слияния токенов модель быстро (в режиме feed-forward) декодирует их в параметры 3D-гaуссового распределения, которые задают форму и внешний вид анимируемого 3D-аватара.


⚡️ Модель выдает очень приличные генерации, видео выглядит плавно и естественно, особенно анимация лица и рук.

Установка:
git clone [email protected]:aigc3d/LHM.git
cd LHM


📌Лицензирование: Apache 2.0 License.

🟡Github
🟡Проект
🟡Демка (периодически отваливается из-за наплыва пользователей)
🟡Статья
🟡Видео

@ai_machinelearning_big_data


#ml #opensource #3dgenerator #Alibaba
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍8026🔥15🦄6😁4👏2🆒1
🌟 Sonata: алгоритм самообучения для получения надежных представлений точечных данных в 3D.

Sonata — самообучающийся алгоритм для работы с облаками точек, опубликованный в рамках CVPR 2025, который решает проблему склонности моделей «цепляться» за простые геометрические подсказки, игнорируя семантику объектов. Это явление, названное «геометрическим сокращением», мешало 3D-решениям распознавать сложные сцены без тонкой настройки.

В отличие от конкурентов, Sonata использует принципиально новую архитектуру: вместо U-Net с декодером здесь работает только энкодер Point Transformer V3. Это снижает риск «геометрических ловушек» и увеличивает каналы для анализа с 96 до 512, что критично для семантики.

Алгоритм учится через самодистилляцию: модель-«студент» анализирует замаскированные фрагменты сцен, а модель-«учитель» стабилизирует обучение на целых сценах. Чтобы избежать шаблонного вывода, координаты замаскированных точек сильно искажают сильнее (σ=0.01), а сложность задач растёт постепенно — маски увеличиваются с 10 см до 40 см за первые 5% обучения.

Студент — основная модель, которая активно обучается. Она анализирует сложные виды данных: например, сцены с 70% замаскированных точек или крошечные фрагменты (5% от всей сцены). Её параметры обновляются через обратное распространение ошибки.

Учитель — «замороженная» версия студента, чьи веса обновляются не через градиенты, а через экспоненциальное скользящее среднее (EMA). Он обрабатывает полные, немодифицированные сцены и служит стабильным ориентиром для студента.


Эти решения позволили собрать гигантский датасет из 140 тыс. 3D-сцен (в 86 раз больше существующих аналогов) и достичь рекордов: точность Sonata при линейном анализе на ScanNet выросла в 3,3 раза (с 21,8% до 72,5%), а с 1% данных метод почти вдвое обгоняет конкурентов.

Интеграция с 2D-моделью DINOv2 добавила детализации — комбинированный подход достиг 75,9%. При этом Sonata тратит меньше ресурсов: даже на компактных архитектурах она достигает SOTA-показателей в семантической сегментации помещений и уличных сцен.

Код проекта доступен на GitHub, а визуализации показывают, как алгоритм «видит» многоэтажные здания, различая комнаты и этажи без подсказок.


📌Лицензирование: Apache 2.0 License.


🟡Страница проекта
🟡Arxiv
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #3D #Robotics #Sonata
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍42🔥189🥰2🤓1
🌟 MWS запускает новый продукт — MWS Container Platform, которая объединяет в себе передовые технологии Kubernetes, DevOps и AI. Это корпоративное решение для централизованного управления Kubernetes-кластерами, предназначенное для работы в локальных, облачных и гибридных средах

Основные моменты:

▶️ Автоматизация ключевых процессов: развертывание, обновление, масштабирование и контроль работы кластеров, что на 40% снижает нагрузку на ИТ-команды
▶️ Встроенные инструменты DevOps на 70% ускоряют выпуск новых приложений и упрощают их эксплуатацию
▶️ Service Mesh на базе Istio обеспечивает полную наблюдаемость за микросервисами
▶️ Поддержка работы с GPU, включая их виртуализацию и балансировку нагрузки, что позволяет повысить эффективность использования GPU на 75%
▶️ Набор готовых инструментов для построения конвейеров MLOps и LLMOps

MWS Container Platform упрощает ежедневные задачи администрирования инфраструктуры, ускоряет выпуск новых продуктов и не дает погрязнуть в технической рутине.

🟡Посмотреть

#devops #AI #Kubernetes
Please open Telegram to view this post
VIEW IN TELEGRAM
24🔥16👍6🥰2🤓1🦄1
📌 Набор датасетов по программированию от HF.

HuggingFace, воодушевившись победой модели OlympicCoder над Sonnet 3.7 в бенчмарках LiveCodeBench и в заданиях Международной олимпиады по информатике 2024 года, опубликовал набор датасетов для предварительного обучения и тонкой настройки LLM в задачах генерации кода:

🟢Stack-Edu - 125 млрд. токенов образовательного кода на 15 языках программирования, отфильтрованных из The Stack v2

🟢GitHub Issues - 11 млрд. токенов из GitHub Issues

🟢Kaggle Notebooks - 2 млрд. токенов ноутбуков Kaggle по анализу данных

🟢CodeForces problems - 10 тыс. уникальных задач из сервиса CodeForces, 3 тыс из которых не были включены в массив обучения, использовавшийся DeepMind

🟢CodeForces problems DeepSeek-R1 - 8,69 Gb отфильтрованных трассировок рассуждений по задачам CodeForces

🟢International Olympiad in Informatics: Problem statements dataset (2020 - 2024) - уникальный набор из заданий Олимпиады по программированию, разбитый на подзадачи так, чтобы каждый запрос соответствовал решению этих подзадач

🟢International Olympiad in Informatics: Problem - DeepSeek-R1 CoT dataset (2020 - 2023) - 11 тыс трассировок рассуждений, выполненных DeepSeek-R1 в ходе решения заданий Олимпиады по программированию


@ai_machinelearning_big_data

#AI #ML #LLM #Dataset #HuggingFace
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6319🔥9
This media is not supported in your browser
VIEW IN TELEGRAM
🔥 LayerAnimate — метод, позволяющий управлять отдельными слоями видео, меняя элементы переднего и заднего плана.

В отличие от существующих методов, которые рассматривают анимацию как единое целое, LayerAnimate предоставляет точечный контроль над каждым слоем, что делает процесс генераций более гибким и управляемым.

Как это работает?
LayerAnimate решает проблему ограниченности данных, с помощью конвейера обработки данных, включающего:

🟢Автоматизированную сегментацию элементов для разделения анимации на слои.

🟢Иерархическое слияние состояний движения для упрощения управления кадрами сцены.

🟢Улучшение согласованности движения для создания плавных и реалистичных анимаций.

Модель позволяет переключаться между различными статическими изображениями или динамическими видео без влияния на анимацию переднего плана.

Особенно интересно выглядит image-video с использованием скетча, вместо текстового описания с данными о движении, можно использовать набросок с траекторией движения сцены и получить готовую сцену.

Мастхэв для тех, кто работает с анимацией. Больше примеров можно посмотреть здесь.

🟡Github
🟡Статья
🟡Проект

@ai_machinelearning_big_data

#videogenerator #video #ai #ml #opensource
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5514🔥13
This media is not supported in your browser
VIEW IN TELEGRAM
⚡️ DeepSeek V3 strikes again!

На HF Появилась новая версия DeepSeek v3.

Еще Deepseek обновили свое приложение.

Страданиям OPENAI не будет конца 😂

~700GB, Лицензирование: mit, тестим тут.

Вы можете запустить его на компьютере M3 Mac Studio с 512 ГБ памяти, ( ~10 000 долларов) если используете квантованную версию на 352 ГБ через MLX.

🟡 HF :https://huggingface.co/deepseek-ai/DeepSeek-V3-0324/tree/main

@ai_machinelearning_big_data

#deepseek
Please open Telegram to view this post
VIEW IN TELEGRAM
👍9125🤣14🔥12🤷‍♂2
This media is not supported in your browser
VIEW IN TELEGRAM
💊 Свежее видео с роботами, выполняющими настоящие клинические работы.

Для этого гуманоидного робота
UnitreeRobotics G1 была разработана компексная система двуручного управления, включающая в себя систему отслеживание позы, продвинутые настройки захвата движений и контроллер для безопасного и точного манипулирования медицинскими инструментами.

Робот тестируется для семи различных медицинских процедур, включая физические осмотры, экстренные вмешательства, точные задачи, требующие мелкой моторики и др.

🤖 Очень скоро роботизированные врачи заполнят больницы

На видео робот управляется оператором дистанционно, автономность это следующий этап развития!

В будущем у каждого будет свой личный врач 💉

#robotics #engineering #technology #robots
Please open Telegram to view this post
VIEW IN TELEGRAM
50🔥23👍16👀8😁7🤨4🌚1
📌 72B слишком много для VLM? А 7B параметров недостаточно!

QWEN только что выпустили новую модель на 32B параметров, Qwen2.5-VL-32B-Instruct.

Эта модель представляет собой значительный прогресс для своего размера. И что самое лучшее, она лицензирована Apache 2.

Модель выдает более подробные и структурированный ответы.

💡 Детальное понимание: превосходные возможности анализа изображений и визуальной логической дедукции.

📊 Превосходит сопоставимые модели, такие как Mistral-Small-3.1-24B и Gemma-3-27B-IT.

🚀 В нескольких тестах даже превосходит более крупный Qwen2-VL-72B-Instruct.

Еще один крутой релиз понедельника!

🟢Блог: https://qwenlm.github.io/blog/qwen2.5-vl-32b/
🟢Попробовать: https://chat.qwen.ai
ВЧ: https://huggingface.co/Qwen/Qwen2.5-VL-32B-Instruct
🟢Модель: https://modelscope.cn/models/Qwen/Qwen2.5-VL-32B-Instruct

@ai_machinelearning_big_data


#AI #ML #LLM #Dataset #HuggingFace
Please open Telegram to view this post
VIEW IN TELEGRAM
👍80🔥2811🤓4
✔️ Ant Group использует китайские чипы для снижения стоимости обучения моделей на 20%

Ant Group успешно использовала хардверные решения от Alibaba и Huawei для обучения своих моделей, что позволило сократить затраты примерно на 20%. Результаты тестов показали, что китайские чипы сопоставимы по производительности с Nvidia H800. Хотя Ant Group пока полностью не отказывается от Nvidia для разработки ИИ, ее последние разработки в основном полагаются на альтернативные решения - AMD и чипы китайского производства.

Это свидетельствует о том, что китайские компании ускоряют локализацию технологий искусственного интеллекта, чтобы сократить затраты и уменьшить зависимость от американских чипов.
bloomberg.com

✔️ В Италии запущена первая в мире газета, созданная ChatGPT.

Итальянская газета Il Foglio начала месячный эксперимент, опубликовав первый в мире газетный выпуск, сгенерированный искусственным интеллектом. Цель эксперимента - изучить влияние ИИ на журналистику, используя ChatGPT для создания контента.

Редактор газеты Клаудио Сераса заявил, что ИИ использовался на всех этапах создания - от написания текстов и заголовков до цитат и резюме, при этом журналисты редакции участвуют в создании промптов для ИИ и проверке сгенерированных текстов.
asianfin.com

✔️ ARC Prize запускает бенчмарк ARC-AGI-2 с призовым фондом в 1 миллион долларов.

Команда ARC Prize запустила 2 этап бенчмарка ARC-AGI-2 для оценки «гибкости мышления» ИИ через задачи, которые человек решает за секунды, а алгоритмы — с трудом. Как и в прошлой версии, система проверяет способность к обобщению знаний, но теперь барьер выше: на нем базовые LLM набирают 0%, а продвинутые — меньше 4%. Призовой фонд бенчмарка -1 млн. долларов, главный приз получит разработка, которая сможет превысить 85% выполнения бенчмарка.

Решение задач ARC-AGI-2 требует интуиции и адаптивности — того, что в людях заложено природой. «Это не тест на эрудицию, а проверка умения мыслить вне данных», — поясняют разработчики.
arcprize.org

✔️ Поисковая система Atlantic позволит проверить, использовалась ли ваша работа для обучения моделей.

Компания The Atlantic разработала поисковый инструмент, позволяющий пользователям проверить, не фигурирует ли их работа в LibGen - архиве книг, научных работ и статей, который, как сообщается, использовался для обучения популярных языковых моделей.

Согласно судебным документам, набор данных LibGen использовался для обучения моделей Llama. OpenAI уже публично сообщила, что контент LibGen не включен в текущие версии ChatGPT или в API OpenAI. Другие компании, занимающиеся разработкой ИИ, пока не комментировали, использование LibGen в своем обучении.
theatlantic.com

✔️ OceanDS: 1,8 млрд. данных об океане стали основой первой океанографической LLM.

Китайская модель OceanDS, созданная для морских исследований, опирается на уникальную базу из 1,8 млрд токенов данных. В неё вошли оцифрованные научные работы, книги и отчёты — всё, что касается океана.

По тестам OceanDS обходит топовые LLM в точности ответов на профильные запросы — разрыв достигает 25%. Это первый в мире ИИ, заточенный под океанографию. Уже сейчас его тестируют в управлении природными ресурсами Китая, а в будущем — внедрят в другие отрасли.
news.cgtn.com

@ai_machinelearning_big_data

#AI #ML #Research #NLP
Please open Telegram to view this post
VIEW IN TELEGRAM
47👍28🔥9
🌟 NVIDIA выкатили MambaVision на Hugging Face — мощную гибридную модель, объединяющую Mamba и Transformers для задач компьютерного зрения.

🔹 Главные особенности:
SOTA-производительность: превосходит существующие модели по точности (Top-1) и скорости обработки на ImageNet-1K.
Гибридная архитектура: сочетает Mamba (State Space Models, SSMs) и архитектуру трансформеров, улучшая эффективность обработки изображений.
Подходит для задач классификации изображений, извлечения признаков и других задач CV.

MambaVision подойдет вам для автоматического анализа изображений, фильтрации данных и интеграции в AI-системы для компьютерного зрения.

✔️ MambaVision-L3-256-21K: https://huggingface.co/nvidia/MambaVision-L3-512-21K

#nvidia #mamba #computervision
Please open Telegram to view this post
VIEW IN TELEGRAM
1👍50🔥147
🌟 Diffusion-4K – это новый инструмент для синтеза изображений в 4K.

Модель text-to-image генерирует фотореалистичные изображения с высоким уровнем детализации и точно следует заданным промптам.

Алгоритм синтеза изображений в рамках Diffusion-4K работает следующим образом:​

🟢Обучение модели: Используется латентная диффузионная модель, такая как SD3-2B или Flux-12B, которая предварительно обучена на изображениях более низкого разрешения.​

🟢Wavelet-based дообучение: Модель дообучается на 4K-изображениях с применением вейвлет-преобразования.
Wavelet-based Fine-tuning – это метод, который использует вейвлет-преобразование для разложения данных (например, изображений) на составляющие с разными частотными характеристиками, после чего проводится дополнительное обучение модели с акцентом на восстановление высокочастотных деталей.
Это позволяет модели фокусироваться на высокочастотных компонентах изображения, улучшая детализацию и качество синтезируемых изображений.​

🟢Генерация изображений: После дообучения модель способна генерировать фотореалистичные 4K-изображения на основе текстовых описаний, обеспечивая высокую точность и соответствие заданным текстовым промптам.​

Алгоритм сочетает в себе предварительное обучение на низких разрешениях и специализированное дообучение на высококачественных 4K-изображениях и позволяет получать качественные генерации на выходе.

Также разработчики выложили Aesthetic-4K – датасет на 10.2 GB отобранных вручную изображений с описаниями к ним, сгенерированными GPT-4o.

🟢 Github
🟢 Flux wavelet
🟢 Dataset
🟢 Статья

@ai_machinelearning_big_data

#ml #ai #4k #imagegenerator
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
1👍51🔥1912