289K subscribers
3.97K photos
693 videos
17 files
4.56K links
Погружаемся в машинное обучение и Data Science

Показываем как запускать любые LLm на пальцах.

По всем вопросам - @haarrp

@itchannels_telegram -🔥best channels

Реестр РКН: clck.ru/3Fmqri
Download Telegram
🌟 InstantCharacter — новый фреймворк от Hunyuan (Tencent) для стилизации любых персонажей.

Традиционные методы файн‑тюнинга моделей под конкретный образ персонажа обычно либо:
💬 деградируют качество генерации при сохранении идентичности (UNet‑подходы),
💬 либо требуют отдельного, ресурсоёмкого обучения для каждого персонажа

InstantCharacter решает обе проблемы сразу:
Высокое качество
- Построен на базе DiT-моделей, которые по качеству превосходят классические UNet‑архитектуры.

🔥 Гибкая персонализация.
Китайцы сделали адаптер с каскадными энкодерами‑трансформерами, который модулирует признаки персонажа и взаимодействует с латентным пространством DiT.

✔️ Масштабируемость
Фреймворк обучен и на огромном датасете - более 10 миллионов примеров, поделённых на парные и непарные (текст+изображение) примеры.

Трёхэтапное обучение:
🟢Предварительное обучение на низком разрешении без пар.
🟢Дообучениена парных примерах для консистентности.
🟢Финальная донастройка для текстового управления генерациями.

Результаты:
🟢на демке выдает высокое качество, персонажи плавно переходят в различыне стили и меняют позы.
🟢высокая консистентность и сохранение мелких деталей персонажа.
🟢легко управляется промптами без потери качества.

В сравнении с предыдущими подходами InstantCharacter задает высокую планку качества в задачах character-driven image generation.

🔜Попробуйте демку
🔜Project
🔜Аrxiv
🔜Github

@ai_machinelearning_big_data

#Hunyuan #Tencent #InstantCharacter
#OpenSource #AI #CharacterCustomization
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5926🔥16
⚡️ FAIR опубликовала новые инструменты для восприятия и взаимодействия ИИ с миром.

Команда Fundamental AI Research (FAIR) компании Марка Цукерберга представила серию новых разработок: методики и модели, улучшающие компьютерное зрение, 3D-локализацию объектов и совместное обучение языковых агентов. Все модели, техотчеты, датасеты и код этих проектов уже доступны на платформах Hugging Face и GitHub.

🔜 Perception Encoder: «Глаза» для ИИ нового поколения

Perception Encoder - новый виток развития в сфере обработки визуальной информации. Модель, обученная с помощью этой методики на масштабных данных, превосходит аналоги в задачах классификации изображений и видео, включая сложные сценарии — распознавание ската, зарывшегося в морское дно, или крошечной птицы на заднем плане снимка. Благодаря интеграции с LLM, Encoder улучшает ответы на визуальные вопросы, описание сцен и понимание пространственных отношений между объектами.
🟡Модель 🖥Github🟡Датасет🟡Техотчет

🔜 Perception Language Model: Расширенное понимание задач визуального восприятия.

Для задач, требующих анализа видео и текста, Meta выпустила Perception Language Model (PLM). Ее обучали на 2,5 млн. новых аннотированных видеозаписей — это крупнейший датасет для понимания действий и контекста в динамике. PLM доступна в трёх вариантах (1, 3 и 8 млрд параметров). Дополнительный бонус — PLM-VideoBench, бенчмарк для оценки тонкого понимания сцен, который заполняет пробелы существующих тестов.
🟡Модель 🖥GitHub 🟡Датасет 🟡Техотчет

🔜 Locate 3D: Роботы учатся «слышать» запросы.

Как заставить робот найти красную чашку на столе или вазу возле телевизора? Locate 3D решает эту задачу через анализ 3D-точечных облаков и текстовых подсказок. Модель учитывает пространственные связи и контекст, отличая «вазу у TV» от «вазы на столе». В основе — трехэтапный пайплайн: предобработка данных, кодирование 3D-сцены и декодирование запроса. Для обучения использовали 130 тыс. аннотаций из ARKitScenes и ScanNet, что вдвое увеличило объём доступных данных для локализации объектов.
🟡Модель 🟡Демо 🟡Датасет 🟡Техотчет

🔜 Dynamic Byte Latent Transformer: Эффективность без токенизации.

Dynamic Byte Latent Transformer - архитектура, которая работает на уровне байтов, а не токенов, что повышает устойчивость к ошибкам, ускоряет обработку и "отменяет" необходимость токенизации для масштабирования. На тесте CUTE модель показывает преимущество в +55 пунктов против традиционных подходов.
🟡Модель 🖥GitHub 🟡Техотчет

🔜 Collaborative Reasoner: ИИ-агенты учатся работать в команде.

Совместное решение задач — следующий этап развития ИИ. Collaborative Reasoner — это фреймворк, где два агента ведут диалог, чтобы прийти к общему решению. Они могут спорить, аргументировать и согласовывать ответы на сложные вопросы. Для обучения используют синтетические диалоги, которые генерирует сама модель. Результаты впечатляют: на некоторых задачах совместная работа даёт прирост эффективности до 29% по сравнению с одиночным агентом.
🖥GitHub 🟡Техотчет


🟢Статья


@ai_machinelearning_big_data

#AI #ML #LLM #CV #NLP #FAIR
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍66🔥2925
🔥 Kaggle и Google выпустили мини-курс генеративному ИИ!

С 31 марта по 4 апреля 2025 года на Kaggle прошел ряд интенсивов по генеративному ИИ, теперь все материалы с доступны для самостоятельного обучения.

✔️ Что внутри:
🟡День 1: Основы генеративного ИИ и инженерия промптов

Изучите эволюцию больших языковых моделей (LLM), от трансформеров до методов ускорения инференса.

Описание техник создания эффективных промптов для взаимодействия с ИИ.​

🟡День 2: Интеграция с API и практическое применение

Вы научитесь использовать API LLM, для создания интерактивных приложений.

Реализуйте проекты с использованием Retrieval-Augmented Generation (RAG) и семантического поиска.​

🟡День 3: Работа с векторными базами данных

Настройте векторные базы данных для эффективного хранения и поиска информации.

Примените эмбеддинги для улучшения качества генерации текста.​

🟡День 4: Создание персонализированных ИИ-ассистентов

Разработайте персонализированных ИИ-ассистентов, способных отвечать на сложные запросы.

Используйте передовые методы генерации для создания реалистичных диалогов.​

🟡День 5: Проект

Примените полученные знания в финальном проекте, продемонстрировав свои навыки в области генеративного ИИ.​

🧠 Примеры проектов:
- AI Health Assistant: - Персонализированный медицинский помощник, использующий RAG и семантический поиск для предоставления точной информации. ​
Kaggle
- NewsGenius AI: Интеллектуальный агрегатор новостей, анализирующий и обобщающий актуальные события. ​

🔗 Курс
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥103👍3629🥰9
🔥 ​Google представила InstructPipe — AI‑редактор ML‑пайплайнов, работающий через текстовые запросы.

Что такое InstructPipe?
InstructPipe — это AI-ассистент, который преобразует текстовые команды в визуальные блок-схемы, представляющие собой пайплайны машинного обучения.

Система использует два модуля больших языковых моделей (LLM) и интерпретатор кода для генерации псевдокода и его визуализации в редакторе графов.​

Это low-code подход: вы просто соединяете готовые компоненты (ноды) без написания кодп.

🌟 Как это работает?
1️⃣Пользователь вводит текстовую инструкцию, описывающую желаемый пайплайн.

2️⃣ LLM модули обрабатывают инструкцию и генерируют соответствующий псевдокод.

3️⃣Интерпретатор кода преобразует псевдокод в визуальную блок-схему, которую можно редактировать и настраивать.​

✔️ Преимущества InstructPipe

🟡 Доступность: Позволяет новичкам в программировании создавать сложные ML пайплайны без необходимости писать код.

🟡Гибкость: Принимает на выход текстовое описание в любом виде, нет строго формата.

🟡Снижение порога входа: Упрощает процесс обучения и прототипирования мл проектов.

🔜 Подробнее

@ai_machinelearning_big_data

#Google #InstructPipe
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
86👍52🔥27🙊9
✔️ o3 и o4-mini могут определять местоположение на фотографиях.

Пользователи ChatGPT применяют новые возможности анализа изображений o3 и o4-mini для определения местоположения, изображенного на фотографиях. Модели позволяют проводить детальный визуальный анализ изображений, чтобы определить местоположение на основе визуальных признаков без метаданных.

Тенденция, набирающая популярность в соцсетях, заключается в том, что пользователи загружают фотографии в ChatGPT и предлагают ИИ сыграть в игру, похожую на GeoGuessr, где он угадывает местоположение по изображению. Способность ИИ точно определять местоположение вызывает тревогу по поводу возможного злоупотребления и риска домогательства к людям через их фото в социальных сетях.
techradar.com

✔️ Google Gemma 3 QAT: мощный ИИ теперь на домашних GPU.

Google представила Gemma 3 QAT — новое поколение открытых моделей с квантованием, которое позволяет запускать их на обычных GPU. Благодаря Quantization-Aware Training (QAT) параметры моделей сжимаются в 4 раза (до 4 бит) без серьезной потери качества. Например, 27B-версия занимает всего 14 ГБ памяти вместо 54 ГБ, что делает ее доступной для RTX 3090, 12B работает на ноутбучных GPU RTX 4060, а компактные 4B и 1B версии — даже на смартфонах.

Модели совместимы с Ollama, LM Studio, MLX для Apple Silicon и llama.cpp. На Hugging Face и Kaggle доступны квантованные варианты в форматах Q4_0 и int4.
developers.googleblog.com

✔️ Netflix тестирует ИИ-поиск, который подбирает контент по настроению.

Netflix экспериментирует с новой функцией поиска на базе OpenAI, способной понимать естественный язык. Вместо стандартных запросов по жанрам или актерам пользователи смогут искать контент, описывая свое настроение или конкретные предпочтения простыми словами, например, «фильмы для грустного вечера». Тест запущен в Австралии и Новой Зеландии для iOS-устройств, а в ближайшие месяцы дойдет до США.
macrumors.com

✔️ IBM представила серию моделей Granite 3.3 с распознаванием речи.

IBM выпустила новое поколение моделей Granite 3.3, в котором нибольший интерес представляет Granite Speech 3.3 8B — компактная система для преобразования речи в текст (ASR) и перевода (AST). Модель, построенная на базе Instruct 8B, показала повышенную точность и меньшее количество ошибок в транскрипции, обгоняя даже закрытые аналоги вроде GPT-4o и Gemini 2.0 Flash.

В опенсорс опубликованы версии 8B и 2B, которые можно дорабатывать под конкретные задачи. Granite Speech поддерживает перевод с английского на 7 языков, а для интеграции RAG-функций IBM выпустила LoRA-адаптеры в рамках проекта Granite Experiments на Hugging Face.

Пока аудиоэнкодер работает только с английским, но в планах — мультиязычная поддержка, улучшение качества данных и добавление распознавания эмоций в речи. Параллельно компания уже тренирует Granite 4.0 с увеличенной скоростью и длиной контекста.
ibm.com

✔️ Together AI выпустила Open Deep Research, инструмент для структурированного анализа данных в вебе.

Together AI представила Open Deep Research — фреймворк для многошагового веб-поиска с открытым кодом. В отличие от обычных поисковиков, инструмент генерирует структурированные отчеты с цитатами, а не списки ссылок. Архитектура системы прозрачна: код, датасеты и модели доступны всем, а в основе — решения от Alibaba, Llama и DeepSeek.

Работает инструмент в 4 этапа: планирование, сбор данных через API Tavily, проверка и формирование ответа. Готовые отчtты выводятся в HTML с графиками (Mermaid JS) и иллюстрациями, созданными в Flux. Есть даже режим подкаста — текст озвучивается моделями Cartesia’s Sonic.

Together AI сделала систему модульной — разработчики могут менять модели, источники данных или добавлять форматы.
together.ai

@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
1👍8226🔥21🤣1
This media is not supported in your browser
VIEW IN TELEGRAM
🌟 HunyuanPortrait

Новая технология от Hunyuan, превращающая статичные изображения в реалистичную анимацию с беспрецедентной чёткостью и стабильностью!

🆕 Что нового?
1⃣ Статичное изображение превращается → живое видео
2⃣ Высокая реалистичность: Implicit Control + Stable Video Diffusion
3⃣ Плавность и сверхчёткая детализация в анимации лица и головы

Легко адаптируется под любые стили изображений.

Анимация создается по одному фото, нужен только видео-референс в качестве шаблона для генерации.

Работает в один клик
Синхронные мимика и движения головы
Сохраняется черте даже при смене стиля

🟡 Проект
🟡 ArXiv
🟡Github (Коммент от разработчиков - проходим внутреннюю проверку перед открытым исходным релизом и загрузим код и веса сразу после её завершения.)

#Hunyuan
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥71👍5719🤣8🆒6🥱2