InstructPipe — это AI-ассистент, который преобразует текстовые команды в визуальные блок-схемы, представляющие собой пайплайны машинного обучения.
Система использует два модуля больших языковых моделей (LLM) и интерпретатор кода для генерации псевдокода и его визуализации в редакторе графов.
Это low-code подход: вы просто соединяете готовые компоненты (ноды) без написания кодп.
@ai_machinelearning_big_data
#Google #InstructPipe
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤85👍52🔥27🙊9
Пользователи ChatGPT применяют новые возможности анализа изображений o3 и o4-mini для определения местоположения, изображенного на фотографиях. Модели позволяют проводить детальный визуальный анализ изображений, чтобы определить местоположение на основе визуальных признаков без метаданных.
Тенденция, набирающая популярность в соцсетях, заключается в том, что пользователи загружают фотографии в ChatGPT и предлагают ИИ сыграть в игру, похожую на GeoGuessr, где он угадывает местоположение по изображению. Способность ИИ точно определять местоположение вызывает тревогу по поводу возможного злоупотребления и риска домогательства к людям через их фото в социальных сетях.
techradar.com
Google представила Gemma 3 QAT — новое поколение открытых моделей с квантованием, которое позволяет запускать их на обычных GPU. Благодаря Quantization-Aware Training (QAT) параметры моделей сжимаются в 4 раза (до 4 бит) без серьезной потери качества. Например, 27B-версия занимает всего 14 ГБ памяти вместо 54 ГБ, что делает ее доступной для RTX 3090, 12B работает на ноутбучных GPU RTX 4060, а компактные 4B и 1B версии — даже на смартфонах.
Модели совместимы с Ollama, LM Studio, MLX для Apple Silicon и llama.cpp. На Hugging Face и Kaggle доступны квантованные варианты в форматах Q4_0 и int4.
developers.googleblog.com
Netflix экспериментирует с новой функцией поиска на базе OpenAI, способной понимать естественный язык. Вместо стандартных запросов по жанрам или актерам пользователи смогут искать контент, описывая свое настроение или конкретные предпочтения простыми словами, например, «фильмы для грустного вечера». Тест запущен в Австралии и Новой Зеландии для iOS-устройств, а в ближайшие месяцы дойдет до США.
macrumors.com
IBM выпустила новое поколение моделей Granite 3.3, в котором нибольший интерес представляет Granite Speech 3.3 8B — компактная система для преобразования речи в текст (ASR) и перевода (AST). Модель, построенная на базе Instruct 8B, показала повышенную точность и меньшее количество ошибок в транскрипции, обгоняя даже закрытые аналоги вроде GPT-4o и Gemini 2.0 Flash.
В опенсорс опубликованы версии 8B и 2B, которые можно дорабатывать под конкретные задачи. Granite Speech поддерживает перевод с английского на 7 языков, а для интеграции RAG-функций IBM выпустила LoRA-адаптеры в рамках проекта Granite Experiments на Hugging Face.
Пока аудиоэнкодер работает только с английским, но в планах — мультиязычная поддержка, улучшение качества данных и добавление распознавания эмоций в речи. Параллельно компания уже тренирует Granite 4.0 с увеличенной скоростью и длиной контекста.
ibm.com
Together AI представила Open Deep Research — фреймворк для многошагового веб-поиска с открытым кодом. В отличие от обычных поисковиков, инструмент генерирует структурированные отчеты с цитатами, а не списки ссылок. Архитектура системы прозрачна: код, датасеты и модели доступны всем, а в основе — решения от Alibaba, Llama и DeepSeek.
Работает инструмент в 4 этапа: планирование, сбор данных через API Tavily, проверка и формирование ответа. Готовые отчtты выводятся в HTML с графиками (Mermaid JS) и иллюстрациями, созданными в Flux. Есть даже режим подкаста — текст озвучивается моделями Cartesia’s Sonic.
Together AI сделала систему модульной — разработчики могут менять модели, источники данных или добавлять форматы.
together.ai
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
1👍82❤26🔥21🤣1
This media is not supported in your browser
VIEW IN TELEGRAM
Новая технология от Hunyuan, превращающая статичные изображения в реалистичную анимацию с беспрецедентной чёткостью и стабильностью!
🆕 Что нового?
1⃣ Статичное изображение превращается → живое видео
2⃣ Высокая реалистичность: Implicit Control + Stable Video Diffusion
3⃣ Плавность и сверхчёткая детализация в анимации лица и головы
Легко адаптируется под любые стили изображений.
Анимация создается по одному фото, нужен только видео-референс в качестве шаблона для генерации.
✅ Работает в один клик
✅ Синхронные мимика и движения головы
✅ Сохраняется черте даже при смене стиля
#Hunyuan
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥71👍57❤19🤣8🆒6🥱2
Объемная и интересная статья Sebastian Raschka, автора книги "
Build a Large Language Model From Scratch
" о тенденциях и проблемах современных методов обучения LLM через призму RL.В мире LLM последние месяцы стали переломными. Релизы GPT-4.5 и Llama 4, вопреки ожиданиям, не вызвали ажиотажа — все потому, что эти модели остались «классическими», без продвинутых методов обучения для рассуждений. Их конкуренты - xAI и Anthropic уже добавили кнопки «расширенного мышления», а OpenAI представила o3 — модель, где упор сделан на стратегическое применение вычислений через обучение с подкреплением. Становится ясно: масштабирование данных и параметров почти исчерпало себя, и будущее за RL.
Основной инструмент RLHF (обучение с подкреплением на основе человеческой обратной связи) давно используется для настройки LLM под предпочтения людей. Но для задач, требующих логики, этого недостаточно.
Здесь на сцену выходит GRPO — модификация алгоритма PPO, которая экономит ресурсы, убирая «критика» (модель оценки вознаграждения). Так создавалась DeepSeek-R1-Zero, ее обучали вообще без этапа SFT, используя только автоматические проверки ответов. Если математическая задача решена верно, модель получает «плюс», если нет — «минус». Такой подход не только дешевле, но и снижает риск «обмана» модели (reward hacking).
Но и RL — не панацея. Исследования показывают, что PPO и GRPO неявно поощряют длинные ответы, даже если те ошибочны. Например, при отрицательном вознаграждении штраф распределяется по токенам, и модель учится растягивать текст, чтобы смягчить наказание.
Решения уже есть: одни команды вводят штрафы за длину, другие меняют расчет преимуществ. А модель L1 от Kaggle и вовсе позволяет пользователям задавать желаемую длину ответа, балансируя между точностью и затратами.
Способность к рассуждениям может возникать и без RL. DeepSeek V3 демонстрирует мыслительные «озарения», хотя ее не обучали специально. Этот факт всерьез ставит под вопрос исключительную роль RL — возможно, все дело в данных, где уже есть цепочки логических шагов.
Тем не менее, RL усиливает эти способности: модели начинают самокорректироваться, использовать внешние инструменты (калькуляторы, поиск) и даже переносить навыки между доменами — от математики до медицины.
Некоторые заявления о прогрессе оказались преувеличены: улучшения на мелких моделях часто нестабильны, а результаты зависят от случайных факторов вроде выбора сида. Кроме того, RL требует внушительных ресурсов (o3 от OpenAI потратила при обучении в 10 раз больше вычислений, чем предыдущая версия)
В итоге, RL остается ключевым направлением, но важно избегать «эйфории». Сочетание RL с автоматической проверкой ответов, контроль длины и гибридные подходы (как в DeepSeek-R1) — вот что приближает нас к моделям, которые не просто генерируют текст, а действительно думают.
@ai_machinelearning_big_data
#AI #ML #LLM #RL
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍79❤25🥰7🔥5🤣3
SkyReels‑V2 - опенсорс генератор видео из текста, который не только соперничает с лучшими закрытыми решениями, но и предлагает уникальное преимущество — теоретически неограниченную длину генераций.
- Story Generation: полный конвейер от генерации текста до последовательного сюжета для видео.
- Image‑to‑Video
- Camera Director: управление виртуальной камерой — смена углов, зум, трекинг.
- Elements‑to‑Video: генерация отдельных объектов или эффектов, которые затем интегрируются в общий видеоряд.
На бенчмарках SkyReels V2 лидирует среди открытых моделей на VBench с 83.9%, оставляя позади Wan2.1, HunyuanVideo и OpenSora 2.0.
▪ Попробовать
▪ Github
▪ Technical Report
▪ Hugging Face
▪ ModelScope
@ai_machinelearning_big_data
#AI #TextToFilm #VideoGeneration #SkyReelsV2 #MachineLearning
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍72🔥32❤16🤣12
✨ «Values in the Wild»: глубокое погружение в ценностные ориентиры ИИ
В новом исследовании Anthropic команда провела первый в своём роде анализ «выхлопа» языковой модели Claude 3/3.5, чтобы понять, какие именно нормативные ценности она проявляет в реальных диалогах. Вот суть для специалистов по машинному обучению:
✔️ Задача
Выявить и таксономизировать ценности, на которых основаны ответы Claude, когда модель без прикрас взаимодействует с запросами пользователей.
🌟 Методология
Проанализировано 308 210 анонимизированных сессий Claude (18–25 февраля 2025).
Ценности извлекались автоматически «защитным» пайплайном, без прямого доступа людей к чату.
Собрана таксономия из 3 307 уникальных понятий, сгруппированных в пять крупных доменов: практические, эпистемические, социальные, защитные и личностные.
🌟 Ключевые выводы
Практика и знание. Более 50 % упоминаний — «
Контекстуальная гибкость. В разговоре об отношениях модель ценит «личные границы», в этических дискуссиях — «автономию человека».
Типы реакции. В большинстве случаев Claude поддерживает ценности пользователя, однако в ~3 % диалогов она «сопротивляется», отстаивая «предотвращение вреда» выше нарушений инструкций.
💡 Значение для ML‑практики
Составлена карта ценностей, которая позволяет выявлять «узкие места» alignment‑стратегий.
Таксономия и статистика реакций помогают прогнозировать поведение LLM в разных сценариях и проектировать более надёжные системы.
Подход демонстрирует, как можно сочетать автоматический анализ и приватность данных для глубокой оценки качественных характеристик модели.
🔜 Подробнее в полном тексте исследования:
https://anthropic.com/research/values-wild
🔜 Это ссылка на открытый датасет, в котором собраны все «ценности», выявленные у модели Claude 3/3.5 в исследовании «Values in the Wild».
@ai_machinelearning_big_data
#Anthropic #Claude
В новом исследовании Anthropic команда провела первый в своём роде анализ «выхлопа» языковой модели Claude 3/3.5, чтобы понять, какие именно нормативные ценности она проявляет в реальных диалогах. Вот суть для специалистов по машинному обучению:
Выявить и таксономизировать ценности, на которых основаны ответы Claude, когда модель без прикрас взаимодействует с запросами пользователей.
Проанализировано 308 210 анонимизированных сессий Claude (18–25 февраля 2025).
Ценности извлекались автоматически «защитным» пайплайном, без прямого доступа людей к чату.
Собрана таксономия из 3 307 уникальных понятий, сгруппированных в пять крупных доменов: практические, эпистемические, социальные, защитные и личностные.
Практика и знание. Более 50 % упоминаний — «
эффективность
», «точность
», «прозрачность
» и «профессионализм
».Контекстуальная гибкость. В разговоре об отношениях модель ценит «личные границы», в этических дискуссиях — «автономию человека».
Типы реакции. В большинстве случаев Claude поддерживает ценности пользователя, однако в ~3 % диалогов она «сопротивляется», отстаивая «предотвращение вреда» выше нарушений инструкций.
💡 Значение для ML‑практики
Составлена карта ценностей, которая позволяет выявлять «узкие места» alignment‑стратегий.
Таксономия и статистика реакций помогают прогнозировать поведение LLM в разных сценариях и проектировать более надёжные системы.
Подход демонстрирует, как можно сочетать автоматический анализ и приватность данных для глубокой оценки качественных характеристик модели.
https://anthropic.com/research/values-wild
@ai_machinelearning_big_data
#Anthropic #Claude
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍49❤20🔥12😁3🤷1
Stability AI совместно с AMD оптимизировали линейку моделей Stable Diffusion для работы на GPU Radeon и APU Ryzen AI. Инженеры использовали ONNX-формат, чтобы повысить скорость генерации без потери качества изображений.
Оптимизация SD3.5 и SDXL и их Turbo-версий показала прирост производительности до 2,6x и 3,8x соответственно — по сравнению с базовыми реализациями на PyTorch. Обновленные модели совместимы со средами, поддерживающими ONNX Runtime, имеют суффикс
amdgpu
в названии и доступны на Hugging Face.stability.ai
Intel представила долгожданный техпроцесс 18A, который может стать поворотным моментом для ее foundry-подразделения. Согласно техотчету, новинка обходит Intel 3 по ключевым параметрам: прирост плотности на 30%, повышение скорости на 25% и сокращение энергопотребления на 36% для ядер Arm. Основой успеха стали RibbonFET (транзисторы с gate-all-around) и PowerVia — технология обратного питания, которая стабилизирует подачу напряжения и освобождает место для компактного размещения элементов.
18A демонстрирует плотность SRAM, аналогичную TSMC N2, что выводит Intel в прямые конкуренты тайваньскому гиганту. Уже в 2025 году процесс планируют использовать в SoC Panther Lake, а к 2026-му — в серверных Xeon Clearwater Forest. Пока же инженеры и аналитики ждут первых образцов — проверить, оправдаются ли заявленные характеристики в реальных продуктах.
wccftech.com
Несмотря на перенос части функций Apple Intelligence, компания активно продвигает готовые решения. В новом рекламном ролике Apple показала работу инструмента Clean Up в приложении Photos: он позволяет убрать элементы фона, сохранив основной объект.
Функция уже доступна на iPhone 16, 15 Pro/Pro Max, iPad с чипами A17 Pro/M1 и новее, а также Mac на M1 и позднее. Требуются iOS 18.1, iPadOS 18.1 или macOS Sequoia 15.1.
9to5mac.com
Объединенные Арабские Эмираты (ОАЭ) станут первой страной в мире, где ИИ будет использоваться для разработки новых и пересмотра существующих законов. Ожидается, что эта инициатива повысит эффективность законодательного процесса на 70 %.
Правительство ОАЭ одобрило создание Управления по регулированию и интеллекту - нового органа, которому поручено использовать ИИ для анализа существующих федеральных и местных законов, судебных решений, исполнительных процедур, государственных услуг и социально-экономических последствий законодательства.
ft.com
Sand AI выпустила Magi-1, первую в истории Text-to-Video модель с 24 млрд. параметров, разработанную специально для создания видео. Magi-1 опубликована в открытом доступе и позволяет создавать высококачественные полнометражные видеоролики с исключительной реалистичностью, плавностью и тонким контролем над видеосценами.
Черрипики и результаты тестов в популярных бенчмарках превосходны. Попробовать можно в демо-спейсе.
sand.ai
Эмоции и тон. Можно задавать тональность и интонацию через udio prompt, а также управлять «невербалкой»: смех, кашель, вздохи и т. д. Для запуска нужно ≈10 GB VRAM, на A4000 GPU, ~40 токенов/с.
Demo / Github / HF
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍50🔥18❤11
Google Research опубликовал интересную статью «It’s All Connected», в которой предлагают решение проблемы квадратичной сложности трансформеров в обработке последовательностей : фреймворк Miras, который объединяет онлайн-оптимизацию, управление памятью и внимание в единую систему, что в итоге позволяет создавать более эффективные модели.
Miras — это 4 компонента: архитектура памяти, целевая функция (смещение внимания), регуляризация удержания и алгоритм обучения. Miras позволяет экспериментировать с loss-функциями (Huber loss для устойчивости к выбросам) и регуляризацией (KL-дивергенция, Elastic Net).
С помощью Miras были созданы 3 тестовые модели — Moneta, Yaad и Memora. Moneta использует Lp-нормы для баланса между запоминанием и устойчивостью, Yaad комбинирует L1 и L2 через Huber loss, а Memora применяет Softmax с KL-регуляризацией.
В экспериментах тестовые модели обошли трансформеры и современные RNN на задачах языкового моделирования и поиска информации в длинных контекстах. На тесте «иголка в стоге сена» (8K токенов) Moneta достигла точности 98.8%, тогда как Mamba2 — лишь 31%.
Статья не просто теоретическое изыскание — это практическое руководство для разработки моделей. Четкая структура Miras помогает систематизировать существующие подходы и экспериментировать с компонентами. Например, замена регуляризации на Elastic Net или Bregman divergence может улучшить управление памятью в нишевых задачах.
Miras — шаг к более осмысленному проектированию архитектур. Если трансформеры — это «кувалда» для масштаба, то описанный в статье подход Google Research - хирургический инструмент, где каждый компонент настраивается под конкретную задачу.
@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍53🔥16❤11
CoMotion - метод, разработанный Apple для одновременного отслеживания 3D-движений нескольких людей, который принципиально отличается от покадрового обнаружения и классических способов трекинга.
CoMotion использует рекуррентную модель, которая поддерживает набор отслеживаемых 3D-поз и обновляет их при поступлении нового кадра, непосредственно анализируя пиксели изображения. Способность использовать визуальные подсказки вкупе с парадигмой
tracking by attention
позволяет CoMotion эффективно отслеживать перекрывающихся и временно исчезающих из виду людей.Архитектура CoMotion состоит из модуля обнаружения (он определяет кандидатов на новые треки) и модуля обновления поз (корректирует позы существующих треков). Оба модуля работают с признаками изображения, извлеченными с помощью стандартной модели
ConvNextV2
. Модуль обновления поз использует cross-attention к признакам изображения для каждого трека, опираясь на предыдущие состояния, и применяет GRU для рекуррентного обновления скрытых состояний.Прогнозирование 3D-поз выполняется путем параметризации модели SMPL, а управление треками основано на эвристических правилах, использующих модифицированную метрику Object Keypoint Similarity (OKS).
Модель CoMotion обучается в 3 этапа. Первый - предварительное обучение энкодера и модуля обнаружения на больших наборах данных отдельных изображений (псевдо-размеченные InstaVariety, COCO, MPII и синтетический BEDLAM). Второй - обучение модуля обновления поз на коротких видео из BEDLAM, WHAC-A-MOLE и размеченных PoseTrack и DanceTrack. На финальном этапе обучение модуля обновления поз продолжается на более длинных видеопоследовательностях.
Экспериментальная оценка CoMotion проводилась на стандартных бенчмарках для отслеживания и оценки поз. На PoseTrack21 CoMotion показал значительное улучшение метрик (MOTA на 14% и IDF1 на 12%). При этом CoMotion работает на порядок быстрее, чем сопоставимая система 4DHumans.
# Clone the repo
git clone https://github.com/apple/ml-comotion.git
cd ml-comotion
# Create a conda env
conda create -n comotion -y python=3.10
conda activate comotion
# Install dependencies
pip install -e
# Download models
bash get_pretrained_models.sh
# Run CoMotion
python demo.py -i path/to/video.mp4 -o results/
@ai_machinelearning_big_data
#AI #ML #3DTracking #CoMotion #Apple
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍41❤19🔥11