This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Wan 2.2 получил версию S2V - картинка+голос = video
Идеально для оживления фотографий.
Берете нанобанану ( иначе ее уже не назвать :) ) переделываете фото в нужный формат, - дальше в elevenlabs или Suno голосовой/музыкальный ряд и собираете все это на бесплатном Wan 2.2, - любой формат, новости, музыка, реклама, - на выбор.
В общем китайцы потихоньку захватывают медиа продакшен сферу. Все в оупенсорсе.
И у Вана уже есть варианты:
- текст в видео,
- картинка в видео и теперь вот голос в видео
Если у вас достаточно железа, - все можно запустить локально.
Реально наступило время цифровых аватаров.
Пора каждому делать своего.
Github
Wan2.2 Project
Hugging Face Demo
Modelscope Demo
Hugging Face Weights
#Wan #Китай #нейрорендер
———
@tsingular
Идеально для оживления фотографий.
Берете нанобанану ( иначе ее уже не назвать :) ) переделываете фото в нужный формат, - дальше в elevenlabs или Suno голосовой/музыкальный ряд и собираете все это на бесплатном Wan 2.2, - любой формат, новости, музыка, реклама, - на выбор.
В общем китайцы потихоньку захватывают медиа продакшен сферу. Все в оупенсорсе.
И у Вана уже есть варианты:
- текст в видео,
- картинка в видео и теперь вот голос в видео
Если у вас достаточно железа, - все можно запустить локально.
Реально наступило время цифровых аватаров.
Пора каждому делать своего.
Github
Wan2.2 Project
Hugging Face Demo
Modelscope Demo
Hugging Face Weights
#Wan #Китай #нейрорендер
———
@tsingular
🔥15🤯2⚡1
Forwarded from Анализ данных (Data analysis)
This media is not supported in your browser
VIEW IN TELEGRAM
🚀 Tencent выпустила HunyuanVideo-Foley — открытую систему, которая умеет автоматически превращать видео и текст в качественный звук (Text-Video-to-Audio, TV2A).
🔊 Модель может автоматически генерировать профессиональный звук, который точно совпадает с картинкой и смыслом происходящего.
✨ Главное:
- Универсальность — обучена на 100 000+ часов данных, создаёт звук для любых сцен: от природы до мультфильмов.
- Согласованность текста и видео — новая архитектура *MMDiT* учитывает одновременно изображение и описание, создавая многослойные эффекты: и главный звук, и фоновое окружение.
- Качество студийного уровня — благодаря функции потерь *REPA* и *Audio VAE* звук получается чистым и стабильным, без шумов и артефактов.
📈 На тестах HunyuanVideo-Foley показала лучшие результаты среди открытых моделей: более качественный звук, точная синхронизация с картинкой и учёт контекста сцены.
👉 Попробовать: https://hunyuan.tencent.com/video/zh?tabIndex=0
🌐 Project Page: https://szczesnys.github.io/hunyuanvideo-foley/
🔗 Code: https://github.com/Tencent-Hunyuan/HunyuanVideo-Foley
📄 Report: https://arxiv.org/abs/2508.16930
🤗 Hugging Face: https://huggingface.co/tencent/HunyuanVideo-Foley
@data_analysis_ml
🔊 Модель может автоматически генерировать профессиональный звук, который точно совпадает с картинкой и смыслом происходящего.
✨ Главное:
- Универсальность — обучена на 100 000+ часов данных, создаёт звук для любых сцен: от природы до мультфильмов.
- Согласованность текста и видео — новая архитектура *MMDiT* учитывает одновременно изображение и описание, создавая многослойные эффекты: и главный звук, и фоновое окружение.
- Качество студийного уровня — благодаря функции потерь *REPA* и *Audio VAE* звук получается чистым и стабильным, без шумов и артефактов.
📈 На тестах HunyuanVideo-Foley показала лучшие результаты среди открытых моделей: более качественный звук, точная синхронизация с картинкой и учёт контекста сцены.
👉 Попробовать: https://hunyuan.tencent.com/video/zh?tabIndex=0
🌐 Project Page: https://szczesnys.github.io/hunyuanvideo-foley/
🔗 Code: https://github.com/Tencent-Hunyuan/HunyuanVideo-Foley
📄 Report: https://arxiv.org/abs/2508.16930
🤗 Hugging Face: https://huggingface.co/tencent/HunyuanVideo-Foley
@data_analysis_ml
🔥7
Forwarded from e/acc
Очень рекомендую parallel.ai для Deep Research
- работает лучше GPT и Gemini
- дает $20 бесплатных кредитов
- API-first, очень удобно интегрировать
- результат куда точнее, глубже и детальнее
На скрине рисерч, который я запустил на 15 минут, он отсмотрел 11 тысяч ссылок и включил 2258 страниц в репорт. При этом, не выдал мне 40 страниц текста, а сделал компактную табличку.
- работает лучше GPT и Gemini
- дает $20 бесплатных кредитов
- API-first, очень удобно интегрировать
- результат куда точнее, глубже и детальнее
На скрине рисерч, который я запустил на 15 минут, он отсмотрел 11 тысяч ссылок и включил 2258 страниц в репорт. При этом, не выдал мне 40 страниц текста, а сделал компактную табличку.
✍6🆒5⚡3
Salesforce CRMArena-Pro: LLM-агенты в корпоративной среде — ожидания vs реальность
Salesforce AI Research создали бенчмарк CRMArena-Pro — первую комплексную систему оценки LLM-агентов в реальных корпоративных сценариях.
19 задач, провалидированных экспертами, покрывают продажи, сервис и CPQ (Configure, Price, Quote) для B2B и B2C.
Датасеты синтетические, но проверенные людьми (отдельно забавно, конечно, что только 66% экспертов подтвердили, что датасеты релевантные)
Масштаб симуляции:
- 25 взаимосвязанных Salesforce-объектов
- 29,101 записей для B2B / 54,569 для B2C
- 4,280 тестовых запросов!!!
- сравнение с результатами работы профессионалов, работающих в CRM
Результаты:
1. Навык "Workflow Execution" — единственный работающий
При этом только gemini-2.5-pro показывает 83%+ успеха на задачах следования бизнес-процессам, остальные модели показали себя хуже.
Другие навыки (работа с текстом, политики компании, SQL-запросы) дают 20-40% успеха даже с сильной моделью.
2. Конфиденциальность - провал
Все модели имеют ~0% осознанности конфиденциальности. Даже с промптингом о защите данных — максимум 62% отказов на запрос о выдаче конфиденциалки (gpt-4o-mini), это убивает выполнение основных задач.
Еще раз возвращает нас к мысли о RBAC и запрета на дообучение на кофиденциальных данных. Только RAG с жестким контролем доступа.
3. Reasoning-модели радикально лучше
- o1 и gemini-2.5-pro опережают обычные версии на 12-20%.
- открытые модели (llama) отстают от проприетарных reasoning-моделей катастрофически. Выкидываем :)
4. Многоходовые диалоги — провал
Падение производительности с 58% до 35% при переходе к multi-turn. Агенты не умеют эффективно запрашивать уточнения — в 45% случаев не собирают нужную информацию.
Симуляция пользователей в рамках исследования:
LLM персонажи с разными характерными стилями офисных сотрудников заставляют агента отвечать на уточняющие вопросы.
Кто выигрывает по цене/качеству:
gemini-2.5-flash — оптимальный баланс
gemini-2.5-pro — максимальная производительность в разумной цене
o1 — слишком дорого для относительного повышения качества ответов
Что работает уже сейчас:
- Автоматизация рутинных рабочих процессов (маршрутизация кейсов, назначение лидов)
- Простые односложные запросы к CRM
Что пока невозможно:
- Сложный анализ продаж с множественными источниками
- Работа с конфиденциальными данными без рисков утечек
- Многоэтапные взаимодействия с клиентами
🤖💼 Цифровые сотрудники всё лучше и лучше. Скоро в каждом офисе.
Людей бы так потестировали в понедельник или после отпуска, - сюрприз был бы :)
pdf с исследованием в комментариях
#Salesforce #CRM #Benchmark
———
@tsingular
Salesforce AI Research создали бенчмарк CRMArena-Pro — первую комплексную систему оценки LLM-агентов в реальных корпоративных сценариях.
19 задач, провалидированных экспертами, покрывают продажи, сервис и CPQ (Configure, Price, Quote) для B2B и B2C.
Датасеты синтетические, но проверенные людьми (отдельно забавно, конечно, что только 66% экспертов подтвердили, что датасеты релевантные)
Масштаб симуляции:
- 25 взаимосвязанных Salesforce-объектов
- 29,101 записей для B2B / 54,569 для B2C
- 4,280 тестовых запросов!!!
- сравнение с результатами работы профессионалов, работающих в CRM
Результаты:
1. Навык "Workflow Execution" — единственный работающий
При этом только gemini-2.5-pro показывает 83%+ успеха на задачах следования бизнес-процессам, остальные модели показали себя хуже.
Другие навыки (работа с текстом, политики компании, SQL-запросы) дают 20-40% успеха даже с сильной моделью.
2. Конфиденциальность - провал
Все модели имеют ~0% осознанности конфиденциальности. Даже с промптингом о защите данных — максимум 62% отказов на запрос о выдаче конфиденциалки (gpt-4o-mini), это убивает выполнение основных задач.
Еще раз возвращает нас к мысли о RBAC и запрета на дообучение на кофиденциальных данных. Только RAG с жестким контролем доступа.
3. Reasoning-модели радикально лучше
- o1 и gemini-2.5-pro опережают обычные версии на 12-20%.
- открытые модели (llama) отстают от проприетарных reasoning-моделей катастрофически. Выкидываем :)
4. Многоходовые диалоги — провал
Падение производительности с 58% до 35% при переходе к multi-turn. Агенты не умеют эффективно запрашивать уточнения — в 45% случаев не собирают нужную информацию.
Симуляция пользователей в рамках исследования:
LLM персонажи с разными характерными стилями офисных сотрудников заставляют агента отвечать на уточняющие вопросы.
Кто выигрывает по цене/качеству:
gemini-2.5-flash — оптимальный баланс
gemini-2.5-pro — максимальная производительность в разумной цене
o1 — слишком дорого для относительного повышения качества ответов
Что работает уже сейчас:
- Автоматизация рутинных рабочих процессов (маршрутизация кейсов, назначение лидов)
- Простые односложные запросы к CRM
Что пока невозможно:
- Сложный анализ продаж с множественными источниками
- Работа с конфиденциальными данными без рисков утечек
- Многоэтапные взаимодействия с клиентами
🤖💼 Цифровые сотрудники всё лучше и лучше. Скоро в каждом офисе.
Людей бы так потестировали в понедельник или после отпуска, - сюрприз был бы :)
pdf с исследованием в комментариях
#Salesforce #CRM #Benchmark
———
@tsingular
👍8✍3⚡2
Forwarded from Метаверсище и ИИще (Sergey Tsyptsyn ️️)
This media is not supported in your browser
VIEW IN TELEGRAM
Генерация видео в реальном времени от Krea.ai
Креа открыла запись в wait-list на реалтайм-генерацию видео.
12+ fps. На входе промпт, картинка, копия экрана или даже вебка.
Вы помните, что Креа была первым стартапом, который сделал реалтайм-рисовалку - генерацию картинок в реальном времени (был ещё Vizcom).
Теперь они взяли "модель мира" (непонятно чью/какую) и сделали вот такой "подрендер" этого мира.
Выглядит убойно.
https://www.krea.ai/blog/announcing-realtime-video
@cgevent
Креа открыла запись в wait-list на реалтайм-генерацию видео.
12+ fps. На входе промпт, картинка, копия экрана или даже вебка.
Вы помните, что Креа была первым стартапом, который сделал реалтайм-рисовалку - генерацию картинок в реальном времени (был ещё Vizcom).
Теперь они взяли "модель мира" (непонятно чью/какую) и сделали вот такой "подрендер" этого мира.
Выглядит убойно.
https://www.krea.ai/blog/announcing-realtime-video
@cgevent
🔥6👀5⚡1
Postman добавил создание MCP серверов
Postman теперь позволяет создавать MCP серверы из любого публичного API в их сети.
Достаточно взять готовый API и сконвертировать его в MCP-совместимый сервер для интеграции с Claude, VS Code или Cursor.
Поддерживает SSE/HTTP и STDIO конфигурации, TypeScript-архитектуру и Docker развёртывание.
Платформа превращается из инструмента тестирования API в полноценную среду разработки AI-агентов.
Теперь можно автоматизировать сложные API-процессы через ИИ гораздо быстрее.
#Postman #MCP #API
------
@tsingular
Postman теперь позволяет создавать MCP серверы из любого публичного API в их сети.
Достаточно взять готовый API и сконвертировать его в MCP-совместимый сервер для интеграции с Claude, VS Code или Cursor.
Поддерживает SSE/HTTP и STDIO конфигурации, TypeScript-архитектуру и Docker развёртывание.
Платформа превращается из инструмента тестирования API в полноценную среду разработки AI-агентов.
Теперь можно автоматизировать сложные API-процессы через ИИ гораздо быстрее.
#Postman #MCP #API
------
@tsingular
1✍9👍5⚡2🤔2
Forwarded from Neural Kovalskii
This media is not supported in your browser
VIEW IN TELEGRAM
SGR + Tool, Hybrid Deep Research
И так мы продолжаем рубрику эксперименты!
1) Спасибо Диме что предоставил новую ветку где перевел SGR внутрь tool
2) Дальше я уже с легкой руки добавил около ~6 навыков, проработал управление контекстом всего теперь 12 навыков есть у системы и она помнит все предыдущие события
Детально с решением можно ознакомиться в ридми в ветке
Что имеем?
Без фреймворков с сохранением SGR который обернут в tool, более автономную систему которая понимает предыдущий контекст может работать с файловой системой и может искать в интернете
Что дальше?
3) Я приведу обе ветки к единому кол-ву навыком и мы попробуем собрать небольшой датасет дабы проверить надежность таких систем в разных сценариях рисерча
P.S система все еще работает на gpt-4o-mini но для лучшего экспириенса советую поменять на 4o так же хорошо проработан подход работы с кешом и система стала в 2-3 раза быстрее
И так мы продолжаем рубрику эксперименты!
1) Спасибо Диме что предоставил новую ветку где перевел SGR внутрь tool
2) Дальше я уже с легкой руки добавил около ~6 навыков, проработал управление контекстом всего теперь 12 навыков есть у системы и она помнит все предыдущие события
Детально с решением можно ознакомиться в ридми в ветке
hybrid_reasoner_sgr_with_tools Что имеем?
Без фреймворков с сохранением SGR который обернут в tool, более автономную систему которая понимает предыдущий контекст может работать с файловой системой и может искать в интернете
Что дальше?
3) Я приведу обе ветки к единому кол-ву навыком и мы попробуем собрать небольшой датасет дабы проверить надежность таких систем в разных сценариях рисерча
P.S система все еще работает на gpt-4o-mini но для лучшего экспириенса советую поменять на 4o так же хорошо проработан подход работы с кешом и система стала в 2-3 раза быстрее
👍3❤2⚡1🔥1
Прикольная задумка:
Переделать любую карту из вида сверху в 3Д Street View.
Пробовать тут
#нанобанана #Google
———
@tsingular
Переделать любую карту из вида сверху в 3Д Street View.
Пробовать тут
#нанобанана #Google
———
@tsingular
1🔥6👍2
Forwarded from Сергей Булаев AI 🤖
This media is not supported in your browser
VIEW IN TELEGRAM
#КриповаяСуббота
RL-фитнес для роботов... немного страшненько.. Не верится..
Ссылка на полное видео
Сергей Булаев AI 🤖 - об AI и не только
RL-фитнес для роботов... немного страшненько.. Не верится..
Ссылка на полное видео
Сергей Булаев AI 🤖 - об AI и не только
👍4
ВВС США отработали ускорение принятие решений в военных играх с помощью ИИ
Военные игры DASH показали, как искусственный интеллект позволяет ускорить принятие командных решений.
Система Maven интегрирована в тактические операционные центры и позволяет генерить разнообразные сценарии за минуты вместо часов ручной подготовки.
ИИ-микросервисы ускоряют обработку данных и улучшают взаимодействие между подразделениями во время учений.
Тесты показали риски алгоритмической предвзятости и необходимость человеческого контроля над рекомендациями систем.
Где-то все это уже было. Допиливают Скайнет.
#DASH #Maven #Military
———
@tsingular
Военные игры DASH показали, как искусственный интеллект позволяет ускорить принятие командных решений.
Система Maven интегрирована в тактические операционные центры и позволяет генерить разнообразные сценарии за минуты вместо часов ручной подготовки.
ИИ-микросервисы ускоряют обработку данных и улучшают взаимодействие между подразделениями во время учений.
Тесты показали риски алгоритмической предвзятости и необходимость человеческого контроля над рекомендациями систем.
Где-то все это уже было. Допиливают Скайнет.
#DASH #Maven #Military
———
@tsingular
✍10💯5
🧠 Китай запускает национальную стратегию развития нейроинтерфейсов (Brain-Computer Interface (BCI) до 2030 года
Ключевые цели:
- К 2027 году — прорывы в ключевых технологиях, создание 2-3 промышленных кластеров
- К 2030 году — формирование глобально конкурентной экосистемы с ведущими компаниями мирового уровня
Техническая основа стратегии:
Железо и софт:
- Имплантируемые электроды для различных областей мозга с увеличенным количеством каналов
- Высокоскоростные чипы с ультранизким энергопотреблением для обработки сигналов мозга
- ИИ-алгоритмы для кодирования/декодирования нейросигналов
- Специализированные операционные системы для BCI-устройств
Продуктовая линейка:
- Имплантируемые: глубокие стимуляторы мозга, кохлеарные имплантаты
- Неимплантируемые: шлемы, очки, наушники с BCI-функциями
- Хирургические роботы субмикронной точности для имплантации
Прикладные сценарии:
- Промышленное производство — управление оборудованием "силой мысли"
- Здравоохранение — лечение неврологических расстройств
- Потребительские товары — интеграция с VR/AR-устройствами
Инновационная экосистема:
- Национальные центры производственных инноваций
- Open source сообщества разработчиков
- Промышленные парки и инкубаторы
- Международное сотрудничество с акцентом на привлечение R&D центров
Практическое применение:
- Нейрореабилитация после инсультов
- Протезирование с нейроуправлением
- Интерфейсы для людей с ограниченными возможностями
- Геймификация и развлечения нового поколения
Скоро смартфоны отомрут как пейджеры :)
У каждого будет Миелофон от Huawei
#BCI #Neurotech #Китай
———
@tsingular
Ключевые цели:
- К 2027 году — прорывы в ключевых технологиях, создание 2-3 промышленных кластеров
- К 2030 году — формирование глобально конкурентной экосистемы с ведущими компаниями мирового уровня
Техническая основа стратегии:
Железо и софт:
- Имплантируемые электроды для различных областей мозга с увеличенным количеством каналов
- Высокоскоростные чипы с ультранизким энергопотреблением для обработки сигналов мозга
- ИИ-алгоритмы для кодирования/декодирования нейросигналов
- Специализированные операционные системы для BCI-устройств
Продуктовая линейка:
- Имплантируемые: глубокие стимуляторы мозга, кохлеарные имплантаты
- Неимплантируемые: шлемы, очки, наушники с BCI-функциями
- Хирургические роботы субмикронной точности для имплантации
Прикладные сценарии:
- Промышленное производство — управление оборудованием "силой мысли"
- Здравоохранение — лечение неврологических расстройств
- Потребительские товары — интеграция с VR/AR-устройствами
Инновационная экосистема:
- Национальные центры производственных инноваций
- Open source сообщества разработчиков
- Промышленные парки и инкубаторы
- Международное сотрудничество с акцентом на привлечение R&D центров
Практическое применение:
- Нейрореабилитация после инсультов
- Протезирование с нейроуправлением
- Интерфейсы для людей с ограниченными возможностями
- Геймификация и развлечения нового поколения
Скоро смартфоны отомрут как пейджеры :)
У каждого будет Миелофон от Huawei
#BCI #Neurotech #Китай
———
@tsingular
👍7 3⚡2😁2❤1
Клип Майкла Джексона в 1991м году стоил в производстве по разным оценкам от $4 до $9 млн. (учтите инфляцию за 34 года)
Сейчас мы видим в новостях такое вот произведение, которое даже лучше по качеству.
Навскидку в продакшене цена этому упражнению около $20.
#нейрорендер #B&W #1991
———
@tsingular
Сейчас мы видим в новостях такое вот произведение, которое даже лучше по качеству.
Навскидку в продакшене цена этому упражнению около $20.
#нейрорендер #B&W #1991
———
@tsingular
⚡11🔥10👍4❤🔥1