Технозаметки Малышева
8.48K subscribers
3.78K photos
1.41K videos
40 files
3.96K links
Новости инноваций из мира Искусственного Интеллекта. 🤖

Всё об ИИ, ИТ трендах и Технологической Сингулярности.

🤖: @ai_gptfreebot [бесплатный бот]
✍️: @tsingular_bot [каталог ботов и курсов]

💸[поддержка]: pay.cloudtips.ru/p/c8960bbb
Download Telegram
Wan 2.2 получил версию S2V - картинка+голос = video

Идеально для оживления фотографий.
Берете нанобанану ( иначе ее уже не назвать :) ) переделываете фото в нужный формат, - дальше в elevenlabs или Suno голосовой/музыкальный ряд и собираете все это на бесплатном Wan 2.2, - любой формат, новости, музыка, реклама, - на выбор.

В общем китайцы потихоньку захватывают медиа продакшен сферу. Все в оупенсорсе.
И у Вана уже есть варианты:
- текст в видео,
- картинка в видео и теперь вот голос в видео
Если у вас достаточно железа, - все можно запустить локально.
Реально наступило время цифровых аватаров.
Пора каждому делать своего.

Github
Wan2.2 Project

Hugging Face Demo
Modelscope Demo

Hugging Face Weights

#Wan #Китай #нейрорендер
———
@tsingular
🔥15🤯21
This media is not supported in your browser
VIEW IN TELEGRAM
🚀 Tencent выпустила HunyuanVideo-Foley — открытую систему, которая умеет автоматически превращать видео и текст в качественный звук (Text-Video-to-Audio, TV2A).

🔊 Модель может автоматически генерировать профессиональный звук, который точно совпадает с картинкой и смыслом происходящего.

Главное:
- Универсальность — обучена на 100 000+ часов данных, создаёт звук для любых сцен: от природы до мультфильмов.
- Согласованность текста и видео — новая архитектура *MMDiT* учитывает одновременно изображение и описание, создавая многослойные эффекты: и главный звук, и фоновое окружение.
- Качество студийного уровня — благодаря функции потерь *REPA* и *Audio VAE* звук получается чистым и стабильным, без шумов и артефактов.

📈 На тестах HunyuanVideo-Foley показала лучшие результаты среди открытых моделей: более качественный звук, точная синхронизация с картинкой и учёт контекста сцены.

👉 Попробовать: https://hunyuan.tencent.com/video/zh?tabIndex=0
🌐 Project Page: https://szczesnys.github.io/hunyuanvideo-foley/
🔗 Code: https://github.com/Tencent-Hunyuan/HunyuanVideo-Foley
📄 Report: https://arxiv.org/abs/2508.16930
🤗 Hugging Face: https://huggingface.co/tencent/HunyuanVideo-Foley

@data_analysis_ml
🔥7
Forwarded from e/acc
Очень рекомендую parallel.ai для Deep Research

- работает лучше GPT и Gemini
- дает $20 бесплатных кредитов
- API-first, очень удобно интегрировать
- результат куда точнее, глубже и детальнее

На скрине рисерч, который я запустил на 15 минут, он отсмотрел 11 тысяч ссылок и включил 2258 страниц в репорт. При этом, не выдал мне 40 страниц текста, а сделал компактную табличку.
6🆒53
Salesforce CRMArena-Pro: LLM-агенты в корпоративной среде — ожидания vs реальность

Salesforce AI Research создали бенчмарк CRMArena-Pro — первую комплексную систему оценки LLM-агентов в реальных корпоративных сценариях.

19 задач, провалидированных экспертами, покрывают продажи, сервис и CPQ (Configure, Price, Quote) для B2B и B2C.
Датасеты синтетические, но проверенные людьми (отдельно забавно, конечно, что только 66% экспертов подтвердили, что датасеты релевантные)

Масштаб симуляции:
- 25 взаимосвязанных Salesforce-объектов
- 29,101 записей для B2B / 54,569 для B2C
- 4,280 тестовых запросов!!!
- сравнение с результатами работы профессионалов, работающих в CRM

Результаты:
1. Навык "Workflow Execution" — единственный работающий

При этом только gemini-2.5-pro показывает 83%+ успеха на задачах следования бизнес-процессам, остальные модели показали себя хуже.

Другие навыки (работа с текстом, политики компании, SQL-запросы) дают 20-40% успеха даже с сильной моделью.

2. Конфиденциальность - провал
Все модели имеют ~0% осознанности конфиденциальности. Даже с промптингом о защите данных — максимум 62% отказов на запрос о выдаче конфиденциалки (gpt-4o-mini), это убивает выполнение основных задач.
Еще раз возвращает нас к мысли о RBAC и запрета на дообучение на кофиденциальных данных. Только RAG с жестким контролем доступа.

3. Reasoning-модели радикально лучше
- o1 и gemini-2.5-pro опережают обычные версии на 12-20%.
- открытые модели (llama) отстают от проприетарных reasoning-моделей катастрофически. Выкидываем :)

4. Многоходовые диалоги — провал
Падение производительности с 58% до 35% при переходе к multi-turn. Агенты не умеют эффективно запрашивать уточнения — в 45% случаев не собирают нужную информацию.

Симуляция пользователей в рамках исследования:
LLM персонажи с разными характерными стилями офисных сотрудников заставляют агента отвечать на уточняющие вопросы.

Кто выигрывает по цене/качеству:
gemini-2.5-flash — оптимальный баланс
gemini-2.5-pro — максимальная производительность в разумной цене
o1 — слишком дорого для относительного повышения качества ответов

Что работает уже сейчас:
- Автоматизация рутинных рабочих процессов (маршрутизация кейсов, назначение лидов)
- Простые односложные запросы к CRM

Что пока невозможно:
- Сложный анализ продаж с множественными источниками
- Работа с конфиденциальными данными без рисков утечек
- Многоэтапные взаимодействия с клиентами

🤖💼 Цифровые сотрудники всё лучше и лучше. Скоро в каждом офисе.

Людей бы так потестировали в понедельник или после отпуска, - сюрприз был бы :)

pdf с исследованием в комментариях

#Salesforce #CRM #Benchmark
———
@tsingular
👍832
😁13🤣7👏2😐21
Forwarded from Метаверсище и ИИще (Sergey Tsyptsyn ️️)
This media is not supported in your browser
VIEW IN TELEGRAM
Генерация видео в реальном времени от Krea.ai

Креа открыла запись в wait-list на реалтайм-генерацию видео.

12+ fps. На входе промпт, картинка, копия экрана или даже вебка.

Вы помните, что Креа была первым стартапом, который сделал реалтайм-рисовалку - генерацию картинок в реальном времени (был ещё Vizcom).

Теперь они взяли "модель мира" (непонятно чью/какую) и сделали вот такой "подрендер" этого мира.

Выглядит убойно.

https://www.krea.ai/blog/announcing-realtime-video

@cgevent
🔥6👀51
Postman добавил создание MCP серверов

Postman теперь позволяет создавать MCP серверы из любого публичного API в их сети.

Достаточно взять готовый API и сконвертировать его в MCP-совместимый сервер для интеграции с Claude, VS Code или Cursor.

Поддерживает SSE/HTTP и STDIO конфигурации, TypeScript-архитектуру и Docker развёртывание.

Платформа превращается из инструмента тестирования API в полноценную среду разработки AI-агентов.

Теперь можно автоматизировать сложные API-процессы через ИИ гораздо быстрее.

#Postman #MCP #API
------
@tsingular
19👍52🤔2
Я знаю пару таких людей)))
😁122😐1🍓1
Forwarded from Neural Kovalskii
This media is not supported in your browser
VIEW IN TELEGRAM
SGR + Tool, Hybrid Deep Research

И так мы продолжаем рубрику эксперименты!

1) Спасибо Диме что предоставил новую ветку где перевел SGR внутрь tool

2) Дальше я уже с легкой руки добавил около ~6 навыков, проработал управление контекстом всего теперь 12 навыков есть у системы и она помнит все предыдущие события

Детально с решением можно ознакомиться в ридми в ветке hybrid_reasoner_sgr_with_tools

Что имеем?
Без фреймворков с сохранением SGR который обернут в tool, более автономную систему которая понимает предыдущий контекст может работать с файловой системой и может искать в интернете

Что дальше?
3) Я приведу обе ветки к единому кол-ву навыком и мы попробуем собрать небольшой датасет дабы проверить надежность таких систем в разных сценариях рисерча

P.S система все еще работает на gpt-4o-mini но для лучшего экспириенса советую поменять на 4o так же хорошо проработан подход работы с кешом и система стала в 2-3 раза быстрее
👍321🔥1
Прикольная задумка:

Переделать любую карту из вида сверху в 3Д Street View.

Пробовать тут

#нанобанана #Google
———
@tsingular
1🔥6👍2
This media is not supported in your browser
VIEW IN TELEGRAM
#КриповаяСуббота

RL-фитнес для роботов... немного страшненько.. Не верится..

Ссылка на полное видео

Сергей Булаев AI 🤖 - об AI и не только
👍4
ВВС США отработали ускорение принятие решений в военных играх с помощью ИИ

Военные игры DASH показали, как искусственный интеллект позволяет ускорить принятие командных решений.

Система Maven интегрирована в тактические операционные центры и позволяет генерить разнообразные сценарии за минуты вместо часов ручной подготовки.

ИИ-микросервисы ускоряют обработку данных и улучшают взаимодействие между подразделениями во время учений.

Тесты показали риски алгоритмической предвзятости и необходимость человеческого контроля над рекомендациями систем.

Где-то все это уже было. Допиливают Скайнет.

#DASH #Maven #Military
———
@tsingular
10💯5
🧠 Китай запускает национальную стратегию развития нейроинтерфейсов (Brain-Computer Interface (BCI) до 2030 года

Ключевые цели:
- К 2027 году — прорывы в ключевых технологиях, создание 2-3 промышленных кластеров
- К 2030 году — формирование глобально конкурентной экосистемы с ведущими компаниями мирового уровня

Техническая основа стратегии:
Железо и софт:
- Имплантируемые электроды для различных областей мозга с увеличенным количеством каналов
- Высокоскоростные чипы с ультранизким энергопотреблением для обработки сигналов мозга
- ИИ-алгоритмы для кодирования/декодирования нейросигналов
- Специализированные операционные системы для BCI-устройств

Продуктовая линейка:
- Имплантируемые: глубокие стимуляторы мозга, кохлеарные имплантаты
- Неимплантируемые: шлемы, очки, наушники с BCI-функциями
- Хирургические роботы субмикронной точности для имплантации

Прикладные сценарии:

- Промышленное производство — управление оборудованием "силой мысли"
- Здравоохранение — лечение неврологических расстройств
- Потребительские товары — интеграция с VR/AR-устройствами

Инновационная экосистема:
- Национальные центры производственных инноваций
- Open source сообщества разработчиков
- Промышленные парки и инкубаторы
- Международное сотрудничество с акцентом на привлечение R&D центров

Практическое применение:
- Нейрореабилитация после инсультов
- Протезирование с нейроуправлением
- Интерфейсы для людей с ограниченными возможностями
- Геймификация и развлечения нового поколения

Скоро смартфоны отомрут как пейджеры :)
У каждого будет Миелофон от Huawei

#BCI #Neurotech #Китай
———
@tsingular
👍732😁21
Клип Майкла Джексона в 1991м году стоил в производстве по разным оценкам от $4 до $9 млн. (учтите инфляцию за 34 года)

Сейчас мы видим в новостях такое вот произведение, которое даже лучше по качеству.
Навскидку в продакшене цена этому упражнению около $20.

#нейрорендер #B&W #1991
———
@tsingular
11🔥10👍4❤‍🔥1
Как склеить модель: экономия на обучении

За год количество моделей в мире в целом, а на HuggingFace в частности, выросло с сотен тысяч до миллионов.

Хитрые товарищи подумали, а чего мы будем учить каждый раз модели с нуля (тратить на эту историю от $500К и выше), если можно взять успешные варианты узко-специализированных моделей и собрать из них одно целое, потратив в 1000 раз меньше.

Например, японская компания Sakana AI создала модель с отличной математикой, объединив японскую языковую модель с математическим файнтюном.

На практике это выглядит так: берем модель-эксперта по программированию, модель для математических задач и модель для общения, а затем объединяем их навыки в одной системе.

Весь процесс занимает выходные на обычном домашнем компьютере.

Работает это пока только для моделей одинаковой архитектуры — например, все варианты Llama легко объединяются между собой.

#modelmerging #обучение
———
@tsingular
🔥143🤯32👍2
xAI подаёт в суд на бывшего сотрудника за кражу секретов Grok

xAI обвиняет бывшего инженера Сюэчэня Ли в краже торговых секретов о технологиях Grok.

Ли получил 7 млн долларов компенсации и в тот же день скопировал конфиденциальные документы на личные устройства.

По утверждению xAI, украденные технологии превосходят ChatGPT и могут дать конкурентам "непреодолимое преимущество".

Теперь Ли работает в OpenAI — главном сопернике Маска в сфере ИИ.

Иск требует временно запретить Ли работать в конкурирующих AI-компаниях и возместить ущерб от потенциальной экономии миллиардов на R&D.

В принципе можно выпускать под заголовком, - "Китайские специалисты крадут секреты ИИ разработок у американских компаний" :)

#xAI #Grok #OpenAI
------
@tsingular
😁12🔥2🤔21