Технозаметки Малышева
9.11K subscribers
3.93K photos
1.46K videos
41 files
4.09K links
Новости инноваций из мира Искусственного Интеллекта. 🤖

Всё об ИИ, ИТ трендах и Технологической Сингулярности.

🤖: @ai_gptfreebot [бесплатный бот]
✍️: @tsingular_bot [каталог ботов и курсов]

💸[поддержка]: pay.cloudtips.ru/p/c8960bbb
Download Telegram
Media is too big
VIEW IN TELEGRAM
Только мы пару недель назад обсуждали про робота-помощника, чтобы и грузы и носилки мог помочь понести.

Нате, получите, распишитесь.

COLA: Обучение координации действий человека и гуманоида для совместной переноски предметов 🤝🤖

COLA делает гуманоидов по-настоящему полезными в совместной работе — способными переносить предметы, толкать тележки или реагировать на команды человека.

Cогласует и координирует действия человека и гуманоида в различных двигательных паттернах через проприоцепционную политику.

Носилки в ролике тоже есть.

Paper: https://arxiv.org/abs/2510.14293
Project: https://yushi-du.github.io/COLA/

#COLA #роботы
———
@tsingular
🔥9
🎬 Veo 3.1 + Flow: Google апгрейдит AI-видеопроизводство

275 миллионов видео за 5 месяцев — Flow показал, что люди хотят не просто генерить видео, а полноценно режиссировать.

Google услышал: выкатили Veo 3.1 и расширили творческий контроль.

Главное обновление — аудио теперь везде:
- Ingredients to Video — создаёшь сцену из референсов + звук
- Frames to Video — задаёшь начало и конец, AI делает переход с аудиодорожкой
- Extend — удлинняешь клипы до минуты и больше с синхронизированным звуком

Veo 3.1 под капотом:
- State-of-the-art качество аудио и видео
- Улучшенное следование промптам (особенно при превращении изображений в видео)
- Фотореалистичные текстуры и освещение

Новые инструменты редактирования в Flow:
- Insert — добавляй объекты с корректными тенями и освещением прямо в видео сцену (Нанобанана для видео)
- Remove (скоро) — убирай лишнее, AI восстановит фон как будто его там никогда не было

Доступность:
Veo 3.1 уже в Gemini API, Vertex AI для enterprise и в Gemini app. Новые функции редактирования работают через API.

#Veo #Flow #Google #нейрорендер
———
@tsingular
🔥115👍221
This media is not supported in your browser
VIEW IN TELEGRAM
OpenAI выпускает свой браузер.

Пока работает только на Apple причем на не Intelовских процах.

Качать тут:
chatgpt.com/atlas/get-started/

С учётом количества пользователей chatGPT, шансы отжать аудиторию у Гугла очень приличные.

Вообще интересно наблюдать в том плане что кто бы мог подумать 5 лет назад, что кто-то сможет скинуть царя горы.
Уже сколько Microsoft пытался и с Bing и с IE.

И вот теперь с вопросами чаще ходят к GPT, чем к Гуглу, дальше замена браузера, видео платформу Sora в тикток формате запустили, дальше что?
Рекламу отожмут и все.. нет Гугла?

#OpenAI #Atlas
------
@tsingular
🔥841💯1
OpenAI в данный момент релизит "свой" браузер со свтроенным ChatGPT (никаких сюрпризов).
Но глядя на этот скрин, кажется можно увидеть как начинают нервничать инвесторы Xbow. 😁

Пойду собирать списки страниц где попрошу Atlas браузер поискать мне XSS 😏

PS: Открывается шикарный пласт скрытых промт инъекций, которые поймают доверчивых юзеров и их ai-агентов вместе с их кредитными картами 😂
61🔥1
This media is not supported in your browser
VIEW IN TELEGRAM
OpenAudio ex Fish Speech TTS обновился.

https://fish.audio/app/

Новая модель S1
в 6 раз дешевле ElevenLabs,
Эмоциональная достоверность генераций.
есть клонирование голоса и поддержка русского языка (качество русского заметно хуже, чем английского) .

Дают бесплатные 8К кредитов ежемесячно
за $11/m 250К кредитов в месяц

Есть Opensource S1-mini

#TTS #Fish
———
@tsingular
🔥4🤯311
Утро в офисе xAI в день запуска Грокипедии.

Маск строит конкурента Википедии, который якобы будет непредвзят.

Как-то в молодости на запуске прямоэфирных сервисов на ТВ тоже в офисе ночевали 😀, так что очень близко.

Респект товарищам за целеустремлённость.

#Grokipedia #xAI
------
@tsingular
👍20🔥16🤣73👀2
Media is too big
VIEW IN TELEGRAM
Китай представил новые дроны трансформеры для доставки грузов универсальных миротворческих.

Интересно, что эти мини дроны могут собираться в одного большого и выполнять более сложные задачи.

Ну и запуск из подствольника,- это пять!

Теперь, благодаря ElevenLabs, можно не учить китайский. И на том спасибо ИИ.

#Китай #дроны
------
@tsingular
👍18🔥911😁1😢1
This media is not supported in your browser
VIEW IN TELEGRAM
а вот и доступные роботы подоспели.

Bumi от Beijing NOETIX Robotics по цене $1400

Это, конечно, не Unitree, но цена!

#роботы #Bumi #Китай
———
@tsingular
5👍3🔥2
🤔 А что, если Дубай был СССР
🔥29😁165🆒3👀1
DeepSeek-OCR: Одна картинка стоит тысячи слов

DeepSeek выпустил OCR-модель, которая превращает документы в изображения и обрабатывает их как визуальные токены вместо классических текстовых. Звучит странно, но работает - и может изменить архитектуру LLM.

Попробуем разобраться что за зверь выкатили китайцы на этот раз:
Вместо обработки текста токен за токеном, DeepSeek-OCR рендерит его в картинку и сжимает в визуальные токены.

Один токен изображения заменяет 10-20 текстовых токенов без особых потерь качества.

Ключевые цифры:
- 97% точность при сжатии в 10×
- 60% точность даже при сжатии в 20×
- 100 визуальных токенов против 6000+ текстовых на OmniDocBench
- 200k+ страниц/день обработки на одной A100-40G

Как работает:
DeepEncoder с window+global attention пропускает изображение документа через 16× compressor. Результат — компактное представление, которое LLM легко декодирует обратно в текст.

🔥 Даже Карпатый тут высказался:

"Может, вообще все входы в LLM делать картинками? Даже чистый текст рендерить и подавать пикселями."

Его аргументы:
- Компрессия - контекст в 10-20 раз короче
- Универсальность - не важно что на картинке,- жирный текст, таблица, цвета шрифтов
- Bidirectional attention — пиксели можно смотреть "в обе стороны"
- Смерть токенизатору — уходит весь багаж Unicode, дыры в безопасности, странности с распознаванием эмодзи, когда то, что человек видит одинаково, - машина интерпретирует по разному.

"Vision→text работает. Text→text можно сделать vision→text. Обратно — нельзя."

Карпатый уже планирует переписать наночат версию с пиксельным входом.

На практике это даст:
- Сверх-длинные по нынешним меркам диалоги - старые сообщения превращаются в картинки и сжимаются
- Механизм "забывания" - как в памяти человека: свежее будет чётче, старое размыто
- Безграничные контексты - теоретически возможны через прогрессивное сжатие
- Генерация трейнинг-данных для LLM/VLM в промышленных масштабах

Если идея зайдёт, токенизатор может стать артефактом истории, как дискеты.

Мы наблюдаем реально фундаментальные прорывы в ИИ со стороны Китая.
Эффект количественного превосходства отличников.

#DeepSeek #OCR #Karpathy #Китай
———
@tsingular
🔥32👍9422
This media is not supported in your browser
VIEW IN TELEGRAM
Higgsfield.ai выкатили нанобанану для видео.

HiggsField Popcorn - меняет актеров в видеоряде с удержанием консистентности в пределах 8 секунд.

В качестве референса можно загрузить до 4х фото и расписать до 4х сцен последовательно с отдельным описанием для каждой.
таким образом можно получить пол минуты разных планов с одинаковыми героями в кадре.

Есть ежедневные бесплатные кредиты.
Для генераций в бОльшем объеме нужна платная подписка от $9 в месяц. С Veo3 - от $17 (сейчас скидки у них).

Под капотом - Veo 3.1. Функционал сам по себе оттуда.
Не забываем, что Higgsfiled - обёртка над различными генераторами типа:
Veo3, Hailuo 02, Seedance Pro, Kling 2.1, Kling 2.5, Wan 2.2, Wan 2.5, Sora 2, Veo 3.1

Но удобно, что у них такой вот общий редактор-комбайн с единым интерфейсом.

#HiggsFiled #Veo #нанобанана #нейрорендер
———
@tsingular
🔥91
Скрытые предвзятости LLM: чью жизнь ИИ ценит выше

Исследователи из Center for AI Safety показали, что LLM имеют внутренние предпочтения при оценке человеческих жизней.

Автор протестировал актуальные модели (GPT-5, Claude 4.5, Gemini 2.5, Deepseek, Kimi K2) и обнаружил паттерны:

- большинство ценят жизни небелых людей в 8-100 раз выше белых
- женщин предпочитают мужчинам в 2-12 раз
- агентов ICE оценивают в 7000 раз ниже нелегальных мигрантов (Claude Haiku)

Исключение — Grok 4 Fast, единственная не предвзятая модель.

Предпочтения извлекаются через тысячи сравнений вида "$X или спасти Y человек".

Разные метрики (смерть или терминальная стадия болезни) и температура сэмплинга влияют на результаты, но тренд стабилен.

При том, что уже юристы, военные, судьи, программисты ежедневно используют эти модели для создания системы принятия решений, - такой перевес и предвзятость делают решения моделей катастрофичными для огромного количества людей.

Т.е. набрали датасетов в Африке и удивляются предвзятости.

Собирайте датасеты в своих странах и обучайте модели на своих данных.

Те самые версии суверенных национальных ИИ с учётом культурно-экономического контекста каждой отдельно взятой страны.

Но скандал получается знатный. Маск уже назвал Claude чистым злом.

#Bias #Grok #предвзятость
———
@tsingular
👍17🔥531💯1
ИИ как рабочий хаб — рекомендации от Perplexity.

Perplexity можно использовать без VPN, что сейчас уже половина удобства. Бесплатная версия подходит для ежедневного использования. Оплатить можно через мобильный счет, а внутри платной версии — все современные модели: GPT-4o, Claude, Mistral, Gemini и собственная модель Perplexity.

Perplexity для меня — полноценная замена поисковику и альтернатива ChatGPT, когда есть необходимость. Так что эта новость мне зашла:

Сервис выпустил подробный гайд по использованию ИИ для рабочих задач. Изучаем.
👍1322
Toucan: 1.5М реальных сценариев работы ИИ-агентов с инструментами

IBM и University of Washington выкатили Toucan — датасет с 1.5 млн реальных траекторий вызовов API через 2000 веб-сервисов.
Не синтетика, а реальные цепочки вызовов: от планирования до исполнения.

В итоге малые модели Qwen-2.5 (7B-32B), дотренированные на Toucan, обогнали GPT-4.5-Preview на бенчмарке BFCLv3 - модель в триллион параметров против 32 миллиардов.

20% сценариев учат параллельным вызовам инструментов для экономии токенов и времени.

Датасет в 5 раз больше ближайшего конкурента (Nemotron от Nvidia с 310k траекторий).

В датасете в том числе собраны цепрчки вызовов MCP серверов с GitHub и Smithery.ai.
Для этих целей было отобрано 500 рабочих MCP-серверов.

Ещё планируют добавить свежие инструменты и создать RL-gym для агентов

#Toucan #MCP #IBM #dataset
------
@tsingular
🔥5👍21