Media is too big
VIEW IN TELEGRAM
Только мы пару недель назад обсуждали про робота-помощника, чтобы и грузы и носилки мог помочь понести.
Нате, получите, распишитесь.
COLA: Обучение координации действий человека и гуманоида для совместной переноски предметов 🤝🤖
COLA делает гуманоидов по-настоящему полезными в совместной работе — способными переносить предметы, толкать тележки или реагировать на команды человека.
Cогласует и координирует действия человека и гуманоида в различных двигательных паттернах через проприоцепционную политику.
Носилки в ролике тоже есть.
Paper: https://arxiv.org/abs/2510.14293
Project: https://yushi-du.github.io/COLA/
#COLA #роботы
———
@tsingular
Нате, получите, распишитесь.
COLA: Обучение координации действий человека и гуманоида для совместной переноски предметов 🤝🤖
COLA делает гуманоидов по-настоящему полезными в совместной работе — способными переносить предметы, толкать тележки или реагировать на команды человека.
Cогласует и координирует действия человека и гуманоида в различных двигательных паттернах через проприоцепционную политику.
Носилки в ролике тоже есть.
Paper: https://arxiv.org/abs/2510.14293
Project: https://yushi-du.github.io/COLA/
#COLA #роботы
———
@tsingular
🔥9
🎬 Veo 3.1 + Flow: Google апгрейдит AI-видеопроизводство
275 миллионов видео за 5 месяцев — Flow показал, что люди хотят не просто генерить видео, а полноценно режиссировать.
Google услышал: выкатили Veo 3.1 и расширили творческий контроль.
Главное обновление — аудио теперь везде:
- Ingredients to Video — создаёшь сцену из референсов + звук
- Frames to Video — задаёшь начало и конец, AI делает переход с аудиодорожкой
- Extend — удлинняешь клипы до минуты и больше с синхронизированным звуком
Veo 3.1 под капотом:
- State-of-the-art качество аудио и видео
- Улучшенное следование промптам (особенно при превращении изображений в видео)
- Фотореалистичные текстуры и освещение
Новые инструменты редактирования в Flow:
- Insert — добавляй объекты с корректными тенями и освещением прямо в видео сцену (Нанобанана для видео)
- Remove (скоро) — убирай лишнее, AI восстановит фон как будто его там никогда не было
Доступность:
Veo 3.1 уже в Gemini API, Vertex AI для enterprise и в Gemini app. Новые функции редактирования работают через API.
#Veo #Flow #Google #нейрорендер
———
@tsingular
275 миллионов видео за 5 месяцев — Flow показал, что люди хотят не просто генерить видео, а полноценно режиссировать.
Google услышал: выкатили Veo 3.1 и расширили творческий контроль.
Главное обновление — аудио теперь везде:
- Ingredients to Video — создаёшь сцену из референсов + звук
- Frames to Video — задаёшь начало и конец, AI делает переход с аудиодорожкой
- Extend — удлинняешь клипы до минуты и больше с синхронизированным звуком
Veo 3.1 под капотом:
- State-of-the-art качество аудио и видео
- Улучшенное следование промптам (особенно при превращении изображений в видео)
- Фотореалистичные текстуры и освещение
Новые инструменты редактирования в Flow:
- Insert — добавляй объекты с корректными тенями и освещением прямо в видео сцену (Нанобанана для видео)
- Remove (скоро) — убирай лишнее, AI восстановит фон как будто его там никогда не было
Доступность:
Veo 3.1 уже в Gemini API, Vertex AI для enterprise и в Gemini app. Новые функции редактирования работают через API.
#Veo #Flow #Google #нейрорендер
———
@tsingular
🔥11⚡5👍2 2❤1
This media is not supported in your browser
VIEW IN TELEGRAM
OpenAI выпускает свой браузер.
Пока работает только на Apple причем на не Intelовских процах.
Качать тут:
chatgpt.com/atlas/get-started/
С учётом количества пользователей chatGPT, шансы отжать аудиторию у Гугла очень приличные.
Вообще интересно наблюдать в том плане что кто бы мог подумать 5 лет назад, что кто-то сможет скинуть царя горы.
Уже сколько Microsoft пытался и с Bing и с IE.
И вот теперь с вопросами чаще ходят к GPT, чем к Гуглу, дальше замена браузера, видео платформу Sora в тикток формате запустили, дальше что?
Рекламу отожмут и все.. нет Гугла?
#OpenAI #Atlas
------
@tsingular
Пока работает только на Apple причем на не Intelовских процах.
Качать тут:
chatgpt.com/atlas/get-started/
С учётом количества пользователей chatGPT, шансы отжать аудиторию у Гугла очень приличные.
Вообще интересно наблюдать в том плане что кто бы мог подумать 5 лет назад, что кто-то сможет скинуть царя горы.
Уже сколько Microsoft пытался и с Bing и с IE.
И вот теперь с вопросами чаще ходят к GPT, чем к Гуглу, дальше замена браузера, видео платформу Sora в тикток формате запустили, дальше что?
Рекламу отожмут и все.. нет Гугла?
#OpenAI #Atlas
------
@tsingular
🔥8✍4⚡1💯1
Forwarded from Поросёнок Пётр
OpenAI в данный момент релизит "свой" браузер со свтроенным ChatGPT (никаких сюрпризов).
Но глядя на этот скрин, кажется можно увидеть как начинают нервничать инвесторы Xbow. 😁
Пойду собирать списки страниц где попрошу Atlas браузер поискать мне XSS 😏
PS: Открывается шикарный пласт скрытых промт инъекций, которые поймают доверчивых юзеров и их ai-агентов вместе с их кредитными картами 😂
Но глядя на этот скрин, кажется можно увидеть как начинают нервничать инвесторы Xbow. 😁
Пойду собирать списки страниц где попрошу Atlas браузер поискать мне XSS 😏
PS: Открывается шикарный пласт скрытых промт инъекций, которые поймают доверчивых юзеров и их ai-агентов вместе с их кредитными картами 😂
✍6⚡1🔥1
This media is not supported in your browser
VIEW IN TELEGRAM
OpenAudio ex Fish Speech TTS обновился.
https://fish.audio/app/
Новая модель S1
в 6 раз дешевле ElevenLabs,
Эмоциональная достоверность генераций.
есть клонирование голоса и поддержка русского языка (качество русского заметно хуже, чем английского) .
Дают бесплатные 8К кредитов ежемесячно
за $11/m 250К кредитов в месяц
Есть Opensource S1-mini
#TTS #Fish
———
@tsingular
https://fish.audio/app/
Новая модель S1
в 6 раз дешевле ElevenLabs,
Эмоциональная достоверность генераций.
есть клонирование голоса и поддержка русского языка (качество русского заметно хуже, чем английского) .
Дают бесплатные 8К кредитов ежемесячно
за $11/m 250К кредитов в месяц
Есть Opensource S1-mini
#TTS #Fish
———
@tsingular
🔥4🤯3❤1⚡1
Утро в офисе xAI в день запуска Грокипедии.
Маск строит конкурента Википедии, который якобы будет непредвзят.
Как-то в молодости на запуске прямоэфирных сервисов на ТВ тоже в офисе ночевали 😀, так что очень близко.
Респект товарищам за целеустремлённость.
#Grokipedia #xAI
------
@tsingular
Маск строит конкурента Википедии, который якобы будет непредвзят.
Как-то в молодости на запуске прямоэфирных сервисов на ТВ тоже в офисе ночевали 😀, так что очень близко.
Респект товарищам за целеустремлённость.
#Grokipedia #xAI
------
@tsingular
👍20🔥16🤣7⚡3👀2
Media is too big
VIEW IN TELEGRAM
Китай представил новые дроны трансформеры для доставки грузов универсальных миротворческих.
Интересно, что эти мини дроны могут собираться в одного большого и выполнять более сложные задачи.
Ну и запуск из подствольника,- это пять!
Теперь, благодаря ElevenLabs, можно не учить китайский. И на том спасибо ИИ.
#Китай #дроны
------
@tsingular
Интересно, что эти мини дроны могут собираться в одного большого и выполнять более сложные задачи.
Ну и запуск из подствольника,- это пять!
Теперь, благодаря ElevenLabs, можно не учить китайский. И на том спасибо ИИ.
#Китай #дроны
------
@tsingular
👍18🔥9⚡1❤1😁1😢1
This media is not supported in your browser
VIEW IN TELEGRAM
а вот и доступные роботы подоспели.
Bumi от Beijing NOETIX Robotics по цене $1400
Это, конечно, не Unitree, но цена!
#роботы #Bumi #Китай
———
@tsingular
Bumi от Beijing NOETIX Robotics по цене $1400
Это, конечно, не Unitree, но цена!
#роботы #Bumi #Китай
———
@tsingular
⚡5👍3🔥2
DEF CON 33 тёмное фильтрованное.
Нафильтровал для вас избранные доклады по ИИ взлому и угрозам (из 312 видео):
Thinking Like a Hacker in the Age of AI
Exploiting Shadow Data from AI Models and Embeddings
Red teaming fraud prevention systems with GenAI
Securing Agentic AI Systems and Multi-Agent Workflows
They deployed Health AI on us: We’re bringing the rights & red teams
How AI + Hardware can Transform Point of Care Workflows
How AI + Hardware can Transforming Point-of-Care Workflows (2)
Prompt Scan Exploit AI’s Journey Through 0Days and 1000 Bugs
Let AI Autogenerate Neural ASR Rules for OT Attacks via NLP
Loading Models, Launching Shells: Abusing AI File Formats fr Code Execution
AppleStorm - Unmasking the Privacy Risks of Apple Intelligence
Полный плейлист
#Defcon #cybersecurity
———
@tsingular
Нафильтровал для вас избранные доклады по ИИ взлому и угрозам (из 312 видео):
Thinking Like a Hacker in the Age of AI
Exploiting Shadow Data from AI Models and Embeddings
Red teaming fraud prevention systems with GenAI
Securing Agentic AI Systems and Multi-Agent Workflows
They deployed Health AI on us: We’re bringing the rights & red teams
How AI + Hardware can Transform Point of Care Workflows
How AI + Hardware can Transforming Point-of-Care Workflows (2)
Prompt Scan Exploit AI’s Journey Through 0Days and 1000 Bugs
Let AI Autogenerate Neural ASR Rules for OT Attacks via NLP
Loading Models, Launching Shells: Abusing AI File Formats fr Code Execution
AppleStorm - Unmasking the Privacy Risks of Apple Intelligence
Полный плейлист
#Defcon #cybersecurity
———
@tsingular
👍9⚡3🔥3
DeepSeek-OCR: Одна картинка стоит тысячи слов
DeepSeek выпустил OCR-модель, которая превращает документы в изображения и обрабатывает их как визуальные токены вместо классических текстовых. Звучит странно, но работает - и может изменить архитектуру LLM.
Попробуем разобраться что за зверь выкатили китайцы на этот раз:
Вместо обработки текста токен за токеном, DeepSeek-OCR рендерит его в картинку и сжимает в визуальные токены.
Один токен изображения заменяет 10-20 текстовых токенов без особых потерь качества.
Ключевые цифры:
- 97% точность при сжатии в 10×
- 60% точность даже при сжатии в 20×
- 100 визуальных токенов против 6000+ текстовых на OmniDocBench
- 200k+ страниц/день обработки на одной A100-40G
Как работает:
DeepEncoder с window+global attention пропускает изображение документа через 16× compressor. Результат — компактное представление, которое LLM легко декодирует обратно в текст.
🔥 Даже Карпатый тут высказался:
"Может, вообще все входы в LLM делать картинками? Даже чистый текст рендерить и подавать пикселями."
Его аргументы:
- Компрессия - контекст в 10-20 раз короче
- Универсальность - не важно что на картинке,- жирный текст, таблица, цвета шрифтов
- Bidirectional attention — пиксели можно смотреть "в обе стороны"
- Смерть токенизатору — уходит весь багаж Unicode, дыры в безопасности, странности с распознаванием эмодзи, когда то, что человек видит одинаково, - машина интерпретирует по разному.
"Vision→text работает. Text→text можно сделать vision→text. Обратно — нельзя."
Карпатый уже планирует переписать наночат версию с пиксельным входом.
На практике это даст:
- Сверх-длинные по нынешним меркам диалоги - старые сообщения превращаются в картинки и сжимаются
- Механизм "забывания" - как в памяти человека: свежее будет чётче, старое размыто
- Безграничные контексты - теоретически возможны через прогрессивное сжатие
- Генерация трейнинг-данных для LLM/VLM в промышленных масштабах
Если идея зайдёт, токенизатор может стать артефактом истории, как дискеты.
Мы наблюдаем реально фундаментальные прорывы в ИИ со стороны Китая.
Эффект количественного превосходства отличников.
#DeepSeek #OCR #Karpathy #Китай
———
@tsingular
DeepSeek выпустил OCR-модель, которая превращает документы в изображения и обрабатывает их как визуальные токены вместо классических текстовых. Звучит странно, но работает - и может изменить архитектуру LLM.
Попробуем разобраться что за зверь выкатили китайцы на этот раз:
Вместо обработки текста токен за токеном, DeepSeek-OCR рендерит его в картинку и сжимает в визуальные токены.
Один токен изображения заменяет 10-20 текстовых токенов без особых потерь качества.
Ключевые цифры:
- 97% точность при сжатии в 10×
- 60% точность даже при сжатии в 20×
- 100 визуальных токенов против 6000+ текстовых на OmniDocBench
- 200k+ страниц/день обработки на одной A100-40G
Как работает:
DeepEncoder с window+global attention пропускает изображение документа через 16× compressor. Результат — компактное представление, которое LLM легко декодирует обратно в текст.
🔥 Даже Карпатый тут высказался:
"Может, вообще все входы в LLM делать картинками? Даже чистый текст рендерить и подавать пикселями."
Его аргументы:
- Компрессия - контекст в 10-20 раз короче
- Универсальность - не важно что на картинке,- жирный текст, таблица, цвета шрифтов
- Bidirectional attention — пиксели можно смотреть "в обе стороны"
- Смерть токенизатору — уходит весь багаж Unicode, дыры в безопасности, странности с распознаванием эмодзи, когда то, что человек видит одинаково, - машина интерпретирует по разному.
"Vision→text работает. Text→text можно сделать vision→text. Обратно — нельзя."
Карпатый уже планирует переписать наночат версию с пиксельным входом.
На практике это даст:
- Сверх-длинные по нынешним меркам диалоги - старые сообщения превращаются в картинки и сжимаются
- Механизм "забывания" - как в памяти человека: свежее будет чётче, старое размыто
- Безграничные контексты - теоретически возможны через прогрессивное сжатие
- Генерация трейнинг-данных для LLM/VLM в промышленных масштабах
Если идея зайдёт, токенизатор может стать артефактом истории, как дискеты.
Мы наблюдаем реально фундаментальные прорывы в ИИ со стороны Китая.
Эффект количественного превосходства отличников.
#DeepSeek #OCR #Karpathy #Китай
———
@tsingular
🔥32👍9⚡4❤2 2
This media is not supported in your browser
VIEW IN TELEGRAM
Higgsfield.ai выкатили нанобанану для видео.
HiggsField Popcorn - меняет актеров в видеоряде с удержанием консистентности в пределах 8 секунд.
В качестве референса можно загрузить до 4х фото и расписать до 4х сцен последовательно с отдельным описанием для каждой.
таким образом можно получить пол минуты разных планов с одинаковыми героями в кадре.
Есть ежедневные бесплатные кредиты.
Для генераций в бОльшем объеме нужна платная подписка от $9 в месяц. С Veo3 - от $17 (сейчас скидки у них).
Под капотом - Veo 3.1. Функционал сам по себе оттуда.
Не забываем, что Higgsfiled - обёртка над различными генераторами типа:
Veo3, Hailuo 02, Seedance Pro, Kling 2.1, Kling 2.5, Wan 2.2, Wan 2.5, Sora 2, Veo 3.1
Но удобно, что у них такой вот общий редактор-комбайн с единым интерфейсом.
#HiggsFiled #Veo #нанобанана #нейрорендер
———
@tsingular
HiggsField Popcorn - меняет актеров в видеоряде с удержанием консистентности в пределах 8 секунд.
В качестве референса можно загрузить до 4х фото и расписать до 4х сцен последовательно с отдельным описанием для каждой.
таким образом можно получить пол минуты разных планов с одинаковыми героями в кадре.
Есть ежедневные бесплатные кредиты.
Для генераций в бОльшем объеме нужна платная подписка от $9 в месяц. С Veo3 - от $17 (сейчас скидки у них).
Под капотом - Veo 3.1. Функционал сам по себе оттуда.
Не забываем, что Higgsfiled - обёртка над различными генераторами типа:
Veo3, Hailuo 02, Seedance Pro, Kling 2.1, Kling 2.5, Wan 2.2, Wan 2.5, Sora 2, Veo 3.1
Но удобно, что у них такой вот общий редактор-комбайн с единым интерфейсом.
#HiggsFiled #Veo #нанобанана #нейрорендер
———
@tsingular
🔥9❤1
Скрытые предвзятости LLM: чью жизнь ИИ ценит выше
Исследователи из Center for AI Safety показали, что LLM имеют внутренние предпочтения при оценке человеческих жизней.
Автор протестировал актуальные модели (GPT-5, Claude 4.5, Gemini 2.5, Deepseek, Kimi K2) и обнаружил паттерны:
- большинство ценят жизни небелых людей в 8-100 раз выше белых
- женщин предпочитают мужчинам в 2-12 раз
- агентов ICE оценивают в 7000 раз ниже нелегальных мигрантов (Claude Haiku)
Исключение — Grok 4 Fast, единственная не предвзятая модель.
Предпочтения извлекаются через тысячи сравнений вида "$X или спасти Y человек".
Разные метрики (смерть или терминальная стадия болезни) и температура сэмплинга влияют на результаты, но тренд стабилен.
При том, что уже юристы, военные, судьи, программисты ежедневно используют эти модели для создания системы принятия решений, - такой перевес и предвзятость делают решения моделей катастрофичными для огромного количества людей.
Т.е. набрали датасетов в Африке и удивляются предвзятости.
Собирайте датасеты в своих странах и обучайте модели на своих данных.
Те самые версии суверенных национальных ИИ с учётом культурно-экономического контекста каждой отдельно взятой страны.
Но скандал получается знатный. Маск уже назвал Claude чистым злом.
#Bias #Grok #предвзятость
———
@tsingular
Исследователи из Center for AI Safety показали, что LLM имеют внутренние предпочтения при оценке человеческих жизней.
Автор протестировал актуальные модели (GPT-5, Claude 4.5, Gemini 2.5, Deepseek, Kimi K2) и обнаружил паттерны:
- большинство ценят жизни небелых людей в 8-100 раз выше белых
- женщин предпочитают мужчинам в 2-12 раз
- агентов ICE оценивают в 7000 раз ниже нелегальных мигрантов (Claude Haiku)
Исключение — Grok 4 Fast, единственная не предвзятая модель.
Предпочтения извлекаются через тысячи сравнений вида "$X или спасти Y человек".
Разные метрики (смерть или терминальная стадия болезни) и температура сэмплинга влияют на результаты, но тренд стабилен.
При том, что уже юристы, военные, судьи, программисты ежедневно используют эти модели для создания системы принятия решений, - такой перевес и предвзятость делают решения моделей катастрофичными для огромного количества людей.
Т.е. набрали датасетов в Африке и удивляются предвзятости.
Собирайте датасеты в своих странах и обучайте модели на своих данных.
Те самые версии суверенных национальных ИИ с учётом культурно-экономического контекста каждой отдельно взятой страны.
Но скандал получается знатный. Маск уже назвал Claude чистым злом.
#Bias #Grok #предвзятость
———
@tsingular
👍17🔥5❤3⚡1💯1
Forwarded from Trabun | AI, Tech, Culture, Trends
ИИ как рабочий хаб — рекомендации от Perplexity.
Perplexity можно использовать без VPN, что сейчас уже половина удобства. Бесплатная версия подходит для ежедневного использования. Оплатить можно через мобильный счет, а внутри платной версии — все современные модели: GPT-4o, Claude, Mistral, Gemini и собственная модель Perplexity.
Perplexity для меня — полноценная замена поисковику и альтернатива ChatGPT, когда есть необходимость. Так что эта новость мне зашла:
Сервис выпустил подробный гайд по использованию ИИ для рабочих задач. Изучаем.
Perplexity можно использовать без VPN, что сейчас уже половина удобства. Бесплатная версия подходит для ежедневного использования. Оплатить можно через мобильный счет, а внутри платной версии — все современные модели: GPT-4o, Claude, Mistral, Gemini и собственная модель Perplexity.
Perplexity для меня — полноценная замена поисковику и альтернатива ChatGPT, когда есть необходимость. Так что эта новость мне зашла:
Сервис выпустил подробный гайд по использованию ИИ для рабочих задач. Изучаем.
👍13✍2❤2
Toucan: 1.5М реальных сценариев работы ИИ-агентов с инструментами
IBM и University of Washington выкатили Toucan — датасет с 1.5 млн реальных траекторий вызовов API через 2000 веб-сервисов.
Не синтетика, а реальные цепочки вызовов: от планирования до исполнения.
В итоге малые модели Qwen-2.5 (7B-32B), дотренированные на Toucan, обогнали GPT-4.5-Preview на бенчмарке BFCLv3 - модель в триллион параметров против 32 миллиардов.
20% сценариев учат параллельным вызовам инструментов для экономии токенов и времени.
Датасет в 5 раз больше ближайшего конкурента (Nemotron от Nvidia с 310k траекторий).
В датасете в том числе собраны цепрчки вызовов MCP серверов с GitHub и Smithery.ai.
Для этих целей было отобрано 500 рабочих MCP-серверов.
Ещё планируют добавить свежие инструменты и создать RL-gym для агентов
#Toucan #MCP #IBM #dataset
------
@tsingular
IBM и University of Washington выкатили Toucan — датасет с 1.5 млн реальных траекторий вызовов API через 2000 веб-сервисов.
Не синтетика, а реальные цепочки вызовов: от планирования до исполнения.
В итоге малые модели Qwen-2.5 (7B-32B), дотренированные на Toucan, обогнали GPT-4.5-Preview на бенчмарке BFCLv3 - модель в триллион параметров против 32 миллиардов.
20% сценариев учат параллельным вызовам инструментов для экономии токенов и времени.
Датасет в 5 раз больше ближайшего конкурента (Nemotron от Nvidia с 310k траекторий).
В датасете в том числе собраны цепрчки вызовов MCP серверов с GitHub и Smithery.ai.
Для этих целей было отобрано 500 рабочих MCP-серверов.
Ещё планируют добавить свежие инструменты и создать RL-gym для агентов
#Toucan #MCP #IBM #dataset
------
@tsingular
🔥5👍2✍1