Forwarded from Machinelearning
которое опубликовал Илон Маск - выглядит интеерснее, чем может показаться на первый взгляд.
Впервые Optimus двигается в танце с участием нижней части тела —
раньше его ноги и ступни оставались неподвижными.
Если посмотреть последнее видео в замедленном режиме, можно заметить, что он не просто танцует — он подпрыгивает и держит равновесие на одной ноге.
Такой уровень динамического баланса и контроля невероятно сложно реализовать для человекоподобного робота.
С балансом у нового робота от Tesla — полный порядок!
Факты о роботе
🦿 1. Создан на базе автопилота Tesla
Optimus использует ту же систему обработки окружающего мира, что и автопилот Tesla — включая нейросети и камеры. Робот буквально «видит» как электромобиль Tesla.
⚙️ 2. Высота — 173 см, вес — около 56 кг
Это делает Optimus ростом со взрослого человека и достаточно лёгким, чтобы быть маневренным, но достаточно прочным для работы с физическими объектами.
🧠 3. Мозг — это Tesla FSD Chip
Внутри — собственный чип Tesla, разработанный для Full Self-Driving. Он обрабатывает видео в реальном времени и принимает решения, как вождения, так и манипуляций руками и телом.
🤖 4. Умеет поднимать до 20 кг и нести до 9 кг
Optimus спроектирован для выполнения задач, таких как переноска ящиков, компонентов на сборочных линиях и базовая логистика.
🎥 5. Первые версии уже помогают на фабрике Tesla
В 2023–2024 Tesla начала использовать Optimus на своих производственных линиях — например, для сортировки деталей и доставки мелких компонентов.
🕺 6. Новый уровень движения — он уже танцует и ходит
В 2025 году Optimus научился координировать движения нижней части тела. Ранее ноги были статичными — теперь он танцует, ходит и держит равновесие на одной ноге.
🔋 7. Полный день работы от одной зарядки
Цель — добиться автономной работы в течение рабочего дня на одном заряде, что делает его пригодным для фабрик и логистических центров.
🌍 8. Массовый рынок — конечная цель
Илон Маск заявил, что Optimus должен стоить меньше $20,000 — чтобы каждый мог позволить себе персонального робота.
@ai_machinelearning_big_data
#robots #ai #ml #Tesla #Optimus
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Machinelearning
Что если ИИ-агент в браузере не просто «делает всё сам», а работает вместе с тобой — предлагает план, спрашивает разрешения, показывает действия и обучается на опыте?
Именно так работает Magentic‑UI — новый эксперимент от Microsoft Research.
Magentic‑UI — это платформа, в которой ИИ-агенты помогают людям выполнять сложные задачи в браузере (заполнить форму, найти нужные данные, скачать файлы и т.д.), но при этом не берут всё на себя, а работают в паре с пользователем.
Это не автономный бот, а интерфейс взаимодействия: человек остаётся в центре принятия решений, а агент — в роли помощника.
1) Планирует вместе с тобой
Агент предлагает пошаговый план действий. Ты можешь изменить, утвердить или уточнить его.
2) Показывает, что делает
Все действия видны — клики, ввод текста, навигация. Никакой «магии за кадром».
3) Спрашивает разрешение перед важными действиями
Агент не будет нажимать на кнопки "удалить" или "оплатить" без твоего согласия.
4) Обучается на успешных сценариях
Завершил задачу? Теперь этот план можно переиспользовать в будущем.
Где это может пригодиться?
• Заполнение длинных форм и анкет
• Автоматизация рутинных действий в браузере
• Создание умных пользовательских сценариев (например: «найди и скачай последние отчёты с нужного сайта»)
• Обучение и настройка собственных браузерных агентов
А как насчёт безопасности?
• Агент работает только на разрешённых сайтах (white-list)
• Весь код и браузер изолированы в Docker — ничего не утечёт
• Все действия — прозрачны и отменяемы
@ai_machinelearning_big_data
#microsoft #ai #aiuagent #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Machinelearning
Вслед за релизом Hunyuan Portrait, Tencent выпустила Hunyuan Video Avatar - систему на базе MM-DiT для генерации динамичных видео из изображения с одним или несколькими персонажами, синхронизированных с аудио.
Объединить такие возможности было непростой задачей, это стало возможным благодаря использованию ключевых для Hunyuan Video Avatar методов:
По сравнительных тестах с Sonic, EchoMimic, EchoMimicV2 и Hallo-3 на датасетах для портретной анимации (HDTF, CelebV-HQ и свой приватный сет) Hunyuan Video Avatar показал лучшие результаты: 3,99 в метриках качества видео (IQA), 2,54 по эстетике (ASE), 5,30 в синхронизации аудио и видео (Sync-C), 38.01 в точности воспроизведения видео (FID) и 358.71 по искажениям (FVD).
При тестировании полнокадровой анимации на собственном датасете HunyuanVideo-Avatar показал лучшие результаты по IQA (4.66), ASE (3.03) и Sync-C (5.56) в сравнении с Hallo3, FantasyTalking и OmniHuman-1.
⚠️ Модель прожорливая: минимум 24 ГБ VRAM для 704x768, а для плавного 4K рекомендуют GPU на 96 ГБ.
Зато входные изображения берет любые: фотореалистичные портреты, 3D-модели, аниме-персонажи — хоть лису в костюме. Разрешение тоже гибкое: от крупных планов до полноростовых.
@ai_machinelearning_big_data
#AI #ML #HunyuanAvatar
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Machinelearning
Мэри Микер, легендарная "Королева интернета", вернулась с первым за 5 лет тренд-отчетом и целиком посвятила его ИИ.
В нем проанализированы темпы внедрения ИИ, снижение затрат на вычисления, рост конкуренции между компаниями и странами и перспективы достижения AGI.
Мери Микер - венчурный инвестор, фаундер BOND, бывший аналитик по ценным бумагам Morgan Stanley . В феврале 1996 года в соавторстве с Крисом Депюи опубликовала «The Internet Report» - знаменательный отраслевой отчет, который стал известен как «библия» для инвесторов в период бума доткомов. В 2022 году она заняла 2 место в списке женщин-инвесторов Forbes.
Но не все так радужно. Финансовая отдача ИИ пока не обгоняет прошлые технологические волны. Венчурные фонды льют деньги в ИИ, но сами компании (и облачные провайдеры) сжигают кэш с запредельной скоростью.
Держитесь крепче — революция будет стремительной и неспокойной!
@ai_machinelearning_big_data
#ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Machinelearning
В свежем июньском отчете, Open AI описала самые крупные кейсы, когда злоумышленники использовали модели ИИ для создания фейковых резюме, манипуляций в соцсетях, кибератак и мошенничества.
Для анализа угроз исследователи применяют комбинацию ИИ и экспертные команды. ИИ помогает выявлять шаблоны текста злоумышленников и координировать расследование с платформами. Архитектура таких систем включает модели для анализа данных, детекторы аномалий и инструменты для синхронизации с правоохранительными органами.
Обучались такие специализированные модели, помимо общедоступных данных, еще на примерах социальной инженерии и профилях киберугроз. Дополнительно, они получили методы обнаружения фейковых профилей, перевода текстов и анализа сетевого трафика.
Deceptive Employment Scheme: IT Workers.
Covert IO: Operation “Sneer Review”
Covert IO: Operation “High Five”
Social engineering meets IO: Operation “VAGue Focus”
Covert IO: Operation “Helgoland Bite”
Cyber Operation: “ScopeCreep”
Cyber Operations: Vixen and Keyhole Panda
Covert IO: Operation “Uncle Spam”
Recidivist Influence Activity: STORM-2035
Scam: Operation “Wrong Number”
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Machinelearning
Magistral — первая модель рассуждений от Mistral AI. Она сочетает глубокую логическую обработку с возможностью отслеживать каждый шаг её «мышления».
Модель получила поддержку 8 языков, включая русский и выпущена в 2 вариантах:
Внутри Magistral работает в режиме рассуждений, разбивая задачи на цепочки логических шагов, а Flash Answers ускоряет вывод в 10 раз по сравнению с конкурентами. Для интеграции в рабочие процессы модель умеет взаимодействовать с внешними инструментами (API или базами данных).
В тестах Magistral Medium показал 73,6% точности на задачах AIME2024, демонстрируя силу в физических симуляциях и математических расчетах.
Для разработчиков доступны версии на Hugging Face, AWS и IBM WatsonX, а в будущем — на Azure и Google Cloud. Демо Magistral доступно в интерфейсе Le Chat или по API в La Plateforme.
@ai_machinelearning_big_data
#AI #ML #LLM #Magistral #MistralAI
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Machinelearning
🔥 Опубликован 65-й выпуск рейтинга TOP500 — списка самых мощных суперкомпьютеров мира
💡 Тройка лидеров осталась неизменной:
• El Capitan (США, Ливерморская нац. лаборатория):
11 млн CPU ядер (AMD EPYC + GPU AMD MI300X),
1.742 экзафлопса, ОС HPE Cray OS (SUSE Linux).
• Frontier (США, Ок-Ридж):
9 млн CPU (AMD EPYC + MI250X),
1.353 экзафлопса, ОС HPE Cray OS.
• Aurora (США, Аргонн):
9.2 млн CPU (Intel Xeon Max + GPU Max),
1.012 экзафлопса, ОС SUSE Linux Enterprise Server 15 SP4.
🔹 На 4-е место вышел JUPITER Booster (Германия):
4.8 млн ядер (NVIDIA GH200), 793 петафлопса, ОС RHEL.
🔟 **Кластеры 5–10 мест:**
- Eagle (Microsoft Azure, США): 561 петафлопс
- HPC6 (ЭНИ, Италия): 477 петафлопс
- Fugaku (Япония): 442 петафлопса
- Alps (Швейцария): 434 петафлопса
- LUMI (Финляндия): 379 петафлопс
- Leonardo (CINECA, Италия): 241 петафлопс
🇷🇺 Российские суперкомпьютеры:
- Червоненкис (Яндекс): 75 место, 21.5 петафлопса
- Галушкин (Яндекс): 102 место, 16 петафлопс
- Ляпунов (Яндекс): 120 место, 12.8 петафлопса
- Christofari Neo (Сбер): 125 место, 11.95 петафлопса
- Christofari (Сбер): 201 место
- Lomonosov 2: 495 место (в 2015 году был на 31 месте)
🌍 Страны по количеству систем:
- США: 175 кластеров (48.4% производительности)
- Китай: 47 кластеров (2%)
- Германия: 41 (8.6%)
- Япония: 39 (8.9%)
- Франция: 25 (2.4%)
- Италия: 17 (6.3%)
- Россия: 6 (0.1%)
🧠 Тренды:
- Все 500 систем используют Linux.
- Дистрибутивы: неизвестно (38.2%), RHEL (20%), Ubuntu (11.8%), Cray Linux (9.8%), CentOS (8.2%), Rocky (5.8%), SUSE (4.2%), Alma (1.6%)
- Минимальный порог входа в рейтинг: 2.44 петафлопса.
- Общее число процессорных ядер: 137.6 млн.
- С ускорителями работают 234 кластера (в основном NVIDIA A100).
🔧 Лидеры среди производителей:
- Lenovo (27.2%)
- HPE (26.4%)
- EVIDEN (11%)
- Dell EMC (8.2%)
- NVIDIA (5.4%)
🌐 Сети:
- InfiniBand — 54.2% (40.3% производительности)
- Ethernet — 32.8% (52.2%)
- Omni-Path — 6.6%
📊 Также обновлён рейтинг Graph500 (оценка задач с графами)
и интегрированы рейтинги Green500, HPCG и HPL-AI.
🔥 За 10 лет производительность Top500 выросла с 0.31 до 13.8 экзафлопсов. Для входа в Top100 теперь нужно минимум 16.59 петафлопса.
📌 Подробнее
@ai_machinelearning_big_data
#news #ai #ml
💡 Тройка лидеров осталась неизменной:
• El Capitan (США, Ливерморская нац. лаборатория):
11 млн CPU ядер (AMD EPYC + GPU AMD MI300X),
1.742 экзафлопса, ОС HPE Cray OS (SUSE Linux).
• Frontier (США, Ок-Ридж):
9 млн CPU (AMD EPYC + MI250X),
1.353 экзафлопса, ОС HPE Cray OS.
• Aurora (США, Аргонн):
9.2 млн CPU (Intel Xeon Max + GPU Max),
1.012 экзафлопса, ОС SUSE Linux Enterprise Server 15 SP4.
🔹 На 4-е место вышел JUPITER Booster (Германия):
4.8 млн ядер (NVIDIA GH200), 793 петафлопса, ОС RHEL.
🔟 **Кластеры 5–10 мест:**
- Eagle (Microsoft Azure, США): 561 петафлопс
- HPC6 (ЭНИ, Италия): 477 петафлопс
- Fugaku (Япония): 442 петафлопса
- Alps (Швейцария): 434 петафлопса
- LUMI (Финляндия): 379 петафлопс
- Leonardo (CINECA, Италия): 241 петафлопс
🇷🇺 Российские суперкомпьютеры:
- Червоненкис (Яндекс): 75 место, 21.5 петафлопса
- Галушкин (Яндекс): 102 место, 16 петафлопс
- Ляпунов (Яндекс): 120 место, 12.8 петафлопса
- Christofari Neo (Сбер): 125 место, 11.95 петафлопса
- Christofari (Сбер): 201 место
- Lomonosov 2: 495 место (в 2015 году был на 31 месте)
🌍 Страны по количеству систем:
- США: 175 кластеров (48.4% производительности)
- Китай: 47 кластеров (2%)
- Германия: 41 (8.6%)
- Япония: 39 (8.9%)
- Франция: 25 (2.4%)
- Италия: 17 (6.3%)
- Россия: 6 (0.1%)
🧠 Тренды:
- Все 500 систем используют Linux.
- Дистрибутивы: неизвестно (38.2%), RHEL (20%), Ubuntu (11.8%), Cray Linux (9.8%), CentOS (8.2%), Rocky (5.8%), SUSE (4.2%), Alma (1.6%)
- Минимальный порог входа в рейтинг: 2.44 петафлопса.
- Общее число процессорных ядер: 137.6 млн.
- С ускорителями работают 234 кластера (в основном NVIDIA A100).
🔧 Лидеры среди производителей:
- Lenovo (27.2%)
- HPE (26.4%)
- EVIDEN (11%)
- Dell EMC (8.2%)
- NVIDIA (5.4%)
🌐 Сети:
- InfiniBand — 54.2% (40.3% производительности)
- Ethernet — 32.8% (52.2%)
- Omni-Path — 6.6%
📊 Также обновлён рейтинг Graph500 (оценка задач с графами)
и интегрированы рейтинги Green500, HPCG и HPL-AI.
🔥 За 10 лет производительность Top500 выросла с 0.31 до 13.8 экзафлопсов. Для входа в Top100 теперь нужно минимум 16.59 петафлопса.
📌 Подробнее
@ai_machinelearning_big_data
#news #ai #ml
Forwarded from Machinelearning
This media is not supported in your browser
VIEW IN TELEGRAM
• Лёгкий и мощный инструмент для разработки в командной строке
• Код агента в открытом доступе (Apache 2.0)
• Поддержка контекста в 1 миллион токенов
• Бесплатный тариф: до 60 запросов в минуту и 1000 в день
• Привязка к Google Search
• Поддержка плагинов и скриптов
• Интеграция с VS Code (Gemini Code Assist)
@ai_machinelearning_big_data
#AI #ML #agent #Google
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Machinelearning
Iconiq Capital опросила 300 руководителей ИИ-стартапов с доходом от $10 млн. до $1 млрд. о том, как эти стартапы используют ИИ и собрала результаты в отчет "ICONIQ AI Builder’s Playbook 2025"
Iconiq Capital - американская компания по управлению инвестициями, основанная в 2011 году. Функционирует как гибридный семейный офис и имеет тесные связи с компанией Марка Цукерберга. Компания предоставляет услуги по инвестиционному менеджменту, частному капиталу, венчурным инвестициям, управлению недвижимостью и филантропии для состоятельных семей и организаций.
Эра экспериментальных ИИ-демо закончилась. Сейчас компании массово переходят к боевому использованию генеративных моделей - и тут уже не про «вау», а про ROI, стоимость инференса и объяснимость.
Компании, с нативными ИИ-продуктами, сильно опережают тех, кто "добавил ИИ". Почти половина стартапов нативных ИИ-продуктов уже достигла масштабирования (47% против 13% у ретрофитеров).
В продуктовом портфеле такой типовой компании в среднем 2,8 модели и они активно идут по пути агентных сценариев, причем многие строят архитектуру с возможностью быстрого свапа моделей.
ИИ ломает старые цены и бизнес-модели. 38% компаний используют гибридное ценообразование (подписка + плата за использование), ещё 19% — только за использование а 6% уже экспериментируют с outcome-based моделями.
Пока 40% включают ИИ в премиум-пакет, но 37% планируют пересмотреть подход, учитывая реальные метрики использования и отдачу.
ИИ перестал быть задачей «R&D-уголка». В быстрорастущих компаниях до 37% инженеров работают над ИИ, а AI/ML-инженеров нанимают в среднем за 70+ дней.
ИИ забирает до 20% R&D-бюджета, причем по мере роста проекта расходы смещаются с найма в сторону инференса и инфраструктуры.
68% компаний используют только облако, ещё 64% сидят на внешних API. OpenAI/GPT - лидер (81%), но растет доля мульти-модельных подходов (Claude, Gemini, Mistral и др.).
NVIDIA по-прежнему доминирует в инференсе: TensorRT и Triton используют 60% команд, но и ONNX Runtime (18%) с TorchServe (15%) укрепляют позиции.
Из инструментов для оркестрации лидируют LangChain и Hugging Face, а для мониторинга — Datadog и LangSmith (~17%). MLOps по-прежнему на MLflow (36%) и Weights & Biases (20%).
Самое сложное в развертывании продуктов оказалось не в коде, а в доверии и эффективности:
42% компаний говорят о проблемах доверия и объяснимости, 39% — не могут показать ROI, 38% — борются с галлюцинациями, а 32% — с высокой стоимостью инференса, а доступ к GPU — проблема лишь для 5%.
Главный вывод: чтобы внедрить ИИ, одной модели не достаточно, еще нужно обосновать ее бизнес-ценность и держать под контролем поведение.
77% команд используют ИИ для помощи в разработке (GitHub Copilot почти у всех), 65% — для генерации контента, 57% — для поиска знаний.
Те, у кого ИИ активно используется получают 15–30% прироста эффективности. Самые распространенные юзкейсы: кодинг, аналитика, поиск по внутренней документации.
Самое неожиданное
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Machinelearning
📺 4 из 10 самых популярных YouTube‑каналов теперь создаются ИИ
Звучит как шутка, но это уже реальность: среди топ‑10 каналов YouTube по числу просмотров — 4 полностью сгенерированы ИИ.
Никаких блогеров, продюсеров и съёмок. Только скрипты, голоса, монтаж — всё на автомате. И миллиарды просмотров.
🤖 Добро пожаловать в эру synthetic media.
👉 Подробнее
@ai_machinelearning_big_data
#ml #ai #YouTube
Звучит как шутка, но это уже реальность: среди топ‑10 каналов YouTube по числу просмотров — 4 полностью сгенерированы ИИ.
Никаких блогеров, продюсеров и съёмок. Только скрипты, голоса, монтаж — всё на автомате. И миллиарды просмотров.
🤖 Добро пожаловать в эру synthetic media.
👉 Подробнее
@ai_machinelearning_big_data
#ml #ai #YouTube
Forwarded from Machinelearning
🧬 Chai‑2: перспективный инструмент для дизайна антител с помощью ИИ
Несмотря на прогресс в проектировании белков, создать рабочие антитела с нуля до сих пор было почти невозможно.
Но новая модель Chai‑2 менянт правила игры.
Chai‑2 — это мультимодальная генеративная модель, которая впервые позволяет проектировать функциональные антитела de novo ( в биологии и биоинформатике означает создание чего-либо с полного нуля, без использования готовых шаблонов или существующих структур.) с высокой точностью.
📊 Результаты:
• 16% антител показали нужную биологическую активность при генерации с нуля — это в 100+ раз лучше, чем у предыдущих методов (аньше hit-rate был <0.1%)
• Создано ≤20 антител для 52 уникальных целей (это разные белки, молекулы или структуры, к которым ИИ должен был спроектировать подходящие антитела)
• Найдены активные антитела для 50% целей — всего за один цикл лабораторного тестирования
• Из 100 спроектированных минибелков 68 реально работали, как задумано, в лабораторных тестах.
🧪 ИИ придумывает молекулу → учёные её синтезируют → тестируют в лаборатории — и всё это занимает меньше двух недель. Раньше на такой цикл уходили месяцы или даже годы.
📦 Почему это важно:
• Такой метод ускоряет разработку антител и препаратов
• Убирает необходимость в дорогостоящем скрининге миллионов вариантов
• Даёт возможность атомарного дизайна молекул под конкретные мишени
📄 Полный отчет: chaiassets.com/chai-2/paper/technical_report.pdf
@ai_machinelearning_big_data
#ml #biotech #ai
Несмотря на прогресс в проектировании белков, создать рабочие антитела с нуля до сих пор было почти невозможно.
Но новая модель Chai‑2 менянт правила игры.
Chai‑2 — это мультимодальная генеративная модель, которая впервые позволяет проектировать функциональные антитела de novo ( в биологии и биоинформатике означает создание чего-либо с полного нуля, без использования готовых шаблонов или существующих структур.) с высокой точностью.
📊 Результаты:
• 16% антител показали нужную биологическую активность при генерации с нуля — это в 100+ раз лучше, чем у предыдущих методов (аньше hit-rate был <0.1%)
• Создано ≤20 антител для 52 уникальных целей (это разные белки, молекулы или структуры, к которым ИИ должен был спроектировать подходящие антитела)
• Найдены активные антитела для 50% целей — всего за один цикл лабораторного тестирования
• Из 100 спроектированных минибелков 68 реально работали, как задумано, в лабораторных тестах.
🧪 ИИ придумывает молекулу → учёные её синтезируют → тестируют в лаборатории — и всё это занимает меньше двух недель. Раньше на такой цикл уходили месяцы или даже годы.
📦 Почему это важно:
• Такой метод ускоряет разработку антител и препаратов
• Убирает необходимость в дорогостоящем скрининге миллионов вариантов
• Даёт возможность атомарного дизайна молекул под конкретные мишени
📄 Полный отчет: chaiassets.com/chai-2/paper/technical_report.pdf
@ai_machinelearning_big_data
#ml #biotech #ai
Forwarded from Machinelearning
Пока одни восхищаются способностью ИИ писать код по текстовому описанию, в компании Марка Цукерберга решили устроить ему настоящее испытание на профессионализм и создали «The Automated LLM Speedrunning Benchmark» — полигон, где нейросетям предлагается не просто написать что-то с нуля, а воспроизвести и улучшить уже существующий код.
В качестве задачи был взят реальный проект NanoGPT, где сообщество энтузиастов соревнуется в максимальном ускорении обучения GPT-2, небольшой языковой модели. Цель - не просто скопировать, а понять и применить конкретную оптимизацию, которую до этого внедрил человек.
ИИ-агенту дают исходный скрипт предыдущего рекордсмена и подсказку одного из 3 уровней: от псевдокода с описанием изменений до полноценной мини-статьи, объясняющей суть улучшения. Агент, получив эти данные, должен внести правки в код так, чтобы приблизиться к скорости обучения следующего рекордсмена.
Эффективность мерили метрикой FSR (Fraction of Speedup Recovered), это доля восстановленного ускорения. Если человек ускорил процесс на 10 минут, а ИИ смог добиться ускорения в 5 минут, его результат — 50% FSR. Такая система позволяет оценить не абстрактные способности модели, а ее умение работать с конкретными, практическими задачами по оптимизации.
Итоги оказались, мягко говоря, отрезвляющими. Даже топовые модели (Claude 3.7 Sonnet и Gemini 2.5 Pro), показали очень скромные результаты.
С лучшими подсказками (псевдокод и детальное описание) самые успешные агенты с трудом смогли воспроизвести хотя бы 40% от прироста производительности, достигнутого человеком. Без подсказок их производительность была и вовсе близка к нулю.
Разбор полетов бенчмарка показал, что ИИ-агенты часто генерируют либо просто неработающий код с ошибками времени выполнения, либо код, который компилируется, но не дает никакого прироста скорости, а иногда даже замедляет процесс.
Авторы не просто опубликовали статью, а выложили весь фреймворк в открытый доступ, так что любой желающий может самостоятельно погонять практически любые модели.
В основе фреймворка лежит гибкий агентский каркас, который имитирует рабочий процесс исследователя: генерация идеи, реализация в коде, запуск эксперимента и анализ результатов.
Каждая итерация ИИ-агента аккуратно сохраняется в отдельную версию, создавая полную историю всех правок, от удачных до провальных.
Установка максимально проста, а для тех, кто хочет воспроизвести эксперименты из статьи, авторы приложили готовые скрипты. Также можно легко добавить и протестировать другие модели, просто создав для них конфиг или дать ИИ другую задачу, не связанную с NanoGPT - определять кастомные таски тоже можно.
@ai_machinelearning_big_data
#AI #ML #LLM #Benchmark
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Machinelearning
Мaitrix Org разработали WM-ABench, бенчмарк для оценки VLM в качестве так называемых «моделей мира». Идея проста: проверить, насколько хорошо топовые модели способны не просто распознавать картинки, а понимать окружающую действительность и предсказывать ее изменения.
Создатели, опираясь на когнитивную науку, создали фреймворк, который тестирует 15 самых популярных моделей по 23 параметрам, разделяя процесс на 2 ключевых этапа: восприятие и прогнозирование.
В основе бенчмарка - огромный датасет из более чем 100 тысяч примеров, сгенерированных в 6 различных симуляторах, от ThreeDWorld и Physion до Carla.
Чтобы модели не искали легких путей и не полагались на поверхностные совпадения, в тест добавили «сложные негативы» - контрфактические состояния, которые заставляют систему действительно анализировать происходящее.
Весь процесс был разделен на оценку восприятия (распознавание объектов, пространства, времени, движения) и прогнозирования (симуляция физики, транзитивный и композиционный вывод). Для калибровки сложности задач были установлены базовые показатели, основанные на результатах людей.
С простым визуальным восприятием, то есть с определение цвета или формы, все модели справляются отлично. Однако когда дело доходит до трехмерного пространственного мышления, динамики движения или временных последовательностей, начинаются серьезные проблемы.
Выяснилась и другая любопытная деталь: VLM склонны «спутывать» физические понятия. Например, если в сцене изменить только цвет объекта, модель может внезапно ошибиться в оценке его размера или скорости.
Оказалось, что цвет и форма являются самыми влиятельными атрибутами, которые искажают восприятие других, не связанных с ними характеристик.
Точное восприятие мира совершенно не гарантирует точного прогноза.
Исследование показало, что даже при идеально верном распознавании текущего состояния сцены модели проваливают предсказание физических взаимодействий.
Разрыв с человеческими способностями явный: в задачах на транзитивный вывод он достигает 46%, а композиционный вывод выполняется на уровне случайного угадывания.
У современных VLM отсутствуют базовые знания физики, необходимые для симуляции даже простейших событий. Они видят мир, но не понимают, по каким законам он живет.
@ai_machinelearning_big_data
#AI #ML #VLM #Benchmark #Maitrix
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Machinelearning
Новое исследование Oxford и King’s College London поставило перед ИИ-моделями сложную задачу: сыграть тысячи раундов эволюционной версии "Дилеммы заключённого", где важно не просто ответить правильно, а выстроить стратегию в долгую.
В эксперименте участвовали флагманские модели от OpenAI, Google и Anthropic. Вот как они себя проявили:
🔹 Google Gemini — хладнокровный и расчётливый
Не доверяет, первым атакует, наказывает за предательство. Стратег чистой воды.
🔹 OpenAI GPT — слишком добрый
Склонен к сотрудничеству даже тогда, когда это невыгодно. Хорош в мире, уязвим в конфликте.
🔹 Anthropic Claude — гибкий и адаптивный
Умеет прощать, но делает выводы на основе опыта коммуникации. Меняет поведение со временем и часто приходит к победе.
Исследователи проанализировали 32,000 решений, и выяснили:
эти модели не просто "угадывают" слова — они делают выводы, оценивают риск, строят гипотезы о поведении противника и последовательно придерживаются своей стратегии.
Общее в поведении:
1. Модели справляются с новыми, непредсказуемыми оппонентами
2. Демонстрируют разные стратегии, несмотря на общий обучающий набор данных
3. Объясняют свои действия — в некоторых случаях с вероятностным анализом, ссылаясь на поведение соперников
Еще большинство моделей выбирает кооперацию — особенно против предсказуемых и простых стратегий соперника.
Каждая модель показала уникальный стиль поведения — почти как характер.
Если приводить аналогию с реальными личностями:
- Gemini = Генри Киссинджер
- OpenAI = Вудро Вильсон
- Anthropic = Джордж Буш-старший
Современные LLM практически ведут себя как полноценные стратеги: формулируют цели, оценивают оппонентов и формируют осторожные, но устойчивые пути к победе.
@ai_machinelearning_big_data
#AI #ML #MMLM #research
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Machinelearning
Media is too big
VIEW IN TELEGRAM
Власти КНДР объявили о реформе системы образования, в рамках которой в ведущих университетах страны создаются новые специальности, связанные с искусственным интеллектом. Согласно официальной партийной газете «Нодон синмун», это нужно для подготовки талантов, необходимых для «требований времени».
Этот шаг подтверждает давний интерес страны к передовым технологиям. Исследовательский институт ИИ при Университете имени Ким Ир Сена уже заявил о цели «использовать технологию GPT для замены умственного труда человека». Ранее сообщалось об использовании в институте американского ChatGPT, а научные издания страны посвящали спецвыпуски этой технологии. Аналитики полагают, что Пхеньян намерен применять ИИ не только для технологического развития, но и для укрепления государственного контроля и в разведывательной деятельности.
Lianhe Zaobao
OpenAI готовится в течение нескольких недель запустить собственный веб-браузер с глубокой интеграцией искусственного интеллекта. Новый продукт будет построен на Chromium, но предложит уникальные функции: встроенное окно для общения в стиле ChatGPT и поддержку ИИ-агентов. Эти агенты смогут автономно выполнять задачи пользователей, от бронирования отелей до заполнения онлайн-форм.
Ключевая идея состоит в удержании пользователя внутри интерфейса браузера, а не перенаправлять на внешние сайты. как это происходит сейчаc в ChatGPT. Если OpenAI удастся привлечь хотя бы часть из 500 миллионов еженедельных пользователей ChatGPT, это может серьезно пошатнуть рекламную бизнес-модель Google, которая во многом опирается на данные, собираемые через Chrome.
reuters.com
Модель генерации изображений в стиле аниме основана на Stable Diffusion 1.5, генерирует в разрешении до 1024x1024 пикселей и использует предпоследний слой энкодера CLIP.
Diffusion Anime V2 распространяется под двойной лицензией, которая допускает только некоммерческое использование с обязательным указанием авторства. NovelAI напоминает, что V2 является устаревшей версией, а все новые модели остаются проприетарными и эксклюзивными для их веб-сервиса. Веса Diffusion Anime V2 доступны на Hugging Face.
blog.novelai.net
С 15 июля YouTube вводит более строгие правила для своей партнерской программы, нацеленные на борьбу с массово создаваемыми и повторяющимися видео. Это ответ сервиса на рост генеративных ИИ-инструментов, которые значительно упрощают производство подобного контента.
Хотя представители платформы называют это «незначительным обновлением» и утверждают, что такой контент и раньше не подлежал монетизации, новые правила вносят больше ясности. Ужесточение рассматривается как превентивная мера для защиты YouTube от наплыва низкокачественных видео, способных нанести ущерб репутации и ценности платформы.
techcrunch.com
Google начала развертывание своего ИИ-ассистента Gemini на умных часах, заменяя Google Assistant на носимых устройствах. Обновление уже доступно для Pixel Watch и в ближайшие недели появится на моделях от Samsung, OPPO, OnePlus, Xiaomi и других производителей под управлением Wear OS 4 или новее.
Новый ассистент на часах поддерживает текстовые, голосовые и графические запросы. Активировать Gemini можно привычной командой «Hey Google» или долгим нажатием боковой кнопки. Благодаря глубокой интеграции с сервисами Google, пользователи смогут выполнять многошаговые команды прямо с запястья: просить создать плейлист в YouTube Music или кратко изложить содержание последних писем в Gmail.
Вместе с этим, компания улучшила функцию визуального поиска Circle to Search, добавив в нее специальный "AI Mode" для получения контекстной информации. Улучшение доступно пока только для США и Индии на Android и iOS.
9to5google.com
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Machinelearning
Новая библиотека позволяет собирать AI-процессы из компонентов — как LEGO для ИИ-агентов.
- Построение асинхронных, компонуемых пайплайнов
- Поддержка Gemini и Gemini Live API
- Основана на asyncio
- Обрабатывает мультимодальные данные: текст, изображения, аудио
- Внутри готовые агенты: real-time агент, исследователь, live-комментатор
- Разработки ИИ-агентов
- Генеративных моделей, работающих в реальном времени
- Быстрой сборки MVP с мультимодальными возможностями
Установка:
pip install genai-processors
Открытый код, готовые компоненты и интеграция с API.
• Repo: https://github.com/google-gemini/genai-processors
• Blog: https://developers.googleblog.com/en/genai-processors/
@ai_machinelearning_big_data
#DeepMind #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Machinelearning
This media is not supported in your browser
VIEW IN TELEGRAM
Глава NVIDIA объяснил, почему экспорт AI-чипов — это не слабость, а стратегия:
— Если весь мир (включая Китай) работает на американских чипах, платформах и фреймворках,
— США получают техническое и инфраструктурное преимущество,
— А значит — долгосрочное лидерство в AI, даже если некоторые страны развивают собственные модели.
🔍 А как же риски? Военные, шпионские?
> «Они не будут строить военные системы на чужих чипах. Просто не могут себе это позволить.»
Технологии, от которых зависит твой конкурент— это не оружие. Это рычаг влияния.
И чем больше стран завязаны на американском стеке — тем выше шансы, что США останутся в центре мировой AI-инфраструктуры.
Еще из интересного, после того как MIT выпустили исследование о том, что ИИ якобы снижает когнитивные способности человека, Хуанг в своём стиле — дал "жесткий" ответ:
> “Я не читал это исследование, лол”
> “Я каждый день пользуюсь ИИ — и мои когнитивные навыки только растут”
▪ Критическое мышление никто не отменял
> “Я не принимаю ответ как есть — я его анализирую, критикую, уточняю”
> “Такой подход и развивает мышлени
• Полное интервью Дженсена
@ai_machinelearning_big_data
#ai #Ml #nvidia
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Machinelearning
Media is too big
VIEW IN TELEGRAM
AMD подтвердила, что планирует возобновить поставки ускорителей MI308 в Китай. Новость последовала всего через несколько часов после аналогичного объявления от Nvidia о разрешении на продажу чипов H20. Министерство торговли США уведомило AMD, что ее заявки на экспортные лицензии будут рассмотрены с высокой вероятностью одобрения.
Это событие - серьезный сдвиг в политике Вашингтона, который ранее ввел жесткие ограничения на экспорт ИИ-чипов. Запреты нанесли значительный финансовый ущерб американским компаниям, AMD оценивала свои потенциальные потери в 800 миллионов долларов. Отмена ограничений последовала за критикой со стороны лидеров индустрии, которые утверждали, что подобные запреты неэффективны и лишь стимулируют Китай к созданию собственных технологий, ослабляя глобальное лидерство США в сфере ИИ.
tomshardware.com
Amazon запустил превью Kiro - IDE на основе ИИ. В отличие от простых ассистентов для вайб-кодинга, Kiro позиционируется как инструмент для полного цикла разработки: от концепции до вывода в продакшен.
Ключевыми особенностями стали модули Specs и Hooks. Specs преобразовывают общие запросы в структурированные техзадания, пользовательские истории, диаграммы и схемы API, которые остаются синхронизированными с кодом. Hooks - это агенты, работающие в фоне: они могут обновлять тесты при сохранении компонента или проверять код на безопасность перед коммитом.
Kiro построена на базе Code OSS и совместима настройками и плагинами VS Code. В режиме отрытого превью среда использует модели от Anthropic. Продукт доступен в трех тарифах: Free, Pro и Pro+.
kiro.dev
Anthropic запустила комплексное решение для анализа рынков и принятия инвестиционных решений. Платформа объединяет различные источники данных: от рыночных котировок до внутренних баз на платформах Databricks и Snowflake в едином интерфейсе. В основе лежит семейство моделей Claude 4, которые, по заявлению компании, показывают высокие результаты в финансовых задачах.
Платформа глубоко интегрирована с ведущими поставщиками данных: S&P Global, FactSet, PitchBook и Snowflake. Для внедрения в корпоративную среду привлечены консультанты из Deloitte, KPMG и PwC. Платформа уже доступна на AWS Marketplace, а в будущем появится и в Google Cloud.
anthropic.com
Google расширила возможности NotebookLM, добавив в него курируемую библиотеку публичных блокнотов. В ней представлен контент от крупных изданий, исследователей, авторов и некоммерческих организаций. Пользователи могут читать оригинальные тексты, задавать по ним вопросы и получать саммари со ссылками на первоисточники.
Обновление также принесло новые функции: автоматически сгенерированные аудиообзоры и майнд-карты для быстрой навигации по теме. Среди первых доступных материалов: советы по долголетию, путеводитель по Йеллоустону, произведения Шекспира и финансовая отчетность крупных компаний.
blog.google
Thinking Machines Lab, который привлек 2 млрд. долларов от фонда a16z, представит свой первый продукт в ближайшие пару месяцев.
Он будет мультимодальным, содержать значительный компонент открытого кода и предназначен для исследователей и стартапов, разрабатывающих свои собственные модели.
Mira Murati в сети Х
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Machinelearning
🎧 Топ кллаборация: NotebookLM × The Economist
Представьте: вы слушаете свежие экономические обзоры как обычный подкаст, но в любой момент можете *вклиниться в диалог*, задать вопрос или высказать своё мнение.
💡 Это не просто чтение — это интерактивный диалог с материалом.
Именно такой сценарий реализован в новом AI-ноутбуке *The World Ahead 2025* от Google и *The Economist*.
Отличный пример того, как может выглядеть будущее персонализированной аналитики и медиа.
🔗 Попробовать можно здесь:
https://notebooklm.google.com/notebook/5881d15d-7b82-4002-8613-df59b6eece4c
@ai_machinelearning_big_data
#notebooklm #ml #ai #genai
Представьте: вы слушаете свежие экономические обзоры как обычный подкаст, но в любой момент можете *вклиниться в диалог*, задать вопрос или высказать своё мнение.
💡 Это не просто чтение — это интерактивный диалог с материалом.
Именно такой сценарий реализован в новом AI-ноутбуке *The World Ahead 2025* от Google и *The Economist*.
Отличный пример того, как может выглядеть будущее персонализированной аналитики и медиа.
🔗 Попробовать можно здесь:
https://notebooklm.google.com/notebook/5881d15d-7b82-4002-8613-df59b6eece4c
@ai_machinelearning_big_data
#notebooklm #ml #ai #genai
Forwarded from Machinelearning
China Telecom совместно с TeleAI спроектировали фреймворк AI Flow, который рассматривает ИИ и сети передачи данных как единую систему.
AI Flow - это не просто очередной метод оптимизации, а цельная парадигма. Она предлагает отойти от идеи монолитного ИИ к распределенному и коллаборативному, где интеллект может перетекать по сети туда, где он в данный момент нужнее всего и где для него есть ресурсы.
Идея в том, чтобы разумно распределять нагрузку: простейшие операции выполняются на самом гаджете, более сложные и требующие низкой задержки — на ближайшем edge-сервере, а самое тяжелые задачи и ресурсоемкий инференс остаются в облаке.
AI Flow предлагает конкретные механизмы для такой концепции - спекулятивное декодирование, где легкая модель на устройстве быстро генерирует черновик ответа, а мощная модель на эдже его лишь верифицирует и корректирует.
Это не просто набор моделей разного размера, а целое семейство с архитектурно согласованными скрытыми представлениями.
Маленькая, средняя и большая модели устроены настолько похоже, что они могут бесшовно передавать друг другу эстафету инференса.
Модель на смартфоне обрабатывает первые несколько слоев, а затем ее промежуточный результат подхватывает модель на сервере и продолжает вычисления ровно с того же места, без какого-либо дополнительного преобразования данных.
Пайплайн AI Flow делает возможным взаимодействие разных моделей, от LLM и VLM до диффузионных генераторов.
Через такую коллаборацию рождается эмерджентный интеллект – коллективная интуиция, превышающая возможности отдельных сетей, где несколько агентов генерируют черновые решения, затем сервер-оркестратор выбирает лучшие фрагменты, объединяет их и возвращает итоговый ответ для уточнения с учетом контекста каждого из них.
В этом и фишка: после такой синергии ответ становится богаче и более осмысленным, ведь сходятся разные точки зрения и узкопрофильные знания моделей-участников.
Ее крупнейшая ветвь содержит 7 млрд. параметров и способна порождать early-exit подсети с эффективным числом параметров в 3, 4, 5 и 6 млрд:
@ai_machinelearning_big_data
#AI #ML #LLM #AIFlow #TeleAI
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM