Forwarded from Machinelearning
В свежем июньском отчете, Open AI описала самые крупные кейсы, когда злоумышленники использовали модели ИИ для создания фейковых резюме, манипуляций в соцсетях, кибератак и мошенничества.
Для анализа угроз исследователи применяют комбинацию ИИ и экспертные команды. ИИ помогает выявлять шаблоны текста злоумышленников и координировать расследование с платформами. Архитектура таких систем включает модели для анализа данных, детекторы аномалий и инструменты для синхронизации с правоохранительными органами.
Обучались такие специализированные модели, помимо общедоступных данных, еще на примерах социальной инженерии и профилях киберугроз. Дополнительно, они получили методы обнаружения фейковых профилей, перевода текстов и анализа сетевого трафика.
Deceptive Employment Scheme: IT Workers.
Covert IO: Operation “Sneer Review”
Covert IO: Operation “High Five”
Social engineering meets IO: Operation “VAGue Focus”
Covert IO: Operation “Helgoland Bite”
Cyber Operation: “ScopeCreep”
Cyber Operations: Vixen and Keyhole Panda
Covert IO: Operation “Uncle Spam”
Recidivist Influence Activity: STORM-2035
Scam: Operation “Wrong Number”
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Machinelearning
Magistral — первая модель рассуждений от Mistral AI. Она сочетает глубокую логическую обработку с возможностью отслеживать каждый шаг её «мышления».
Модель получила поддержку 8 языков, включая русский и выпущена в 2 вариантах:
Внутри Magistral работает в режиме рассуждений, разбивая задачи на цепочки логических шагов, а Flash Answers ускоряет вывод в 10 раз по сравнению с конкурентами. Для интеграции в рабочие процессы модель умеет взаимодействовать с внешними инструментами (API или базами данных).
В тестах Magistral Medium показал 73,6% точности на задачах AIME2024, демонстрируя силу в физических симуляциях и математических расчетах.
Для разработчиков доступны версии на Hugging Face, AWS и IBM WatsonX, а в будущем — на Azure и Google Cloud. Демо Magistral доступно в интерфейсе Le Chat или по API в La Plateforme.
@ai_machinelearning_big_data
#AI #ML #LLM #Magistral #MistralAI
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Machinelearning
🔥 Опубликован 65-й выпуск рейтинга TOP500 — списка самых мощных суперкомпьютеров мира
💡 Тройка лидеров осталась неизменной:
• El Capitan (США, Ливерморская нац. лаборатория):
11 млн CPU ядер (AMD EPYC + GPU AMD MI300X),
1.742 экзафлопса, ОС HPE Cray OS (SUSE Linux).
• Frontier (США, Ок-Ридж):
9 млн CPU (AMD EPYC + MI250X),
1.353 экзафлопса, ОС HPE Cray OS.
• Aurora (США, Аргонн):
9.2 млн CPU (Intel Xeon Max + GPU Max),
1.012 экзафлопса, ОС SUSE Linux Enterprise Server 15 SP4.
🔹 На 4-е место вышел JUPITER Booster (Германия):
4.8 млн ядер (NVIDIA GH200), 793 петафлопса, ОС RHEL.
🔟 **Кластеры 5–10 мест:**
- Eagle (Microsoft Azure, США): 561 петафлопс
- HPC6 (ЭНИ, Италия): 477 петафлопс
- Fugaku (Япония): 442 петафлопса
- Alps (Швейцария): 434 петафлопса
- LUMI (Финляндия): 379 петафлопс
- Leonardo (CINECA, Италия): 241 петафлопс
🇷🇺 Российские суперкомпьютеры:
- Червоненкис (Яндекс): 75 место, 21.5 петафлопса
- Галушкин (Яндекс): 102 место, 16 петафлопс
- Ляпунов (Яндекс): 120 место, 12.8 петафлопса
- Christofari Neo (Сбер): 125 место, 11.95 петафлопса
- Christofari (Сбер): 201 место
- Lomonosov 2: 495 место (в 2015 году был на 31 месте)
🌍 Страны по количеству систем:
- США: 175 кластеров (48.4% производительности)
- Китай: 47 кластеров (2%)
- Германия: 41 (8.6%)
- Япония: 39 (8.9%)
- Франция: 25 (2.4%)
- Италия: 17 (6.3%)
- Россия: 6 (0.1%)
🧠 Тренды:
- Все 500 систем используют Linux.
- Дистрибутивы: неизвестно (38.2%), RHEL (20%), Ubuntu (11.8%), Cray Linux (9.8%), CentOS (8.2%), Rocky (5.8%), SUSE (4.2%), Alma (1.6%)
- Минимальный порог входа в рейтинг: 2.44 петафлопса.
- Общее число процессорных ядер: 137.6 млн.
- С ускорителями работают 234 кластера (в основном NVIDIA A100).
🔧 Лидеры среди производителей:
- Lenovo (27.2%)
- HPE (26.4%)
- EVIDEN (11%)
- Dell EMC (8.2%)
- NVIDIA (5.4%)
🌐 Сети:
- InfiniBand — 54.2% (40.3% производительности)
- Ethernet — 32.8% (52.2%)
- Omni-Path — 6.6%
📊 Также обновлён рейтинг Graph500 (оценка задач с графами)
и интегрированы рейтинги Green500, HPCG и HPL-AI.
🔥 За 10 лет производительность Top500 выросла с 0.31 до 13.8 экзафлопсов. Для входа в Top100 теперь нужно минимум 16.59 петафлопса.
📌 Подробнее
@ai_machinelearning_big_data
#news #ai #ml
💡 Тройка лидеров осталась неизменной:
• El Capitan (США, Ливерморская нац. лаборатория):
11 млн CPU ядер (AMD EPYC + GPU AMD MI300X),
1.742 экзафлопса, ОС HPE Cray OS (SUSE Linux).
• Frontier (США, Ок-Ридж):
9 млн CPU (AMD EPYC + MI250X),
1.353 экзафлопса, ОС HPE Cray OS.
• Aurora (США, Аргонн):
9.2 млн CPU (Intel Xeon Max + GPU Max),
1.012 экзафлопса, ОС SUSE Linux Enterprise Server 15 SP4.
🔹 На 4-е место вышел JUPITER Booster (Германия):
4.8 млн ядер (NVIDIA GH200), 793 петафлопса, ОС RHEL.
🔟 **Кластеры 5–10 мест:**
- Eagle (Microsoft Azure, США): 561 петафлопс
- HPC6 (ЭНИ, Италия): 477 петафлопс
- Fugaku (Япония): 442 петафлопса
- Alps (Швейцария): 434 петафлопса
- LUMI (Финляндия): 379 петафлопс
- Leonardo (CINECA, Италия): 241 петафлопс
🇷🇺 Российские суперкомпьютеры:
- Червоненкис (Яндекс): 75 место, 21.5 петафлопса
- Галушкин (Яндекс): 102 место, 16 петафлопс
- Ляпунов (Яндекс): 120 место, 12.8 петафлопса
- Christofari Neo (Сбер): 125 место, 11.95 петафлопса
- Christofari (Сбер): 201 место
- Lomonosov 2: 495 место (в 2015 году был на 31 месте)
🌍 Страны по количеству систем:
- США: 175 кластеров (48.4% производительности)
- Китай: 47 кластеров (2%)
- Германия: 41 (8.6%)
- Япония: 39 (8.9%)
- Франция: 25 (2.4%)
- Италия: 17 (6.3%)
- Россия: 6 (0.1%)
🧠 Тренды:
- Все 500 систем используют Linux.
- Дистрибутивы: неизвестно (38.2%), RHEL (20%), Ubuntu (11.8%), Cray Linux (9.8%), CentOS (8.2%), Rocky (5.8%), SUSE (4.2%), Alma (1.6%)
- Минимальный порог входа в рейтинг: 2.44 петафлопса.
- Общее число процессорных ядер: 137.6 млн.
- С ускорителями работают 234 кластера (в основном NVIDIA A100).
🔧 Лидеры среди производителей:
- Lenovo (27.2%)
- HPE (26.4%)
- EVIDEN (11%)
- Dell EMC (8.2%)
- NVIDIA (5.4%)
🌐 Сети:
- InfiniBand — 54.2% (40.3% производительности)
- Ethernet — 32.8% (52.2%)
- Omni-Path — 6.6%
📊 Также обновлён рейтинг Graph500 (оценка задач с графами)
и интегрированы рейтинги Green500, HPCG и HPL-AI.
🔥 За 10 лет производительность Top500 выросла с 0.31 до 13.8 экзафлопсов. Для входа в Top100 теперь нужно минимум 16.59 петафлопса.
📌 Подробнее
@ai_machinelearning_big_data
#news #ai #ml
Forwarded from Machinelearning
Основная идея VLMgineer - путь к роботам, которые сами изобретают нужные приборы под конкретные задачи, экономя время инженеров и расширяя границы автоматизации.
Что это
● Фреймворк, объединяющий Vision-Language-модель и эволюционный поиск.
● Полностью автоматизирует два процесса:
1) проектирует физический инструмент;
2) пишет пошаговый план, как этим инструментом пользоваться.
Как это работает
1️⃣ VLM получает описание задачи («забей гвоздь», «разбей лёд») и создаёт начальный эскиз инструмента + набор движений робота.
2️⃣ Симуляция проверяет, насколько успешно связка «инструмент + действие» решает задачу.
3️⃣ Эволюционный алгоритм вносит правки (меняет форму, размеры, материалы), VLM уточняет план.
4️⃣ Цикл повторяется, пока не найден оптимальный дизайн.
Никаких шаблонов и ручной настройки — всю «физическую креативность» выполняет модель.
Исследователи протестировали возможности VLMgineer по созданию инструментов и планов действий в сравнении с тремя типами участников:
• специалист по LLM
• эксперт по робототехнике
• обычный человек без технического бэкграунда
📊 Результаты:
VLMgineer показал на 64,7% более высокий средний успех выполнения задач, чем решения, предложенные людьми, скоро обещают дропнуть код проекта.
@ai_machinelearning_big_data
#ai #robots #vlm
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Machinelearning
🤖 Gemini Robotics: автономный AI для роботов
Google представили Gemini Robotics On-Device — первую модель, объединяющую зрение, язык и действия, которая работает прямо на роботах, без постоянного подключения к интернету.
🔍 Что делает эту модель особенной:
🔹 Объединяет универсальность и точность Gemini, но работает локально
🔹 Моделька справляется со сложными задачами с двумя руками (манипуляции, сборка, перенос)
🔹 Обучается новым действиям всего по 50–100 демкам
Модель уже поддерживает разные типы роботов — от гуманоидов до промышленных двухруких манипуляторов. И это несмотря на то, что изначально она была обучена только на датасете ALOHA под управлением человеческих инструкций.
🛠 В догонку выпустили SDK Gemini Robotics — для разработчиков, которые хотят дообучить модель под свои нужды, включая тесты в физическом симуляторе MuJoCo.
🌐 Полностью автономная работа — идеально для кейсов с плохой связью или требованиями к высокой скорости отклика.
Gemini Robotics продолжает двигаться к будущему, где AI становится частью физического мира.
👉 Подробнее: https://goo.gle/gemini-robotics-on-device
@ai_machinelearning_big_data
#ai #robots #vlm #google #Gemini
Google представили Gemini Robotics On-Device — первую модель, объединяющую зрение, язык и действия, которая работает прямо на роботах, без постоянного подключения к интернету.
🔍 Что делает эту модель особенной:
🔹 Объединяет универсальность и точность Gemini, но работает локально
🔹 Моделька справляется со сложными задачами с двумя руками (манипуляции, сборка, перенос)
🔹 Обучается новым действиям всего по 50–100 демкам
Модель уже поддерживает разные типы роботов — от гуманоидов до промышленных двухруких манипуляторов. И это несмотря на то, что изначально она была обучена только на датасете ALOHA под управлением человеческих инструкций.
🛠 В догонку выпустили SDK Gemini Robotics — для разработчиков, которые хотят дообучить модель под свои нужды, включая тесты в физическом симуляторе MuJoCo.
🌐 Полностью автономная работа — идеально для кейсов с плохой связью или требованиями к высокой скорости отклика.
Gemini Robotics продолжает двигаться к будущему, где AI становится частью физического мира.
👉 Подробнее: https://goo.gle/gemini-robotics-on-device
@ai_machinelearning_big_data
#ai #robots #vlm #google #Gemini
Forwarded from Machinelearning
This media is not supported in your browser
VIEW IN TELEGRAM
• Лёгкий и мощный инструмент для разработки в командной строке
• Код агента в открытом доступе (Apache 2.0)
• Поддержка контекста в 1 миллион токенов
• Бесплатный тариф: до 60 запросов в минуту и 1000 в день
• Привязка к Google Search
• Поддержка плагинов и скриптов
• Интеграция с VS Code (Gemini Code Assist)
@ai_machinelearning_big_data
#AI #ML #agent #Google
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Machinelearning
🧠 Одно из величайших уравнений в истории — на грани разгадки
Испанский математик Хавьер Гомес Серрано совместно с Google DeepMind приблизился к решению уравнений Навье — Стокса — одного из семи Millennium Prize Problems, за которое обещан $1 000 000.
Millennium Prize Problems (задачи тысячелетия) — это семь нерешенных математических проблем, предложенных Математическим институтом Клэя в 2000 году, за решение каждой из которых обещана награда в 1 миллион долларов
📌 Эти уравнения описывают поведение жидкостей и газов:
от движения воздуха и волн — до потока крови в капиллярах.
⏳ Учёные не могут доказать, существует ли гладкое решение в 3D — уже 200 лет.
🤖 Что изменилось?
• Серрано и DeepMind используют современные нейросети для численного анализа
• Команда утверждает: модель на грани открытия
• ИИ помогает выявить структуры и закономерности, которые сложно уловить вручную
🌊 Что даст решение:
• Улучшенные модели погоды и климата
• Прогнозирование цунами и турбулентности
• Прорыв в медицине: моделирование кровотока и работы сердца
• Новый фундамент в прикладной математике и физике
📌 Вывод:
Если им удастся — это будет не просто научная победа.
Это будет момент, когда ИИ помог человечеству решить задачу, с которой оно не справлялось столетиями.
👉 Подробнее
@ai_machinelearning_big_data
#ai #математика #deepmind #наука #навиестокс
Испанский математик Хавьер Гомес Серрано совместно с Google DeepMind приблизился к решению уравнений Навье — Стокса — одного из семи Millennium Prize Problems, за которое обещан $1 000 000.
Millennium Prize Problems (задачи тысячелетия) — это семь нерешенных математических проблем, предложенных Математическим институтом Клэя в 2000 году, за решение каждой из которых обещана награда в 1 миллион долларов
📌 Эти уравнения описывают поведение жидкостей и газов:
от движения воздуха и волн — до потока крови в капиллярах.
⏳ Учёные не могут доказать, существует ли гладкое решение в 3D — уже 200 лет.
🤖 Что изменилось?
• Серрано и DeepMind используют современные нейросети для численного анализа
• Команда утверждает: модель на грани открытия
• ИИ помогает выявить структуры и закономерности, которые сложно уловить вручную
🌊 Что даст решение:
• Улучшенные модели погоды и климата
• Прогнозирование цунами и турбулентности
• Прорыв в медицине: моделирование кровотока и работы сердца
• Новый фундамент в прикладной математике и физике
📌 Вывод:
Если им удастся — это будет не просто научная победа.
Это будет момент, когда ИИ помог человечеству решить задачу, с которой оно не справлялось столетиями.
👉 Подробнее
@ai_machinelearning_big_data
#ai #математика #deepmind #наука #навиестокс
Forwarded from Machinelearning
Iconiq Capital опросила 300 руководителей ИИ-стартапов с доходом от $10 млн. до $1 млрд. о том, как эти стартапы используют ИИ и собрала результаты в отчет "ICONIQ AI Builder’s Playbook 2025"
Iconiq Capital - американская компания по управлению инвестициями, основанная в 2011 году. Функционирует как гибридный семейный офис и имеет тесные связи с компанией Марка Цукерберга. Компания предоставляет услуги по инвестиционному менеджменту, частному капиталу, венчурным инвестициям, управлению недвижимостью и филантропии для состоятельных семей и организаций.
Эра экспериментальных ИИ-демо закончилась. Сейчас компании массово переходят к боевому использованию генеративных моделей - и тут уже не про «вау», а про ROI, стоимость инференса и объяснимость.
Компании, с нативными ИИ-продуктами, сильно опережают тех, кто "добавил ИИ". Почти половина стартапов нативных ИИ-продуктов уже достигла масштабирования (47% против 13% у ретрофитеров).
В продуктовом портфеле такой типовой компании в среднем 2,8 модели и они активно идут по пути агентных сценариев, причем многие строят архитектуру с возможностью быстрого свапа моделей.
ИИ ломает старые цены и бизнес-модели. 38% компаний используют гибридное ценообразование (подписка + плата за использование), ещё 19% — только за использование а 6% уже экспериментируют с outcome-based моделями.
Пока 40% включают ИИ в премиум-пакет, но 37% планируют пересмотреть подход, учитывая реальные метрики использования и отдачу.
ИИ перестал быть задачей «R&D-уголка». В быстрорастущих компаниях до 37% инженеров работают над ИИ, а AI/ML-инженеров нанимают в среднем за 70+ дней.
ИИ забирает до 20% R&D-бюджета, причем по мере роста проекта расходы смещаются с найма в сторону инференса и инфраструктуры.
68% компаний используют только облако, ещё 64% сидят на внешних API. OpenAI/GPT - лидер (81%), но растет доля мульти-модельных подходов (Claude, Gemini, Mistral и др.).
NVIDIA по-прежнему доминирует в инференсе: TensorRT и Triton используют 60% команд, но и ONNX Runtime (18%) с TorchServe (15%) укрепляют позиции.
Из инструментов для оркестрации лидируют LangChain и Hugging Face, а для мониторинга — Datadog и LangSmith (~17%). MLOps по-прежнему на MLflow (36%) и Weights & Biases (20%).
Самое сложное в развертывании продуктов оказалось не в коде, а в доверии и эффективности:
42% компаний говорят о проблемах доверия и объяснимости, 39% — не могут показать ROI, 38% — борются с галлюцинациями, а 32% — с высокой стоимостью инференса, а доступ к GPU — проблема лишь для 5%.
Главный вывод: чтобы внедрить ИИ, одной модели не достаточно, еще нужно обосновать ее бизнес-ценность и держать под контролем поведение.
77% команд используют ИИ для помощи в разработке (GitHub Copilot почти у всех), 65% — для генерации контента, 57% — для поиска знаний.
Те, у кого ИИ активно используется получают 15–30% прироста эффективности. Самые распространенные юзкейсы: кодинг, аналитика, поиск по внутренней документации.
Самое неожиданное
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Machinelearning
📺 4 из 10 самых популярных YouTube‑каналов теперь создаются ИИ
Звучит как шутка, но это уже реальность: среди топ‑10 каналов YouTube по числу просмотров — 4 полностью сгенерированы ИИ.
Никаких блогеров, продюсеров и съёмок. Только скрипты, голоса, монтаж — всё на автомате. И миллиарды просмотров.
🤖 Добро пожаловать в эру synthetic media.
👉 Подробнее
@ai_machinelearning_big_data
#ml #ai #YouTube
Звучит как шутка, но это уже реальность: среди топ‑10 каналов YouTube по числу просмотров — 4 полностью сгенерированы ИИ.
Никаких блогеров, продюсеров и съёмок. Только скрипты, голоса, монтаж — всё на автомате. И миллиарды просмотров.
🤖 Добро пожаловать в эру synthetic media.
👉 Подробнее
@ai_machinelearning_big_data
#ml #ai #YouTube
Forwarded from Machinelearning
🧬 Chai‑2: перспективный инструмент для дизайна антител с помощью ИИ
Несмотря на прогресс в проектировании белков, создать рабочие антитела с нуля до сих пор было почти невозможно.
Но новая модель Chai‑2 менянт правила игры.
Chai‑2 — это мультимодальная генеративная модель, которая впервые позволяет проектировать функциональные антитела de novo ( в биологии и биоинформатике означает создание чего-либо с полного нуля, без использования готовых шаблонов или существующих структур.) с высокой точностью.
📊 Результаты:
• 16% антител показали нужную биологическую активность при генерации с нуля — это в 100+ раз лучше, чем у предыдущих методов (аньше hit-rate был <0.1%)
• Создано ≤20 антител для 52 уникальных целей (это разные белки, молекулы или структуры, к которым ИИ должен был спроектировать подходящие антитела)
• Найдены активные антитела для 50% целей — всего за один цикл лабораторного тестирования
• Из 100 спроектированных минибелков 68 реально работали, как задумано, в лабораторных тестах.
🧪 ИИ придумывает молекулу → учёные её синтезируют → тестируют в лаборатории — и всё это занимает меньше двух недель. Раньше на такой цикл уходили месяцы или даже годы.
📦 Почему это важно:
• Такой метод ускоряет разработку антител и препаратов
• Убирает необходимость в дорогостоящем скрининге миллионов вариантов
• Даёт возможность атомарного дизайна молекул под конкретные мишени
📄 Полный отчет: chaiassets.com/chai-2/paper/technical_report.pdf
@ai_machinelearning_big_data
#ml #biotech #ai
Несмотря на прогресс в проектировании белков, создать рабочие антитела с нуля до сих пор было почти невозможно.
Но новая модель Chai‑2 менянт правила игры.
Chai‑2 — это мультимодальная генеративная модель, которая впервые позволяет проектировать функциональные антитела de novo ( в биологии и биоинформатике означает создание чего-либо с полного нуля, без использования готовых шаблонов или существующих структур.) с высокой точностью.
📊 Результаты:
• 16% антител показали нужную биологическую активность при генерации с нуля — это в 100+ раз лучше, чем у предыдущих методов (аньше hit-rate был <0.1%)
• Создано ≤20 антител для 52 уникальных целей (это разные белки, молекулы или структуры, к которым ИИ должен был спроектировать подходящие антитела)
• Найдены активные антитела для 50% целей — всего за один цикл лабораторного тестирования
• Из 100 спроектированных минибелков 68 реально работали, как задумано, в лабораторных тестах.
🧪 ИИ придумывает молекулу → учёные её синтезируют → тестируют в лаборатории — и всё это занимает меньше двух недель. Раньше на такой цикл уходили месяцы или даже годы.
📦 Почему это важно:
• Такой метод ускоряет разработку антител и препаратов
• Убирает необходимость в дорогостоящем скрининге миллионов вариантов
• Даёт возможность атомарного дизайна молекул под конкретные мишени
📄 Полный отчет: chaiassets.com/chai-2/paper/technical_report.pdf
@ai_machinelearning_big_data
#ml #biotech #ai
Forwarded from Machinelearning
Пока одни восхищаются способностью ИИ писать код по текстовому описанию, в компании Марка Цукерберга решили устроить ему настоящее испытание на профессионализм и создали «The Automated LLM Speedrunning Benchmark» — полигон, где нейросетям предлагается не просто написать что-то с нуля, а воспроизвести и улучшить уже существующий код.
В качестве задачи был взят реальный проект NanoGPT, где сообщество энтузиастов соревнуется в максимальном ускорении обучения GPT-2, небольшой языковой модели. Цель - не просто скопировать, а понять и применить конкретную оптимизацию, которую до этого внедрил человек.
ИИ-агенту дают исходный скрипт предыдущего рекордсмена и подсказку одного из 3 уровней: от псевдокода с описанием изменений до полноценной мини-статьи, объясняющей суть улучшения. Агент, получив эти данные, должен внести правки в код так, чтобы приблизиться к скорости обучения следующего рекордсмена.
Эффективность мерили метрикой FSR (Fraction of Speedup Recovered), это доля восстановленного ускорения. Если человек ускорил процесс на 10 минут, а ИИ смог добиться ускорения в 5 минут, его результат — 50% FSR. Такая система позволяет оценить не абстрактные способности модели, а ее умение работать с конкретными, практическими задачами по оптимизации.
Итоги оказались, мягко говоря, отрезвляющими. Даже топовые модели (Claude 3.7 Sonnet и Gemini 2.5 Pro), показали очень скромные результаты.
С лучшими подсказками (псевдокод и детальное описание) самые успешные агенты с трудом смогли воспроизвести хотя бы 40% от прироста производительности, достигнутого человеком. Без подсказок их производительность была и вовсе близка к нулю.
Разбор полетов бенчмарка показал, что ИИ-агенты часто генерируют либо просто неработающий код с ошибками времени выполнения, либо код, который компилируется, но не дает никакого прироста скорости, а иногда даже замедляет процесс.
Авторы не просто опубликовали статью, а выложили весь фреймворк в открытый доступ, так что любой желающий может самостоятельно погонять практически любые модели.
В основе фреймворка лежит гибкий агентский каркас, который имитирует рабочий процесс исследователя: генерация идеи, реализация в коде, запуск эксперимента и анализ результатов.
Каждая итерация ИИ-агента аккуратно сохраняется в отдельную версию, создавая полную историю всех правок, от удачных до провальных.
Установка максимально проста, а для тех, кто хочет воспроизвести эксперименты из статьи, авторы приложили готовые скрипты. Также можно легко добавить и протестировать другие модели, просто создав для них конфиг или дать ИИ другую задачу, не связанную с NanoGPT - определять кастомные таски тоже можно.
@ai_machinelearning_big_data
#AI #ML #LLM #Benchmark
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Machinelearning
Мaitrix Org разработали WM-ABench, бенчмарк для оценки VLM в качестве так называемых «моделей мира». Идея проста: проверить, насколько хорошо топовые модели способны не просто распознавать картинки, а понимать окружающую действительность и предсказывать ее изменения.
Создатели, опираясь на когнитивную науку, создали фреймворк, который тестирует 15 самых популярных моделей по 23 параметрам, разделяя процесс на 2 ключевых этапа: восприятие и прогнозирование.
В основе бенчмарка - огромный датасет из более чем 100 тысяч примеров, сгенерированных в 6 различных симуляторах, от ThreeDWorld и Physion до Carla.
Чтобы модели не искали легких путей и не полагались на поверхностные совпадения, в тест добавили «сложные негативы» - контрфактические состояния, которые заставляют систему действительно анализировать происходящее.
Весь процесс был разделен на оценку восприятия (распознавание объектов, пространства, времени, движения) и прогнозирования (симуляция физики, транзитивный и композиционный вывод). Для калибровки сложности задач были установлены базовые показатели, основанные на результатах людей.
С простым визуальным восприятием, то есть с определение цвета или формы, все модели справляются отлично. Однако когда дело доходит до трехмерного пространственного мышления, динамики движения или временных последовательностей, начинаются серьезные проблемы.
Выяснилась и другая любопытная деталь: VLM склонны «спутывать» физические понятия. Например, если в сцене изменить только цвет объекта, модель может внезапно ошибиться в оценке его размера или скорости.
Оказалось, что цвет и форма являются самыми влиятельными атрибутами, которые искажают восприятие других, не связанных с ними характеристик.
Точное восприятие мира совершенно не гарантирует точного прогноза.
Исследование показало, что даже при идеально верном распознавании текущего состояния сцены модели проваливают предсказание физических взаимодействий.
Разрыв с человеческими способностями явный: в задачах на транзитивный вывод он достигает 46%, а композиционный вывод выполняется на уровне случайного угадывания.
У современных VLM отсутствуют базовые знания физики, необходимые для симуляции даже простейших событий. Они видят мир, но не понимают, по каким законам он живет.
@ai_machinelearning_big_data
#AI #ML #VLM #Benchmark #Maitrix
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Machinelearning
Новое исследование Oxford и King’s College London поставило перед ИИ-моделями сложную задачу: сыграть тысячи раундов эволюционной версии "Дилеммы заключённого", где важно не просто ответить правильно, а выстроить стратегию в долгую.
В эксперименте участвовали флагманские модели от OpenAI, Google и Anthropic. Вот как они себя проявили:
🔹 Google Gemini — хладнокровный и расчётливый
Не доверяет, первым атакует, наказывает за предательство. Стратег чистой воды.
🔹 OpenAI GPT — слишком добрый
Склонен к сотрудничеству даже тогда, когда это невыгодно. Хорош в мире, уязвим в конфликте.
🔹 Anthropic Claude — гибкий и адаптивный
Умеет прощать, но делает выводы на основе опыта коммуникации. Меняет поведение со временем и часто приходит к победе.
Исследователи проанализировали 32,000 решений, и выяснили:
эти модели не просто "угадывают" слова — они делают выводы, оценивают риск, строят гипотезы о поведении противника и последовательно придерживаются своей стратегии.
Общее в поведении:
1. Модели справляются с новыми, непредсказуемыми оппонентами
2. Демонстрируют разные стратегии, несмотря на общий обучающий набор данных
3. Объясняют свои действия — в некоторых случаях с вероятностным анализом, ссылаясь на поведение соперников
Еще большинство моделей выбирает кооперацию — особенно против предсказуемых и простых стратегий соперника.
Каждая модель показала уникальный стиль поведения — почти как характер.
Если приводить аналогию с реальными личностями:
- Gemini = Генри Киссинджер
- OpenAI = Вудро Вильсон
- Anthropic = Джордж Буш-старший
Современные LLM практически ведут себя как полноценные стратеги: формулируют цели, оценивают оппонентов и формируют осторожные, но устойчивые пути к победе.
@ai_machinelearning_big_data
#AI #ML #MMLM #research
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Machinelearning
Media is too big
VIEW IN TELEGRAM
Власти КНДР объявили о реформе системы образования, в рамках которой в ведущих университетах страны создаются новые специальности, связанные с искусственным интеллектом. Согласно официальной партийной газете «Нодон синмун», это нужно для подготовки талантов, необходимых для «требований времени».
Этот шаг подтверждает давний интерес страны к передовым технологиям. Исследовательский институт ИИ при Университете имени Ким Ир Сена уже заявил о цели «использовать технологию GPT для замены умственного труда человека». Ранее сообщалось об использовании в институте американского ChatGPT, а научные издания страны посвящали спецвыпуски этой технологии. Аналитики полагают, что Пхеньян намерен применять ИИ не только для технологического развития, но и для укрепления государственного контроля и в разведывательной деятельности.
Lianhe Zaobao
OpenAI готовится в течение нескольких недель запустить собственный веб-браузер с глубокой интеграцией искусственного интеллекта. Новый продукт будет построен на Chromium, но предложит уникальные функции: встроенное окно для общения в стиле ChatGPT и поддержку ИИ-агентов. Эти агенты смогут автономно выполнять задачи пользователей, от бронирования отелей до заполнения онлайн-форм.
Ключевая идея состоит в удержании пользователя внутри интерфейса браузера, а не перенаправлять на внешние сайты. как это происходит сейчаc в ChatGPT. Если OpenAI удастся привлечь хотя бы часть из 500 миллионов еженедельных пользователей ChatGPT, это может серьезно пошатнуть рекламную бизнес-модель Google, которая во многом опирается на данные, собираемые через Chrome.
reuters.com
Модель генерации изображений в стиле аниме основана на Stable Diffusion 1.5, генерирует в разрешении до 1024x1024 пикселей и использует предпоследний слой энкодера CLIP.
Diffusion Anime V2 распространяется под двойной лицензией, которая допускает только некоммерческое использование с обязательным указанием авторства. NovelAI напоминает, что V2 является устаревшей версией, а все новые модели остаются проприетарными и эксклюзивными для их веб-сервиса. Веса Diffusion Anime V2 доступны на Hugging Face.
blog.novelai.net
С 15 июля YouTube вводит более строгие правила для своей партнерской программы, нацеленные на борьбу с массово создаваемыми и повторяющимися видео. Это ответ сервиса на рост генеративных ИИ-инструментов, которые значительно упрощают производство подобного контента.
Хотя представители платформы называют это «незначительным обновлением» и утверждают, что такой контент и раньше не подлежал монетизации, новые правила вносят больше ясности. Ужесточение рассматривается как превентивная мера для защиты YouTube от наплыва низкокачественных видео, способных нанести ущерб репутации и ценности платформы.
techcrunch.com
Google начала развертывание своего ИИ-ассистента Gemini на умных часах, заменяя Google Assistant на носимых устройствах. Обновление уже доступно для Pixel Watch и в ближайшие недели появится на моделях от Samsung, OPPO, OnePlus, Xiaomi и других производителей под управлением Wear OS 4 или новее.
Новый ассистент на часах поддерживает текстовые, голосовые и графические запросы. Активировать Gemini можно привычной командой «Hey Google» или долгим нажатием боковой кнопки. Благодаря глубокой интеграции с сервисами Google, пользователи смогут выполнять многошаговые команды прямо с запястья: просить создать плейлист в YouTube Music или кратко изложить содержание последних писем в Gmail.
Вместе с этим, компания улучшила функцию визуального поиска Circle to Search, добавив в нее специальный "AI Mode" для получения контекстной информации. Улучшение доступно пока только для США и Индии на Android и iOS.
9to5google.com
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Machinelearning
Новая библиотека позволяет собирать AI-процессы из компонентов — как LEGO для ИИ-агентов.
- Построение асинхронных, компонуемых пайплайнов
- Поддержка Gemini и Gemini Live API
- Основана на asyncio
- Обрабатывает мультимодальные данные: текст, изображения, аудио
- Внутри готовые агенты: real-time агент, исследователь, live-комментатор
- Разработки ИИ-агентов
- Генеративных моделей, работающих в реальном времени
- Быстрой сборки MVP с мультимодальными возможностями
Установка:
pip install genai-processors
Открытый код, готовые компоненты и интеграция с API.
• Repo: https://github.com/google-gemini/genai-processors
• Blog: https://developers.googleblog.com/en/genai-processors/
@ai_machinelearning_big_data
#DeepMind #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Machine learning Interview
🍏 Apple всерьёз задумалась о покупке Mistral — Bloomberg / Марк Гурман
По информации Bloomberg, Apple серьёзно рассматривает покупку французского стартапа Mistral AI, чтобы наконец войти в ИИ-гонку.
Это очень поздний шаг — но он показывает, насколько сильно Apple отстала от OpenAI, Google и даже xAI.
Пока другие выкатывают публичные LLM, мультимодальные ассистенты и интеграции в поиске, Apple остаётся в роли наблюдателя.
📌 Почему это важно:
- Mistral — один из главных open-source игроков на рынке ИИ (выпускают мощные LLM и Mixture of Experts-модели)
- У Apple пока нет ни собственной модели, ни сильной стратегии в области ИИ
- Приобретение Mistral может стать экстренной попыткой догнать конкурентов
Если сделка состоится — это будет крупнейший AI-манёвр Apple за всё время.
#Apple #Mistral #AI #LLM #ГонкаИИ
@machinelearning_interview
По информации Bloomberg, Apple серьёзно рассматривает покупку французского стартапа Mistral AI, чтобы наконец войти в ИИ-гонку.
Это очень поздний шаг — но он показывает, насколько сильно Apple отстала от OpenAI, Google и даже xAI.
Пока другие выкатывают публичные LLM, мультимодальные ассистенты и интеграции в поиске, Apple остаётся в роли наблюдателя.
📌 Почему это важно:
- Mistral — один из главных open-source игроков на рынке ИИ (выпускают мощные LLM и Mixture of Experts-модели)
- У Apple пока нет ни собственной модели, ни сильной стратегии в области ИИ
- Приобретение Mistral может стать экстренной попыткой догнать конкурентов
Если сделка состоится — это будет крупнейший AI-манёвр Apple за всё время.
#Apple #Mistral #AI #LLM #ГонкаИИ
@machinelearning_interview
Forwarded from Machinelearning
This media is not supported in your browser
VIEW IN TELEGRAM
Глава NVIDIA объяснил, почему экспорт AI-чипов — это не слабость, а стратегия:
— Если весь мир (включая Китай) работает на американских чипах, платформах и фреймворках,
— США получают техническое и инфраструктурное преимущество,
— А значит — долгосрочное лидерство в AI, даже если некоторые страны развивают собственные модели.
🔍 А как же риски? Военные, шпионские?
> «Они не будут строить военные системы на чужих чипах. Просто не могут себе это позволить.»
Технологии, от которых зависит твой конкурент— это не оружие. Это рычаг влияния.
И чем больше стран завязаны на американском стеке — тем выше шансы, что США останутся в центре мировой AI-инфраструктуры.
Еще из интересного, после того как MIT выпустили исследование о том, что ИИ якобы снижает когнитивные способности человека, Хуанг в своём стиле — дал "жесткий" ответ:
> “Я не читал это исследование, лол”
> “Я каждый день пользуюсь ИИ — и мои когнитивные навыки только растут”
▪ Критическое мышление никто не отменял
> “Я не принимаю ответ как есть — я его анализирую, критикую, уточняю”
> “Такой подход и развивает мышлени
• Полное интервью Дженсена
@ai_machinelearning_big_data
#ai #Ml #nvidia
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Machinelearning
Media is too big
VIEW IN TELEGRAM
AMD подтвердила, что планирует возобновить поставки ускорителей MI308 в Китай. Новость последовала всего через несколько часов после аналогичного объявления от Nvidia о разрешении на продажу чипов H20. Министерство торговли США уведомило AMD, что ее заявки на экспортные лицензии будут рассмотрены с высокой вероятностью одобрения.
Это событие - серьезный сдвиг в политике Вашингтона, который ранее ввел жесткие ограничения на экспорт ИИ-чипов. Запреты нанесли значительный финансовый ущерб американским компаниям, AMD оценивала свои потенциальные потери в 800 миллионов долларов. Отмена ограничений последовала за критикой со стороны лидеров индустрии, которые утверждали, что подобные запреты неэффективны и лишь стимулируют Китай к созданию собственных технологий, ослабляя глобальное лидерство США в сфере ИИ.
tomshardware.com
Amazon запустил превью Kiro - IDE на основе ИИ. В отличие от простых ассистентов для вайб-кодинга, Kiro позиционируется как инструмент для полного цикла разработки: от концепции до вывода в продакшен.
Ключевыми особенностями стали модули Specs и Hooks. Specs преобразовывают общие запросы в структурированные техзадания, пользовательские истории, диаграммы и схемы API, которые остаются синхронизированными с кодом. Hooks - это агенты, работающие в фоне: они могут обновлять тесты при сохранении компонента или проверять код на безопасность перед коммитом.
Kiro построена на базе Code OSS и совместима настройками и плагинами VS Code. В режиме отрытого превью среда использует модели от Anthropic. Продукт доступен в трех тарифах: Free, Pro и Pro+.
kiro.dev
Anthropic запустила комплексное решение для анализа рынков и принятия инвестиционных решений. Платформа объединяет различные источники данных: от рыночных котировок до внутренних баз на платформах Databricks и Snowflake в едином интерфейсе. В основе лежит семейство моделей Claude 4, которые, по заявлению компании, показывают высокие результаты в финансовых задачах.
Платформа глубоко интегрирована с ведущими поставщиками данных: S&P Global, FactSet, PitchBook и Snowflake. Для внедрения в корпоративную среду привлечены консультанты из Deloitte, KPMG и PwC. Платформа уже доступна на AWS Marketplace, а в будущем появится и в Google Cloud.
anthropic.com
Google расширила возможности NotebookLM, добавив в него курируемую библиотеку публичных блокнотов. В ней представлен контент от крупных изданий, исследователей, авторов и некоммерческих организаций. Пользователи могут читать оригинальные тексты, задавать по ним вопросы и получать саммари со ссылками на первоисточники.
Обновление также принесло новые функции: автоматически сгенерированные аудиообзоры и майнд-карты для быстрой навигации по теме. Среди первых доступных материалов: советы по долголетию, путеводитель по Йеллоустону, произведения Шекспира и финансовая отчетность крупных компаний.
blog.google
Thinking Machines Lab, который привлек 2 млрд. долларов от фонда a16z, представит свой первый продукт в ближайшие пару месяцев.
Он будет мультимодальным, содержать значительный компонент открытого кода и предназначен для исследователей и стартапов, разрабатывающих свои собственные модели.
Mira Murati в сети Х
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Machinelearning
🎧 Топ кллаборация: NotebookLM × The Economist
Представьте: вы слушаете свежие экономические обзоры как обычный подкаст, но в любой момент можете *вклиниться в диалог*, задать вопрос или высказать своё мнение.
💡 Это не просто чтение — это интерактивный диалог с материалом.
Именно такой сценарий реализован в новом AI-ноутбуке *The World Ahead 2025* от Google и *The Economist*.
Отличный пример того, как может выглядеть будущее персонализированной аналитики и медиа.
🔗 Попробовать можно здесь:
https://notebooklm.google.com/notebook/5881d15d-7b82-4002-8613-df59b6eece4c
@ai_machinelearning_big_data
#notebooklm #ml #ai #genai
Представьте: вы слушаете свежие экономические обзоры как обычный подкаст, но в любой момент можете *вклиниться в диалог*, задать вопрос или высказать своё мнение.
💡 Это не просто чтение — это интерактивный диалог с материалом.
Именно такой сценарий реализован в новом AI-ноутбуке *The World Ahead 2025* от Google и *The Economist*.
Отличный пример того, как может выглядеть будущее персонализированной аналитики и медиа.
🔗 Попробовать можно здесь:
https://notebooklm.google.com/notebook/5881d15d-7b82-4002-8613-df59b6eece4c
@ai_machinelearning_big_data
#notebooklm #ml #ai #genai
Forwarded from Machinelearning
China Telecom совместно с TeleAI спроектировали фреймворк AI Flow, который рассматривает ИИ и сети передачи данных как единую систему.
AI Flow - это не просто очередной метод оптимизации, а цельная парадигма. Она предлагает отойти от идеи монолитного ИИ к распределенному и коллаборативному, где интеллект может перетекать по сети туда, где он в данный момент нужнее всего и где для него есть ресурсы.
Идея в том, чтобы разумно распределять нагрузку: простейшие операции выполняются на самом гаджете, более сложные и требующие низкой задержки — на ближайшем edge-сервере, а самое тяжелые задачи и ресурсоемкий инференс остаются в облаке.
AI Flow предлагает конкретные механизмы для такой концепции - спекулятивное декодирование, где легкая модель на устройстве быстро генерирует черновик ответа, а мощная модель на эдже его лишь верифицирует и корректирует.
Это не просто набор моделей разного размера, а целое семейство с архитектурно согласованными скрытыми представлениями.
Маленькая, средняя и большая модели устроены настолько похоже, что они могут бесшовно передавать друг другу эстафету инференса.
Модель на смартфоне обрабатывает первые несколько слоев, а затем ее промежуточный результат подхватывает модель на сервере и продолжает вычисления ровно с того же места, без какого-либо дополнительного преобразования данных.
Пайплайн AI Flow делает возможным взаимодействие разных моделей, от LLM и VLM до диффузионных генераторов.
Через такую коллаборацию рождается эмерджентный интеллект – коллективная интуиция, превышающая возможности отдельных сетей, где несколько агентов генерируют черновые решения, затем сервер-оркестратор выбирает лучшие фрагменты, объединяет их и возвращает итоговый ответ для уточнения с учетом контекста каждого из них.
В этом и фишка: после такой синергии ответ становится богаче и более осмысленным, ведь сходятся разные точки зрения и узкопрофильные знания моделей-участников.
Ее крупнейшая ветвь содержит 7 млрд. параметров и способна порождать early-exit подсети с эффективным числом параметров в 3, 4, 5 и 6 млрд:
@ai_machinelearning_big_data
#AI #ML #LLM #AIFlow #TeleAI
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM