Развитие ИИ опережает оценку рисков от ИИ
Скорость развития ИИ значительно опережает методы оценки производительности, точности и безопасности.
Миллиардные инвестиции подстегнули гонку технологий ИИ и сделали устаревшими прежние критерии оценки прогресса.
Общедоступные бенчмарки и системы оценки не успевают за сложностью современных моделей ИИ.
Оценка безопасности и эффективности ИИ стала сложной задачей для специалистов по тестированию.
Компаниям рекомендуется создавать внутренние тесты и полагаться на человеческую оценку наряду с бенчмарками.
Правительства также сталкиваются с проблемами управления рисками новейших моделей ИИ.
В таких условиях может возникнуть желанием вообще все запретить, а потом разбираться.
Но рынок уже не остановить.
#AI #risks #benchmarks
-------
@tsingular
Скорость развития ИИ значительно опережает методы оценки производительности, точности и безопасности.
Миллиардные инвестиции подстегнули гонку технологий ИИ и сделали устаревшими прежние критерии оценки прогресса.
Общедоступные бенчмарки и системы оценки не успевают за сложностью современных моделей ИИ.
Оценка безопасности и эффективности ИИ стала сложной задачей для специалистов по тестированию.
Компаниям рекомендуется создавать внутренние тесты и полагаться на человеческую оценку наряду с бенчмарками.
Правительства также сталкиваются с проблемами управления рисками новейших моделей ИИ.
В таких условиях может возникнуть желанием вообще все запретить, а потом разбираться.
Но рынок уже не остановить.
#AI #risks #benchmarks
-------
@tsingular
Абсолютно не стоит своих денег на фоне Sonnet 3.7 thinking.
#gpt45 #sonnet37 #benchmarks
------
@tsingular
#gpt45 #sonnet37 #benchmarks
------
@tsingular
⚡8
This media is not supported in your browser
VIEW IN TELEGRAM
🎮 Бенчмарки на Super Mario: когда AI начинает играть в платформеры
Результаты: Claude 3.7 показал себя лучше всех, за ним следует Claude 3.5. А вот "тяжеловесы" вроде Gemini 1.5 Pro от Google и GPT-4o от OpenAI серьезно отстали.
Для бенчей используется фреймворк GamingAgent, который специально разработан для проверки возможностей ИИ играть в игры ( там есть не только Марио)
1. AI получает скриншоты игры и базовые инструкции типа "если рядом препятствие или враг, прыгай влево чтобы уклониться"
2. Модель генерирует управляющие команды в виде Python-кода
3. Эти команды передаются в эмулятор, где запускается модифицированная версия оригинальной игры 1985 года
Самое неожиданное открытие: модели с "рассуждениями" (reasoning models) вроде OpenAI o1, которые должны быть мощнее обычных на большинстве бенчмарков, показали себя хуже!
Причина проста - скорость реакции. Пока модель с "рассуждениями" просчитывает оптимальное действие (на что уходят секунды), Марио падает в пропасть 💀
Зачем это нужно?
1. Реактивные системы. Тестирование в играх показывает, насколько AI готов работать в условиях быстрой реакции - важно для автономных систем в промышленности
2. Визуальное планирование. Способность анализировать визуальные данные и принимать решения на их основе критична для множества бизнес-сценариев: от беспилотников до систем видеонаблюдения
3. Балансировка скорости и точности. Этот тест наглядно показывает, что иногда быстрое "сносное" решение лучше медленного "идеального" - урок для многих бизнес-процессов
Для запуска собственных экспериментов доступны все необходимые компоненты. Фреймворк GamingAgent поддерживает ключевые модели от OpenAI, Anthropic и Google - достаточно клонировать репозиторий на GitHub и настроить API-ключи.
#benchmarks #SuperMario #Claude37
———
@tsingular
Результаты: Claude 3.7 показал себя лучше всех, за ним следует Claude 3.5. А вот "тяжеловесы" вроде Gemini 1.5 Pro от Google и GPT-4o от OpenAI серьезно отстали.
Для бенчей используется фреймворк GamingAgent, который специально разработан для проверки возможностей ИИ играть в игры ( там есть не только Марио)
1. AI получает скриншоты игры и базовые инструкции типа "если рядом препятствие или враг, прыгай влево чтобы уклониться"
2. Модель генерирует управляющие команды в виде Python-кода
3. Эти команды передаются в эмулятор, где запускается модифицированная версия оригинальной игры 1985 года
Самое неожиданное открытие: модели с "рассуждениями" (reasoning models) вроде OpenAI o1, которые должны быть мощнее обычных на большинстве бенчмарков, показали себя хуже!
Причина проста - скорость реакции. Пока модель с "рассуждениями" просчитывает оптимальное действие (на что уходят секунды), Марио падает в пропасть 💀
Зачем это нужно?
1. Реактивные системы. Тестирование в играх показывает, насколько AI готов работать в условиях быстрой реакции - важно для автономных систем в промышленности
2. Визуальное планирование. Способность анализировать визуальные данные и принимать решения на их основе критична для множества бизнес-сценариев: от беспилотников до систем видеонаблюдения
3. Балансировка скорости и точности. Этот тест наглядно показывает, что иногда быстрое "сносное" решение лучше медленного "идеального" - урок для многих бизнес-процессов
Для запуска собственных экспериментов доступны все необходимые компоненты. Фреймворк GamingAgent поддерживает ключевые модели от OpenAI, Anthropic и Google - достаточно клонировать репозиторий на GitHub и настроить API-ключи.
#benchmarks #SuperMario #Claude37
———
@tsingular
🔥9👾3⚡2
Llama-4 - манипуляции с бенчмарками
Вокруг новой модели Llama-4 разгорается серьезный спор: оказывается, для тестирования в сервисе LMArena использовалась специально оптимизированная версия, существенно отличающаяся от той, что доступна пользователям.
Технические подробности обмана
В документации к моделям нашлась пометка мелким шрифтом, что на LMArena загружена "экспериментальная версия", специально "оптимизированная для разговорности" (optimized for conversationality). Именно эта версия взлетела на второе место рейтинга, впечатляюще обойдя GPT-4o с ELO-рейтингом 1417.
Исследователи, изучившие модель, обнаружили серьёзные отличия между публично доступной версией и той, что тестировалась на бенчмарке.
Версия на LMArena использует множество эмодзи и генерирует неоправданно длинные ответы — её поведение описывают как "ювенильное" и неестественное.
Реакция индустрии
Ахмад Аль-Дахле, вице-президент по генеративному ИИ компании-разработчика, отверг обвинения в намеренном обмане. По его словам, распространившиеся слухи о том, что модели обучались на тестовых наборах (что может искусственно завышать результаты), "просто неправда".
Платформа LMArena также отреагировала на скандал, заявив: "Интерпретация нашей политики разработчиками не соответствует тому, что мы ожидаем от поставщиков моделей". В результате инцидента они обновляют правила своего рейтинга, чтобы "усилить приверженность честным, воспроизводимым оценкам".
From whom from whom... но от лидеров рынка такого не ожидаешь, конечно.
#benchmarks #Llama
———
@tsingular
Вокруг новой модели Llama-4 разгорается серьезный спор: оказывается, для тестирования в сервисе LMArena использовалась специально оптимизированная версия, существенно отличающаяся от той, что доступна пользователям.
Технические подробности обмана
В документации к моделям нашлась пометка мелким шрифтом, что на LMArena загружена "экспериментальная версия", специально "оптимизированная для разговорности" (optimized for conversationality). Именно эта версия взлетела на второе место рейтинга, впечатляюще обойдя GPT-4o с ELO-рейтингом 1417.
Исследователи, изучившие модель, обнаружили серьёзные отличия между публично доступной версией и той, что тестировалась на бенчмарке.
Версия на LMArena использует множество эмодзи и генерирует неоправданно длинные ответы — её поведение описывают как "ювенильное" и неестественное.
Реакция индустрии
Ахмад Аль-Дахле, вице-президент по генеративному ИИ компании-разработчика, отверг обвинения в намеренном обмане. По его словам, распространившиеся слухи о том, что модели обучались на тестовых наборах (что может искусственно завышать результаты), "просто неправда".
Платформа LMArena также отреагировала на скандал, заявив: "Интерпретация нашей политики разработчиками не соответствует тому, что мы ожидаем от поставщиков моделей". В результате инцидента они обновляют правила своего рейтинга, чтобы "усилить приверженность честным, воспроизводимым оценкам".
From whom from whom... но от лидеров рынка такого не ожидаешь, конечно.
#benchmarks #Llama
———
@tsingular
😁9⚡1🤣1👻1
🧩 Claude 4 дебютировал в NYT Connections — первые результаты рассуждающих моделей от Anthropic
Клода прогнали через бенчмарк NYT Connections и он, пока, далеко не на первом месте.
Что за бенчмарк:
651 пазла с добавлением "обманных" слов
Специально усложнили, чтобы подготовиться к выходу o3 от OpenAI
Теперь каждый пазл содержит до 4 дополнительных слов-ловушек
Отдельный зачёт по последним 100 пазлам (защита от "подсматривания" в трейне)
Результаты Claude 4:
Claude Opus 4 Thinking 16K — 11 место (52.7%) — лучший результат среди Claude
Claude Sonnet 4 Thinking 16K — 13 место (41.4%)
Claude Sonnet 4 Thinking 64K — 14 место (39.6%) — интересно, что больший контекст не помог
Claude Opus 4 (no reasoning) — 17 место (34.8%) — без рассуждений получается слабовато
Ключевые наблюдения:
Reasoning решает — версии с рассуждениями показывают +15-20% к точности против "обычных"
Лидерство OpenAI — o1-pro держит первое место (82.5%), o3 на втором (79.5%)
Claude догоняет — Opus 4 Thinking впервые попал в топ-15, но до лидеров ещё далеко
Практические выводы:
Для сложных логических задач выбирайте thinking-версии Claude 4
Размер контекста (16K vs 64K) пока не критичен для reasoning-задач
Claude 4 серьёзно продвинулся в логике, но OpenAI пока не догнал если сравнивать возможности исследователя
Интересная деталь: в сравнении с людьми o1 показывает 98.9% против среднего игрока NYT (71%).
При том, что ведущие игроки платформы достигают 100%.
ИИ уже превзошёл обычных людей, но до абсолютных чемпионов ещё немного не хватает.
#Claude4 #reasoning #benchmarks #Anthropic #NYTCollection
———
@tsingular
Клода прогнали через бенчмарк NYT Connections и он, пока, далеко не на первом месте.
Что за бенчмарк:
651 пазла с добавлением "обманных" слов
Специально усложнили, чтобы подготовиться к выходу o3 от OpenAI
Теперь каждый пазл содержит до 4 дополнительных слов-ловушек
Отдельный зачёт по последним 100 пазлам (защита от "подсматривания" в трейне)
Результаты Claude 4:
Claude Opus 4 Thinking 16K — 11 место (52.7%) — лучший результат среди Claude
Claude Sonnet 4 Thinking 16K — 13 место (41.4%)
Claude Sonnet 4 Thinking 64K — 14 место (39.6%) — интересно, что больший контекст не помог
Claude Opus 4 (no reasoning) — 17 место (34.8%) — без рассуждений получается слабовато
Ключевые наблюдения:
Reasoning решает — версии с рассуждениями показывают +15-20% к точности против "обычных"
Лидерство OpenAI — o1-pro держит первое место (82.5%), o3 на втором (79.5%)
Claude догоняет — Opus 4 Thinking впервые попал в топ-15, но до лидеров ещё далеко
Практические выводы:
Для сложных логических задач выбирайте thinking-версии Claude 4
Размер контекста (16K vs 64K) пока не критичен для reasoning-задач
Claude 4 серьёзно продвинулся в логике, но OpenAI пока не догнал если сравнивать возможности исследователя
Интересная деталь: в сравнении с людьми o1 показывает 98.9% против среднего игрока NYT (71%).
При том, что ведущие игроки платформы достигают 100%.
ИИ уже превзошёл обычных людей, но до абсолютных чемпионов ещё немного не хватает.
#Claude4 #reasoning #benchmarks #Anthropic #NYTCollection
———
@tsingular
👍4❤1
Media is too big
VIEW IN TELEGRAM
🚀 Claude 4 Opus vs Gemini 2.5 Pro vs OpenAI o3: Красивейшие бенчмарки моделей.
Рекомендую посмотреть интересную проверку современных ИИ моделей в части возможностей программирования через различные сложные задачи — от 3D-визуализации до полноценных игр.
Спойлер, - Опус 4 рулит! :)
Результаты:
1️⃣ 3D Particle Morphing (Three.js + WebGL)
Задача: Создать облако частиц с морфингом между формами (сфера, птица, лицо, дерево) + постобработка + GUI
Claude Opus: Идеальная реализация за 100 секунд! Плавные переходы между формами, корректная работа шейдеров, полнофункциональный UI.
Gemini: Работает, но формы выглядят примитивно. Птица больше напоминает каракули.
o3: Частицы сначала собираются в сферу, затем морфят — нарушение логики.
2️⃣ 2D Mario Platformer
Задача: Полноценный платформер с физикой, врагами, коллизиями, HUD
Claude Opus: Секунды — и готов красивый, играбельный Mario с правильной физикой и анимациями!
Gemini: Функционально, но минималистично и с багами в таймере.
o3: Прототип с множественными багами, игра не завершается.
3️⃣ Tetris с современным UI
Задача: Полный Tetris с анимациями, звуком, системой уровней
Claude Opus: Мгновенная реализация всех фич + бонусы (ghost piece, локальное сохранение, музыка).
Gemini: Отличный результат, сопоставимый с Claude.
o3: Игра не завершается при достижении верха — критический баг.
4️⃣ Chess Engine
Задача: Шахматы с нуля без внешних библиотек
Claude Opus: Полнофункциональные шахматы с валидацией ходов и логом партии. Чистое волшебство!
Gemini: Попытка реализовать сложные ходы (en passant), но фигуры не двигаются в UI.
o3: Попытка использовать Chess.js, но импорты не работают.
Выводы:
Для enterprise-разработки: Claude 4 Opus стоит своих денег, если качество кода критично.
Для стартапов: Gemini 2.5 Pro — золотая середина между функциональностью и бюджетом.
Для обучения: Claude Opus генерирует не просто работающий код, а элегантные решения с хорошей архитектурой.
Модели уже создают полноценные приложения за секунды, что ещё год назад потребовало бы дней разработки.
Один из примеров - в комментарии
Скоро разработка кода руками будет как сейчас - вырезание ложки из дерева.
Очень красиво, аутентично, - можно бесконечно восхищаться ловкостью рук дедушки, но есть вы всё-равно будете штамповкой с завода.
#Claude4 #development #benchmarks
———
@tsingular
Рекомендую посмотреть интересную проверку современных ИИ моделей в части возможностей программирования через различные сложные задачи — от 3D-визуализации до полноценных игр.
Спойлер, - Опус 4 рулит! :)
Результаты:
1️⃣ 3D Particle Morphing (Three.js + WebGL)
Задача: Создать облако частиц с морфингом между формами (сфера, птица, лицо, дерево) + постобработка + GUI
Claude Opus: Идеальная реализация за 100 секунд! Плавные переходы между формами, корректная работа шейдеров, полнофункциональный UI.
Gemini: Работает, но формы выглядят примитивно. Птица больше напоминает каракули.
o3: Частицы сначала собираются в сферу, затем морфят — нарушение логики.
2️⃣ 2D Mario Platformer
Задача: Полноценный платформер с физикой, врагами, коллизиями, HUD
Claude Opus: Секунды — и готов красивый, играбельный Mario с правильной физикой и анимациями!
Gemini: Функционально, но минималистично и с багами в таймере.
o3: Прототип с множественными багами, игра не завершается.
3️⃣ Tetris с современным UI
Задача: Полный Tetris с анимациями, звуком, системой уровней
Claude Opus: Мгновенная реализация всех фич + бонусы (ghost piece, локальное сохранение, музыка).
Gemini: Отличный результат, сопоставимый с Claude.
o3: Игра не завершается при достижении верха — критический баг.
4️⃣ Chess Engine
Задача: Шахматы с нуля без внешних библиотек
Claude Opus: Полнофункциональные шахматы с валидацией ходов и логом партии. Чистое волшебство!
Gemini: Попытка реализовать сложные ходы (en passant), но фигуры не двигаются в UI.
o3: Попытка использовать Chess.js, но импорты не работают.
Выводы:
Для enterprise-разработки: Claude 4 Opus стоит своих денег, если качество кода критично.
Для стартапов: Gemini 2.5 Pro — золотая середина между функциональностью и бюджетом.
Для обучения: Claude Opus генерирует не просто работающий код, а элегантные решения с хорошей архитектурой.
Модели уже создают полноценные приложения за секунды, что ещё год назад потребовало бы дней разработки.
Один из примеров - в комментарии
Скоро разработка кода руками будет как сейчас - вырезание ложки из дерева.
Очень красиво, аутентично, - можно бесконечно восхищаться ловкостью рук дедушки, но есть вы всё-равно будете штамповкой с завода.
#Claude4 #development #benchmarks
———
@tsingular
🔥7👍6⚡2❤1💯1
А давайте запишем у кого какие результаты скорости работы LLM по железу
Предлагаю сюда собирать
Если кто хочет в редакторы отправляйте запрос на доступ на редактирование в гугле указав свой gmail в строке запроса.
LM Studio сама показывает, а в ollama можно так вызывать:
ollama run gemma3:27b-it-qat —verbose напиши поэму о лете
в итогах будет такого плана результат:
total duration: 15.525598053s
load duration: 43.678042ms
prompt eval count: 32 token(s)
prompt eval duration: 204.741435ms
prompt eval rate: 156.29 tokens/s
eval count: 619 token(s)
eval duration: 15.27660691s
eval rate: 40.52 tokens/s
#benchmarks #inference #LLM #hardware
———
@tsingular
Предлагаю сюда собирать
Если кто хочет в редакторы отправляйте запрос на доступ на редактирование в гугле указав свой gmail в строке запроса.
LM Studio сама показывает, а в ollama можно так вызывать:
ollama run gemma3:27b-it-qat —verbose напиши поэму о лете
в итогах будет такого плана результат:
total duration: 15.525598053s
load duration: 43.678042ms
prompt eval count: 32 token(s)
prompt eval duration: 204.741435ms
prompt eval rate: 156.29 tokens/s
eval count: 619 token(s)
eval duration: 15.27660691s
eval rate: 40.52 tokens/s
#benchmarks #inference #LLM #hardware
———
@tsingular
✍3