Технозаметки Малышева

Развитие ИИ опережает оценку рисков от ИИ

Скорость развития ИИ значительно опережает методы оценки производительности, точности и безопасности.
Миллиардные инвестиции подстегнули гонку технологий ИИ и сделали устаревшими прежние критерии оценки прогресса.
Общедоступные бенчмарки и системы оценки не успевают за сложностью современных моделей ИИ.
Оценка безопасности и эффективности ИИ стала сложной задачей для специалистов по тестированию.
Компаниям рекомендуется создавать внутренние тесты и полагаться на человеческую оценку наряду с бенчмарками.
Правительства также сталкиваются с проблемами управления рисками новейших моделей ИИ.

В таких условиях может возникнуть желанием вообще все запретить, а потом разбираться.
Но рынок уже не остановить.

#AI #risks #benchmarks
-------
@tsingular

100 views16:51

Абсолютно не стоит своих денег на фоне Sonnet 3.7 thinking.

#gpt45 #sonnet37 #benchmarks
------
@tsingular

⚡8

1.45K views21:28

Технозаметки Малышева

This media is not supported in your browser

VIEW IN TELEGRAM

🎮 Бенчмарки на Super Mario: когда AI начинает играть в платформеры

Результаты: Claude 3.7 показал себя лучше всех, за ним следует Claude 3.5. А вот "тяжеловесы" вроде Gemini 1.5 Pro от Google и GPT-4o от OpenAI серьезно отстали.

Для бенчей используется фреймворк GamingAgent, который специально разработан для проверки возможностей ИИ играть в игры ( там есть не только Марио)

1. AI получает скриншоты игры и базовые инструкции типа "если рядом препятствие или враг, прыгай влево чтобы уклониться"
2. Модель генерирует управляющие команды в виде Python-кода
3. Эти команды передаются в эмулятор, где запускается модифицированная версия оригинальной игры 1985 года

Самое неожиданное открытие: модели с "рассуждениями" (reasoning models) вроде OpenAI o1, которые должны быть мощнее обычных на большинстве бенчмарков, показали себя хуже!

Причина проста - скорость реакции. Пока модель с "рассуждениями" просчитывает оптимальное действие (на что уходят секунды), Марио падает в пропасть 💀

Зачем это нужно?
1. Реактивные системы. Тестирование в играх показывает, насколько AI готов работать в условиях быстрой реакции - важно для автономных систем в промышленности

2. Визуальное планирование. Способность анализировать визуальные данные и принимать решения на их основе критична для множества бизнес-сценариев: от беспилотников до систем видеонаблюдения

3. Балансировка скорости и точности. Этот тест наглядно показывает, что иногда быстрое "сносное" решение лучше медленного "идеального" - урок для многих бизнес-процессов

Для запуска собственных экспериментов доступны все необходимые компоненты. Фреймворк GamingAgent поддерживает ключевые модели от OpenAI, Anthropic и Google - достаточно клонировать репозиторий на GitHub и настроить API-ключи.

#benchmarks #SuperMario #Claude37
———
@tsingular

🔥9👾3⚡2

882 views05:00

Технозаметки Малышева

Llama-4 - манипуляции с бенчмарками

Вокруг новой модели Llama-4 разгорается серьезный спор: оказывается, для тестирования в сервисе LMArena использовалась специально оптимизированная версия, существенно отличающаяся от той, что доступна пользователям.

Технические подробности обмана
В документации к моделям нашлась пометка мелким шрифтом, что на LMArena загружена "экспериментальная версия", специально "оптимизированная для разговорности" (optimized for conversationality). Именно эта версия взлетела на второе место рейтинга, впечатляюще обойдя GPT-4o с ELO-рейтингом 1417.

Исследователи, изучившие модель, обнаружили серьёзные отличия между публично доступной версией и той, что тестировалась на бенчмарке.

Версия на LMArena использует множество эмодзи и генерирует неоправданно длинные ответы — её поведение описывают как "ювенильное" и неестественное.

Реакция индустрии
Ахмад Аль-Дахле, вице-президент по генеративному ИИ компании-разработчика, отверг обвинения в намеренном обмане. По его словам, распространившиеся слухи о том, что модели обучались на тестовых наборах (что может искусственно завышать результаты), "просто неправда".

Платформа LMArena также отреагировала на скандал, заявив: "Интерпретация нашей политики разработчиками не соответствует тому, что мы ожидаем от поставщиков моделей". В результате инцидента они обновляют правила своего рейтинга, чтобы "усилить приверженность честным, воспроизводимым оценкам".

From whom from whom... но от лидеров рынка такого не ожидаешь, конечно.

#benchmarks #Llama
———
@tsingular

😁9⚡1🤣1👻1

1.19K views04:38

Технозаметки Малышева

🧩 Claude 4 дебютировал в NYT Connections — первые результаты рассуждающих моделей от Anthropic

Клода прогнали через бенчмарк NYT Connections и он, пока, далеко не на первом месте.

Что за бенчмарк:
651 пазла с добавлением "обманных" слов
Специально усложнили, чтобы подготовиться к выходу o3 от OpenAI
Теперь каждый пазл содержит до 4 дополнительных слов-ловушек
Отдельный зачёт по последним 100 пазлам (защита от "подсматривания" в трейне)

Результаты Claude 4:
Claude Opus 4 Thinking 16K — 11 место (52.7%) — лучший результат среди Claude
Claude Sonnet 4 Thinking 16K — 13 место (41.4%)
Claude Sonnet 4 Thinking 64K — 14 место (39.6%) — интересно, что больший контекст не помог
Claude Opus 4 (no reasoning) — 17 место (34.8%) — без рассуждений получается слабовато

Ключевые наблюдения:
Reasoning решает — версии с рассуждениями показывают +15-20% к точности против "обычных"
Лидерство OpenAI — o1-pro держит первое место (82.5%), o3 на втором (79.5%)
Claude догоняет — Opus 4 Thinking впервые попал в топ-15, но до лидеров ещё далеко

Практические выводы:
Для сложных логических задач выбирайте thinking-версии Claude 4
Размер контекста (16K vs 64K) пока не критичен для reasoning-задач
Claude 4 серьёзно продвинулся в логике, но OpenAI пока не догнал если сравнивать возможности исследователя

Интересная деталь: в сравнении с людьми o1 показывает 98.9% против среднего игрока NYT (71%).
При том, что ведущие игроки платформы достигают 100%.

ИИ уже превзошёл обычных людей, но до абсолютных чемпионов ещё немного не хватает.

#Claude4 #reasoning #benchmarks #Anthropic #NYTCollection
———
@tsingular

👍4❤1

2.18K views06:02

Технозаметки Малышева

1:19

Media is too big

VIEW IN TELEGRAM

🚀 Claude 4 Opus vs Gemini 2.5 Pro vs OpenAI o3: Красивейшие бенчмарки моделей.

Рекомендую посмотреть интересную проверку современных ИИ моделей в части возможностей программирования через различные сложные задачи — от 3D-визуализации до полноценных игр.

Спойлер, - Опус 4 рулит! :)

Результаты:
1️⃣ 3D Particle Morphing (Three.js + WebGL)
Задача: Создать облако частиц с морфингом между формами (сфера, птица, лицо, дерево) + постобработка + GUI
Claude Opus: Идеальная реализация за 100 секунд! Плавные переходы между формами, корректная работа шейдеров, полнофункциональный UI.
Gemini: Работает, но формы выглядят примитивно. Птица больше напоминает каракули.
o3: Частицы сначала собираются в сферу, затем морфят — нарушение логики.

2️⃣ 2D Mario Platformer
Задача: Полноценный платформер с физикой, врагами, коллизиями, HUD
Claude Opus: Секунды — и готов красивый, играбельный Mario с правильной физикой и анимациями!
Gemini: Функционально, но минималистично и с багами в таймере.
o3: Прототип с множественными багами, игра не завершается.

3️⃣ Tetris с современным UI
Задача: Полный Tetris с анимациями, звуком, системой уровней
Claude Opus: Мгновенная реализация всех фич + бонусы (ghost piece, локальное сохранение, музыка).
Gemini: Отличный результат, сопоставимый с Claude.
o3: Игра не завершается при достижении верха — критический баг.

4️⃣ Chess Engine
Задача: Шахматы с нуля без внешних библиотек
Claude Opus: Полнофункциональные шахматы с валидацией ходов и логом партии. Чистое волшебство!
Gemini: Попытка реализовать сложные ходы (en passant), но фигуры не двигаются в UI.
o3: Попытка использовать Chess.js, но импорты не работают.

Выводы:
Для enterprise-разработки: Claude 4 Opus стоит своих денег, если качество кода критично.
Для стартапов: Gemini 2.5 Pro — золотая середина между функциональностью и бюджетом.
Для обучения: Claude Opus генерирует не просто работающий код, а элегантные решения с хорошей архитектурой.

Модели уже создают полноценные приложения за секунды, что ещё год назад потребовало бы дней разработки.

Один из примеров - в комментарии

Скоро разработка кода руками будет как сейчас - вырезание ложки из дерева.
Очень красиво, аутентично, - можно бесконечно восхищаться ловкостью рук дедушки, но есть вы всё-равно будете штамповкой с завода.

#Claude4 #development #benchmarks
———
@tsingular

🔥7👍6⚡2❤1💯1

2.23K viewsedited 05:26

Технозаметки Малышева

А давайте запишем у кого какие результаты скорости работы LLM по железу
Предлагаю сюда собирать

Если кто хочет в редакторы отправляйте запрос на доступ на редактирование в гугле указав свой gmail в строке запроса.

LM Studio сама показывает, а в ollama можно так вызывать:
ollama run gemma3:27b-it-qat —verbose напиши поэму о лете

в итогах будет такого плана результат:
total duration: 15.525598053s
load duration: 43.678042ms
prompt eval count: 32 token(s)
prompt eval duration: 204.741435ms
prompt eval rate: 156.29 tokens/s
eval count: 619 token(s)
eval duration: 15.27660691s
eval rate: 40.52 tokens/s

#benchmarks #inference #LLM #hardware
———
@tsingular

✍3

1.13K viewsedited 07:36

About

Blog

Apps

Platform