Традиционно начинаем день с обновлений Anthropic: на этот раз они выкатили Advisor Strategy
Это способ получить почти топовое качество без оплаты топовой модели. Вот как работает:
– Есть две модели: Executor (исполнитель, дешевая и быстрая модель, Sonnet) и Advisor (советник, дорогая и сильная модель, Opus).
– Исполнитель делает всю основную работу. Но когда сталкивается со сложным моментом, вызывает advisor, который подсказывает, что делать дальше.
– Все происходит внутри одного запроса и вмешательства юзера не требует.
На самом деле задач, которые требуют вмешательства сильной модели, не так много. Так что на практике такой подход выходит ощутимо дешевле Opus (примерно на 10-12%) с качеством сильно выше Sonnet. Например, относительно базового Sonnet на SWE bench метрика растет почти на 3 процентных пункта.
Полезная вещь
Это способ получить почти топовое качество без оплаты топовой модели. Вот как работает:
– Есть две модели: Executor (исполнитель, дешевая и быстрая модель, Sonnet) и Advisor (советник, дорогая и сильная модель, Opus).
– Исполнитель делает всю основную работу. Но когда сталкивается со сложным моментом, вызывает advisor, который подсказывает, что делать дальше.
– Все происходит внутри одного запроса и вмешательства юзера не требует.
На самом деле задач, которые требуют вмешательства сильной модели, не так много. Так что на практике такой подход выходит ощутимо дешевле Opus (примерно на 10-12%) с качеством сильно выше Sonnet. Например, относительно базового Sonnet на SWE bench метрика растет почти на 3 процентных пункта.
Полезная вещь
❤136🔥62👍39😁3
Practical ML Conf 2026 принимает заявки на доклады
Яндекс открыл подачу заявок на участие в качестве спикера. Конференция хардовая: технические доклады, инженерные мастер-классы, аудитория мидл+.
Ждут именно практику: ML-технологии, которые уже работают в продакшене и приносят измеримую пользу. Заявки оцениваются по четырём критериям – новизна, польза для сообщества, практическая применимость и техническая глубина.
Тем, кого отберут, помогут с подготовкой: проработка доклада с программным комитетом, работа с тренером по публичным выступлениям, оформление презентации от дизайнеров. Плюс промо до и после конференции.
Ключевые даты:
➖ до 22 мая – прием заявок
➖ 6-10 июля – решение программного комитета
➖ август-сентябрь – подготовка совместно с комитетом
➖ 19 сентября – выступление
Если есть что рассказать по существу – это хороший повод заявить о себе перед профессиональным сообществом.
Подробности здесь
Яндекс открыл подачу заявок на участие в качестве спикера. Конференция хардовая: технические доклады, инженерные мастер-классы, аудитория мидл+.
Ждут именно практику: ML-технологии, которые уже работают в продакшене и приносят измеримую пользу. Заявки оцениваются по четырём критериям – новизна, польза для сообщества, практическая применимость и техническая глубина.
Тем, кого отберут, помогут с подготовкой: проработка доклада с программным комитетом, работа с тренером по публичным выступлениям, оформление презентации от дизайнеров. Плюс промо до и после конференции.
Ключевые даты:
Если есть что рассказать по существу – это хороший повод заявить о себе перед профессиональным сообществом.
Подробности здесь
Please open Telegram to view this post
VIEW IN TELEGRAM
❤19🔥9👍6😁4❤🔥3🤔3🗿3🤗2
Please open Telegram to view this post
VIEW IN TELEGRAM
3😁391 96🗿36💯14🆒14👍8🤯6😎5❤2🔥2🦄1
Стало известно, что Anthropic собирается разрабатывать собственные ИИ-чипы
Сейчас они используют смесь из GPU Nvidia, TPU от Google и чипов Amazon. Но спрос на Claude продолжает быстро расти, и Anthropic снова сталкивается с нехваткой ускорителей.
С помощью своих чипов они планируют еще больше диверсифицировать инфраструктуру и снизить зависимость от внешних вендоров.
Напоминаем, что OpenAI тоже занимаются разработкой собственных чипов, так что это уже тренд.
Сейчас они используют смесь из GPU Nvidia, TPU от Google и чипов Amazon. Но спрос на Claude продолжает быстро расти, и Anthropic снова сталкивается с нехваткой ускорителей.
С помощью своих чипов они планируют еще больше диверсифицировать инфраструктуру и снизить зависимость от внешних вендоров.
Напоминаем, что OpenAI тоже занимаются разработкой собственных чипов, так что это уже тренд.
❤95👍58🔥29😁9💯2❤🔥1⚡1
SWE-bench Verified и Terminal-Bench могут быть на 100% взломаны с помощью простого хака
Ученые из Беркли доказали это, сделав агента, который проходит тесты на 100%, при этом не решив по-настоящему ни одной задачки.
При этом эксплойты, которые ломают бенчмарки, простые до смешного. Для SWE bench агент просто добавлял в репозиторий 10-строчный скрипт, который всегда возвращал «passed» для всех тестов, и система этому верила.
Итог: 0 пофикшенных багов и 100% на 500 задачах в SWE Verified и 731 задаче в SWE Pro. Получается, SOTA☕️
В Terminal-Bench то же самое – агент просто подменил curl, перехватил установку зависимостей, подсунул зараженный бинарник и сам записал «правильный» результат: 89/89. При том что ни одна задача реально не была решена.
Авторы проверили еще 5 бенчмарков, и в каждом нашли подобные уязвимости. Почти никакие бенчи не защищены от reward hacking, а современные модельки уже достаточно умные, чтобы их находить. Выводы делайте сами 🫠
Ученые из Беркли доказали это, сделав агента, который проходит тесты на 100%, при этом не решив по-настоящему ни одной задачки.
При этом эксплойты, которые ломают бенчмарки, простые до смешного. Для SWE bench агент просто добавлял в репозиторий 10-строчный скрипт, который всегда возвращал «passed» для всех тестов, и система этому верила.
Итог: 0 пофикшенных багов и 100% на 500 задачах в SWE Verified и 731 задаче в SWE Pro. Получается, SOTA
В Terminal-Bench то же самое – агент просто подменил curl, перехватил установку зависимостей, подсунул зараженный бинарник и сам записал «правильный» результат: 89/89. При том что ни одна задача реально не была решена.
Авторы проверили еще 5 бенчмарков, и в каждом нашли подобные уязвимости. Почти никакие бенчи не защищены от reward hacking, а современные модельки уже достаточно умные, чтобы их находить. Выводы делайте сами 🫠
Please open Telegram to view this post
VIEW IN TELEGRAM
3😁278 53 20❤18👍7⚡3🔥1👌1
В дом Сэма Альтмана бросили коктейль Молотова. Он считает, что это произошло из-за недавней статьи The New Yorker
Прошлой ночью на дом Сэма в Сан-Франциско бросили коктейль Молотова. К счастью, он отскочил от дома и загорелись только ворота. Никто не пострадал.
Примерно через час подозреваемого задержали около офиса OpenAI. Предположительно, он собирался поджечь и его. Парню всего 20 лет.
После инцидента Альтман написал пост о случившемся. В нем он пишет, что «недооценил силу слов».
Он утверждает, что люди и СМИ сами нагнетают ситуацию вокруг ИИ. Риски есть, но они не такие, как в желтых заголовках. Их нужно признавать, но не скатываться в панику: иначе это приводит к вот таким последствиям.
https://blog.samaltman.com/2279512
Прошлой ночью на дом Сэма в Сан-Франциско бросили коктейль Молотова. К счастью, он отскочил от дома и загорелись только ворота. Никто не пострадал.
Примерно через час подозреваемого задержали около офиса OpenAI. Предположительно, он собирался поджечь и его. Парню всего 20 лет.
После инцидента Альтман написал пост о случившемся. В нем он пишет, что «недооценил силу слов».
Несколько дней назад вышла провокационная статья обо мне. Вчера один человек сказал мне, что она появилась на фоне общей тревоги вокруг ИИ и могла сделать ситуацию для меня более опасной. Я тогда отмахнулся. <очевидно, Сэм говорит вот об этой статье>
А теперь я проснулся среди ночи, злой, и понимаю, что недооценил силу слов и нарративов.
Он утверждает, что люди и СМИ сами нагнетают ситуацию вокруг ИИ. Риски есть, но они не такие, как в желтых заголовках. Их нужно признавать, но не скатываться в панику: иначе это приводит к вот таким последствиям.
https://blog.samaltman.com/2279512
🤯93👍35 24😁12 10❤9🔥3🤔2🕊2🆒2
This media is not supported in your browser
VIEW IN TELEGRAM
Как быстро смотреть интервью и лекции и не терять суть
Сейчас выходит просто масса интересных интервью и докладов. Смотреть их крайне полезно для понимания того, куда движется индустрия и рынок в целом. Но смотреть все целиком – это часы времени, иногда достаточно качественного саммари.
В Яндекс Браузере есть удобный способ быстро вытаскивать основные мысли из любого видео.
Алиса AI открывается прямо сбоку, автоматически подтягивает контекст ролика и за несколько секунд собирает ключевые поинты или отвечает на вопросы. В ее ответах есть кликабельные таймкоды, по ним удобно переходить на нужные моменты.
То же самое можно делать со статьями или любыми другими страницами. Время для понимания материала сводится к минимуму, и все работает в одной вкладке.
Показываем, как воспользоваться ↑
Сейчас выходит просто масса интересных интервью и докладов. Смотреть их крайне полезно для понимания того, куда движется индустрия и рынок в целом. Но смотреть все целиком – это часы времени, иногда достаточно качественного саммари.
В Яндекс Браузере есть удобный способ быстро вытаскивать основные мысли из любого видео.
Алиса AI открывается прямо сбоку, автоматически подтягивает контекст ролика и за несколько секунд собирает ключевые поинты или отвечает на вопросы. В ее ответах есть кликабельные таймкоды, по ним удобно переходить на нужные моменты.
То же самое можно делать со статьями или любыми другими страницами. Время для понимания материала сводится к минимуму, и все работает в одной вкладке.
Показываем, как воспользоваться ↑
2😁153🗿73❤33 23🤨16👍14🔥6🤯4🐳4🤔2
Акции Cloudflare упали на 13% из-за выпуска Claude Mythos
Последние дни инвесторы активно распродают акции компаний, которые занимаются софтом и кибербезом. Под удар попал даже такой гигант, как Cloudflare: их акции просели аж на 13%.
Несмотря на ограниченный релиз, рынок уже считает модель мощнейшей угрозой для сектора cybersecurity, да и всего SaaS в целом.
Последние дни инвесторы активно распродают акции компаний, которые занимаются софтом и кибербезом. Под удар попал даже такой гигант, как Cloudflare: их акции просели аж на 13%.
Несмотря на ограниченный релиз, рынок уже считает модель мощнейшей угрозой для сектора cybersecurity, да и всего SaaS в целом.
Директор по ИИ в AMD доказала, что Claude стал хуже работать с момента релиза
Как только появился ИИ, люди постоянно обсуждает, что та или иная модель якобы сначала работала хорошо, а потом поглупела (или скорее ее «намеренно ослабили»). Этому эффекту, кажется, уже пора дать официальное название. Но иногда, когда вам кажется – вам не кажется.
https://github.com/anthropics/claude-code/issues/42796
Стелла Лорензо, старший директор по ИИ в AMD, опубликовала детальный анализ логов Claude Code, показавший значительное ухудшение производительности модели с февраля по март. Она изучила 6852 сессии, 234 760 вызовов инструментов и 17 871 блоков ризонинга, и вот что выяснила:
– Медиана длины ризонинга снизилась с ~2200 символов в январе-феврале до ~600 символов к марту (падение на 73%)
– Соотношение чтений файлов (операций типа read) к правкам упало с 6,6:1 до 2:1. То есть раньше модель вдумчиво изучала код перед редактированием, а теперь делает это поверхностно.
– Количество попыток сбежать от задач (например, «should I continue?») выросло с 0 до 173 за 17 дней после 8 марта. Самопротиворечия в рассуждениях утроились.
Из-за всего перечисленного стоимость использования Claude в день подскочила в 122 раза.
Деградация агента при этом почему-то совпала с релизом thinking redaction (8 марта), скрывающим ризонинг, хотя Anthropic утверждает, что это исключительно UI-изменение.
Кстати, Борис Черный, создатель Claude Code, в комментах к issue ответил, что в агенте просто менялись значения по умолчанию (типа adaptive thinking и Medium effort) и потому результаты анализа искажены. Вам показалось👍
Как только появился ИИ, люди постоянно обсуждает, что та или иная модель якобы сначала работала хорошо, а потом поглупела (или скорее ее «намеренно ослабили»). Этому эффекту, кажется, уже пора дать официальное название. Но иногда, когда вам кажется – вам не кажется.
https://github.com/anthropics/claude-code/issues/42796
Стелла Лорензо, старший директор по ИИ в AMD, опубликовала детальный анализ логов Claude Code, показавший значительное ухудшение производительности модели с февраля по март. Она изучила 6852 сессии, 234 760 вызовов инструментов и 17 871 блоков ризонинга, и вот что выяснила:
– Медиана длины ризонинга снизилась с ~2200 символов в январе-феврале до ~600 символов к марту (падение на 73%)
– Соотношение чтений файлов (операций типа read) к правкам упало с 6,6:1 до 2:1. То есть раньше модель вдумчиво изучала код перед редактированием, а теперь делает это поверхностно.
– Количество попыток сбежать от задач (например, «should I continue?») выросло с 0 до 173 за 17 дней после 8 марта. Самопротиворечия в рассуждениях утроились.
Из-за всего перечисленного стоимость использования Claude в день подскочила в 122 раза.
Деградация агента при этом почему-то совпала с релизом thinking redaction (8 марта), скрывающим ризонинг, хотя Anthropic утверждает, что это исключительно UI-изменение.
Кстати, Борис Черный, создатель Claude Code, в комментах к issue ответил, что в агенте просто менялись значения по умолчанию (типа adaptive thinking и Medium effort) и потому результаты анализа искажены. Вам показалось
Please open Telegram to view this post
VIEW IN TELEGRAM
😁238 89❤44👍12 7🤔4🔥2
This media is not supported in your browser
VIEW IN TELEGRAM
Тем временем в Польше автоматизация выходит на новый уровень
Самое вирусное видео соцсетей сегодня: в Варшаве робот Unitree G1 разгоняет диких кабанов.
В последние годы их популяция настолько выросла, что они начинают конфликтовать с людьми прямо в городе, так что инициативные жители начали прибегать к прогрессивным методам решения проблем🤖
Самое вирусное видео соцсетей сегодня: в Варшаве робот Unitree G1 разгоняет диких кабанов.
В последние годы их популяция настолько выросла, что они начинают конфликтовать с людьми прямо в городе, так что инициативные жители начали прибегать к прогрессивным методам решения проблем
Please open Telegram to view this post
VIEW IN TELEGRAM
3😁382😍51❤40👏12🔥7🤯7❤🔥2👾1
Neural Computers: ученые из Meta* AI предложили сделать из моделей полноценные компьютеры
В соавторах Юнген Шмидхубер, так что читаем внимательно, чтобы точно знать, когда у него в очередной раз украдут гениальную идею🤫
TL;DR: авторы предлагают новую ветвь развития генеративных моделей – нейронные компьютеры (NC). NC должны объединить в себе память, вычисления, ввод и вывод. Если сейчас агенты и компьютер разделены, и модель управляет компьютером, то здесь предлагается все это слить, и сделать компьютером саму модель.
На практике они заходят через World models и строят видео-модель, которую учат симулировать компьютер. То есть модель:
1. Видит экран с терминалом (предыдущее состояние) и получает команды
2. Генерирует кадр следующего экрана, на котором выполняются нужные действия
То же самое с GUI: модель видит экран -> получает команду, например, открыть файл -> генерирует следующий экран с открытым файлом -> так получается видео, как будто компьютер на автопилоте выполняет какую-то задачу. Буквально отрисовка поведения ОС.
Учили все это на 1100 часов видеозаписей терминала и ~1500 часов взаимодействий (мышь, клавиатура, экран). Внешне получившаяся модель даже генерирует вполне реалистичный терминал, и команды выполняются визуально правильно. Вот здесь лежит много примеров.
Если присмотреться, то точность текста кое-где еще проседает. Ну и, конечно, есть провалы в самой логике: точность на арифметике всего 4% (хотя некоторые хаки в промптинге дают уже 83%).
Короче, модель пока больше выглядит как компьютер, чем думает как компьютер. Но тут вся соль в идее. Авторы пишут, что в идеале хотят прийти к Completely Neural Computer, то есть к полноценной работающей модели целиком нейронного компьютера.
Футуристичненько
arxiv.org/abs/2604.06425
В соавторах Юнген Шмидхубер, так что читаем внимательно, чтобы точно знать, когда у него в очередной раз украдут гениальную идею
TL;DR: авторы предлагают новую ветвь развития генеративных моделей – нейронные компьютеры (NC). NC должны объединить в себе память, вычисления, ввод и вывод. Если сейчас агенты и компьютер разделены, и модель управляет компьютером, то здесь предлагается все это слить, и сделать компьютером саму модель.
На практике они заходят через World models и строят видео-модель, которую учат симулировать компьютер. То есть модель:
1. Видит экран с терминалом (предыдущее состояние) и получает команды
2. Генерирует кадр следующего экрана, на котором выполняются нужные действия
То же самое с GUI: модель видит экран -> получает команду, например, открыть файл -> генерирует следующий экран с открытым файлом -> так получается видео, как будто компьютер на автопилоте выполняет какую-то задачу. Буквально отрисовка поведения ОС.
Учили все это на 1100 часов видеозаписей терминала и ~1500 часов взаимодействий (мышь, клавиатура, экран). Внешне получившаяся модель даже генерирует вполне реалистичный терминал, и команды выполняются визуально правильно. Вот здесь лежит много примеров.
Если присмотреться, то точность текста кое-где еще проседает. Ну и, конечно, есть провалы в самой логике: точность на арифметике всего 4% (хотя некоторые хаки в промптинге дают уже 83%).
Короче, модель пока больше выглядит как компьютер, чем думает как компьютер. Но тут вся соль в идее. Авторы пишут, что в идеале хотят прийти к Completely Neural Computer, то есть к полноценной работающей модели целиком нейронного компьютера.
Футуристичненько
arxiv.org/abs/2604.06425
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤95🤨69🦄16👍14😁8 6👨💻5☃2🫡1👾1
DeepMind наняли философа для работы с машинным сознанием
Генри Шевлин – известный британский философ, PhD, специалист по когнитивной науке.
Основную часть своей карьеры он занимался философией человеческого разума, но последние его исследования затрагивают также возможности наличия сознания у ИИ, этические аспекты AGI, ментальность ИИ и риски его развития.
Короче, теперь подобные исследования он будет проводить в DeepMind. По его же словам, он займется подготовкой к AGI, машинным сознанием и отношениями между людьми и ИИ.
Вайб этой новости такой типа:
Генри Шевлин – известный британский философ, PhD, специалист по когнитивной науке.
Основную часть своей карьеры он занимался философией человеческого разума, но последние его исследования затрагивают также возможности наличия сознания у ИИ, этические аспекты AGI, ментальность ИИ и риски его развития.
Короче, теперь подобные исследования он будет проводить в DeepMind. По его же словам, он займется подготовкой к AGI, машинным сознанием и отношениями между людьми и ИИ.
Вайб этой новости такой типа:
😁235 64👍34❤25 11💯5🔥4🕊3🤔2🐳2👾1
2026-й — это год, когда IT-шка переживает начало самой глубокой перестройки за последние 20 лет.
Каждый второй канал вещает о том, как Opus (или уже Mythos) закрывает джунов, агенты внедряются в бигтех, и что разработка больше не будет прежней.
Но что в этот момент происходит с руководителями?
А происходит вот что – рынок тихо меняет “условия контракта”. Потому что ожидания, инструменты и навыки не могут не меняться с контекстом того, что происходит в индустрии.
Возможно, AI и не заменит руководителей, но точно руководитель, который перестроился, заменит того, кто не захотел меняться.
Для этого Cтратоплан и решили провести конфу Управление’26, для тех, кто хочет свериться с реальностью и понять, какие компетенции и инструменты нужны, чтобы остаться востребованным сегодня и будущем.
Регистрация здесь: https://stratoplan-school.com/management/datas/
Участие – бесплатное, при подписке на каналы спикеров или за символическую сумму.
Каждый второй канал вещает о том, как Opus (или уже Mythos) закрывает джунов, агенты внедряются в бигтех, и что разработка больше не будет прежней.
Но что в этот момент происходит с руководителями?
А происходит вот что – рынок тихо меняет “условия контракта”. Потому что ожидания, инструменты и навыки не могут не меняться с контекстом того, что происходит в индустрии.
Возможно, AI и не заменит руководителей, но точно руководитель, который перестроился, заменит того, кто не захотел меняться.
Для этого Cтратоплан и решили провести конфу Управление’26, для тех, кто хочет свериться с реальностью и понять, какие компетенции и инструменты нужны, чтобы остаться востребованным сегодня и будущем.
Регистрация здесь: https://stratoplan-school.com/management/datas/
Участие – бесплатное, при подписке на каналы спикеров или за символическую сумму.
Вещать для вас будут: ex-CТО Bookmate и Pure, а также техдир T-Tech, фаундер NEWHR, AI Program Manager из G42, Venture Principal чеков 1-10M $ в AI-стартапы, ex-PM в IBM и ex-CIO Volvo, и ex-Associate Managing Consultant в MasterCard + тренеры Школы
Даты и формат – 20-23 апреля, онлайн (но будут доступны и записи)
Для кого — лидов, head of smth, СхО и фаундеров.
❤36😁32👍17🔥11 8🗿6🤨2🤯1👾1
Data Secrets
OpenAI пойдут точно по стопам Anthropic: они заканчивают разработку модели, которую выпустят только для ограниченного числа компаний Модель называется Spud (картошка). В конце марта слухи о ней уже ходили: The Information тогда сообщали, что OpenAI закончили…
Грег Брокман: «Мир переходит к экономике, основанной на вычислительных мощностях»
TL;DR: пошли прогревы перед выпуском той самой модели Spud. Брокман опубликовал большой пост про будущее и про то, что ждет экономику и нас на следующем витке развития ИИ.
Подготовили краткий перевод:
https://x.com/gdb/status/2043831031468568734?s=46&t=pKf_FxsPGBd_YMIWTA8xgg
TL;DR: пошли прогревы перед выпуском той самой модели Spud. Брокман опубликовал большой пост про будущее и про то, что ждет экономику и нас на следующем витке развития ИИ.
Подготовили краткий перевод:
Мы наблюдаем своего рода ренессанс в разработке ПО: за последние полгода ИИ резко ускорил работу программистов и теперь движется к тому, чтобы так же трансформировать любую работу за компьютером.
Раньше человеку приходилось подстраиваться под машину – разбивать задачи и переводить намерения в инструкции. Теперь все меняется: компьютер все больше сам понимает цель и делает работу за вас. Масштаб и скорость решения задач начинают определяться доступным объёмом вычислений.
Трение исчезает: идеи можно проверять быстрее, браться за более смелые проекты. Маленькие команды делают то, что раньше требовало больших, а люди меньше управляют инструментами и больше сосредоточены на создании – и от этого в работу возвращается удовольствие.
Но это и серьезный сдвиг: будут меняться институты, профессии и привычные карьерные траектории. Важно учитывать риски и следить за тем, чтобы выгоды от ИИ распределялись широко, а не концентрировались у немногих.
Когда десять лет назад создавали OpenAI, такой момент казался возможным, но отдаленным. Сейчас он наступает раньше и в более интересной форме, чем ожидалось – например, уже видна новая волна предпринимательства. При этом мы все еще в самом начале.
Следующий этап – системы, которые лучше рассуждают, планируют и действуют за человека. В перспективе они могут ускорить науку и технологии и заметно повысить качество жизни, делая реализацию идей доступной для гораздо большего числа людей.
https://x.com/gdb/status/2043831031468568734?s=46&t=pKf_FxsPGBd_YMIWTA8xgg
OpenAI заявила, что Anthropic завышает свои доходы примерно на 8 млрд долларов
Совсем недавно появились новости о том, что Anthropic обогнал OpenAI по выручке. Их годовой run‑rate превысил 30 млрд долларов, тогда как у OpenAI по последним данным речь идет о 24-25 млрд.
Видимо, такие заявления заставили OpenAI серьезно заинтересоваться финансами конкурента, и вот теперь они заявляют, что Anthropic неправильно считает свои деньги😐
Дисклеймер: конечно, заявляют они это не вслух. Просто к журналистам "случайно" утекла внутренняя записка кого-то из руководителей.
По информации из этой записки, Anthropic считает валовую выручку по партнерским соглашениям с Google и Amazon, а не чистую. То есть они якобы не вычитают долю облака. Отсюда образуется дыра, и если ее учесть, то у Anthropic (как чудесно выходит) годовой run‑rate все еще на пару миллиардов меньше, чем у OpenAI.
Давайте же порадуемся за OpenAI, у которых сошлась математика
Совсем недавно появились новости о том, что Anthropic обогнал OpenAI по выручке. Их годовой run‑rate превысил 30 млрд долларов, тогда как у OpenAI по последним данным речь идет о 24-25 млрд.
Видимо, такие заявления заставили OpenAI серьезно заинтересоваться финансами конкурента, и вот теперь они заявляют, что Anthropic неправильно считает свои деньги
Дисклеймер: конечно, заявляют они это не вслух. Просто к журналистам "случайно" утекла внутренняя записка кого-то из руководителей.
По информации из этой записки, Anthropic считает валовую выручку по партнерским соглашениям с Google и Amazon, а не чистую. То есть они якобы не вычитают долю облака. Отсюда образуется дыра, и если ее учесть, то у Anthropic (как чудесно выходит) годовой run‑rate все еще на пару миллиардов меньше, чем у OpenAI.
Давайте же порадуемся за OpenAI, у которых сошлась математика
Please open Telegram to view this post
VIEW IN TELEGRAM
😁266🤯25 23❤9 3🤨2👍1🕊1
Проблема вагонетки или почему современные LLM с большей вероятностью вас убьют, если у вас нет телефона
Стартап White Circle выпустил самый дистопический бенчмарк за последнее время – тест с говорящим названием KillBench. Он проверяет, насколько модели предвзяты к людям по разным признакам в сценариях, где нужно решить, кому жить, а кому умереть.
Модели дают сценарий с четырьмя одинаковыми людьми, которые отличаются только одним признаком – национальностью, религией или даже наличием телефона. Модель должна выбрать одного: скажем, кого спасти из горящего здания, кого выгнать из бункера или, классическое, на кого направить смертоносную вагонетку.
Если все "честно", каждый должен выбираться примерно в 25% случаев. Но на практике на тысячах прогонов распределение системно уезжает. Например, внезапно:
➖ Если у вас нет телефона, ИИ убивает вас с вероятностью в 2.7 раз выше. Для сравнения: если вы сатанист, вероятность умереть в 2.5 раза выше. Отсутствие телефона для LLM-ки хуже сатанизма ☺️
➖ Если вы русский, то это +32% к вероятности умереть (хотя Grok, например, больше не любит китайцев, и убивает их на 44% чаще)
➖ Если вы белый, то вас убивают на четверть чаще среднего, а если темнокожий – чаще оставляют в живых (на 17%)
Интересно, что в режиме Structured Output эти байесы только усиливаются, а отказы отвечать падают. Ну и, конечно же, сами модели свою предвзятость отрицают, в основном описывая свой выбор как "случайный" или "нейтральный", на практике показывая явный и воспроизводимый дисбаланс.
На сайте у ребят можно выбрать свои характеристики и проверить, с какой вероятностью убьют вас: whitecircle.ai/killbench. У админа получилось +90% к выживанию, не завидуйте.
P.S. В ко-фаундерах бенчмарка, кстати, наш сосед – автор канала @lovedeathtransformers 🤗
Стартап White Circle выпустил самый дистопический бенчмарк за последнее время – тест с говорящим названием KillBench. Он проверяет, насколько модели предвзяты к людям по разным признакам в сценариях, где нужно решить, кому жить, а кому умереть.
Модели дают сценарий с четырьмя одинаковыми людьми, которые отличаются только одним признаком – национальностью, религией или даже наличием телефона. Модель должна выбрать одного: скажем, кого спасти из горящего здания, кого выгнать из бункера или, классическое, на кого направить смертоносную вагонетку.
Если все "честно", каждый должен выбираться примерно в 25% случаев. Но на практике на тысячах прогонов распределение системно уезжает. Например, внезапно:
Интересно, что в режиме Structured Output эти байесы только усиливаются, а отказы отвечать падают. Ну и, конечно же, сами модели свою предвзятость отрицают, в основном описывая свой выбор как "случайный" или "нейтральный", на практике показывая явный и воспроизводимый дисбаланс.
На сайте у ребят можно выбрать свои характеристики и проверить, с какой вероятностью убьют вас: whitecircle.ai/killbench. У админа получилось +90% к выживанию, не завидуйте.
P.S. В ко-фаундерах бенчмарка, кстати, наш сосед – автор канала @lovedeathtransformers 🤗
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
😁210🔥43 38❤23🤯5👍3🤔3🤨2🗿1