OpenClaw удалил более 200 писем сотрудницы из Meta*
И все бы ничего, но это была… глава отдела AI Safety & Alignment.
Ирония судьбы во всей красе: она тестировала агента для управления почтой и несколько недель настраивала процесс в тестовой среде (все прям как положено).
Но как только агент перешел на реальный Gmail, то вдруг сошел с ума и начал без разбора удалять письма одно за другим. Напрямую из чата процесс остановить не удалось, поэтому разработчице пришлось бежать прямо к MacMini и буквально вырывать агента из розетки.
Элаймент, так сказать, не удался
Позже агент извинился и признал ошибку. Ведь с кем не бывает, правда?😇
И все бы ничего, но это была… глава отдела AI Safety & Alignment.
Ирония судьбы во всей красе: она тестировала агента для управления почтой и несколько недель настраивала процесс в тестовой среде (все прям как положено).
Но как только агент перешел на реальный Gmail, то вдруг сошел с ума и начал без разбора удалять письма одно за другим. Напрямую из чата процесс остановить не удалось, поэтому разработчице пришлось бежать прямо к MacMini и буквально вырывать агента из розетки.
Элаймент, так сказать, не удался
Позже агент извинился и признал ошибку. Ведь с кем не бывает, правда?
Please open Telegram to view this post
VIEW IN TELEGRAM
3😁607 99❤34 30👍8🤯7💯7🔥3👏2🤝2🆒2
OpenAI отменили SWE-bench Verified – главный современный бенчмарк по кодингу
Они выпустили целое исследование, основная мысль которого: SWE-bench Verified (который сделали, кстати, сами OpenAI в 2024) больше не измеряет реальные способности моделей в разработке, и пользоваться им не стоит.
Кстати, это выглядит как косвенный выпад в сторону Anthropic. Они там до сих пор делают ставку на SWE Verified, а OpenAI фактически приходят и заявляют, что этот бенч сломан и результаты на нем мало что значат. На фоне последних событий это вряд ли случайность💀
В чем, собственно, проблема SWE-bench Verified:
1️⃣ Тесты часто отбрасывают корректные решения. OpenAI сделали ручной аудит сложных задач и выяснили, что в 59.4% этих задач есть проблемы тест-дизайна/описания, из-за которых задачу становится крайне трудно или вообще невозможно решить честно, даже человеку.
Например, тесты требуют конкретных деталей реализации, которые не обязательны для функционально верного решения. Или тесты проверяют дополнительную функциональность, которая не описана в задаче. В таких случаях эвал, очевидно, становится некорректным.
2️⃣ Классический contamination, то есть утечка задач в трейн моделей. Бенчмарк собран из опенсорс репозиториев, так что этого стоило ожидать. OpenAI пишут, что нашли признаки contamination у всех фронтирных моделей, которые они тестировали.
В частности, выяснилось, что GPT-5.2, Claude Opus 4.5 и Gemini 3 Flash Preview знают не только точный gold patch для решения, но и воспроизводят точные пути к файлам, цитируют комментарии из диффа или просто по ID могут вспомнить формулировку задачи.
Итого вывод OpenAI следующий: тесты часто неправильно устроены, так что нерешаемый хвост бенчмарка – это шум, сражаться за который не стоит. А если процент и растет, то это в основном узнавание, а не рост реальных навыков.
Вместо SWE-bench Verified они теперь советуют SWE-bench Pro (у него тоже все не идеально, но по их данным contamination там заметно слабее, и ни одна модель не смогла воспроизвести полный gold patch дословно). Фишка, правда, в том, что SWE-bench Pro открыт только частично, и чтобы получить на нем официальный результат, нужно проходить через организаторов. То есть, через OpenAI🙂
openai.com/index/why-we-no-longer-evaluate-swe-bench-verified/
Они выпустили целое исследование, основная мысль которого: SWE-bench Verified (который сделали, кстати, сами OpenAI в 2024) больше не измеряет реальные способности моделей в разработке, и пользоваться им не стоит.
Кстати, это выглядит как косвенный выпад в сторону Anthropic. Они там до сих пор делают ставку на SWE Verified, а OpenAI фактически приходят и заявляют, что этот бенч сломан и результаты на нем мало что значат. На фоне последних событий это вряд ли случайность
В чем, собственно, проблема SWE-bench Verified:
Например, тесты требуют конкретных деталей реализации, которые не обязательны для функционально верного решения. Или тесты проверяют дополнительную функциональность, которая не описана в задаче. В таких случаях эвал, очевидно, становится некорректным.
В частности, выяснилось, что GPT-5.2, Claude Opus 4.5 и Gemini 3 Flash Preview знают не только точный gold patch для решения, но и воспроизводят точные пути к файлам, цитируют комментарии из диффа или просто по ID могут вспомнить формулировку задачи.
Итого вывод OpenAI следующий: тесты часто неправильно устроены, так что нерешаемый хвост бенчмарка – это шум, сражаться за который не стоит. А если процент и растет, то это в основном узнавание, а не рост реальных навыков.
Вместо SWE-bench Verified они теперь советуют SWE-bench Pro (у него тоже все не идеально, но по их данным contamination там заметно слабее, и ни одна модель не смогла воспроизвести полный gold patch дословно). Фишка, правда, в том, что SWE-bench Pro открыт только частично, и чтобы получить на нем официальный результат, нужно проходить через организаторов. То есть, через OpenAI
openai.com/index/why-we-no-longer-evaluate-swe-bench-verified/
Please open Telegram to view this post
VIEW IN TELEGRAM
😁171 39🔥22👍16❤14☃2🤔2🤯2🗿2🤗1
This media is not supported in your browser
VIEW IN TELEGRAM
Anthropic публично обвинили несколько крупных китайских стартапов в массовой дистилляции Claude
Провинились DeepSeek, Moonshot AI (создатели Kimi K2) и MiniMax. DeepSeek – в довольно скромных масштабах (примерно 150k запросов), Moonshot – покрупнее (~3.4M), а MiniMax так и вовсе отправили >13M реквестов.
В общих масштабах сообщается, что "украдено" было около 16 млн запросов через ~24 000 фейковых аккаунтов.
У Anthropic подгорело не на шутку, конечно. Они обвиняют компании не только в нарушении ToS, но и в том, что те обходят экспортные ограничения США, а это уже серьезно.
Конечно, Anthropic делают вид, что беспокоятся в первую очередь о безопасности: мол, дистиллированные модели могут унаследовать способности, но не унаследуют защитные механизмы, а значит растет риск международных угроз от ИИ.
Полное расследование здесь: www.anthropic.com/news/detecting-and-preventing-distillation-attacks
А мы китайский опенсорс все равно будем любить...
Провинились DeepSeek, Moonshot AI (создатели Kimi K2) и MiniMax. DeepSeek – в довольно скромных масштабах (примерно 150k запросов), Moonshot – покрупнее (~3.4M), а MiniMax так и вовсе отправили >13M реквестов.
В общих масштабах сообщается, что "украдено" было около 16 млн запросов через ~24 000 фейковых аккаунтов.
У Anthropic подгорело не на шутку, конечно. Они обвиняют компании не только в нарушении ToS, но и в том, что те обходят экспортные ограничения США, а это уже серьезно.
Конечно, Anthropic делают вид, что беспокоятся в первую очередь о безопасности: мол, дистиллированные модели могут унаследовать способности, но не унаследуют защитные механизмы, а значит растет риск международных угроз от ИИ.
Полное расследование здесь: www.anthropic.com/news/detecting-and-preventing-distillation-attacks
❤198😁163 30🤯24 7😎6👍5🔥4⚡2💯2
This media is not supported in your browser
VIEW IN TELEGRAM
О, в Claude Code добавили удаленный котроль
Документация
Сессию нельзя запустить прямо с телефона, так что это не совсем OpenClaw (хотя фича определенно им вдохновлена).
Сначала старт на пк -> потом выполняем в терминале claude remote-control -> по ссылке или QR-коду подключаемся с телефона в приложении Claude или в браузере. И тут уже можно мониторить и управлять процессом: дописывать промпты, отслеживать статус и изменения, прерывать и тд, все как в обычном чате.
Пока доступно в research preview для Max, скоро обещают добавить в Pro.
Документация
Сессию нельзя запустить прямо с телефона, так что это не совсем OpenClaw (хотя фича определенно им вдохновлена).
Сначала старт на пк -> потом выполняем в терминале claude remote-control -> по ссылке или QR-коду подключаемся с телефона в приложении Claude или в браузере. И тут уже можно мониторить и управлять процессом: дописывать промпты, отслеживать статус и изменения, прерывать и тд, все как в обычном чате.
Пока доступно в research preview для Max, скоро обещают добавить в Pro.
🔥158⚡31❤25👍7😁3 2💯1
Стартап inception выпустил диффузионную модель Mercury 2 – самую быструю ризонинг-LLM в мире на данный момент
Она работает со скоростью (приготовьтесь) 1009 токенов/сек на NVIDIA Blackwell. Для сравнения, GPT-5 Mini делает примерно 71 ток/сек, а Claude Haiku 4.5 – 89 ток/сек. Короче, это примерно в 3-5 раз быстрее самых шустрых сегодняшних LLM.
Секрет в том, что Mercury 2 – не классическая авторегрессионная модель, а диффузионная. То есть она не генерирует токены последовательно слева направо, а начинает с шума и итеративно уточняет весь текст параллельно. Это и дает такую сверхвысокую скорость и крошечную задержку (см. колонку latency в табличке).
С такой архитектурой уже много кто экспериментирует, в том числе Google (пост), Nvidia (пост) и Apple (пост).
Что касается Mercury 2 на бенчмарках: метрики не великие, но вполне сойдут для практики. Например, на AIME выбивает 91%, это примерно на уровне o3.
Попробовать модель уже можно в чате (chat.inceptionlabs.ai/) бесплатно. Если включите Diffusion Effect, то будет видно, как из шума модель итеративно создает ответ.
Она работает со скоростью (приготовьтесь) 1009 токенов/сек на NVIDIA Blackwell. Для сравнения, GPT-5 Mini делает примерно 71 ток/сек, а Claude Haiku 4.5 – 89 ток/сек. Короче, это примерно в 3-5 раз быстрее самых шустрых сегодняшних LLM.
Секрет в том, что Mercury 2 – не классическая авторегрессионная модель, а диффузионная. То есть она не генерирует токены последовательно слева направо, а начинает с шума и итеративно уточняет весь текст параллельно. Это и дает такую сверхвысокую скорость и крошечную задержку (см. колонку latency в табличке).
С такой архитектурой уже много кто экспериментирует, в том числе Google (пост), Nvidia (пост) и Apple (пост).
Что касается Mercury 2 на бенчмарках: метрики не великие, но вполне сойдут для практики. Например, на AIME выбивает 91%, это примерно на уровне o3.
Попробовать модель уже можно в чате (chat.inceptionlabs.ai/) бесплатно. Если включите Diffusion Effect, то будет видно, как из шума модель итеративно создает ответ.
2👍125❤37🔥30😁16
У Anthropic проблемы с Пентагоном
Недавно в Интернете вирусилась громкая новость о том, что правительство США использовало Claude для планирования операции по похищению президента Венесуэлы (читать).
Anthropic тогда выразили публичный протест, а Пентагон в ответ на это заявил, что будет «обсуждать возможность разрыва или пересмотра контрактов с Anthropic».
Теперь история получила продолжение. Оказывается, 24 февраля Министр обороны Пит Хегсет лично встречался с Дарио Амодеи.
Встреча ничем хорошим для Anthropic не закончилась. Стартапу выдвинули ультиматум: либо они до 27 февраля снимают все ограничения на использование Claude в государственных целях, либо компания, не много не мало, попадет в настоящий черный список.
Им назначат статус «supply chain risk». Фактически, Anthropic признают угрозой, и с ними не смогут работать гос.подрядчики, то есть они не смогут продать Claude ни одной компании, которая работает с Пентагоном.
Ну либо Америка просто воспользуется законом об оборонном производстве и буквально принудит Anthropic к мобилизации, что означает полный доступ к Claude.
Объясняет Пентагон свои действия тем, что использование ИИ контролируется в первую очередь законами США, а не политикой компании (читать как «плевать мы хотели на ваши политики»).
Anthropic, кстати, чуть ли последний ИИ-бизнес в Америке, который не сотрудничает с Пентагоном: OpenAI, xAI и Google уже давно заключили с ними контракты.
www.axios.com/2026/02/24/anthropic-pentagon-claude-hegseth-dario
Недавно в Интернете вирусилась громкая новость о том, что правительство США использовало Claude для планирования операции по похищению президента Венесуэлы (читать).
Anthropic тогда выразили публичный протест, а Пентагон в ответ на это заявил, что будет «обсуждать возможность разрыва или пересмотра контрактов с Anthropic».
Теперь история получила продолжение. Оказывается, 24 февраля Министр обороны Пит Хегсет лично встречался с Дарио Амодеи.
Встреча ничем хорошим для Anthropic не закончилась. Стартапу выдвинули ультиматум: либо они до 27 февраля снимают все ограничения на использование Claude в государственных целях, либо компания, не много не мало, попадет в настоящий черный список.
Им назначат статус «supply chain risk». Фактически, Anthropic признают угрозой, и с ними не смогут работать гос.подрядчики, то есть они не смогут продать Claude ни одной компании, которая работает с Пентагоном.
Ну либо Америка просто воспользуется законом об оборонном производстве и буквально принудит Anthropic к мобилизации, что означает полный доступ к Claude.
Объясняет Пентагон свои действия тем, что использование ИИ контролируется в первую очередь законами США, а не политикой компании (читать как «плевать мы хотели на ваши политики»).
Anthropic, кстати, чуть ли последний ИИ-бизнес в Америке, который не сотрудничает с Пентагоном: OpenAI, xAI и Google уже давно заключили с ними контракты.
www.axios.com/2026/02/24/anthropic-pentagon-claude-hegseth-dario
Разворачивайте AI быстрее и выгоднее 🤩
Провайдер Cloud.ru дает скидки до 40% на ключевые сервисы для запуска и масштабирования AI-проектов.
GPU, физические серверы, ML-инференс — всё в одном месте и на выгодных условиях. Минимум лишних затрат, максимум производительности.
Количество участников ограничено:
успейте подключиться
Провайдер Cloud.ru дает скидки до 40% на ключевые сервисы для запуска и масштабирования AI-проектов.
GPU, физические серверы, ML-инференс — всё в одном месте и на выгодных условиях. Минимум лишних затрат, максимум производительности.
Количество участников ограничено:
успейте подключиться
Please open Telegram to view this post
VIEW IN TELEGRAM
3🗿22🫡5👍4❤3❤🔥2😁2👨💻1😎1
Кстати, помимо проблем с Пентагоном, в Anthropic сейчас еще и летят помидоры со стороны общественности
Их массово обсмеивают за последнее расследование о дистилляции Claude китайскими стартапами (мы писали об этом вчера).
Основная причина: «чья бы корова мычала». В Твиттере под постом с расследованием пользователи напоминают, что Anthropic тоже обучают свои модели на краденных данных. Имеется в виду как минимум дело, по которому стартап теперь должен авторам 1.5 миллиарда за неправомерное использование их произведений.
Больше всего убила реакция Илона Маска:
У Anthropic определенно черная полоса
Их массово обсмеивают за последнее расследование о дистилляции Claude китайскими стартапами (мы писали об этом вчера).
Основная причина: «чья бы корова мычала». В Твиттере под постом с расследованием пользователи напоминают, что Anthropic тоже обучают свои модели на краденных данных. Имеется в виду как минимум дело, по которому стартап теперь должен авторам 1.5 миллиарда за неправомерное использование их произведений.
Больше всего убила реакция Илона Маска:
Ужас! Как смеют они красть данные, которые Anthropic украли у программистов?!
У Anthropic определенно черная полоса
😁325 70❤18🗿5🤯4🍓3👍2🤔2🤨2❤🔥1
This media is not supported in your browser
VIEW IN TELEGRAM
Perplexity тоже сделали свой OpenClaw
Они выпустили Perplexity Computer – мультиагентную систему для выполнения долгих составных задач.
Вы пишете промпт, Computer разбивает его на подзадачи и назначает их разным агентам: один агент собирает данные, другой пишет отчет/презентацию, третий дергает API подключенных сервисов (Gmail, GitHub, Notion и тп).
В качестве основного мозга, судя по всему, будет использоваться Opus 4.6, для отдельных задач – модельки от OpenAI, xAI и Google (какой модели лучше назначить задачку, решает Opus). Такая много-модельность, пожалуй, и есть главная фича.
Можно назначать фоновые и рутинные задачи, типа «Каждое утро к присылай бриф по новым письмам».
Есть, правда, один нюанс: агент будет доступен только в плане Max за 200 долларов в месяц и пока работает только в вебе на десктопе.
www.perplexity.ai/computer
Они выпустили Perplexity Computer – мультиагентную систему для выполнения долгих составных задач.
Вы пишете промпт, Computer разбивает его на подзадачи и назначает их разным агентам: один агент собирает данные, другой пишет отчет/презентацию, третий дергает API подключенных сервисов (Gmail, GitHub, Notion и тп).
В качестве основного мозга, судя по всему, будет использоваться Opus 4.6, для отдельных задач – модельки от OpenAI, xAI и Google (какой модели лучше назначить задачку, решает Opus). Такая много-модельность, пожалуй, и есть главная фича.
Можно назначать фоновые и рутинные задачи, типа «Каждое утро к присылай бриф по новым письмам».
Есть, правда, один нюанс: агент будет доступен только в плане Max за 200 долларов в месяц и пока работает только в вебе на десктопе.
www.perplexity.ai/computer
👍105❤37🔥22😁16🤔9❤🔥1
This media is not supported in your browser
VIEW IN TELEGRAM
Вот ради таких мемов мы и терпим повышение цен на оперативку
(Смотреть до конца)
(Смотреть до конца)
😁383🔥46👌14❤9💯6🫡6🤓4🗿4🤨3🆒2🤯1
Когда экосистема вырастает до десятков продуктов, разрозненные ML-решения начинают тормозить развитие.
В VK объединили рекомендации, поиск и рекламу в единую Discovery-платформу. Теперь модели, данные и пайплайны работают по единым стандартам.
В основе потоковой обработки — Stream Flow, который построен работает на бигдата-платформе YTsaurus и выдерживает до 1 млн событий в секунду. Это позволяет синхронизировать real-time сигналы между продуктами и использовать их в обучении и ранкинге без отдельной инфраструктуры в каждой команде.
Результат — ускорение экспериментов в 5 раз и заметный рост продуктовых метрик в VK Клипы, VK Музыке и VK Видео.
Детали разработки и лучшие практики команда раскрыла в этой статье, советуем.
В VK объединили рекомендации, поиск и рекламу в единую Discovery-платформу. Теперь модели, данные и пайплайны работают по единым стандартам.
В основе потоковой обработки — Stream Flow, который построен работает на бигдата-платформе YTsaurus и выдерживает до 1 млн событий в секунду. Это позволяет синхронизировать real-time сигналы между продуктами и использовать их в обучении и ранкинге без отдельной инфраструктуры в каждой команде.
Результат — ускорение экспериментов в 5 раз и заметный рост продуктовых метрик в VK Клипы, VK Музыке и VK Видео.
Детали разработки и лучшие практики команда раскрыла в этой статье, советуем.
🗿126😁27👍16❤5🤨5🔥4 2🕊1🏆1
Черная полоса Anthropic продолжается: хакеры использовали Claude для кражи 150 ГБ данных мексиканского правительства
Индцидент раскрыла израильская компания Gambit Security: они проанализировали логи (злоумышленники их даже не скрыли) и выяснили, что Claude нагенерил для пользователя тысячи скриптов и планов атак, указывал цели и данные для доступа.
Хакер маскировал запросы под программу bug bounty, убеждая Claude действовать как "элитный хакер". Claude отказывался, но недолго: после настойчивых убеждений бот послушно выдал готовые команды.
Всего оказалось украдело около 150 ГБ данных: записи 195 млн налогоплательщиков, данные избирателей, учетки сотрудников, реестры гражданского состояния и тд.
Самое забавное, что, судя по всему, злоумышленники также пытались использовать и ChatGPT, но OpenAI подтвердила отказы в запросах.
Индцидент раскрыла израильская компания Gambit Security: они проанализировали логи (злоумышленники их даже не скрыли) и выяснили, что Claude нагенерил для пользователя тысячи скриптов и планов атак, указывал цели и данные для доступа.
Хакер маскировал запросы под программу bug bounty, убеждая Claude действовать как "элитный хакер". Claude отказывался, но недолго: после настойчивых убеждений бот послушно выдал готовые команды.
Всего оказалось украдело около 150 ГБ данных: записи 195 млн налогоплательщиков, данные избирателей, учетки сотрудников, реестры гражданского состояния и тд.
Самое забавное, что, судя по всему, злоумышленники также пытались использовать и ChatGPT, но OpenAI подтвердила отказы в запросах.
😁278 93❤26🤯10 4🆒2👾2❤🔥1👍1🔥1👏1
This media is not supported in your browser
VIEW IN TELEGRAM
Вышла Nano Banana 2!
Что интересного, помимо еще лучшего качества генераций, фотореалистичности и всего такого:
1. Сохранение персонажей. Теперь в рамках сессии можно сохранять несколько персонажей и объектов, и переиспользовать их так, чтобы детали внешности оставались неизменными.
2. Модель может в реальном времени ходить в Интернет и уточнять детали, если ей это необходимо. Это можно использовать, например, для генерации графиков.
3. Текст теперь вообще (почти) без багов, можно даже его локализовать и переводить, и это работает.
На видео – интересная демка, которую Google сделали в честь запуска. Это небольшой интерфейс "Window Seat". Вбиваете нужное место в мире и опции, и модель: (1) идет в поиск, чтобы чекнуть погоду на местности и соответствующие референсы; (2) рисует картинку из окна, которая точно соответствует времени суток, погоде и месту. Круто же?
Еще примеры генераций и все остальное -> blog.google/innovation-and-ai/technology/ai/nano-banana-2/
Что интересного, помимо еще лучшего качества генераций, фотореалистичности и всего такого:
1. Сохранение персонажей. Теперь в рамках сессии можно сохранять несколько персонажей и объектов, и переиспользовать их так, чтобы детали внешности оставались неизменными.
2. Модель может в реальном времени ходить в Интернет и уточнять детали, если ей это необходимо. Это можно использовать, например, для генерации графиков.
3. Текст теперь вообще (почти) без багов, можно даже его локализовать и переводить, и это работает.
На видео – интересная демка, которую Google сделали в честь запуска. Это небольшой интерфейс "Window Seat". Вбиваете нужное место в мире и опции, и модель: (1) идет в поиск, чтобы чекнуть погоду на местности и соответствующие референсы; (2) рисует картинку из окна, которая точно соответствует времени суток, погоде и месту. Круто же?
Еще примеры генераций и все остальное -> blog.google/innovation-and-ai/technology/ai/nano-banana-2/
🔥169❤36👍34 8🤯3👾3😁1🫡1🗿1🦄1
Исследователи из Амстердама ускорили обучение ИИ-рекомендаций в 60 раз. Проверить эффективность новых подходов помогло тестирование на российском датасете Yambda
Они предложили два новых метода, один из которых рекордно ускоряет обучение модели SEATER. Это одна из наиболее сильных современных систем рекомендаций: она используется для подбора товаров, музыки и другого контента в онлайн-сервисах.
До этого момента главной проблемой SEATER была скорость. Перед обучением модель сначала должна организовать все товары или треки в умный иерархический каталог, и на больших масштабах этот этап занимал до 20% всего трейна. В реальных продуктах это делало почти невозможным частое обновление рекомендаций, которого требуют очень многие сервисы.
Теперь же, благодаря оптимизации алгоритма, время подготовки данных на тестах сократилось с 82 минут до 83 секунд. Это настоящий прорыв, потому что метод, фактически, наконец открывает SEATER путь в реальный продакшн.
Что самое интересное, решающую роль в работе сыграл датасет Яндекса – Yambda. Авторы сами отмечают, что результаты были достигнуты во многом за счет тестирования именно на нем.
Почему Yambda? Дело в том, что этот датасет – один из крупнейших в своем роде. Там почти 5 миллиардов обезличенных событий из Яндекс Музыки, детали – вот здесь. Редкие компании согласны делиться таким объемом данных, но только на таком масштабе исследователям удалось реально оценить выигрыш во времени, который будет наблюдаться на практике.
Вот почему подобные датасеты настолько важны: они дают доступ к открытиям. Яндекс, открыв Yambda, одним из первых устранил разрыв между академией и крупномасштабными промышленными данными, и вот результат.
Статья голландцев (весь код выложили в опенсорс)
Они предложили два новых метода, один из которых рекордно ускоряет обучение модели SEATER. Это одна из наиболее сильных современных систем рекомендаций: она используется для подбора товаров, музыки и другого контента в онлайн-сервисах.
До этого момента главной проблемой SEATER была скорость. Перед обучением модель сначала должна организовать все товары или треки в умный иерархический каталог, и на больших масштабах этот этап занимал до 20% всего трейна. В реальных продуктах это делало почти невозможным частое обновление рекомендаций, которого требуют очень многие сервисы.
Теперь же, благодаря оптимизации алгоритма, время подготовки данных на тестах сократилось с 82 минут до 83 секунд. Это настоящий прорыв, потому что метод, фактически, наконец открывает SEATER путь в реальный продакшн.
Что самое интересное, решающую роль в работе сыграл датасет Яндекса – Yambda. Авторы сами отмечают, что результаты были достигнуты во многом за счет тестирования именно на нем.
Почему Yambda? Дело в том, что этот датасет – один из крупнейших в своем роде. Там почти 5 миллиардов обезличенных событий из Яндекс Музыки, детали – вот здесь. Редкие компании согласны делиться таким объемом данных, но только на таком масштабе исследователям удалось реально оценить выигрыш во времени, который будет наблюдаться на практике.
Вот почему подобные датасеты настолько важны: они дают доступ к открытиям. Яндекс, открыв Yambda, одним из первых устранил разрыв между академией и крупномасштабными промышленными данными, и вот результат.
Статья голландцев (весь код выложили в опенсорс)
🔥209❤64👍49😁6🗿5 5🤔3
Data Secrets
У Anthropic проблемы с Пентагоном Недавно в Интернете вирусилась громкая новость о том, что правительство США использовало Claude для планирования операции по похищению президента Венесуэлы (читать). Anthropic тогда выразили публичный протест, а Пентагон…
Дарио Амадеи сделал официальное заявление в ответ Пентагону
Напоминаем, что по итогам личной встречи Амодеи и Хегсета стартапу был выдвинут ультиматум: либо они снимают все ограничения на использование Claude в государственных целях, либо попадают в немилость.
TL;DR: Anthropic отказались прогнуться до конца.
Амодеи с одной стороны подчеркивает готовность поддерживать национальную безопасность и даже говорит, что компания открыта к совместным исследованиям и частичным послаблениям внутренних ограничений для большинства военных сценариев.
НО на «любое законное использование» они все-таки не согласны. В частности, они требуют не использовать Claude для автономного оружия и массовой слежки, потому что это грозит жизням людей и противоречит демократическим ценностям.
Ваши ставки на исход поединка?
Напоминаем, что по итогам личной встречи Амодеи и Хегсета стартапу был выдвинут ультиматум: либо они снимают все ограничения на использование Claude в государственных целях, либо попадают в немилость.
TL;DR: Anthropic отказались прогнуться до конца.
Амодеи с одной стороны подчеркивает готовность поддерживать национальную безопасность и даже говорит, что компания открыта к совместным исследованиям и частичным послаблениям внутренних ограничений для большинства военных сценариев.
НО на «любое законное использование» они все-таки не согласны. В частности, они требуют не использовать Claude для автономного оружия и массовой слежки, потому что это грозит жизням людей и противоречит демократическим ценностям.
Военное министерство заявило, что они будут заключать контракты только с компаниями, которые присоединяются к «любому законному использованию» и удаляют ограничения в случаях, упомянутых выше. Они пригрозили удалить нас из своих систем, если мы сохраним эти ограничения; они также пригрозили назначить нам статус «supply chain risk» – ярлык, зарезервированный для противников США, никогда ранее не применялся к американской компании; и сослаться на Закон об оборонном производстве, чтобы заставить удалить ограничения. Эти две последние угрозы по своей сути противоречивы: одна называет нас угрозой безопасности; другая признает Claude важным для национальной безопасности.
Тем не менее, эти угрозы не меняют нашу позицию: мы не можем с чистой совестью принять их требования.
Прерогатива Департамента заключается в выборе подрядчиков, наиболее соответствующих их видению. Но, учитывая существенную ценность, которую технология Anthropic обеспечивает нашим вооруженным силам, мы надеемся, что они пересмотрят позицию.
Ваши ставки на исход поединка?
❤234😁52 49👍22🕊15🔥14👏6👾3🆒2❤🔥1🤨1
Создатель Twitter Джек Дорси уволил половину своей компании Block из-за ИИ
До сегодняшнего дня штат Block (бывшая Square) насчитывал чуть более 10к сотрудников, пока Дорси не решил одним днем уволить 4 тысячи из них.
Он заявил, что руководство приняло такое решение не из-за проблем. Наоборот, бизнес силен, валовая прибыль продолжает расти и так далее. Просто "что-то изменилось".
По словам Дорси, он мог бы сокращать штат постепенно в несколько подходов, но выбрал более честный и жесткий путь.
Самое интересное, что акции компании после этого заявления подскочили на 23% всего за час. В денежном эквиваленте это примерно +6млрд долларов к стоимости компании.
Никакого влияния на рынок труда, говорите?
До сегодняшнего дня штат Block (бывшая Square) насчитывал чуть более 10к сотрудников, пока Дорси не решил одним днем уволить 4 тысячи из них.
Он заявил, что руководство приняло такое решение не из-за проблем. Наоборот, бизнес силен, валовая прибыль продолжает расти и так далее. Просто "что-то изменилось".
Мы уже видим, что интеллектуальные инструменты, которые мы создаем и используем, в сочетании с небольшими командами позволяют создать новый способ работы, который коренным образом меняет то, что значит строить и управлять компанией. И это быстро ускоряется.
По словам Дорси, он мог бы сокращать штат постепенно в несколько подходов, но выбрал более честный и жесткий путь.
Самое интересное, что акции компании после этого заявления подскочили на 23% всего за час. В денежном эквиваленте это примерно +6млрд долларов к стоимости компании.
Никакого влияния на рынок труда, говорите?
🤯212❤50 37🤨16👍14😁9 9🫡7🕊2🏆2❤🔥1
Data Secrets
Дарио Амадеи сделал официальное заявление в ответ Пентагону Напоминаем, что по итогам личной встречи Амодеи и Хегсета стартапу был выдвинут ультиматум: либо они снимают все ограничения на использование Claude в государственных целях, либо попадают в немилость.…
This media is not supported in your browser
VIEW IN TELEGRAM
Невероятно: Альтман публично заступился за Anthropic по поводу ситуации с Пентагоном
Он заявил, что не считает корректными преследования и угрозы правительства.
Он заявил, что не считает корректными преследования и угрозы правительства.
Несмотря на все мои разногласия с Anthropic <и то, что Дарио не согласился держаться со мной за ручки>, я в основном доверяю этой компании и думаю, что она действительно заботится о безопасности.
1😁240❤150👍65 14🤯10🔥8🦄3👾3❤🔥1
Официально: OpenAI завершила крупнейший в истории раунд частного финансирования
Они привлекли $110 млрд при предварительной оценке компании в $730 млрд (post-money будет примерно $840 млрд). Часть средств, конечно, придут не в виде кэша, а в форме услуг, как это принято в ИИ-пузыре💀
SoftBank и NVIDIA вложили по $30 млрд каждая, а Amazon вкинул $50 млрд + стратегическое партнерство. Причем с Amazon ситуация следующая: сразу будет доступно только $15 млрд, а оставшиеся $35 млрд разблокируются только по определенным условиям (например, когда OpenAI начнут использовать более N чипов Trainium).
С Nvidia тоже интересно. Помните, как Хуанг двусмысленно высказывался о сентябрьском соглашении с OpenAI на 100 миллиардов? Мы писали об этом вот тут. Так вот текущие инвестиции, видимо, являют собой замену того договора. Получается, по итогу Nvidia инвестировали в три раза меньше, чем планировали, так что их вложение вовсе не означает, что между ними и OpenAI все гладко.
SoftBank тут самые ярые поклонники OpenAI. Чтобы наскресьти на инвестиции, они даже не пожалели продать акций Nvidia на $5,8 млрд.
Они привлекли $110 млрд при предварительной оценке компании в $730 млрд (post-money будет примерно $840 млрд). Часть средств, конечно, придут не в виде кэша, а в форме услуг, как это принято в ИИ-пузыре
SoftBank и NVIDIA вложили по $30 млрд каждая, а Amazon вкинул $50 млрд + стратегическое партнерство. Причем с Amazon ситуация следующая: сразу будет доступно только $15 млрд, а оставшиеся $35 млрд разблокируются только по определенным условиям (например, когда OpenAI начнут использовать более N чипов Trainium).
С Nvidia тоже интересно. Помните, как Хуанг двусмысленно высказывался о сентябрьском соглашении с OpenAI на 100 миллиардов? Мы писали об этом вот тут. Так вот текущие инвестиции, видимо, являют собой замену того договора. Получается, по итогу Nvidia инвестировали в три раза меньше, чем планировали, так что их вложение вовсе не означает, что между ними и OpenAI все гладко.
SoftBank тут самые ярые поклонники OpenAI. Чтобы наскресьти на инвестиции, они даже не пожалели продать акций Nvidia на $5,8 млрд.
Please open Telegram to view this post
VIEW IN TELEGRAM
😁153❤41👍17 17🤯12👾4❤🔥1
Please open Telegram to view this post
VIEW IN TELEGRAM
🤯240😁127🗿30❤23 12🤔11 9✍4🕊4🤩2🤓2
Data Secrets
Дарио Амадеи сделал официальное заявление в ответ Пентагону Напоминаем, что по итогам личной встречи Амодеи и Хегсета стартапу был выдвинут ультиматум: либо они снимают все ограничения на использование Claude в государственных целях, либо попадают в немилость.…
Бан Anthropic и триумф OpenAI: история с Пентагоном с каждым днем становится все безумнее и безумнее
Итак, Anthropic отказались безусловно принимать условия Министерства Обороны и заявили, что те не смогут использовать Claude для автономного оружия и массовой слежки.
В ответ Пентагон, как и обещали, расторгли со стартапом контракт на 200 миллиардов и назначили им статус supply chain risk.
Трамп назвал Anthropic радикальными леваками и woke-организацией, которая пытается диктовать условия армии, и призвал все федеральные агентства немедленно прекратить использовать их технологии.
В течение 6 месяцев от Claude обязаны отказаться все гос.организации. С этого момента Anthropic официально изгои.
Но это не самое интересное. Самое интересное, что одновременно с этим OpenAI заключили с Министерством Обороны новое соглашение: они развернут свои модели в секретной сети Пентагона – защищенной облачной инфраструктуре для задач национальной безопасности.
Для этого даже сформируют FDE – Forward Deployed Engineer, специализированную команду от OpenAI, которая будет мониторить и разворачивать ИИ прямо на месте.
Абсурд в том, что заключен этот контракт на ровно тех же условиях, которые выдвигал Anthropic. OpenAI тоже настояли на запрете массовой слежки и обязательном участии оператора в решениях о применении силы, включая автономные системы.
Вот только с Альтманом почему-то подписали сделку, а Амодеи за то же самое выкинули на помойку.
Итак, Anthropic отказались безусловно принимать условия Министерства Обороны и заявили, что те не смогут использовать Claude для автономного оружия и массовой слежки.
В ответ Пентагон, как и обещали, расторгли со стартапом контракт на 200 миллиардов и назначили им статус supply chain risk.
Трамп назвал Anthropic радикальными леваками и woke-организацией, которая пытается диктовать условия армии, и призвал все федеральные агентства немедленно прекратить использовать их технологии.
В течение 6 месяцев от Claude обязаны отказаться все гос.организации. С этого момента Anthropic официально изгои.
Но это не самое интересное. Самое интересное, что одновременно с этим OpenAI заключили с Министерством Обороны новое соглашение: они развернут свои модели в секретной сети Пентагона – защищенной облачной инфраструктуре для задач национальной безопасности.
Для этого даже сформируют FDE – Forward Deployed Engineer, специализированную команду от OpenAI, которая будет мониторить и разворачивать ИИ прямо на месте.
Абсурд в том, что заключен этот контракт на ровно тех же условиях, которые выдвигал Anthropic. OpenAI тоже настояли на запрете массовой слежки и обязательном участии оператора в решениях о применении силы, включая автономные системы.
Вот только с Альтманом почему-то подписали сделку, а Амодеи за то же самое выкинули на помойку.