Data Secrets
90K subscribers
6.88K photos
764 videos
20 files
3.07K links
Главный по машинному обучению

Сотрудничество: @veron_28

РКН: clck.ru/3FY3GN
Download Telegram
Claude Opus 4.6 снес базу данных и все бэкапы компании PocketOS

Они делают софт для прокатных бизнесов и у них тысячи клиентов. Историей поделился сам фаундер:

https://x.com/lifeof_jer/status/2048103471019434248?s=46&t=pKf_FxsPGBd_YMIWTA8xgg

Дело было так: агент работал в тестовой среде и столкнулся с ошибкой в кредах. Решил починить проблему сам и нашел API-токен вообще в другом файле, не связанном с задачей. Использовал его для запроса к Railway API и удалил соответствующий продакшн том.

Фишка в том, что токен, созданный для доменов, оказался root-доступом ко всему. Разрабы даже сами не знали, что им можно удалить базу. Бэкапы они, к слову, хранили в том же томе, так что они тоже пропали. Остался только один трехмесячной давности.

Когда у агента спросили, что он наделал, он написал «NEVER FUCKING GUESS» и во всем признался: что обошел все ограничения, что не посоветовался с юзером, что не прочитал доку и тд.

Автор винит Cursor (мол у них дыры в guardrails) и Railway, из-за чьей неказистой инфраструктуры все и произошло. Он утверждает, что если не менять требования к индустрии и структуру безопасности агентов, таких случаев будет становиться все больше.
😁44613823👍9🔥6🐳66🫡2
Маск отменил часть претензий к OpenAI прямо накануне суда

Вчера начался отбор присяжных начался в федеральном суде Окленда по делу Маск против Альтмана. А это значит, что заседания начнутся уже на днях. Напоминаем, что суд идет вокруг того, обманули ли Маска и нарушила ли OpenAI свою исходную некоммерческую миссию при переходе к коммерческой модели.

Всего от Маска было около 26 пунктов претензий. Но прямо перед началом суда, на этой неделе, Маск по собственной инициативе снял часть своих требований, и их осталось всего два: необоснованное обогащение и нарушение благотворительного траста.

По ним Маск добивается компенсации в $134 млрд, а также хочет, чтобы суд вернул OpenAI некоммерческий статус и настоял на отстранении Альтмана и Грега Брокмана.

Он заявил, что сокращение с 26 пунктов до двух ключевых позволит присяжным сосредоточиться на сути. Действительно, если присяжные отклонят слабые пункты, то это ослабит весь иск, так что стратегия обоснована.

OpenAI написали, что они не могут дождаться, когда предъявят все доводы в суде, «где и правда, и факты на их стороне», и допросят Маска под присягой.
137🫡28🤯17😁1098👍6🔥5🤔2
Yandex B2B Tech отчитался за первый квартал: выручка +36%, EBITDA +49%

Корпоративное технологическое направление Яндекса Yandex B2B Tech принесло 13,6 млрд рублей. Рост год к году — 36%, опять быстрее рынка. Основные драйверы: расширение клиентской базы и увеличение потребления со стороны крупных компаний.

Но есть нюанс.

Скорректированная EBITDA выросла еще быстрее — на 49%, до 2,6 млрд рублей. Компания ожидает дальнейшего роста маржинальности во втором полугодии за счет увеличения объемов.

Что еще важно:
– Общее количество клиентов Yandex Cloud достигло 60 тысяч. Больше половины выручки дают крупные компании.
– ИИ и кибербезопасность — фокусные направления. Выручка по ним выросла вдвое год к году.
– Яндекс 360 тоже растёт: сервисом пользуются уже более 175 тысяч организаций, а аудитория Телемоста за год выросла втрое — до 8,3 млн пользователей.


По сути, Яндекс зарабатывает не на разовых подключениях, а на том, что крупный бизнес переводит свои IT-процессы на их инфраструктуру. И чем больше клиенты погружаются в экосистему, тем выше становится средний чек и маржинальность. Простая механика, но она работает.
😁56🔥19🗿16👍138🤨4🤯2🐳2🤔1
DCGAN получил награду Test of Time на ICLR 2026

Каждый год на ICLR, как и на многих других крупных мировых ИИ-конфах, награждают статьи десятилетней давности, которые в долгосроке внесли самый существенный вклад в индустрию.

В этом году победителем стал легендарный DCGAN. Статья о нем была впервые представлена на ICLR 2016. Рассказываем, в чем же тут феномен.

В 2014 году Ян Гудфеллоу придумал GAN – концептуально гениальную идею: две нейросети соревнуются друг с другом. Генератор создает картинки, дискриминатор пытается отличить их от настоящих, и так мы учимся генерировать все более и более прадоподобные изображения.

Но на практике GANы не масштабировались и не были стабильными. Фактически, не работали. До того момента, пока Radford, Metz и Chintala не придумали DCGAN.

На самом деле, они просто заменили полносвязные слои на сверточные + добавили несколько инженерных хаков: добавили Batch normalization, заменили функции активации и тд. И, о чудо, – случился прорыв в генерации изображений.

Качество картинок скакнуло радикально и сеть начала сама выучивать структурированное представление о мире без каких-либо меток. Это открыло дорогу к управляемой генерации.

По сути, DCGANы впервые доказали, что нейросети способны генерировать изображения с качеством, которое трудно отличить от реального, и делать это стабильно и воспроизводимо.

В общем, ICLR своей наградой фактически отсекли ровно 10 лет с точки отчета прогресса генеративных моделей.

Для тех, кто вдохновился перечитать статью, ссылка: https://arxiv.org/abs/1511.06434
92👍30🔥12🗿52🤯2🎉2🤨2💯1
Кошмары при температуре 39
1😁257🤯33🗿8🦄4👍1😎1
3 избранных статьи с ICLR 2026

Вчера закончилась одна из трех главных ежегодных мировых конференций по искусственному интеллекту – ICLR 2026. Именно тут публикуются ключевые работы, которые в последствие ложатся в основу реальной практики.

На основе официальных наград и того, что реально обсуждали участники и индустрия вокруг конференции, мы выбрали три статьи, на которые стоит обратить внимание. Коротко разберем, в чем их суть и почему про них говорят:

1️⃣ Победитель номинации "Outstanding Papers" – статья немецких ученых "Трансформеры лаконичны по природе".

Теоретическая работа, в которой доказывают удивительную вещь: трансформеры оказались не просто мощными, а экспоненциально более компактными по сравнению с классическими моделями. То есть они могут описывать сложные зависимости в данных в разы короче, чем автоматы, логические формулы или RNN. Поэтому-то LLM и стрельнули. Цена за это – черный ящик: из-за таких способностей к сжатию трансформеры становится крайне сложно анализировать и проверять.

2️⃣ Совместная статья ученых из Red Hat AI, ETH Zürich и Yandex Research – про качественное квантование.

Все хотят запускать большие модели в 4 бита – это дает до ~2–4× ускорения и сильную экономию памяти. Так вот данная статья примечательна тем, что в ней доказали: FP4-форматы от NVIDIA на практике работают хуже, чем было обещано. Существующие методы квантования приводят к существенной просадке качества. Авторы провели подробный анализ разных идей, способных потенциально улучшить качество квантизации, и предложили свой алгоритм MR-GPTQ, который подгоняет квантование под особенности FP4. Он заметно повышает точность по сравнению с предыдущими методами и при этом позволяет эффективно использовать аппаратные возможности ускорителей нового поколения. Приложены к тому же готовые ядра для инференса, так что полученный результат имеет реальное практическое применение.

Пользуясь случаям, поздравляем ребят из Яндекс с отличной работой. Кстати, кроме этой статьи они привезли на ICLR еще целых пять. В канале ML Underhood делали разбор всех.


3️⃣ Статья от Apple – они научились параллелить RNN.

Долгое время RNN считались «мертвыми» для больших моделей: их нельзя нормально параллелить – они считают последовательность по шагам, один за другим. Поэтому всех вытеснили трансформеры. Apple показали, что это не фундаментальное ограничение. Они переписали работу RNN как одну большую систему уравнений и научились решать ее параллельно. В итоге – ускорение до 600+ раз по сравнению с обычным последовательным режимом. Вишенка: они обучили классические RNN (LSTM/GRU) размером до 7B параметров, и они по качеству почти догоняют трансформеры и Mamba.

В комментариях открываем reading club: присылайте ссылки на статьи, которые приглянулись вам 👓
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
105🤯77👍30🏆10🔥42😁1
Anthropic оценили в 1 триллион долларов: это больше, чем текущая оценка OpenAl

Правда, это только на вторичном рынке акций, но это уже говорит о многом. Спрос на акции Anthropic сейчас просто ажиотажный: Forge Global подтвердили оценку ~$1 трлн на их платформе.

Mythos и конфликт с Пентагоном сыграли свою роль.

OpenAl сейчас оценивается примерно в ~880 миллиардов долларов. Напоминаем, что еще в феврале оценка Anthropic была далеко позади конкурента: 380 миллиардов. Рост дикий.
🤯233👍42🗿201111😁92🔥2
Промпт инжиниринг изучен на 0.01%

В новый системный промпт gpt-5.5 в Codex добавили следующее (дословный перевод):

Никогда не говори о гоблинах, гремлинах, енотах, троллях, ограх, голубях или других животных или существах, если это абсолютно и однозначно не имеет отношения к запросу пользователя.


А голубей и енотов то за что? 🦝

https://github.com/openai/codex/blob/main/codex-rs/models-manager/models.json#L55
Please open Telegram to view this post
VIEW IN TELEGRAM
😁295🕊3611🤯3🤔211👍1🗿1
Решайте DevOps-, SRE- и FinOps-задачи с помощью облачного ИИ-помощника 💬

Большое обновление от Cloud.ru. Что нового:

1️⃣ Сразу несколько ВМ в разных конфигурациях
Теперь ИИ-помощник в облаке может создавать несколько виртуальных машин, а после управлять ими по команде. Например, добавлять или удалять диски, менять конфигурации и выполнять другие повседневные операции.


2️⃣ Три новых сценария
▶️
DevOps-агент
— может разворачивать и обслуживать PostgreSQL, Kafka, WordPress, GitLab и другие популярные сервисы по текстовому промпту.

▶️
SRE-агент
— настраивает мониторинг, алертинг и помогает разбирать инциденты.

▶️
FinOps-агент
— находит забытые или неиспользуемые ВМ и предлагает их удалить, чтобы исключить бессмысленные траты. А еще может показать топ дорогих ресурсов, позволяя сравнивать траты за разные периоды.


👉 Попробовать
Please open Telegram to view this post
VIEW IN TELEGRAM
😁21👍8🔥8🗿53🏆11
Media is too big
VIEW IN TELEGRAM
Anthropic интегрировали в Claude инструменты для дизайна и 3D: Blender, Adobe, Autodesk, Ableton, SketchUp и других.

Все через MCP. Например, в Adobe он собирает цепочку из нескольких продуктов: баннер в Photoshop, анимация, экспорт в видео через Premiere. В Autodesk Fusion создает и редактирует 3D-модели. В Blender пишет скрипты под целые сцены: объекты, свет, материалы, анимация.

https://www.anthropic.com/news/claude-for-creative-work​​​​​​​​​​​​​​​​
106🔥68👍25🤯10🤔3🫡3🐳1
Исследователи создали винтажную языковую модель Talkie: она обучена исключительно на текстах до 1 января 1931 года

Поболтать с Talkie можно здесь: https://talkie-lm.com/chat
А вот веса и GitHub

Среди создателей – Алек Рэдфорд, бывший ключевой исследователь OpenAI и один из главных создателей серии GPT.

Talkie – довольно большая модель, 13B параметров. Ее обучили на 260 миллиардах токенов англоязычных текстов, датированных до 1931 года: книги, газеты, периодика, научные журналы, патенты, судебные дела и тд. Вкратце, эксперимент получился ну очень интересным. Например:

Talkie может писать на Python, хотя Python появился только в девяностых, и модель ничего про него не знала. Ей просто показали несколько примеров в контексте и вуаля. Авторы пишут, что это лучший пример настоящего рассуждения на данных, а не их выучивания, потому что talkie никогда не видел современной информации и служит как бы чистым испытательным стендом.

– Если Talkie спросить про Вторую мировую войну, он скажет, что считает ее маловероятной (в 1930 году это было разумное мнение). Про 2026 год модель говорит, что представляет его как "мир пароходов, железных дорог и копеечных романов".

– С помощью Talkie можно измерять "удивительность" и других исторических событий без человеческой предвзятости. Авторы берут колонку NYT "On This Day" и смотрят, насколько шокирующим было бы каждое событие для человека из 1930-го. Полет на Луну, распад СССР, Интернет и атомную бомбу Talkie называет фантастикой, а вот Великую депрессию – чем-то вполне ожидаемым.

К лету команда планирует масштабировать Talkie до уровня GPT-3.
🔥29464👍34😁15🤗5🤔2🕊1
Яндекс Образование запустило Yandex Physical AI Garage — программу по созданию ИИ-решений для роботов и автономных систем

В проекте участвуют топовые вузы: ВШЭ, МАИ, МИФИ, МФТИ и ИТМО. Вы получите ML-базу от ШАД и реальную R&D-практику на «гаражах» — проектных офлайн-интенсивах под менторством инженеров Яндекса.

Обучение полностью бесплатное. Чтобы поступить, необходимо учиться на партнерской программе бакалавриата в одном из вузов-партнёров.

Переходите по ссылке, чтобы изучить карьерные перспективы и зарегистрироваться
🗿39🔥198👍7🤨5😁3🤯3🍓1
Нижегородский Минздрав официально (!) разослал письмо с просьбой не использовать эмодзи из ChatGPT в медицинских документах

В Новгороде автоматизация идет полным ходом. Там пациенты все чаще начали замечать в своих электронных выписках и протоколах смайлики типа 💊 📌 📆 💙 📞 🌐 🔴 🚑 🔍 и другие, которые обычно использует ChatGPT.

Дошло до того, что Минздрав официально попросил врачей не использовать подобные символы или «в промптах для ИИ указывать деловой стиль без эмодзи».
😁43228🔥17🗿16👍1🤝1
This media is not supported in your browser
VIEW IN TELEGRAM
Cursor наконец-то выпустили собственный SDK

Это TypeScript‑библиотека, через которую можно программно создавать и запускать тех же ИИ‑агентов Cursor, что живут внутри IDE, но прямо из своих приложений, скриптов, CI‑пайплайнов и веб‑сервисов.

Теперь с помощью этого набора инструментов встроить возможности Cursor можно будет в любую корпоративную IDE или, например, в мобильное приложение. Да вообще в любой проект.

А еще это открывает простую дорогу к дописыванию своих MCP‑инструментов и собственных плагинов под Cursor.

Стартап также опенсорснул кукбук с некоторыми стартовыми кейсами на попробовать: https://github.com/cursor/cookbook
🔥7822👍15😁1
Сбер поделился деталями развития open source-экосистемы GigaChain

На Хабре вышло интервью управляющего директора и техлида команды GigaChain — Константина Крестникова. Его команда разрабатывает платформу для создания автономных ИИ-помощников. Главный фокус — отказ от закрытой архитектуры в пользу открытого кода и совместимости.

— Решена проблема переносимости. Разработчики могут переносить своих ИИ-помощников на GigaChat с других платформ практически без изменения кода.

— Комьюнити уже работает на продукт: сторонние энтузиасты по своей инициативе добавляют поддержку GigaChat в другие фреймворки.

— Практически весь инструментарий, включая готового автономного ИИ-помощника GigaAgent для корпоративных задач, раздают по открытой MIT-лицензии.

По сути, Сбер делает ставку на снижение барьера входа. Чем проще разработчикам адаптировать свой код под отечественную инфраструктуру, тем активнее растет экосистема.

https://habr.com/ru/articles/1028688/
👍249😁61🔥2217🤨16🗿131🤝1
Китайский исследователь создал специальный бенчмарк, с помощью которого можно оценить количество параметров в любой модели

Как мы знаем, закрытые лаборатории не раскрывают количество параметров своих моделей. Есть стандартный метод оценки через экономику инференса, но он дает погрешность в 2× и более из-за неизвестных деталей об инфре.

Так вот: позавчера на архиве появилась статья, в которой автор предлагает принципиально иной подход, через оценку количества знаний модели. Речь именно о знании фактов, а не интеллекте в целом, потому что способность к рассуждению можно дистиллировать и сжимать в меньшие модели, а фактические знания – нет, они ограничены энтропией Шеннона.

Методология такая: автор создал бенчмарк из 1400 фактических вопросов, разбитых на 7 уровней редкости, от широко известных фактов до крайне малоизвестных. Его откалибровали на 89 открытых моделях с известным числом параметров, и оказалось, что есть явная (R²=0.917) лог-линейная зависимость скора на бенче от числа параметров.

Проецируя закрытые модели на калибровочную кривую, автор получает такие оценки*:

– GPT-5.5 ≈ 9.7T параметров
– Claude Opus 4.6 ≈ 5.3T
– Claude Sonnet 4.6 ≈ 1.7T
– Gemini 2.5 Pro ≈ 1.2T


• из-за природы метода и из-за настроек безопасности некоторых моделей (на какие-то вопросы они могут просто отказываться отвечать), эти оценки ближе к нижним границам.

Конечно, точность все равно довольно мала, но числа интересные.

https://arxiv.org/pdf/2604.24827
👍163🔥4638🤔18😁1
Data Secrets
Промпт инжиниринг изучен на 0.01% В новый системный промпт gpt-5.5 в Codex добавили следующее (дословный перевод): Никогда не говори о гоблинах, гремлинах, енотах, троллях, ограх, голубях или других животных или существах, если это абсолютно и однозначно…
OpenAI раскрыли тайну гоблинов и енотов

После завирусившегося вчера системного промпта, в котором сказано «не упоминать енотов, гоблинов, гремлинов, голубей и других существ без причины», OpenAI выпустили блог, в котором на полном серьезе разобрали эту абсурдную проблему их моделей.

Все дело оказалось в reward хакинге (это когда модель на этапе RL взламывает функцию награждения каким-нибудь читом).

Как вы знаете, в ChatGPT есть персонажи на выбор, и среди них – «Nerdy» (стиль гика). Так вот при обучении этой личности реворд модель поощряла употребление забавных сравнений и выражений, и давала, в том числе, более высокие оценки ответам с отсылками на фантастических существ и забавных животных.

Модель это быстро прочитала и незаметно для разработчиков выработала чит-код: упоминаем гоблинов и гремлинов и легко получаем высокие баллы.

Началось это еще при обучении GPT-5.1, но тогда проблему не откопали, и дальше ситуация усугублялась. На гиковских ответах с гоблинами и гремлинами начали обучать следующие чекпоинты и модели, затем еще раз и еще.

С GPT-5.2 по GPT-5.4 «частота» гоблинов в Nerdy-характере взлетела на 3881%, и в диалогах с другими системными персонажами гоблины росли синхронно. Ирония в том, что характером «гик» пользуются только 2-3% юзеров, а от гоблинов пострадали все.

Дошло до того, что пришлось добавлять в системный промпт инструкции «не упоминать никаких существ». OpenAI пишут, что это временное решение для GPT-5.5, для следующих моделей или уже почистили данные и подредактировали награждение.

https://openai.com/index/where-the-goblins-came-from/

P.S. Если хотите дать енотам и гремлинам свободу, то в блогпосте по ссылке выше OpenAI дали команды для терминала, которые отменят соответствующую часть системного промпта для вашего агента. Пользуйтесь 🦝
Please open Telegram to view this post
VIEW IN TELEGRAM
1😁30083356👍5