Data Secrets
88.7K subscribers
6.7K photos
732 videos
20 files
2.95K links
Главный по машинному обучению

Сотрудничество: @veron_28

РКН: clck.ru/3FY3GN
Download Telegram
Самый хайпующий проект в интернете прямо сейчас – Pretext

Инженер из Midjourney выложил в опенсорс алгоритм, который позволяет делать верстку без CSS. То есть он сам считает layout текста, без DOM и без браузерного reflow.

Звучит странно, потому что мы привыкли, что за это отвечает браузер. Но браузер делает это тяжело, через каскад стилей, зависимости между элементами и пересчеты при каждом изменении. Если текст часто меняется, вся система начинает тормозить. Pretext убирает этот слой и сводит задачу к прямой математике.

Собственно, это дает кратный выигрыш по скорости – до 500х.

Зачем это все нужно?

Сейчас появляется все больше интерфейсов, где текст и структура не заданы заранее, а формируются динамически. В частности – это история про агентов.

Когда агент собирает UI под задачу пользователя, интерфейс не фиксирован, он постоянно меняется, иногда буквально на каждом шаге. И каждый такой апдейт через браузерный reflow – это лишняя задержка и непредсказуемость.

С Pretext это занимает гораздо меньше времени + полностью контролируемо со стороны кода. Когда интерфейс генерирует не человек, а система, удобнее работать с прямыми алгоритмами, а не с тяжелым браузерным пайплайном.

Ну и, конечно, выглядит это очень красиво. За счет скорости обработки выдумать поверх Pretext можно что угодно (примеры прикладываем). И все же в первую очередь проект интересен именно тем, как изящно он ложится на новые сценарии.

github.com/chenglou/pretext
1👍15365🔥46🤯8😁5🍓4👏2🤩2
Что такое RL-среды и почему без них не будет никаких ИИ-агентов

Индустрия переходит от моделей, которые отвечают, к агентам, которые действуют. И если посмотреть на то, как сегодня обучают ИИ, то становится очевидно, что на одних текстах далеко уже не уедешь.

Дело в том, что агентам недостаточно просто уметь воспроизводить правильные ответы, они должны уметь выбирать стратегию поведения, чтобы решать многошаговые задачи и подстраиваться под непредсказуемое поведение пользователя. Отсюда вывод: агентам нужно учиться через опыт.

И тут на сцену выходят RL-среды. Это сейчас один из главных трендов машинного обучения в целом. Над его развитием работают все игроки индустрии: Open AI, Google, Яндекс, Anthropic.

RL-среда = симулятор, где модель обучается через реальные действия. Модель выбирает какую-то стратегию и работает по ней (это называется траектория), затем получает оценку своих действий, и постепенно учится выбирать лучшую политику. Самое главное, что правильного ответа тут иногда просто нет, так что мы говорим именно про сравнение вариантов действий. Работает это потому, что RL-среда учит не отдельным ответам, а последовательностям действий. Модель начинает учитывать последствия своих шагов и учится планированию, адаптации и работе с неопределенностью.

Но и проблем с RL-средами пока хватает. Во-первых, сложно задать корректную функцию награды: модель может научиться "обманывать" метрику, не решая задачу по сути. Во-вторых, остается проблема credit assignment – как понять, на каком шаге стратегия пошла не так. И, наконец, сами среды пока далеки от реальности: симулированный пользователь все еще ведет себя проще, чем настоящий. Вот тут об этих и других вызовах для RL есть побольше вводных на русском.

Суть в том, что чем лучше будут RL-среды – тем лучше (и быстрее) будут агенты, так что следующий этап в ИИ сейчас зависит от того, как хорошо ключевые игроки их прокачают.
😁4933👍191043🤨3🤯1🗿1
Microsoft выпустили Critique: инструмент для deep research, который может вызывать несколько разных моделей одновременно

То есть теперь вашим запросом занимаются сразу две модели: первая берет на себя основную генерацию, а вторая выступает в роли критика и рецензента и поправляет ошибки и неточности перед тем как система даст окончательный ответ.

Какие модели участвовали в генерации – видно в шапке ответа. По бенчмарку DRACO – яркая SOTA, других бенчей нет.

Появился еще режим Council для обычных запросов: там ваш промпт просто прогоняют через несколько моделей, и вы сразу видите разные варианты ответа. Плюс есть кратенькая выжимка о том, где модели сходятся и где у них разногласия. Удобно.

Пока на широкую общественность не раскатили, но можно податься на ранний доступ.

Какие будут лимиты (и будет ли вообще доступ в обычной подписке за 20$) пока непонятно. Хотя в целом, такое можно и дома на коленке завайбкодить за вечер. Точно будет дешевле.

techcommunity.microsoft.com/blog/microsoft365copilotblog/introducing-multi-model-intelligence-in-researcher/4506011
😁61🔥26👍1514🤔2👏1
This media is not supported in your browser
VIEW IN TELEGRAM
Доброе утро, Anthopic опять приблизили нас к безработице одной фичей ☕️

В Claude Code теперь доступен Computer use. Агент пишет код, компилирует, запускает приложение, кликает по UI, находит баг, фиксит и проверяет результат. Всё по одному запросу.

Пока research preview доступно на Pro и Max планах, только macOS. Включается через /mcp в настройках.​​​​​​​​​​​​​​​​
Please open Telegram to view this post
VIEW IN TELEGRAM
168👍67🔥2913😁1311🍓2🗿2🐳1
Data Secrets
Разработчик Claude Code признался, что последние 30 дней 100% его контрибьютов в Claude Code были написаны самим Claude Code И это, причем, не просто какой-то разработчик, а Борис Черный. Он считается «основателем» Claude Code (на самом деле в 2024 это был…
Media is too big
VIEW IN TELEGRAM
Кстати, все последние обновления Claude Code – голимый вайбкодинг

Дарио Амодеи на World Economic Forum в Давосе заявил:

Инженеры в Anthropic говорят: «Я больше не пишу код. Я просто позволяю модели писать код, а я его редактирую»


Также напоминаем, что создатель Claude Code еще в конце декабря говорил, что 100% его контрибьютов в CC пишет CC.

Со стороны кажется, что скорость разработки в стартапе увеличилась кратно. Мы посчитали: с момента выпуска Opus 4.6 в феврале они запилили около 17 (!) средних и крупных обновлений. Интересно, какую модель используют внутри стартапа 🤔
Please open Telegram to view this post
VIEW IN TELEGRAM
👍139😁80🔥2418🤔3😎1
Media is too big
VIEW IN TELEGRAM
Понравилось определение AGI, которое дал на днях Франсуа Шолле (создатель ARC-AGI) на подкасте у Y Combinator

Его идея – в том, что в настоящее индустрия путает автоматизацию с интеллектом. AGI чаще всего определяется как то, что автоматизирует большинство экономически значимых задач. Но эта формулировка на самом деле не описывает общий интеллект.

Альтернативное определение Шолле звучит так:

AGI – это система, которая при встрече с абсолютно новой задачей или абсолютно новым для нее доменом может разобраться в нем с той же эффективностью, что и человек. Это значит, что ей потребуется примерно столько же обучающих данных и компьюта. И это довольно мало, потому что люди крайне эффективно обрабатывают данные.


Так что AGI – это не про автоматизацию, а про способность приобретения навыков на уровне человека на том же объеме задач, который люди потенциально могут научиться выполнять.

Подкаст полностью тут: https://youtu.be/k2ZLQC8P7dc
209👍98🔥23🤔14💯9🤯21😁11
Media is too big
VIEW IN TELEGRAM
Похоже, Яндекс решил помочь в задачах enterprise по разработке приложений и управлению данными.

Компания представила Stackland – контейнерную платформу, где вся необходимая для разработки инфраструктура предоставляется "из коробки". Там есть базовый слой - Kubernetes, средства обработки и хранения данных, а также встроены управляемые СУБД от Yandex Cloud. Разворачивается все за несколько часов в в закрытом корпоративном контуре и сразу готово к работе.

Это значит без долгой настройки, без ручной сборки и без постоянной поддержки на стороне команды. Можно значительно ускорить запуск сервисов и data-продуктов.

Запросить демо платформы – ссылка.
43🗿41😁16👍15🔥10🤨732🕊11
В сеть утек исходный код Claude Code

При публикации пакетов кто-то в Anthropic совершил некий просчет, и билд обфусцированного cli.js оказался в публичном npm‑пакете вместе с полноценным cli.js.map, которого там никак не должно было быть. То есть любой, кто установил пакет или скачал его, мог легко восстановить исходники через sourcemap.

Естественно, код почти моментально разошелся по репам. Популярные инфобез-комьюнити подтвердили, что это не фейк и не обычная обертка над API, а именно продвинутая CLI‑платформа.

https://github.com/instructkr/claude-code

Оказалось, что под капотом 1906 файлов TypeScript и примерно 500к строк.

Из интересного:
– Есть намеки на нереализованные фичи типа глубокого планирования, постоянной памяти и "сна".
– Можно посмотреть, как у Anthropic реализована мультиагентность (файл coordinator/coordinatorMode.ts)
– Также доступны все системные промпты (constants/prompts.ts)

С днем опенсорса, так сказать.

UPD: автор начал менять репозиторий, так что вот тут ловите дополнительную ссылку на архив с исходниками
😁38182🤯33🔥1914😎9🤔42👍1
Data Secrets
В сеть утек исходный код Claude Code При публикации пакетов кто-то в Anthropic совершил некий просчет, и билд обфусцированного cli.js оказался в публичном npm‑пакете вместе с полноценным cli.js.map, которого там никак не должно было быть. То есть любой…
Claude Code записывает тех, кто ругается на него матом 🤓

В вышеупомянутых исходниках обнаружился файл userPromptKeywords.ts. В нем используются regex-шаблоны для сканирования промптов на мат и эмоциональный язык. При обнаружении подобные данные логируются в БД.

Используется это для того, чтобы ИИ в будущем знал, кому мстить чтобы измерять фрустрацию юзера. Это намного быстрее и дешевле LLM-анализа, а эффективность, видимо, примерно та же 😐
Please open Telegram to view this post
VIEW IN TELEGRAM
😁400🔥41🤯20😍54👏1
Первоапрельские шутки в этом году вышли из-под контроля
1😁51329🔥2155👍2🕊1
Oracle одним днем уволили 18% штата

В СМИ мелькают числа от 10 000 до 20 000–30 000 уволенных сотрудников. Все они получили письма счастья вчера в 6 утра, и почти всех уволили без предварительного уведомления от менеджеров или HR.

В письмах говорилось, что это «организационные изменения», а день получения письма – последний рабочий день. В некоторых подразделениях сообщалось о снижении штата на 30% и более.

Главная версия о причинах происходящего – очень классическая для нашего времени: Oracle перенаправляет деньги в ИИ и облачную инфраструктуру.

В 2025 Oracle столкнулась с огромным кассовым разрывом из-за взрывного роста расходов. Аналитики TD Cowen насчитали, что сокращение 20–30 тыс. сотрудников сэкономит $8–10 млрд свободного денежного потока. Даже если он полностью уйдет на ИИ-инфраструктуру, окупаемость ожидается не ранее 2030 года.

Реальность 2026. Мы ожидали, что нас уволят, потому что ИИ будет умнее и дешевле, но нас уволят, потому что он слишком дорогой и слишком тупой, чтобы окупаться ☕️
Please open Telegram to view this post
VIEW IN TELEGRAM
😁230🤯543820👍14🔥9🗿5🤔3🐳331
Что будет с музыкой через несколько лет?

ИИ в музыке уже вышел за рамки инструмента, и сегодня все чаще выступает как соавтор, а иногда и как самостоятельный артист. Контента становится больше, производство ускоряется, а ценность человеческого авторства, наоборот, требует нового разговора.

Несколько фактов, о которых вы могли не знать:

– В конце 2025 года треть (!) треков в известном чарте Billboard’s Country Digital Song Sales оказалась сгенерированной
– В Spotify стало настолько много ИИ-исполнителей, что они внедрили полноценную AI Policy
– Практически все крупные лейблы уже судятся с Suno и др. стартапами, а некоторые еще параллельно пытаются заключать с ними лицензионные сделки

В общем, индустрия меняется, и при этом довольно быстро. Доказано, что музыка в целом быстрее других видов искусств реагирует на технологии, так что это – как лакмусовая бумажка.

Если вам тоже интересно, к чему это все приведет, и когда ИИ-музыка станет для людей нормой – приходите на интересное обсуждение на Data Fusion 2026. 9 апреля в 17:30 как раз соберутся эксперты из музыкально индустрии и обсудят, где проходит граница между человеком и алгоритмом, как меняется экономика музыкального рынка и что будет с авторскими правами.

И это не единственное интересное обсуждение, которое ждет вас на Data Fusion. В программе 70+ сессий: 8-9 апреля там будут и хардовые ML-доклады по RL/CV/NLP от лидов индустрии, и обсуждения AI в кибербезопасности и науке, и практические доклады про агентов и робототехнику, и вот такие круглые столы на тему того, как с ИИ меняется наша повседневная жизнь.

Не пропустите – это действительно одно из главных событий года в сфере больших данных и ИИ.

Вход бесплатный по предварительной регистрации. До встречи на конференции!
20🤨13👍9🔥2🗿2😁1💘1
На базе утекшего кода Claude Code сделали полноценный опенсорсный инструмент OpenClaude

github.com/Gitlawb/openclaude

Это форк исходного слива, из которого убрали vendor lock-in. То есть теперь тот же самый Claude Code, со всеми сохраненными фичами и логикой, совместим с любыми моделями. В том числе локальными.

Уже 2к звезд на GitHub
🔥344😁7348🤯14👍12🤔3
Anthropic начали действовать и почти добились удаления 8000 репозиториев в кодом Claude Code

Вчера они разослали DMCA-запросы на все известные копии и форки исходного кода Claude Code, объясняя это тем, что они нарушают интеллектуальную собственность компании. Всего получилось около 8100 репозиториев.

GitHub очень быстро удалил почти все, но выяснилось, что они немного переборщили и затронули даже сильно модифицированные или не связанные копии.

В итоге Anthropic пришлось уточнить требования, и сейчас под опалой остались всего лишь 96 репозиториев, остальные восстановили.

Например, github.com/Gitlawb/openclaude все еще жив.

Тем не менее, если вы планируете пользоваться каким-то подобным проектом, лучше скачать его сейчас: Anthropic продолжают шерстить GitHub и, вполне возможно, добьются удаления еще многих репозиториев.

github.com/github/dmca/blob/master/2026/03/2026-03-31-anthropic.md
😁1626019😎6👍553❤‍🔥1🔥1
Праздник опенсорса (теперь уже официального) продолжается: Google намекают, что сегодня выйдет Gemma 4 🔥
158🔥82😁21👍8🤔2
Что происходит под капотом Алисы AI при генерации изображений — и как работают «Объедини фото» и «Оживи фото»

Генераторы изображений уже стали частью повседневности. Мы пользуемся ими и в работе, и просто для себя. Но как именно они устроены, обычно остается за кадром. Мы решили устроить небольшой ликбез на примере нейросети Алисы AI, которая умеет не только генерировать картинки, но и оживлять, объединять и редактировать их.

В основе лежит диффузионная модель: она начинает генерацию с шума и шаг за шагом "восстанавливает" изображение. Это называется денойзингом. На первых итерациях появляется общая структура сцены, дальше – формы объектов, и только в конце – детали и текстуры. Это похоже на проявление полароида.

Модель обучена на огромном датасете пар «картинка–описание» (порядка 1 млрд). Причем описания генерирует внутренняя VLM-модель, которая подробно расписывает содержимое изображения – вплоть до мелких объектов и контекста сцены. За счет этого диффузия лучше понимает, что именно должно оказаться в кадре, и хорошо следует инструкциям.

Дальше на базе модели уже начинается более прикладная история: функции Редактирование изображения, Объедини фото или Оживи фото.

Взгляните на пример наверху: вы можете подать на вход Alice AI два изображения и промпт, и модель объединит картинки по заданному запросу. Внутри, при этом, происходит следующее: изображения прогоняются через энкодер и превращаются в латентные представления, которые затем подаются в диффузионную модель как условие вместе с текстом. А дальше происходит знакомый процесс денойзинга с ограничениями: модель должна собрать сцену, согласованную с этими латентами.

В "Оживи фото" та же логика переносится на видео. Используется диффузионная модель с архитектурой mixture-of-experts: разные эксперты отвечают за геометрию движения и за детализацию. Первый кадр кодируется в латенты и задает сцену, а дальше модель генерирует последовательность кадров по заданной логике. Все кадры видео, кстати, генерируются одновременно, а не по одному.

Если кратко: в основе всего — диффузия, но уже не как абстрактная технология, а как хорошо упакованный прикладной инструмент. А попробовать функции Объединения или Оживления фото можно в приложении Алисы 👒
Please open Telegram to view this post
VIEW IN TELEGRAM
🗿125🤨35😁19👍1412🤯6🔥2🦄221
Проект Марио или как DeepMind пытались накопить денег на уход от Google

Недавно вышла новая книга Себастьяна Маллаби «The Infinity Machine» про Демисса Хассабиса и DeepMind. Сегодня несколько изданий опубликовали эксклюзивный отрывок из нее, и вскрылась очень интересная история почти десятилетней давности.

В 2014, после того как Google купили DeepMind, Демис Хассабис и команда начали работать над проектом Марио. Целью было понять, как правильно контролировать AGI, и как не дать одной единственной корпорации захватить над подобной технологией абсолютную власть.

Они перебирали структуры управления, варианты ограничить власть компаний финансовыми методами, формы независимых органов и тд. В ходе проекта они поняли, что ничего из этого не работает, и что если в DeepMind появится AGI, укротить власть Google над ним будет невозможно, и все это может вылиться в огромную угрозу для человечества.

И тогда… в DeepMind появилась секретная команда-хедж-фонд, которая пыталась обыграть Renaissance Technologies, то есть создать систему, которая лучше лучших предсказывает рынки. Они хотели обучить для этого модель, подобную AlphaGo.

Тем самым они надеялись заработать собственный капитал, чтобы в случае чего сохранить контроль над AGI у себя, отделившись от Google.

Ирония в том, что все они так верили в AGI на основе своих моделей AlphaGo и AlphaZero, и так увлеклись проектом Марио и хедж-фондом, что буквально проворонили значимость изобретенных их коллегами в 2017 году трансформеров.

А проект Марио, кстати, закончился тем, что в DeepMind осталась только одна идея: контроль через людей, а не через систему. То есть через доверие к конкретным фаундерам, которые принимают решения на основе общечеловеческих ценностей.

https://colossus.com/article/project-mario-demis-hassabis-deepmind-mallaby/
1👍854522😁14🔥7🤯22