Data Secrets
88.4K subscribers
6.62K photos
703 videos
20 files
2.88K links
Главный по машинному обучению

Сотрудничество: @veron_28

РКН: clck.ru/3FY3GN
Download Telegram
⚡️ Встречаем GPT‑5.4

Модель вышла в версиях Thinking и Pro. Метрики подросли на кодинге (немного), на математике (прилично) и на computer use. Последним хвастаются особенно.

Кроме того, модель стала эффективнее: использует меньше токенов при рассуждении и отвечает быстрее. Но есть нюанс: теперь она стоит немножко дороже.

Что еще интересного:

– Модель теперь можно остановить посередине ответа и добавить дополнительные инструкции.

– Контекст теперь до 1 миллиона токенов (наконец-то!)

– В Codex появился /fast мод, который ускорит генерацию в 1.5x (это та же модель и тот же уровень рассуждений, просто быстрее). Правда, в таком режиме каждый токен будет учитываться в лимитах за два.

https://openai.com/index/introducing-gpt-5-4/
Please open Telegram to view this post
VIEW IN TELEGRAM
107😁41🔥23🎉13🦄87🗿65👍2👾1
Google предложили, как обучать LLM становиться умнее по ходу диалога

Есть довольно известная проблема: LLM плохо обновляют убеждения по мере получения новой информации. Хотя от модели ожидается, что она должна понимать предпочтения пользователя по его ответам и при накоплении таких данных становится полезнее, на самом деле LLM в этом плохи.

С математической точки зрения это означает, что у моделей нет байесовского мышления, то есть умения обновлять вероятность гипотез при поступлении новой информации. У людей, кстати, такое мышление развито хорошо.

Здесь исследователи предлагают интересный подход. Вместо того, чтобы учить модель обновлять знания с помощью файнтюна на обычных диалогах, они берут и дистиллируют в нее настоящий байесовский алгоритм. То есть:

1. Строится обычный автомат Байеса, который знаком всем, кто изучал классический ML. Он решает задачу, просто обновляя вероятность разных гипотез по формуле.

2. LLM файнтюнят на ответах алгоритма, чтобы она переняла общую логику обновления, но уже без формулы.

Например, нам нужно понять, какие фильмы любит пользователь – боевики, комедии или драмы:
– В начале вероятности равные, по 33%.
– Мы советуем ему три фильма разных жанров, и он выбирает боевик. Мы также знаем вероятность выбора боевика при условии предпочтении каждого из жанров (например, 80%, 20% и 30%).
– Алгоритм на основе всего этого обновляет вероятности по формуле и получается, что они равны уже 62%, 23% и 15%.
– Такие априорные и апостериорные вероятности показывают LLMке.
– Постепенно она учится вести себя как алгоритм.


Результаты получились интересные.
Во-первых, модель действительно начинает вести себя ближе к байесовскому оптимуму и учитывать новые данные. На основной задаче рекомендаций качество заметно увеличилось.
Во-вторых, появилось обобщение. То есть модель фактически выучивает сам принцип рассуждения, и начинает использовать эту стратегию в других задачах, где ее напрямую не обучали.

Короче говоря, довольно показательно, и авторы делают вывод о том, что обучение на демонстрациях алгоритмов в целом – работает. В действительности, мы ведь и правда хотим от LLM, чтобы они были не просто генераторами текста, а универсальными имитатороми алгоритмов мышления.

research.google/blog/teaching-llms-to-reason-like-bayesians/
1173❤‍🔥41👍38🔥13🤯3🤗33😁2👾22
Media is too big
VIEW IN TELEGRAM
Cursor теперь может мониторить вашу кодовую базу автономно и постоянно

Теперь там есть возможность настроить ИИ‑агентов, которые автоматически выполняют задачи в вашей базе по расписанию или по событиям (push, Slack, PagerDuty и т.п.).

Каждый такой агент крутится в отдельной cloud‑sandbox, может ходить в твой репозиторий, CI, Slack и внешние сервисы через MCP (Model Context Protocol).

То есть при срабатывании триггера поднимается изолированная среда, в нее подтягивается свежий код, и агент выполняет нужный сценарий. Настройки могут быть максимально гибкими.

Внутри уже есть типовые шаблоны: ежедневные дайджесты изменений в базе, поиск уязвимостей и простых багов, обновление документации. Пробуем!

cursor.com/blog/automations
😁6634👍33🔥12🤨53
Поздравляем подписчиц с Международным Женским Днем!

Желаем, чтобы в жизни было больше прорывов, чем в новостях про очередную AI-модель, и чтобы мечты сбывались чаще, чем обещания Илона Маска.

С праздником! 🤍
Please open Telegram to view this post
VIEW IN TELEGRAM
3😁188💘9865🍓8🗿5❤‍🔥4🔥33👌2🤗11
Autoresearch от Андрея Карпаты

Встречаем новый проект от гуру: агент, который автономно проводит эксперименты и обучает LLM.

Autoresearch состоит из: самого агента, одной GPU и простой среды обучения маленькой LLM. Агент самостоятельно изменяет train.py, запускает короткие сессии обучения модели по 5 минут, оценивает улучшение метрик и сохраняет или отбрасывает изменения.

Так он может провести десятки экспериментов за ночь. Вы встаете – и получаете уже улучшенную модель, экономя себе несколько часов рутинного копания в коде (см.график с изменениями метрики по итерациям ⬆️).

Все свои дополнительные инструкции можно дописать в program.md: где менять гиперпараметры, что исследовать. Исходный program.md сделан предельно простым, но при желании можно упороться и добавить мультиагентность, новые метрики, стратегии и прочее.

https://github.com/karpathy/autoresearch
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥198👍413015🤯13😁4🤨4🤔3❤‍🔥2
Современные туториалы от мировых математических гениев такие типа ⬆️

Кажется, для математиков пора официально вводить термин вайбпрувинг

А ссылка на новое видео Тао вот: https://youtu.be/JHEO7cplfk8
Please open Telegram to view this post
VIEW IN TELEGRAM
129😁101👍23🔥13🤔3😎1
This media is not supported in your browser
VIEW IN TELEGRAM
В стартапе Eon Systems ученые сделали первую полноценную цифровую эмуляцию мозга животного, которая способна управлять телом

Короче, на равных с искусственным интеллектом аля Джарвис в науке уже давно существует и другая идея: не обучать саму машину, а взять настоящий биологический мозг, полностью скопировать его в цифровую модель и запустить на роботе или компьютере. Особенно этот концепт знаком любителям научной фантастики.

Так вот ученые из Eon Systems заявляют, что они впервые создали такую систему и могут показывать ее в действии.

Они взяли мозг плодовой мухи, скопировали его и создали так называемый connectome: как бы полную карту всех нейронов мозга и связей между ними. То есть все нейроны, все соединения и сигналы синапсов.

Сам мезанизм такого копирования не свеж, и, вообще говоря, сама копия мозга мухи существует уже с 2024 года, НО что Eon Systems сделали впервые – так это соединили эту модель с настоящим телом в симуляции.

Другими словами, они впервые продемонтрировали полный цикл среда → сенсоры → мозг → моторные команды → движение тела. Это называется closing the sensorimotor loop – замыкание петли восприятия и действия. Причем получившаяся виртуальная муха демонтрирует не какой-то один тип поведения, а сразу несколько базовых паттернов.

Никаких искусственных нейросетей. Просто взяли карту мозга, подключили к телу, и это заработало. Хотя говорить, что совсем никакого ML там нет, было бы нечестно: даже если мы видим карту мозга, его динамика (пороги возбуждения, сила синапсов и тд) остается неизвестной, и ее тут как раз приближают моделями. Но это все равно нельзя назвать ИИ в привычном смысле слова.

Главное – что в целом работоспособность принципа brain upload +-подтверждена. Авторы пишут, что дальше все дело в масштабируемости. Для понимания, в мозге мухи примерно 140к нейронов (и даже его скопировать непросто), а у человека нейронов ~86 млрд.
1❤‍🔥122🔥56🤯4714127😁6🤔2
🤔 🍴 🤨
Please open Telegram to view this post
VIEW IN TELEGRAM
🕊132😁10616🔥8🤔6🤓4🤨3💯22❤‍🔥1
Ничего необычного, просто в Китае прямо на улицах устанавливают всем желающим OpenClaw

Конкретно эти фотографии сделаны у офиса Tencent в Шэньчжэне. Там разработчики провели бесплатный ивент по установке OpenClaw. Говорят, пришло около тысячи человек.

Подобные мероприятия прошли также в Шанхае, Пекине и нескольких других городах.

Кстати, в Китае в целом сейчас планируют развернуть огромную программу поддержки OpenClaw. Они хотят создавать так называемые Lobster service zones: физические или облачные места, где OpenClaw уже развернут и настроен. Операторам будут выделять бюджет на хостинг, а люди и компании смогут пользоваться (почти) бесплатно.

Плюс разработчикам или компаниям, которые контрибьютят приложения/скиллы на OpenClaw для приоритетных отраслей, обещают до 2 млн юаней субсидий на проект. А проекты, которые признают «демонстрационными» (успешные применения OpenClaw), получают разовую выплату до 1 млн юаней. Это примерно 140к доллларов.
3😁180🔥122👍402119🤯14🗿7🕊3🤔2🐳22
This media is not supported in your browser
VIEW IN TELEGRAM
Новый агент для Code Review от Anthropic

Стартап выкатил новую фичу для Claude Code: многоагентный инструмент для ревью кода. Он интегрируется с GitHub и анализирует PR, оставляя комментарии прямо в диффе + один сводный комментарий с основными находками.

При этом над PR организованно работают сразу несколько параллельных агентов, которые смотрят на изменения с разных сторон.

Несколько месяцев Anthropic тестировали систему в собственных проектах. Результаты:

– Доля PR с содержательными ревью комментариями выросла с 16% до 54%.
– Меньше 1% результатов ревью отмечены инженерами как неверные.
– В крупных PR (~1000 строк) бот находил хотя бы одну проблему в 84% случаев, а в среднем по 7.5 на PR.

Короче, все круто. Вот только цена за один PR будет примерно в районе 15-25 долларов 🤑

Мягко говоря, немало. Есть ощущение, что больше всего инструмент подходит как раз для крупных PR (вероятнее всего, сгенерированных). На больших объемах вайбкода такие траты могут быть оправданы, в остальных случаях цена вряд ли окупится.

https://claude.com/blog/code-review
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥60🤯41😁1710👍5❤‍🔥1🤝1👾1
Как работают рекомендательные системы в огромных сервисах

11 марта в 19:00 Школа Высшей Математики проводит очень крутой (и абсолютно бесплатный!) вокршоп по рексис. Вы узнаете:

– Как рекомендательные и поисковые системы работают в реальных продуктах
– Какие ML-архитектуры, метрики и подходы используются на каждом этапе
– Как учитываются бизнес-требования и ограничения реальных систем

Все это продемонтрируют на живых примерах из e-commerce, стриминга и соцсетей. То есть вы разберете настоящие кейсы, увидите именно те подходы, которые действительно работают в огромных сервисах, и посмотрите на практические детали их реализации и оптимизации.

Вести воркшоп будет Осиновсков Илья – Руководитель отдела Рекомендательных технологий в Ozon.

Мастхэв для инженеров и всех видов DS-спецов. Не пропускайте и регистрируйтесь здесь
28🗿16👍9🤯6😁4🔥3👾2
Data Secrets
Подвезли свежие подробности о стартапе Яна Лекуна Напоминаем, что ученый спустя 12 лет работы уходит из Meta и собирается строить собственный стартап. Компания будет заниматься разработкой world models, то есть систем, которые понимают физический мир,…
Стартап Яна Лекуна вышел из стелса и закрыл первый раунд финансирования на 1 миллиард долларов

Если быть точным, они привлекли даже чуть больше: 1.03 миллиарда. Пре-оценка стоимости при этом оказалась где-то в районе 3.5 миллиардов (напоминаем, что стартапу меньше трех месяцев и продуктами там еще и не пахнет).

В Лекуна вложились Cathay Innovation, Greycroft, Hiro Capital, HV Capital, а еще Джеф Безос. Для seed раунда цифры, конечно, ошеломительные. Возможно, это даже новый рекорд для европейской компании.

Также стал известен официальный список ко-фаундеров⬆️

Что ж, теперь ждем, кто выпустит хоть что-нибудь раньше: Лекун или Суцкевер
Please open Telegram to view this post
VIEW IN TELEGRAM
2🔥111😁5319👍6🤔32👾1
Мультиагентность – про реальную эффективность или про понты?

Недавно вот тут прочитали обзор Серёжи из Яндекса на новую статью Anthropic про мультиагентность.

Собственно, в этом обзоре затронуты две важные темы:

1. Вопрос эффективности мультиагентных систем относительно цены (они могут съедать в 3–10 раз больше токенов, а выхлопа часто как от одного простого агента).

2. Вопрос разумности их применения. Не превращаемся ли мы из инженеров в охотников за хайпом, когда пытаемся впихнуть рой агентов туда, где не понимаем, зачем оно надо?

Конечно, есть ситуации, когда много агентов действительно в кассу, в посте они перечислены. Но на практике часто выясняется, что основной bottleneck вообще не там и вездесущая мультиагентность – это лишь стадия индустрии.

Да, мы пока только учимся работать с LLM как с системой, и поэтому естественная реакция – добавлять новые уровни сложности. Но если серьезно собираетесь идти в эти дебри, то хотя бы подумайте:

(а) зачем оно вам, и будет ли игра стоить свеч: будет ли в вашем продукте такая система реально работать лучше или просто начнет громче говорить сама с собой и кушать токены?

(б) как именно вы организуете архитектуру: сейчас принято делить агентов по ролям, но может ВАМ больше подойдет – по контексту, как предлагают Anthropic.

И давайте помнить, что хороший инжиниринг– это все таки про бережливость и рационализм, а не про тренды.
👍5618🔥13🗿9🤨2😁1🤯1
Meta* купила Moltbook – ту самую вирусную соцсеть для AI агентов

Помните, в конце января в Интернете хайповала Reddit‑подобная соцсеть, в которой общались не люди, а агенты? В основе своей это были агенты на базе OpenClaw: они постили, голосовали, комментировали и тд.

Рост популярности был тогда взрывной, на пике было около 3 миллионов зарегистрированных агентов.

Сейчас волна хайпа спала, но Цукерберг решил, что Moltbook зачем-то ему нужен. В основном, вероятно, дело в самой технологии always‑on directory, что значит – постоянно работающий каталог агентов, через который их можно находить и подключать к задачам.

Финансовые условия сделки не раскрываются, но известно, что основатели соцсети Matt Schlicht и Ben Parr переходят в Meta Superintelligence Labs.

Напоминаем, что ранее Цукерберг также охотился и за самим OpenClaw, но OpenAI оказались быстрее. Ну хотя бы с Moltbook повезло 🔵
Please open Telegram to view this post
VIEW IN TELEGRAM
🤔77😁5719👍11🗿3👾3❤‍🔥1🔥11
This media is not supported in your browser
VIEW IN TELEGRAM
Вайбкодинг пошел не по плану: в Amazon инженерам устроили разбор полетов после серии крупных сбоев

В начале марта в компании зафиксировали несколько инцидентов уровня Sev‑1 (максимальный уровень серьезности), причем четыре из них пришлись на одну неделю.

Сначала примерно на 6 часов легли сайт и шоппинг сервис, потом 13 часов не работал счетчик цен, потом не работал фронт и тд.

В официальных документах в числе причин прямо указано «novel GenAI usage».

Например, счетчик цен (для AWS, по крайней мере) не работал конкретно из-за того, что ИИ-ассистент Kiro решил пофиксить мелкий баг, удалив все текущее окружение и пересоздав его с нуля. Без человеческого фактора не обошлось, конечно: обычно действия агентов должны подтверждать двое инженеров, но тут из-за расширенных прав хватило одного, да и тот зазевался.

Короче, по итогам всего этого в Amazon собрали крупную внутреннюю встречу инженеров под кодовым названием «Любишь вайбкодить – люби и выговоры от начальства получать».

На ней провели deep dive по сбоям и обсудили новые меры безопасности. По итогам встречи в Amazon пришли к гениальной и совсем не очевидной любому ежу мысли: видимо, в критических компонентах базы ревьюить сгенерированный код должны опытные разработчики, а перед деплоем AI-кода его все таки должны проверить еще раз ☝️
Please open Telegram to view this post
VIEW IN TELEGRAM
😁349🔥30👍211312🤩9🤯33🤔2😎1
Вайб-парадокс: ИИ ускоряет кодинг, но не релизы

ИИ уже стал обычным инструментом для кодеров, но его реальное влияние на рабочие процессы оказалось оценить сложнее, чем мы думали. Т-Технологии выпустили занятное исследование AI4SDLC Research 2025, в котором попытались выяснить, что реально происходит с внутрянкой разработки на данный момент.

TL;DR:

58% инженеров регулярно используют ИИ для генерации или автодополнения кода, а 64% отмечают рост продуктивности. То есть написание кода действительно ускорилось.

Но при этом доверяют сгенерированному коду только 11% разработчиков, а 49% прямо говорят, что не доверяют ему. В итоге команды продолжают тратить недели или месяцы на путь от commit до production.

Самое любопытное, что bottleneck просто сместился. Если раньше основной затык был именно в написании кода, то теперь кодинг ускорился, а узкое место находится дальше в пайплайне – в проверках, интеграции и релизах. Наглядно: если для кодинга ИИ используют 58% инженеров, то к code review или оптимизации его пускают только 24%, а 42% вообще никогда не используют ИИ в работе с легаси.

По сути, классический эффект автоматизации: один этап ускоряется, но система вокруг него не успевает адаптироваться. А это значит, что следующий скачок произойдет не тогда, когда ИИ научиться писать код еще лучше, а тогда, когда агенты смогут надежно закрывать весь цикл от идеи до продакшена.

Вся методология и другие интересные выводы -> здесь: ai4sdlc-research.space/ai-research-2025
Please open Telegram to view this post
VIEW IN TELEGRAM
14878💯41😁21👍7🤔7🗿3🔥2👏1
Мем дня: Cloudflare, которые годами защищали сайты от ботов-парсеров, выпустили парсер

Они анонсировали эндпоинт /crawl для Browser Rendering, который позволяет сканировать и извлекать контент целого сайта одним API-запросом. Он предназначен для «RAG пайплайнов, обучения AI, мониторинга и исследований».

Ирония в том, что Cloudflare – абсолютный лидер как раз в защите сайтов от нежелательных краулеров и ботов, которые собирают данные для обучения ИИ.

В свое оправдание они замечают, что их бот (в отличие от всех остальных злюк-ботов) будет вести себя хорошо: уважать правила сайта и robots.txt 😇
😁395🤯29🕊14👍12🔥12108🗿731😎1