Data Secrets
90.2K subscribers
6.94K photos
780 videos
20 files
3.11K links
Главный по машинному обучению

Сотрудничество: @veron_28

РКН: clck.ru/3FY3GN
Download Telegram
DeepSeek ведет переговоры о первом раунде внешнего финансирования

Компания планирует привлечь $3–4 млрд при оценке до $50 млрд, как сообщает Reuters.

Правда, большинство денег, скорее всего, все равно вложит государство. А точнее, Китайский национальный фонд искусственного интеллекта. Кроме того, принять участие в раунде может Tencent Holdings.

Напоминаем, что DeepSeek ранее отказывался от внешних инвестиций, но теперь, судя по всему, меняет стратегию.
84👍33🔥18😁9
This media is not supported in your browser
VIEW IN TELEGRAM
Yandex ML Challenge — новое соревнование с задачами по ИИ и финалом на Young Con 2026

Кого ждем:

Студентов, выпускников и учеников 11-х классов — тех, кто любит решать соревнования по машинному обучению

Что нужно знать:
На длинном онлайн-туре вас ждут 3 задачи: CV (компьютерное зрение), LLM (большие языковые модели) и RL (обучение с подкреплением).
Регистрируйтесь сейчас и приступайте к задачам 21 мая в 16:00 мск

Таймлайн:
С 21 по 31 мая — длинный онлайн-тур, где определим топ-100 финалистов с самым высоким суммарным рейтингом

25 июня состоится очный финал на Young Con 2026: масштабном фестивале о технологиях и старте карьеры в IT

Победителю соревнования достанется приз в размере 1 млн рублей.
А топ-15 финалистов получат набор умных устройств от Яндекса.

Регистрация открыта
🗿37😁27👍105🤯4🔥1
Gemma-4 теперь умеет предсказывать токены не по одному, а партиями

Google только что выпустили Multi-Token Prediction (MTP) драфтеры. Это штука, которая позволяет Gemma-4 предсказывать сразу несколько токенов вперед.

Обычно LLM генерируют строго по одному токену за шаг, и это одна из главных проблем архитектуры трансформеров, потому что работает медленно.

Что сделали Google:

– Они взяли еще одну модель, крошечную, обучили ее на задаче multi-token prediction, и поставили на роль drafter. Называется так, потому что эта модель пишет черновики, то есть пытается угадать действия большой модели на несколько токенов вперед.

– Батч черновых токенов проверяет основная модель. Фишка в том, что на проверку нужен всего один проход (вместо нескольких, если бы модель генерировала все эти токены сама).

– Если в черновой последовательности попадается ошибка, то: (1) этот токен заменяется на тот, который большая модель считает верным; (2) проверка прерывается и дальше драфтер предсказывает новую партию с этого места.

Например, мы сгенерировали 5 черновых токенов. Три перых совпало, четвертый заменили. Всего сэкономили три прохода большой модели.

Итог: MTP ускоряет генерацию примерно в 3 раза вообще без потерь в качестве. Все драфтеры выложили, так что уже можно попробовать погенерить что-нибудь в таком режиме.

blog.google/innovation-and-ai/technology/developers-tools/multi-token-prediction-gemma-4/
5👍216🔥8537🤔8🤯8😁3
Anthropic 🤝 SpaceX

Компании Дарио Амодеи и Илона Маска только что объявили о крупном партнерстве.

SpaceXAI предоставит Anthropic доступ ко всей вычислительной мощности дата-центра Colossus 1 в Мемфисе. Это примерно 300 мегаватт вычислительных мощностей или 220к GPU.

Это одна из крупнейших инфраструктурных договоренностей в секторе на данный момент.

В честь закрытия сделки Anthropic уже: удвоили 5-часовые лимиты для платных подписок; полностью убрали сокращение лимитов в пиковые часы (ура!); и повысили лимиты на Opus в API, включая RPM, TPM и квоты. Дальше обещают больше.

Сумма сделки не разглашается.
🔥28261👍29🤯11👏4🤔4😁2🕊1
Агенты Anthropic теперь будут самостоятельно улучшаться в свободное время

Компания запустила в рисерч превью функцию dreaming. Она активируется в простое между сессиями и позволяет агенту «самообучаться».

claude.com/blog/new-in-claude-managed-agents

Модель в фоновом режиме просматривает предыдущие взаимодействия, выявляет паттерны типа повторяющихся ошибок, общих предпочтений пользователей или типовых рабочих процессов. Затем на основе анализа агент обновляет свою память, добавляя туда эффективные паттерны и правила.

Можно выбрать автоматическое обновление или с ручным подтверждением. Теоретически, оптимизация должна быть ощутимая: это не только про качество работы агента как таковое, но и про компактную память и, следовательно, снижение потребления ресурсов.

Пока функция работает только в рамках Claude Managed Agents, запросить доступ можно здесь

Ждем, пока покатят на Claude Code
👍151🔥5228🕊4🤨2🤯1
После объявления о партнерстве SpaceX и Anthropic в X пошла волна мемов. Вашему вниманию:
😁203🔥6720👍5🤔1🤯1🤝1
Российские айтишники забили тревогу на фоне потери доступа к аккаунтам Claude

Как пишет Baza, с проблемой уже столкнулись сотни айтишников и бизнесменов из РФ, только на основании паспорта. Главная беда - потеря всех наработок, вроде перепроверенной и переписанной руками архитектуры модулей, разбора багов.

Утечка логов грозит обернуться катастрофическими последствиями, а дальнейшие действия со стороны Anthropic по отношению к российским пользователям непредсказуемы.

Люди паникуют - для кого-то блокировка равна потере работы. Один из айтишников напомнил историю с Рыбарем и ChatGPT, которая теперь кажется трендом. Подобные случаи усиливают тревогу вокруг того, насколько безопасно строить ежедневную работу на сервисах, доступ к которым пользователь не контролирует.
😁283🗿70🔥2823🍾1916🤔10👍77🤨5🆒1
Нейросети думают сложными геометрическими структурами – новое исследование от Goodfire

Эта статья вызвала в последние дни очень много интереса в сообществе. Исследователи из Goodfire впервые показали занятную вещь: внутреннее пространство активаций моделей организовано не хаотично, а в виде многомерных форм, поверхностей и траекторий. Часто эти многообразия вполне интерпретируемы.

Выглядит это примерно как на первом видео. Авторы назвали явление neural geometry. Причем наблюдается оно не только в LLM, но и в vision моделях, и даже в хайповых world models.

Отличный пример – дни недели. Внутри модели они лежат не по прямой, а по круговой траектории. То есть Monday → Tuesday → Wednesday → … → Sunday образуют циклическую структуру в пространстве активаций.

На практике это значит, что если пытаться линейно перейти от понедельника к пятнице, промежуточные состояния будут бессмысленны, а вот если двигаться, глубо говоря, по окружности – с изменением угла, а не линейным смешиванием координат, – то по пути попадутся вторник, среда и четверг (второе видео).

Подобным геометрическим образом на многообразиях определенных форм лежат время, числа, цвета, биологическая таксономия и куча всего другого.

Авторы настаивают, что исследования neural geometry – это новый фронтир в интерпретации нейросетей, и именно геометрия может стать ключом от черного ящика.

www.goodfire.ai/research/the-world-inside-neural-networks#
🤩15182🔥43👍20🤔11😁7🤯32
Media is too big
VIEW IN TELEGRAM
Thinking Machines предложили новый тип моделей, которые могут работать в потоке

Они назвали это interaction models. Идея в том, что такая модель изначально обучается для живого взаимодействия с человеком, в отличие от линейных интерфейсов в формате «пользователь написал -> модель ответила», к которым мы привыкли.

Например, она не ждет конца фразы, чтобы начать генерировать ответ; может перебить, если видит ошибку; способна говорить одновременно с пользователем (незаменимо для live-перевода).

Технически, что самое интересное, это делается не через какие-то внешние адаптеры, а вшивается прямо в процесс трейна.

Сама живость диалога достигается за счет разделения входного потока на маленькие чанки примерно по 200 мс, которые поступают в модель в формате стриминга. То есть пока пользователь еще говорит, модель уже видит новые токены и может начать что-то генерировать. За счет этого и становится возможным перебивание, живой перевод и прочее.

Звучит прямо интересно, с такой моделью хотелось бы поболтать. Но с инженерной точки зрения есть проблемы.

Например, большую модель в такой процесс встроить почти невозможно, будет слишком медленно. Так что авторы предлагают делить систему на две части: быструю interaction model, которая поддерживает живой диалог, и background model, которая берет на себя ризонинг, поиск, инструменты и тд. Когда фоновой модели есть что вернуть, interaction model встраивает это в разговор. Идея логичная, но с большими сложностями в реализации и масштабировании.

Плюс, контекст. Для системы в текущем виде длинные сессии вообще неподъемны, авторы это признают. В общем, замысел крайне занятный, но пока что – с большими дырами.

thinkingmachines.ai/blog/interaction-models/
👍14852🔥27😁7🗿4
Кажется, мы постепенно подходим к моменту, когда новые материалы будут создавать не в лаборатории, а сначала в датасете

«Норникель» и Институт Курнакова РАН запускают проект по созданию ИИ-платформы для генерации новых материалов на основе палладия. По сути это попытка собрать один из первых в России полноценных industrial-grade datasets для цифрового материаловедения.

Что особенно интересно: десятки тысяч экспериментальных измерений, накопленных ИОНХ РАН за десятилетия, впервые превращаются в обучающую среду для ИИ. Не статьи. Не abstract’ы. А реальные данные: составы, кристаллические структуры, физико-химические свойства, поведение материалов в разных условиях.

На первом этапе минимум тысяча уникальных составов. Дальше идет генеративное проектирование новых материалов под конкретные задачи промышленности.

И вот здесь начинается самое важное.Сегодня поиск нового материала – это годы экспериментов. ИИ пытается превратить это в задачу предсказания: если изменить структуру, то как изменятся свойства? Если нужен материал под экстремальную температуру, сверхтонкое покрытие или конкретную электропроводность, то можно ли сгенерировать его заранее?

Один из главных кейсов – попытка заменить золото в микроэлектронике. Сейчас индустрия ежегодно использует около 250 тонн золота: контакты, дорожки, покрытия.

Но при миниатюризации электроники старые материалы начинают упираться в физические ограничения. Палладий здесь выглядит почти идеальным кандидатом: дешевле золота, легче и при этом хорошо работает в защитных и контактных покрытиях.

Фактически задача ИИ-платформы звучит так: «сгенерируй материал под конкретный техпроцесс». Например: для серверных ИИ-процессоров, силовой электроники электромобилей, промышленных датчиков, будущих сверхтонких покрытий.

И это похоже не просто на «AI for science», а на переход к модели, где промышленность начинает обучать собственные фундаментальные ИИ на уникальных отраслевых данных.
🔥14435👍26😁18🗿8🤯3🤔2🤨2
Data Secrets
Thinking Machines предложили новый тип моделей, которые могут работать в потоке Они назвали это interaction models. Идея в том, что такая модель изначально обучается для живого взаимодействия с человеком, в отличие от линейных интерфейсов в формате «пользователь…
This media is not supported in your browser
VIEW IN TELEGRAM
А давайте оценим тот факт, что в новом релизе стартапа Миры Мурати Thinking Machines голосовую систему демонстрирует тот же сотрудник, что 2 года назад показывал первое демо GPT-4o в OpenAI

Ну давайте, скажите, что это сделано не специально
88😁78👍13🔥4🕊1