Data Secrets – Telegram

Data Secrets

87K subscribers

6.48K photos

672 videos

20 files

2.75K links

Главный по машинному обучению

Сотрудничество: @veron_28

РКН: clck.ru/3FY3GN

Download Telegram

About

Blog

Apps

Platform

87K subscribers

KVzap: Nvidia научились в 3–4 раза эффективнее использовать память на инференсе

KV-кэш сегодня – главная ахиллесова пята трансформеров при масштабировании контекста. Он растет линейно по длине последовательности и хранится для каждого слоя и каждой головы.

Например, для LLaMA-подобной модели на 65B параметров KV-cache при 128k токенов занимает ~335 ГБ памяти. И по времени это тоже больно бьет.

При этом большинство оптимизаций сокращают KV-cache по слоям или по головам. Хотя главный потенциал – именно по оси токенов: далеко не все из них реально нужны модели.

Первый рабочий способ сокращения KV по токенам придумали авторы KVzip: до 4× сжатия при нулевых потерях качества. Но на практике метод оказался слишком медленным.

Nvidia взяли эту идею, немного ее переделали и получили почти то же самое, но практически бесплатно.

Они просто обучают маленькую модель, которая по hidden state токена предсказывает, насколько важен его KV. Для каждого слоя она своя, но это либо линейная модель, либо двухслойный MLP — максимум 1–2 матричных умножения.

И все, никаких дорогих операций и пересчетов (для сравнения: в KVzip промпт по сути приходилось гонять дважды). Дальше просто выкидываются KV-пары, у которых важность ниже заданного порога.

Compute overhead — около 0.02% FLOPs для линейных моделей. На длинном контексте это шум на фоне квадратичного внимания.

Деградация на бенчмарках – около нуля, сжатие – 3–4×. Прямо сказка какая-то (хотя, конечно, многое все еще зависит от движка).

Снимаем шляпу перед Nvidia за отличную работу. Все в опенсорсе, кстати.

https://arxiv.org/abs/2601.07891

❤204⚡47👍34🔥24🤯6😁3🤗2

23.7K views11:37

Уже четвертую по счету задачу Эрдеша решила GPT-5.2 Pro

Теренс Тао назвал это решение «возможно, наиболее недвусмысленным» в плане уникальности подхода.

Автор решения (если так можно называть человека, который закинул задачку в ChatGPT 🤔) пишет, что никаких предыдущих решений вообще не было. Это не совсем так: на форуме люди пишут, что нашли черновики доказательства в литературе 1936 и 1966 года. Но Тао отмечает, что подход GPT-5.2 от них отличается.

Интересно, чем GPT-5.2 будет удивлять, когда задачки Эрдеша кончатся 😏

www.erdosproblems.com/forum/thread/281?order=oldest

Please open Telegram to view this post

VIEW IN TELEGRAM

1🔥132❤29🤯25👍13😁13🦄3

26.1K views04:53

Навыки аналитики выходит за рамки одной профессии

Работа с данными становится частью разных ролей: от маркетинга до управления продуктами.
Поэтому аналитические навыки ценятся не только у дата-специалистов.

На программе «Аналитика данных» от МФТИ и Нетологии вы последовательно разберёте весь путь работы с данными: от сбора и обработки до анализа и визуализации. В программе — Python, базы данных и базовые методы ИИ.

Обучение проходит онлайн и подойдёт тем, кто хочет войти в аналитику или систематизировать знания. После выпуска вы получаете дипломы МФТИ и Нетологии и готовое портфолио проектов.

Начать учиться → https://netolo.gy/ew7d

Реклама. ООО “Нетология” ОГРН 1207700135884 Erid:2VSb5z6sZN1

🗿29❤7😁5👍1😎1

20.5K viewsedited 08:01

Cursor существенно прокачали своего BugBot

Напоминаем, что это агент для автоматического code review. Появился он относительно недавно, но в самом начале пользы от него было не очень много.

Зато сейчас resolution rate вырос с 52% до 70%, а средняя доля пойманных за один запуск багов – с 0.4 to 0.7. Это значит, что доля разрешенных багов на PR выросло с 0.2 до 0.5, то есть в 2.5 раза. Уже выглядит целесообразно к использованию.

На этот скачок, правда, Cursor понадобилось около 40 итераций экспериментов и доработок: посмотрите, какая неоднородная лесенка на графике (числа в кружочках – номера версий, а по осям – доли пойманных и решенных багов).

Лучше всего сработало прогонять один и тот же PR через несколько разных представлений diff’а: обычный unified diff, diff с расширенным контекстом (код до-после), diff словами и тд. Запускается несколько независимых проверок, затем агент их склеивает.

https://cursor.com/blog/building-bugbot

❤57👍32😁18🤨3❤‍🔥1🔥1🤯1

22K views09:03

😞

Please open Telegram to view this post

VIEW IN TELEGRAM

😁505👍24🤯11❤5🔥33👌2🗿1

22.1K views10:32

Природа настолько очистилась, что на полки магазинов вернулись ~~дельфины~~ GeForce GTX 1050 Ti

Цена на восставшую из-за дефицита памяти десятилетнюю видеокарту варьируется от 14 до 18к. Спасибо ИИ-слопу!

😁305😍24🤯17🗿16👍87❤4🔥3

22.7K views12:54

В подкасте «Сегодня на ретро» от Selectel обсудили многие AI-тренды и реальные кейсы. Один из ключевых моментов – почти любой AI-проект со временем начинает требовать больше вычислительных ресурсов.

При запуске и масштабировании важно иметь IT-инфраструктуру, которую можно быстро запустить и легко адаптировать.

В Selectel облачные и выделенные серверы с GPU можно настроить за несколько минут через удобную панель управления. А большой выбор GPU — от GTX и RTX до A100 и H200 — позволит закрыть самые разные AI-задачи.

Какие мощности нужны вашему проекту? Проверьте на практике: https://slc.tl/383hy

Реклама. АО "Селектел". erid:2W5zFJkVehE

🗿23🤨10❤4👍3⚡2🦄22🤝1

21.3K views15:02

Илон Маск требует с OpenAI 134 миллиарда долларов в качестве «компенсации»

😐

Выяснилось, что в январе миллиардер уже успел подать в федеральный суд США новый иск против его любимчиков OpenAI и Microsoft (а у вас как год начинается? 😌).

Он утверждает, что обе компании получили «неправомерную прибыль» благодаря его раннему участию в OpenAI, и что они должны вернуть ему эти деньги.

Математика такая:

– В 2015 он помогал основать OpenAI и вложил примерно $38 млн – это примерно 60% начального финансирования.

– Его эксперты утверждают, что за счет этих вкладов (и финансовых, и репутационных) OpenAI получила $65,5–$109,4 млрд «неправомерной прибыли», а Microsoft – $13,3–$25,1 млрд. Эти деньги были получены якобы в обход прав Маска как соучредителя и инвестора.

– Итого общий диапазон требований составляет $79–$134 млрд в зависимости от оценок и модели расчета.

OpenAI уже дала комментарий: они назвали иск несерьезным и окрестили его частью кампании по преследованию стартапа by Mr Musk.

Суд назначен на апрель.

Please open Telegram to view this post

VIEW IN TELEGRAM

😁16653❤23👍13🗿4🤯3🤔1👌1

22.4K viewsedited 16:04

«Эра написания кода людьми прошла»

Так высказался в X создатель Node.js Райан Даль. Вот полный перевод поста:

Это уже было сказано тысячу раз, но позвольте мне добавить свой голос: эпоха людей, пишущий код, закончилась. Это тревожно для тех из нас, кто идентифицирует себя как SWE, но это факт. Это не значит, что SWE теперь лишены работы, но это уже точно не написание синтаксиса напрямую.

Посвящается тем, кто сейчас едет на работу писать код руками

😁294👍68🫡55❤1310🔥66💯5👏4🤔2

29.8K views06:13

Исследование от Google: если усиливать в LLM внутренние маркеры диалога (типа "Oh" или "Wait"), то точность ответов может вырасти в 2 раза на сложных задачах

У корпорации вышла очень интересная полу-философская статья о том, что по сути представляет из себя ризонинг. Они пишут, что RL, на самом деле, учит модели думать не дольше, а коллективнее.

Вы точно замечали, что когда модель думает, она чаще всего как бы симулирует диалог между разными внутренними голосами. Она задает себе вопросы, может что-то покритиковать или выделить. И вот Google пишут, что в такой структуре внутреннего диалога и заключен феномен ризонинга.

Самое занятное – как они это доказывают:

– Авторы берут sparse autoencoder (что это такое и зачем оно нужно мы писали тут) и находят нейронный признак, который отвечает за удивление/осознание/смену точки зрения. Этот признак активируется в начале предложений в диалоговых контекстах, и на практике просто отвечает за употребление таких штук как «О!», «Подожди-ка», «Ага, значит...».

– Затем этот признак специально усиливают во время генерации и смотрят на метрики (модель – DeepSeek-R1-Llama-8B).

– Итог: на сложных задачах комбинаторной арифметики, на которых исходная модель дает 27.1% accuracy, модель с усилением диалогового маркера дает уже 54.8%, а с подавлением этого маркера – 23.8%.

Стат-значимость проверена: авторы специально сравнивали усиление этой фичи с усилением других признаков, и эффект очевиден. Плюс, параллельно с усилением этого маркера в модели также растет способность к когнитивному стратегическому мышлению.

Короче, LLM все еще изучены на 0.01%. Надо как-нибудь попробовать в промпте написать Используй побольше "ах", "ох", "точно" и "ага", и понаблюдать за результатом.

arxiv.org/pdf/2601.10825

1😁232❤67🔥37🤯17👍139⚡7🏆4🤔2❤‍🔥1

23.6K viewsedited 08:15

Инженера уволили (?) из xAI через пару дней после выхода его большого интервью о компании

Пока информацию именно об увольнении не подтвердили: сам парень написал только, что он «Покинул xAI, но к бывшей команде и коллегам испытывает только любовь».

Само интервью скандальным не назовешь (какие-то подробности работы в xAI и с Илоном Маском там есть, но без жести), так что причина такого резкого ухода не ясна.

Но если это не лучшая реклама для интервью с MTS, то что?

https://youtu.be/8jN60eJr4Ps

😁11221❤13🤔8

21.1K viewsedited 11:10

Stereo Data Ёлка от VK: сведение итогов года в идеальный микс 🎧

Команда VK приглашает специалистов по данным, ML-инженеров и всех, кто следит за трендами, на заключительное событие года — Stereo Data Ёлку, которая пройдёт 24 января в Москве и Санкт-Петербурге.

Мероприятие построено вокруг уникальной концепции «стереозвука» для вашего профессионального восприятия:
Левый канал (аналитика): глубокий разбор итогов по основным направлениям в ML/DS
Правый канал (инсайты): саундчек лучших решений VK RecSys Challenge, который будет доступен только офлайн.

Участвуйте офлайн! Stereo Data Ёлка – это атмосферное пространство с идеальным звуком для общения с коллегами. Вас ждёт афтепати с фирменными угощениями, подарки за активность и нетворкинг с лучшими специалистами индустрии.

Формат: гибридный (онлайн-трансляция будет здесь), но полное стереопогружение — только на офлайн-площадках.
Регистрация открыта до 22 января.

Регистрация для Москвы: https://bit.ly/3Nk467D?erid=2VtzqwpLZpF
Для Санкт-Петербурга: https://bit.ly/4pL1Aop?erid=2VtzqwpLZpF

22😁10🗿9❤7👍6🤨2

19.6K views15:02

xAI опенсорснули код рекомендательной системы X

Маск пообещал, что репозиторий будет обновляться примерно раз в месяц. Весов и кода для обучения нет (свой твиттер за ночь написать не получится, эх).

Архитектура ранжирующей модели, кстати, скопирована с Grok (не путать с «в качестве ранжирующей модели используется Grok»).

Подробнее можно почитать вот тут.

https://github.com/xai-org/x-algorithm/

GitHub - xai-org/x-algorithm: Algorithm powering the For You feed on X

Algorithm powering the For You feed on X. Contribute to xai-org/x-algorithm development by creating an account on GitHub.

👍67🔥28❤11🤔6😁2

19.9K viewsedited 16:23

Всплыла довольно скандальная история про Nvidia и пиратство книг для обучения ИИ

Для начала контекст. В начале 2024 года группа авторов подала иск против Nvidia. Они утверждали, что компания использует для обучения моделей Books3 – пиратский датасет с сотнями книг. NVIDIA, к слову, тогда заявила, что это попадает под «добросовестное использование» 😏

С тех пор судебный процесс продолжается, и теперь, в рамках расширенного иска, в деле внезапно появилась переписка между сотрудником NVIDIA и Anna’s Archive (это пиратская теневая библиотека, в которой собраны в том числе защищенные книги и статьи).

Что было в переписке:

– Сотрудник из команды по стратегии данных NVIDIA обратился к Anna’s Archive и спросил «что библиотека может предложить, и как получить быстрый доступ к корпусу книг».

– После этого, что самое смешное, Anna’s Archive сами предупредили NVIDIA, что данные являются незаконно полученными и (внимание) попросили подтвердить, действительно ли у сотрудника есть внутреннее разрешение на работу с таким материалом.

– Через неделю руководство NVIDIA дало зеленый свет, оправдавшись давлением конкуренции. После этого Anna’s Archive предоставили доступ.

Точные объемы данных (как и то, сколько Nvidia за них заплатили) неизвестны. Пишут, что их было около 500 терабайт – а это миллионы книг.

На этом, кстати, веселье не кончается: авторы утверждают, что Nvidia, скорее всего, использовала также другие аналогичные библиотеки типа LibGen, Sci-Hub, Z-Library и даже распространяла скрипты, якобы позволяющие корпоративным клиентам автоматически скачивать такие датасеты (но это еще предстоит доказать).

Please open Telegram to view this post

VIEW IN TELEGRAM

😁1654128🔥17⚡16❤9🆒3🕊2❤‍🔥1🤔1💯1

22.3K viewsedited 07:20

This media is not supported in your browser

VIEW IN TELEGRAM

Ваша ежедневная порция обещаний от стартаперов, сэр: Дарио Амадеи заявил, что вся разработка ПО будет автоматизирована в ближайший год

По сути, Дарио говорит о сингулярности: он утверждает, что через 6-12 месяцев работу SWE смогут end-to-end выполнять агенты, а это значит, что эти агенты смогут создавать новые поколения агентов.

Конечно, есть сдерживающие факторы вроде мощностей и времени обучения, – но тем не менее, ускорение прогресса на порядок, по мнению Дарио, наступит уже в течение нескольких лет.

Источник (кстати, довольно интересная дискуссия с ним и Демиссом Хассабисом)

😁146👍36🔥18❤6🤔5🕊3

16.7K views10:38

⚡️ Мы запускаем DS Lab – облачную IDE для удобной работы с мощным железом Почти каждый, кто когда-либо пытался арендовать GPU или другие ресурсы, сталкивался с одной из трех проблем: 1. Сложность и затянутость установки окружения 2. Высокие цены и недоступность…

Прошло чуть больше месяца с момента запуска DS Lab – облачной IDE с большим выбором GPU от команды Data Secrets

Все это время сервис продолжает активно развиваться. Множество ваших отзывов и запросов было для нас главным ориентиром, – и мы оперативно обновляли DS Lab так, чтобы платформа стала еще удобее.

Хотим поделиться здесь основными апдейтами:

➖

Добавили SSH-доступ. Теперь вы сможете подключаться к вашим проектам из любых внешних IDE (VS Code, Cursor и др), продолжая использовать при этом наши ресурсы, включая мощные GPU. Для этого нужно просто скопировать в терминал команды для подключения.

➖

Для проектов появились предустановленные образы. Мы можете выбрать тот, который подходит вам больше всего, и не тратить время на установку базовых библиотек. Например, есть образ для ML: он содержит PyTorch, transformers, TensorFlow и др.

➖

В то же время все скачанные вами библиотеки теперь сохраняются от сессии к сессии. К любому исходному образу вы можете добавлять (или удалять из него) библиотеки, и эти настройки сохранятся для будущих запусков. Вес окружения не занимает выделенную память и не влияет на скорость запуска проектов.

➖

Добавили бесконечное гибкое хранилище. Теперь, если в выбранной подписке закончится объем выделенной памяти, вам не обязательно сразу переходить на более высокий тариф: вы можете использовать ровно столько добавленной памяти, сколько вам необходимо – это стоит всего 4₽/мес за дополнительный GB. Лимитов на использование памяти нет.

Кроме того, мы оптимизировали работу нескольких микросервисов и усилили меры безопасности: надежнее, быстрее, удобнее!

➡️

Попробуйте DS Lab бесплатно: dslab.tech

➡️

Подписывайтесь на канал сервиса, чтобы следить за развитием проекта: @dslab

Please open Telegram to view this post

VIEW IN TELEGRAM

❤55👍40🔥17🗿4🤯3🤨3😁2

15K viewsedited 12:18

Черный день для Cursor: Anthropic выкатили полноценное расширение для Claude Code в VS Code

Выглядит привычно: ассистент сбоку, подсказки через diff, добавились явные указатели контекста с помощью @. В целом намного удобнее, чем обычный Claude Code, и вероятно многим понравится даже больше, чем в Cursor.

Установить: https://marketplace.visualstudio.com/items?itemName=anthropic.claude-code

2❤120😁71👍32🤯6🫡6🔥5⚡21

15.9K views14:42

Anthropic выложили в общий доступ тестовое задание на позицию инженера

Правда, сейчас они это тестовое уже не дают, потому что Claude 4.5 Opus за 2 часа прорешал его качественнее, чем любой кандидат в истории стартапа (об этом говорили еще во время релиза модели) ☕️

Суть в том, что вам дан плохо и запутанно написанный код, и нужно его понять и оптимизировать, переписав алгоритм. И если заглянуть в репозиторий, то становится понятно, почему Opus достаточно легко обошел людей: он как раз хорошо и быстро понимает смысл кода (то, на что человеку требуется много времени), умеет выделять самые важные куски и выкидывать целые блоки логики, если они не нужны. Плюс, агентам действительно легче дается переписать логику полностью, как здесь и требуется, чем исправлять кусками.

Можно попробовать порешать и посоревноваться с ИИ. Это, кстати, реальный шанс попасть на собес в Anthropic:

Если вы оптимизируете систему менее чем за 1487 циклов, превзойдя лучшие показатели Claude Opus 4.5 на момент запуска, отправьте нам свой код (и, в идеале, резюме) по адресу [email protected], чтобы впечатлить нас и, возможно, обсудить собеседование.

https://github.com/anthropics/original_performance_takehome

Please open Telegram to view this post

VIEW IN TELEGRAM

2❤5435😁29👍5🤨5🔥3

12.4K views16:20