gonzo-обзоры ML статей
24.3K subscribers
3.46K photos
3 videos
3 files
1.61K links
Авторы:
Гриша Сапунов, ранее руководитель разработки Яндекс-Новостей, ныне CTO Intento. Области интересов: AI/ML/DL, биоинформатика.
Лёша Тихонов, ранее аналитик в Яндексе, автор Автопоэта, Нейронной Обороны... Области интересов: discrete domain, NLP, RL.
Download Telegram
Forwarded from gonzo_ML_podcasts
4👍4
Это какая-то очень интересная история, если я правильно её понял. Авторы LLM-JEPA подумали-подумали и предложили лосс для обычной архитектуры без всяких сложностей джеп, который даёт репрезентации того же качества, что и джепы и не хуже традиционных подходов, и требует до 16x меньше данных, чем классика. И снова геометрический подход.

Semantic Tube Prediction: Beating LLM Data Efficiency with JEPA
Hai Huang, Yann LeCun, Randall Balestriero
Статья: https://arxiv.org/abs/2602.22617
Код: https://github.com/galilai-group/llm-jepa#stp
Ревью: https://arxiviq.substack.com/p/semantic-tube-prediction-beating

# TL;DR

ЧТО сделали:
Авторы предлагают Semantic Tube Prediction (STP) — вспомогательную целевую функцию (objective) для self-supervised learning, которая заставляет скрытые состояния (hidden states) LLM двигаться по плавным, локально линейным траекториям (геодезическим линиям) во время обучения. Ограничивая эволюцию скрытых состояний узкой «трубой» вокруг этих линий, STP отделяет истинный семантический сигнал от статистического шума, при этом не требуя ручной аугментации данных, характерной для предыдущих архитектур типа JEPA.

ПОЧЕМУ это важно:
Этот подход радикально улучшает соотношение сигнал/шум (SNR) при обновлении весов. В результате LLM достигает точности стандартного файнтюнинга на всём датасете, используя в 16 раз меньше данных. Бросая вызов строгим ограничениям эффективности данных, обусловленным традиционными степенными законами скейлинга, работа показывает, что геометрически обоснованные априорные предположения могут легко обходить прямолинейное наращивание объёмов данных.

Трубы тут: https://t.iss.one/gonzo_ML_podcasts/2625
14👍87🤯4🌚2
Forwarded from gonzo_ML_podcasts
🔥7👍1
Базу подвели под появление разных красивых структур в репрезентациях, выученных на текстах.

Symmetry in language statistics shapes the geometry of model representations
Dhruva Karkada, Daniel J. Korchinski, Andres Nava, Matthieu Wyart, Yasaman Bahri
https://arxiv.org/abs/2602.15029
https://github.com/dkarkada/symmetry-stats-repgeom
Ревью: https://arxiviq.substack.com/p/symmetry-in-language-statistics-shapes

# TL;DR

ЧТО сделали: Авторы разработали единую математическую теорию, которая доказывает, что высокоструктурированные геометрические репрезентации в языковых моделях (например, окружности для месяцев или одномерные непрерывные многообразия для исторических дат) возникают спонтанно. Причина — трансляционная симметрия в попарной статистике совместной встречаемости слов (co-occurrence) в датасете предобучения. Смоделировав эту встречаемость через непрерывные латентные переменные, исследователи аналитически вывели точную геометрию многообразий и подтвердили её как на простых эмбеддингах слов, так и на глубоких трансформерах (на примере Gemma 2 2B).

ПОЧЕМУ это важно: Исследование даёт фундаментальный организующий принцип для геометрической интерпретируемости. Работа показывает, что сложная внутренняя геометрия репрезентаций — это не обязательно результат хитрых архитектурных решений или глубоких вычислительных графов. Скорее, это прямое, аналитически предсказуемое следствие низкоуровневых статистических структур, заложенных в самих естественных данных. Это сильно проясняет, как модели организуют семантические концепты, и задаёт строгие теоретические границы для даунстрим-задач вроде линейного декодирования координат.

Репрезентировать тут: https://t.iss.one/gonzo_ML_podcasts/2636
8👍6🔥1
Forwarded from gonzo_ML_podcasts
🔥17👍7😁511🥰1🤡1
Польза файликов AGENTS.md переоценена. Особенно если они не ручные.

Evaluating AGENTS.md: Are Repository-Level Context Files Helpful for Coding Agents?
Thibaud Gloaguen, Niels Mündler, Mark Müller, Veselin Raychev, Martin Vechev
Статья: https://arxiv.org/abs/2602.11988
Ревью: https://arxiviq.substack.com/p/evaluating-agentsmd-are-repository

# TL;DR

ЧТО сделали: Исследователи из ETH Zurich и LogicStar.ai тщательно проверили, действительно ли файлы контекста на уровне репозитория (такие как AGENTS.md) улучшают работу автономных ИИ-кодеров. Поскольку в существующих бенчмарках отсутствуют репозитории с файлами контекста от самих разработчиков, авторы собрали AGENTBENCH — новый набор для оценки из 138 реальных задач по программной инженерии на Python из нишевых репозиториев. Они протестировали четыре передовые модели в трёх сценариях: без файла контекста, с файлом контекста от LLM и с написанным человеком файлом контекста.

ПОЧЕМУ это важно: Несмотря на повсеместные рекомендации лидеров индустрии использовать файлы контекста для направления агентов, эта статья показывает, что сгенерированные LLM файлы контекста на самом деле снижают процент успешного решения задач и при этом раздувают стоимость инференса более чем на 20%. Эти результаты ставят под сомнение стандартные рабочие эвристики, показывая, что предоставление моделям широких архитектурных обзоров часто отвлекает их, заставляя уходить в бесконечное исследование кодовой базы вместо сфокусированного выполнения задачи.

Подробнее: https://t.iss.one/gonzo_ML_podcasts/2646
🤣18😈5👍3😱21👏1🤔1
Forwarded from gonzo_ML_podcasts
😁12🔥21
Любопытная работа про память RNN и подобных линейных моделей.

Memory Caching: RNNs with Growing Memory
Ali Behrouz, Zeman Li, Yuan Deng, Peilin Zhong, Meisam Razaviyayn, Vahab Mirrokni
Статья: https://arxiv.org/abs/2602.24281
Ревью: https://arxiviq.substack.com/p/memory-caching-rnns-with-growing

# TL;DR

ЧТО сделали:
Авторы предлагают фреймворк Memory Caching (MC). Он разбивает входные последовательности на дискретные сегменты и кэширует сжатые состояния памяти (чекпоинты) рекуррентных нейросетей в конце каждого из них. Благодаря механизмам роутинга и гейтирования, текущие токены могут избирательно обращать внимание (attend) как на активную онлайн-память, так и на релевантное подмножество исторических закэшированных состояний.

Довольно сильно похоже на Hierarchical Sparse Attention (https://t.iss.one/gonzo_ML_podcasts/1574), но они на неё даже не ссылаются. Может быть в комбинации с Titans (https://t.iss.one/gonzo_ML_podcasts/1300).

ПОЧЕМУ это важно:
Рекуррентные нейросети (RNN) теоретически ограничены фиксированным объёмом памяти. Это заставляет их неизбежно перезаписывать прошлую информацию, что сильно бьёт по качеству на задачах, требующих точного извлечения фактов (recall-intensive). Memory Caching элегантно находит баланс между вычислительной эффективностью O(L) у RNN и растущей за O(L^2) ёмкостью трансформеров. Динамически расширяя эффективный объём памяти, эта техника позволяет субквадратичным архитектурам достигать трансформерного качества на задачах in-context retrieval и Needle-In-A-Haystack.

Подробнее: https://t.iss.one/gonzo_ML_podcasts/2656
🤔62👍1
Forwarded from gonzo_ML_podcasts
3👌3
Прикольная работа с ICLR 2026 Post-AGI Science and Society Workshop про "чужую" науку. Как генерить научные гипотезы, чуждые людям.

Alien Science: Sampling Coherent but Cognitively Unavailable Research Directions from Idea Atoms
Alejandro H. Artiles, Martin Weiss, Levin Brinkmann, Anirudh Goyal, Nasim Rahaman
Статья: https://arxiv.org/abs/2603.01092
Код: https://anonymous.4open.science/r/Paper-atomyzer-82F4
Ревью: https://arxiviq.substack.com/p/alien-science-sampling-coherent-but

# TL;DR

ЧТО сделали:
Авторы представили пайплайн, который разбивает тысячи статей по машинному обучению на дискретные «атомы идей», а затем обучает две генеративные модели. Первая максимизирует структурную связность (coherence) комбинаций атомов, а вторая минимизирует их когнитивную доступность (availability) для типичных исследователей. Скомбинировав эти модели, система сэмплирует «инопланетные» направления исследований — строго логичные, но крайне маловероятные для того, чтобы их предложили живые учёные.

ПОЧЕМУ это важно:
Стандартные языковые модели, когда их просят сгенерировать научные идеи, склонны выдавать высоковероятные, но инкрементальные комбинации, сходясь к узкому спектру до боли знакомых концепций. Формально отделив правдоподобность идеи от того, насколько легко до неё может додуматься человек, этот фреймворк позволяет исследователям намеренно изучать слепые зоны научного сообщества. Это смещает роль ИИ с простого ускорения брейншторминга на дополнение его по-настоящему неочевидными траекториями.

Чудить тут: https://t.iss.one/gonzo_ML_podcasts/2668
🔥22👍5🤔2