Это какая-то очень интересная история, если я правильно её понял. Авторы LLM-JEPA подумали-подумали и предложили лосс для обычной архитектуры без всяких сложностей джеп, который даёт репрезентации того же качества, что и джепы и не хуже традиционных подходов, и требует до 16x меньше данных, чем классика. И снова геометрический подход.
Semantic Tube Prediction: Beating LLM Data Efficiency with JEPA
Hai Huang, Yann LeCun, Randall Balestriero
Статья: https://arxiv.org/abs/2602.22617
Код: https://github.com/galilai-group/llm-jepa#stp
Ревью: https://arxiviq.substack.com/p/semantic-tube-prediction-beating
# TL;DR
ЧТО сделали:
Авторы предлагают Semantic Tube Prediction (STP) — вспомогательную целевую функцию (objective) для self-supervised learning, которая заставляет скрытые состояния (hidden states) LLM двигаться по плавным, локально линейным траекториям (геодезическим линиям) во время обучения. Ограничивая эволюцию скрытых состояний узкой «трубой» вокруг этих линий, STP отделяет истинный семантический сигнал от статистического шума, при этом не требуя ручной аугментации данных, характерной для предыдущих архитектур типа JEPA.
ПОЧЕМУ это важно:
Этот подход радикально улучшает соотношение сигнал/шум (SNR) при обновлении весов. В результате LLM достигает точности стандартного файнтюнинга на всём датасете, используя в 16 раз меньше данных. Бросая вызов строгим ограничениям эффективности данных, обусловленным традиционными степенными законами скейлинга, работа показывает, что геометрически обоснованные априорные предположения могут легко обходить прямолинейное наращивание объёмов данных.
Трубы тут: https://t.iss.one/gonzo_ML_podcasts/2625
Semantic Tube Prediction: Beating LLM Data Efficiency with JEPA
Hai Huang, Yann LeCun, Randall Balestriero
Статья: https://arxiv.org/abs/2602.22617
Код: https://github.com/galilai-group/llm-jepa#stp
Ревью: https://arxiviq.substack.com/p/semantic-tube-prediction-beating
# TL;DR
ЧТО сделали:
Авторы предлагают Semantic Tube Prediction (STP) — вспомогательную целевую функцию (objective) для self-supervised learning, которая заставляет скрытые состояния (hidden states) LLM двигаться по плавным, локально линейным траекториям (геодезическим линиям) во время обучения. Ограничивая эволюцию скрытых состояний узкой «трубой» вокруг этих линий, STP отделяет истинный семантический сигнал от статистического шума, при этом не требуя ручной аугментации данных, характерной для предыдущих архитектур типа JEPA.
ПОЧЕМУ это важно:
Этот подход радикально улучшает соотношение сигнал/шум (SNR) при обновлении весов. В результате LLM достигает точности стандартного файнтюнинга на всём датасете, используя в 16 раз меньше данных. Бросая вызов строгим ограничениям эффективности данных, обусловленным традиционными степенными законами скейлинга, работа показывает, что геометрически обоснованные априорные предположения могут легко обходить прямолинейное наращивание объёмов данных.
Трубы тут: https://t.iss.one/gonzo_ML_podcasts/2625
arXiv.org
Semantic Tube Prediction: Beating LLM Data Efficiency with JEPA
Large Language Models (LLMs) obey consistent scaling laws -- empirical power-law fits that predict how loss decreases with compute, data, and parameters. While predictive, these laws are...
❤14👍8✍7🤯4🌚2
Базу подвели под появление разных красивых структур в репрезентациях, выученных на текстах.
Symmetry in language statistics shapes the geometry of model representations
Dhruva Karkada, Daniel J. Korchinski, Andres Nava, Matthieu Wyart, Yasaman Bahri
https://arxiv.org/abs/2602.15029
https://github.com/dkarkada/symmetry-stats-repgeom
Ревью: https://arxiviq.substack.com/p/symmetry-in-language-statistics-shapes
# TL;DR
ЧТО сделали: Авторы разработали единую математическую теорию, которая доказывает, что высокоструктурированные геометрические репрезентации в языковых моделях (например, окружности для месяцев или одномерные непрерывные многообразия для исторических дат) возникают спонтанно. Причина — трансляционная симметрия в попарной статистике совместной встречаемости слов (co-occurrence) в датасете предобучения. Смоделировав эту встречаемость через непрерывные латентные переменные, исследователи аналитически вывели точную геометрию многообразий и подтвердили её как на простых эмбеддингах слов, так и на глубоких трансформерах (на примере Gemma 2 2B).
ПОЧЕМУ это важно: Исследование даёт фундаментальный организующий принцип для геометрической интерпретируемости. Работа показывает, что сложная внутренняя геометрия репрезентаций — это не обязательно результат хитрых архитектурных решений или глубоких вычислительных графов. Скорее, это прямое, аналитически предсказуемое следствие низкоуровневых статистических структур, заложенных в самих естественных данных. Это сильно проясняет, как модели организуют семантические концепты, и задаёт строгие теоретические границы для даунстрим-задач вроде линейного декодирования координат.
Репрезентировать тут: https://t.iss.one/gonzo_ML_podcasts/2636
Symmetry in language statistics shapes the geometry of model representations
Dhruva Karkada, Daniel J. Korchinski, Andres Nava, Matthieu Wyart, Yasaman Bahri
https://arxiv.org/abs/2602.15029
https://github.com/dkarkada/symmetry-stats-repgeom
Ревью: https://arxiviq.substack.com/p/symmetry-in-language-statistics-shapes
# TL;DR
ЧТО сделали: Авторы разработали единую математическую теорию, которая доказывает, что высокоструктурированные геометрические репрезентации в языковых моделях (например, окружности для месяцев или одномерные непрерывные многообразия для исторических дат) возникают спонтанно. Причина — трансляционная симметрия в попарной статистике совместной встречаемости слов (co-occurrence) в датасете предобучения. Смоделировав эту встречаемость через непрерывные латентные переменные, исследователи аналитически вывели точную геометрию многообразий и подтвердили её как на простых эмбеддингах слов, так и на глубоких трансформерах (на примере Gemma 2 2B).
ПОЧЕМУ это важно: Исследование даёт фундаментальный организующий принцип для геометрической интерпретируемости. Работа показывает, что сложная внутренняя геометрия репрезентаций — это не обязательно результат хитрых архитектурных решений или глубоких вычислительных графов. Скорее, это прямое, аналитически предсказуемое следствие низкоуровневых статистических структур, заложенных в самих естественных данных. Это сильно проясняет, как модели организуют семантические концепты, и задаёт строгие теоретические границы для даунстрим-задач вроде линейного декодирования координат.
Репрезентировать тут: https://t.iss.one/gonzo_ML_podcasts/2636
arXiv.org
Symmetry in language statistics shapes the geometry of model...
The internal representations learned by language models consistently exhibit striking geometric structure: calendar months organize into a circle, historical years form a smooth one-dimensional...
❤8👍6🔥1
Польза файликов AGENTS.md переоценена. Особенно если они не ручные.
Evaluating AGENTS.md: Are Repository-Level Context Files Helpful for Coding Agents?
Thibaud Gloaguen, Niels Mündler, Mark Müller, Veselin Raychev, Martin Vechev
Статья: https://arxiv.org/abs/2602.11988
Ревью: https://arxiviq.substack.com/p/evaluating-agentsmd-are-repository
# TL;DR
ЧТО сделали: Исследователи из ETH Zurich и LogicStar.ai тщательно проверили, действительно ли файлы контекста на уровне репозитория (такие как
ПОЧЕМУ это важно: Несмотря на повсеместные рекомендации лидеров индустрии использовать файлы контекста для направления агентов, эта статья показывает, что сгенерированные LLM файлы контекста на самом деле снижают процент успешного решения задач и при этом раздувают стоимость инференса более чем на 20%. Эти результаты ставят под сомнение стандартные рабочие эвристики, показывая, что предоставление моделям широких архитектурных обзоров часто отвлекает их, заставляя уходить в бесконечное исследование кодовой базы вместо сфокусированного выполнения задачи.
Подробнее: https://t.iss.one/gonzo_ML_podcasts/2646
Evaluating AGENTS.md: Are Repository-Level Context Files Helpful for Coding Agents?
Thibaud Gloaguen, Niels Mündler, Mark Müller, Veselin Raychev, Martin Vechev
Статья: https://arxiv.org/abs/2602.11988
Ревью: https://arxiviq.substack.com/p/evaluating-agentsmd-are-repository
# TL;DR
ЧТО сделали: Исследователи из ETH Zurich и LogicStar.ai тщательно проверили, действительно ли файлы контекста на уровне репозитория (такие как
AGENTS.md) улучшают работу автономных ИИ-кодеров. Поскольку в существующих бенчмарках отсутствуют репозитории с файлами контекста от самих разработчиков, авторы собрали AGENTBENCH — новый набор для оценки из 138 реальных задач по программной инженерии на Python из нишевых репозиториев. Они протестировали четыре передовые модели в трёх сценариях: без файла контекста, с файлом контекста от LLM и с написанным человеком файлом контекста.ПОЧЕМУ это важно: Несмотря на повсеместные рекомендации лидеров индустрии использовать файлы контекста для направления агентов, эта статья показывает, что сгенерированные LLM файлы контекста на самом деле снижают процент успешного решения задач и при этом раздувают стоимость инференса более чем на 20%. Эти результаты ставят под сомнение стандартные рабочие эвристики, показывая, что предоставление моделям широких архитектурных обзоров часто отвлекает их, заставляя уходить в бесконечное исследование кодовой базы вместо сфокусированного выполнения задачи.
Подробнее: https://t.iss.one/gonzo_ML_podcasts/2646
arXiv.org
Evaluating AGENTS.md: Are Repository-Level Context Files Helpful...
A widespread practice in software development is to tailor coding agents to repositories using context files, such as AGENTS.md, by either manually or automatically generating them. Although this...
🤣18😈5👍3😱2❤1👏1🤔1
Любопытная работа про память RNN и подобных линейных моделей.
Memory Caching: RNNs with Growing Memory
Ali Behrouz, Zeman Li, Yuan Deng, Peilin Zhong, Meisam Razaviyayn, Vahab Mirrokni
Статья: https://arxiv.org/abs/2602.24281
Ревью: https://arxiviq.substack.com/p/memory-caching-rnns-with-growing
# TL;DR
ЧТО сделали:
Авторы предлагают фреймворк Memory Caching (MC). Он разбивает входные последовательности на дискретные сегменты и кэширует сжатые состояния памяти (чекпоинты) рекуррентных нейросетей в конце каждого из них. Благодаря механизмам роутинга и гейтирования, текущие токены могут избирательно обращать внимание (attend) как на активную онлайн-память, так и на релевантное подмножество исторических закэшированных состояний.
Довольно сильно похоже на Hierarchical Sparse Attention (https://t.iss.one/gonzo_ML_podcasts/1574), но они на неё даже не ссылаются. Может быть в комбинации с Titans (https://t.iss.one/gonzo_ML_podcasts/1300).
ПОЧЕМУ это важно:
Рекуррентные нейросети (RNN) теоретически ограничены фиксированным объёмом памяти. Это заставляет их неизбежно перезаписывать прошлую информацию, что сильно бьёт по качеству на задачах, требующих точного извлечения фактов (recall-intensive). Memory Caching элегантно находит баланс между вычислительной эффективностью
Подробнее: https://t.iss.one/gonzo_ML_podcasts/2656
Memory Caching: RNNs with Growing Memory
Ali Behrouz, Zeman Li, Yuan Deng, Peilin Zhong, Meisam Razaviyayn, Vahab Mirrokni
Статья: https://arxiv.org/abs/2602.24281
Ревью: https://arxiviq.substack.com/p/memory-caching-rnns-with-growing
# TL;DR
ЧТО сделали:
Авторы предлагают фреймворк Memory Caching (MC). Он разбивает входные последовательности на дискретные сегменты и кэширует сжатые состояния памяти (чекпоинты) рекуррентных нейросетей в конце каждого из них. Благодаря механизмам роутинга и гейтирования, текущие токены могут избирательно обращать внимание (attend) как на активную онлайн-память, так и на релевантное подмножество исторических закэшированных состояний.
Довольно сильно похоже на Hierarchical Sparse Attention (https://t.iss.one/gonzo_ML_podcasts/1574), но они на неё даже не ссылаются. Может быть в комбинации с Titans (https://t.iss.one/gonzo_ML_podcasts/1300).
ПОЧЕМУ это важно:
Рекуррентные нейросети (RNN) теоретически ограничены фиксированным объёмом памяти. Это заставляет их неизбежно перезаписывать прошлую информацию, что сильно бьёт по качеству на задачах, требующих точного извлечения фактов (recall-intensive). Memory Caching элегантно находит баланс между вычислительной эффективностью
O(L) у RNN и растущей за O(L^2) ёмкостью трансформеров. Динамически расширяя эффективный объём памяти, эта техника позволяет субквадратичным архитектурам достигать трансформерного качества на задачах in-context retrieval и Needle-In-A-Haystack.Подробнее: https://t.iss.one/gonzo_ML_podcasts/2656
arXiv.org
Memory Caching: RNNs with Growing Memory
Transformers have been established as the de-facto backbones for most recent advances in sequence modeling, mainly due to their growing memory capacity that scales with the context length. While...
🤔6❤2👍1
Прикольная работа с ICLR 2026 Post-AGI Science and Society Workshop про "чужую" науку. Как генерить научные гипотезы, чуждые людям.
Alien Science: Sampling Coherent but Cognitively Unavailable Research Directions from Idea Atoms
Alejandro H. Artiles, Martin Weiss, Levin Brinkmann, Anirudh Goyal, Nasim Rahaman
Статья: https://arxiv.org/abs/2603.01092
Код: https://anonymous.4open.science/r/Paper-atomyzer-82F4
Ревью: https://arxiviq.substack.com/p/alien-science-sampling-coherent-but
# TL;DR
ЧТО сделали:
Авторы представили пайплайн, который разбивает тысячи статей по машинному обучению на дискретные «атомы идей», а затем обучает две генеративные модели. Первая максимизирует структурную связность (coherence) комбинаций атомов, а вторая минимизирует их когнитивную доступность (availability) для типичных исследователей. Скомбинировав эти модели, система сэмплирует «инопланетные» направления исследований — строго логичные, но крайне маловероятные для того, чтобы их предложили живые учёные.
ПОЧЕМУ это важно:
Стандартные языковые модели, когда их просят сгенерировать научные идеи, склонны выдавать высоковероятные, но инкрементальные комбинации, сходясь к узкому спектру до боли знакомых концепций. Формально отделив правдоподобность идеи от того, насколько легко до неё может додуматься человек, этот фреймворк позволяет исследователям намеренно изучать слепые зоны научного сообщества. Это смещает роль ИИ с простого ускорения брейншторминга на дополнение его по-настоящему неочевидными траекториями.
Чудить тут: https://t.iss.one/gonzo_ML_podcasts/2668
Alien Science: Sampling Coherent but Cognitively Unavailable Research Directions from Idea Atoms
Alejandro H. Artiles, Martin Weiss, Levin Brinkmann, Anirudh Goyal, Nasim Rahaman
Статья: https://arxiv.org/abs/2603.01092
Код: https://anonymous.4open.science/r/Paper-atomyzer-82F4
Ревью: https://arxiviq.substack.com/p/alien-science-sampling-coherent-but
# TL;DR
ЧТО сделали:
Авторы представили пайплайн, который разбивает тысячи статей по машинному обучению на дискретные «атомы идей», а затем обучает две генеративные модели. Первая максимизирует структурную связность (coherence) комбинаций атомов, а вторая минимизирует их когнитивную доступность (availability) для типичных исследователей. Скомбинировав эти модели, система сэмплирует «инопланетные» направления исследований — строго логичные, но крайне маловероятные для того, чтобы их предложили живые учёные.
ПОЧЕМУ это важно:
Стандартные языковые модели, когда их просят сгенерировать научные идеи, склонны выдавать высоковероятные, но инкрементальные комбинации, сходясь к узкому спектру до боли знакомых концепций. Формально отделив правдоподобность идеи от того, насколько легко до неё может додуматься человек, этот фреймворк позволяет исследователям намеренно изучать слепые зоны научного сообщества. Это смещает роль ИИ с простого ускорения брейншторминга на дополнение его по-настоящему неочевидными траекториями.
Чудить тут: https://t.iss.one/gonzo_ML_podcasts/2668
arXiv.org
Alien Science: Sampling Coherent but Cognitively Unavailable...
Large language models are adept at synthesizing and recombining familiar material, yet they often fail at a specific kind of creativity that matters most in research: producing ideas that are both...
🔥22👍5🤔2