Ml – Telegram

Computational_Life_How_Well_formed,_Self_replicating_Programs_Emerge….pdf

22 views23:13

Ученые из трех американских университетов проверили, как нейросети справляются с экзаменом CFA - одной из самых сложных квалификаций в финансах

В эксперименте участвовали шесть моделей рассуждений

Их проверили на 980 вопросах из трех уровней экзамена
• Gemini 3.0 Pro
• Gemini 2.5 Pro
• GPT-5
• Grok 4
• Claude Opus 4.1
• DeepSeek-V3.1

справились со всеми уровнями

19 views07:22

От_абстрактных_квантовых_гейтов_и_алгоритма_Дойча_до_реальных.pdf

37.2 KB

19 views07:34

ThreadWeaver: Adaptive Threading for Efficient Parallel Reasoning in Language Models

https://arxiv.org/abs/2512.07843
https://arxiviq.substack.com/p/threadweaver-adaptive-threading-for

Авторы представили ThreadWeaver — фреймворк, позволяющий LLM динамически разбивать последовательную цепочку рассуждений (CoT) на параллельные потоки

Обучив модель выдавать специальные управляющие токены (<Parallel>, <Thread>) и используя trie-based механизм внимания, система реализует паттерн выполнения «fork-join»

Для оптимизации используется модифицированный алгоритм P-GRPO, который балансирует между правильностью ответа и сокращением длины критического пути

Время инференса в сложных задачах на рассуждение (reasoning tasks) обычно растёт линейно с длиной цепочки (O(N)), создавая узкое место для масштабирования System 2 ThreadWeaver показывает, что можно сохранить SOTA-качество (на уровне последовательного Qwen3-8B) и при этом получить значительное ускорение по времени (до 1.53x)

Что важно, это работает на стандартных движках (например, vLLM) без необходимости писать кастомные CUDA-ядра или хитро управлять KV-кэшем

arXiv.org

ThreadWeaver: Adaptive Threading for Efficient Parallel Reasoning...

Scaling inference-time computation has enabled Large Language Models (LLMs) to achieve strong reasoning performance, but inherently sequential decoding leads to substantial latency, especially on...

18 views13:40

Google выложили в открытый доступ работу, где Ml создал RL-алгоритм, превзошедший разработанные людьми

Это работа команды Дэвида Сильвера (создателя AlphaGo), в которой они разработали подход, где мета-сеть учится генерировать правила обновления для RL-агентов

Тут об этом писали еще в октябре

Вот GitHub

Также можно ознакомиться с другой работой по метаградиентному RL и его онлайн-версией с мета-обученной функцией

17 views19:06

About

Blog

Apps

Platform