здесь просто посты со статьями

Synthesizing Programmatic Reinforcement Learning Policies with Large Language Model Guided Search (ICLR 2025)

Programmatic reinforcement learning (PRL) has been explored for representing policies through programs as a means to achieve interpretability and generalization. Despite promising outcomes, current state-of-the-art PRL methods are hindered by sample inefficiency, necessitating tens of millions of program-environment interactions. To tackle this challenge, we introduce a novel LLM-guided search framework (LLM-GS). Our key insight is to leverage the programming expertise and common sense reasoning of LLMs to enhance the efficiency of assumption-free, random-guessing search methods. We address the challenge of LLMs' inability to generate precise and grammatically correct programs in domain-specific languages (DSLs) by proposing a Pythonic-DSL strategy - an LLM is instructed to initially generate Python codes and then convert them into DSL programs. To further optimize the LLM-generated programs, we develop a search algorithm named Scheduled Hill Climbing, designed to efficiently explore the programmatic search space to improve the programs consistently. Experimental results in the Karel domain demonstrate our LLM-GS framework's superior effectiveness and efficiency. Extensive ablation studies further verify the critical role of our Pythonic-DSL strategy and Scheduled Hill Climbing algorithm. Moreover, we conduct experiments with two novel tasks, showing that LLM-GS enables users without programming skills and knowledge of the domain or DSL to describe the tasks in natural language to obtain performant programs.

👍2🔥2🫡1

74 views12:56

Can ChatGPT Learn My Life From a Week of First-Person Video?

Исследуется способность LLM узнавать о личной жизни владельца с помощью данных с action-камеры. Автор носил гарнитуру с камерой 54 часа в течение недели. Затем вгружал в GPT-4o and GPT-4o-mini и запрашивал анализ полученной инфы. Обе модели узнали базовую информацию об авторе (приблизительный возраст, пол). Более того, GPT-4o правильно сделала вывод, что автор из Питтсбурга, что он аспирант Carnegie Mellon University, правша и владелец кошки. Однако обе модели также страдали галлюцинациями и придумывали имена для людей, присутствующих на видеозаписях.

👍1🔥1🤣1

91 views14:39

здесь просто посты со статьями

StructRAG: Boosting Knowledge Intensive Reasoning of LLMs via Inference-time Hybrid Information Structurization (ICLR 2025)

Retrieval-augmented generation (RAG) - подход для улучшения LLM во многих задачах, основанных на внешних знаниях. Существующие методы RAG работают не очень хорошо с задачами на ризонинг, поскольку полезная информация, необходимая для этих задач, сильно разбросана по системам хранения знаний. Статья мотивирована когнитивными исследованиями о том, что люди преобразуют необработанную информацию в различные оптимально структурированные знания при решении задач на мышление. В работе предлагается подход StructRAG, который определяет оптимальный тип структуры для данной задачи, транслирует информацию в этот формат и выводит ответы на основе извлеченных знаний. Эксперименты показывают, что StructRAG достигает sota в сложных реальных приложениях.

imho: За этим направлением (разумеется, в более развитой его форме, чем сейчас) следующий хайп и мб AGI

🔥2👍1

79 viewsedited 13:25

здесь просто посты со статьями

Can LLMs Obfuscate Code? A Systematic Analysis of Large Language Models into Assembly Code Obfuscation (AAAI 2025)

Авторы вредоносных программ часто используют обфускацию кода, чтобы их вредоносное ПО было сложнее обнаружить. Существующие инструменты для генерации обфусцированного кода часто требуют доступа к исходному коду, а добавление новых обфускаций является нетривиальным, трудоемким процессом. Авторы задаются следующим вопросом: могут ли LLM генерировать новый обфусцированный ассемблерный код?

Если да, то это представляет риск для антивирусных фреймворков и потенциально увеличивает гибкость злоумышленников для создания новых шаблонов обфускации. В статья даётся утвердительный ответ на этот вопрос. Разрабатывается бенчмарк MetamorphASM, включающий набор данных MetamorphASM (MAD) вместе с тремя методами обфускации кода: мертвый код, подстановка регистров и изменение потока управления. MetamorphASM позволяет оценивать способность LLM генерировать и анализировать обфусцированный код. Анализируется успешность различных LLM (GPT-3.5/4, GPT-4o-mini, Starcoder, CodeGemma, CodeLlama, CodeT5 и LLaMA 3.1) в создании обфусцированного ассемблерного кода.

imho: очень интересно направление, связанное с обратной задачей по де-обфускации кода с помощью LLM

👍2🔥2❤1

88 views19:50

здесь просто посты со статьями

ReTool: Reinforcement Learning for Strategic Tool Use in LLMs

В статье предлагается подход для улучшения математического ризонинга LLM в задачах, где модели, обученные с помощью RL (например, DeepSeek R1), уступают интерпретаторам кода. Подход называется ReTool и работает в 2 этапа:

1) Динамическое чередование выполнения кода в реальном времени и рассуждений на естественном языке.
2) Автоматизированный RL-based подход обучения модели оптимальному вызову инструментов на основе обратной связи от результатов.

Обучение начинается с генерации синтетических данных для создания трейсов (последовательности) длинных рассуждений с кодом, используемых для тюнинга модели. Далее RL-обучение использует результаты задач как вознаграждения для итеративного улучшения стратегии вызова инструментов. Также авторами выявляется эффект самокоррекции кода, указывающий на адаптивное освоение инструментов.

imho: ресерчить tool reasoning сейчас очень своевременно

🔥2👍1

99 views07:51

здесь просто посты со статьями

Harnessing the Universal Geometry of Embeddings

Работа представляет метод vec2vec для трансляции эмбеддингов текстов из одного векторного пространства в другое без каких-либо парных данных (как в CLIP). Подход основан на гипотезе платонических представлений (предположение, что пространство векторных представлений внутри разных моделей и даже для разных модальностей в конечно счете имеет некоторую универсальную общую семантическую структуру представления знаний), и любой эмбеддинг авторы переводят в это представление и из него. Тестировался метод на эмбеддингах из разных моделей с различными архитектурами, колвом параметров и обучающими наборами данных.

Утверждается, что возможность перевода неизвестных эмбеддингов в другое пространство с сохранением их геометрии имеет понятные последствия для безопасности векторных баз данных: можно из открытых векторных баз данных переводить информацию в скрытые представления какой-то известной Foundation модели, про которую есть очень много методов, как интепретировать представления и извлекать информацию, и таким образом получать очень много казалось бы скрытой инфы.

👍3🔥3😱1

87 viewsedited 14:31

здесь просто посты со статьями

OJBench: A Competition Level Code Benchmark For Large Language Models

В работе представлена оценка всех топовых ЛЛМ на задачах по код ризонингу. Предлагается бенчмарк OJBench включает 232 задачи из соревнований по программированию China’s National Olympiad in Informatics (NOI) и International Collegiate Programming Contest (ICPC). Результаты показывают, что даже самые топовые модели фейлятся на задачах повышенной сложности. Например, Gemini-2.5-pro-exp 10% pass rate, Claude-3.5 0.2% 😱

Во всем этом интересно то, что отдельным челенджем стало собирать бенчмарки, на которым ллм явно показывают не-способность решать задачи. И приходится дополнительно усложнять экспериментальные сетапы и постановки задач, чтобы можно было выбивать заветную небольшую точность на ответах ЛЛМ.

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥2😱2

38 views15:01

здесь просто посты со статьями

Enigmata: Scaling Logical Reasoning in Large Language Models with Synthetic Verifiable Puzzles

В работе разрабатывается генеративный датасет Enigmata, который предназначен для улучшения способностей к ризонингу у LLM. Бенчмарк содержит 36 игр и задач из разных категорий (криптография, арифметика, логика, сеточные головоломки и др.) В основе бенчмарка лежит 1) генератор задач (для каждого из 36 типов) контролируемой сложности. 2) автоматический верификатор для оценки ответов ЛЛМ. С помощью генератора-верификатора ЛЛМ Qwen2.5 обучается в Reinforcement Learning with Verifiable Rewards (RLVR, это когда реворд достоверно проверен на корректность) сетапе, полученная модель называется Qwen2.5-32B-Enigmata.

Она превосходит o3-mini-high и o1 на датасетах: EnigmataEval (специально созданный для верификации набор задач из Enigmata), на ARC-AGI (32,8%) и ARC-AGI 2 (0,6%). При обучении на Enigmata модели Seed1.5-Thinking (Mixture-of-Experts система) в RLVR режиме, повышается её производительность в математических (AIME (2024-2025) и STEM задачах.

Т.е. если обучать в RLVR на Enigmata модели, можно относительно за недорого прокачивать их общие ризонинг способности.

👍2🔥2

53 viewsedited 15:49

здесь просто посты со статьями

Memory Sharing for Large Language Model based Agents

В работе предлагается довольно интересная модель логики обмена сообщениями ЛЛМ-агентов на основе шины.

Есть такое классическое решение для разработки архитектур передачи сообщений - шина. Например, в пк процессор и интерфейсы ввода/вывода, или на уровне ОС логика передачи сообщений между приложениями может быть реализована через Desktop Bus (шина). Так вот, в статье для нескольких ЛЛМ агентов предоставляется доступ к общему контексту (памяти), и ответы ЛЛМ-агентов видны остальным агентам, которые могут дообучаться на этом опыте. Они называют свой фреймворк Memory Sharing, оценивается качество каждого ответа ллм, если удовлетворительно, ответ помещается в общий пул памяти. Когда агент получает запрос, другой агент-извлекатор (Retriever) ищет в пуле общей памяти наиболее релевантую запись для запроса, она объединяется с исходным запросом для создания более информативного промпта для агента. Тем самым улучшая перформанс агентов-ризонеров.

Эксперименты охватывают домены: поэзии, логические задачи, планирование, используется всего 9 агентов-ризонеров на основе GPT-3.5-turbo, GPT-4o, open-mistral-7b. По мере увеличения памяти (от 20 % до 100 % новых записей) производительность большинства агентов монотонно растёт.

❤3👍2🔥1

39 views15:32

About

Blog

Apps

Platform