Artificial Intelligence

🧠 LogicRAG: умный RAG без предсобранных графов

LLM часто ошибаются, когда ответ требует связать много фактов. Классический GraphRAG строит огромный граф по всему корпусу, что дорого и не всегда соответствует логике вопроса.

LogicRAG решает это иначе:

Разбивает запрос на подзадачи и строит небольшой граф зависимостей только для этого вопроса.

Упорядочивает его топологической сортировкой и решает шаг за шагом, подгружая только нужные данные.

Ведёт «скользящую память» — краткое резюме найденных фактов, удаляя лишний контекст.

Объединяет подзадачи одного уровня, чтобы не делать лишние запросы.

Не повторяет почти одинаковые подзапросы.

📊 Результаты:

- 2WikiMQA: +14,7% точности к лучшему базовому методу.
- HotpotQA и MuSiQue: стабильное превосходство.
- Время ответа ~9,8 секунд без затрат на построение графа.

💡 Итог: извлечение данных следует логике вопроса, а не заранее заготовленной карте, что даёт точнее и дешевле ответы.

arxiv.org/abs/2508.06105

👍6❤2🔥1

3.79K views11:04

Forwarded from Machinelearning

📌

Как создавали RL-агент AutoGLM-OS, который выбил SOTA на OSWorld, обогнав OpenAI и Anthropic.

Автономные агенты, способные управлять рабочим столом - это Грааль современного HCI. Но их обучение сопряжено с трудностями: GUI созданы для людей, а не для машин, а масштабирование RL упирается в неэффективность и нестабильность сред.

В Z.ai сделали фреймворк COMPUTERRL, который лег в основу агента AutoGLM-OS. Результат - state-of-the-art на бенчмарке OSWorld: 48.1% успешных выполнений и это лучше, чем у OpenAI CUA 03 (42.9%), UI-TARS-1.5 (42.5%) и Claude 4.0 Sonnet (30.7%).

OSWorld — это крупный бенчмарк из 369 заданий для проверки многомодальных ИИ-агентов в реальных условиях. Он работает в Ubuntu, Windows и macOS.

В нем ИИ выполняет открытые задачи: работает с веб- и десктопными приложениями, управляет файлами, запускает процессы. Каждое задание имеет четкие начальные условия и скрипты для оценки, чтобы результаты можно было воспроизвести.

Такие высокие показатели - результат комбинации 3-х инноваций.

🟡

Новая парадигма взаимодействия API-GUI.

Фреймворк объединяет GUI-взаимодействия с быстрыми и точными API-вызовами образуя систему, которая через LLM автоматически анализирует примеры задач, генерирует необходимый API-код для стандартных приложений Ubuntu и даже создает для него базовые тесты.
Таким образом, агент использует быстрые API там, где это возможно, и переключается на GUI для общих задач, что повышает и скорость, и надежность. Абляция показала, что переход от GUI-only к API-GUI поднимает средний показатель успеха с 11.2% до 26.2%.

🟡

Масштабируемая распределенная RL-инфраструктура.

OSWorld крайне ресурсоемок, и запуск множества его экземпляров на одном узле это тот еще квест. Z.ai полностью переработали эту среду, используя qemu-in-docker для легковесного развертывания VM, gRPC для связи между узлами и полностью асинхронный фреймворк AgentRL. Это позволило создать кластер из тысяч параллельных виртуальных сред, к котором онлайн-обучение RL-агентов стало максимально эффективным.

🟡

Стратегия обучения Entropulse.

Entropulse решает проблему коллапса энтропии, чередуя фазы RL с периодическими сессиями SFT. Во время RL-фазы собираются все успешные траектории, и на их основе формируется новый SFT-датасет. Затем модель дообучается на этом датасете, что позволяет восстановить её исследовательскую способность без потери производительности. После этого запускается вторая, более эффективная фаза RL.

Эта стратегия позволила AutoGLM-OS, построенному на базе 9B GLM-4, достичь финального результата в 48.1%, в то время как после первой RL-фазы показатель был 42.0%.

🟡

Arxiv

@ai_machinelearning_big_data

#AI #ML #Agents #AutoGLM #Zai

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

❤5👍3🔥2🤔1

3.09K views13:31

Artificial Intelligence

The LLM Evaluation Framework

🖥

Github: https://github.com/confident-ai/deepeval

📕

Colab: https://colab.research.google.com/drive/1PPxYEBa6eu__LquGoFFJZkhYgWVYE6kh?usp=sharing

🔗 Project: https://deepeval.com

@ArtificialIntelligencedl

Please open Telegram to view this post

VIEW IN TELEGRAM

❤2👍2🔥1

3.22K views11:53

Artificial Intelligence

Вчера была первая встреча AI VK & Pro – классный ивент про рекомендательные системы

Собрались все, кто так или иначе в теме RecSys и ML: от инженеров из BigTech до исследователей. Получилось на стиле: много общения, глитч-декор, активный нетворкинг

Команда RecSys из VK рассказала, куда движутся рекомендации внутри экосистемы, как они учатся глубже понимать контент и строят новые технологии вокруг этого.

Было ярко: DJ-сеты, активити и даже турнир по су-е-фа.

❤5🔥4👍3👎1🥰1👏1😁1

3.34K views17:09

Artificial Intelligence

Forwarded from Machinelearning

⚡️

200+ готовых сценариев для n8n

Нашёл простой и полезный ресурс: GitHub-репозиторий с 200+ бесплатными workflow для n8n.

Темы: продажи, маркетинг, учёт финансов, кодинг и личная продуктивность.

Что такое n8n
- Open-source инструмент для автоматизации без кода
- Визуальный конструктор: соединяете блоки и получаете процесс
- Есть сотни интеграций: почта, CRM, таблицы, мессенджеры, вебхуки
- Можно добавлять свою логику на JavaScript
- Запуск по расписанию или по событию, работает в облаке или на своём сервере

Как воспользоваться:
1) Скачайте нужный workflow (.json) и импортируйте в n8n
2) Вставьте свои API-ключи и учётные данные в блоки
3) Проверьте шаги и включите запуск по cron или webhook

▪ Github

@ai_machinelearning_big_data

#n8n #ai #ml

Please open Telegram to view this post

VIEW IN TELEGRAM

👍3❤1

4.25K views19:10

Artificial Intelligence

VaultGemma: The world's most capable differentially private LLM

VaultGemma, the most capable model trained from scratch with differential privacy.

🖥

Blog: https://github.com/ziangcao0312/PhysX-3D

@ArtificialIntelligencedl

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

❤3👍2🔥1🤔1

2.75K views08:51

Artificial Intelligence

📊 MIT показал, как экономить при обучении больших LLM

MIT и MIT-IBM Watson AI Lab выпустили плейбук о том, как правильно строить законы масштабирования — правила, по которым можно предсказывать, какой будет точность большой модели, не тратя миллионы на полный прогон.

Что выяснили:
- Достаточно обучить 5 моделей разных размеров, чтобы построить рабочий прогноз.
- Первые 10 миллиардов токенов обучения можно смело пропускать — данные там слишком шумные и бесполезные.
- Большую модель можно обучить всего на 30%, и по этой частичной кривой уже предсказать финальные результаты.

Что интересного в плейбуке:
Сильно сокращает расходы на тесты.
Позволяет исследователям заранее понимать, какой результат даст масштабирование.
- Делает разработку больших LLM быстрее и эффективнее.

Подробнее здесь:
https://news.mit.edu/2025/how-build-ai-scaling-laws-efficient-llm-training-budget-maximization-0916

@ArtificialIntelligencedl

👍6❤3🔥2

2.43K viewsedited 14:17

Artificial Intelligence

Сейчас проходит конференция RecSys, а ребята из AI VK Hub разбирают самые интересные статьи у себя в канале.
Первая статья про то, как адаптировали рекомендательные алгоритмы под сценарий ‘холодного’ старта, когда система не знает ничего о новом пользователе или новом продукте

AI VK Hub

В онлайн-кинотеатрах холодный старт возникает как для новых пользователей, так и для контента, который только появился на платформе. Трудность в том, что история взаимодействий слишком короткая, чтобы построить качественные рекомендации. Ситуация осложняется…

❤2🔥2👏2

1.53K views17:49

Artificial Intelligence

Продуктивная пятница для тех кто в теме Java и ML – приходите на VK JT Meetup!

3 октября VK проводит VK JT Meetup в Нижнем — офлайн-встречу ML-инженеров и Java-разработчиков.

Лиды VK расскажут про вызовы перед бэкендером, которые возникают в процессе создания B2B-продукта. А также поделятся пошаговым гайдом по выпуску RAG в прод и процессом создания единой инфраструктуры поисковой платформы.

А после докладов вас ждут командные кейс-батлы и нетворкинг.

Приходите посоревноваться за призы в кейс-батле и пообщаться с экспертами в нетворкинг-зоне.

📍 Нижний Новгород, только офлайн
📅 3 октября, сбор с 18:00
🎟 Вход по регистрации

❤2👍1

953 viewsedited 11:23

About

Blog

Apps

Platform