Технозаметки Малышева
5.55K subscribers
2.79K photos
928 videos
38 files
3.07K links
Новости инноваций из мира Искусственного Интеллекта. 🤖

Всё об ИИ, ИТ трендах и Технологической Сингулярности.

🤖: @ai_gptfreebot [бесплатный бот]
✍️: @tsingular_bot [каталог ботов и курсов]

💸[поддержка]: pay.cloudtips.ru/p/c8960bbb
Download Telegram
Французский стартап H привлек $220 млн на ИИ-агентов

Парижский стартап H (экс-Holistic AI) получил $220 млн на посевной стадии - редкость для такого раннего раунда.
Основатели - выходцы из DeepMind и Стэнфорда. Компания нацелена на создание ИИ-агентов для автоматизации задач и повышения продуктивности.
Среди инвесторов - известные миллиардеры, фонды, Amazon, Samsung, UiPath. Часть суммы - конвертируемый долг до следующего раунда.
H уже собрал команду из 25 специалистов. Париж притягивает ИИ-таланты наряду с такими проектами, как Mistral AI.

#France #HolisticAI #AIagents
-------
@tsingular
🌐Digest полезных материалов по ML
🤖Benchmarking of AI Agents

Тема AI-агентов сегодня становится актуальна как никогда. Копнула в сторону их оценки и собрала подборку материалов по бенмаркингу агентов.

1⃣Статья на Medium по введению в агентов
2⃣HumanEval и ruHumanEval - классика бенчмаркинга по оценки способностей моделей писать программный код
3⃣WebArena (статья) платформа для имитации работы Агента в Web среде. Пользователи могут создавать имитацию собственных сред, использовать реализованные на платформе инструменты оценки и тестировать модели на готовых задачах интегрированного в платформу бенчмарка.
4⃣AgentBench - самый популярный бенчмарк для оценки агентов. Позволяет оценивать модели на основе Chain-of-Thought в средах 8 типов, разделенных на три категории (Code-, Web- и Game-Grounded). Для оценки используются автоматические метрики (Success Rate, F1, Game Progress и т. п.), а общий скор получается усреднением метрик по всем задачам.
5⃣LLMArena - Арена для агентов, где модели соревнуются между собой в 7 игровых средах разного формата (командные игры, соревнования, настолки и т. п.), заданный с помощью текстового описания в виде набора из трех промптов (System prompt, Observation prompts, Action prompt). Рейтинг моделей строится по скиллам, оцениваемых с помощью TrueSkill.
6⃣AppWorld - бенчмарк, где агент выступает в роли виртуального ассистента, помогающего виртуальным пользователям выполнять повседневные дела через приложения (составить плейлист для тренировки, заказать пиццу, заплатить другу через splitwise и т. п.). Авторы заморочились и создали с помощью ChatGPT мини сообщество из 107 человек, полностью расписав информации о них в приложении так, чтобы весь граф общения согласовывался между людьми (если Петя записан к тренеру Васе, то у Васе стоит слот на тренировку с Петей в календаре)
7⃣AI Agent That Matter — большой обзор по бенчмаркингу агентов, авторы которого рассматривают вызовы при оценке агентов и среди них выделяют следующие 5:
AI agent evaluations must be cost-controlled.
Jointly optimizing accuracy and cost can yield better agent design.
Model developers and downstream developers have distinct benchmarking needs.
Agent benchmarks enable shortcuts.
Agent evaluations lack standardization and reproducibility.
Как итог они приходят к выводу, что при оценке агентов важно критично оценивать не только основную метрику, но и стоимость инференса, и оптимизировать эти величины совместно. Помимо этого, чтобы избежать читинга со стороны моделей важно, чтобы тест отличался по распределению/задачам/доменам от обучающих данных, а оценка на бенчмарке была максимально стандартизирована.

@mashkka_ds

#usefullinks #ml_на_пальцах #полезныематериалы #aiagents
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥4👍31
This media is not supported in your browser
VIEW IN TELEGRAM
Salesforce выпускает армию ИИ-агентов на базе решения Industries AI

Компания запускает Industries AI - платформу автоматизации, встроенную во все 15 облачных сервисов.

Система способна выполнять свыше 100 распространенных задач в различных отраслях.

Платформа позволяет оперативно создавать отраслевых ИИ-агентов на базе собственных данных организаций.

Применение включает: поддержку клиентов, подбор участников клинических исследований, мониторинг транспорта, оптимизацию госпроцессов.

Развертывание стартует в октябре, дополнительный функционал появится в феврале.

Цель - сделать мощный ИИ доступным для компаний любого масштаба.

Скоро ИИ-агенты будут продавать ИИ-агентов другим ИИ-агентам. 🤖💼

#Salesforce #IndustriesAI #AIAgents
-------
@tsingular
❤‍🔥3
ServiceNow внедряет ИИ-агентов в платформу Xanadu

Компания ServiceNow представила обновление Now Platform под кодовым названием Xanadu.
Ключевое нововведение - интеграция агентных ИИ в систему управления корпоративными услугами.

AI-агенты будут внедрены в работу с клиентами, ИТ, HR, закупки и разработку ПО.

Выпущен Now Assist Skill Kit для создания кастомных настроек для агентов с набором из 350+ функций.
Работает все на RaptorDB Pro.

Всё больше агентов. Вчера Salesforce, сегодня ServiceNow.
Надо уже биржу труда для агентов запускать что-ли. :)

#ServiceNow #Xanadu #AIagents
-------
@tsingular
👍3🔥1
Forwarded from Machinelearning
🔟 Open‑source Deep Research Assistants 🤖

Глубокие исследовательские агент
ы — не просто чат‑боты, а полноценные ИИ‑ассистенты, способные искать информацию, взаимодействовать с инструментами, планировать и писать отчёты. Ниже — 10 мощных open‑source проектов, которые уже можно протестировать:

1. DeerFlow — модульная система от Bytedance: DeerFlow — open‑source фреймворк от Bytedance для создания модульных LLM-агентов.
Поддерживает:
- планирование действий,
- анализ кода,
- генерацию отчётов (включая Text-to-Speech),
- адаптивную интеграцию инструментов.
Создан для исследований, автоматизации и построения сложных агентных пайплайнов.
https://github.com/bytedance/deer-flow

2. Alita — самообучающийся агент с поддержкой Model Context Protocols (MCP), всё в одном модуле. Alita — агент, который сам придумывает, как ему расширить себя, не полагаясь на заранее написанные сценарии, и уже демонстрирует топовые результаты на сложных тестах.
https://github.com/CharlesQ9/Alita

3. WebThinker — автономный веб‑поиск с логикой "думай‑ищи‑пиши", RL‑обучением и глубокой навигацией
https://github.com/RUC-NLPIR/WebThinker

4. SimpleDeepSearcher — это лёгкий, но эффективный open‑source фреймворк от RUCAIBox, предназначенный для автономного веб-поиска через импровизированные многотуровые сессии:

- Использует Supervised Fine‑Tuning (SFT) вместо сложного RL, что значительно упрощает обучение и снижает вычислительные затраты
- Генерирует реалистичные траектории поиска и рассуждений, симулируя поведение пользователя в живом поисковом окружении .
- Критически отбирает данные по нескольким критериям качества: разнообразие запросов, сложность, структура ответов

5. AgenticSeek — приватный on‑device ассистент с выбором эксперта под задачу и голосовым управлением
https://github.com/Fosowl/agenticSeek

6. Suna — универсальный ассистент: браузер, CLI, работа с файлами, API, деплой
https://github.com/kortix-ai/suna

7. DeepResearcher — это комплексный open-source фреймворк от GAIR‑NLP, предназначенный для обучения LLM‑агентов, способных проводить глубокие исследования в автономном режиме, взаимодействуя с вебом. Использует несколько агентов‑браузеров, которые совместно исследуют веб и обрабатывают информацию
https://github.com/GAIR-NLP/DeepResearcher

8. Search‑R1 — агент на PPO/GRPO с поддержкой LLaMA3, Qwen2.5 и кастомных поисковиков. Агент учится эффективному циклу «думай — ищи — думай — отвечай» через RL, достигая важных улучшений в точности ответов и эффективности поиска.
https://github.com/PeterGriffinJin/Search-R1

9. ReCall — это фреймворк на основе RL, который учит LLM "должным образом" вызывать и комбинировать инструменты, используя сгенерированные задачи, без необходимости вручную собирать примеры вызовов — и всё это в открытом доступе.
https://github.com/Agent-RL/ReCall

10. OWL — мультиагентная система на CAMEL‑AI для динамического взаимодействия между агентами
https://github.com/camel-ai/owl

Агенты умеют планировать, взаимодействовать с браузером, запускать скрипты, интегрироваться с API и работать автономно.

Всё проекты — с открытым кодом. Можно изучить, собрать и доработать под свои задачи.

@ai_machinelearning_big_data

#ml #rl #aiagents #ai #agents
Please open Telegram to view this post
VIEW IN TELEGRAM
62