🚀 LiveMCPBench — новый бенчмарк для LLM-агентов в мире инструментов MCP
Что это:
LiveMCPBench тестирует ИИ-агентов в масштабных, реалистичных сценариях с использованием MCP (Model Context Protocol) — стандарта для взаимодействия модели с внешними данными, API и инструментами.
Ключевые факты:
- 95 реальных задач в экосистеме MCP
- 70 MCP-серверов и 527 инструментов в коллекции LiveMCPTool
- Автоматическая оценка через LiveMCPEval (LLM-судья) с точностью 81 % по сравнению с экспертами
- Протестировано 10 ведущих моделей: лидер — Claude-Sonnet-4 с результатом 78.95 % успеха
Почему это важно:
LiveMCPBench — первый воспроизводимый фреймворк, который проверяет, как агенты справляются с обилием инструментов и динамично меняющейся средой.
🔗 Подробнее: https://icip-cas.github.io/LiveMCPBench
Что это:
LiveMCPBench тестирует ИИ-агентов в масштабных, реалистичных сценариях с использованием MCP (Model Context Protocol) — стандарта для взаимодействия модели с внешними данными, API и инструментами.
Ключевые факты:
- 95 реальных задач в экосистеме MCP
- 70 MCP-серверов и 527 инструментов в коллекции LiveMCPTool
- Автоматическая оценка через LiveMCPEval (LLM-судья) с точностью 81 % по сравнению с экспертами
- Протестировано 10 ведущих моделей: лидер — Claude-Sonnet-4 с результатом 78.95 % успеха
Почему это важно:
LiveMCPBench — первый воспроизводимый фреймворк, который проверяет, как агенты справляются с обилием инструментов и динамично меняющейся средой.
🔗 Подробнее: https://icip-cas.github.io/LiveMCPBench
👍41❤15🔥14
Новый инженер OpenAI поделился опытом прохождения интервью в AI-стартапы и крупные компании, включая OpenAI.
1. Заботьтесь о себе — ментально и физически
Интервью — это стресс. Следите за сном, питанием, отдыхом, заручитесь поддержкой друзей и семьи.
2. Помните: цель — ваш успех
Компания и интервьюеры хотят, чтобы вы прошли. Даже если был отказ, пробуйте снова — многие успешно попадали на роль со второй попытки.
3. Получайте удовольствие от процесса
Это шанс познакомиться с интересными людьми, узнать новые технологии и потренироваться в решении задач.
4. Готовьтесь основательно
- 100 часов на задачи (LeetCode и аналоги)
- 100 часов на изучение теории и статей
- Тренируйтесь с друзьями без автодополнений и LLM-подсказок
5. Каждая встреча важна
Даже «неформальный звонок» — это возможность показать мотивацию, характер и профессионализм.
6. Работайте над профилем и сетью
LinkedIn, GitHub с проектами, участие в митапах, open-source, хакатонах — всё это привлечёт внимание рекрутеров.
7. Первые звонки
- С рекрутером: записывайте детали — этапы, состав команды, имя руководителя
- С руководителем: изучите его публикации и проекты, покажите интерес, расскажите, почему хотите работать именно здесь
8. Поведенческие вопросы
Готовьте истории по формату STAR(I) — о том, как решали конфликты, брали на себя лидерство, справлялись с ошибками.
9. Техническая часть
- Решайте задачи быстро и чётко, проговаривая ход мыслей
- Практикуйте кодинг в условиях стресса и без IDE
- Разбирайтесь в алгоритмах, трансформерах, RL-методах
- Умейте объяснить свою текущую работу и её пользу для компании
10. Переговоры
Обсуждайте не только зарплату, но и команду, миссию, культуру. Все договорённости фиксируйте письменно.
11. Принятие решения
Выбирайте место, где вам будет комфортно работать каждый день.
📌 Главное: интервью — это навык, который можно натренировать. Подготовка + уверенность = высокий шанс успеха.
📌 Полный текст
@machinelearning_interview
Please open Telegram to view this post
VIEW IN TELEGRAM
👍25❤13🔥6👻4
xAI теряет ключевого лидера: сооснователь и главный инженер Игорь Бабушкин уходит спустя чуть больше двух лет работы. Он запускает Babuschkin Ventures — фонд, который будет инвестировать в исследования и стартапы, делающие упор на безопасный ИИ и долгосрочное благополучие человечества.
Уход Бабушкина происходит на фоне стремительного роста xAI — от строительства суперкомпьютера Memphis до бурных споров вокруг чатбота Grok.
💥 Кто займёт место технического лидера?
В кулуарах всё громче звучит имя Андрея Карпаты — звезды AI-индустрии, работавшего с Маском в Tesla и OpenAI, а сейчас развивающего свой стартап Eureka Labs. Его опыт масштабирования нейросетей и свежие похвалы в адрес Grok 3 подогревают слухи о возможном возвращении в «экосистему Маска».
🎯 Среди других кандидатов — внутренние инженеры xAI и ветераны отрасли, включая бывших исследователей OpenAI и DeepMind. Маск известен громкими и рискованными назначениями, так что сюрпризы возможны.
🚀 Уход Бабушкина — это поворотный момент: кому-то предстоит не только удержать темп, но и задать новый вектор в гонке за суперинтеллектом.
Уход Бабушкина происходит на фоне стремительного роста xAI — от строительства суперкомпьютера Memphis до бурных споров вокруг чатбота Grok.
💥 Кто займёт место технического лидера?
В кулуарах всё громче звучит имя Андрея Карпаты — звезды AI-индустрии, работавшего с Маском в Tesla и OpenAI, а сейчас развивающего свой стартап Eureka Labs. Его опыт масштабирования нейросетей и свежие похвалы в адрес Grok 3 подогревают слухи о возможном возвращении в «экосистему Маска».
🎯 Среди других кандидатов — внутренние инженеры xAI и ветераны отрасли, включая бывших исследователей OpenAI и DeepMind. Маск известен громкими и рискованными назначениями, так что сюрпризы возможны.
🚀 Уход Бабушкина — это поворотный момент: кому-то предстоит не только удержать темп, но и задать новый вектор в гонке за суперинтеллектом.
👍29❤8🔥5😨3
📘 GeostatsGuy выпустили интерактивный учебник по ML с десятками анимаций и интерактивных демо.
🧠 Что внутри:
— Простые объяснения ключевых концепций
— Как работает регрессия, классификация, деревья решений
— Анимации градиентного спуска, переобучения, кросс-валидации
— Наглядные примеры для всех основных алгоритмов
Идеально для студентов, начинающих аналитиков и тех, кто хочет «прочувствовать» машинное обучение, а не просто заучить формулы.
🔗 Читать учебник
@machinelearning_interview
🧠 Что внутри:
— Простые объяснения ключевых концепций
— Как работает регрессия, классификация, деревья решений
— Анимации градиентного спуска, переобучения, кросс-валидации
— Наглядные примеры для всех основных алгоритмов
Идеально для студентов, начинающих аналитиков и тех, кто хочет «прочувствовать» машинное обучение, а не просто заучить формулы.
🔗 Читать учебник
@machinelearning_interview
❤26👍17🔥7
DINO создаёт высококачественные плотные признаки, отлично понимая как смысл (семантику) сцены, так и её геометрию.
Зачем это нужно:
Раньше на ImageNet лучшие результаты показывали модели с полной или слабой разметкой. Теперь DINOv3 с чистым SSL догнал их по качеству — и это огромный шаг вперёд.
Модель особенно хороша в задачах, где важны детальные признаки: мульти-модальные LLM, видео и 3D-анализ, робототехника, генеративные модели.
С замороженным ❄️ backbone DINOv3 получены новые рекорды:
- Обнаружение объектов: 66.1 mAP (COCO)
- Сегментация: 63 mIoU (ADE)
- Оценка глубины: 4.3 ARel (NYU)
Даже встраивание в готовые пайплайны даёт новый SOTA.
- ViT-7B — флагман
- ViT-S/S+/B/L/H+ (от 21M до 840M параметров)
- ConvNeXt — для быстрого инференса
- Text-aligned ViT-L (dino.txt)
- ViT-L/7B для спутниковых снимков
📡 Для спутниковых данных DINOv3 даёт топовые результаты в геопространственных задачах, например в оценке высоты деревьев, и создаёт впечатляющие карты признаков.
Это и есть магия SSL — универсальные признаки, которые работают в самых разных областях.
@machinelearning_interview
#dino3 #cv #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥34❤12🥰4👍1
🚀 Интересуетесь нейросетями и хотите понять, как эволюция архитектур RNN и Transformer влияет на NLP?🚀
На открытом уроке «От RNN до Transformers: скорость, память, контекст» 19 августа в 20:00 МСК мы разберём, как работают рекуррентные нейросети (RNN), их ограничения и почему современные NLP-системы всё чаще переходят к трансформерам. Мы сравним эти архитектуры по ключевым параметрам: скорости, памяти, контексту и масштабируемости.
Урок даст вам чёткое представление о том, как меняются подходы в обработке текста, а также объяснит, почему трансформеры становятся основой современных NLP-систем.
📚 Посетите вебинар и получите скидку на большое обучение «NLP / Natural Language Processing»: https://otus.pw/QKft/?erid=2W5zFK8ZKSY
Реклама. ООО "ОТУС ОНЛАЙН-ОБРАЗОВАНИЕ". ИНН 9705100963.
На открытом уроке «От RNN до Transformers: скорость, память, контекст» 19 августа в 20:00 МСК мы разберём, как работают рекуррентные нейросети (RNN), их ограничения и почему современные NLP-системы всё чаще переходят к трансформерам. Мы сравним эти архитектуры по ключевым параметрам: скорости, памяти, контексту и масштабируемости.
Урок даст вам чёткое представление о том, как меняются подходы в обработке текста, а также объяснит, почему трансформеры становятся основой современных NLP-систем.
📚 Посетите вебинар и получите скидку на большое обучение «NLP / Natural Language Processing»: https://otus.pw/QKft/?erid=2W5zFK8ZKSY
Реклама. ООО "ОТУС ОНЛАЙН-ОБРАЗОВАНИЕ". ИНН 9705100963.
❤5
🫡 GitHub теряет независимость: Microsoft берет прямое управление ресурсом
С уходом CEO Томаса Домке GitHub окончательно интегрируется в структуру Microsoft. Платформа перестанет быть автономным подразделением — теперь её будут курировать напрямую руководители Microsoft, включая президента по разработке Джулию Лиусон и вице-президента по AI Ашу Шарму.
Компания войдёт в новую инженерную группу CoreAI под руководством Джея Париха. Это означает более тесную интеграцию с AI-инструментами Microsoft, хотя пока неясно, как это повлияет на политику платформы в отношении open-source.
Press F🥀
🔗 Ссылка - *клик*
@machinelearning_interview
С уходом CEO Томаса Домке GitHub окончательно интегрируется в структуру Microsoft. Платформа перестанет быть автономным подразделением — теперь её будут курировать напрямую руководители Microsoft, включая президента по разработке Джулию Лиусон и вице-президента по AI Ашу Шарму.
Компания войдёт в новую инженерную группу CoreAI под руководством Джея Париха. Это означает более тесную интеграцию с AI-инструментами Microsoft, хотя пока неясно, как это повлияет на политику платформы в отношении open-source.
Press F🥀
🔗 Ссылка - *клик*
@machinelearning_interview
🤔14😱7🌭4👍2🌚2❤1
🌟 Awesome-Self-Evolving-Agents (EvoAgentX) — актуальный обзор по саморазвивающимся AI-агентам
Этот удобно оформленный список (awesome-лист) представляет собой визуальную таксономию подходов к эволюции AI-агентов, систематизируя решения по трем тематическим направлениям:
1. Single-Agent Optimisation — методы улучшения одного агента (LLM), включая:
- self-consistency
- Tree of Thoughts
- ToRA
- и другие подходы к оптимизации рассуждений и действий.
2. Prompt Optimisation — алгоритмы автоматической настройки промптов:
- GrIPS, TEMPERA
- Automatic Prompt Optimization
- Genetic Prompt Search (GPS)
- и другие, использующие эволюционные и gradient-free методы.
3. Multi-Agent / Domain-Specific Optimisation — развитие многоагентных систем:
- Agentic workflow orchestration
- Multi-Agent Architecture Search
- AutoGen, AgentVerse, FlowReasoner и прочие фреймворки для координации и масштабирования.
Почему это важно:
- Охватывает ключевые публикации и инструменты из исследований 2023–2025 годов.
- Содержит ссылки на статьи (Paper) и исходники (Code) для каждого метода.
- Идеален как для новичков, так и для учёных или разработчиков, работающих с LLM и агентами.
🔗 Ссылка: https://github.com/EvoAgentX/Awesome-Self-Evolving-Agents
Этот удобно оформленный список (awesome-лист) представляет собой визуальную таксономию подходов к эволюции AI-агентов, систематизируя решения по трем тематическим направлениям:
1. Single-Agent Optimisation — методы улучшения одного агента (LLM), включая:
- self-consistency
- Tree of Thoughts
- ToRA
- и другие подходы к оптимизации рассуждений и действий.
2. Prompt Optimisation — алгоритмы автоматической настройки промптов:
- GrIPS, TEMPERA
- Automatic Prompt Optimization
- Genetic Prompt Search (GPS)
- и другие, использующие эволюционные и gradient-free методы.
3. Multi-Agent / Domain-Specific Optimisation — развитие многоагентных систем:
- Agentic workflow orchestration
- Multi-Agent Architecture Search
- AutoGen, AgentVerse, FlowReasoner и прочие фреймворки для координации и масштабирования.
Почему это важно:
- Охватывает ключевые публикации и инструменты из исследований 2023–2025 годов.
- Содержит ссылки на статьи (Paper) и исходники (Code) для каждого метода.
- Идеален как для новичков, так и для учёных или разработчиков, работающих с LLM и агентами.
🔗 Ссылка: https://github.com/EvoAgentX/Awesome-Self-Evolving-Agents
👍11❤5🔥3