🚀 Создание и управление агентами с LangGraph
LangGraph — это мощный фреймворк для построения и управления долгосрочными, состоянием управляемыми агентами. Он предоставляет низкоуровневую инфраструктуру, позволяя разработчикам создавать надежные и адаптивные системы, которые могут работать в течение длительного времени и восстанавливаться после сбоев.
🚀 Основные моменты:
- Поддержка долговременного выполнения и восстановления после сбоев.
- Встроенный контроль человека для мониторинга состояния агентов.
- Возможности создания состояния с краткосрочной и долгосрочной памятью.
- Интеграция с LangChain для расширенного функционала.
- Готовность к производству с возможностью масштабирования.
📌 GitHub: https://github.com/langchain-ai/langgraph
LangGraph — это мощный фреймворк для построения и управления долгосрочными, состоянием управляемыми агентами. Он предоставляет низкоуровневую инфраструктуру, позволяя разработчикам создавать надежные и адаптивные системы, которые могут работать в течение длительного времени и восстанавливаться после сбоев.
🚀 Основные моменты:
- Поддержка долговременного выполнения и восстановления после сбоев.
- Встроенный контроль человека для мониторинга состояния агентов.
- Возможности создания состояния с краткосрочной и долгосрочной памятью.
- Интеграция с LangChain для расширенного функционала.
- Готовность к производству с возможностью масштабирования.
📌 GitHub: https://github.com/langchain-ai/langgraph
❤6👍5🔥1
⚡️ ERNIE 5.0 - официальный релиз.
Baidu выкатили нативную omni-modal модель, которая умеет понимать и генерировать текст, изображения и аудио.
Ключевая фишка архитектуры - MoE на 2,4 трлн параметров, но в каждом запросе активируется менее 3% параметров.
То есть модель пытается держать качество “больших” систем, но с более эффективным инференсом по стоимости и скорости.
Самое интересное - результаты на бенчмарках (по графикам Baidu):
- Text: ERNIE-5.0 уверенно держится в топ-группе на широком наборе тестов по знаниям, инструкциям, reasoning, математике и коду - на многих метриках близко к GPT-5 (High) / Gemini-3-Pro, а местами выглядит сильнее (особенно на части задач по кодингу и агентным бенчмаркам типа BFCL / BrowserComp / SpreadsheetBench).
- Visual Understanding: по “пониманию картинок” ERNIE-5.0 в ряде STEM/VQA тестов идёт очень высоко - рядом с GPT-5 (High) и Gemini-3-Pro, хорошо выступает на DocVQA/OCR-подобных задачах (документы, таблицы, текст на изображениях) и на блоке General VQA.
- Audio: в speech-to-text chat и audio understanding ERNIE-5.0 показывает конкурентный уровень рядом с Gemini-3-Pro, а по распознаванию речи (ASR) близко к топам на LibriSpeech / AISHELL.
- Visual Generation: по генерации изображений (GenEval) ERNIE-5.0 сравнивают с топовыми генераторами уровня GPT-Image, Seedream, Qwen-Image - и ERNIE выглядит на одном уровне по total score. По генерации видео - рядом с Veo3 / Wan2.1 / Hunyuan Video, с сильными Quality/Semantic оценками.
Baidu делает ставку на “унифицированную мультимодальность” + MoE-эффективность - и судя по бенчмаркам, ERNIE 5.0 реально попадает в верхнюю лигу не только по тексту, но и по vision/audio.
Доступно:
- на сайте ERNIE Bot
- через Baidu AI Cloud Qianfan (для бизнеса и разработчиков)
https://ernie.baidu.com
Baidu выкатили нативную omni-modal модель, которая умеет понимать и генерировать текст, изображения и аудио.
Ключевая фишка архитектуры - MoE на 2,4 трлн параметров, но в каждом запросе активируется менее 3% параметров.
То есть модель пытается держать качество “больших” систем, но с более эффективным инференсом по стоимости и скорости.
Самое интересное - результаты на бенчмарках (по графикам Baidu):
- Text: ERNIE-5.0 уверенно держится в топ-группе на широком наборе тестов по знаниям, инструкциям, reasoning, математике и коду - на многих метриках близко к GPT-5 (High) / Gemini-3-Pro, а местами выглядит сильнее (особенно на части задач по кодингу и агентным бенчмаркам типа BFCL / BrowserComp / SpreadsheetBench).
- Visual Understanding: по “пониманию картинок” ERNIE-5.0 в ряде STEM/VQA тестов идёт очень высоко - рядом с GPT-5 (High) и Gemini-3-Pro, хорошо выступает на DocVQA/OCR-подобных задачах (документы, таблицы, текст на изображениях) и на блоке General VQA.
- Audio: в speech-to-text chat и audio understanding ERNIE-5.0 показывает конкурентный уровень рядом с Gemini-3-Pro, а по распознаванию речи (ASR) близко к топам на LibriSpeech / AISHELL.
- Visual Generation: по генерации изображений (GenEval) ERNIE-5.0 сравнивают с топовыми генераторами уровня GPT-Image, Seedream, Qwen-Image - и ERNIE выглядит на одном уровне по total score. По генерации видео - рядом с Veo3 / Wan2.1 / Hunyuan Video, с сильными Quality/Semantic оценками.
Baidu делает ставку на “унифицированную мультимодальность” + MoE-эффективность - и судя по бенчмаркам, ERNIE 5.0 реально попадает в верхнюю лигу не только по тексту, но и по vision/audio.
Доступно:
- на сайте ERNIE Bot
- через Baidu AI Cloud Qianfan (для бизнеса и разработчиков)
https://ernie.baidu.com
❤13👍9🔥6🥱1
This media is not supported in your browser
VIEW IN TELEGRAM
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
❤23🔥8👍7😁7
🎙 OpenBMB выложили в open-source веса VoxCPM - с real-time стримингом и LoRA fine-tuning
Модель работает примерно с 0.15 real-time factor на одной RTX 4090 - то есть очень быстро.
Самое интересное: VoxCPM фактически убирает токенизацию из TTS.
Вместо того чтобы переводить аудио в дискретные токены, модель генерирует непрерывную речь напрямую.
Это убирает “токенные артефакты” и лучше сохраняет:
- интонацию
- темп речи
- эмоции и просодию
Технически:
• End-to-end diffusion + autoregressive генерация
• Непрерывные акустические представления
• Без узких мест типа фонем и codec-токенов
🧬 Клонирование голоса - буквально по нескольким секундам аудио
Достаточно короткого референса, и модель переносит:
- акцент
- ритм
- тембр
- паузы и тайминг
Возможности:
• Zero-shot voice cloning
• Без обучения под конкретного спикера
• Работает в режиме streaming
⚡ Быстро и легко тюнится
Стриминг идёт чанками с задержкой меньше секунды.
А через LoRA fine-tuning можно адаптировать голоса без полного переобучения модели.
https://github.com/OpenBMB/VoxCPM
Модель работает примерно с 0.15 real-time factor на одной RTX 4090 - то есть очень быстро.
Самое интересное: VoxCPM фактически убирает токенизацию из TTS.
Вместо того чтобы переводить аудио в дискретные токены, модель генерирует непрерывную речь напрямую.
Это убирает “токенные артефакты” и лучше сохраняет:
- интонацию
- темп речи
- эмоции и просодию
Технически:
• End-to-end diffusion + autoregressive генерация
• Непрерывные акустические представления
• Без узких мест типа фонем и codec-токенов
🧬 Клонирование голоса - буквально по нескольким секундам аудио
Достаточно короткого референса, и модель переносит:
- акцент
- ритм
- тембр
- паузы и тайминг
Возможности:
• Zero-shot voice cloning
• Без обучения под конкретного спикера
• Работает в режиме streaming
⚡ Быстро и легко тюнится
Стриминг идёт чанками с задержкой меньше секунды.
А через LoRA fine-tuning можно адаптировать голоса без полного переобучения модели.
https://github.com/OpenBMB/VoxCPM
❤7👍4🔥1
Сообщается, что модель показала около 31% на бенчмарке FrontierMath - и особенно впечатляет не только сам результат, но и то, как она решает новые задачи, а не просто повторяет известные шаблоны.
Многие исследователи отмечают, что:
- модель справляется с задачами, которые выглядят как “по-настоящему новые”
- подходы к решению становятся всё более похожими на исследовательское рассуждение
- уровень рассуждений вызывает интерес даже у профессиональных математиков
Особый фокус сейчас на экспертных отчётах и разборах, где преподаватели и исследователи описывают, какие именно типы задач модель решает хорошо, а где всё ещё есть ограничения.
Если темп сохранится, следующий релиз (условный GPT-5.3) может снова сдвинуть планку возможностей. Пока же самое интересное, читать детальные отчёты и смотреть, как ИИ постепенно заходит на территорию, которая раньше считалась исключительно “человеческой”.
https://x.com/EpochAIResearch/status/2014769359747744200
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍15🔥6❤4
🚀 Step-DeepResearch - новый уровень AI-исследований
Команда Step представила Step-DeepResearch - end-to-end агент для глубоких исследований. Их главный тезис звучит мощно: поиск ≠ исследование.
Пока многие делают «умные веб-краулеры», здесь попытались воспроизвести мышление эксперта, а не просто сбор ссылок.
Что внутри
🧠 Архитектура
- Переход от *next-token prediction* к next-action decisioning - модель решает, какое действие делать дальше, а не просто генерирует текст
- Встроенная самокорректирующаяся логика - адаптивное планирование и проверка информации между источниками
- Без зоопарка из агентов - один, но эффективный агент, без multi-agent оверхеда
📚 Данные и поиск
- Поиск опирается на 20M+ научных работ
- 600+ премиальных индексов
- Фокус на качестве источников, а не на количестве веб-страниц
Метрики
🔥 61.42% на Research Rubrics - уровень Gemini, выше показателей OpenAI в этом бенчмарке
🔥 67.1% Win/Tie на ADR-Bench против топовых моделей
🔥 Отдельно отмечают качество цитирования и коммуникации - слабое место многих AI-агентов
Идея проста:
лучшее качество исследований, сильные ссылки и более доступная цена.
Бета уже запущена. Это шаг к тому, чтобы AI был не просто ассистентом, а полноценным исследовательским движком.
▪API Beta Access: https://wvixbzgc0u7.feishu.cn/share/base/form/shrcn8CP78PJgkjvvIh2C3EF3cc
▪Homepage: https://stepfun.ai/deep-research-invitation
▪Technical report: https://arxiv.org/pdf/2512.20491
▪Github: https://github.com/stepfun-ai/StepDeepResearch
@data_analysis_ml
Команда Step представила Step-DeepResearch - end-to-end агент для глубоких исследований. Их главный тезис звучит мощно: поиск ≠ исследование.
Пока многие делают «умные веб-краулеры», здесь попытались воспроизвести мышление эксперта, а не просто сбор ссылок.
Что внутри
🧠 Архитектура
- Переход от *next-token prediction* к next-action decisioning - модель решает, какое действие делать дальше, а не просто генерирует текст
- Встроенная самокорректирующаяся логика - адаптивное планирование и проверка информации между источниками
- Без зоопарка из агентов - один, но эффективный агент, без multi-agent оверхеда
📚 Данные и поиск
- Поиск опирается на 20M+ научных работ
- 600+ премиальных индексов
- Фокус на качестве источников, а не на количестве веб-страниц
Метрики
🔥 61.42% на Research Rubrics - уровень Gemini, выше показателей OpenAI в этом бенчмарке
🔥 67.1% Win/Tie на ADR-Bench против топовых моделей
🔥 Отдельно отмечают качество цитирования и коммуникации - слабое место многих AI-агентов
Идея проста:
лучшее качество исследований, сильные ссылки и более доступная цена.
Бета уже запущена. Это шаг к тому, чтобы AI был не просто ассистентом, а полноценным исследовательским движком.
▪API Beta Access: https://wvixbzgc0u7.feishu.cn/share/base/form/shrcn8CP78PJgkjvvIh2C3EF3cc
▪Homepage: https://stepfun.ai/deep-research-invitation
▪Technical report: https://arxiv.org/pdf/2512.20491
▪Github: https://github.com/stepfun-ai/StepDeepResearch
@data_analysis_ml
❤2👍1🔥1