Навыки аналитики выходит за рамки одной профессии
Работа с данными становится частью разных ролей: от маркетинга до управления продуктами.
Поэтому аналитические навыки ценятся не только у дата-специалистов.
На программе «Аналитика данных» от МФТИ и Нетологии вы последовательно разберёте весь путь работы с данными: от сбора и обработки до анализа и визуализации. В программе — Python, базы данных и базовые методы ИИ.
Обучение проходит онлайн и подойдёт тем, кто хочет войти в аналитику или систематизировать знания. После выпуска вы получаете дипломы МФТИ и Нетологии и готовое портфолио проектов.
Начать учиться → https://netolo.gy/ew7j
Реклама. ООО “Нетология” ОГРН 1207700135884 Erid: 2VSb5xDB9UM
Работа с данными становится частью разных ролей: от маркетинга до управления продуктами.
Поэтому аналитические навыки ценятся не только у дата-специалистов.
На программе «Аналитика данных» от МФТИ и Нетологии вы последовательно разберёте весь путь работы с данными: от сбора и обработки до анализа и визуализации. В программе — Python, базы данных и базовые методы ИИ.
Обучение проходит онлайн и подойдёт тем, кто хочет войти в аналитику или систематизировать знания. После выпуска вы получаете дипломы МФТИ и Нетологии и готовое портфолио проектов.
Начать учиться → https://netolo.gy/ew7j
Реклама. ООО “Нетология” ОГРН 1207700135884 Erid: 2VSb5xDB9UM
❤2👍1🥱1
🚀 Создание и управление агентами с LangGraph
LangGraph — это мощный фреймворк для построения и управления долгосрочными, состоянием управляемыми агентами. Он предоставляет низкоуровневую инфраструктуру, позволяя разработчикам создавать надежные и адаптивные системы, которые могут работать в течение длительного времени и восстанавливаться после сбоев.
🚀 Основные моменты:
- Поддержка долговременного выполнения и восстановления после сбоев.
- Встроенный контроль человека для мониторинга состояния агентов.
- Возможности создания состояния с краткосрочной и долгосрочной памятью.
- Интеграция с LangChain для расширенного функционала.
- Готовность к производству с возможностью масштабирования.
📌 GitHub: https://github.com/langchain-ai/langgraph
LangGraph — это мощный фреймворк для построения и управления долгосрочными, состоянием управляемыми агентами. Он предоставляет низкоуровневую инфраструктуру, позволяя разработчикам создавать надежные и адаптивные системы, которые могут работать в течение длительного времени и восстанавливаться после сбоев.
🚀 Основные моменты:
- Поддержка долговременного выполнения и восстановления после сбоев.
- Встроенный контроль человека для мониторинга состояния агентов.
- Возможности создания состояния с краткосрочной и долгосрочной памятью.
- Интеграция с LangChain для расширенного функционала.
- Готовность к производству с возможностью масштабирования.
📌 GitHub: https://github.com/langchain-ai/langgraph
❤6👍5🔥1
⚡️ ERNIE 5.0 - официальный релиз.
Baidu выкатили нативную omni-modal модель, которая умеет понимать и генерировать текст, изображения и аудио.
Ключевая фишка архитектуры - MoE на 2,4 трлн параметров, но в каждом запросе активируется менее 3% параметров.
То есть модель пытается держать качество “больших” систем, но с более эффективным инференсом по стоимости и скорости.
Самое интересное - результаты на бенчмарках (по графикам Baidu):
- Text: ERNIE-5.0 уверенно держится в топ-группе на широком наборе тестов по знаниям, инструкциям, reasoning, математике и коду - на многих метриках близко к GPT-5 (High) / Gemini-3-Pro, а местами выглядит сильнее (особенно на части задач по кодингу и агентным бенчмаркам типа BFCL / BrowserComp / SpreadsheetBench).
- Visual Understanding: по “пониманию картинок” ERNIE-5.0 в ряде STEM/VQA тестов идёт очень высоко - рядом с GPT-5 (High) и Gemini-3-Pro, хорошо выступает на DocVQA/OCR-подобных задачах (документы, таблицы, текст на изображениях) и на блоке General VQA.
- Audio: в speech-to-text chat и audio understanding ERNIE-5.0 показывает конкурентный уровень рядом с Gemini-3-Pro, а по распознаванию речи (ASR) близко к топам на LibriSpeech / AISHELL.
- Visual Generation: по генерации изображений (GenEval) ERNIE-5.0 сравнивают с топовыми генераторами уровня GPT-Image, Seedream, Qwen-Image - и ERNIE выглядит на одном уровне по total score. По генерации видео - рядом с Veo3 / Wan2.1 / Hunyuan Video, с сильными Quality/Semantic оценками.
Baidu делает ставку на “унифицированную мультимодальность” + MoE-эффективность - и судя по бенчмаркам, ERNIE 5.0 реально попадает в верхнюю лигу не только по тексту, но и по vision/audio.
Доступно:
- на сайте ERNIE Bot
- через Baidu AI Cloud Qianfan (для бизнеса и разработчиков)
https://ernie.baidu.com
Baidu выкатили нативную omni-modal модель, которая умеет понимать и генерировать текст, изображения и аудио.
Ключевая фишка архитектуры - MoE на 2,4 трлн параметров, но в каждом запросе активируется менее 3% параметров.
То есть модель пытается держать качество “больших” систем, но с более эффективным инференсом по стоимости и скорости.
Самое интересное - результаты на бенчмарках (по графикам Baidu):
- Text: ERNIE-5.0 уверенно держится в топ-группе на широком наборе тестов по знаниям, инструкциям, reasoning, математике и коду - на многих метриках близко к GPT-5 (High) / Gemini-3-Pro, а местами выглядит сильнее (особенно на части задач по кодингу и агентным бенчмаркам типа BFCL / BrowserComp / SpreadsheetBench).
- Visual Understanding: по “пониманию картинок” ERNIE-5.0 в ряде STEM/VQA тестов идёт очень высоко - рядом с GPT-5 (High) и Gemini-3-Pro, хорошо выступает на DocVQA/OCR-подобных задачах (документы, таблицы, текст на изображениях) и на блоке General VQA.
- Audio: в speech-to-text chat и audio understanding ERNIE-5.0 показывает конкурентный уровень рядом с Gemini-3-Pro, а по распознаванию речи (ASR) близко к топам на LibriSpeech / AISHELL.
- Visual Generation: по генерации изображений (GenEval) ERNIE-5.0 сравнивают с топовыми генераторами уровня GPT-Image, Seedream, Qwen-Image - и ERNIE выглядит на одном уровне по total score. По генерации видео - рядом с Veo3 / Wan2.1 / Hunyuan Video, с сильными Quality/Semantic оценками.
Baidu делает ставку на “унифицированную мультимодальность” + MoE-эффективность - и судя по бенчмаркам, ERNIE 5.0 реально попадает в верхнюю лигу не только по тексту, но и по vision/audio.
Доступно:
- на сайте ERNIE Bot
- через Baidu AI Cloud Qianfan (для бизнеса и разработчиков)
https://ernie.baidu.com
❤13👍9🔥6🥱1
This media is not supported in your browser
VIEW IN TELEGRAM
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
❤23🔥8👍7😁7
🎙 OpenBMB выложили в open-source веса VoxCPM - с real-time стримингом и LoRA fine-tuning
Модель работает примерно с 0.15 real-time factor на одной RTX 4090 - то есть очень быстро.
Самое интересное: VoxCPM фактически убирает токенизацию из TTS.
Вместо того чтобы переводить аудио в дискретные токены, модель генерирует непрерывную речь напрямую.
Это убирает “токенные артефакты” и лучше сохраняет:
- интонацию
- темп речи
- эмоции и просодию
Технически:
• End-to-end diffusion + autoregressive генерация
• Непрерывные акустические представления
• Без узких мест типа фонем и codec-токенов
🧬 Клонирование голоса - буквально по нескольким секундам аудио
Достаточно короткого референса, и модель переносит:
- акцент
- ритм
- тембр
- паузы и тайминг
Возможности:
• Zero-shot voice cloning
• Без обучения под конкретного спикера
• Работает в режиме streaming
⚡ Быстро и легко тюнится
Стриминг идёт чанками с задержкой меньше секунды.
А через LoRA fine-tuning можно адаптировать голоса без полного переобучения модели.
https://github.com/OpenBMB/VoxCPM
Модель работает примерно с 0.15 real-time factor на одной RTX 4090 - то есть очень быстро.
Самое интересное: VoxCPM фактически убирает токенизацию из TTS.
Вместо того чтобы переводить аудио в дискретные токены, модель генерирует непрерывную речь напрямую.
Это убирает “токенные артефакты” и лучше сохраняет:
- интонацию
- темп речи
- эмоции и просодию
Технически:
• End-to-end diffusion + autoregressive генерация
• Непрерывные акустические представления
• Без узких мест типа фонем и codec-токенов
🧬 Клонирование голоса - буквально по нескольким секундам аудио
Достаточно короткого референса, и модель переносит:
- акцент
- ритм
- тембр
- паузы и тайминг
Возможности:
• Zero-shot voice cloning
• Без обучения под конкретного спикера
• Работает в режиме streaming
⚡ Быстро и легко тюнится
Стриминг идёт чанками с задержкой меньше секунды.
А через LoRA fine-tuning можно адаптировать голоса без полного переобучения модели.
https://github.com/OpenBMB/VoxCPM
❤7👍4🔥1
Сообщается, что модель показала около 31% на бенчмарке FrontierMath - и особенно впечатляет не только сам результат, но и то, как она решает новые задачи, а не просто повторяет известные шаблоны.
Многие исследователи отмечают, что:
- модель справляется с задачами, которые выглядят как “по-настоящему новые”
- подходы к решению становятся всё более похожими на исследовательское рассуждение
- уровень рассуждений вызывает интерес даже у профессиональных математиков
Особый фокус сейчас на экспертных отчётах и разборах, где преподаватели и исследователи описывают, какие именно типы задач модель решает хорошо, а где всё ещё есть ограничения.
Если темп сохранится, следующий релиз (условный GPT-5.3) может снова сдвинуть планку возможностей. Пока же самое интересное, читать детальные отчёты и смотреть, как ИИ постепенно заходит на территорию, которая раньше считалась исключительно “человеческой”.
https://x.com/EpochAIResearch/status/2014769359747744200
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍15🔥6❤4