Анализ данных (Data analysis)

🛰 ComputerRL — новый фреймворк, который учит AI-агентов работать с компьютером так же, как это делает человек.

Главная идея — парадигма API-GUI: агент может и вызывать API, и кликать по кнопкам интерфейса. Благодаря этому исчезает разрыв между машинной автоматизацией и привычным для человека рабочим столом.

Команда Zai проверила ComputerRL на модели GLM-4-9B-0414 и протестировала её на бенчмарке OSWorld. Результат — новый агент AutoGLM-OS-9B, который достиг рекордной точности и уверенно решает задачи автоматизации в desktop-средах.

Проще говоря: теперь AI может не только «понимать» компьютер, но и полноценно работать с ним — запускать программы, управлять окнами и выполнять сложные действия.

📌 Статья
📌 Проект

👍13❤7🔥3

4.79K views18:03

Анализ данных (Data analysis)

KOSMOS 2.5 от Microsoft наконец-то интегрирован в huggingface Transformers 🙌🔥

Это end-to-end Document AI модель, похожая на Donut/Pix2Struct, обученная на 357,4 млн документов.

✨ Основные возможности:
- Конвертация изображений в Markdown
- OCR с пространственными координатами
- Общение напрямую с документами

Огромный шаг для Document AI и мультимодальных рабочих процессов!

🟢

Models : https://huggingface.co/models?search=microsoft/kosmos-2.5

🟢

Docs: https://huggingface.co/docs/transformers/main/en/model_doc/kosmos2_5

#AI #HuggingFace #Microsoft #DocumentAI

Please open Telegram to view this post

VIEW IN TELEGRAM

👍11❤5🔥5

4.36K views08:03

Анализ данных (Data analysis)

Forwarded from Machinelearning

⚡️

OLMoASR: открытые ASR-модели от AI2.

Институт искусственного интеллекта Аллена выпустил OLMoASR, семейство из 6 моделей для автоматического распознавания английской речи.

▶️

Линейка моделей:

🟢OLMoASR-tiny.en (39M);
🟢OLMoASR-base.en (74M);
🟢OLMoASR-small.en (244M);
🟢OLMoASR-medium.en (769M);
🟠OLMoASR-large.en-v1 (1.5B) обученная на 440 тыс. часов аудио;
🟠OLMoASR-large.en-v2 (1.5B) обученная на 680 тыс. часов аудио;

По результатам тестов на 21 датасете, модели OLMoASR показали производительность, сопоставимую с Whisper от OpenAI, а в некоторых случаях и превзошли ее, особенно при работе с длинными аудиозаписями.

Проект полностью открытый: опубликованы не только веса моделей, но и датасет, код для обработки данных, а также скрипты для обучения и оценки. Все компоненты, включая код и данные, доступны на GitHub и Hugging Face.

📌Лицензирование: Apache 2.0 License.

🟡

🟡

🟡

🟡

🖥

GitHub

@ai_machinelearning_big_data

#AI #ML #ASR #OLMoASR #AI2

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

❤9👍4🔥4

3.94K views12:10

Анализ данных (Data analysis)

📢 OpenAI опубликовала официальный Realtime Prompting Guide — подробное руководство по работе с новым моделью gpt-realtime для голос-голос взаимодействия в API.

🧠 В отличие от текстовых моделей, gpt-realtime требует особых техник промптинга. Вот ключевые:

● Делите системный промпт на секции: роль, тон, контекст, правила, инструменты, поток диалога, безопасность
● Чётко задавайте роль и цель, чтобы модель понимала свою задачу и критерии успеха
● Управляйте речью напрямую: длина ответа (2–3 предложения), темп речи, жёсткая языковая блокировка
● Добавляйте примеры фраз для стиля и правило вариативности, чтобы избежать повторов
● Указывайте правильные произношения сложных терминов, цифры и коды — по символам, с подтверждением
● Убирайте неоднозначности: давайте определения, устраняйте конфликты, используйте критику для улучшения промпта
● Для непонятного аудио — отвечать только на чёткий ввод, в том же языке запрашивать уточнение
● Точно описывайте работу инструментов: когда использовать, когда нет, добавляйте преамбулы или запрос подтверждения
● Если роли разделены на «мыслителя» и «отвечающего» — требуйте перефразировать мысль в короткий живой ответ для речи
● Организуйте диалог как состояния с целями, инструкциями, критериями выхода и примерами
● Для сложных сценариев используйте JSON state machine или динамические правила и списки инструментов
● Определяйте условия эскалации (например, 2 сбоя инструмента или 3 подряд «нет ввода»), при которых модель должна коротко и нейтрально передать разговор человеку

⚡️ Этот гайд даёт системный подход к промптингу в реальном времени и помогает строить надёжных голосовых ассистентов на базе gpt-realtime.

https://cookbook.openai.com/examples/realtime_prompting_guide

❤7👍6🔥4

5.01K views13:02

Анализ данных (Data analysis)

🛠️ Fine-tuning GPT-OSS и деплой в FP4

Простое дообучение в MXFP4 часто рушит качество модели.

NVIDIA показала рабочий рецепт: совмещаем fine-tuning с Quantization-Aware Training (QAT), а затем возвращаем модель в 4-битную точность — быстро и без потери качества при инференсе.

🚀 В блоге:
- Пошаговый QAT-гайд с кодом
- Бенчмарки после fine-tune + QAT
- Как NVFP4 на Blackwell даёт ещё больше точности

📖 Полный рецепт в NVIDIA Model Optimizer: https://developer.nvidia.com/blog/fine-tuning-gpt-oss-for-accuracy-and-performance-with-quantization-aware-training/

❤13🔥4👍3

4.79K views07:47

Анализ данных (Data analysis)

🚀 LongCat-Flash-Chat — новая MoE-модель от Meituan

Что это:
LongCat-Flash-Chat — огромная модель на 560B параметров с архитектурой Mixture-of-Experts (MoE).

При этом в работе активируется только 18.6–31.3B параметров (в среднем ~27B), что делает её очень эффективной.

Особенности:
- Дизайн ScMoE (shortcut-connected MoE) позволяет перекрывать вычисления и коммуникации → скорость инференса более 100 токенов/сек.
- Продуманная стратегия масштабирования: стабильное обучение, защита от ошибок данных, репродуцируемость.
- Настроена под агентные задачи: контекст до 128k токенов, multi-stage пост-трейнинг, синтез данных с участием мультиагентов.

Результаты:
Модель показывает конкурентную производительность в понимании текста, академических задачах, программировании и агентных сценариях.

Лицензия и доступ:
- Доступна бесплатно на Hugging Face.
- Лицензия MIT — можно использовать в любых проектах.

https://huggingface.co/meituan-longcat/LongCat-Flash-Chat

🔥11❤7👍3

5.2K views09:00

Анализ данных (Data analysis)

📝 Новое исследование о креативности текста

Учёные показали: тексты, созданные человеком, семантически новее, чем сгенерированные ИИ.

🔎 Как измеряли
Они ввели метрику «semantic novelty» — косинусное расстояние между соседними предложениями.

🧠 Главные выводы

Человеческие тексты стабильно показывают более высокую новизну на разных эмбеддинг-моделях (RoBERTa, DistilBERT, MPNet, MiniLM).

В датасете «human-AI storytelling» вклад людей оказался семантически разнообразнее.

✨ Но есть нюанс
То, что мы называем «галлюцинациями» ИИ, может быть полезным в совместном сторителлинге. Они добавляют неожиданные повороты и помогают удерживать интерес к истории.

👉 Вывод: люди более новаторские, ИИ — более предсказуемый, но вместе они усиливают друг друга.

Подробности

❤13🔥6👍4

4.45K views09:59

Анализ данных (Data analysis)

🚀 Новый тариф GLM Coding Plan для Claude Code!

Теперь работать с GLM-4.5 стало проще и дешевле:

- 💸 Цена снизилась в 7 раз
- ⚡️ В 3 раза больше промптов для задач по коду

🟠

Get started: https://z.ai/subscribe

🟠

Integration guide: https://docs.z.ai/scenario-example/develop-tools/claude

Please open Telegram to view this post

VIEW IN TELEGRAM

❤6🔥5👍2

4.32K views16:49

Анализ данных (Data analysis)

🗣 TaDiCodec — новый токенайзер речи, который умеет экстремально сжимать звук без потери качества.

Что в нём особенного:
- ⚙️ Метод Binary Spherical Quantization (BSQ) — никакого «развала» кодбука
- 🎯 Латенты превращаются в дискретные токены через простую бинаризацию
- 📦 Кодбук на 16,384 токена
- 📉 Супернизкий битрейт: 0.0875 kbps при 24 kHz
- 🌀 Архитектура на diffusion autoencoder — без GAN’ов и сложных костылей

👉 TaDiCodec показывает: можно сжимать аудио в десятки тысяч раз и всё равно сохранять качество речи.

🟠

HF: https://huggingface.co/amphion/TaDiCodec

🟠

Github: https://github.com/HeCheng0625/Diffusion-Speech-Tokenizer

@data_analysis_ml

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥11❤6👍4

5.59K views08:04

About

Blog

Apps

Platform