Анализ данных (Data analysis)
46.4K subscribers
2.4K photos
280 videos
1 file
2.1K links
Data science, наука о данных.

@haarrp - админ

@itchannels_telegram - 🔥 главное в ит

@ai_machinelearning_big_data - ML

@machinelearning_interview - вопросы с собесдований по Ml

РКН: clck.ru/3FmyAp
Download Telegram
📈 По данным FT, планы OpenAI завершить реструктуризацию и привлечь новые инвестиции буксуют — переговоры с Microsoft по ключевым пунктам всё ещё не закрыты.

Что на кону:
- Контракт до 2030 года переписывается, чтобы инвесторы могли получить долю в компании и в будущем выйти на IPO
- В центре обсуждений доступ к API: сейчас модели OpenAI эксклюзивно хостятся в Azure, и Microsoft фактически контролирует доступ. OpenAI же хочет добавить и другие облака — Google Cloud и AWS
- Microsoft настаивает на расширенном доступе к интеллектуальной собственности: видеть не только готовые модели, но и процесс их обучения
- Самый жёсткий спор — AGI-клаузула: сейчас OpenAI может ограничить доступ Microsoft при объявлении достижения AGI. Microsoft требует убрать этот пункт, но OpenAI хочет сохранить рычаги

Итог этих переговоров определит и долю Microsoft в OpenAI — ожидается 30–35%, после уже вложенных $13 млрд.

Именно этот узел решит, как будут распределяться контроль и будущее влияние в гонке за ИИ.

🟠 Подробнее
Please open Telegram to view this post
VIEW IN TELEGRAM
9👍3🥰3🥴1
This media is not supported in your browser
VIEW IN TELEGRAM
🚀 Tencent выпустила HunyuanVideo-Foley — открытую систему, которая умеет автоматически превращать видео и текст в качественный звук (Text-Video-to-Audio, TV2A).

🔊 Модель может автоматически генерировать профессиональный звук, который точно совпадает с картинкой и смыслом происходящего.

Главное:
- Универсальность — обучена на 100 000+ часов данных, создаёт звук для любых сцен: от природы до мультфильмов.
- Согласованность текста и видео — новая архитектура *MMDiT* учитывает одновременно изображение и описание, создавая многослойные эффекты: и главный звук, и фоновое окружение.
- Качество студийного уровня — благодаря функции потерь *REPA* и *Audio VAE* звук получается чистым и стабильным, без шумов и артефактов.

📈 На тестах HunyuanVideo-Foley показала лучшие результаты среди открытых моделей: более качественный звук, точная синхронизация с картинкой и учёт контекста сцены.

👉 Попробовать: https://hunyuan.tencent.com/video/zh?tabIndex=0
🌐 Project Page: https://szczesnys.github.io/hunyuanvideo-foley/
🔗 Code: https://github.com/Tencent-Hunyuan/HunyuanVideo-Foley
📄 Report: https://arxiv.org/abs/2508.16930
🤗 Hugging Face: https://huggingface.co/tencent/HunyuanVideo-Foley

@data_analysis_ml
👍63🔥2💔1
🔥AI VK & Pro — топовый ивент по рекомендательным системам

Пришли спецы из разных уголков RecSys и ML: от экспертов из больших компаний до независимых исследователей. Максимум стиля и глитча

Команда VK поделилась, как они видят будущее рекомендаций, как строят единую рекомендательную платформу и многое другое. Нетворкали, обсуждали, что стоит за трендами и куда движемся дальше

Диджей-сеты, активности и стиль
👍5❤‍🔥32🔥1
🛰 ComputerRL — новый фреймворк, который учит AI-агентов работать с компьютером так же, как это делает человек.

Главная идея — парадигма API-GUI: агент может и вызывать API, и кликать по кнопкам интерфейса. Благодаря этому исчезает разрыв между машинной автоматизацией и привычным для человека рабочим столом.

Команда Zai проверила ComputerRL на модели GLM-4-9B-0414 и протестировала её на бенчмарке OSWorld. Результат — новый агент AutoGLM-OS-9B, который достиг рекордной точности и уверенно решает задачи автоматизации в desktop-средах.


Проще говоря: теперь AI может не только «понимать» компьютер, но и полноценно работать с ним — запускать программы, управлять окнами и выполнять сложные действия.

📌 Статья
📌 Проект
👍117🔥3
KOSMOS 2.5 от Microsoft наконец-то интегрирован в huggingface Transformers 🙌🔥

Это end-to-end Document AI модель, похожая на Donut/Pix2Struct, обученная на 357,4 млн документов.

Основные возможности:
- Конвертация изображений в Markdown
- OCR с пространственными координатами
- Общение напрямую с документами

Огромный шаг для Document AI и мультимодальных рабочих процессов!

🟢Models : https://huggingface.co/models?search=microsoft/kosmos-2.5
🟢Docs: https://huggingface.co/docs/transformers/main/en/model_doc/kosmos2_5

#AI #HuggingFace #Microsoft #DocumentAI
Please open Telegram to view this post
VIEW IN TELEGRAM
👍95🔥5
Forwarded from Machinelearning
⚡️ OLMoASR: открытые ASR-модели от AI2.

Институт искусственного интеллекта Аллена выпустил OLMoASR, семейство из 6 моделей для автоматического распознавания английской речи.

▶️Линейка моделей:

🟢OLMoASR-tiny.en (39M);
🟢OLMoASR-base.en (74M);
🟢OLMoASR-small.en (244M);
🟢OLMoASR-medium.en (769M);
🟠OLMoASR-large.en-v1 (1.5B) обученная на 440 тыс. часов аудио;
🟠OLMoASR-large.en-v2 (1.5B) обученная на 680 тыс. часов аудио;

По результатам тестов на 21 датасете, модели OLMoASR показали производительность, сопоставимую с Whisper от OpenAI, а в некоторых случаях и превзошли ее, особенно при работе с длинными аудиозаписями.

Проект полностью открытый: опубликованы не только веса моделей, но и датасет, код для обработки данных, а также скрипты для обучения и оценки. Все компоненты, включая код и данные, доступны на GitHub и Hugging Face.


📌Лицензирование:  Apache 2.0 License.


🟡Статья
🟡Набор моделей
🟡Техотчет
🟡Demo
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #ASR #OLMoASR #AI2
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
9🔥4👍3
📢 OpenAI опубликовала официальный Realtime Prompting Guide — подробное руководство по работе с новым моделью gpt-realtime для голос-голос взаимодействия в API.

🧠 В отличие от текстовых моделей, gpt-realtime требует особых техник промптинга. Вот ключевые:

● Делите системный промпт на секции: роль, тон, контекст, правила, инструменты, поток диалога, безопасность
● Чётко задавайте роль и цель, чтобы модель понимала свою задачу и критерии успеха
● Управляйте речью напрямую: длина ответа (2–3 предложения), темп речи, жёсткая языковая блокировка
● Добавляйте примеры фраз для стиля и правило вариативности, чтобы избежать повторов
● Указывайте правильные произношения сложных терминов, цифры и коды — по символам, с подтверждением
● Убирайте неоднозначности: давайте определения, устраняйте конфликты, используйте критику для улучшения промпта
● Для непонятного аудио — отвечать только на чёткий ввод, в том же языке запрашивать уточнение
● Точно описывайте работу инструментов: когда использовать, когда нет, добавляйте преамбулы или запрос подтверждения
● Если роли разделены на «мыслителя» и «отвечающего» — требуйте перефразировать мысль в короткий живой ответ для речи
● Организуйте диалог как состояния с целями, инструкциями, критериями выхода и примерами
● Для сложных сценариев используйте JSON state machine или динамические правила и списки инструментов
● Определяйте условия эскалации (например, 2 сбоя инструмента или 3 подряд «нет ввода»), при которых модель должна коротко и нейтрально передать разговор человеку

⚡️ Этот гайд даёт системный подход к промптингу в реальном времени и помогает строить надёжных голосовых ассистентов на базе gpt-realtime.

https://cookbook.openai.com/examples/realtime_prompting_guide
5👍3🔥3