Анализ данных (Data analysis)
46.4K subscribers
2.4K photos
280 videos
1 file
2.1K links
Data science, наука о данных.

@haarrp - админ

@itchannels_telegram - 🔥 главное в ит

@ai_machinelearning_big_data - ML

@machinelearning_interview - вопросы с собесдований по Ml

РКН: clck.ru/3FmyAp
Download Telegram
Google все таки стояли за Nano Banana и намается она теперь Gemini Native Image.

Эта модель для редактирования изображений- мощный коктейль из Photoshop, Figma и MidJourney!

Gemini Native Image — качество редактирования Которое не имеет аналогов.

Что он умеет? Попробуйте, она стоит вашего времени:

• Заменяет объекты на фото, сохраняя остальное — без артефактов и искажений.
• Реставрирует старые снимки — родственники будут в шоке!
• Раскрашивает фото как профи-колорист.
• Удаляет фон идеально чисто.
• Меняет освещение на снимке.
• Всё — через один интуитивный промпт: просто опишите, что хотите!

Посмотрите примеры — модель просто огонь! 🔥

Доступна беcплатно в aistudio: https://aistudio.google.com/prompts/new_chat


@machinelearning_interview
7👍3
MiniCPM-V 4.5 🚀

Свежий релиз от OpenBMB — мультимодальная модель, которая умеет понимать картинки, несколько изображений подряд и даже видео. Главное: запуск возможен прямо на телефоне 📱

Что внутри:
Достигает SOTA результатов в задачах vision+language
96× сжатие видеотокенов → можно анализировать длинные ролики с высоким FPS
Два режима работы: быстрые ответы (Fast) или глубокие рассуждения (Deep)
Мощный OCR для документов
Поддержка более чем 30 языков

🔗 Подробнее: https://huggingface.co/openbmb/MiniCPM-V-4_5

@data_analysis_ml
10👍7🔥4👏1
This media is not supported in your browser
VIEW IN TELEGRAM
Marvis-TTS 🔥🚀

Новая локальная TTS-модель, которая работает в реальном времени прямо на потребительских устройствах: Apple Silicon, iPhone, iPad и других.

В отличие от классических моделей, требующих полный ввод текста или жертвующих скоростью, Marvis генерирует речь потоково — звук появляется по мере обработки текста.

Моделька создаёт эффект живого диалога.

Основные особенности:
- Потоковое озвучивание без задержек
- Отсутствие неестественных пауз и обрывов
- Учет полного контекста текста для связного и выразительного голоса

Установить модель можно командой:


pip install -U mlx-audio


- HF: https://huggingface.co/collections/Marvis-AI/marvis-tts-250m-v01-68adf13f5f59206e3910502a
- Github: https://github.com/Marvis-Labs/marvis-tts

@data_analysis_ml
9👍7🔥6
📈 По данным FT, планы OpenAI завершить реструктуризацию и привлечь новые инвестиции буксуют — переговоры с Microsoft по ключевым пунктам всё ещё не закрыты.

Что на кону:
- Контракт до 2030 года переписывается, чтобы инвесторы могли получить долю в компании и в будущем выйти на IPO
- В центре обсуждений доступ к API: сейчас модели OpenAI эксклюзивно хостятся в Azure, и Microsoft фактически контролирует доступ. OpenAI же хочет добавить и другие облака — Google Cloud и AWS
- Microsoft настаивает на расширенном доступе к интеллектуальной собственности: видеть не только готовые модели, но и процесс их обучения
- Самый жёсткий спор — AGI-клаузула: сейчас OpenAI может ограничить доступ Microsoft при объявлении достижения AGI. Microsoft требует убрать этот пункт, но OpenAI хочет сохранить рычаги

Итог этих переговоров определит и долю Microsoft в OpenAI — ожидается 30–35%, после уже вложенных $13 млрд.

Именно этот узел решит, как будут распределяться контроль и будущее влияние в гонке за ИИ.

🟠 Подробнее
Please open Telegram to view this post
VIEW IN TELEGRAM
9👍3🥰3🥴1
This media is not supported in your browser
VIEW IN TELEGRAM
🚀 Tencent выпустила HunyuanVideo-Foley — открытую систему, которая умеет автоматически превращать видео и текст в качественный звук (Text-Video-to-Audio, TV2A).

🔊 Модель может автоматически генерировать профессиональный звук, который точно совпадает с картинкой и смыслом происходящего.

Главное:
- Универсальность — обучена на 100 000+ часов данных, создаёт звук для любых сцен: от природы до мультфильмов.
- Согласованность текста и видео — новая архитектура *MMDiT* учитывает одновременно изображение и описание, создавая многослойные эффекты: и главный звук, и фоновое окружение.
- Качество студийного уровня — благодаря функции потерь *REPA* и *Audio VAE* звук получается чистым и стабильным, без шумов и артефактов.

📈 На тестах HunyuanVideo-Foley показала лучшие результаты среди открытых моделей: более качественный звук, точная синхронизация с картинкой и учёт контекста сцены.

👉 Попробовать: https://hunyuan.tencent.com/video/zh?tabIndex=0
🌐 Project Page: https://szczesnys.github.io/hunyuanvideo-foley/
🔗 Code: https://github.com/Tencent-Hunyuan/HunyuanVideo-Foley
📄 Report: https://arxiv.org/abs/2508.16930
🤗 Hugging Face: https://huggingface.co/tencent/HunyuanVideo-Foley

@data_analysis_ml
👍63🔥2💔1
🔥AI VK & Pro — топовый ивент по рекомендательным системам

Пришли спецы из разных уголков RecSys и ML: от экспертов из больших компаний до независимых исследователей. Максимум стиля и глитча

Команда VK поделилась, как они видят будущее рекомендаций, как строят единую рекомендательную платформу и многое другое. Нетворкали, обсуждали, что стоит за трендами и куда движемся дальше

Диджей-сеты, активности и стиль
👍5❤‍🔥32🔥1
🛰 ComputerRL — новый фреймворк, который учит AI-агентов работать с компьютером так же, как это делает человек.

Главная идея — парадигма API-GUI: агент может и вызывать API, и кликать по кнопкам интерфейса. Благодаря этому исчезает разрыв между машинной автоматизацией и привычным для человека рабочим столом.

Команда Zai проверила ComputerRL на модели GLM-4-9B-0414 и протестировала её на бенчмарке OSWorld. Результат — новый агент AutoGLM-OS-9B, который достиг рекордной точности и уверенно решает задачи автоматизации в desktop-средах.


Проще говоря: теперь AI может не только «понимать» компьютер, но и полноценно работать с ним — запускать программы, управлять окнами и выполнять сложные действия.

📌 Статья
📌 Проект
👍117🔥3
KOSMOS 2.5 от Microsoft наконец-то интегрирован в huggingface Transformers 🙌🔥

Это end-to-end Document AI модель, похожая на Donut/Pix2Struct, обученная на 357,4 млн документов.

Основные возможности:
- Конвертация изображений в Markdown
- OCR с пространственными координатами
- Общение напрямую с документами

Огромный шаг для Document AI и мультимодальных рабочих процессов!

🟢Models : https://huggingface.co/models?search=microsoft/kosmos-2.5
🟢Docs: https://huggingface.co/docs/transformers/main/en/model_doc/kosmos2_5

#AI #HuggingFace #Microsoft #DocumentAI
Please open Telegram to view this post
VIEW IN TELEGRAM
👍95🔥5
Forwarded from Machinelearning
⚡️ OLMoASR: открытые ASR-модели от AI2.

Институт искусственного интеллекта Аллена выпустил OLMoASR, семейство из 6 моделей для автоматического распознавания английской речи.

▶️Линейка моделей:

🟢OLMoASR-tiny.en (39M);
🟢OLMoASR-base.en (74M);
🟢OLMoASR-small.en (244M);
🟢OLMoASR-medium.en (769M);
🟠OLMoASR-large.en-v1 (1.5B) обученная на 440 тыс. часов аудио;
🟠OLMoASR-large.en-v2 (1.5B) обученная на 680 тыс. часов аудио;

По результатам тестов на 21 датасете, модели OLMoASR показали производительность, сопоставимую с Whisper от OpenAI, а в некоторых случаях и превзошли ее, особенно при работе с длинными аудиозаписями.

Проект полностью открытый: опубликованы не только веса моделей, но и датасет, код для обработки данных, а также скрипты для обучения и оценки. Все компоненты, включая код и данные, доступны на GitHub и Hugging Face.


📌Лицензирование:  Apache 2.0 License.


🟡Статья
🟡Набор моделей
🟡Техотчет
🟡Demo
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #ASR #OLMoASR #AI2
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
9🔥4👍3