223K subscribers
3.83K photos
640 videos
17 files
4.46K links
Погружаемся в машинное обучение и Data Science

Показываем как запускать любые LLm на пальцах.

По всем вопросам - @haarrp

@itchannels_telegram -🔥best channels

Реестр РКН: clck.ru/3Fmqri
Download Telegram
✔️ Cursor 1.0 — стабильный релиз с полезными фичами

Новая стабильная версия Cursor, и в ней появилось много обновлений, которые делают работу с кодом удобнее.

Вот что стоит отметить:

🐞 Bugbot
Автоматически проверяет Pull Request'ы на баги и предлагает исправления.
Можно внести правку прямо в редакторе — в один клик.

🧠 Memory (beta)
Cursor теперь запоминает контекст проекта, что помогает при командной работе и упрощает навигацию по коду.

⚙️ One-Click MCP Setup
Настройка подключения к Model Context Protocol — теперь через одну кнопку, без ручной конфигурации.

📌 Дополнительно в 1.0:
• Возможность редактировать несколько мест в коде одновременно
• Поддержка таблиц, Markdown и диаграмм Mermaid в чате
• Обновлённые настройки и админ-панель
• Фоновая работа агентов — можно интегрировать их со Slack и Jupyter Notebooks

Cursor постепенно становится более удобной средой для совместной работы с ИИ-помощником.

https://www.cursor.com/changelog

@ai_machinelearning_big_data

#CursorAI #AIcoding #DevTools #Jupyter #CodeAssistant
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
172🔥30👍19🤬3👀3🥰1
🌟 Microsoft GUI-Actor: взаимодействие ИИ с GUI без использования координат.

GUI-Actor — методика на базе VLM, которая вместо традиционной генерации координат текстом при визуальной обработке интерфейса использует внимание внутри модели.

Чтобы уйти от координатного подхода, в GUI-Actor используется специальный токен <ACTOR>, который "учится" связываться с визуальными патчами, соответствующими целевой области экрана. За один проход модель может запомнить сразу несколько кандидатов на действие.

Например, все кнопки "Сохранить" в сложном интерфейсе. Это очень похоже на человеческое восприятие: видеть сам элемент, а не его позиции по осям Х и Y.


Выбрать наиболее подходящий вариант из элементов-кандидатов помогает "верификатор". Это отдельная модель, оценивающая кандидатов от <ACTOR> и отбирающая самый подходящий для действия. Она не только улучшает точность, но и универсальна: ее можно подключить к другим моделям.

Обучение требует минимум ресурсов. Можно заморозить основную VLM (Qwen2-VL-7B) и дообучить только новый action head и токены. Это всего ~100М параметров для 7B-модели.

Комбинация из такого быстрого обучения + верификатор почти догоняет полноценно обученные аналоги, сохраняя общие способности базовой модели. Никакого "катастрофического забывания" - агент учится кликать интерфейсы, не разучиваясь описывать картинки.

Результаты тестов на сложном бенчмарке ScreenSpot-Pro с высоким разрешением и незнакомыми интерфейсами (CAD, научный софт) GUI-Actor-7B с Qwen2-VL показал 40.7 балла, а с Qwen2.5-VL — 44.6, обойдя даже UI-TARS-72B (38.1).

На других тестах (ScreenSpot, ScreenSpot-v2) он тоже лидирует, особенно в иконках и текстовых элементах, демонстрируя крутую адаптацию к разным разрешениям и версткам.

▶️В открытый доступ опубликованы веса моделей:

🟢GUI-Actor-7B-Qwen2-VL;
🟢GUI-Actor-2B-Qwen2-VL;
🟠GUI-Actor-Verifier-2B.

В планах - выпуск еще двух моделей на основе Qwen2.5-VL (3B и 7B), демо GUI-Actor, код для модели-верификатора и датасеты для обучения.


📌Лицензирование: MIT License.


🟡Страница проекта
🟡Набор моделей
🟡Arxiv
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #VLM #GUIActor #Microsoft
Please open Telegram to view this post
VIEW IN TELEGRAM
5👍4920🔥15🥰2
Reddit подаёт в суд на Anthropic за незаконное использование данных

Reddit обвиняет Anthropic в массовом парсинге сайта и коммерческом использовании данных.

Согласно иску:
🔹 Anthropic парсили Reddit более 100 000 раз, несмотря на заверения, об остановке сбора данных
🔹 Anthropic использовали пользовательский контент в коммерческих целях без лицензии
🔹 Reddit утверждает: это прямое нарушение соглашения и "поведение не в духе компании, называющей себя белым рыцарем AI-индустрии"

📣 Цитата из иска:
> “Reddit — одно из последних по-настоящему человеческих мест в интернете. И то, как поступает Anthropic, недопустимо.”

😬 На фоне миллиардных сделок с Google и OpenAI, это может стать прецедентом: что такое "честное использование" данных для ИИ?

Судебная битва за контент только начинается.

https://www.wsj.com/tech/ai/reddit-lawsuit-anthropic-ai-3b9624dd

@ai_machinelearning_big_data

#reddit #Anthropic #ai #claude
🔥77👍3219😁10👏7🤬7🤣6🗿5
⚡️Релиз Qwen3-Embedding и Qwen3-Reranker

Главное:
Модели на 0.6B, 4B и 8B параметров
Поддержка 119 языков
Sota на MMTEB, MTEB и MTEB-Code
Открытый код на Hugging Face, GitHub и ModelScope
Доступ через API на Alibaba Cloud

🔍 Применение:
Поиск документов, RAG, классификация, поиск кода и др.

🟡 Qwen3-Embedding: https://huggingface.co/collections/Qwen/qwen3-embedding-6841b2055b99c44d9a4c371f
🟡Qwen3-Reranker: https://huggingface.co/collections/Qwen/qwen3-reranker-6841b22d0192d7ade9cdefea
🟡GitHub: https://github.com/QwenLM/Qwen3-Embedding
🟡Modelscope: https://modelscope.cn/organization/qwen

@ai_machinelearning_big_data

#qwen
Please open Telegram to view this post
VIEW IN TELEGRAM
64👍31🔥19🥰5❤‍🔥2
✔️ Google представила превью обновлённой модели Gemini 2.5 0605

Новая версия уже доступна для тестирования и показывает заметные улучшения в:

🧠 кодинге
📊 логическом выводе
🔬 задачах по науке и математике

Pro-версия показывает прирост на 24 пункта Elo, удерживая лидерство на lmarena_ai с результатом 1470.

💬 Также улучшены стиль и структура ответов — Google учла фидбек пользователей.

Gemini обошёл Opus 4 в тестах на веб-разработку (WebDev Arena).

💰 Цены
— до 200 000 токенов: $1.25 вход / $10 выход (за 1M токенов)
— свыше 200 000 токенов: $2.50 вход / $15 выход (за 1M токенов)

🔧Модель достпна уже сейчас в:
- AI Studio
- Vertex AI
- Gemini app

https://blog.google/products/gemini/gemini-2-5-pro-latest-preview/

@ai_machinelearning_big_data

#Gemini #Google
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5829🔥11🥰5
Media is too big
VIEW IN TELEGRAM
🎙️ ElevenLabs представила Eleven v3 (alpha) — самую выразительную модель озвучки текста

Самая выразительная модель озвучки текста на сегодня.
Поддерживает 70+ языков, многоголосовой режим, и теперь — аудио-теги, которые задают интонацию, эмоции и даже паузы в речи.

🧠 Новая архитектура лучше понимает текст и контекст, создавая естественные, "живые" аудио.

🗣️ Что умеет Eleven v3:
• Генерировать реалистичный диалог с несколькими голосами
• Считывать эмоциональные переходы
• Реагировать на контекст и менять тон в процессе речи

🎛 МОдель уаправляется через теги:
- Эмоции: [sad], [angry], [happily]
- Подача: [whispers], [shouts]
- Реакции: [laughs], [sighs], [clears throat]

📡 Публичный API обещают выкатить очень скоро.

⚠️ Это превью версия — может требовать точной настройки промптов. Но результат действительно впечатляет

💸 Весь июньдают 80% скидки на генерацию
🟡 Промпт-гайд для v3: https://elevenlabs.io/docs/best-practices/prompting/eleven-v3
Eleven v3.
🟡 Eleven v3: https://elevenlabs.io/v3

@ai_machinelearning_big_data

#ElevenLabs #tts
Please open Telegram to view this post
VIEW IN TELEGRAM
1🔥72👍3420😨6
Media is too big
VIEW IN TELEGRAM
✔️ Mistral запустил инструмент для "вайб-кодинга" Mistral Code.

Mistral представил Mistral Code — инструмент для программистов, который будет бороться за внимание пользователей с GitHub Copilot и другими аналогами. Продукт основан на открытом проекте Continue и включает в себя собственные модели Mistral: Codestral для автозаполнения кода, Devstral для решения задач через агенты, Mistral Medium для чатов и Codestral Embed для поиска. Поддерживаются 80+ языков программирования, интеграция с VS Code и JetBrains уже в бета-тестировании.

В компании говорят, что ассистент уже используют Capgemini, SNCF и банк Abanca. Mistral Code позволяет работать локально, обрабатывает файлы, ошибки в терминале и даже обсуждения из тикетов. Beta-версия доступна для тестирования, а часть улучшений обещают добавлять в опенсорс.
mistral.ai

✔️ Phonely, Maitai и Groq решили проблему задержек голосовом ИИ.

Компании совместно добились успеха, сократив задержку на 70% и повысив комплексную точность (ASR+генерация ответа) с 81,5% до 99,2%. Проблема «неловких пауз» в разговорах с роботами, которая выдавала их, устранена благодаря технологии Groq - «горячей замене» легких моделей LoRA без потерь в скорости.

Система работает так: Maitai выбирает оптимальную модель для каждого запроса, Groq обрабатывает ее на специализированных чипах LPU, а данные о слабых местах моделей собираются и используются для их доработки. В итоге время первого ответа снизилось с 661 до 176 мс, а синтез диалога стал в 4 раза быстрее.

Один из клиентов Phonely уже заменит 350 операторов колл-центра на ИИ, а количество качественных лидов выросло на 32%.
venturebeat.com

✔️ Aria Gen 2: подробности об умных очках с ИИ-обработкой.

Компания Марка Цукерберга раскрыла подробности об очках Aria Gen 2. Новинка весит 74–76 грамм, имеет 8 вариантов оправ и складные дужки для удобства. Главное изменение: 4 камеры с датчиками затвора, которые устойчивы к искажения при движении. Динамический диапазон вырос до 120 дБ, а угол перекрытия стереокамер увеличился до 80°, что улучшает определение глубины. В наносном узле разместили контактный вибромикрофон и датчик пульса PPG.

Для ИИ-задач предусмотрен отдельный процессор, а система VIO отслеживает движение в 6DoF. Очки следят за глазами, фиксируют зрачки, отслеживают руки в 3D. Устройства планируют выдавать исследователям позже в 2025 году, а демо покажет на конференции CVPR в июне этого года.
mashable.com

✔️ Anthropic создала специальные модели Claude Gov для нужд национальной безопасности США.

Anthropic разработала версии моделей Claude, предназначенных исключительно для правительственных структур, занимающихся вопросами национальной безопасности. Решение создано на основе обратной связи от госзаказчиков и прошло проверки на безопасность.

Модели оптимизированы для работы с секретными данными, лучше понимают документы из сферы разведки и обороны, анализируют киберугрозы и поддерживают редкие языки, важные для спецопераций. Использование ограничено закрытыми системами, где доступ к информации строго регламентирован.
anthropic.com

✔️ Higgsfield анонсировал инструмент для реалистичных видео с ИИ-аватарами.

Higgsfield представил Higgsfield Speak — платформу, которая превращает текст в видео с анимированными персонажами, передающими эмоции, жесты и движения. В отличие от обычного липсинка, новый инструмент использует 80 параметров движения и 40 визуальных эффектов, чтобы сделать анимацию похожей на «живую» съемку. Платформа подходит для подкастов, обучающих роликов или рекламных кампаний: пользователи выбирают стиль, аватар и сценарий — остальное система обрабатывает автоматически.

Продукт позиционируется как решение для креативщиков, которым нужно быстро создавать контент без камеры - от влогов до рекламных лендингов. Подписки Pro и Ultimate открывают доступ к инструментам, которые, по словам разработчиков, изменят подход к производству видео в ближайшее полугодие.
HiggsField AI в сети Х (ex-Twitter)

@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
47👍33🔥14🥰4😁2🥱1
🌟 Google опенсорснул стек Deep Search.

Google выложил в открытый доступ на Github фуллстек-проект, который превращает пользовательские запросы в глубокие исследования с помощью Gemini. Его главная задача - находить информацию в интернете, анализировать ее и выдавать ответы с ссылками на источники, используя комбинацию React-интерфейса и бэкенда на базе LangGraph.

Проект включает в себя все необходимое: и фронтенд, и бэкенд.

🟢Фронтенд на React и он про взаимодействие с пользователем (принимает запросы и отображает результаты.)

🟢Бэкенд, на LangGraph, управляет «мозгом» системы: здесь работает агент, который генерирует поисковые запросы, анализирует результаты и решает, нужно ли уточнять данные.

Внутри бэкенда есть модуль, который отвечает за запуск цикла: сначала Gemini создает начальные запросы, затем система ищет информацию через API Google Search, оценивает, хватает ли данных, и при необходимости повторяет процесс.

Важная часть пайплайна — рефлексия. После каждого поиска агент проверяет, закрыты ли все «пробелы» в знаниях. Если информации недостаточно, он генерирует новые вопросы и повторяет цикл, пока не соберёт достаточно данных для ответа.

Проект адаптирован к продакшену, в нем используются Redis (для стриминга результатов в реальном времени) и PostgreSQL (для хранения истории диалогов и управления задачами). Это позволяет системе не терять прогресс даже при перезагрузках.

⚠️ Для практического использования потребуются API-ключи к Google Gemini и LangSmith.


📌Лицензирование: Apache 2.0 License.


🖥 GitHub


@ai_machinelearning_big_data

#AI #ML #DeepSearch #Google #Gemini #LangGraph
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
82👍42🔥22😁8
⚡️ Anthropic ограничила доступ Windsurf к моделям Claude.

Anthropic отключила Windsurf от прямого использования моделей Claude 3.5 и 3.7 Sonnet, объяснив это слухами о возможной покупке стартапа OpenAI.

По словам сооснователя Anthropic Джареда Каплана, компания хочет сосредоточиться на долгосрочных партнерствах, так как сейчас сталкивается с нехваткой вычислительных мощностей.

Windsurf, получавший доступ к Claude для разработки своих продуктов, теперь вынужден переходить на сторонние платформы, что может временно нарушить стабильность сервиса для пользователей.

В то же время Anthropic анонсировал сотрудничество с Cursor. Каплан подчеркнул, что фокус компании смещается с чат-ботов на «агентные» решения вроде Claude Code, которые, по его мнению, окажутся более полезными в будущем.

Источник: Techcrunch

@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6334🔥15🤔10
📌100+ готовых блокнотов Google Collab от Unsloth.

Unsolth выложила в открытый доступ в своем репозитории на Github больше сотни готовых ipynb-блокнотов для запуска различных операций в Google Collab практически всех популярных семейств языковых моделей, BERT, TTS-моделей и VLM:

🟢Llama v.3 -3.2
🟢Qwen v.2-3
🟢Gemma v.2-3 + Code Gemma
🟢Mistral Family
🟢Phi v.3-4
🟠TTS (Sesame, Orpheus, Spark, Oute, Llasa, Whisper)
🟠VLM и MMLM (Llama 3.2, Qwen 2.5VL, Pixtral)
🟠BERT (ModernBERT-large)

Блокноты включают пошаговые руководства и примеры для вызова инструментов, классификации, синтетических данных, подготовки сетов, инференса и файнтюна моделей и
примеры методов GRPO, DPO, SFT, Continued Pretraining, Reasoning и других.

Unsloth известна тем, что помогает делать большие языковые модели быстрее, компактнее и доступнее при помощи динамического квантования, что позволяет запускать их без сильной потери качества . Их технологии ускоряют обучение и настройку ИИ-моделей в 2 раза и экономят до 70% памяти. Инструменты Unsloth, на сегодняшний день, скачали более 10 млн раз.


Есть подробная документация по использованию, а для тех, кто больше привык к Kaggle - такой же набор блокнотов для запуска на этой платформе.


📌Лицензирование: LGPL-3.0-1


🖥GitHub


@ai_machinelearning_big_data

#AI #ML #LLM #Notebooks #Github #Unsloth
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥106👍2524❤‍🔥9🌭3
⚡️ Отчет OpenAI по пресечению вредоносного использования ИИ

В свежем июньском отчете, Open AI описала самые крупные кейсы, когда злоумышленники использовали модели ИИ для создания фейковых резюме, манипуляций в соцсетях, кибератак и мошенничества.

Для анализа угроз исследователи применяют комбинацию ИИ и экспертные команды. ИИ помогает выявлять шаблоны текста злоумышленников и координировать расследование с платформами. Архитектура таких систем включает модели для анализа данных, детекторы аномалий и инструменты для синхронизации с правоохранительными органами.

Обучались такие специализированные модели, помимо общедоступных данных, еще на примерах социальной инженерии и профилях киберугроз. Дополнительно, они получили методы обнаружения фейковых профилей, перевода текстов и анализа сетевого трафика.

▶️Всего в отчете приведено 10 случаев обнаружения:

Deceptive Employment Scheme: IT Workers.

🟠Угроза использования ИИ для создания поддельных резюме и получения удалённых IT-вакансий, связанная с подозрением на участников из КНДР.
🟢Были заблокированы аккаунты ChatGPT, использовавшие модели для автоматической генерации документов, а также установлены связи с операторами в Африке и Северной Америке.

Covert IO: Operation “Sneer Review”

🟠Координированная генерация комментариев в соцсетях для продвижения китайских интересов, включая критику Тайваня и Пакистана.
🟢Обнаружены и заблокированы аккаунты, создававшие иллюзию органической активности через множественные языки и платформы.

Covert IO: Operation “High Five”

🟠Массовые комментарии в соцсетях на политические темы в Филиппинах, связанные с маркетинговой компанией Comm&Sense Inc.
🟢Были заблокированы аккаунты, создававшие фейковые TikTok-каналы для популяризации президента Маркоса, и выявлена схема с использованием подставных профилей.

Social engineering meets IO: Operation “VAGue Focus”

🟠Социальная инженерия через поддельные СМИ (Focus Lens News, VAG Group) для сбора информации о политике США и Европы.
🟢Заблокированы аккаунты, использовавшие ИИ для перевода и создания фейковых материалов, а также выявлены признаки связи с китайскими структурами.

Covert IO: Operation “Helgoland Bite”

🟠Пропаганда партии AfD в Германии через поддельные Telegram-каналы и сайт Pravda DE.
🟢Обнаружены и заблокированы аккаунты, распространявшие контент, а также установлены связи с сетью Portal Kombat, известной по предыдущим расследованиям.

Cyber Operation: “ScopeCreep”

🟠Вредоносное ПО, распространяемое через поддельный игровой инструмент Crosshair-X, с функциями шпионажа и обхода антивирусов.
🟢Были заблокированы аккаунты, использовавшие ИИ для отладки кода, а также удалены вредоносные репозитории и установлены методы обнаружения.

Cyber Operations: Vixen and Keyhole Panda

🟠Кибератаки и сбор информации о технологиях США через ИИ, связанные с группами APT5 и APT15.
🟢Заблокированы аккаунты, использовавшие модели для создания скриптов и анализа инфраструктуры, а также переданы индикаторы партнерам для усиления защиты.

Covert IO: Operation “Uncle Spam”

🟠Поляризующий контент в США через фейковые профили с ИИ-генерируемыми изображениями и анализом данных.
🟢Заблокированы аккаунты, использовавшие ИИ для создания логотипов и сбора информации из соцсетей, также проведена оцененка степени влияния.

Recidivist Influence Activity: STORM-2035

🟠Пропаганда в поддержку Ирана и других стран через фейковые аккаунты в X, касающаяся миграции и независимости регионов.
🟢Были заблокированы аккаунты, распространявшие контент на испанском и английском, а также отмечены повторные попытки операторов вернуться к активности.

Scam: Operation “Wrong Number”

🟠Мошенничество с предложениями высокой зарплаты за лайки и инвестиции, связанное с Камбоджей.
🟢Заблокированы аккаунты, использовавшие ИИ для перевода сообщений, а также выявлена схема с этапами «The ping», «The zing» и «The sting» для обмана жертв.


🔜 Почитать полный отчет можно на сейте OpenAI

@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
64👍30🔥15🌭5🗿5😴3🤬21
Media is too big
VIEW IN TELEGRAM
✔️ EleutherAI представила лицензированный датасет для обучения ИИ-моделей.

EleutherAI выпустила The Common Pile v0.1 — 8-терабайтный набор данных для тренировки моделей, собранный при участии Hugging Face и академических институтов. В него вошли более 20-ти публичных источников, На базе датасета созданы Comma v0.1-1T и Comma v0.1-2T (по 7 млрд параметров), которые, по заявлению разработчиков, не уступают моделям, обученным на нелицензированном контенте.

Модели показывают сильные результаты в прораммировании и математике, опровергая мнение, что только "пиратский" контент обеспечивает качество. Релиз датасета - это попытка исправить ошибки прошлого: ранее EleutherAI критиковали за использование защищенного авторским правом контента в старом датасете The Pile.
huggingface.co

✔️ OpenAI вынуждена сохранять данные пользователей ChatGPT из-за судебного решения по иску NYT.

OpenAI получила судебный приказ о временном хранении данных пользователей ChatGPT и API, даже если они были удалены. Это связано с иском New York Times о нарушении авторских прав. NYT требует сохранить «всю переписку и контент» для использования в качестве доказательств.

Под приказ попадают данные пользователей бесплатных и платных версий ChatGPT (Plus, Pro, Team), а также API-клиенты без соглашения о нулевом хранении данных. Корпоративные клиенты и образовательные проекты в безопасности — их информация не попадает под приказ.

OpenAI назвала требование чрезмерным, подчеркнув, что обычно удаляет данные через 30 дней и подала апелляцию, но временно соблюдает решение.
openai.com

✔️ MIT & Recursion Boltz-2: модель прогнозирования взаимодействия молекул.

MIT CSAIL и Recursion разработали Boltz-2 — открытую модель для анализа биомолекулярных структур и связывания. Она сочетает рекордную скорость и точность, превосходя AlphaFold3 и других конкурентов.

Boltz-2 предсказывает, как молекулы взаимодействуют, с точностью, близкой к физическим методам FEP, но в 1000 раз быстрее. Разработчики надеются, что публикация модели облегчит поиск лекарств, ведь Boltz-2 может за час перебрать тысячи соединений вместо недель вычислений.
globenewswire.com

✔️ AMD пополнилась командой стартапа Untether AI.

AMD объявил о покупке ключевых специалистов из стартапа Untether AI, разработавшего энергоэффективные чипы для ИИ-инференса. Сделка должна укрепить возможности компании в области компиляторов и проектирования чипов.

Untether AI, основанный в 2018 году, славился архитектурой «at-memory», повышающей производительность в дата-центрах и на EDGE-устройствах. Их плата speedAI240 Slim показала рекордную энергоэффективность: в 3–6 раз выше аналогов по тестам MLPerf.

Сделка стала частью стратегии AMD по конкурированию с Nvidia. Ранее, приобретя стартап Brium, компания усилила оптимизацию ИИ-нагрузок на GPU Instinct. Теперь фокус смещается на интеграцию новых технологий в продукты, ориентированные на растущий рынок ИИ.
crn.com

✔️ Фестиваль ИИ-фильмов в Нью-Йорке.

В Нью-Йорке прошел ежегодный фестиваль ИИ-фильмов от Runway. За 3 года проект вырос от 300 до 6000 заявок, а в этом году представил десятку короткометражек, созданных с помощью ИИ. Лучшей стала «Total Pixel Space» Джейкоба Алдера, исследующая математические границы digital-изображений.

По словам организаторов, технологии ускоряют процессы кинопроизводства и фестиваль делает акцент на том, как ИИ поддерживает, а не заменяет творцов.
apnews.com

@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
62👍42🔥16🗿7🥰5🌭3👌2
🏆 NVIDIA Parakeet V2 возглавила рейтинг ASR-моделей на Hugging Face

Новая модель Parakeet-TDT-0.6B-V2 достигла рекордной точности распознавания речи на Open ASR Leaderboard от Hugging Face — 6.05 на Word Error Rate.

🦜 Parakeet V2 выводит автоматическое распознавание речи (ASR) на новый уровень:

Молниеносный инференс — RTFx 3386 (в 50 раз быстрее аналогов)
🔍 Поддержка необычных сценариев:
• Распознавание песен в текст (song-to-lyrics)
• Форматирование чисел и временных меток
• Высокоточная транскрибация

📌 Лицензирование: CC-BY-4.0

🔗 Leaderboard: huggingface.co/spaces/hf-audio/open_asr_leaderboard
🔗 Демо: huggingface.co/nvidia/parakeet-tdt-0.6b-v2
🔗 Попробовать: build.nvidia.com/explore/speech

@ai_machinelearning_big_data


#NVIDIA #ASR #SpeechRecognition #Parakeet #AIaudio
Please open Telegram to view this post
VIEW IN TELEGRAM
60👍31🔥11🥰6👌1
Китайская компания 4DV AI, показала проект, который позволяет превращать обычные видео в интерактивную 3D-сцену — с возможностью крутить камеру, приближать и менять ракурс.

🔍 Как это работает:
Видео разбивается на облако точек — сплаты, каждая с цветом, формой и позицией в 3D.

Потом эти точки собираются заново — уже под нужным углом.

Получается как будто ты находишься внутри сцены и можешь смотреть на неё с любой стороны.

🔜 Всё это происходит в реальном времени, как в игровом движке. Качество впечатляет: примерно на 2.4dB лучше (Peak Signal-to-Noise Ratio), чем предыдущий метод (4DGS) и выдает — до 467 FPS на RTX 4090.

🎧 Звук синхронизируется, так что ощущается реалистично.

📹 Можно покрутить и посмотреть демки в браузере👇
https://www.4dv.ai/viewer/salmon_10s

🌟 Проект: https://zju3dv.github.io/freetimegs/

@ai_machinelearning_big_data


#AI #4DV #GaussianSplatting #3Dvideo #NeRF
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍10040🔥33🥰85❤‍🔥2👀2🌭1