Новая стабильная версия Cursor, и в ней появилось много обновлений, которые делают работу с кодом удобнее.
Вот что стоит отметить:
🐞 Bugbot
Автоматически проверяет Pull Request'ы на баги и предлагает исправления.
Можно внести правку прямо в редакторе — в один клик.
🧠 Memory (beta)
Cursor теперь запоминает контекст проекта, что помогает при командной работе и упрощает навигацию по коду.
⚙️ One-Click MCP Setup
Настройка подключения к Model Context Protocol — теперь через одну кнопку, без ручной конфигурации.
• Возможность редактировать несколько мест в коде одновременно
• Поддержка таблиц, Markdown и диаграмм Mermaid в чате
• Обновлённые настройки и админ-панель
• Фоновая работа агентов — можно интегрировать их со Slack и Jupyter Notebooks
Cursor постепенно становится более удобной средой для совместной работы с ИИ-помощником.
https://www.cursor.com/changelog
@ai_machinelearning_big_data
#CursorAI #AIcoding #DevTools #Jupyter #CodeAssistant
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
1❤72🔥30👍19🤬3👀3🥰1
GUI-Actor — методика на базе VLM, которая вместо традиционной генерации координат текстом при визуальной обработке интерфейса использует внимание внутри модели.
Чтобы уйти от координатного подхода, в GUI-Actor используется специальный токен
<ACTOR>
, который "учится" связываться с визуальными патчами, соответствующими целевой области экрана. За один проход модель может запомнить сразу несколько кандидатов на действие.Например, все кнопки "Сохранить" в сложном интерфейсе. Это очень похоже на человеческое восприятие: видеть сам элемент, а не его позиции по осям Х и Y.
Выбрать наиболее подходящий вариант из элементов-кандидатов помогает "верификатор". Это отдельная модель, оценивающая кандидатов от
<ACTOR>
и отбирающая самый подходящий для действия. Она не только улучшает точность, но и универсальна: ее можно подключить к другим моделям.Обучение требует минимум ресурсов. Можно заморозить основную VLM (Qwen2-VL-7B) и дообучить только новый action head и токены. Это всего ~100М параметров для 7B-модели.
Комбинация из такого быстрого обучения + верификатор почти догоняет полноценно обученные аналоги, сохраняя общие способности базовой модели. Никакого "катастрофического забывания" - агент учится кликать интерфейсы, не разучиваясь описывать картинки.
Результаты тестов на сложном бенчмарке ScreenSpot-Pro с высоким разрешением и незнакомыми интерфейсами (CAD, научный софт) GUI-Actor-7B с Qwen2-VL показал 40.7 балла, а с Qwen2.5-VL — 44.6, обойдя даже UI-TARS-72B (38.1).
На других тестах (ScreenSpot, ScreenSpot-v2) он тоже лидирует, особенно в иконках и текстовых элементах, демонстрируя крутую адаптацию к разным разрешениям и версткам.
В планах - выпуск еще двух моделей на основе Qwen2.5-VL (3B и 7B), демо GUI-Actor, код для модели-верификатора и датасеты для обучения.
@ai_machinelearning_big_data
#AI #ML #VLM #GUIActor #Microsoft
Please open Telegram to view this post
VIEW IN TELEGRAM
5👍49❤20🔥15🥰2
Reddit подаёт в суд на Anthropic за незаконное использование данных
Reddit обвиняет Anthropic в массовом парсинге сайта и коммерческом использовании данных.
Согласно иску:
🔹 Anthropic парсили Reddit более 100 000 раз, несмотря на заверения, об остановке сбора данных
🔹 Anthropic использовали пользовательский контент в коммерческих целях без лицензии
🔹 Reddit утверждает: это прямое нарушение соглашения и "поведение не в духе компании, называющей себя белым рыцарем AI-индустрии"
📣 Цитата из иска:
> “Reddit — одно из последних по-настоящему человеческих мест в интернете. И то, как поступает Anthropic, недопустимо.”
😬 На фоне миллиардных сделок с Google и OpenAI, это может стать прецедентом: что такое "честное использование" данных для ИИ?
Судебная битва за контент только начинается.
https://www.wsj.com/tech/ai/reddit-lawsuit-anthropic-ai-3b9624dd
@ai_machinelearning_big_data
#reddit #Anthropic #ai #claude
Reddit обвиняет Anthropic в массовом парсинге сайта и коммерческом использовании данных.
Согласно иску:
🔹 Anthropic парсили Reddit более 100 000 раз, несмотря на заверения, об остановке сбора данных
🔹 Anthropic использовали пользовательский контент в коммерческих целях без лицензии
🔹 Reddit утверждает: это прямое нарушение соглашения и "поведение не в духе компании, называющей себя белым рыцарем AI-индустрии"
📣 Цитата из иска:
> “Reddit — одно из последних по-настоящему человеческих мест в интернете. И то, как поступает Anthropic, недопустимо.”
😬 На фоне миллиардных сделок с Google и OpenAI, это может стать прецедентом: что такое "честное использование" данных для ИИ?
Судебная битва за контент только начинается.
https://www.wsj.com/tech/ai/reddit-lawsuit-anthropic-ai-3b9624dd
@ai_machinelearning_big_data
#reddit #Anthropic #ai #claude
🔥77👍32❤19😁10👏7🤬7🤣6🗿5
⚡️Релиз Qwen3-Embedding и Qwen3-Reranker
✨ Главное:
✅ Модели на 0.6B, 4B и 8B параметров
✅ Поддержка 119 языков
✅ Sota на MMTEB, MTEB и MTEB-Code
✅ Открытый код на Hugging Face, GitHub и ModelScope
✅ Доступ через API на Alibaba Cloud
🔍 Применение:
Поиск документов, RAG, классификация, поиск кода и др.
🟡 Qwen3-Embedding: https://huggingface.co/collections/Qwen/qwen3-embedding-6841b2055b99c44d9a4c371f
🟡 Qwen3-Reranker: https://huggingface.co/collections/Qwen/qwen3-reranker-6841b22d0192d7ade9cdefea
🟡 GitHub: https://github.com/QwenLM/Qwen3-Embedding
🟡 Modelscope: https://modelscope.cn/organization/qwen
@ai_machinelearning_big_data
#qwen
✨ Главное:
✅ Модели на 0.6B, 4B и 8B параметров
✅ Поддержка 119 языков
✅ Sota на MMTEB, MTEB и MTEB-Code
✅ Открытый код на Hugging Face, GitHub и ModelScope
✅ Доступ через API на Alibaba Cloud
🔍 Применение:
Поиск документов, RAG, классификация, поиск кода и др.
@ai_machinelearning_big_data
#qwen
Please open Telegram to view this post
VIEW IN TELEGRAM
❤64👍31🔥19🥰5❤🔥2
Новая версия уже доступна для тестирования и показывает заметные улучшения в:
🧠 кодинге
📊 логическом выводе
🔬 задачах по науке и математике
Pro-версия показывает прирост на 24 пункта Elo, удерживая лидерство на lmarena_ai с результатом 1470.
💬 Также улучшены стиль и структура ответов — Google учла фидбек пользователей.
Gemini обошёл Opus 4 в тестах на веб-разработку (WebDev Arena).
💰 Цены
— до 200 000 токенов: $1.25 вход / $10 выход (за 1M токенов)
— свыше 200 000 токенов: $2.50 вход / $15 выход (за 1M токенов)
🔧Модель достпна уже сейчас в:
- AI Studio
- Vertex AI
- Gemini app
https://blog.google/products/gemini/gemini-2-5-pro-latest-preview/
@ai_machinelearning_big_data
#Gemini #Google
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍58❤29🔥11🥰5
Media is too big
VIEW IN TELEGRAM
🎙️ ElevenLabs представила Eleven v3 (alpha) — самую выразительную модель озвучки текста
Самая выразительная модель озвучки текста на сегодня.
Поддерживает 70+ языков, многоголосовой режим, и теперь — аудио-теги, которые задают интонацию, эмоции и даже паузы в речи.
🧠 Новая архитектура лучше понимает текст и контекст, создавая естественные, "живые" аудио.
🗣️ Что умеет Eleven v3:
• Генерировать реалистичный диалог с несколькими голосами
• Считывать эмоциональные переходы
• Реагировать на контекст и менять тон в процессе речи
🎛 МОдель уаправляется через теги:
- Эмоции: [sad], [angry], [happily]
- Подача: [whispers], [shouts]
- Реакции: [laughs], [sighs], [clears throat]
📡 Публичный API обещают выкатить очень скоро.
⚠️ Это превью версия — может требовать точной настройки промптов. Но результат действительно впечатляет
💸 Весь июньдают 80% скидки на генерацию
🟡 Промпт-гайд для v3: https://elevenlabs.io/docs/best-practices/prompting/eleven-v3
Eleven v3.
🟡 Eleven v3: https://elevenlabs.io/v3
@ai_machinelearning_big_data
#ElevenLabs #tts
Самая выразительная модель озвучки текста на сегодня.
Поддерживает 70+ языков, многоголосовой режим, и теперь — аудио-теги, которые задают интонацию, эмоции и даже паузы в речи.
🗣️ Что умеет Eleven v3:
• Генерировать реалистичный диалог с несколькими голосами
• Считывать эмоциональные переходы
• Реагировать на контекст и менять тон в процессе речи
🎛 МОдель уаправляется через теги:
- Эмоции: [sad], [angry], [happily]
- Подача: [whispers], [shouts]
- Реакции: [laughs], [sighs], [clears throat]
📡 Публичный API обещают выкатить очень скоро.
⚠️ Это превью версия — может требовать точной настройки промптов. Но результат действительно впечатляет
💸 Весь июньдают 80% скидки на генерацию
Eleven v3.
@ai_machinelearning_big_data
#ElevenLabs #tts
Please open Telegram to view this post
VIEW IN TELEGRAM
1🔥72👍34❤20😨6
Media is too big
VIEW IN TELEGRAM
Mistral представил Mistral Code — инструмент для программистов, который будет бороться за внимание пользователей с GitHub Copilot и другими аналогами. Продукт основан на открытом проекте Continue и включает в себя собственные модели Mistral: Codestral для автозаполнения кода, Devstral для решения задач через агенты, Mistral Medium для чатов и Codestral Embed для поиска. Поддерживаются 80+ языков программирования, интеграция с VS Code и JetBrains уже в бета-тестировании.
В компании говорят, что ассистент уже используют Capgemini, SNCF и банк Abanca. Mistral Code позволяет работать локально, обрабатывает файлы, ошибки в терминале и даже обсуждения из тикетов. Beta-версия доступна для тестирования, а часть улучшений обещают добавлять в опенсорс.
mistral.ai
Компании совместно добились успеха, сократив задержку на 70% и повысив комплексную точность (ASR+генерация ответа) с 81,5% до 99,2%. Проблема «неловких пауз» в разговорах с роботами, которая выдавала их, устранена благодаря технологии Groq - «горячей замене» легких моделей LoRA без потерь в скорости.
Система работает так: Maitai выбирает оптимальную модель для каждого запроса, Groq обрабатывает ее на специализированных чипах LPU, а данные о слабых местах моделей собираются и используются для их доработки. В итоге время первого ответа снизилось с 661 до 176 мс, а синтез диалога стал в 4 раза быстрее.
Один из клиентов Phonely уже заменит 350 операторов колл-центра на ИИ, а количество качественных лидов выросло на 32%.
venturebeat.com
Компания Марка Цукерберга раскрыла подробности об очках Aria Gen 2. Новинка весит 74–76 грамм, имеет 8 вариантов оправ и складные дужки для удобства. Главное изменение: 4 камеры с датчиками затвора, которые устойчивы к искажения при движении. Динамический диапазон вырос до 120 дБ, а угол перекрытия стереокамер увеличился до 80°, что улучшает определение глубины. В наносном узле разместили контактный вибромикрофон и датчик пульса PPG.
Для ИИ-задач предусмотрен отдельный процессор, а система VIO отслеживает движение в 6DoF. Очки следят за глазами, фиксируют зрачки, отслеживают руки в 3D. Устройства планируют выдавать исследователям позже в 2025 году, а демо покажет на конференции CVPR в июне этого года.
mashable.com
Anthropic разработала версии моделей Claude, предназначенных исключительно для правительственных структур, занимающихся вопросами национальной безопасности. Решение создано на основе обратной связи от госзаказчиков и прошло проверки на безопасность.
Модели оптимизированы для работы с секретными данными, лучше понимают документы из сферы разведки и обороны, анализируют киберугрозы и поддерживают редкие языки, важные для спецопераций. Использование ограничено закрытыми системами, где доступ к информации строго регламентирован.
anthropic.com
Higgsfield представил Higgsfield Speak — платформу, которая превращает текст в видео с анимированными персонажами, передающими эмоции, жесты и движения. В отличие от обычного липсинка, новый инструмент использует 80 параметров движения и 40 визуальных эффектов, чтобы сделать анимацию похожей на «живую» съемку. Платформа подходит для подкастов, обучающих роликов или рекламных кампаний: пользователи выбирают стиль, аватар и сценарий — остальное система обрабатывает автоматически.
Продукт позиционируется как решение для креативщиков, которым нужно быстро создавать контент без камеры - от влогов до рекламных лендингов. Подписки Pro и Ultimate открывают доступ к инструментам, которые, по словам разработчиков, изменят подход к производству видео в ближайшее полугодие.
HiggsField AI в сети Х (ex-Twitter)
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
❤47👍33🔥14🥰4😁2🥱1
Google выложил в открытый доступ на Github фуллстек-проект, который превращает пользовательские запросы в глубокие исследования с помощью Gemini. Его главная задача - находить информацию в интернете, анализировать ее и выдавать ответы с ссылками на источники, используя комбинацию React-интерфейса и бэкенда на базе LangGraph.
Проект включает в себя все необходимое: и фронтенд, и бэкенд.
Внутри бэкенда есть модуль, который отвечает за запуск цикла: сначала Gemini создает начальные запросы, затем система ищет информацию через API Google Search, оценивает, хватает ли данных, и при необходимости повторяет процесс.
Важная часть пайплайна — рефлексия. После каждого поиска агент проверяет, закрыты ли все «пробелы» в знаниях. Если информации недостаточно, он генерирует новые вопросы и повторяет цикл, пока не соберёт достаточно данных для ответа.
Проект адаптирован к продакшену, в нем используются Redis (для стриминга результатов в реальном времени) и PostgreSQL (для хранения истории диалогов и управления задачами). Это позволяет системе не терять прогресс даже при перезагрузках.
⚠️ Для практического использования потребуются API-ключи к Google Gemini и LangSmith.
@ai_machinelearning_big_data
#AI #ML #DeepSearch #Google #Gemini #LangGraph
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤82👍42🔥22😁8
Anthropic отключила Windsurf от прямого использования моделей Claude 3.5 и 3.7 Sonnet, объяснив это слухами о возможной покупке стартапа OpenAI.
По словам сооснователя Anthropic Джареда Каплана, компания хочет сосредоточиться на долгосрочных партнерствах, так как сейчас сталкивается с нехваткой вычислительных мощностей.
Windsurf, получавший доступ к Claude для разработки своих продуктов, теперь вынужден переходить на сторонние платформы, что может временно нарушить стабильность сервиса для пользователей.
В то же время Anthropic анонсировал сотрудничество с Cursor. Каплан подчеркнул, что фокус компании смещается с чат-ботов на «агентные» решения вроде Claude Code, которые, по его мнению, окажутся более полезными в будущем.
Источник: Techcrunch
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍63❤34🔥15🤔10
Unsolth выложила в открытый доступ в своем репозитории на Github больше сотни готовых ipynb-блокнотов для запуска различных операций в Google Collab практически всех популярных семейств языковых моделей, BERT, TTS-моделей и VLM:
Блокноты включают пошаговые руководства и примеры для вызова инструментов, классификации, синтетических данных, подготовки сетов, инференса и файнтюна моделей и
примеры методов GRPO, DPO, SFT, Continued Pretraining, Reasoning и других.
Unsloth известна тем, что помогает делать большие языковые модели быстрее, компактнее и доступнее при помощи динамического квантования, что позволяет запускать их без сильной потери качества . Их технологии ускоряют обучение и настройку ИИ-моделей в 2 раза и экономят до 70% памяти. Инструменты Unsloth, на сегодняшний день, скачали более 10 млн раз.
Есть подробная документация по использованию, а для тех, кто больше привык к Kaggle - такой же набор блокнотов для запуска на этой платформе.
@ai_machinelearning_big_data
#AI #ML #LLM #Notebooks #Github #Unsloth
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥106👍25❤24❤🔥9🌭3
В свежем июньском отчете, Open AI описала самые крупные кейсы, когда злоумышленники использовали модели ИИ для создания фейковых резюме, манипуляций в соцсетях, кибератак и мошенничества.
Для анализа угроз исследователи применяют комбинацию ИИ и экспертные команды. ИИ помогает выявлять шаблоны текста злоумышленников и координировать расследование с платформами. Архитектура таких систем включает модели для анализа данных, детекторы аномалий и инструменты для синхронизации с правоохранительными органами.
Обучались такие специализированные модели, помимо общедоступных данных, еще на примерах социальной инженерии и профилях киберугроз. Дополнительно, они получили методы обнаружения фейковых профилей, перевода текстов и анализа сетевого трафика.
Deceptive Employment Scheme: IT Workers.
Covert IO: Operation “Sneer Review”
Covert IO: Operation “High Five”
Social engineering meets IO: Operation “VAGue Focus”
Covert IO: Operation “Helgoland Bite”
Cyber Operation: “ScopeCreep”
Cyber Operations: Vixen and Keyhole Panda
Covert IO: Operation “Uncle Spam”
Recidivist Influence Activity: STORM-2035
Scam: Operation “Wrong Number”
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
❤64👍30🔥15🌭5🗿5😴3🤬2⚡1
Media is too big
VIEW IN TELEGRAM
EleutherAI выпустила The Common Pile v0.1 — 8-терабайтный набор данных для тренировки моделей, собранный при участии Hugging Face и академических институтов. В него вошли более 20-ти публичных источников, На базе датасета созданы Comma v0.1-1T и Comma v0.1-2T (по 7 млрд параметров), которые, по заявлению разработчиков, не уступают моделям, обученным на нелицензированном контенте.
Модели показывают сильные результаты в прораммировании и математике, опровергая мнение, что только "пиратский" контент обеспечивает качество. Релиз датасета - это попытка исправить ошибки прошлого: ранее EleutherAI критиковали за использование защищенного авторским правом контента в старом датасете The Pile.
huggingface.co
OpenAI получила судебный приказ о временном хранении данных пользователей ChatGPT и API, даже если они были удалены. Это связано с иском New York Times о нарушении авторских прав. NYT требует сохранить «всю переписку и контент» для использования в качестве доказательств.
Под приказ попадают данные пользователей бесплатных и платных версий ChatGPT (Plus, Pro, Team), а также API-клиенты без соглашения о нулевом хранении данных. Корпоративные клиенты и образовательные проекты в безопасности — их информация не попадает под приказ.
OpenAI назвала требование чрезмерным, подчеркнув, что обычно удаляет данные через 30 дней и подала апелляцию, но временно соблюдает решение.
openai.com
MIT CSAIL и Recursion разработали Boltz-2 — открытую модель для анализа биомолекулярных структур и связывания. Она сочетает рекордную скорость и точность, превосходя AlphaFold3 и других конкурентов.
Boltz-2 предсказывает, как молекулы взаимодействуют, с точностью, близкой к физическим методам FEP, но в 1000 раз быстрее. Разработчики надеются, что публикация модели облегчит поиск лекарств, ведь Boltz-2 может за час перебрать тысячи соединений вместо недель вычислений.
globenewswire.com
AMD объявил о покупке ключевых специалистов из стартапа Untether AI, разработавшего энергоэффективные чипы для ИИ-инференса. Сделка должна укрепить возможности компании в области компиляторов и проектирования чипов.
Untether AI, основанный в 2018 году, славился архитектурой «at-memory», повышающей производительность в дата-центрах и на EDGE-устройствах. Их плата speedAI240 Slim показала рекордную энергоэффективность: в 3–6 раз выше аналогов по тестам MLPerf.
Сделка стала частью стратегии AMD по конкурированию с Nvidia. Ранее, приобретя стартап Brium, компания усилила оптимизацию ИИ-нагрузок на GPU Instinct. Теперь фокус смещается на интеграцию новых технологий в продукты, ориентированные на растущий рынок ИИ.
crn.com
В Нью-Йорке прошел ежегодный фестиваль ИИ-фильмов от Runway. За 3 года проект вырос от 300 до 6000 заявок, а в этом году представил десятку короткометражек, созданных с помощью ИИ. Лучшей стала «Total Pixel Space» Джейкоба Алдера, исследующая математические границы digital-изображений.
По словам организаторов, технологии ускоряют процессы кинопроизводства и фестиваль делает акцент на том, как ИИ поддерживает, а не заменяет творцов.
apnews.com
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
❤62👍42🔥16🗿7🥰5🌭3👌2
🏆 NVIDIA Parakeet V2 возглавила рейтинг ASR-моделей на Hugging Face
Новая модель Parakeet-TDT-0.6B-V2 достигла рекордной точности распознавания речи на Open ASR Leaderboard от Hugging Face — 6.05 на Word Error Rate.
🦜 Parakeet V2 выводит автоматическое распознавание речи (ASR) на новый уровень:
⚡ Молниеносный инференс — RTFx 3386 (в 50 раз быстрее аналогов)
🔍 Поддержка необычных сценариев:
• Распознавание песен в текст (song-to-lyrics)
• Форматирование чисел и временных меток
• Высокоточная транскрибация
📌 Лицензирование: CC-BY-4.0
🔗 Leaderboard: huggingface.co/spaces/hf-audio/open_asr_leaderboard
🔗 Демо: huggingface.co/nvidia/parakeet-tdt-0.6b-v2
🔗 Попробовать: build.nvidia.com/explore/speech
@ai_machinelearning_big_data
#NVIDIA #ASR #SpeechRecognition #Parakeet #AIaudio
Новая модель Parakeet-TDT-0.6B-V2 достигла рекордной точности распознавания речи на Open ASR Leaderboard от Hugging Face — 6.05 на Word Error Rate.
🦜 Parakeet V2 выводит автоматическое распознавание речи (ASR) на новый уровень:
⚡ Молниеносный инференс — RTFx 3386 (в 50 раз быстрее аналогов)
🔍 Поддержка необычных сценариев:
• Распознавание песен в текст (song-to-lyrics)
• Форматирование чисел и временных меток
• Высокоточная транскрибация
🔗 Leaderboard: huggingface.co/spaces/hf-audio/open_asr_leaderboard
🔗 Демо: huggingface.co/nvidia/parakeet-tdt-0.6b-v2
🔗 Попробовать: build.nvidia.com/explore/speech
@ai_machinelearning_big_data
#NVIDIA #ASR #SpeechRecognition #Parakeet #AIaudio
Please open Telegram to view this post
VIEW IN TELEGRAM
❤60👍31🔥11🥰6👌1
Китайская компания 4DV AI, показала проект, который позволяет превращать обычные видео в интерактивную 3D-сцену — с возможностью крутить камеру, приближать и менять ракурс.
🔍 Как это работает:
Видео разбивается на облако точек — сплаты, каждая с цветом, формой и позицией в 3D.
Потом эти точки собираются заново — уже под нужным углом.
Получается как будто ты находишься внутри сцены и можешь смотреть на неё с любой стороны.
🔜 Всё это происходит в реальном времени, как в игровом движке. Качество впечатляет: примерно на 2.4dB лучше (Peak Signal-to-Noise Ratio), чем предыдущий метод (4DGS) и выдает — до 467 FPS на RTX 4090.
🎧 Звук синхронизируется, так что ощущается реалистично.
📹 Можно покрутить и посмотреть демки в браузере👇
https://www.4dv.ai/viewer/salmon_10s
🌟 Проект: https://zju3dv.github.io/freetimegs/
@ai_machinelearning_big_data
#AI #4DV #GaussianSplatting #3Dvideo #NeRF
🔍 Как это работает:
Видео разбивается на облако точек — сплаты, каждая с цветом, формой и позицией в 3D.
Потом эти точки собираются заново — уже под нужным углом.
Получается как будто ты находишься внутри сцены и можешь смотреть на неё с любой стороны.
🎧 Звук синхронизируется, так что ощущается реалистично.
📹 Можно покрутить и посмотреть демки в браузере👇
https://www.4dv.ai/viewer/salmon_10s
@ai_machinelearning_big_data
#AI #4DV #GaussianSplatting #3Dvideo #NeRF
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍100❤40🔥33🥰8⚡5❤🔥2👀2🌭1