Эта разработка, представленная в исследовательском превью, позволяет создавать реалистичные 3D видео без сложной реконструкции сцены или специализированной оптимизации.
С помощью одного или нескольких изображений модель позволяет создать видео с плавной траекторией с любой перспективы, которой вы пожелаете.
Релиз доступен для исследовательского использования под некоммерческой лицензией.
Веса: https://huggingface.co/stabilityai/stable-virtual-camera
@ai_machinelearning_big_data
#stability #ai #ml #release
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤42🔥21👍9
Это подробный гайд, где описан процесс разработки приложения для автоматического обнаружения рукописных подписей в документах.
В итоге получился очень годный гайд, со множеством технических деталей.
Сравнительный анализ архитектур показал, что YOLOv8 - обеспечивает идеальный баланс между скоростью и точностью для данной задачи, достигая 94,74 % точности и 89,72 % после оптимизации гиперпараметров с помощью Optuna.
Достигнута высокая точность распознавания: mAP@50 – 94.50%, mAP@50-95 – 67.35%.
Итоговая модель демонстрирует сбалансированное соотношение между точностью, скоростью инференса и экономичностью ресурсов.
Статья демонстрирует, как грамотное сочетание современных архитектур обнаружения объектов, тщательная подготовка данных и оптимизация гиперпараметров позволяет создать эффективное и готовое к развёртыванию решение, очень рекомендуем прочесть ее полностью.
А здесь можно почитать описание семейства моделей Yolo.
#yolo #guide #detection #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍56❤18🤓5🔥3😁2🗿2👌1
OpenAI планирует запустить новую функцию «Коннекторы ChatGPT», которая позволит подписчикам плана "Team" подключать учетные записи Google Диска и Slack к ChatGPT, позволяя отвечать на вопросы на основе файлов, презентаций, электронных таблиц на этих ресурсах. В будущем коннекторы ChatGPT планируется расширить на Microsoft SharePoint и Box.
"Коннекторы" разрабатываются, чтобы дать возможность корпоративным пользователям получать доступ к внутренней информации так же легко, как при поиске в Интернете. Компаниям, участвующим в тестировании "коннекторов", необходимо предоставить OpenAI минимум 100 документов, таблиц, презентаций или диалогов в канале Slack.
techcrunch.com
Аналитик TF International Securities Минг-Чи Куо предположил, что новый чип B300 станет ключевым моментом пресс-конференции GTC 2025. HBM был значительно модернизирован с 192 ГБ до 288 ГБ, а вычислительная производительность была улучшена на 50% (FP4) по сравнению с B200. Ожидается, что B300 будет запущен в опытное производство во 2 квартале 2025 г., а массовое производство — в 3-м квартале 2025 г.
jiemian.com
Гарвардский университет объявил о расширении правил стипендий. Для студентов бакалавриата, чей доход семьи не превышает 200 000 долл. в год, плата за обучение будет отменена, а для студентов, чей доход семьи не превышает 100 000 долл. в год, обучение будет полностью бесплатным.
Пенсильванский университет и Массачусетский технологический институт приняли аналогичные решения. В то время, когда плата за обучение во многих ведущих ВУЗах США превышает 90 000 долл. в год, эта политика сделают их более доступными.
wsj.com
Марк Цукерберг написал в своем аккаунте на платформе Threads, что «открытое» семейство моделей Llama было загружено более 1 миллиарда раз. По сравнению с 650 миллионами загрузок в начале декабря 2024 года рост скачиваний составил примерно 53% всего за 3 месяца.
Mark Zukerberg в Threads
Три ИТ-гиганта объявили о новом этапе давнего партнерства, направленном на продвижение ИИ, расширение доступа к ИИ-инструментам, ускорение разработки физического ИИ и трансформацию здравоохранения, производства и энергетики. Инженеры Alphabet тесно сотрудничают с техническими командами NVIDIA, используя AI и симуляцию для создания роботов с навыками захвата, переосмысления открытия лекарств и оптимизации энергосетей. Для поддержки этих исследований Google Cloud станет одним из первых, кто внедрит NVIDIA GB300 NVL72 и GPU NVIDIA RTX PRO 6000 Blackwell Server Edition.
Совместно с Disney Research разрабатывается Newton, опенсорсный физический движок, ускоренный NVIDIA Warp, который значительно повысит скорость машинного обучения в робототехнике.
nvidianews.nvidia.com
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍50❤19🔥13🗿2🥰1
На GTC 2025 NVIDIA представила новую серию «персональных суперкомпьютеров с ИИ», построенных на платформе Grace Blackwell - DGX Spark и DGX Station. На них пользователи смогут создавать прототипы, настраивать и запускать модели ИИ.
DGX Spark использует GB10 Grace Blackwell с вычислительной мощностью до 100 трлн. операций в секунду. DGX Station получила чип GB300 Grace Blackwell и 784 ГБ памяти. Spark уже доступен к предзаказу, а Station, как ожидается, будет выпущена в течение этого года.
nvidianews.nvidia.com
Цена $150 за миллион токенов на вход и $600 на выход. Что примерно в 270 раз дороже DeepSeek-R1.
В приложении Google Gemini появилась новая функция «Холст», которая предоставляет интерактивное пространство для редактирования текста в реальном времени, позволяя создавать черновики и экспортировать их в Google Docs. Он также может генерировать и просматривать код HTML/React для упрощения дизайна веб-сайта.
Помимо "Холста" была запущена функция "текст-в-аудио", которая может обобщать загруженный текст из файлов в аудиоформате и имитировать обсуждение двух ИИ-ведущих так же, как это реализовано в NotebookLM. В настоящее время поддерживается только английский язык, но обещают, что в будущем появится мультиязычность.
9to5google.com
NVIDIA анонсировала выпуск профессиональной серии видеокарт для ИИ, 3D и научных исследований. В линейке RTX PRO 6000 будет 3 версии: Workstation Edition в дизайне RTX 5090, Server Edition с пассивным радиатором охлаждения для ЦОДов и Max-Q Edition с системой воздушного охлаждения турбинного типа для мульти-GPU решений.
Все три версии получат 96 ГБ G7 ECC VRAM, чипы GB202 и 24064 CUDA-ядер. Энергопотребление у Workstation Edition и Server Edition - 600 Вт, а у Max-Q Edition - 300 Вт. Дата начала продаж: апрель-май 2025 года, стоимость в анонсе не раскрывалась.
theverge.com
Компания Илона Маска совершила первую крупную сделку, поглотив стартап Hotshot, известный разработкой text-to-video моделей. Как заявил Маск в соцсети X, вскоре пользователей ждут «крутые ИИ-видео» — вероятно, благодаря интеграции технологий Hotshot в экосистему xAI.
Hotshot был основан в 2017 году и изначально создавал инструменты для редактирования фото на базе ИИ, но позже переключился на генерацию видео. За 2 года команда разработала 3 фундаментальные модели: Hotshot-XL, Hotshot Act One и Hotshot, которые позволяют превращать текстовые описания в реалистичные ролики. Финансовые условия сделки не раскрыты, однако известно, что стартап получит доступ к кластеру Colossus — мощной инфраструктуре xAI с 200 000 GPU NVIDIA H100.
analyticsindiamag.com
Deloitte представила Zora AI — ИИ-платформу, которая объединяет агентов для автоматизации сложных бизнес-процессов. Решение, построенное на моделях Llama Nemotron с функциями анализа и рассуждений, способно автономно выполнять задачи в финансах, HR, логистике и других сферах.
Платформа автоматизирует моделирование сценариев, анализ рынка и управление расходами, что подтверждает внутренний опыт Deloitte: автоматизация процессов снизила затраты на 25%, а продуктивность команды выросла на 40%.
deloitte.com
Обучена на 100 тыс. часов аудио. На выходе получается естественная и эмоциональная речь.
HF
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍60🔥16❤12🥰2🙊2
Microsoft Research представила KBLaM - архитектуру, которая решает ключевую проблему LLM — добавление новых внешних знаний. В отличие от традиционных методов файнтюна и RAG, KBLaM кодирует новые для LLM структурированные данные в виде векторных пар «ключ-значение», встраивая их напрямую в слои внимания модели. Это позволяет избежать дорогостоящего дообучения и построение дополнительных модулей, сохраняя линейную масштабируемость даже для баз знаний в 10 000 триплетов.
В KBLaM триплет — это структурированный элемент знания, состоящий из трех компонентов: сущности, свойства и значения. Например, в утверждении «Москва — столица России» сущностью выступает «Москва», свойством — «столица», а значением — «Россия».
В основе KBLaM - «прямоугольный механизм внимания»: языковые токены взаимодействуют с токенами знаний, но не наоборот. Такая структура сокращает вычислительные затраты до линейных, позволяя обрабатывать эквивалент 200 тыс. токенов на одном GPU. При этом модель динамически обновляет знания без пересчёта всей базы — достаточно изменить один триплет.
Эксперименты с KBLaM показали, что он не только эффективен, но и прозрачен: веса внимания визуализируют, какие факты использует модель. Например, при запросе о медицинском диагнозе высокие оценки внимания к соответствующим триплетам снижают риск «галлюцинаций», при этом, если ответ на запрос лежит вне базы знаний, модель отказывается на него отвечать.
Как заявляют авторы, KBLaM — не просто шаг к умным LLM, а мост между обученными на базовых знаниях моделями и реальным миром, где знания постоянно обновляются.
В опубликованном на Github коде для применения KBLaM поддерживаются модели с HF:
и эмбединги для генерации базы знаний:
⚠️ Чтобы добавить поддержку других моделей, необходимо отредактировать скрипты обработки моделей и включить в них адаптер, подобный
llama_model.py
в src/kblam/models
.@ai_machinelearning_big_data
#AI #ML #LLM #MicrosoftResearch #KBLaM
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥81👍18❤17🤝2
Разработчики уменьшили количество дефектов и улучшили генерацию текста на изображениях. Модели стали чётче следовать инструкциям в промтах. Впервые применили VLM для оценки качества работы нейросети. Визуально-лингвистическая модель проверяла множество изображений на соответствие заданным промтам. Например, действительно ли на картинке присутствовали все заданные пользователем элементы.
Тесты показывают превосходство YandexART 2.5 над Midjourney 6.1 и паритет с другими SOTA-моделями.
Доступ к базовой версии — бесплатно в Шедевруме. Для Pro-версии есть подписка за 100₽/месяц.
@ai_machinelearning_big_data
#ai #ml #release
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥48👍29❤18🥱9🌭3🗿2
NVIDIA выпустила новые модели и датасет семейства Nemotron :
Архитектура модели, впервые для семейства Nemotron, использует нестандартные блоки: в части слоев внимание заменено линейными преобразованиями, а параметры FFN-слоев варьируются между блоками. Это позволило адаптировать модель для работы на одном GPU H100-80GB.
Обучение проходило в несколько этапов: от дистилляции знаний на 40 млрд. токенов до тонкой настройки с RL-алгоритмами (RPO и REINFORCE).
Результаты тестов впечатляют: в режиме «рассуждений» модель демонстрирует 96,6% pass@1 на MATH500 и 58,4% на AIME25, превосходя базовые показатели.
Модель умеет переключаться между ризонинг-режимом и типовым LLM-инференсом: для режима рассуждений рекомендуется свой системный промпт и параметры t=0,6 и Top-P=0,95.
Модель ориентирована на создание ИИ-агентов, чат-ботов, систем с расширенным контекстом и доступна через API, в веб-демо на NVIDIA Build и веса для скачивания на HuggingFace.
@ai_machinelearning_big_data
#AI #ML #LLM #NVIDIA #Nemotron
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍39❤18🔥6🥰2