Forwarded from Machinelearning
DepthLab - диффузионный механизм инпейнта карт глубины с двумя параллельными ветвями для задач заполнения 3D-сцен, генерации сцен на основе текстовых промптов, реконструкции с использованием DUST3R и заполнение глубины LiDAR.
Первая ветвь, Reference U-Net извлекает признаки из RGB-изображений, которые служат условием для второй ветви.
Вторая ветвь, Estimation U-Net, обрабатывает имеющиеся данные о глубине и маску, определяющую области, требующие восстановления. Признаки RGB, полученные из Reference U-Net, последовательно интегрируются в Estimation U-Net, что позволяет управлять процессом восстановления.
Взаимодействие между ветвями Reference U-Net и Estimation U-Net реализуется механизмом cross-attention, который использует CLIP encoder.
Архитектура DepthLab опирается на наработки Marigold и Stable Diffusion V2. Кодирование RGB-изображений и карт глубины в латентное пространство осуществляется VAE. Маска также кодируется с помощью VAE, что позволяет сохранить детальную информацию о форме и границах.
Обучение DepthLab проводилось на двух синтетических датасетах: Hypersim (54 тысячи обучающих образцов) и Virtual KITTI (20 тысяч обучающих образцов). Для расширения обучающей выборки использовались случайные искажения изображений и несколько стратегий маскирования: штрихи, окружности, квадраты и их комбинации.
Оценка качества восстановления проводилась на 5 наборах: NYUv2, KITTI, ETH3D, ScanNet, DIODE. В качестве метрик использовались абсолютная относительная ошибка (AbsRel) и точность в пределах δ1 = 1.25.
Результаты тестов демонстрируют, что DepthLab превосходит как дискриминативные (DiverseDepth, MiDaS, LeReS, Omnidata, HDN, DPT, DepthAnything, DepthAnythingV2), так и генеративные (Marigold, DepthFM, GeoWizard) методы в постоении карт глубины.
Для локального инференса потребуются модели:
# Clone repo
git clone https://github.com/Johanan528/DepthLab.git
cd DepthLab
# Create conda env
conda env create -f environment.yaml
conda activate DepthLab
# Run inference
cd scripts
bash infer.sh
@ai_machinelearning_big_data
#AI #ML #DepthLab
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
⚡️Khoj - мощный ИИ агент.
Позволяет получать ответы из Интернета или документов и статей.
Создавайте собственных агентов, планируйте автоматизацию, проводите глубокие исследования.
Легко интегрируется с любым онлайн или локальный LLM (gpt, claude, qwen, mistral).
https://github.com/khoj-ai/khoj
Позволяет получать ответы из Интернета или документов и статей.
Создавайте собственных агентов, планируйте автоматизацию, проводите глубокие исследования.
Легко интегрируется с любым онлайн или локальный LLM (gpt, claude, qwen, mistral).
https://github.com/khoj-ai/khoj
This media is not supported in your browser
VIEW IN TELEGRAM
⚡️ Новый веб-вьювер HDR и редактор для создания видеоклипов!
📺Web Viewer: https://srameo.github.io/projects/le3d/
🧑💻Github: https://github.com/Srameo/LE3D
#ComputerVision #3DReconstruction #GaussianSplatting
📺Web Viewer: https://srameo.github.io/projects/le3d/
🧑💻Github: https://github.com/Srameo/LE3D
#ComputerVision #3DReconstruction #GaussianSplatting
💥 Подборка годных ML плейлистов для
Обучения
1. Caltech CS156: Обучение на данных: https://youtube.com/playlist?list=PLD63A284B7615313A
2. Stanford CS229: Machine Learning: https://youtube.com/playlist?list=PLoROMvodv4rMiGQp3WXShtMGgzqpfVfbU
3. Прикладное машинное обучение: https://youtube.com/playlist?list=PLAqhIrjkxbuWI23v9cThsA9GvCAUhRvKZ
4. Введение в машинное обучение (Тюбинген): https://youtube.com/playlist?list=PL05umP7R6ij35ShKLDqccJSDntugY4FQT
5. Лекция по машинному обучению (Стефан Хармелинг): https://youtube.com/playlist?list=PLzrCXlf6ypbxS5OYOY3EN_0u2fDuIT6Gt
@neural
Обучения
1. Caltech CS156: Обучение на данных: https://youtube.com/playlist?list=PLD63A284B7615313A
2. Stanford CS229: Machine Learning: https://youtube.com/playlist?list=PLoROMvodv4rMiGQp3WXShtMGgzqpfVfbU
3. Прикладное машинное обучение: https://youtube.com/playlist?list=PLAqhIrjkxbuWI23v9cThsA9GvCAUhRvKZ
4. Введение в машинное обучение (Тюбинген): https://youtube.com/playlist?list=PL05umP7R6ij35ShKLDqccJSDntugY4FQT
5. Лекция по машинному обучению (Стефан Хармелинг): https://youtube.com/playlist?list=PLzrCXlf6ypbxS5OYOY3EN_0u2fDuIT6Gt
@neural
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Machinelearning
Оказывается, вам просто нужно правильно стимулировать модель.
Читой воды обучение с подкреплением (RL) может научить модель думать и рефлексировать.
Мы возвращаемся в эпоху AlphaGo: играя в бесчисленные партии Go и максимально увеличивая функцию вознаграждения (выигрыш в игре), используя чистый RL, AlphaGo научился побеждать лучших игроков мира.
Похоже это будет эра LLM RL.
📕 Paper
@ai_machinelearning_big_data
#DeepSeek #deepseekr1 #reasoning #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
💰GAMA-Bench
Принятие решений - сложный процесс, требующий различных навыков, что делает его хорошим тестов для оценки больших языковых моделей (LLM).
В данной работе исследователи изучали процесс принятия решений LLM через призму теории игр.
Существующие оценки в основном сосредоточены на случаях с двумя игроками, где LLM соревнуется с другим.
GAMA(γ)-Bench, новую структура для оценки способностей LLM в многоагентных средах через призму теории игр.
Он включает в себя восемь сценариев из классической теории игр и динамическую схему подсчета баллов, специально разработанную для количественной оценки производительности LLM.
γ-Bench очень гибкие настройки игры, что позволяет адаптировать систему подсчета баллов к различным параметрам игры, чтобы всесторонне оценить стратегии принятия решений
▪Статья: https://arxiv.org/abs/2403.11807
▪Код: https://github.com/CUHK-ARISE/GAMABench
Принятие решений - сложный процесс, требующий различных навыков, что делает его хорошим тестов для оценки больших языковых моделей (LLM).
В данной работе исследователи изучали процесс принятия решений LLM через призму теории игр.
Существующие оценки в основном сосредоточены на случаях с двумя игроками, где LLM соревнуется с другим.
GAMA(γ)-Bench, новую структура для оценки способностей LLM в многоагентных средах через призму теории игр.
Он включает в себя восемь сценариев из классической теории игр и динамическую схему подсчета баллов, специально разработанную для количественной оценки производительности LLM.
γ-Bench очень гибкие настройки игры, что позволяет адаптировать систему подсчета баллов к различным параметрам игры, чтобы всесторонне оценить стратегии принятия решений
▪Статья: https://arxiv.org/abs/2403.11807
▪Код: https://github.com/CUHK-ARISE/GAMABench
Forwarded from Machinelearning
💥Релиз Qwen2.5-1M!
Теперь модель поддерживает контекст длиной 1 МИЛЛИОН ТОКЕН токенов 🔥
⭐️ Доступны 2 модели: Qwen2.5-7B-Instruct-1M и Qwen2.5-14B-Instruct-1M.
Доступен подробный технический отчет о серии Qwen2.5-1M! 📊
📖 Технический отчет: https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen2.5-1M/Qwen2_5_1M_Technical_Report.pdf
📄 Блог: https://qwenlm.github.io/blog/qwen2.5-1m/
🚀 Потестировать можно здесь: https://chat.qwenlm.ai
🤗 Huggingface: https://huggingface.co/collections/Qwen/qwen25-1m-679325716327ec07860530ba
▪ Modelscope: https://modelscope.cn/collections/Qwen25-1M-d6cf9fd33f0a40
@ai_machinelearning_big_data
#qwen #opensource #ml #llm
Теперь модель поддерживает контекст длиной 1 МИЛЛИОН ТОКЕН токенов 🔥
⭐️ Доступны 2 модели: Qwen2.5-7B-Instruct-1M и Qwen2.5-14B-Instruct-1M.
Доступен подробный технический отчет о серии Qwen2.5-1M! 📊
📖 Технический отчет: https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen2.5-1M/Qwen2_5_1M_Technical_Report.pdf
📄 Блог: https://qwenlm.github.io/blog/qwen2.5-1m/
🚀 Потестировать можно здесь: https://chat.qwenlm.ai
🤗 Huggingface: https://huggingface.co/collections/Qwen/qwen25-1m-679325716327ec07860530ba
▪ Modelscope: https://modelscope.cn/collections/Qwen25-1M-d6cf9fd33f0a40
@ai_machinelearning_big_data
#qwen #opensource #ml #llm
Forwarded from Machinelearning
Alibaba релизнули еще одну модель: Qwen2.5-Max
- MoE
- предварительно обученная на масштабных датасетах и пост-обученная с помощью SFT и RLHF
- превосходит DeepSeek V3 на бенчмарках: Arena Hard, LiveBench, LiveCodeBench, GPQA-Diamond
- Может генерить видео, картинки, поддерживает поиск в интернете.
📖 Релиз: https://qwenlm.github.io/blog/qwen2.5-max/
💬 Chat: https://chat.qwenlm.ai (choose Qwen2.5-Max as the model)
⚙️ API: https://alibabacloud.com/help/en/model-studio/getting-started/first-api-call-to-qwen?spm=a2c63.p38356.help-menu-2400256.d_0_1_0.1f6574a72ddbKE
🤗 HF: https://huggingface.co/spaces/Qwen/Qwen2.5-Max-Demo
#Qwen #ml #llm #Alibaba #opensource
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Machinelearning
OpenAI сегодня сообщила в своем аккаунте X (Twitter) о том, что модели o1 и о3-mini теперь поддерживают загрузку файлов и изображений, а дневной лимит загрузок для o3-mini-high увеличен в 7 раз для пользователей Plus до 50 в день.
x.com
YouTube объявил об интеграции новой модели генерации видео Veo 2 в функцию Dream Screen, что позволит пользователям создавать уникальные AI-видео для Shorts на основе текстового запроса. Veo 2 может создать видео в различных стилях и тематиках, учитывая реальную физику и движения человека. Она позволяет указывать стиль, ракурс или кинематографический эффект.
Чтобы использовать новую функцию, нужно открыть камеру Shorts, нажать "Add", затем "Create", ввести запрос и выбрать длину видео. YouTube автоматически пометит ватермаркой SynthID созданный таким образом контент. Возможность уже доступна в США, Канаде, Австралии и Новой Зеландии, расширение - в планах.
blog.youtube
Anthropic готовится к выпуску новой модели, объединяющей возможности традиционной LLM с расширенными функциями рассуждения. Ожидается, что модель будет доступна в ближайшие недели и ориентирована на корпоративных клиентов.
Ключевая особенность новой модели - переменное распределение ресурсов, позволяющее пользователям регулировать вычислительную мощность, используемую моделью для каждой задачи, с помощью простого слайдера. На минимальном уровне модель функционирует как стандартная LLM без цепочки рассуждений.
theinformation.com
xAI находится на финальной стадии разработки Grok 3, новой версии своего чат-бота, выпуск которого ожидается в течение одной-двух недель. По словам Илона Маска, Grok 3 обладает очень мощными возможностями рассуждения и превосходит все известные модели. Grok 3 позиционируется как конкурент ChatGPT, Gemini, Claude, Mistral AI и Llama.
Модель была обучена с использованием синтетических данных и способна анализировать собственные ошибки, стремясь к большей логической последовательности путем пересмотра и перекрестной проверки данных. Musk отметил, что Grok 3 временами кажется "пугающе умным".
seekingalpha.com
OLMoE, iOS-приложения с полностью открытым исходным кодом, которое позволяет пользователям запускать современные языковые модели непосредственно на своих устройствах без необходимости подключения к Интернету. Приложение доступно для загрузки в Apple App Store или может быть собрано из исходного кода из репозитория Ai2 на Github.
Приложение работает на новых устройствах Apple, от iPhone 15 Pro и новее и iPad серии M, из-за потребности в 8 ГБ памяти для модели OLMoE. Модель была оптимизирована с использованием квантования Q4_K_M. OLMoE представляет собой продолжение стремления Ai2 к открытости в разработке ИИ. На iPhone 16 Pro инференс достигает 41 токена в секунду.
allenai.org
Главное:
Используйте разделители: Markdown, XML-теги и заголовки помогают чётко структурировать вводимые данные.
Различие моделей:
Модели рассуждения (например, o1, o3-mini) оптимизированы для детального планирования, анализа документов и визуальной интерпретации.
GPT-модели (например, GPT-4o) ориентированы на скорость и экономию ресурсов для хорошо определённых задач.
Практическое применение:
Модели рассуждения отлично справляются с уточнением неясных запросов, извлечением ключевых деталей из объёмных данных и многоступенчатым планированием (например, при код-ревью).
Рекомендации по запросам:
Используйте короткие, ясные и структурированные запросы с явными ограничениями. Излишне подробные инструкции "chain-of-thought" не требуются, так как модели рассуждают внутренне.
Post
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Искусственный интеллект. Высокие технологии
Lght-A-Video – это инструмент для видеопереноса освещения, который позволяет изменять освещение видео без дополнительного обучения (training-free) благодаря инновационным техникам, таким как Consistent Light Attention (CLA) и Progressive Light Fusion (PLF). Ниже приведён подробный анализ его полезности, отличий от подобных решений, а также его плюсы и минусы.
Чем полезен инструмент?
- Тренировочно‑независимый подход (zero-shot):
Light-A-Video не требует затрат на предварительное обучение на больших наборах данных, что значительно снижает временные и вычислительные затраты. Это делает его идеальным для быстрого применения на любых видео без необходимости сбора специализированных датасетов.
- Улучшение временной согласованности:
При применении классических моделей переноса освещения по кадрам часто возникают проблемы с мерцанием и несогласованностью между кадрами. Интеграция CLA и PLF позволяет обеспечить плавное и стабильное изменение освещения, что особенно важно для создания высококачественных видеороликов.
Гибкость применения:
Инструмент может использоваться для управления освещением как в полной видеопоследовательности, так и для отдельных передних планов, что открывает широкие возможности для креативного видеомонтажа и постобработки.
Открытый исходный код:
Благодаря тому, что проект открыт, исследователи и разработчики могут свободно вносить улучшения, адаптировать его под собственные нужды и интегрировать с другими инструментами.
Отличия от подобных решений
- Специализированный фокус на видео:
В отличие от моделей переноса освещения, разработанных для изображений, которые часто применяются по кадрам и приводят к визуальным артефактам, Light-A-Video специально адаптирован для видео. Его архитектура учитывает межкадровую взаимосвязь для устранения мерцаний.
- Инновационные модули CLA и PLF:
CLA-модуль обеспечивает стабильность генерации фонового освещения посредством усиления взаимодействия между кадрами, а методика Progressive Light Fusion помогает плавно интегрировать исходное и изменённое освещение, что редко встречается в аналогичных решениях.
- Training-free подход:
Многие современные системы требуют предварительного обучения на специализированных датасетах, тогда как Light-A-Video использует zero-shot стратегию, что упрощает его использование и снижает вычислительные затраты.
Плюсы
- Экономия времени и ресурсов:
Отсутствие необходимости в обучении позволяет применять инструмент «из коробки» для любых видео.
Высокая временная согласованность:
Решает проблему мерцания и визуальной несогласованности при изменении освещения в видео.
- Гибкость и адаптируемость:
Подходит как для полного видео, так и для отдельных элементов (foreground), что расширяет спектр его применения.
- Открытость к сообществу:
Исходный код на Python доступен для изучения, модификации и интеграции с другими проектами.
Минусы
- Зависимость от качества входных данных:
Результаты могут зависеть от качества исходного видео и предобработки, что требует дополнительных усилий для оптимальной работы.
- Ограничения по аппаратным ресурсам:
Несмотря на отсутствие этапа обучения, применение сложных алгоритмов внимания и слияния может требовать современного оборудования для обработки видео в реальном времени.
- Новизна и узкая специализация:
Так как проект сравнительно новый и специализированный, его возможности могут быть ограничены по сравнению с более универсальными видеоредакторами, а также возможны проблемы с совместимостью на нестандартных видеоданных.
В итоге Light-A-Video представляет собой перспективное решение для видео реликтинга, которое позволяет изменять освещение в видео без дорогостоящего обучения моделей.
Его инновационные модули для обеспечения временной согласованности выделяют его среди аналогичных инструментов. Однако инструмент требует качественных входных данных и современных вычислительных ресурсов, а его специализированный характер может ограничивать применение в некоторых сценариях.
▪Github
▪Blog
@vistehno
Чем полезен инструмент?
- Тренировочно‑независимый подход (zero-shot):
Light-A-Video не требует затрат на предварительное обучение на больших наборах данных, что значительно снижает временные и вычислительные затраты. Это делает его идеальным для быстрого применения на любых видео без необходимости сбора специализированных датасетов.
- Улучшение временной согласованности:
При применении классических моделей переноса освещения по кадрам часто возникают проблемы с мерцанием и несогласованностью между кадрами. Интеграция CLA и PLF позволяет обеспечить плавное и стабильное изменение освещения, что особенно важно для создания высококачественных видеороликов.
Гибкость применения:
Инструмент может использоваться для управления освещением как в полной видеопоследовательности, так и для отдельных передних планов, что открывает широкие возможности для креативного видеомонтажа и постобработки.
Открытый исходный код:
Благодаря тому, что проект открыт, исследователи и разработчики могут свободно вносить улучшения, адаптировать его под собственные нужды и интегрировать с другими инструментами.
Отличия от подобных решений
- Специализированный фокус на видео:
В отличие от моделей переноса освещения, разработанных для изображений, которые часто применяются по кадрам и приводят к визуальным артефактам, Light-A-Video специально адаптирован для видео. Его архитектура учитывает межкадровую взаимосвязь для устранения мерцаний.
- Инновационные модули CLA и PLF:
CLA-модуль обеспечивает стабильность генерации фонового освещения посредством усиления взаимодействия между кадрами, а методика Progressive Light Fusion помогает плавно интегрировать исходное и изменённое освещение, что редко встречается в аналогичных решениях.
- Training-free подход:
Многие современные системы требуют предварительного обучения на специализированных датасетах, тогда как Light-A-Video использует zero-shot стратегию, что упрощает его использование и снижает вычислительные затраты.
Плюсы
- Экономия времени и ресурсов:
Отсутствие необходимости в обучении позволяет применять инструмент «из коробки» для любых видео.
Высокая временная согласованность:
Решает проблему мерцания и визуальной несогласованности при изменении освещения в видео.
- Гибкость и адаптируемость:
Подходит как для полного видео, так и для отдельных элементов (foreground), что расширяет спектр его применения.
- Открытость к сообществу:
Исходный код на Python доступен для изучения, модификации и интеграции с другими проектами.
Минусы
- Зависимость от качества входных данных:
Результаты могут зависеть от качества исходного видео и предобработки, что требует дополнительных усилий для оптимальной работы.
- Ограничения по аппаратным ресурсам:
Несмотря на отсутствие этапа обучения, применение сложных алгоритмов внимания и слияния может требовать современного оборудования для обработки видео в реальном времени.
- Новизна и узкая специализация:
Так как проект сравнительно новый и специализированный, его возможности могут быть ограничены по сравнению с более универсальными видеоредакторами, а также возможны проблемы с совместимостью на нестандартных видеоданных.
В итоге Light-A-Video представляет собой перспективное решение для видео реликтинга, которое позволяет изменять освещение в видео без дорогостоящего обучения моделей.
Его инновационные модули для обеспечения временной согласованности выделяют его среди аналогичных инструментов. Однако инструмент требует качественных входных данных и современных вычислительных ресурсов, а его специализированный характер может ограничивать применение в некоторых сценариях.
▪Github
▪Blog
@vistehno