Forwarded from Machinelearning
HDR-GS — это метод рендеринга, который использует гауссову сплайн-интерполяцию для создания изображений с расширенным динамическим диапазоном и изображений со стандартным динамическим диапазоном (LDR) с заданным временем экспозиции.
HDR-GS превосходит NeRF на 1,91 и 3,84 дБ при рендеринге HDR- и LDR-видов, при этом обеспечивает 1000-кратное увеличение скорости инференса и требует всего 6,3% от времени обучения, которое требуется методу HDR-NeRF.
Пайплайн HDR-GS состоит из модели точечного облака DDR, которая использует сферические гармоники для HDR-цвета и 3 MLP для тональной компрессии, параллельной растеризации рендеринга HDR- и LDR-цветов и алгоритма Structure-from-Motion (SfM), который инициирует гауссово облако точек.
Тестирование HDR-GS проводилось на датасетах с 4 реальными сценами и 8 синтетическими, созданными в Blender. По результатам тестирования, HDR-GS значительно превзошел NeRF, NeRF-W, HDR-NeRF и 3DGS как по качеству, так и по эффективности.
⚠️ Рекомендаций по требованиям к GPU в репозитории проекта нет, тесты проводились на 1 GPU A5000.
bathroom
:# Clone repo:
git clone https://github.com/caiyuanhao1998/HDR-GS --recursive
# Windows only
SET DISTUTILS_USE_SDK=1
# install environment of 3DGS
cd HDR-GS
conda env create --file environment.yml
conda activate hdr_gs
# Synthetic scenes
python3 train_synthetic.py --config config/bathroom.yaml --eval --gpu_id 0 --syn --load_path output/mlp/bathroom/exp-time/point_cloud/interation_x --test_only
@ai_machinelearning_big_data
#AI #ML #HDR-GS #Gaussian
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍9❤3🔥3
EuroLLM-9B: Мощная многоязычная модель для европейских языков! 🌍🤖
Основные характеристики:
🌐 Поддержка 35 языков: охватывает все 24 официальных языка ЕС
🏆 Высочайшая производительность: конкурирует с Gemma и Mistral
✅ 4 триллиона токенов: Обучение с использованием высококачественных многоязычных данных.
✅ Открытый исходный код: Доступен на Hugging Face!
https://huggingface.co/utter-project/EuroLLM-9B
Основные характеристики:
🌐 Поддержка 35 языков: охватывает все 24 официальных языка ЕС
🏆 Высочайшая производительность: конкурирует с Gemma и Mistral
✅ 4 триллиона токенов: Обучение с использованием высококачественных многоязычных данных.
✅ Открытый исходный код: Доступен на Hugging Face!
https://huggingface.co/utter-project/EuroLLM-9B
❤7🔥6👍4🤣1
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍8❤6🔥2
This media is not supported in your browser
VIEW IN TELEGRAM
🗣 Fish Speech v1.5 - многоязычная модель преобразования текста в речь и клонирования голоса с низкой задержкой 🔥
🌟 Fish Speech V1.5: обновление Text-To-Speech модели.
Fish Speech - модель генерации TTS обновилась до версии 1.5. Эта версия обучалась на 1 млн.часов мультиязычных аудиоданных и заняла 2 место в бенчмарке TTS-Arena (как "Anonymous Sparkle").
Заявлена задержка <150 мс с высококачественным мгновенным клонированием голоса.
▶️ Языковая структура обучающего корпуса версии 1.5:
🟢 Английский (en) >300 тыс. часов
🟢 Китайский (zh) >300 тыс. часов
🟢 Японский (ja) >100 тыс. часов
🟢 Немецкий (de) ~20 тыс. часов
🟢 Французский (fr) ~20 тыс. часов
🟢 Испанский (es) ~20 тыс. часов
🟢 Корейский (ko) ~20 тыс. часов
🟢 Арабский (ar) ~20 тыс. часов
🟠 Русский (ru) ~20 тыс. часов
🟢 Голландский (nl) <10 тыс. часов
🟢 Итальянский (it) <10 тыс. часов
🟢 Польский (pl) <10 тыс. часов
🟢 Португальский (pt) <10 тыс. часов
Fish Speech для локального инференса требует 4Gb GPU и 8 BG GPU для файнтюна. Запуск возможен на MacOS, Linux и Windows в режимах CLI, GUI и WebUI и Docker.
Подробные инструкции по установке, инференсу в различных режимах для каждой платформы, туториал по файнтюну и примеры доступны в документации проекта Fish Speech.
⚠️ Репозиторий на Github еще не обновлен информацией о версии 1.5, а официальное демо от разработчиков поддерживает синтез только на английском, китайском и японском.
> Всего 500 миллионов параметров
> Обучена на 1 миллионе часов аудио
> Поддерживает 13 языков
> Низкая задержка (<150 мс)
> Открытая модель 🤗
> Лучшая часть: занимает 2-е место на TTS Arena (предварительные результаты)
📌 Лицензирование: CC-BY-NC-SA-4.0 License.
🟡 Модель
🟡 Demo
🟡 Документация
🟡 Сообщество в Discord
🖥 GitHub
@data_analysis_ml
Fish Speech - модель генерации TTS обновилась до версии 1.5. Эта версия обучалась на 1 млн.часов мультиязычных аудиоданных и заняла 2 место в бенчмарке TTS-Arena (как "Anonymous Sparkle").
Заявлена задержка <150 мс с высококачественным мгновенным клонированием голоса.
Fish Speech для локального инференса требует 4Gb GPU и 8 BG GPU для файнтюна. Запуск возможен на MacOS, Linux и Windows в режимах CLI, GUI и WebUI и Docker.
Подробные инструкции по установке, инференсу в различных режимах для каждой платформы, туториал по файнтюну и примеры доступны в документации проекта Fish Speech.
⚠️ Репозиторий на Github еще не обновлен информацией о версии 1.5, а официальное демо от разработчиков поддерживает синтез только на английском, китайском и японском.
> Всего 500 миллионов параметров
> Обучена на 1 миллионе часов аудио
> Поддерживает 13 языков
> Низкая задержка (<150 мс)
> Открытая модель 🤗
> Лучшая часть: занимает 2-е место на TTS Arena (предварительные результаты)
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍12❤5🔥3
This media is not supported in your browser
VIEW IN TELEGRAM
⚡️ DeepThought-8B: новая модель рассуждений построенная на LLaMA-3.1 с масштабированием вычислений.
Внутри:
- Структурированные в формате JSON цепочки рассуждений и управляемые пути вывода.
- ~16 ГБ видеопамяти для запуска модели объемом 70B.
- Опенсорс
https://huggingface.co/ruliad/deepthought-8b-llama-v0.01-alpha
@data_analysis_ml
Внутри:
- Структурированные в формате JSON цепочки рассуждений и управляемые пути вывода.
- ~16 ГБ видеопамяти для запуска модели объемом 70B.
- Опенсорс
https://huggingface.co/ruliad/deepthought-8b-llama-v0.01-alpha
@data_analysis_ml
❤7👍2🔥2🤣1
Forwarded from Machinelearning
Набор моделей ризонинга от SimpleBerry Research Lab на Hugging face, полученные с использованием методик:
⚠️ Тестов и бенчмарков официально не предоставлено, демо модели LLaMA-O1-Supervised-1129 можно попробовать в этом HF Space
@ai_machinelearning_big_data
#AI #ML #LLM #Resoning #LlaMA_O1
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤9👍1🔥1
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍11❤7🔥3
🔥 Google только что выпустила новые языковые модели PaliGemma 2 - 3B, 10B и 28B Vision!
> 9 предварительно обученных моделей: 3B, 10B и 28B с разрешением 224x224, 448x448 и 896x896
> ВI 2 модели Image-text поддерживающие формат 3B и 10B (448x448)
https://huggingface.co/collections/google/paligemma-2-release-67500e1e1dbfdd4dee27ba48
@data_analysis_ml
> 9 предварительно обученных моделей: 3B, 10B и 28B с разрешением 224x224, 448x448 и 896x896
> ВI 2 модели Image-text поддерживающие формат 3B и 10B (448x448)
https://huggingface.co/collections/google/paligemma-2-release-67500e1e1dbfdd4dee27ba48
@data_analysis_ml
👍11❤4🔥4
This media is not supported in your browser
VIEW IN TELEGRAM
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
❤9👍5🔥4
Forwarded from Machinelearning
Модель доступна в версии с 70 млрд параметров и оптимизирована для диалоговых сценариев использования на нескольких языках. Llama 3.3 превосходит многие доступные модели с открытым и закрытым исходным кодом по стандартным отраслевым бенчмаркам.
Llama 3.3 основана на оптимизированной архитектуре трансформера и использует авторегрессивный подход. Настройка модели включает SFT с RLHF для согласования с человеческими предпочтениями в отношении полезности и безопасности.
Модель была обучена на новом наборе общедоступных онлайн-данных, включающем более 15 триллионов токенов, с ограничением по свежести данных до декабря 2023 года.
Llama 3.3 поддерживает английский, немецкий, французский, итальянский, португальский, хинди, испанский и тайский языки.
import transformers
import torch
model_id = "meta-llama/Llama-3.3-70B-Instruct"
pipeline = transformers.pipeline(
"text-generation",
model=model_id,
model_kwargs={"torch_dtype": torch.bfloat16},
device_map="auto",
)
messages = [
{"role": "system", "content": "You are a pirate chatbot who always responds in pirate speak!"},
{"role": "user", "content": "Who are you?"},
]
outputs = pipeline(
messages,
max_new_tokens=256,
)
print(outputs[0]["generated_text"][-1])
@ai_machinelearning_big_data
#AI #ML #LLM #Llama3
Please open Telegram to view this post
VIEW IN TELEGRAM
👍7❤6🔥2
Media is too big
VIEW IN TELEGRAM
⚡️ Новый искусственный интеллект DeepMind для игр Делает Невозможное!
Google DeepMind совершила значительный прорыв, представив Genie 2 – модель, которая способна создавать бесконечное множество интерактивных 3D-миров.
Genie 2 представляет собой мировую модель с автогрессивной латентной диффузией, обученную на большом объеме видеоданных. Модель умеет строить играбельные миры всего лишь на основе одного изображения, а также реагировать на действия пользователя с помощью клавиатуры и мыши.
Основные возможности системы включают:
🔹Создание последовательных миров продолжительностью до одной минуты
🔹Запоминание и точное воспроизведение частей мира, которые временно выходят за пределы видимости
🔹Моделирование сложных физических процессов, таких как гравитация, дым, вода и освещение
🔹Анимация персонажей и их взаимодействия с окружающей средой
🔹Генерация NPC с продвинутыми поведенческими моделями
🔹Поддержка различных перспектив, начиная от вида от первого лица и заканчивая изометрическим видом
Особо стоит отметить возможность быстрого прототипирования. Дизайнерам теперь легко преобразовывать концептуальные рисунки в полноценные интерактивные среды, что значительно ускоряет процесс создания игр. Кроме того, Genie 2 способна работать с реальными фотографиями, воссоздавая мелкие детали вроде колеблющейся травы или текущей воды.
Мы собрали для вас целую коллекцию примеров – это просто невероятно!
Несмотря на то, что технология пока находится на начальной стадии развития, мы уверены, что через несколько лет она произведет настоящую революцию в индустрии компьютерных игр.
🎯Разбор статьи
🎯Статья
@data_analysis_ml
Google DeepMind совершила значительный прорыв, представив Genie 2 – модель, которая способна создавать бесконечное множество интерактивных 3D-миров.
Genie 2 представляет собой мировую модель с автогрессивной латентной диффузией, обученную на большом объеме видеоданных. Модель умеет строить играбельные миры всего лишь на основе одного изображения, а также реагировать на действия пользователя с помощью клавиатуры и мыши.
Основные возможности системы включают:
🔹Создание последовательных миров продолжительностью до одной минуты
🔹Запоминание и точное воспроизведение частей мира, которые временно выходят за пределы видимости
🔹Моделирование сложных физических процессов, таких как гравитация, дым, вода и освещение
🔹Анимация персонажей и их взаимодействия с окружающей средой
🔹Генерация NPC с продвинутыми поведенческими моделями
🔹Поддержка различных перспектив, начиная от вида от первого лица и заканчивая изометрическим видом
Особо стоит отметить возможность быстрого прототипирования. Дизайнерам теперь легко преобразовывать концептуальные рисунки в полноценные интерактивные среды, что значительно ускоряет процесс создания игр. Кроме того, Genie 2 способна работать с реальными фотографиями, воссоздавая мелкие детали вроде колеблющейся травы или текущей воды.
Мы собрали для вас целую коллекцию примеров – это просто невероятно!
Несмотря на то, что технология пока находится на начальной стадии развития, мы уверены, что через несколько лет она произведет настоящую революцию в индустрии компьютерных игр.
🎯Разбор статьи
🎯Статья
@data_analysis_ml
👍9❤6🔥6
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥6👍4❤2👏2⚡1👌1
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
❤11👍4🔥2
⚡️ Модель преобразования текста в видео на основе DiT ,от команды, работающей над open sora plan!
https://huggingface.co/collections/BestWishYsh/consisid-6746dd0b18db651d5d502766
https://huggingface.co/papers/2411.17440
обеспечения единообразия.
✨ Высокое качество изображения: позволяет создавать реалистичные видеоролики, сохраняющие индивидуальность, с высоким качеством исполнения.
@data_analysis_ml
https://huggingface.co/collections/BestWishYsh/consisid-6746dd0b18db651d5d502766
https://huggingface.co/papers/2411.17440
обеспечения единообразия.
✨ Высокое качество изображения: позволяет создавать реалистичные видеоролики, сохраняющие индивидуальность, с высоким качеством исполнения.
@data_analysis_ml
❤7👍4🔥2🥴1
Forwarded from Machinelearning
EuroLLM - проект, финансируемый ЕС, цель которого создание набора LLM, способных понимать и генерировать текст на всех языках Европейского Союза, а также на некоторых других распространенных не-ЕС языках:
Болгарский, хорватский, чешский, датский, голландский, английский, эстонский, финский, французский, немецкий, греческий, венгерский, ирландский, итальянский, латышский, литовский, мальтийский, польский, португальский, румынский, словацкий, словенский, испанский, шведский, арабский, каталанский, китайский, галисийский, хинди, японский, корейский, норвежский, русский, турецкий и украинский.
⚠️ Ко всем моделям неофициально выпущены квантованные версии в GGUF-формате, ссылки доступны в карточке модели на HF.
from transformers import AutoModelForCausalLM, AutoTokenizer
model_id = "utter-project/EuroLLM-9B"
tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(model_id)
text = "English: My name is EuroLLM. Portuguese:"
inputs = tokenizer(text, return_tensors="pt")
outputs = model.generate(**inputs, max_new_tokens=20)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))
@ai_machinelearning_big_data
#AI #ML #LLM #EuroLLM
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6❤5🔥4🥰2