Stable Fast 3D - модель и сервис, который позволяет генерировать 3D-активы из одного изображения.
Модель основана на TripoSR с значительными архитектурными улучшениями (запекание света, окрашивание вершин и marching cubes artifacts), позволяющими создавать высококачественные 3D-объекты, включая UV-развёртку, параметры материалов и альбедо с минимальным влиянием освещения.
В качестве источника используется загруженное пользователем изображение объекта, после чего модель генерирует полный 3D-объект и предлагает возможность дополнительной модификации сетки.
Stable Fast 3D доступен как для локальной установки, так и через API или с помощью он-лайн сервиса Stable Assistant.
Локальный запуск:
# Update setuptools
pip install -U setuptools==69.5.1
# For CLI-version of inference install requirements
pip install -r requirements.txt
# For Gradio UI of inference install requirements
pip install -r requirements-demo.txt
# CLI inference
python run.py demo_files/examples/chair1.png --output-dir output/
# run Gradio UI
python gradio_app.py
@ai_machinelearning_big_data
#AI #ML #3D #SatbilityAI
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍30❤12🔥5
⚡️ Новостной дайджест
✔️ Thermometer: метод, не позволяющий модели искусственного интеллекта быть слишком уверенной в неправильных ответах.
Thermometer - это вспомогательная модель, работающая поверх LLM для калибровки её уверенности при сохранении точности.
Метод использует классическую технику температурного масштабирования, позволяющую настраивать уровень уверенности модели в зависимости от её точности.
Вместо использования размеченных данных для каждой конкретной задачи, Thermometer обучается на ограниченном наборе задач, что позволяет ему обобщать и применять калибровку к новым задачам без необходимости в дополнительных размеченных данных. Thermometer требует меньше вычислительных ресурсов по сравнению с традиционными методами, которые часто неэффективны для универсальных моделей.
news.mit.edu
✔️ OpenAI анонсировала альфа-тестирование экспериментальной модели GPT-4o Long Output.
OpenAI GPT-4o Long Output предлагает значительно увеличенную максимальную длину вывода — до 64,000 токенов, что в 16 раз больше, чем у GPT-4o, ограниченной 4,000 токенами. Модель сохраняет общий контекстный лимит в 128,000 токенов.
Цены на GPT-4o Long Output: $6 за 1 миллион входных токенов и $18 за 1 миллион выходных токенов. Сроки публичной доступности не анонсированы.
openai.com
✔️ GenSQL: Использование LLM для структурированных данных.
GenSQL переводит запросы на естественном языке в исполняемые SQL-запросы, что облегчает применение SQL для пользователей без глубоких знаний синтаксиса.
Основные возможности GenSQL включают демократизацию доступа к данным, улучшение исследования данных и обработку сложных запросов.
Он может быть интегрирован в чат-ботов и виртуальных помощников, что даст возможность пользователю получать информацию о своих данных в интерактивной форме.
analyticsindiamag.com
✔️ AMD становится AI Chip компанией.
Согласно опубликованному финансовому отчету за второй квартал 2024 года, AMD демонстрирует значительный рост бизнеса в области центров обработки данных, который теперь составляет почти половину всех продаж компании.
В частности, продажи чипа AMD Instinct MI300, который конкурирует с популярным чипом Nvidia H100, достигли более $1 миллиарда за квартал.
AMD планирует продолжать выпуск новых AI-чипов ежегодно, включая MI325X в четвертом квартале 2024 года и MI350 в 2025 году.
ir.amd.com
✔️ StreamTinyNet: анализ многокадрового видео на устройствах Arduino-формата
StreamTinyNet анализирует несколько кадров видео одновременно, что повышает точность по сравнению с традиционными алгоритмами, которые работают только с одним кадром.
Фреймворк основан на сверточной нейронной сети, которая сначала обрабатывает каждый кадр индивидуально, извлекая важные характеристики и создавая их сжатое представление. Затем система анализирует извлеченные характеристики вместе, чтобы понять последовательность и временные изменения, что позволяет распознавать динамические жесты, такие как движения рук.
На платформе Arduino Nicla Vision с ограниченными вычислительными ресурсами алгоритм смог выполнять детекцию жестов со скоростью 15 кадров в секунду, используя всего около 300 килобайт оперативной памяти.
hackster.io
✔️ Полностью автоматизированный робот-стоматолог впервые в мире провел процедуру на человеке.
Робот компании Perceptive использует 3D-сканер, основанный на оптической когерентной томографии (OCT), для создания детальной 3D-модели полости рта, включая зубы и десны, без использования рентгеновских лучей. Система автоматически обнаруживает кариес с точностью около 90%, после чего врач-стоматолог обсуждает необходимые действия с пациентом, прежде чем робот берет на себя выполнение процедуры.
Первой задачей робота стало подготовка зуба под коронку, процедура, которая обычно занимает около двух часов, а с помощью робота выполняется за 15 минут. Perceptive утверждает, что их система может безопасно работать даже в условиях, когда пациент двигается, что было подтверждено тестами на движущихся людях.
newatlas.com
@ai_machinelearning_big_data
#news #ai #ml
Thermometer - это вспомогательная модель, работающая поверх LLM для калибровки её уверенности при сохранении точности.
Метод использует классическую технику температурного масштабирования, позволяющую настраивать уровень уверенности модели в зависимости от её точности.
Вместо использования размеченных данных для каждой конкретной задачи, Thermometer обучается на ограниченном наборе задач, что позволяет ему обобщать и применять калибровку к новым задачам без необходимости в дополнительных размеченных данных. Thermometer требует меньше вычислительных ресурсов по сравнению с традиционными методами, которые часто неэффективны для универсальных моделей.
news.mit.edu
OpenAI GPT-4o Long Output предлагает значительно увеличенную максимальную длину вывода — до 64,000 токенов, что в 16 раз больше, чем у GPT-4o, ограниченной 4,000 токенами. Модель сохраняет общий контекстный лимит в 128,000 токенов.
Цены на GPT-4o Long Output: $6 за 1 миллион входных токенов и $18 за 1 миллион выходных токенов. Сроки публичной доступности не анонсированы.
openai.com
GenSQL переводит запросы на естественном языке в исполняемые SQL-запросы, что облегчает применение SQL для пользователей без глубоких знаний синтаксиса.
Основные возможности GenSQL включают демократизацию доступа к данным, улучшение исследования данных и обработку сложных запросов.
Он может быть интегрирован в чат-ботов и виртуальных помощников, что даст возможность пользователю получать информацию о своих данных в интерактивной форме.
analyticsindiamag.com
Согласно опубликованному финансовому отчету за второй квартал 2024 года, AMD демонстрирует значительный рост бизнеса в области центров обработки данных, который теперь составляет почти половину всех продаж компании.
В частности, продажи чипа AMD Instinct MI300, который конкурирует с популярным чипом Nvidia H100, достигли более $1 миллиарда за квартал.
AMD планирует продолжать выпуск новых AI-чипов ежегодно, включая MI325X в четвертом квартале 2024 года и MI350 в 2025 году.
ir.amd.com
StreamTinyNet анализирует несколько кадров видео одновременно, что повышает точность по сравнению с традиционными алгоритмами, которые работают только с одним кадром.
Фреймворк основан на сверточной нейронной сети, которая сначала обрабатывает каждый кадр индивидуально, извлекая важные характеристики и создавая их сжатое представление. Затем система анализирует извлеченные характеристики вместе, чтобы понять последовательность и временные изменения, что позволяет распознавать динамические жесты, такие как движения рук.
На платформе Arduino Nicla Vision с ограниченными вычислительными ресурсами алгоритм смог выполнять детекцию жестов со скоростью 15 кадров в секунду, используя всего около 300 килобайт оперативной памяти.
hackster.io
Робот компании Perceptive использует 3D-сканер, основанный на оптической когерентной томографии (OCT), для создания детальной 3D-модели полости рта, включая зубы и десны, без использования рентгеновских лучей. Система автоматически обнаруживает кариес с точностью около 90%, после чего врач-стоматолог обсуждает необходимые действия с пациентом, прежде чем робот берет на себя выполнение процедуры.
Первой задачей робота стало подготовка зуба под коронку, процедура, которая обычно занимает около двух часов, а с помощью робота выполняется за 15 минут. Perceptive утверждает, что их система может безопасно работать даже в условиях, когда пациент двигается, что было подтверждено тестами на движущихся людях.
newatlas.com
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥23👍15❤4
rLLM (relationLLM) - библиотека PyTorch, разработанная для удовлетворения растущей потребность в эффективных и экономичных методах применения LLM к огромным объемам структурированных данных, хранящихся в реляционных базах данных.
rLLM достигает этой цели путем декомпозиции современных графовых нейронных сетей (GNN), LLM и табличных нейронных сетей (TNN) на стандартизированные модули. Такой подход позволяет быстро создавать новые RTL-модели путем объединения, выравнивания и совместного обучения этих модулей.
Парадигма "combine, align, co-train" позволяет гибко конструировать модели, адаптируясь к уникальным характеристикам различных наборов данных реляционных таблиц.
Библиотека включает в себя несколько слоев:
Чтобы продемонстрировать возможности rLLM, авторы представляют BRIDGE, простой RTL-метод, который использует TNN для обработки табличных данных и GNN для анализа отношений между таблицами на основе внешних ключей. BRIDGE сочетает сильные стороны обоих типов сетей для обучения на основе информации, содержащейся в реляционных базах данных.
Для исследовательских и обучающих целей rLLM предлагает коллекцию данных под названием SJTUTables, которая состоит из трех наборов данных реляционных таблиц:
@ai_machinelearning_big_data
#AI #ML #RTL #rLLM
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥17👍13❤8
Black Forest Labs, компания, основанная командой разработки, покинувшей SatbilityAI (Stable Diffusion) опубликовала пресс-релиз с презентаций своего семейства GenAI моделей FLUX версии 1.
Представленное семейство FLUX.1 определяет новый уровень детализации изображения, точного следования промпту, разнообразия стилей и сложности сцен для синтеза текста в изображение.
Каждая вариация семейства FLUX.1 поддерживают популярные соотношения сторон и разрешения от 0,1 (128х) до 2,0(2048х) мегапикселя.
FLUX.1 выпускается в трех вариантах: FLUX.1 pro, FLUX.1 dev и FLUX.1 schnell:
Код инференса можно найти на Github проекта или использовать поддержку модели в ComfyUI.
Все модели FLUX.1 основаны на гибридной архитектуре мультимодальных и параллельных блоков трансформеров диффузии и масштабированы до 12B параметров.
Улучшения предыдущих диффузионных моделей проведено за счет использования согласования потоков - концептуально простого метода обучения, который включает диффузию как частный случай.
Повышение производительности модели и эффективность использования аппаратного обеспечения получено за счет использования rotary positional embeddings и параллельных слоев внимания.
Более подробный технический отчет разработчики обещают опубликовать в ближайшем будущем.
Локальный запуск с автозагрузкой моделей dev и schell с выводом cli или с UI Streamlit:
# Clone repo and install dependences
cd $HOME && git clone https://github.com/black-forest-labs/flux
cd $HOME/flux
python3.10 -m venv .venv
source .venv/bin/activate
pip install -e '.[all]'
# Download dev or schnell automatically via HuggingFace you will need to be logged in HF
# For manual downloaded models you can specify the paths via environment-variables:
export FLUX_SCHNELL=<path_to_flux_schnell_sft_file>
export FLUX_DEV=<path_to_flux_dev_sft_file>
export AE=<path_to_ae_sft_file>
# For cli interactive sampling run
python -m flux --name <name> --loop
# Or to generate a single sample run
python -m flux --name <name> \
--height <height> --width <width> \
--prompt "<prompt>"
# streamlit demo that does both text-to-image and image-to-image
streamlit run demo_st.py
@ai_machinelearning_big_data
#AI #FLUX #Diffusers #Text2Image #Image2Image #GenAI
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍30🔥9❤5🤔2🙏1
🔥 Новостной дайджест
✔️ В Google Cloud появился специальный кластер GPU Nvidia для стартапов Y Combinator.
Google Cloud предоставил для стартапов Y Combinator доступ к субсидированным вычислительным ресурсам для разработки AI-моделей. В рамках этого партнерства стартапы, участвующие в программе YC Summer 2024, получат $350,000 в виде облачных кредитов на два года.
Кроме этого, Google предложит стартапам $12,000 в виде кредитов на улучшенную поддержку и бесплатный год использования Google Workspace Business Plus. Это сотрудничество также включает возможность общения с внутренними AI-экспертами Google через ежемесячные консультации.
techcrunch.com
✔️ aiOla выпустила сверхбыструю модель распознавания речи.
Израильский стартап aiOla представил открытую модель распознавания речи "Whisper-Medusa", которая работает на 50% быстрее, чем модель OpenAI Whisper. Whisper-Medusa использует архитектуру Multi-Head Attention, что позволяет ей одновременно предсказывать до десяти токенов за один проход.
Веса и код опубликованы на Github и Huggingface.
Сведений о поддерживаемых языках и планов развития мультиязычности не публиковалось.
aiola.com
✔️ Mixture of Nested Experts (MoNE): фреймворк компьютерного зрения для адаптивной обработки визуальных маркеров путем динамического распределения.
Исследование, опубликованное Google DeepMind, предлагает метод, при котором MoNE динамически распределяет вычислительные ресурсы, направляя токены к различным вложенным экспертам в зависимости от их важности, что позволяет обрабатывать избыточные токены с помощью менее сложных моделей, а более важные — с помощью более мощных.
Архитектура MoNE использует многоуровневую структуру экспертов с различной вычислительной мощностью и применяет алгоритм Expert Preferred Routing (EPR) для динамической маршрутизации токенов.
На наборе данных ImageNet-21K модель продемонстрировала точность 87.5%, а в задачах классификации видео MoNE показала снижение вычислительных затрат в два-три раза при сохранении точности традиционных методов.
synthical.com
✔️ Vidu: крупномасштабный сервис генерации видео стал доступен за пределами Китая при поддержке Baidu.
Vidu позволяет преобразовывать текст в видео и изображения в видео, предлагая длительности 4 и 8 секунд при максимальном разрешении 1080P. Модель демонстрирует высокую динамичность, реалистичность и последовательность, а также новые функции, такие как генерация анимационного стиля и эффекты для изображений.
Для обучения модели Vidu используется платформа AIHC от Baidu. AIHC управляет ресурсами на разных уровнях, достигая эффективности обучения более 98.8% на кластере из десяти тысяч карт.
pandaily.com
@ai_machinelearning_big_data
#news #ai #ml
Google Cloud предоставил для стартапов Y Combinator доступ к субсидированным вычислительным ресурсам для разработки AI-моделей. В рамках этого партнерства стартапы, участвующие в программе YC Summer 2024, получат $350,000 в виде облачных кредитов на два года.
Кроме этого, Google предложит стартапам $12,000 в виде кредитов на улучшенную поддержку и бесплатный год использования Google Workspace Business Plus. Это сотрудничество также включает возможность общения с внутренними AI-экспертами Google через ежемесячные консультации.
techcrunch.com
Израильский стартап aiOla представил открытую модель распознавания речи "Whisper-Medusa", которая работает на 50% быстрее, чем модель OpenAI Whisper. Whisper-Medusa использует архитектуру Multi-Head Attention, что позволяет ей одновременно предсказывать до десяти токенов за один проход.
Веса и код опубликованы на Github и Huggingface.
Сведений о поддерживаемых языках и планов развития мультиязычности не публиковалось.
aiola.com
Исследование, опубликованное Google DeepMind, предлагает метод, при котором MoNE динамически распределяет вычислительные ресурсы, направляя токены к различным вложенным экспертам в зависимости от их важности, что позволяет обрабатывать избыточные токены с помощью менее сложных моделей, а более важные — с помощью более мощных.
Архитектура MoNE использует многоуровневую структуру экспертов с различной вычислительной мощностью и применяет алгоритм Expert Preferred Routing (EPR) для динамической маршрутизации токенов.
На наборе данных ImageNet-21K модель продемонстрировала точность 87.5%, а в задачах классификации видео MoNE показала снижение вычислительных затрат в два-три раза при сохранении точности традиционных методов.
synthical.com
Vidu позволяет преобразовывать текст в видео и изображения в видео, предлагая длительности 4 и 8 секунд при максимальном разрешении 1080P. Модель демонстрирует высокую динамичность, реалистичность и последовательность, а также новые функции, такие как генерация анимационного стиля и эффекты для изображений.
Для обучения модели Vidu используется платформа AIHC от Baidu. AIHC управляет ресурсами на разных уровнях, достигая эффективности обучения более 98.8% на кластере из десяти тысяч карт.
pandaily.com
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍21❤4🔥3🎉3
LYNX - первая модель обнаружения галлюцинаций с открытым исходным кодом. Она представляет собой результат тонкой настройки Llama-3-70B-Instruct на комплексном датасете из разных областей, включая финансы и медицину, с акцентом на сложные сценарии реальных запросов и инференса.
Данные обучения включают примеры из RAGTruth, DROP, CovidQA и PubMedQA, с 300 образцами на источник, предварительно прошедшими perturbed-обработку для создания "галлюцинирующих" ответов.
Процесс обучения использовал цепочку мышления с GPT-4о для улучшения возможностей рассуждения.
Были обучены два варианта моделей: Lynx 70B и Lynx 8B.
Для использования в Ollama, llama.cpp и LM Studio были созданы квантированные 4-bit GGUF версии моделей Lynx 8B и 70B соответственно.
Чтобы облегчить оценку работы модели, разработчики предлагают HaluBench, бенчмарк галлюцинаций, содержащий 15 000 маркерных образцов, полученных из датасетов: DROP, FinanceBench, COVID-QA, PubMedQA, HaluEval и RAGTruth.
Для моделирования галлюцинации, HaluBench использует технику perturbed, при которой генерируются семантически измененные ответы, сохраняя минимальные отличия от первоначального ответа. Этот метод выполняет генерацию сложных примеров, которые могут быть неправильно истолкованы как верные, несмотря на несоответствия контексту.
⚠️ Lynx фокусируется исключительно на оценке внутренней галлюцинации, которая оценивает согласованность сгенерированного текста с предоставленным контекстом. Оценка внешних факторов галлюцинаций выходит за рамки функционала модели.
Lynx может быть запущен несколькими способами: с помощью Ollama, llama.cpp, LM Studio, в виде локального инференса или как интеграция с NVIDIA NeMo-Guardrails:
# Install local environment:
python -m venv .venv
source .venv/bin/activate
pip install --upgrade pip
pip install poetry==1.8.1
poetry update
poetry install
# Install pre-commit in your teminal and run:
pre-commit install
#Copy .env.example to .env and replace values for environmental variables.
#Установки Inference и Finetuning на mcli и vLLM описаны в файлах:
# mcli/mcli_finetuning.md
# mcli/mcli_inference.md
# mcli/vllm_inference.md
@ai_machinelearning_big_data
#AI #Lynx #RAG #HallucinationDetection #LLM
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍23❤7🔥3⚡1
Alibaba запустила проект генерации видео под названием Tora, которая поддерживает комбинацию траектории, текста и изображений, дает высокую точность и управляемость при генерации видео.
Tora представляет два новых модуля обработки движений: модуль выделения траектории и модуль управления движением. Также, она поддерживает управление начальным и конечным кадром, что гарантирует консистентность процесса генерации видео.
В планах опубликование: демо на Huggingface, код инференса и обучения. Сроки не называются.
Страница проекта, технический отчет исследования и репозиторий на Github.
Particle представила Tachyon, новую одноплатную компьютерную систему (SBC), основанную на процессоре Qualcomm Snapdragon, c поддержкой 5G и собственным AI-ускорителем. Устройство имеет форму, схожую с Raspberry Pi, и оснащено восьмиядерным процессором Kryo с тактовой частотой до 2.7 ГГц, 4 ГБ оперативной памяти и 64 ГБ встроенной памяти UFS.
Tachyon предлагает поддержку текстового и графического интерфейсов, а также интеграцию с Raspberry Pi через 40-контактный GPIO, два USB-C 3.1 порта.
Одноплатник будет поставляться с Ubuntu 24.04. Розничная цена на Tachyon будет составлять $249 ( $149 за "суперранний" уровень финансирования на Kikstarter сейчас).
Ожидается, что первые поставки начнутся в январе 2025 года.
tomshardware.com
Новая функция позволяет пользователям автоматически переводить аудиодорожки и субтитры на более чем 30 языков, что значительно ускоряет процесс адаптации видео для международной аудитории. Так же заявлена функция редактирования переведенных субтитров, чтобы пользователи могли улучшать качество перевода по мере необходимости.
С запуском новых функций Vimeo планирует привлечь больше бизнес-клиентов, предоставляя им эффективные инструменты для создания и распространения контента на глобальном уровне.
vimeo.com
"Global AI Adoption Index" от IBM показывает, что Индия и ОАЭ являются лидерами в глобальном внедрении искусственного интеллекта и генеративного ИИ.
42% опрошенных компаний уже интегрировали AI в свои бизнес-модели, при этом почти все предприятия увеличивают свои инвестиции в AI-решения. Основные отрасли - автомобилестроение, производство и финансовые услуги.
В ОАЭ 52% IT-специалистов сообщили о стратегии внедрения AI в своих организациях, в то время как в Индии этот показатель составляет 42%. Наиболее распространенные области применения AI включают автоматизацию IT-процессов, обнаружение угроз и управление.
consultancy-me.com
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍22❤4🔥4
Метод EMO-Disentanger имеет двухэтапную архитектуру. На первом этапе основное внимание уделяется созданию партитуры, которая состоит из мелодии и последовательности аккордов, а на втором этапе создается фортепианное исполнение с желаемой выразительностью.
Двухэтапная структура позволяет разделить процесс генерации на валентное моделирование и моделирование тональных акцентов.
Модель партируты фокусируется на валентном моделировании, генерируя мелодии и последовательности аккордов на основе эмоциональной метки и тональности.
Затем модель исполнения генерирует на тональных акценты, создавая фортепианную игру с заданной выразительностью.
Чтобы отразить взаимодействие между музыкальными элементами и их влияние на эмоции, в EMO-Disentanger предлагается новое функциональное представление символической музыки.
В этом представлении используются римские цифры для обозначения аккордов относительно тональности. Оно также декомпозирует высоту звука на октаву и градус по отношению к тональности, улучшая понимание связей между эмоциями, аккордами и мелодиями.
Партитурная модель и модель исполнения обучаются отдельно с использованием объемных наборов музыкальных данных без аннотаций к эмоциям, чтобы модель могла лучше понять музыку.
Затем обе модели настраиваются на основе датасета, промаркированного эмоциями, для изучения композиции и стилей исполнения, характерных для различных эмоциональных контекстов.
@ai_machinelearning_big_data
#AI #Music #ML
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍31🔥8❤6⚡1😢1