Zamba2-2.7B - это гибридная модель, состоящая из блоков пространства состояний (state-space) и трансформеров. Она сохраняет качество инференса модели 3-4В плотности, требуя при этом вычислительных ресурсов на уровне модели плотностью 1-2B.
Такие характеристики были получены за счет использования блоков Mamba2, чередования блоков внимания в схеме "А-В-А-В" и применения LoRA projector для каждого общего MLP-блока.
Zamba2-2.7B использует токенизатор Mistral v0.1 и была предварительно обучена на 3T токенов текста и кода, полученных из открытых источников, включая датасет Zyda.
По завершению обучения, модель была подвергнута дополнительной фазе агрессивного снижения скорости обучения на смеси из 100B высококачественных токенов.
Согласно заверению создателей, Zamba2-2.7B достигает лучших результатов среди моделей аналогичного масштаба, таких как Gemma2-2.7B, StableLM-3B, OpenELM-3B и Phi2-2.7B.
⚠️ Внимание:
Эксплуатация модели доступна с использованием Zyphra's fork of transformers или с помощью кода из репозитория разработчиков модели.
# Сlone and install
git clone https://github.com/Zyphra/Zamba2.git
cd Zamba2
pip install -e
# Install core mamba dependencies
pip install -U mamba-ssm causal-conv1d
# Inference
from mamba_model import MambaModel
from mamba_config import MambaConfig
import torch
from transformers import AutoTokenizer
tokenizer = AutoTokenizer.from_pretrained("Zyphra/Zamba2-2.7B")
input_text = 'A funny prompt would be '
input_ids = tokenizer(input_text, return_tensors="pt").to("cuda")["input_ids"].transpose(0,1)
model = MambaModel.from_pretrained(model_name = "Zyphra/Zamba2-2.7B").cuda().half()
tokens_to_generate = 20
model.eval()
with torch.no_grad():
for _ in range(tokens_to_generate):
out = model(input_ids)
out_last = out[:, -1]
idx = torch.argmax(out_last)[None, None]
input_ids = torch.cat((input_ids, idx), dim=0)
input_ids = input_ids.transpose(0, 1)[0]
print(repr(tokenizer.decode(input_ids.cpu().numpy().tolist())))
@ai_machinelearning_big_data
#AI #ML #SLM #Mamba
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤20👍14🥰2🎉2🤔1
This media is not supported in your browser
VIEW IN TELEGRAM
Возможности нейросети были протестированы на материалах «Мосфильма» и Российского государственного архива кинофотодокументов при подготовке сериала «Игры» об Олимпиаде-80. YandexART улучшила качество изображения и восстановила некоторые утраченные детали, включая элементы одежды, архитектуры и транспортных средств.
Разработчики Яндекса научили модель не «галлюцинировать». Благодаря поэтапному обучению на материалах низкого качества, YandexART превращает размытые и сильно сжатые кадры в контент с высокой детализацией объектов и текстур.
@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥56👍21❤3🥰3🤔3🌭2🥱1
InstantSplat - подход к реконструкции 3D-сцены по исходным изображениям с помощью Multi-View Stereo (MVS) и 3D Gaussian Splatting (3D-GS).
Методика InstantSplat использует выборку из самых дальних точек (FPS) в каждом вокселе, чтобы сохранить только самые надежные гауссианы для построения точного представления сцены.
Одновременное уточнение гауссовых атрибутов и параметров камеры с помощью фотометрических потерь позволяет добиться высокого качества рендеринга и точной оценки положения камеры без использования Adaptive Density Control (ADC). Для решения проблемы overparameterization, присущей 3D-GS, InstantSplat применяет confidence-aware point downsampler.
Алгоритм оптимизации в InstantSplat позволяет исправлять ошибки, накопленные на этапе MVS, в результате чего получается относительно точная и плотная 3D-модель.
По сравнению с релевантными современными методами (Nope-NeRF и CF-3DGS), InstantSplat предлагает более высокое качество рендеринга, более высокую точность оценки положения камеры при низких значениях Absolute Trajectory Error (ATE) и Relative Pose Error (RPE), при этом требует меньшего количества обучающих просмотров.
# Clone InstantSplat and download pre-trained model
git clone --recursive https://github.com/NVlabs/InstantSplat.git
cd InstantSplat
git submodule update --init --recursive
cd submodules/dust3r/
mkdir -p checkpoints/
wget https://download.europe.naverlabs.com/ComputerVision/DUSt3R/DUSt3R_ViTLarge_BaseDecoder_512_dpt.pth -P checkpoints/
# Install dependencies (modify CUDA version dep. of your system)
pip install pytorch torchvision pytorch-cuda=12.1 -c pytorch -c nvidia
pip install -r requirements.txt
pip install submodules/simple-knn
pip install submodules/diff-gaussian-rasterization
# modify the rasterizer
vim submodules/diff-gaussian-rasterization/cuda_rasterizer/auxiliary.h
'p_view.z <= 0.2f' -> 'p_view.z <= 0.001f' # line 154
# Optional but highly suggested, compile the cuda kernels for RoPE
cd submodules/dust3r/croco/models/curope/
python setup.py build_ext --inplace
# Data preparation OR download test pre-processed sample.
cd <data_path>
# InstantSplat train and output video (no GT reference, render by interpolation)
bash scripts/run_train_infer.sh
# InstantSplat train and evaluate (with GT reference)
bash scripts/run_train_eval.sh
@ai_machinelearning_big_data
#AI #ML #3D #Gaussian
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥23👍14❤4👏2😁1
Stable Fast 3D - модель и сервис, который позволяет генерировать 3D-активы из одного изображения.
Модель основана на TripoSR с значительными архитектурными улучшениями (запекание света, окрашивание вершин и marching cubes artifacts), позволяющими создавать высококачественные 3D-объекты, включая UV-развёртку, параметры материалов и альбедо с минимальным влиянием освещения.
В качестве источника используется загруженное пользователем изображение объекта, после чего модель генерирует полный 3D-объект и предлагает возможность дополнительной модификации сетки.
Stable Fast 3D доступен как для локальной установки, так и через API или с помощью он-лайн сервиса Stable Assistant.
Локальный запуск:
# Update setuptools
pip install -U setuptools==69.5.1
# For CLI-version of inference install requirements
pip install -r requirements.txt
# For Gradio UI of inference install requirements
pip install -r requirements-demo.txt
# CLI inference
python run.py demo_files/examples/chair1.png --output-dir output/
# run Gradio UI
python gradio_app.py
@ai_machinelearning_big_data
#AI #ML #3D #SatbilityAI
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍30❤12🔥5
⚡️ Новостной дайджест
✔️ Thermometer: метод, не позволяющий модели искусственного интеллекта быть слишком уверенной в неправильных ответах.
Thermometer - это вспомогательная модель, работающая поверх LLM для калибровки её уверенности при сохранении точности.
Метод использует классическую технику температурного масштабирования, позволяющую настраивать уровень уверенности модели в зависимости от её точности.
Вместо использования размеченных данных для каждой конкретной задачи, Thermometer обучается на ограниченном наборе задач, что позволяет ему обобщать и применять калибровку к новым задачам без необходимости в дополнительных размеченных данных. Thermometer требует меньше вычислительных ресурсов по сравнению с традиционными методами, которые часто неэффективны для универсальных моделей.
news.mit.edu
✔️ OpenAI анонсировала альфа-тестирование экспериментальной модели GPT-4o Long Output.
OpenAI GPT-4o Long Output предлагает значительно увеличенную максимальную длину вывода — до 64,000 токенов, что в 16 раз больше, чем у GPT-4o, ограниченной 4,000 токенами. Модель сохраняет общий контекстный лимит в 128,000 токенов.
Цены на GPT-4o Long Output: $6 за 1 миллион входных токенов и $18 за 1 миллион выходных токенов. Сроки публичной доступности не анонсированы.
openai.com
✔️ GenSQL: Использование LLM для структурированных данных.
GenSQL переводит запросы на естественном языке в исполняемые SQL-запросы, что облегчает применение SQL для пользователей без глубоких знаний синтаксиса.
Основные возможности GenSQL включают демократизацию доступа к данным, улучшение исследования данных и обработку сложных запросов.
Он может быть интегрирован в чат-ботов и виртуальных помощников, что даст возможность пользователю получать информацию о своих данных в интерактивной форме.
analyticsindiamag.com
✔️ AMD становится AI Chip компанией.
Согласно опубликованному финансовому отчету за второй квартал 2024 года, AMD демонстрирует значительный рост бизнеса в области центров обработки данных, который теперь составляет почти половину всех продаж компании.
В частности, продажи чипа AMD Instinct MI300, который конкурирует с популярным чипом Nvidia H100, достигли более $1 миллиарда за квартал.
AMD планирует продолжать выпуск новых AI-чипов ежегодно, включая MI325X в четвертом квартале 2024 года и MI350 в 2025 году.
ir.amd.com
✔️ StreamTinyNet: анализ многокадрового видео на устройствах Arduino-формата
StreamTinyNet анализирует несколько кадров видео одновременно, что повышает точность по сравнению с традиционными алгоритмами, которые работают только с одним кадром.
Фреймворк основан на сверточной нейронной сети, которая сначала обрабатывает каждый кадр индивидуально, извлекая важные характеристики и создавая их сжатое представление. Затем система анализирует извлеченные характеристики вместе, чтобы понять последовательность и временные изменения, что позволяет распознавать динамические жесты, такие как движения рук.
На платформе Arduino Nicla Vision с ограниченными вычислительными ресурсами алгоритм смог выполнять детекцию жестов со скоростью 15 кадров в секунду, используя всего около 300 килобайт оперативной памяти.
hackster.io
✔️ Полностью автоматизированный робот-стоматолог впервые в мире провел процедуру на человеке.
Робот компании Perceptive использует 3D-сканер, основанный на оптической когерентной томографии (OCT), для создания детальной 3D-модели полости рта, включая зубы и десны, без использования рентгеновских лучей. Система автоматически обнаруживает кариес с точностью около 90%, после чего врач-стоматолог обсуждает необходимые действия с пациентом, прежде чем робот берет на себя выполнение процедуры.
Первой задачей робота стало подготовка зуба под коронку, процедура, которая обычно занимает около двух часов, а с помощью робота выполняется за 15 минут. Perceptive утверждает, что их система может безопасно работать даже в условиях, когда пациент двигается, что было подтверждено тестами на движущихся людях.
newatlas.com
@ai_machinelearning_big_data
#news #ai #ml
Thermometer - это вспомогательная модель, работающая поверх LLM для калибровки её уверенности при сохранении точности.
Метод использует классическую технику температурного масштабирования, позволяющую настраивать уровень уверенности модели в зависимости от её точности.
Вместо использования размеченных данных для каждой конкретной задачи, Thermometer обучается на ограниченном наборе задач, что позволяет ему обобщать и применять калибровку к новым задачам без необходимости в дополнительных размеченных данных. Thermometer требует меньше вычислительных ресурсов по сравнению с традиционными методами, которые часто неэффективны для универсальных моделей.
news.mit.edu
OpenAI GPT-4o Long Output предлагает значительно увеличенную максимальную длину вывода — до 64,000 токенов, что в 16 раз больше, чем у GPT-4o, ограниченной 4,000 токенами. Модель сохраняет общий контекстный лимит в 128,000 токенов.
Цены на GPT-4o Long Output: $6 за 1 миллион входных токенов и $18 за 1 миллион выходных токенов. Сроки публичной доступности не анонсированы.
openai.com
GenSQL переводит запросы на естественном языке в исполняемые SQL-запросы, что облегчает применение SQL для пользователей без глубоких знаний синтаксиса.
Основные возможности GenSQL включают демократизацию доступа к данным, улучшение исследования данных и обработку сложных запросов.
Он может быть интегрирован в чат-ботов и виртуальных помощников, что даст возможность пользователю получать информацию о своих данных в интерактивной форме.
analyticsindiamag.com
Согласно опубликованному финансовому отчету за второй квартал 2024 года, AMD демонстрирует значительный рост бизнеса в области центров обработки данных, который теперь составляет почти половину всех продаж компании.
В частности, продажи чипа AMD Instinct MI300, который конкурирует с популярным чипом Nvidia H100, достигли более $1 миллиарда за квартал.
AMD планирует продолжать выпуск новых AI-чипов ежегодно, включая MI325X в четвертом квартале 2024 года и MI350 в 2025 году.
ir.amd.com
StreamTinyNet анализирует несколько кадров видео одновременно, что повышает точность по сравнению с традиционными алгоритмами, которые работают только с одним кадром.
Фреймворк основан на сверточной нейронной сети, которая сначала обрабатывает каждый кадр индивидуально, извлекая важные характеристики и создавая их сжатое представление. Затем система анализирует извлеченные характеристики вместе, чтобы понять последовательность и временные изменения, что позволяет распознавать динамические жесты, такие как движения рук.
На платформе Arduino Nicla Vision с ограниченными вычислительными ресурсами алгоритм смог выполнять детекцию жестов со скоростью 15 кадров в секунду, используя всего около 300 килобайт оперативной памяти.
hackster.io
Робот компании Perceptive использует 3D-сканер, основанный на оптической когерентной томографии (OCT), для создания детальной 3D-модели полости рта, включая зубы и десны, без использования рентгеновских лучей. Система автоматически обнаруживает кариес с точностью около 90%, после чего врач-стоматолог обсуждает необходимые действия с пациентом, прежде чем робот берет на себя выполнение процедуры.
Первой задачей робота стало подготовка зуба под коронку, процедура, которая обычно занимает около двух часов, а с помощью робота выполняется за 15 минут. Perceptive утверждает, что их система может безопасно работать даже в условиях, когда пациент двигается, что было подтверждено тестами на движущихся людях.
newatlas.com
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥23👍15❤4
rLLM (relationLLM) - библиотека PyTorch, разработанная для удовлетворения растущей потребность в эффективных и экономичных методах применения LLM к огромным объемам структурированных данных, хранящихся в реляционных базах данных.
rLLM достигает этой цели путем декомпозиции современных графовых нейронных сетей (GNN), LLM и табличных нейронных сетей (TNN) на стандартизированные модули. Такой подход позволяет быстро создавать новые RTL-модели путем объединения, выравнивания и совместного обучения этих модулей.
Парадигма "combine, align, co-train" позволяет гибко конструировать модели, адаптируясь к уникальным характеристикам различных наборов данных реляционных таблиц.
Библиотека включает в себя несколько слоев:
Чтобы продемонстрировать возможности rLLM, авторы представляют BRIDGE, простой RTL-метод, который использует TNN для обработки табличных данных и GNN для анализа отношений между таблицами на основе внешних ключей. BRIDGE сочетает сильные стороны обоих типов сетей для обучения на основе информации, содержащейся в реляционных базах данных.
Для исследовательских и обучающих целей rLLM предлагает коллекцию данных под названием SJTUTables, которая состоит из трех наборов данных реляционных таблиц:
@ai_machinelearning_big_data
#AI #ML #RTL #rLLM
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥17👍13❤8
Black Forest Labs, компания, основанная командой разработки, покинувшей SatbilityAI (Stable Diffusion) опубликовала пресс-релиз с презентаций своего семейства GenAI моделей FLUX версии 1.
Представленное семейство FLUX.1 определяет новый уровень детализации изображения, точного следования промпту, разнообразия стилей и сложности сцен для синтеза текста в изображение.
Каждая вариация семейства FLUX.1 поддерживают популярные соотношения сторон и разрешения от 0,1 (128х) до 2,0(2048х) мегапикселя.
FLUX.1 выпускается в трех вариантах: FLUX.1 pro, FLUX.1 dev и FLUX.1 schnell:
Код инференса можно найти на Github проекта или использовать поддержку модели в ComfyUI.
Все модели FLUX.1 основаны на гибридной архитектуре мультимодальных и параллельных блоков трансформеров диффузии и масштабированы до 12B параметров.
Улучшения предыдущих диффузионных моделей проведено за счет использования согласования потоков - концептуально простого метода обучения, который включает диффузию как частный случай.
Повышение производительности модели и эффективность использования аппаратного обеспечения получено за счет использования rotary positional embeddings и параллельных слоев внимания.
Более подробный технический отчет разработчики обещают опубликовать в ближайшем будущем.
Локальный запуск с автозагрузкой моделей dev и schell с выводом cli или с UI Streamlit:
# Clone repo and install dependences
cd $HOME && git clone https://github.com/black-forest-labs/flux
cd $HOME/flux
python3.10 -m venv .venv
source .venv/bin/activate
pip install -e '.[all]'
# Download dev or schnell automatically via HuggingFace you will need to be logged in HF
# For manual downloaded models you can specify the paths via environment-variables:
export FLUX_SCHNELL=<path_to_flux_schnell_sft_file>
export FLUX_DEV=<path_to_flux_dev_sft_file>
export AE=<path_to_ae_sft_file>
# For cli interactive sampling run
python -m flux --name <name> --loop
# Or to generate a single sample run
python -m flux --name <name> \
--height <height> --width <width> \
--prompt "<prompt>"
# streamlit demo that does both text-to-image and image-to-image
streamlit run demo_st.py
@ai_machinelearning_big_data
#AI #FLUX #Diffusers #Text2Image #Image2Image #GenAI
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍30🔥9❤5🤔2🙏1
🔥 Новостной дайджест
✔️ В Google Cloud появился специальный кластер GPU Nvidia для стартапов Y Combinator.
Google Cloud предоставил для стартапов Y Combinator доступ к субсидированным вычислительным ресурсам для разработки AI-моделей. В рамках этого партнерства стартапы, участвующие в программе YC Summer 2024, получат $350,000 в виде облачных кредитов на два года.
Кроме этого, Google предложит стартапам $12,000 в виде кредитов на улучшенную поддержку и бесплатный год использования Google Workspace Business Plus. Это сотрудничество также включает возможность общения с внутренними AI-экспертами Google через ежемесячные консультации.
techcrunch.com
✔️ aiOla выпустила сверхбыструю модель распознавания речи.
Израильский стартап aiOla представил открытую модель распознавания речи "Whisper-Medusa", которая работает на 50% быстрее, чем модель OpenAI Whisper. Whisper-Medusa использует архитектуру Multi-Head Attention, что позволяет ей одновременно предсказывать до десяти токенов за один проход.
Веса и код опубликованы на Github и Huggingface.
Сведений о поддерживаемых языках и планов развития мультиязычности не публиковалось.
aiola.com
✔️ Mixture of Nested Experts (MoNE): фреймворк компьютерного зрения для адаптивной обработки визуальных маркеров путем динамического распределения.
Исследование, опубликованное Google DeepMind, предлагает метод, при котором MoNE динамически распределяет вычислительные ресурсы, направляя токены к различным вложенным экспертам в зависимости от их важности, что позволяет обрабатывать избыточные токены с помощью менее сложных моделей, а более важные — с помощью более мощных.
Архитектура MoNE использует многоуровневую структуру экспертов с различной вычислительной мощностью и применяет алгоритм Expert Preferred Routing (EPR) для динамической маршрутизации токенов.
На наборе данных ImageNet-21K модель продемонстрировала точность 87.5%, а в задачах классификации видео MoNE показала снижение вычислительных затрат в два-три раза при сохранении точности традиционных методов.
synthical.com
✔️ Vidu: крупномасштабный сервис генерации видео стал доступен за пределами Китая при поддержке Baidu.
Vidu позволяет преобразовывать текст в видео и изображения в видео, предлагая длительности 4 и 8 секунд при максимальном разрешении 1080P. Модель демонстрирует высокую динамичность, реалистичность и последовательность, а также новые функции, такие как генерация анимационного стиля и эффекты для изображений.
Для обучения модели Vidu используется платформа AIHC от Baidu. AIHC управляет ресурсами на разных уровнях, достигая эффективности обучения более 98.8% на кластере из десяти тысяч карт.
pandaily.com
@ai_machinelearning_big_data
#news #ai #ml
Google Cloud предоставил для стартапов Y Combinator доступ к субсидированным вычислительным ресурсам для разработки AI-моделей. В рамках этого партнерства стартапы, участвующие в программе YC Summer 2024, получат $350,000 в виде облачных кредитов на два года.
Кроме этого, Google предложит стартапам $12,000 в виде кредитов на улучшенную поддержку и бесплатный год использования Google Workspace Business Plus. Это сотрудничество также включает возможность общения с внутренними AI-экспертами Google через ежемесячные консультации.
techcrunch.com
Израильский стартап aiOla представил открытую модель распознавания речи "Whisper-Medusa", которая работает на 50% быстрее, чем модель OpenAI Whisper. Whisper-Medusa использует архитектуру Multi-Head Attention, что позволяет ей одновременно предсказывать до десяти токенов за один проход.
Веса и код опубликованы на Github и Huggingface.
Сведений о поддерживаемых языках и планов развития мультиязычности не публиковалось.
aiola.com
Исследование, опубликованное Google DeepMind, предлагает метод, при котором MoNE динамически распределяет вычислительные ресурсы, направляя токены к различным вложенным экспертам в зависимости от их важности, что позволяет обрабатывать избыточные токены с помощью менее сложных моделей, а более важные — с помощью более мощных.
Архитектура MoNE использует многоуровневую структуру экспертов с различной вычислительной мощностью и применяет алгоритм Expert Preferred Routing (EPR) для динамической маршрутизации токенов.
На наборе данных ImageNet-21K модель продемонстрировала точность 87.5%, а в задачах классификации видео MoNE показала снижение вычислительных затрат в два-три раза при сохранении точности традиционных методов.
synthical.com
Vidu позволяет преобразовывать текст в видео и изображения в видео, предлагая длительности 4 и 8 секунд при максимальном разрешении 1080P. Модель демонстрирует высокую динамичность, реалистичность и последовательность, а также новые функции, такие как генерация анимационного стиля и эффекты для изображений.
Для обучения модели Vidu используется платформа AIHC от Baidu. AIHC управляет ресурсами на разных уровнях, достигая эффективности обучения более 98.8% на кластере из десяти тысяч карт.
pandaily.com
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍21❤4🔥3🎉3
LYNX - первая модель обнаружения галлюцинаций с открытым исходным кодом. Она представляет собой результат тонкой настройки Llama-3-70B-Instruct на комплексном датасете из разных областей, включая финансы и медицину, с акцентом на сложные сценарии реальных запросов и инференса.
Данные обучения включают примеры из RAGTruth, DROP, CovidQA и PubMedQA, с 300 образцами на источник, предварительно прошедшими perturbed-обработку для создания "галлюцинирующих" ответов.
Процесс обучения использовал цепочку мышления с GPT-4о для улучшения возможностей рассуждения.
Были обучены два варианта моделей: Lynx 70B и Lynx 8B.
Для использования в Ollama, llama.cpp и LM Studio были созданы квантированные 4-bit GGUF версии моделей Lynx 8B и 70B соответственно.
Чтобы облегчить оценку работы модели, разработчики предлагают HaluBench, бенчмарк галлюцинаций, содержащий 15 000 маркерных образцов, полученных из датасетов: DROP, FinanceBench, COVID-QA, PubMedQA, HaluEval и RAGTruth.
Для моделирования галлюцинации, HaluBench использует технику perturbed, при которой генерируются семантически измененные ответы, сохраняя минимальные отличия от первоначального ответа. Этот метод выполняет генерацию сложных примеров, которые могут быть неправильно истолкованы как верные, несмотря на несоответствия контексту.
⚠️ Lynx фокусируется исключительно на оценке внутренней галлюцинации, которая оценивает согласованность сгенерированного текста с предоставленным контекстом. Оценка внешних факторов галлюцинаций выходит за рамки функционала модели.
Lynx может быть запущен несколькими способами: с помощью Ollama, llama.cpp, LM Studio, в виде локального инференса или как интеграция с NVIDIA NeMo-Guardrails:
# Install local environment:
python -m venv .venv
source .venv/bin/activate
pip install --upgrade pip
pip install poetry==1.8.1
poetry update
poetry install
# Install pre-commit in your teminal and run:
pre-commit install
#Copy .env.example to .env and replace values for environmental variables.
#Установки Inference и Finetuning на mcli и vLLM описаны в файлах:
# mcli/mcli_finetuning.md
# mcli/mcli_inference.md
# mcli/vllm_inference.md
@ai_machinelearning_big_data
#AI #Lynx #RAG #HallucinationDetection #LLM
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍23❤7🔥3⚡1
Alibaba запустила проект генерации видео под названием Tora, которая поддерживает комбинацию траектории, текста и изображений, дает высокую точность и управляемость при генерации видео.
Tora представляет два новых модуля обработки движений: модуль выделения траектории и модуль управления движением. Также, она поддерживает управление начальным и конечным кадром, что гарантирует консистентность процесса генерации видео.
В планах опубликование: демо на Huggingface, код инференса и обучения. Сроки не называются.
Страница проекта, технический отчет исследования и репозиторий на Github.
Particle представила Tachyon, новую одноплатную компьютерную систему (SBC), основанную на процессоре Qualcomm Snapdragon, c поддержкой 5G и собственным AI-ускорителем. Устройство имеет форму, схожую с Raspberry Pi, и оснащено восьмиядерным процессором Kryo с тактовой частотой до 2.7 ГГц, 4 ГБ оперативной памяти и 64 ГБ встроенной памяти UFS.
Tachyon предлагает поддержку текстового и графического интерфейсов, а также интеграцию с Raspberry Pi через 40-контактный GPIO, два USB-C 3.1 порта.
Одноплатник будет поставляться с Ubuntu 24.04. Розничная цена на Tachyon будет составлять $249 ( $149 за "суперранний" уровень финансирования на Kikstarter сейчас).
Ожидается, что первые поставки начнутся в январе 2025 года.
tomshardware.com
Новая функция позволяет пользователям автоматически переводить аудиодорожки и субтитры на более чем 30 языков, что значительно ускоряет процесс адаптации видео для международной аудитории. Так же заявлена функция редактирования переведенных субтитров, чтобы пользователи могли улучшать качество перевода по мере необходимости.
С запуском новых функций Vimeo планирует привлечь больше бизнес-клиентов, предоставляя им эффективные инструменты для создания и распространения контента на глобальном уровне.
vimeo.com
"Global AI Adoption Index" от IBM показывает, что Индия и ОАЭ являются лидерами в глобальном внедрении искусственного интеллекта и генеративного ИИ.
42% опрошенных компаний уже интегрировали AI в свои бизнес-модели, при этом почти все предприятия увеличивают свои инвестиции в AI-решения. Основные отрасли - автомобилестроение, производство и финансовые услуги.
В ОАЭ 52% IT-специалистов сообщили о стратегии внедрения AI в своих организациях, в то время как в Индии этот показатель составляет 42%. Наиболее распространенные области применения AI включают автоматизацию IT-процессов, обнаружение угроз и управление.
consultancy-me.com
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍22❤4🔥4