trl-X - метод, который позволяет управлять структурой и внешним видом изображений, создаваемых диффузионными моделями без необходимости дополнительного обучения или использования инструкций.
Ctrl-X предлагает управляемую генерацию, разделяя ее на две основные составляющие: сохранение пространственной структуры и семантически-осведомленный перенос стиля.
Для управления структурой используется прямая инъекция признаков сверточных слоев и карт внимания из входного изображения, который задает структуру.
Для переноса внешнего вида c входного источника применяется метод, основанный на статистике признаков, который учитывает пространственное соответствие между исходным и генерируемым изображениями.
Анализ карт внимания позволяет выявить семантические соответствия между ними и перенести стилистические характеристики с учетом их пространственного расположения.
Метод Ctrl-X не привязан к конкретным моделям и может применяться к любым диффузионным моделям T2I (текст-изображение) и T2V (текст-видео).
Программная реализация Ctrl-X на модели Stable Diffusion XL 1.0 поддерживает запуск с Gradio UI и инференс в CLI.
В обоих типах запуска Ctrl-X (Gradio и CLI) предусмотрена возможность оптимизации потребления VRAM : ключи запуска
cpu_offload
и disable_refiner
.Примерная утилизация VRAM для Gradio с использованием оптимизации выглядит следующим образом:
# Clone the repository
git clone https://github.com/genforce/ctrl-x.git
# Create Conda environment
conda env create -f environment.yaml
conda activate ctrlx
# Run Gradio Demo
python app_ctrlx.py
# or run CLI inference
python run_ctrlx.py \
--structure_image assets/images/horse__point_cloud.jpg \
--appearance_image assets/images/horse.jpg \
--prompt "a photo of a horse standing on grass" \
--structure_prompt "a 3D point cloud of a horse"
@ai_machinelearning_big_data
#AI #ML #Diffusers #CtrlX
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍34🔥9❤8🥱2
Система HMAХ анализирует данные, собираемые с поездов, чтобы предсказывать оптимальное время для замены деталей. Это первый коммерческий продукт Hitachi, использующий ИИ для обслуживания железных дорог, и он уже работает на некоторых маршрутах в Великобритании и Италии.
HMAX использует GPU от NVIDIA для мгновенного анализа изображений и данных о температуре и вибрации. Этот анализ позволяет проводить техобслуживание по мере износа узлов и повышает безопасность поездок.
kyodonews.net
OpenFinLLM Leaderboard - рейтинг LLM для финансовых задач. Он оценивает модели на 40 задачах в 7 категориях: извлечение информации, текстовый анализ, вопросы и ответы, генерация текста, управление рисками, прогнозирование и принятие решений. Для оценки используются метрики: точность, F-меру, ROUGE и коэффициент корреляции Мэтьюза.
С момента запуска в рейтинге лидируют модели GPT-4 и Llama 3.1, показавшие высокую точность в задачах по анализу финансовых настроений. В задачах финансового прогнозирования компактные модели Llama-3.1-7b и internlm-7b превосходят более крупные модели.
huggingface.co
MongoDB представила обновлённую версию 8.0 своей базы данных линейки Enterprise и облачного сервиса Atlas. Обновления обещают увеличить пропускную способность на 32%, ускорить пакетную запись на 56% и повысить скорость параллельной записи на 20%.
Для решения проблем, связанных с быстрым развитием ИИ, неопределённостью в выборе технологий и нехваткой навыков, MongoDB запустила программу MongoDB AI Application Program (MAAP).
Компания планирует создать глобальную экосистему партнёров, которые будут устанавливать отраслевые стандарты для решений на основе ИИ, сотрудничая с Microsoft Azure, Google Cloud Platform, Amazon Web Services, Accenture, Anthropic и Fireworks AI.
Уже реализованы коммерческие решения для «французской автомобильной компании» и «глобального производителя бытовой техники».
iteuropa.com
Исследователи из Университета Джона Хопкинса представили RATIONALYST - модель на базе LLaMa-3-Instruct-8B, разработанную для улучшения логических возможностей LLM за счет неявных логических обоснований, полученных из немаркированных текстовых данных. Rationalyst генерирует и фильтрует обоснования на основе подсказок-примеров, фиксируя основные схемы рассуждения для новых текстов.
Обученный на 79 000 неявных обоснованиях, Rationalyst отслеживает пошаговые решения проблем, генерируя обоснования для каждого этапа, чтобы направлять выбор оптимальных следующих шагов. При оценке различных логических задач RATIONALYST добился повышения точности в среднем на 3,9%, превзойдя GPT-4.
arxiv.org | Github.com
Networking Pro A7 Elite - новый чип для маршрутизаторов и сетевых устройств. Чип основан на новом стандарте Wi-Fi 7. A7 Elite может управлять до 16 потоками данных, это вдвое больше возможности предыдущей версии стандарта. A7 Elite преобразует данные с помощью 4096-QAM, технологии, которая кодирует на 20% больше информации в каждом импульсе по сравнению с методом в Wi-Fi 6.
Другая новая функция, MLO, позволяет маршрутизатору Wi-Fi 7 распределять соединение по нескольким радиочастотным диапазонам. Qualcomm утверждает, что маршрутизаторы, оснащенные A7 Elite, могут обеспечить пропускную способность до 33 ГБ\с.
A7 Elite интегрирован с сопроцессором ИИ, который имеет максимальную производительность 40 TOPS. Этот сопроцессор позволяет устройствам Wi-Fi, оснащенным A7 Elite, запускать модели ИИ локально. Qualcomm предлагает библиотеку из 100 предварительно оптимизированных моделей ИИ, чтобы упростить разработку программного обеспечения для производителей сетевого оборудования.
siliconangle.com
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍29❤7🔥4
Python 3.13, спустя ровно год с начала разработки, выпущен в релиз. Поддержка версии 3.13 планируется в течение 1.5 лет, и, после окончания этого срока еще 3.5 года версия будет получать критические обновления, связанные с безопасностью.
Ключевые изменения:
–enable-experimental-jit
;–without-gil
;locals()
для функций, генераторов и сопрограмм;mimalloc
от Microsoft;docstring
;dbm
реализован бэкенд dbm.sqlite3
по умолчанию для новых файлов;typing.TypeIs
стала более интуитивной, чем typing.TypeGuard
;typing.ReadOnly
позволяет помечать элементы TypeDicts
, доступные только для чтения;warnings.deprecated()
добавлена для указания устаревших элементов в системе типов;ifc, audioop, chunk, cgi, cgitb, crypt, imghdr, mailcap, msilib, nis, nntplib, ossaudiodev, pipes, sndhdr, spwd, sunau, telnetlib, uu, xdrlib и lib2to3
из стандартной библиотеки;copy
добавлена copy.replace()
;os
добавлены функции для работы с таймером через timerfd
;random
получил интерфейс CLI;Git выпустил Git 2.47 с функциями и исправлениями ошибок от более чем 83 разработчиков, 28 из которых - новые.
В этой версии основное внимание уделяется повышению производительности и улучшению пользовательского опыта.
Основные изменения:
for-each-ref
помогает определять базовую ветвь коммита, сводя к минимуму уникальные коммиты от первого родителя и упрощая идентификацию;DEVELOPER=1
наличие неиспользуемых параметров является ошибкой времени компиляции;reftable
, обновление платформы модульного тестирования, усовершенствование git fsck
и интеграция кода Visual Studio с git mergetool
.@ai_machinelearning_big_data
#AI #ML #Python #Git #Release
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍43🔥11❤9
Устройство будет построено на базе аппаратного ускорителя машинного обучения Intel Gaudi 3 и будет работать под управлением Inflection 3.0, новейшей LLM от Inflection AI. Inflection 3.0 будет доступна в двух версиях: одна для чат-ботов, а другая — для задач, требующих точного следования инструкциям пользователя.
Последняя также сможет предоставлять ответы в формате JSON, для расширения возможностей интеграции с другими приложениями.
По заявлению Inflection AI, их ПО на процессорах Intel может работать вдвое эффективнее, чем на процессорах некоторых конкурентов. Выпуск устройства запланирован на первый квартал 2025 года.
siliconangle.com
Издательский дом Hearst объявил о новом партнерстве с компанией OpenAI, в рамках которого контент газет и журналов Hearst будет интегрирован в продукты OpenAI. Соглашение охватывает более 20 журналов: Esquire, Cosmopolitan, ELLE и Runner’s World и более 40 газет.
Интеграция контента Hearst в продукты OpenAI позволит пользователям ChatGPT получать более широкий спектр информации: местные новости, мода, дизайн, здоровье, фитнес и автомобили.
Контент Hearst в ChatGPT будет сопровождаться соответствующими ссылками на оригинальные источники. Цель партнерства — повысить достоверность информации в продуктах OpenAI и обеспечить доступ к высококачественной журналистике.
openai.com
Министерство торговли США объявило конкурс с бюджетом до 100 миллионов долларов на разработку экологически чистых материалов и процессов для производства полупроводников с использованием ИИ.
Проект направлен на сокращение времени и ресурсов для создания новых материалов и фокусируется на AI/AE, объединяющем машинное обучение и автоматизированные лаборатории.
Внедрение AI/AE ускорит поиск и синтез материалов не только в полупроводниковой промышленности, но и в других областях, - энергетике, аэрокосмической и оборонной промышленности, биологии, химии и фармацевтики.
asiatimes.com
Baige 4.0 контролирует кластеры GPU, автоматически обнаруживая сбои и перенося рабочие нагрузки для предотвращения простоев. С его применением эффективность обучения LLM достигла 99,5%, что на 30% выше средних показателей по отрасли благодаря улучшениям в проектировании кластеров, планировании заданий и оптимизации VRAM. Платформа поддерживает кластеры до 100 000 графических процессоров.
Baidu также обновила платформу Qianfan Foundation Model до версии 3.0, обеспечивая доступ к почти 100 крупным моделям, включая ERNIE, и снизилая стоимость инференса моделей более чем на 90%.
analyticsindiamag.com
Веб-приложение Content Authenticity, выход бета-версии которого запланирован на первый квартал 2025 года, позволит помечать изображения, видео и аудиофайлы атрибутивными метаданными: имя автора, веб-сайт и страницы в социальных сетях.
Ключевой особенностью приложения является возможность запретить использование контента для обучения генеративных моделей ИИ. Метаданные, добавляемые приложением, будет сложно удалить, и они должны сохраняться даже на скриншотах. Приложение Content Authenticity станет ответом на опасения авторов по поводу несанкционированного использования их работ.
adobe.com
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍17❤13🔥3👏3😐1
Всего полтора года назад казалось, что запустить локально языковую или генеративную модель было чем-то из области фантастики, доступной немногим. Тогда было всего несколько самописных вариантов вариантов, и каждый из них требовал знаний, усилий и ресурсов.
Но время шло, и сфера фреймворков для инференса начала развиваться с невероятной скоростью. Появились новые фреймворки и инструменты, библиотеки, интерфейсы для запуска любых моделей на чем угодно.
Сегодня мы имеем десятки вариантов для инференса LLM, от простых и удобных фреймворков до сложных и требовательных систем. Выбор стал настолько широким, что теперь можно подобрать инструмент под конкретную задачу.
Это настоящая революция, которую мы не замечаем, и она происходит прямо на наших глазах. Интересно будет посмотреть. во что это выльется еще через полтора года.
Проект, написаный на С++, позволяет запускать LLM, VLM, MMLM на СUDA, AMD, NPU, Metal. Наиболее распространенные реализации - ollama и LMStudio.
Развертывание LLM на WebGPU. Самая быстрая реализация LLM на WebGPU из существующих на сегодняшний день.
Самый быстрый фреймворк для Mac. Поддерживает GenAI (Flux, SDXL и др.), speech-2-text (Whisper), LLM.
Минималистичный кроссплатформенный ML-фреймворк от Huggingface, написанный на Rust. Поддерживает работу с GPU и прост в использовании.
Фреймворк для запуска моделей напрямую в браузере, без сервера. Написан на Javascript (WebGPU) поверх ONNXruntimeweb.
Кроссплатформенный инструментарий от Huggingface для WebGPU/CPU инференса с поддержкой запуска квантованных версий моделей Whisper, Phi 2 & 3 и Moondream. Написан на Rust.
Кросплатформенный фреймворк с возможностью распределенного запуска модели на разных платформах (CUDA, ROCm и Cloud). Написан на Zig.
Простой и эффективный фреймворк для работы с GPU на C++. Работает с CUDA, AMD, Intel GPU, Metal за счет WebGPU.
@ai_machinelearning_big_data
#AI #ML #LLM #Frameworks
Please open Telegram to view this post
VIEW IN TELEGRAM
👍43❤8🔥6😁1
LeLaN - метод, использующий модели Owl-ViT2 и OpenVLA для маркировки видеоданных из реальной среды с помощью языковых инструкций для навигации по объектам.
Политика навигации по объектам, обученная на этих данных, показала высокие результаты в задаче навигации по незнакомым объектам в разных условиях: внутри и снаружи помещений.
LeLaN использует аннотации VLM для маркировки видеоданных из различных источников: наборы данных о навигации роботов, видеоролики с экскурсиями с YouTube и данные из носимых видеорегистраторов. Эти аннотации предоставляют инструкции, охватывающие широкий спектр объектов с разной степенью детализации в их описаниях.
В процессе обучения политика навигации оптимизируется по трем направлениям:
После обучения LeLaN была проведена серия экспериментов из более 1000 испытаний, проведенных в реальных условиях.
Результаты показывают, что LeLaN превосходит существующие методы zero-shot политик навигации по способности ориентироваться в различных средах, надежности в условиях нечетких команд, способности следовать за пешеходами и навыке избегать столкновений.
Код, предлагаемый в репозитории LeLaN, разбит на две части: обучение модели на собственных данных и локальное развертывание с предварительно обученными моделями LeLaN на роботизированной платформе с NVIDIA Jetson Orin.
# Clone repository:
git clone https://github.com/NHirose/learning-language-navigation.git
# Set up the conda env:
conda env create -f train/train_lelan.yml
conda activate lelan
# Install the lelan packages:
pip install -e train/
# Install the `diffusion_policy` package:
git clone [email protected]:real-stanford/diffusion_policy.git
pip install -e diffusion_policy/
# Training lelan w/o collision avoidance
python train.py -c ./config/lelan.yaml
@ai_machinelearning_big_data
#AI #ML #LLM #Navigation #Robotics
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤20👍11🔥5
Fitbit Labs, новая программа от Google Fitbit, использует Google Gemini для анализа данных о сне, активности и сердечном ритме пользователей, формируя им ценную информацию о своем здоровье.
Первая функция Labs - "проводник по аналитике" - предоставляет ответы на вопросы о здоровье и выявляет тенденции в данных пользователей. Доступ к Labs открыт для ограниченного числа пользователей Fitbit, которые могут присоединиться к программе, выбрав соответствующий пункт во вкладке "Вы" в приложении Fitbit.
phonearena.com
Foxconn строит у себя на родине самый мощный суперкомпьютер на базе чипов Nvidia Blackwell. Суперкомпьютер Hon Hai Kaohsiung Super Computing Center будет построен на базе графических процессоров Nvidia Blackwell, оснащен 64 стойками GB200 NVL72 и 4608 ядрами Tensor Core. Общая расчетная производительность составит более 90 экзафлопс.
Foxconn планирует использовать суперкомпьютер для исследований рака, разработки больших языковых моделей и инноваций для "умных городов", чтобы вывести Тайвань в мировые лидеры отрасли ИИ.
Первая фаза проекта будет запущена в середине 2025 года, а полное развертывание суперкомпьютера запланировано на 2026 год.
venturebeat.com
OpenAI-Gradio предоставляет возможность создать веб-приложения с ИИ, используя всего несколько строк кода. Для запуска необходимо установить пакет из pip и указать OpenAI API KEY.
OpenAI-Gradio позволяет настраивать внешний вид и функциональность веб-приложений, используя возможности Gradio. Например, можно создавать пользовательские компоненты ввода и вывода, добавлять описания и примеры использования, а также интегрировать LLM в более крупные веб-интерфейсы Gradio.
OpenAI-Gradio поддерживает GPT-4-turbo, GPT-3.5-turbo и GPT-3.5-turbo-16k.
github.com
Процессор, предположительно, войдет в фазу пробного производства уже в этом месяце, а массовый выпуск запланирован на конец 2025 года. Ожидается, что новый процессор будет работать в паре с графическим процессором Nvidia и будет ориентирован на использование в готовых ПК Lenovo, Dell, HP и Asus.
Предполагаемая цена чипа составит около 300 долларов. Nvidia и MediaTek уже сотрудничают в рамках платформы Dimensity Auto Cockpit, предназначенной для автомобилей и использующей графические технологии Nvidia и Nvidia Drive OS.
tomshardware.com
O’Reilly опубликовала первые главы нового руководства «Жизненный цикл разработки ПО с использованием ИИ» (The AI-Enabled SDLC).
В руководстве, написанном техническим директором Tabnine Эраном Яхавом и основателем Tech Skills Transformations Брентом Ластером, описывается как ИИ меняет каждый этап жизненного цикла разработки ПО.
В первых главах, доступных бесплатно для подписчиков O’Reilly, описывается влияние ИИ на планирование, написание кода, тестирование, исправление кода, а также повышение безопасности и производительности.
В книге также рассматриваются распространенные ошибки и риски, связанные с использованием ИИ в разработке, и предлагаются стратегии интеграции ИИ для повышения эффективности разработчиков и качества кода.
streetinsider.com
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥15👍12❤6✍2
OpenMathInstruct-2 состоит из 14 млн. пар "вопрос-решение" (примерно 600 тысяч уникальных вопросов) и является одним из крупнейших общедоступных наборов данных для обучения LLM в математике.
Набор данных создан на основе Llama-3.1-405B-Instruct путем синтеза решений для существующих вопросов из наборов данных MATH и GSM8K и генерации новых задач и решений.
Результаты абляционных экспериментов, которые проводились для поиска оптимальных параметров синтеза, показали, что:
Итоговые данные, включенные в датасет прошли тщательную деконтаминацию с использованием конвейера
lm-sys
и ручной проверки на поиск дубликатов с тестовыми наборами данных. OpenMathInstruct-2 показал высокую эффективность при обучении LLM.
Модель Llama3.1-8B-Base, обученная на OpenMathInstruct-2, превзошла Llama3.1-8B-Instruct на 15,9% по точности на наборе данных MATH, а OpenMath2-Llama3.1-70B обошла Llama3.1-70B-Instruct на 3,9%.
Датасет выпущен в 3-х размерностях: полный набор (примерно 7.5 GB) и уменьшенные версии train_1M (640 Mb), train_2M (1.3 Gb) и train_5M (3.1 Gb).
@ai_machinelearning_big_data
#AI #ML #LLM #MATH #NVIDIA #Dataset
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍18❤11🔥4
NumPy-QuadDType (
numpy_quaddtype
) — это реализация пользовательского типа данных (dtype
) для NumPy, которая обеспечивает настоящую арифметику с плавающей точкой четверной точности на разных платформах. Проект направлен на решение давних проблем с
np.longdouble
, предлагая согласованный, высокоточный тип с плавающей точкой независимо от базовой архитектуры системы, а также обеспечивая обратную совместимость long double
.Ядро numpy_quaddtype построено вокруг на двух ключевых компонентов:
QuadPrecision
, представляющий отдельные скаляры четверной точности;QuadPrecDType
, позволяющий использовать эти скаляры четверной точности в массивах и операциях NumPy.Отличительная черта numpy_quaddtype - его подход с двойным бэкэндом:
Sleef_quad
из библиотеки SLEEF, предоставляя настоящую 128-битную учетверенную точность.long double
, который может обеспечивать точность до 80 бит в некоторых системах, обеспечивая совместимость с np.longdouble
.Гибкость архитектуры
numpy_quaddtype
наследуется от компонентов ее ядра: QuadPrecisionObject
, хамелеоноподобная структура, которая может переключаться между формами:typedef union {
Sleef_quad sleef_value;
long double longdouble_value;
} quad_value;
typedef struct {
PyObject_HEAD
quad_value value;
QuadBackendType backend;
} QuadPrecisionObject;
QuadPrecDTypeObject
, который действует как мост, позволяя высокоточным числам гармонично работать в массивах и операциях NumPy:typedef struct {
PyArray_Descr base;
QuadBackendType backend;
} QuadPrecDTypeObject;
Он позволяет переключаться между бекэндами Sleef_quad (для SLEEF) и long double во время выполнения:
>>> import numpy as np
>>> import numpy_quaddtype as npq
# Using SLEEF backend (default)
>>> x = npq.QuadPrecision(3.5)
>>> x = npq.QuadPrecision(3.5, backend='sleef')
>>> repr(x)
QuadPrecision('3.5e+000', backend='sleef')
# Using longdouble backend
>>> y = npq.QuadPrecision(2.5, backend='longdouble')
>>> repr(y)
QuadPrecision('2.5e+000', backend='longdouble')
# Creating a NumPy array with QuadPrecision dtype
>>> z = np.array([x, x], dtype=npq.QuadPrecDType()) # SLEEF
>>> print(z)
[QuadPrecision('3.5e+000', backend='sleef')
QuadPrecision('3.5e+000', backend='sleef')]
>>> z = np.array([y, y], dtype=npq.QuadPrecDType("longdouble")) # longdouble
>>> print(z)
[QuadPrecision('2.5e+000', backend='longdouble')
QuadPrecision('2.5e+000', backend='longdouble')]
В тестах
numpy_quaddtype
с бэкендом SLEEF показал точность в 34 десятичных знаков. ULP (единица в младшем разряде) для основных арифметических операций ≤ 0,5000000001
, а для трансцендентных функций ≤ 1,0. C бэкендом Long Double показал точность, зависящую от платформы: 18-19 десятичных знаков в Linux и 15-17 в Windows.
В настоящее время ведётся подготовка к выпуску
numpy_quaddtype
в виде пакета Python, доступного через PyPI и conda. Также планируется направить предложение NEP для интеграции numpy_quaddtype
в экосистему NumPy и рассмотреть TLFloat
как потенциальную замену SLEEF в будущих версиях.numpy_quaddtype
на примере визуализации множества Мандельброта при экстремальном увеличении и моделирование квантового гармонического осциллятора для двухатомных молекул.@ai_machinelearning_big_data
#AI #ML #DS #Python #NumPy
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥19👍13❤6🌚3
Ученые из Penn State разработали электронный язык, способный различать жидкости - молоко с разным содержанием воды, различные виды соды и кофе, а также определять свежесть соков и потенциальные проблемы с безопасностью пищевых продуктов.
Язык использует графеновый ионно-чувствительный транзистор, подключенный к нейронной сети. ИИ сначала оценивал жидкости по 20 заданным параметрам, достигнув точности более 80%. Однако, когда ИИ самостоятельно определял параметры оценки, точность возросла до 95%.
Исследователи использовали метод Shapley Additive Explanations, чтобы понять, как ИИ принимает решения, и обнаружили, что он учитывает более тонкие характеристики данных. По словам исследователей, возможности языка ограничены только данными, на которых он был обучен.
psu.edu
Google представила новую большую языковую модель Tx-LLM, разработанную для прогнозирования свойств биологических объектов на всех этапах разработки лекарств. Tx-LLM обучена на 66 наборах данных, охватывающих задачи от ранней идентификации целевых генов до утверждения клинических испытаний на поздних стадиях.
Модель Tx-LLM, построенная на базе PaLM-2, достигла конкурентоспособных результатов по сравнению с современными моделями, превзойдя их в 22 из 66 задач. Tx-LLM продемонстрировала способность эффективно объединять молекулярную информацию с текстовой и переносить знания между задачами с различными типами терапии.
Google планирует предоставить доступ к Tx-LLM внешним исследователям для ускорения процесса разработки лекарств.
research.google
Tesla проводит мероприятие под названием «Мы, роботы», 10 октября в 19.00 EPT (2:00 11 октября GMT) на котором, как ожидается, будет представлен дизайн роботакси - автомобиля Tesla, предназначенного исключительно для перевозки пассажиров без водителя.
На мероприятии также может быть представлен гуманоидный робот Optimus.
npr.org
Liftoff, занимающаяся консалтингом мобильных приложений, запустила новую платформу машинного обучения под названием Cortex. Эта платформа использует специализированные модели нейронных сетей для повышения эффективности мобильных рекламных кампаний.
Cortex позволяет достичь более высокой рентабельности инвестиций в рекламу, определяя наилучшие каналы и аудитории для рекламных кампаний. По данным Liftoff, Cortex уже показал положительные результаты: снижение стоимости установки (CPI) на 23%, стоимости привлечения клиента (CPA) на 21% и увеличение рентабельности рекламных расходов (ROAS) на 16%.
venturebeat.com
Gradio выпустила стабильную версию Gradio 5, он получил ряд улучшений, направленных на решение проблем, с которыми сталкивались разработчики ранее.
Среди ключевых обновлений: улучшенная производительность за счет рендеринга на стороне сервера (SSR), обновленный дизайн основных компонентов и новые темы, поддержка потоковой передачи с низкой задержкой, включая WebRTC, экспериментальная AI-площадка для генерации и модификации приложений с помощью ИИ.
В ближайшее время планируется добавить поддержку многостраничных приложений, мобильных устройств и новые компоненты для работы с изображениями и видео.
huggingface.co
OpenAI объявила, что получила первые инженерные образцы DGX B200 от Nvidia. Они обещают трехкратное увеличение скорости обучения и 15-кратное увеличение производительности инференса по сравнению с предыдущими моделями.
Microsoft также сообщила, что ее платформа Azure первой использует систему Blackwell от Nvidia с AI-серверами на базе GB200.
analyticsindiamag.com
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍25🔥8❤6
Hugging Face выложила на Github руководство по оценке LLM.
В нем собраны различные способы оценки модели, руководства по разработке собственных оценок, а также советы и рекомендации из практического опыта. В руководстве рассказывается о разных способах оценки: с помощью автоматических тестов, людей или других моделей.
Особое внимание уделяется тому, как избежать проблем с инференсом модели и сделать результаты одинаковыми. В руководстве есть советы о том, как сделать данные чистыми, как использовать шаблоны для общения с LLM и как анализировать неожиданные плохие результаты.
Если вы ничего не знаете об оценке и бенчмарках, вам следует начать с разделов
Basics
в каждой главе, прежде чем погружаться глубже. В разделе базовые знания вы также найдете пояснения, которые помогут вам разобраться в важных темах LLM: например, как работает инференс модели и что такое токенизация. Более прикладными разделы: советы и рекомендации, устранение неполадок и разделы, посвященные дизайну.
@ai_machinelearning_big_data
#AI #ML #LLM #Huggingface #Guide
Please open Telegram to view this post
VIEW IN TELEGRAM
👍21🔥12❤8🙉1
CogVideoX Factory - репозиторий с набором скриптов для эффективного файнтюна моделей семейства CogVideoX (CogVideoX-2B и CogVideoX-5B) с фокусом на оптимизацию VRAM. CogVideoX Factory позволяет выполнять обучение на GPU с 24 GB.
Проект предоставляет гибкость в выборе между LoRA и файнтюном всей модели для задач "text-to-video" и "IMG-to-video".
Чтобы сделать возможным файнтюн на ограниченных ресурсах, CogVideoX использует методы оптимизации:
CogVideoX Factory предлагает сценарии обучения:
train_text_to_video_lora.sh
;train_image_to_video_lora.sh
;train_text_to_video_sft.sh
.⚠️ Предварительная подготовка данных - один из важнейших условий CogVideoX Factory. Скрипт
prepare_dataset.py
играет ключевую роль в этом процессе, преобразуя видео и аннотации в латенты и эмбединги. Использование предварительно вычисленных латентов и эмбедингов позволяет не загружать VAE и T5 во время обучения.CogVideoX Factory предлагает подробную документацию, в которой объясняются шаги по подготовке датасетов, настройке параметров обучения, запуску инференса, информацию о требованиях к памяти для каждой модели и конфигурации, помогая принять корректные решения о выборе стратегии обучения.
@ai_machinelearning_big_data
#AI #ML #LoRA #T2V #IMG2V #Finetune
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥15👍9❤5