Комплексная коллекция для идентификации и исследования молекул из данных тандемной масс-спектрометрии.
Модели, датасет для обучения и код для инференса.
Модель для извлечения признаков из видео эхокардиографии без необходимости ручной разметки.
Бенчмарк на способность моделей гистопатологии обобщаться на данные вне распределения, полученные с помощью иммуногистохимического окрашивания тканей при аутоиммунных заболеваниях.
Бенчмарк, основанный на Национальном экзамене по клиническому консультированию в области психического здоровья (NCMHCE), используемом в США.
Метод внедрения медицинских знаний через федеративное обучение, использующий легковесные модели и модуль M3OE
Zero-shot-методика, которая решает проблему низкого качества изображений используя текстовый контекст.
Архитектура для решения проблемы обучения с пропусками в мультимодальных данных, использующая "банк отсутствующих модальностей".
Оптимальная конфигурация метрики HaarPSI для оценки качества медицинских изображений.
Метод генерации реалистичных КТ, который решает проблемы нехватки данных и конфиденциальности в медицинской визуализации.
Алгоритм, который использует аудио и кинематические данные для точного обнаружения кашля на периферийных устройствах с ограниченными ресурсами.
Система на архитектуре ViT для диагностики болезни Альцгеймера и лобно-височной деменции.
Метод использования ансамбля языковых моделей для точного заполнения пропусков в медицинских данных.
Эффективная настройка медицинских мультимодальных языковых моделей для точной локализации патологий на изображениях.
Генеративный конвейер для повышения эффективности поиска, отбора и извлечения данных из медицинской литературы.
Многоагентная архитектура на основе LLM для автоматизации принятия решений.
Автоматическое и высокоточное сопоставления медицинских схем данных с LLM.
Авторы разработали фреймворк LLM-AAI, который позволяет LLM взаимодействовать со средой Animal-AI с помощью простого языка сценариев.
Статья о возможности применения LLM для создания вопросов и ответов к квалификационным экзаменам по медицине.
В статье исследуется проблема галлюцинаций LLM и предлагается решение в виде гибридного подхода - сочетание LLM с графами знаний. Спойлер -
@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
👍15🔥15❤6
Run:ai Model Streamer – Python SDK, разработанный для оптимизации загрузки моделей машинного обучения. Он поддерживает загрузку моделей в различных форматах (.pt, .h5, .safetensors и др.) из сетевых файловых систем, хранилищ S3 и локальных дисков.
Особенность Streamer - использование многопоточности для параллельной загрузки тензоров из файла в выделенный буфер оперативной памяти.
Каждый тензор идентифицируется уникальным ключом, который впоследствии используется приложением для загрузки тензора в память GPU. Это дает возможность загружать тензоры в память GPU одновременно с чтением других тензоров из хранилища в оперативную память, минимизируя время простоя GPU.
Streamer использует высокопроизводительный слой на C++, а Python API обеспечивает удобную интеграцию Streamer в существующие проекты, например, для автомасштабируемых серверов инференса, где минимизация времени простоя GPU критически важна.
Тест производительности Run:ai Model Streamer выполнялся на NVIDIA A10G с моделью Llama-3-8B (15 GB) и сравнивался с загрузчиками SafeTensors от Hugging Face и Tensorizer от CoreWeave.
При использовании локальных SSD, Run:ai Model Streamer достигал максимальной пропускной способности SSD (1 ГБ/с для GP3 и 2 ГБ/с для IO2), сокращая время загрузки модели в 6 раз по сравнению с SafeTensors Loader.
На Amazon S3 Run:ai Model Streamer загружал модель за 4.88 секунды, значительно превосходя Tensorizer (37.36 секунд).
⚠️ Streamer поддерживает только приложения PyTorch.
⚠️ Размер буфера оперативной памяти регулируется параметром
RUNAI_STREAMER_MEMORY_LIMIT
# Install streamer from pip
pip install runai-model-streamer
# Load the tensors to the buffer and stream to the GPU
from runai_model_streamer import SafetensorsStreamer
file_path = "/path/to/file.safetensors"
with SafetensorsStreamer() as streamer:
streamer.stream_file(file_path)
for name, tensor in streamer.get_tensors():
tensor.to('CUDA:0')
@ai_machinelearning_big_data
#AI #ML #LLM #RunAI #ModelStramer
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍27❤6🔥5
Специалисты по кибербезопасности обнаружили 6 уязвимостей в Ollama, которые могут быть использованы для выполнения атак типа "отказ в обслуживании", отравление или кражу моделей.
Одна из наиболее серьезных уязвимостей -
CVE-2024-39722
(CVSS score: 7.5), которая представляет собой обход пути в api/push
, предоставляющий доступ к файлам, существующим на сервере и всей структуре каталогов, в которой развернута Ollama.Две другие уязвимости могут привести к отравлению модели через
/api/pull
из ненадежного источника или краже модели через /api/push
. Исследователи обнаружили 9 831 уникальный экземпляр Ollama, доступный из Интернета, причем большинство из них расположено в Китае, США, Германии, Южной Корее, Тайване, Франции, Великобритании, Индии, Сингапуре и Гонконге.
Каждый четвертый сервер, доступный из Интернета, оказался уязвим.
thehackernews.com
Исследование, опубликованное в журнале Nature Computational Science, подробно описывает 4 возможных сценария внедрения генеративного ИИ: от ограниченного до агрессивного расширения, с прогнозом потенциального увеличение электронных отходов от уровня 2023 года в 2600 тонн в год.
Модель агрессивного внедрения LLM в частных компаниях и на предприятиях приведет к образованию 2,5 млн. тонн электронных отходов в год к 2030 году. Ограниченное расширение использования ИИ приведет к образованию в общей сложности 1,2 млн. тонн электронных отходов с 2023 по 2030 год.
spectrum.ieee.org
Согласно новому отчету Experian, около 67% опрошенных представителей поколения Z и 62% опрошенных миллениалов используют искусственный интеллект для решения задач, связанных с управлением личными финансами. Большинство из них пользуются генеративным ИИ для решения финансовых вопросов не реже одного раза в неделю.
В отчете говорится, что пользователи считают, что ChatGPT, помогают им в накоплениях и составлении бюджета (60%), инвестиционном планировании (48%) и повышении кредитного рейтинга (48%).
98% взрослых представителей поколения Z и 98% миллениалов положительно оценили свой опыт работы с ИИ-сервисами.
cnbc.com
EMNLP 2024 пройдет в Майами с 12 по 16 ноября. Apple представит свои исследования и выступит спонсором конференции, на которой соберутся представители научного и корпоративного сообществ, занимающихся исследованиями в области NLP и AI. На EMNLP будут представлены доклады, посвященные обработке естественного языка, машинному обучению, глубокому обучению и компьютерной лингвистике.
Среди заявленных работ - исследования, посвященные кросс-культурному машинному переводу, модели обновления для совместимой эволюции LLM и ранжированию любой степени детализации с помощью многовекторных вложений. На конференции также пройдут семинары по WiNLP и BlackboxNLP.
machinelearning.apple.com
Intel готовится к выпуску нового поколения графических процессоров под кодовым названием Battlemage, которые, как ожидается, появятся на рынке в конце 2024 или начале 2025 года.
Intel пока не подтвердила официальные характеристики, но, по слухам, Battlemage будет основан на новой архитектуре Xe2 и будет доступен в двух вариантах: X2 и X3. Предполагается, что X2, флагманская модель, будет иметь 32 ядра Xe2, что соответствует 4096 потоковым процессорам и 512 исполнительным блокам. X3, по слухам, будет иметь 28 ядер Xe2 (3584 потоковых процессора и 448 исполнительных блоков).
Ожидается, что Intel сосредоточится на бюджетном и среднем сегментах рынка. По оценкам, цена на флагманскую модель составит от 350 до 500 долл. США. Intel заявляет, что Battlemage обеспечит 50% прирост производительности по сравнению с предыдущей архитектурой.
digitaltrends.com
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍21❤6🔥3
Allegro - модель от Rhymes AI для генерации видео по текстовому промпту. Allegro генерирует 6-секундные видеоролики с разрешением 720p и частотой 15 кадров в секунду. Модель отличается высокой детализацией, плавностью переходов в движении и способностью визуализировать сложные сцены.
Allegro основана на трех ключевых технологиях:
Для обучения модели использовался массив данных из 106 млн. изображений и 48 млн. видеороликов с детальными аннотациями.
В Allegro используется Video Variational Autoencoder (VideoVAE) с 175 млн. параметров. Он кодирует видео в компактное скрытое пространственно-временное представление и способен работать в разрядностях точности FP32/TF32/BF16/FP16.
Ядро Allegro - масштабируемая архитектура Diffusion Transformer (DiT) с 3D-позиционным кодированием RoPE и полным 3D-вниманием размером в 2.8 млрд. параметров. DiT моделирует пространственные и временные зависимости в видеокадрах и отвечает за качество генерации и плавность движения. Поддерживаемая разрядность - BF16/FP32/TF32.
Для локального запуска потребуются : Python >= 3.10, PyTorch >= 2.4, CUDA >= 12.4
⚠️ Интерполяция до 30 FPS возможна с помощью EMA-VFI.
⚠️ С использованием параметра
--enable_cpu_offload
, инференс возможен на 9.3Gb VRAM, без использования выгрузки потребность Allegro около 27Gb VRAM.⚠️ Модель не может генерировать знаменитостей, разборчивый текст, конкретные места, улицы или здания.
# Run inference
python single_inference.py
# Keys
--user_prompt '%prompt%'
--save_path '%full path for output file%'
--vae '%path to VAE'
--dit '%path to DiT%'
--text_encoder '%path to text encoder%'
--tokenizer '%path to text tokenizer%'
--guidance_scale 7.5
--num_sampling_steps 100
--seed 42
@ai_machinelearning_big_data
#AI #ML #Text-to-Video #DiT #Allegro
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍15❤7🔥5🎉4
Hunyuan-Large - самая большая на сегодняшний день открытая модель на основе Transformer с архитектурой MoE. Модель мультиязычна и имеет 389 млрд. параметров, из которых 52 млрд. активных, контекстное окно в 256 тыс. токенов (128 тыс. токенов у instruct-версии). В открытый доступ опубликованы 3 версии:
Архитектура Hunyuan-Large основана на классическом Transformer с использованием MoE. Модель состоит из 64 слоев, 80 attention heads и 16 специализированных экспертов, из которых для каждого токена активируется только один эксперт.
Для оптимизации использования памяти во время инференса в Hunyuan-Large используется сжатие KV-кэша с помощью GQA и CLA.
GQA группирует attention heads, а CLA шэрит KV-кэш между соседними слоями, тем самым сокращая использование KV-кэша почти на 95% по сравнению с оригинальным MHA.
Активации экспертов происходит с помощью смешанной стратегии маршрутизации: все токены обрабатываются одним общим экспертом, а специализированные эксперты выбираются с помощью
top-k
маршрутизации. Чтобы не терять информацию из-за перегрузки экспертов, была разработана стратегия «рециркуляционной маршрутизации», которая рероутит токены от перегруженных экспертов к свободным.Перед обучением Hunyuan-Large разработчики провели исследования законов масштабирования для моделей MoE. Оптимальное количество активных параметров (52 млрд) и объем обучающих данных (7 трлн. токенов) были определены на основе анализа isoFLOPs кривой.
Hunyuan-Large превосходит по производительности LLama3.1-70B, LLama3.1-405B, Mixtral-8x22B и DeepSeek-V2 в в агрегированных бенчмарках (MMLU, MMLU-Pro), рассуждении CommonsenseQA, PIQA, WinoGrande и HellaSwag), программировании (HumanEval и MBPP), математике (GSM8K и MATH) и классических NLP-задачах (TriviaQA, NaturalQuestions, DROP и ARC-C).
@ai_machinelearning_big_data
#AI #ML #LLM #MoE #HunyuanLarge #Tencent
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤21👍18🔥8😁4🗿2
Чат-бот "Xbox Support Virtual Agent" разработан, чтобы помочь игрокам Xbox решать проблемы, связанные с поддержкой игр. Участники программы Xbox Insiders в США могут начать тестирование нового чат-бота с искусственным интеллектом на сайте support.xbox.com.
Xbox Support Virtual Agent будет отвечать на вопросы, касающиеся поддержки консолей Xbox и игр. Чат-бот будет отображаться в виде анимированного персонажа с искусственным интеллектом, который реагирует на вопросы, или в виде красочного шара Xbox.
theverge.com
VeloRAIN (Robust AI Networking) — новая архитектура, использующая ИИ и ML для повышения производительности и безопасности распределенных рабочих нагрузок ИИ.
VeloRAIN будет обладать возможностями: обнаружение ИИ-приложений с помощью машинного обучения, повышение эффективности сети и оптимизация трафика, а также динамическая, управляемая через ИИ, структура политик для приложений.
Новые функции упростят идентификацию и приоритизацию периферийных ИИ-приложений, обеспечат повышенное качество обслуживания и улучшат пользовательский опыт для современных приложений.
broadcom.com
Это приобретение укрепит позиции Siemens как ведущей технологической компании и лидера в области промышленного ПО. Объединение возможностей Altair в области моделирования, высокопроизводительных вычислений, науки о данных и ИИ с Siemens Xcelerator позволит создать самый полный в мире портфель решений для проектирования и моделирования на базе ИИ.
Siemens ожидает значительный синергетический эффект от перекрестных продаж взаимодополняющих портфелей, а также от предоставления Altair полного доступа к глобальной сети Siemens и ее промышленной клиентской базе. Altair, основанная в 1985 году, вышла на биржу Nasdaq в 2017 году и имеет штаб-квартиру в городе Трой, штат Мичиган. Из более чем 3500 сотрудников компании около 1400 работают в сфере исследований и разработок.
aerospacemanufacturinganddesign.com
M5Stack Module LLM - это новое устройство от компании, которое обеспечивает управление с помощью искусственного интеллекта без доступа к Интернету. Модуль оснащен SoC AX630C, 4 ГБ памяти LPDDR4, 32 ГБ хранилища и нейронным процессором NPU с производительностью 3,2 TOPS (INT8) или 12,8 TOPS (INT4).
Модуль имеет встроенный микрофон, динамик, слот для карт microSD и порт USB OTG. M5Stack Module LLM совместим с контроллерами CoreMP135, CoreS3 и Core2. Модуль поставляется с предустановленной языковой моделью Qwen2.5-0.5B. В будущем он будет поддерживать модели Qwen2.5-1.5B, Llama3.2-1B и InternVL2-1B.
M5Stack Module LLM стоит 49,90 долларов США.
cnx-software.com
NVIDIA представила новый ИИ-шаблон AI Blueprint для поиска и обобщения видео, который позволит разработчикам создавать ИИ-агентов, способных анализировать визуальный контент и отвечать на вопросы пользователей.
Шаблон, являющийся частью платформы NVIDIA Metropolis, объединяет технологии CV и GenAI. ИИ-агенты, созданные с помощью этого шаблона, могут анализировать видеоархивы, выявлять нарушения техники безопасности на складах, определять дорожно-транспортные происшествия и генерировать отчеты для экстренных служб.
NVIDIA сотрудничает с Accenture, Dell Technologies и Lenovo, чтобы сделать этот шаблон доступным для предприятий и городов по всему миру.
blogs.nvidia.com
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍14❤5🔥4
В Google рассказали про схему итеративного взвешивания плотности (iterative density weighting scheme, IDW), которая помогает равномерно распределять интересы пользователя.
Она уменьшает влияние дисбалансированных данных и улучшает кластеризацию элементов, анализируя плотность предметов в пространстве представлений.
В подробном разборе статьи от ml-спецов Яндекса рассказали про устройство IDW и кратко привели результаты эксперимента.
@ai_machinelearning_big_data
#AI #ML #tech
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍10🔥6❤4
Hunyuan3D-1.0 - двухэтапная система для быстрой генерации 3D-моделей по текстовым запросам или изображениям. Модель представлена в трех версиях:
Первый этап Hunyuan3D-1.0 основан на многовидовой диффузионной модели, которая генерирует набор RGB-изображений с разных ракурсов. Эти изображения, фиксирующие детали 3D-объекта с различных точек зрения, поступают на вход во второй этап - модель реконструкции.
Модель реконструкции преобразует многовидовые изображения в готовую 3D-модель. Она обучена обрабатывать шумы и несоответствия, присущие многовидовой диффузии, и использовать информацию из входного изображения или текста для восстановления 3D-структуры.
Обучение многовидовой диффузионной модели и модели реконструкции осуществляется раздельно. Lite-версия многовидовой модели использует SD-2.1 в качестве основы, a standard-версия основана на SDXL.
Модель реконструкции сначала обучалась на многовидовых изображениях разрешением 256x256, а затем донастраивалась на изображениях разрешением 512x512. Весь процесс обучения проводился на 64 графических процессорах A100.
Для оценки Hunyuan3D-1.0 использовались датасеты GSO и OmniObject3D с выборкой около 70 объектов. В качестве метрик использовались расстояние Чамфера (CD) и F-мера, которые являются стандартными показателями точности реконструкции 3D-форм.
Standard-версия модели показала лучшие результаты по метрикам CD и F-score на обоих датасетах. Hunyuan3D-1.0 достигла оптимального баланса между качеством и скоростью по результаты сравнения с другими моделями.
Инференс Hunyuan3D-1.0 доступен в CLI и с Gradio UI. Описание ключей запуска для CLI и список преднастроенных скриптов для запуска можно найти в репозитории проекта на Github.
⚠️ Позиции камеры на инференсе зафиксированы на азимуте (относительно позиции камеры на входе)
+0, +60, +120, +180, +240, +300
.⚠️ Рекомендованная VRAM - 40GB, но по неподтвержденным данным из issue - запускается c 20 GB на 3090.
# Cloning the repository
git clone https://github.com/tencent/Hunyuan3D-1
cd Hunyuan3D-1
# Create conda env
conda create -n hunyuan3d-1 python=3.9
conda activate hunyuan3d-1
bash env_install.sh
# Run Gradio UI with Hunyuan3D-1.0 Lite
python app.py --use_lite
# Open in browser link https://127.0.0.1:8080/
@ai_machinelearning_big_data
#AI #ML #TextTo3D #ImgTo3D #Hunyuan3D #Tencent
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍18🔥8🥰4😁3❤2