Метод, который фокусируется на повышении достоверности ответов в формате лонгрида, используя итеративный процесс обучения с SFT и DPO.
Модель, разработанная для анализа истории болезни пациента на основе его медицинских карт.
Первая модель, способная предсказывать переходы состояний в двумерной системе Cellular Automata.
Модель для решения проблемы снижения производительности LLM при адаптации к специализированным медицинским задачам.
Инструктивная модель, основанная на LLaMA2 для решения задач разработки лекарственных средств.
Мультимодальный датасет на разных языках для оценки моделей разной модальности в задачах здравоохранения.
Многозадачный мета-набор данных медицинских инструкций из 133 задач.
Система для автоматической генерации высококачественных вопросов множественного выбора в стиле экзамена USMLE.
Система, которая дает возможность агенту-врачу, основанному на LLM, итеративно совершенствовать свои рассуждения и действия после постановки неверного диагноза.
Архитектура агента для LLM, разработанная специально для решения задач, связанных с медицинскими расчетами.
Платформа, которая объединяет LLM с графами знаний для решения задач в специфических медицинских областях.
Система повышения фактической точности, разработанная для борьбы с галлюцинациями, возникающими в медицинских VLM.
Метод использования LLM в медицине, основанный на RAG, дополненной поиском по графу знаний.
Платформа для решения сложных медицинских задач, основанная на LLM и мульти-агентной архитектуре, где каждый агент специализируется на определенном аспекте здравоохранения.
Методика использования LLM для создания синтетических клинических испытаний.
Метод адаптации техник субсловной токенизации для представления групп медицинских кодов как единые токены.
Исследовании проблемы адаптации медицинских LLM к локальным языкам, чтобы улучшить доступ к медицинским услугам.
В статье изучается возможность использования исключительно синтетических данных для обучения моделей MedVLM. Спойлер -
@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
❤18👍11🔥8
ColPali - это набор моделей, фреймворк и коллекция преднастроенных методов тонкой настройки для обработки документов разной модальности с учетом текстового и визуального содержания. ColPali позиционирует себя как замену сложных и хрупких конвейеров OCR.
Для локального запуска ColPali Cookbooks понадобится поддержка Jupyter Notebook в IDE или их можно попробовать в Google Collab.
@ai_machinelearning_big_data
#AI #ML #VLM #Vidore #Colpali #Cookbooks
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍25🔥6❤4🤔1
Microsoft готовится к выпуску в ноябре автономных агентов ИИ, которые должны стать «софтом для мира, управляемого ИИ». Эти агенты будут отличаться от чат-ботов тем, что требуют минимального вмешательства человека.
Компания позиционирует их как инструменты, способные автоматизировать рутинные задачи, например, отвечать на запросы клиентов, находить потенциальных покупателей и управлять запасами.
Microsoft использует для своих агентов как собственные модели ИИ, так и модели OpenAI. Создавать собственных агентов можно будет в Copilot Studio.
С началом доступа будут представлены 10 готовых к использованию агентов для решения различных бизнес-задач.
reuters.com
Xilinx XCF04SVOG20C, микросхема PROM обеспечит эффективное решение для хранения конфигураций FPGA, позволяя им быстро загружать и выполнять различные конфигурации моделей во время обучения ИИ, тем самым повышая общую вычислительную производительность и эффективность.
XCF04SVOG20C, емкостью 4 Мбит, может хранить данные конфигурации, необходимые для сложных моделей ИИ. Эта емкость даст возможность FPGA гибко обрабатывать потребности в обучении различных моделей ИИ.
Сотрудничество между FPGA и PROM не ограничивается крупномасштабными задачами обучения в ЦОДах и может применяться к периферийным вычислениям ИИ.
Небольшой размер и высокая температурная устойчивость XCF04SVOG20C (диапазон рабочих температур от -40°C до 85°C) делают его идеальным для использования в ограниченных пространствах и изменчивых средах.
electropages.com
Обновление добавит две новые функции: редактирование загруженного изображения и возможность изменения текстуры объектов на изображениях. Пользователи смогут изменять цвета и детали объектов на основе текстовых описаний, сохраняя при этом исходную форму.
Компания проводит опрос своего сообщества в Discord, чтобы определить, кто должен получить ранний доступ. Для предотвращения злоупотреблений компания планирует увеличить количество модераторов-людей и внедрить модераторов на основе ИИ.
gagadget.com
ComfyUI V1 анонсирован в закрытой бета-версии с новым пользовательским интерфейсом, реестром пользовательских нод (CNR) и автономной версией для настольных компьютеров для Windows, MacOS и Linux.
Версия для настольных ПК включает в себя функции безопасности, автоматические обновления, облегченную установку и рекомендуемую среду Python. Она поставляется с менеджером ComfyUI, который позволяет устанавливать ноды из реестра ComfyUI.
Среди других особенностей - вкладки для рабочих процессов, настраиваемые сочетания клавиш, автоматический импорт из существующих установок ComfyUI, просмотрщик журналов.
ComfyUI анонсировала новый пользовательский интерфейс с верхней строкой меню, библиотекой моделей, браузером рабочих процессов и функцией автоматической загрузки моделей, которая позволяет использовать URL-адрес/идентификатор модели в рабочих процессах.
blog.comfy.org
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍15❤7👏7🔥4🥱1
LongAlign - метод тонкой настройки диффузионных text-2-image моделей, который улучшает понимание длинных промптов. Вместо того, чтобы подавать весь длинный текст в CLIP, LongAlign разбивает его на сегменты (например, предложения) и кодирует каждый сегмент по отдельности. Это позволяет использовать CLIP, несмотря на его ограничения.
После кодирования отдельных сегментов LongAlign объединяет полученные эмбединги в единый вектор. Для этого используется конкатенация с удалением повторяющихся специальных токенов (
<sot>
, <eot>
, <pad>
) и добавлением нового токена <pad*>
.Чтобы достичь точности согласования, в LongAlign используется 3 техники:
По проведенным оценкам, LongAlign значительно превосходит базовые модели Stable Diffusion, PixArt-α и Kandinsky v2.2 по показателям FID и Denscore. Отдельно выполненная оценка в GPT-4o подтвердила преимущества LongAlign в согласовании text-2-image.
./model/LaVi-Bridge
)./model/longSD
)# Prepare environment
pip install -r requirements.txt
# Train original Stable Diffusion
# support long-text inputs
bash run_unet.sh align ct5f
# preference optimization for long-text alignment
bash run_unet.sh reward test
# Train LCM-version Stable Diffusion
# support LCM sampling
bash run_unet.sh lcm ct5f
# preference optimization for long-text alignment
bash run_unet.sh reward_lcm test
#AI #ML #Diffusion #Text2Image #LongAlign
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍20❤6🔥5
LayerSkip - это способ ускорить LLM, уменьшая количество вычислений, необходимых для обработки каждого слова (токена) текста.
Основная идея LayerSkip - научить модель "угадывать" результат раньше, не проходя все слои. Для этого во время обучения модели некоторые слои "исключаются" (layer dropout) случайным образом. Помимо исключения слоев, LayerSkip использует специальную функцию потерь, которая помогает модели "понимать" результаты вычислений на более ранних слоях.
В отличие от других методов, LayerSkip использует одну и ту же LM head для всех слоев модели. Это упрощает обучение и уменьшает потребление памяти при инференсе.
Во время инференса LayerSkip обрабатывает текст только первыми "E" слоями, а затем сразу переходит к LM head, чтобы получить результат. Это называется "ранний выход" (early exit).
Чтобы повысить точность при раннем выходе, LayerSkip использует метод "самоспекулятивного декодирования". Модель сначала "угадывает" несколько следующих токенов, используя ранний выход. Затем она проверяет эти токены, используя оставшиеся слои, и исправляет ошибки.
LayerSkip был протестирован на различных наборах данных: Llama, CodeLlama и TOPv2. Результаты показали, что LayerSkip может ускорить работу LLM до 2 раз без значительного снижения точности.
Чтобы попробовать LayerSkip локально, разработчики предлагают использовать любую из 6 предобученных моделей:
⚠️ Для локального запуска будет нужен Huggingface API KEY.
# Clone repo
git clone [email protected]:facebookresearch/LayerSkip.git
cd LayerSkip
# Create env
conda create --name layer_skip python=3.10
conda activate layer_skip
# Install requirements
$ pip install -r requirements.txt
#Inference with self speculative
$ torchrun generate.py --model facebook/layerskip-llama2-7B \
--sample True \
--max_steps 512 \
--generation_strategy self_speculative \
--exit_layer 8 \
--num_speculations 6
--model
: имя модели на HuggingFace;--sample
: включение/выключение семплирования (по умолчанию: True);--max_steps
: максимальное количество генерируемых токенов;--generation_strategy
: стратегия генерации (по умолчанию: 'greedy', для LayerSkip: 'self_speculative');--exit_layer
: номер слоя для раннего выхода;--num_speculations
: количество спекулятивных токенов;@ai_machinelearning_big_data
#AI #ML #LLM #MetaAI #LayerSkip
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
5🔥17👍11❤8✍1
Stability AI опубликовала Stable Diffusion 3.5 Large - модель text-to-image с 8 млрд. параметров.
В основе SD 3.5 Large - архитектура Multimodal Diffusion Transformer (MMDiT). Модель использует три предобученных текстовых энкодера:
OpenCLIP-ViT/G и CLIP-ViT/L имеют контекстную длину 77 токенов, а T5-xxl - 77/256 токенов.
Модель доступна по API в сервисах - Stability AI, Replicate и Deepinfra.
Для локального использования модели рекомендуется использовать ComfyUI (базовый воркфлоу) или Diffusers.
⚠️ Инференс квантованной NF4-версии на ограниченных VRAM
⚠️ Подробные инструкции по файнтюну и тренировке LoRA для Stable Diffusion 3.5 Large.
# install Diffusers
pip install -U diffusers
# Inference
import torch
from diffusers import StableDiffusion3Pipeline
pipe = StableDiffusion3Pipeline.from_pretrained("stabilityai/stable-diffusion-3.5-large", torch_dtype=torch.bfloat16)
pipe = pipe.to("cuda")
image = pipe(
"A happy woman laying on a grass",
num_inference_steps=28,
guidance_scale=3.5,
).images[0]
image.save("woman.png")
@ai_machinelearning_big_data
#AI #ML #Diffusion #SDL #StabilityAI
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥23❤11👍9
MMSearch — это тест мультимодального поиска, созданный для оценки возможностей LMMs как систем для поиска информации. Этот тест включает тщательно отобранный датасет из 300 запросов из 14 различных областей.
Чтобы обеспечить сложность бенчмарка, запросы классифицируются по двум основным категориям: новости и знания.
Область новостей состоит из недавних событий на момент сбора данных (август 2024 года), это гарантирует, что ответы на запросы не будут содержаться в обучающих данных для LMM.
В области знаний собраны запросы, требующие редких знаний - те, на которые не могут ответить современные LMM, такие как GPT-4o и Claude-3.5.
Оценка выполняется по 4 задачам, итог выполнения сравнивается с результатом аннотаторов, в роли которых выступали люди :
⚠️ Среднее время выполнения самого сложного теста (End-to-End) на одном GPU A100 - 3-5 часов.
Лидерборд MMSearch 16 моделей, включая результат выполнения тестов человеком можно посмотреть на странице проекта.
@ai_machinelearning_big_data
#AI #ML #MMLM #Benchmark
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥16👍7❤4
Обновленная Claude 3.5 Sonnet улучшена по сравнению с предыдущей версией, особенно в области программирования. Модель превосходит все публично доступные LLM по показателям SWE-bench Verified, с значением в 49.0%.
Claude 3.5 Sonnet показала улучшения в агентных задачах на TAU-bench, достигнув 69.2% в задачах розничной торговле и 46.0% в области авиаперевозок. Обновление уже доступно для всех пользователей через Anthropic API, Amazon Bedrock и Vertex AI от Google Cloud.
Claude 3.5 Haiku по производительности на многих тестах соответствует Claude 3 Opus, при той же стоимости и аналогичной скорости, что и у предыдущего поколения Haiku. Claude 3.5 Haiku будет выпущена позже в этом месяце.
Claude 3.5 Sonnet - первая модель ИИ, предлагающая использование компьютера в публичной бета-версии. Эта функция позволяет разработчикам давать Claude инструкции по использованию компьютеров так же, как это делают люди: смотреть на экран, перемещать курсор, нажимать кнопки и вводить текст.
anthropic.com
News Corp. подал в суд на Perplexity, обвиняя в копировании защищенного авторским правом новостного контента. Издатели утверждают, что Perplexity использует их контент для генерации ответов на запросы пользователей, перехватывая трафик, который в противном случае шел бы на сайты издателей.
Издатели требуют от суда обязать Perplexity прекратить использование и копирование их контента без разрешения, уничтожить любые базы данных, содержащие их материалы, и присудить им компенсацию в размере до 150 000 долларов за каждый случай нарушения авторских прав.
wsj.com
Bambu Lab, производитель 3D-принтеров, выпустила PrintMon Maker, новый генератор 3D-моделей на базе ИИ. Инструмент доступен через MakerWorld и позволяет пользователям создавать 3D-печатные модели, используя текстовые или графические промпты.
Платформа генеративного ИИ создает модели, оптимизированные для многоцветной 3D-печати. Созданные проекты можно импортировать непосредственно в ПО для 3D-печати и изготавливать на 3D-принтерах Bambu Lab без дополнительных настроек.
3dprintingindustry.com
Вертикально-шарнирный робот RV-12CRL имеет радиус действия 1504 мм и грузоподъемность 12 кг, что делает его идеальным для обслуживания станков, упаковки и задач "pick-and-place".
Встроенные функции обеспечивают повышенную безопасность, упрощенное внедрение и общее сокращение времени простоя. RV-12CRL оснащен внутренними кабелями и воздушными шлангами для инструментов на конце манипулятора и 30-контактную сигнальную кабельную систему.
Использование серводвигателей MELSERVO-J5 с бесконтактными энкодерами исключает необходимость в батареях, что снижает затраты на эксплуатацию.
roboticstomorrow.com
Fluid — авторегрессионная модель text-to-image c возможностью масштабирования до 10.5 млрд. параметров.
Опубликованное исследование показывает, что этот класс моделей может иметь потенциал масштабирования, аналогичный большим языковым моделям. Ключевыми факторами Fluid являются использование непрерывных, а не дискретных токенов, и случайный, а не фиксированный порядок генерации, улучшающий понимание глобальной структуры изображения.
Fluid превосходит как диффузионные модели (Stable Diffusion 3), так и предыдущие авторегрессионные модели (Parti от Google). Базовая Fluid с 369 млн. параметров достигает того же показателя FID, что и Parti с 20 млрд параметров.
Веса и код Fluid пока не анонсированы.
arxiv.org
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍27❤8🥰6🔥2
Подробное руководство от Ирландского центра искусственного интеллекта CeADAR по практическому применению и оптимизации процесса тонкой настройки LLM.
В руководстве представлен анализ подходов обучения: контролируемые, неконтролируемые и инструктивные подходы. Гайд подробно рассматривает подготовку наборов данных, выбор подходящей модели, настройку параметров и оценку производительности.
Это руководство подходит как для начинающих, так и для опытных специалистов, которые хотят эффективно настраивать и использовать LLM для решения различных задач в области обработки естественного языка.
Несмотря на техническую сложность темы, авторы сделали материал доступным для широкой аудитории, используя понятный язык и наглядные примеры.
@ai_machinelearning_big_data
#AI #ML #LLM #Guide #Finetune
Please open Telegram to view this post
VIEW IN TELEGRAM
👍31❤13🔥8