DuoAttention - метод, который решает проблему LLM при работе с длинными текстами. Эта неэффективность проявляется в большом потреблении памяти и замедлении работы модели. DuoAttention позволяет сократить использование памяти и ускорить обработку длинных текстов без ущерба для точности модели.
Он основан на разделении attention heads в LLM на два типа: «Retrieval Heads» и «Streaming Heads»:
DuoAttention использует эту дихотомию, применяя полный KV-кэш только к Retrieval Heads, а для Streaming Heads использует облегченный KV-кэш постоянной длины, который хранит только "точки притяжения" и последние токены.
Проведенные эксперименты показывают, что DuoAttention может снижать использование памяти до 2,55 раз для моделей MHA и 1,67 для моделей GQA, а также ускоряет декодирование в 2,18 раз для моделей MHA и 1,50 для моделей GQA.
В сочетании с квантованием DuoAttention позволяет модели Llama-3-8B декодировать текст с длиной контекста 3,3 млн. токенов на одном GPU A100, это примерно 6,4-кратное увеличение емкости по сравнению со стандартным развертыванием FP16 с полным вниманием.
conda create -yn duo_demo python=3.10
conda activate duo_demo
# Install DuoAttention
pip install -e .
conda install -y git
conda install -y nvidia/label/cuda-12.4.0::cuda-toolkit
conda install -y nvidia::cuda-cudart-dev
# Install QServe
git clone [email protected]:mit-han-lab/qserve.git
cd qserve
pip install -e .
pip install ninja packaging
pip install flash-attn==2.4.1 --no-build-isolation
cd kernels
python setup.py install
# Install FlashInfer
pip install flashinfer -i https://flashinfer.ai/whl/cu121/torch2.3/
pip install tensor_parallel
@ai_machinelearning_big_data
#AI #ML #LLM #DuoAttention #LongContext
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍34❤8🔥8
Модель на основе BioMistral настроенная на выполнение инструкций для 7 задач здравоохранения.
MMLM, способная обрабатывать медицинские задачи на уровне изображения и области, частично имитируя работу врача.
MMLM для дерматологии, обученная методом SFT на наборе данных из 2 млн. изображений заболеваний кожи.
Первая в медицинской сфере модель для анализа рентгеновских снимков, электрокардиограмм (ЭКГ) и медицинских заключений.
Метод, основанный на диффузионных вероятностных моделях шумоподавления (DDPM).
Система для решения сложных медицинских задач с использованием специализированных инструментов.
Конвейер, разработанный специалистами Ивановского государственного химико-технологического университета для ускоренной разработки действующих веществ лекарственных средств.
Метод, основанный на диффузионных моделях и графах действий, который позволяет синтезировать реалистичные видео лапароскопических операций.
Методика, которая интегрирует знания о метаболических путях в LLM для повышения точности выявления аномалий.
Алгоритмическая модель для персонализированного управления здоровьем сна с использованием метода CoT.
Метод, который устраняет галлюцинации, связанные с идентификацией несуществующих сущностей и ошибками классификации.
Инструмент для измерения личностных черт LLM на основе анализа их текстовых ответов.
Система обратной связи по медицинским процедурам для студентов-медиков и обучения медперсонала.
Комбинация методов дистилляции знаний и интерпретации моделей для создания комплексных объяснений, адаптированных для медицинских специалистов и специалистов по ML.
Исследование о потенциале замены людей на LLM для оценки ИИ-систем. Спойлер -
Методика "Контрфактические вариации пациента" (CPV) для оценки предвзятости LLM в сложных клинических случаях. Спойлер -
@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
❤19👍11🔥6
Учебник Стэнли Чана, профессора кафедры электротехники, вычислительной техники и статистики Purdue University (США), содержит ультраполезные знания в области диффузионных моделей в контексте обработки изображений и CV. Он доступно и детально объясняет сложные концепции и подходит как опытным профессионалам, так и тем, кто только начинает изучать эту область.
Для профессионалов, уже работающих с диффузионными моделями или стремящихся углубить свои знания, этот учебник послужит отличным ресурсом, который предоставляет прочную основу для понимания и применения концепций в прикладных задачах.
Вариационный автоэнкодер (VAE)
Вероятностная модель диффузионного денойза (DDPM)
Динамика сопоставления баллов Ланжевена (SMLD)
Стохастическое дифференциальное уравнение (SDE)
Уравнения Ланжевена и Фоккера-Планка
@ai_machinelearning_big_data
#AI #ML #Tutorial #Duffusion
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍30❤11🔥9❤🔥2
Внимание - ключевой компонент трансформеров, но его квадратичная сложность вычислений становится проблемой при обработке длинных последовательностей. Квантование успешно применяется для ускорения линейных слоев, но оно мало изучено применительно к механизму внимания.
SageAttention - экспериментальный метод, который использует 8-битное квантование механизма внимания для ускорения вычислений и сохранения точности модели.
Метод не требует специального обучения и конвертации моделей в какой-либо формат, он применяется к существующим трансформеным моделям в режиме "plug-and-play".
Ключевые особенности метода:
INT8 в четыре раза быстрее, чем в FP16, и в два раза быстрее, чем в FP8.
Умножение матриц в высокой разрядности позволяет ускорить вычисления без потери точности.
Для каждого слоя внимания выбирается наиболее быстрый вариант квантования.
SageAttention реализован с использованием
Triton
и оптимизирован для GPU RTX4090 и 3090. Метод превосходит FlashAttention2 и xformers по скорости примерно в 2,1 и 2,7 раза соответственно.Тестирование на Llama2, CogvideoX, Unidiffuser и TIMM подтвердило сохранение метрик точности при использовании SageAttention.
⚠️ Использование SageAttention рекомендуется с версиями:
⚠️ SageAttention оптимизирован для RTX4090 и RTX3090. На других архитектурах GPU прирост производительности может быть незначительным.
# Install sageattention
pip install sageattention
# How to use
from sageattention import sageattn
attn_output = sageattn(q, k, v, is_causal=False, smooth_k=True)
# Plug-and-play example with Cogvideo
# add the following codes and run
from sageattention import sageattn
import torch.nn.functional as F
F.scaled_dot_product_attention = sageattn
# Specifically
cd example
python sageattn_cogvideo.py
@ai_machinelearning_big_data
#AI #ML #SageAttention #Transformers
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍26❤8🔥2
Google работает над технологией ИИ под рабочим названием Project Jarvis, которая позволит ИИ автономно управлять веб-браузером для выполнения задач поиска информации и совершения покупок.
Google планирует представить Project Jarvis в декабре, одновременно с выпуском новой большой языковой модели Gemini. Разработка Google направлена на то, чтобы ИИ мог напрямую взаимодействовать с компьютером или браузером пользователя.
Примечательно, что конкурент Google по технологиям поиска, Microsoft, тоже работает над аналогичной технологией.
finance.yahoo.com
Модель, основанная на усовершенствованной архитектуре трансформера, эффективнее обрабатывает длинные тексты сохраняя контекст, разбивая его на сегменты и используя механизм, учитывающий ошибки.
В ходе экспериментов модель продемонстрировала улучшение точности на 2% по сравнению со стандартными трансформерами, а также рост показателей в тестах “Tracking Shuffled Objects” и “Penguins in a Table”.
Новая модель, благодаря своей модульной и адаптируемой структуре, обещает преимущества для приложений, требующих обработки естественного языка .
arxiv.org
Kepler Robotics представила Forerunner K2, новое поколение гуманоидного робота, предназначенного для коммерческого использования.
K2 обладает 52 степенями свободы, улучшенной прочностью рук и ног, а также упрощенной конструкцией для удобства производства и обслуживания. Робот оснащен пятипалыми кистями с 11 степенями свободы, способными поднимать до 15 кг каждая.
K2 работает от аккумулятора емкостью 2,33 кВтч, обеспечивающего до 8 часов автономной работы. Усовершенствованная система зрения и навигации позволяет роботу лучше ориентироваться в окружающей среде и быстро реагировать на изменения.
Kepler проводит испытания K2 на объектах клиентов, где он выполняет задачи по обработке материалов, контролю качества и патрулированию.
newatlas.com
Китайская технологическая компания CasTianta Tech Co., Ltd., специализирующаяся на управлении коммерческими спутниками, представила LLM Huashan для повышения надежности управления космическими аппаратами.
Модель Huashan использует ИИ для помощи пользователям в управлении космическими аппаратами, расчете и анализе орбиты и генерации кода команд. Huashan предоставляет программную платформу для управления объектами в космосе, обучение персонала и интеллектуального управления посредством голосового и текстового взаимодействия.
macaubusiness.com
Власти Гонконга опубликовали ранюю версию рекомендаций по "ответственному" использованию ИИ в финансовом секторе. Их цель - помочь финансовым учреждениям в реализации потенциала ИИ, одновременно обеспечивая защиту данных, кибербезопасность и интеллектуальную собственность. Финансовые учреждения должны будут разработать стратегию управления ИИ и применять подход, основанный на оценке рисков.
Гонконгский университет науки и технологий (HKUST) предоставит доступ к своей собственной модели ИИ, вычислительным ресурсами консультационно-обучающие услуги. Полиция Гонконга будет укреплять меры киберполиции, а Совет по инвесторам и финансовому образованию запустит инициативы по информированию общественности о влиянии ИИ на розничные инвестиции.
thecyberexpress.com
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍14❤5🔥4
НИВЦ МГУ разработал RuAdaptQwen-3B – адаптированную версию модели Qwen2.5_3B.
Ключевой элемент адаптации - Learned Embedding Propagation (LEP) . Это метод, позволяющий эффективно интегрировать улучшенную токенизацию в существующие инструктивные модели.
Вместо полной замены токенизатора, LEP корректирует эмбединги, чтобы обеспечить лучшую совместимость с слоями модели.
Новый токенизатор, используемый в RuAdaptQwen-3B, учитывает специфику русского языка, сохраняя при этом высокую производительность на английском. Это позволило ускорить инференс русскоязычного текста до 60%.
Оценка в бенчмарке Ru-Arena-General принесла RuAdaptQwen-3B 66 баллов, она превзошла большинство моделей с 7-8 млрд. параметров.
Квантованная версия
@ai_machinelearning_big_data
#AI #ML #LLM #MSU #RuQwen
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍37❤8🔥6
Как ускорить обучение нейросетей и обработку данных?
С помощью мощных видеокарт GPU: RTX 2080Ti и RTX 4090. Они подойдут для решения сложных графических задач, обучения нейросетей и выполнения сложных вычислений в области ИИ
Арендовать и потестить эти видеокарты можно в Selectel — одном из ведущих российских провайдеров ИТ-инфраструктуры.
Что вы сможете при аренде облачного сервера с GPU в Selectel:
● Получить ресурсы для обучения ML-моделей
● Платить только за время использования — почасовая ставка от 29 рублей
● Использовать лучшее железо — к вашим услугам процессоры с частотами 2,4-2,6 Ггц
● Масштабироваться без проблем — мгновенный переезд на более мощную видеокарту
● Выбирать из широкого ассортимента GPU-карт — доступно 9 моделей под самые разные задачи
● Чувствовать себя спокойно — предоставляем бесплатную защиту от DDoS-атак.
Арендовать серверы с почасовой оплатой
С помощью мощных видеокарт GPU: RTX 2080Ti и RTX 4090. Они подойдут для решения сложных графических задач, обучения нейросетей и выполнения сложных вычислений в области ИИ
Арендовать и потестить эти видеокарты можно в Selectel — одном из ведущих российских провайдеров ИТ-инфраструктуры.
Что вы сможете при аренде облачного сервера с GPU в Selectel:
● Получить ресурсы для обучения ML-моделей
● Платить только за время использования — почасовая ставка от 29 рублей
● Использовать лучшее железо — к вашим услугам процессоры с частотами 2,4-2,6 Ггц
● Масштабироваться без проблем — мгновенный переезд на более мощную видеокарту
● Выбирать из широкого ассортимента GPU-карт — доступно 9 моделей под самые разные задачи
● Чувствовать себя спокойно — предоставляем бесплатную защиту от DDoS-атак.
Арендовать серверы с почасовой оплатой
🤣21👍7🥱7🗿4🔥3❤2😁2💔1
Stability AI, следуя своему анонсу, выпустила в открытый доступ младшую text-to-image модель семейства Stable diffusion 3.5 - Medium c 2.6 млрд. параметров.
Модель позиционируется в семействе SD 3.5 как решение для работы на потребительском оборудовании.
SD 3.5 Medium способна генерировать изображения с разрешением от 0.25 до 2 мегапикселей, а для запуска с максимальной производительностью ей требуется всего 9.9 Gb VRAM.
Stable Diffusion 3.5 Medium претерпела ряд изменений в архитектуре (MMDiT-X вместо MMDiT ) и протоколах обучения для корреляции качества с числом параметров, связности и возможности генерации изображений с различным разрешением.
SD 3.5 Medium прошла обучение на разрешениях от 256 до 1440 пикселей.
Текстовые энкодеры не претерпели изменений, остались те же, что и у Stable Diffusion 3.5 Large: OpenCLIP-ViT/G, CLIP-ViT/L и T5-xxl.
Для локального использования модели рекомендуется использовать ComfyUI (базовый воркфлоу) или или Diffusers.
# install Diffusers
pip install -U diffusers
# Inference
import torch
from diffusers import StableDiffusion3Pipeline
pipe = StableDiffusion3Pipeline.from_pretrained("stabilityai/stable-diffusion-3.5-medium", torch_dtype=torch.bfloat16)
pipe = pipe.to("cuda")
image = pipe(
"A happy woman laying on a grass",
num_inference_steps=28,
guidance_scale=3.5,
).images[0]
image.save("woman.png")
#AI #ML #Diffusion #SD3_5Medium #StabilityAI
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍23🔥13🎉5❤3👏2
Финансовый директор OpenAI Сара Фрайер на конференции Money 20/20 заявила, что внутренние исследовательские модели OpenAI способны выполнять задачи на уровне PhD в различных дисциплинах. Эти модели, основанные на взаимодействии моделей рассуждений, подобных o1-preview, и базовых моделей, таких как GPT, демонстрируют «невероятные результаты».
Фрайер отметила, что ИИ больше не является экспериментальной технологией, а стал фундаментальным компонентом современной технологической инфраструктуры. Она предположила, что AGI может быть ближе, чем думает общественность.
wallstreetpit.com
Теперь пользователи могут загружать изображения и задавать вопросы, основанные на их содержании. Grok может выполнять глубокий анализ изображения и объяснять даже визуальные шутки. В настоящее время функция доступна только для статичных изображений.
Илон Маск намекнул в X, что на очереди - возможность загрузки файлов. В августе xAI выпустила модели Grok-2 и Grok-2 Mini. Обе модели доступны в чат-боте Grok для пользователей X Premium и X Premium+.
gadgets360.com
DeepMind представила ИИ-медиатора под названием Habermas Machine, предназначенного для поиска точек соприкосновения в спорах между людьми с противоположными точками зрения.
Habermas Machine использует LLM Chinchilla для обработки аргументов сторон и создания потенциальных «групповых заявлений», объединяющих разные точки зрения. После создания "заявления" модель вознаграждения предсказывает, насколько вероятно, что каждая сторона положительно оценит каждое заявление. Наиболее предпочтительное заявление отправляется всем участникам дискуссии. Участники могут вносить изменения в заявление, если это происходит - создается обновленная версия и т.д.
Тестирование Habermas Machine в Великобритании показало, что система эффективно работает с общими вопросами, увеличивая уровень согласия с 39% до 51%. В случае более острых вопросов, например, связанных с Brexit, уровень согласия не повысился.
extremetech.com
Model Depot состоит из более 100 моделей для различных задач: чат, программирование, математика, вызов функций и эмбеддингов. Model Depot включает в себя популярные SLM: Microsoft Phi-3, Misеtal, Llama, Yi и Qwen, а также специализированные модели LLMWare, оптимизированные для аппаратного обеспечения Intel в форматах OpenVINO, ONNX и GGUF. Model Depot доступна на Huggingface.
Вместе с моделями, LLMWare предлагает библиотеку с открытым исходным кодом, позволяющую разработчикам создавать рабочие процессы на основе SLM, используя формат OpenVINO.
huggingface.co
Open Source Initiative (OSI) опубликовала версию 1.0 своего определения Open Source AI (OSAID) с целью стандартизации понятия "open source" в сфере ИИ. Для соответствия OSAID, модель ИИ должна предоставлять достаточно информации о своем дизайне для "существенной" возможности ее воссоздания, а также раскрывать информацию о данных обучения, включая их происхождение, обработку и доступность.
OSAID также определяет права разработчиков на использование Open Source AI: свободное использование, модификация и создание производных моделей без необходимости получения разрешений.
OSI не обладает механизмами принуждения к соблюдению OSAID, но намерена выявлять модели, которые не соответствуют определению, но позиционируются как "open source".
Критики OSAID указывают на недостаточную проработку вопросов лицензирования данных обучения и авторских прав на модели ИИ.
techcrunch.com
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍20❤7😁6🔥2🤔1
Ты давно мечтаешь открыть собственное дело, но не уверен, с чего начать? В Академии инноваторов есть все необходимое, чтобы твоя идея превратилась в успешный бизнес!
В рамках программы Академии инноваторов ты получишь возможность:
- Работать под руководством личного наставника.
- Откликаться на предложения от ведущих технологических компаний.
- Участвовать в образовательной программе по развитию и масштабированию стартапа вместе с экспертами.
- Провести пилотирование своего проекта.
- Презентовать свою разработку на демо-дне перед потенциальными клиентами и инвесторами.
Почему стоит выбрать Академию инноваторов? Это сообщество, где:
- Более 21 тысячи единомышленников.
- Свыше 4 тысяч инновационных проектов.
- Более 350 успешных стартапов.
- Привлечено свыше 250 миллионов рублей инвестиций и грантов.
Что еще предлагает академия?
- Возможность значительно расширить сеть контактов – завести полезные знакомства среди российских и международных предпринимателей.
- Найти инвесторов для своего проекта.
- Развить свой стартап до новых высот.
Какие перспективы ждут выпускников?
Успех! К примеру, команда «Тьюбот», разработавшая внутритрубных роботов для диагностики и ремонта сложных трубопроводов, благодаря участию в академии привлекла 50 миллионов рублей вложений, продала одного из своих роботов крупному химическому предприятию и заработала 8 миллионов рублей прибыли. Кроме того, они запустили серийные продажи и уже получили несколько предварительных заказов.
Как стать участником?
Подавай заявку на сайте до 28 января. Самые актуальные новости и рекомендации по оформлению заявки ищи в нашем канале и чате.
Так что вперед, действуй и покоряй мир своим стартапом!
В рамках программы Академии инноваторов ты получишь возможность:
- Работать под руководством личного наставника.
- Откликаться на предложения от ведущих технологических компаний.
- Участвовать в образовательной программе по развитию и масштабированию стартапа вместе с экспертами.
- Провести пилотирование своего проекта.
- Презентовать свою разработку на демо-дне перед потенциальными клиентами и инвесторами.
Почему стоит выбрать Академию инноваторов? Это сообщество, где:
- Более 21 тысячи единомышленников.
- Свыше 4 тысяч инновационных проектов.
- Более 350 успешных стартапов.
- Привлечено свыше 250 миллионов рублей инвестиций и грантов.
Что еще предлагает академия?
- Возможность значительно расширить сеть контактов – завести полезные знакомства среди российских и международных предпринимателей.
- Найти инвесторов для своего проекта.
- Развить свой стартап до новых высот.
Какие перспективы ждут выпускников?
Успех! К примеру, команда «Тьюбот», разработавшая внутритрубных роботов для диагностики и ремонта сложных трубопроводов, благодаря участию в академии привлекла 50 миллионов рублей вложений, продала одного из своих роботов крупному химическому предприятию и заработала 8 миллионов рублей прибыли. Кроме того, они запустили серийные продажи и уже получили несколько предварительных заказов.
Как стать участником?
Подавай заявку на сайте до 28 января. Самые актуальные новости и рекомендации по оформлению заявки ищи в нашем канале и чате.
Так что вперед, действуй и покоряй мир своим стартапом!
🔥8🤣5❤3👍3🌭3
Centaur - модель, которая способная предсказывать и симулировать поведение человека в любом психологическом эксперименте, который можно описать на естественном языке.
Это первая модель, соответствующая большинству критериев Ньюэлла для универсальной теории познания, включая способность действовать как почти произвольная функция окружающей среды и работать в реальном времени.
Centaur создана на основе Llama 3.1 70B и дообучена на наборе данных Psych-101, включающем данные 60 000 участников, давших суммарно 10 000 000 ответов в 160 психологических экспериментах.
Psych-101 охватывает широкий спектр областей когнитивной науки: игровые автоматы, принятие решений, память, обучение с учителем, процессы принятия решений Маркова и др.
Centaur дообучалась методом QLoRA: к каждому слою базовой Llama 3.1 70B были добавлены низкоранговые адаптеры, при этом параметры базовой модели остались неизменными.
Обучение проводилось на всем наборе данных с использованием стандартной функции потерь кросс-энтропии. Потери маскировались для всех токенов, не соответствующих ответам людей, чтобы итоговая модель фокусировалась на моделировании поведения человека.
В большинстве проведенных экспериментов Centaur превосходит как базовую модель Llama, так и специализированные когнитивные модели, разработанные для конкретных областей психологии.
Кроме того, Centaur обобщает знания на "незнакомые" ситуации, которые не входили в датасет обучения: точно предсказывает поведение при измененных формулировках задач, структурах проблем и даже в совершенно новых областях.
Важный результат экспериментального тестирования - соответствия внутренних представлений Centaur нейронной активности человека.
Это открытие было подтверждено 2 исследованиями, в которых внутренние представления модели использовались для предсказания активности мозга. Centaur продемонстрировала улучшенную декодируемость по сравнению с Llama в задачах, связанных с чтением предложений и выполнением двухэтапных задач.
⚠️ Centaur обучена на наборе данных, в котором выбор человека выражается символами "
<<
" и ">>
". Для оптимальной работы рекомендуется соответствующим образом настроить промпты.
⚠️ Модель запускается на 80 GB GPU.
@ai_machinelearning_big_data
#AI #ML #LLM #Centaur
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍30❤8🔥4🤔2