222K subscribers
3.85K photos
642 videos
17 files
4.47K links
Погружаемся в машинное обучение и Data Science

Показываем как запускать любые LLm на пальцах.

По всем вопросам - @haarrp

@itchannels_telegram -🔥best channels

Реестр РКН: clck.ru/3Fmqri
Download Telegram
✔️ Релиз библиотеки Transformers.js v3.

Hugging Face выпустила Transformers.js v3, с улучшенной поддержкой WebGPU, новых форматов квантования и 120 поддерживаемых архитектур.

WebGPU обеспечивает вычисления на GPU непосредственно в браузере, что делает Transformers.js v3 до 100 раз быстрее по сравнению с WASM.

Новые форматы квантования позволяют выбирать уровень точности модели: fp32, fp16, q8 и q4. Среди поддерживаемых архитектур - Phi-3, Gemma, LLaVa, Florence-2 и MusicGen.

Transformers.js v3 совместима с Node.js, Deno и Bun, а также доступна на NPM - @huggingface/transformers.
huggingface.co

✔️ Британский регулятор начал расследование партнерства Alphabet и Anthropic.

Британское управление по конкуренции и рынкам (CMA) начало расследование партнерства Alphabet, материнской компании Google, с Anthropic.

Alphabet инвестировала 500 миллионов долларов в Anthropic в 2023 году с обещанием дополнительных 1,5 миллиарда долларов в будущем.

CMA изучает, не приведет ли партнерство к ограничению конкуренции на рынке. Регулятор должен принять решение о дальнейших действиях к 19 декабря 2024 года. Alphabet и Anthropic пока не прокомментировали ситуацию.
cityam.com

✔️ Fujitsu представила динамический распределитель ресурсов для ИИ-серверов и HPC-систем.

Fujitsu разработала программное обеспечение, для оптимизации использования GPU -"Сomputing broker".

Computing broker способен перераспределять процессы даже во время их работы, отдавая приоритет задачам с более высокой эффективностью выполнения. В ходе предварительного тестирования Fujitsu удалось достичь увеличения производительности обработки GPU до 2,25 раз.

Технология также эффективно управляет памятью, обрабатывая рабочие нагрузки ИИ объемом до 150 ГБ, что примерно в пять раз превышает физическую емкость протестированных GPU. Fujitsu планирует расширить возможности технологии для поддержки нескольких GPU, установленных на нескольких серверах.
techspot.com

✔️ CEO OpenAI опроверг сообщение о GPT-5 Orion.

В статье The Verge утверждалось, что Orion будет ориентирован на корпоративных клиентов и будет доступен через API. В публикации также говорилось о планах Microsoft разместить Orion в Azure уже в ноябре.

Сэм Альтман назвал эту информацию "фейковыми новостями", не уточнив, какие именно детали публикации не соответствуют действительности. OpenAI недавно выпустила модели o1 и o1-mini, но их восприятие было сдержанным из-за высокой стоимости эксплуатации и ограниченных возможностей по сравнению с GPT.
venturebeat.com

✔️ В Китае построили дорогу длиной 157 километров без участия людей.

10 беспилотных машин распределяли смесь из утрамбованных камней и песка, а затем нанесли битумное связующее для формирования дорожного полотна. Автономные катки выравнивали поверхность и обеспечивали необходимую твердость. Дроны контролировали ход строительства и проводили топографические измерения, гарантируя соблюдение заданных параметров. Несколько сотрудников удаленно контролировали работу техники.

Новая технология позволила выполнить укладку дороги за один проход, исключив необходимость в дополнительных работах. Разработчики алгоритмов проекта отмечают, что роботизированная укладка дороги обеспечивает миллиметровую точность и более высокую скорость по сравнению с традиционными методами.

Проект является продолжением скоростной автомагистрали Пекин-Гонконг, общая протяженность которой составляет 664 километра. Построенный участок соединяет Пекин с Хэбэем.
xatakaon.com

@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍29🔥2711😍2
🌟 Mochi 1: открытая text-to-video модель генерации видео.

Mochi 1 - модель от компании Genmo для генерации видео на новой архитектуре Asymmetric Diffusion Transformer (AsymmDiT).

Mochi 1 была обучена с нуля и получила 10 млрд. параметров. Это самая большая генеративная модель видео, когда-либо выпущенная в открытый доступ.

Модель способна генерировать видео с разрешением 480p длительностью до 5,4 секунд со скоростью 30 кадров в секунду. AsymmDiT обрабатывает текстовые запросы используя одну языковую модель T5-XXL.

Вместе с Mochi 1 Genmo выпустила в открытый доступ свой видеокодер AsymmVAE, который сжимает видео до 128-кратного размера, с пространственным 8x8 и временным 6x сжатием до 12-канального латентного пространства.

Genmo планирует выпустить улучшенную вервию - Mochi 1 HD до конца года, которая будет поддерживать разрешение 720p.


⚠️ Для работы модели требуется не менее 4 GPU H100.

⚠️ В некоторых случаях при экстремальном движении могут возникать незначительные деформации и искажения.

⚠️ Mochi оптимизирована для фотореалистичных стилей, поэтому не очень хорошо работает с анимированным контентом.

▶️ Локальная установка и инференс c Gradio UI или в CLI:

# Clone repo
git clone https://github.com/genmoai/models
cd models

# Install using uv
pip install uv
uv venv .venv
source .venv/bin/activate
uv pip install -e .

# Inference with Gradio UI
python3 -m mochi_preview.gradio_ui --model_dir "<path_to_model_directory>"

# Inference with CLI
python3 -m mochi_preview.infer --prompt "%prompt%" --seed 1710977262 --cfg_scale 4.5 --model_dir "<path_to_model_directory>"


📌Лицензирование: Apache 2.0 license.


🟡Страница проекта
🟡Модель
🟡Demo
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #Text2Video #AsymmDiT #Mochi1
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍27🔥65🌚1😴1
🌟 PocketPal AI: локальный запуск LLM на IOS и Android.

PocketPal AI - проект Ai-ассистента на базе SLM, которые запускаются локально на iOS и Android без необходимости подключения к Интернету:

🟢PocketPal AI для iOS в App Store

🟢PocketPal AI для Android в Google Play

Приложения на обеих платформах позволяет выбирать модели, настраивать параметры инференса (системный промпт, температура, шаблоны чата и BOS), следить за показателями производительности в реальном времени и имеют функцию автоматической выгрузки моделей из памяти устройства, когда приложение в фоновом режиме.

Список моделей в приложении (загружаются вручную из меню):

🟠H2O Danube 2 and 3;
🟠Microsoft Phi;
🟠Google Gemma 2;
🟠Qwen.

Помимо этих моделей, можно загрузить любую модель в формате GGUF через опцию "Add Local Model" в меню моделей приложения на устройстве.

В планах проекта расширение списка поддерживаемых моделей, улучшение функций пользовательского интерфейса и поддержка большего количества версий Android/

⚠️ Требования для локальная разработки проекта PocketPal:

🟢Xcode для iOS или Android Studio;
🟢Node.js версии 18 или выше;
🟢Yarn;
🟢React Native CLI.

▶️ Локальная установка и запуск для самостоятельной разработки :

# Clone repository
git clone https://github.com/a-ghorbani/pocketpal-ai
cd pocketpal-ai

# Install dependencies
yarn install

# Install dependencies iOS only
cd ios
pod install
cd ..

# Run App via iOS Simulator
yarn ios

# Run App via Android Simulator
yarn android


📌Лицензирование: MIT License.


🖥GitHub

@ai_machinelearning_big_data

#AI #ML #SLM #iOS #Android
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
22👍12🔥9😁1
🌟 DuoAttention: эффективный метод для работы с длинными контекстами в LLM.

DuoAttention - метод, который решает проблему LLM при работе с длинными текстами. Эта неэффективность проявляется в большом потреблении памяти и замедлении работы модели. DuoAttention позволяет сократить использование памяти и ускорить обработку длинных текстов без ущерба для точности модели.

Он основан на разделении attention heads в LLM на два типа: «Retrieval Heads» и «Streaming Heads»:

🟢 Retrieval Heads - это небольшая часть attention heads, критически важная для обработки длинных контекстов, которым требуется полное внимание ко всем токенам.

🟢 Streaming Heads, напротив, составляют большинство attention heads и фокусируются преимущественно на последних токенах и так называемых "точках притяжения" внимания (attention sinks).

DuoAttention использует эту дихотомию, применяя полный KV-кэш только к Retrieval Heads, а для Streaming Heads использует облегченный KV-кэш постоянной длины, который хранит только "точки притяжения" и последние токены.

Проведенные эксперименты показывают, что DuoAttention может снижать использование памяти до 2,55 раз для моделей MHA и 1,67 для моделей GQA, а также ускоряет декодирование в 2,18 раз для моделей MHA и 1,50 для моделей GQA.

В сочетании с квантованием DuoAttention позволяет модели Llama-3-8B декодировать текст с длиной контекста 3,3 млн. токенов на одном GPU A100, это примерно 6,4-кратное увеличение емкости по сравнению со стандартным развертыванием FP16 с полным вниманием.

▶️ Модели, которые поддерживают инференс с патчем DuoAttention:

🟢Llama-2-7B-32K-Instruct;
🟢Llama-3-8B-Instruct-Gradient-1048k;
🟢Llama-3-8B-Instruct-Gradient-4194k;
🟠Mistral-7B-Instruct-v0.2;
🟠Mistral-7B-Instruct-v0.3;
🟠Meta-Llama-3.1-8B-Instruct.

▶️ Установка окружения для запуска инференса с DuoAttention :

conda create -yn duo_demo python=3.10
conda activate duo_demo

# Install DuoAttention
pip install -e .

conda install -y git
conda install -y nvidia/label/cuda-12.4.0::cuda-toolkit
conda install -y nvidia::cuda-cudart-dev

# Install QServe
git clone [email protected]:mit-han-lab/qserve.git
cd qserve
pip install -e .
pip install ninja packaging
pip install flash-attn==2.4.1 --no-build-isolation
cd kernels
python setup.py install

# Install FlashInfer
pip install flashinfer -i https://flashinfer.ai/whl/cu121/torch2.3/
pip install tensor_parallel



📌Лицензирование: MIT License.


🟡Arxiv
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #LLM #DuoAttention #LongContext
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍348🔥8
📎 ML в медицине: дайджест за 21 - 27 октября 2024 г.


▶️Модели машинного обучения и бенчмарки

🔘BioMistral-NLU: модель с повышенным пониманием медицинской терминологии.
Модель на основе BioMistral настроенная на выполнение инструкций для 7 задач здравоохранения.

🔘MedRegA: интерпретируемая двуязычная MMLM для медицинских задач.
MMLM, способная обрабатывать медицинские задачи на уровне изображения и области, частично имитируя работу врача.

🔘PanDerm: базовая MMLM для дерматологии.
MMLM для дерматологии, обученная методом SFT на наборе данных из 2 млн. изображений заболеваний кожи.

🔘MoRE: MMLM для анализа рентгеновских снимков, ЭКГ и медицинских заключений.
Первая в медицинской сфере модель для анализа рентгеновских снимков, электрокардиограмм (ЭКГ) и медицинских заключений.


▶️Фреймворки и методологии

🔘Метод "Обратной диффузия во времени" для обнаружения дипфейков в медицинских изображениях.
Метод, основанный на диффузионных вероятностных моделях шумоподавления (DDPM).

🔘REFLECTOOL: агент для решения клинических задач.
Система для решения сложных медицинских задач с использованием специализированных инструментов.

🔘GEMCODE: Генеративный метод для разработки сокристаллов с улучшенной таблетируемостью.
Конвейер, разработанный специалистами Ивановского государственного химико-технологического университета для ускоренной разработки действующих веществ лекарственных средств.

🔘VISAGE: синтез видео лапароскопических операций с использованием графов действий.
Метод, основанный на диффузионных моделях и графах действий, который позволяет синтезировать реалистичные видео лапароскопических операций.

🔘MPP: интеграция метаболической информации в LLM для выявления аномалий во временных рядах клинических данных.
Методика, которая интегрирует знания о метаболических путях в LLM для повышения точности выявления аномалий.

🔘SleepCoT: алгоритм для персонализированного управления здоровьем сна.
Алгоритмическая модель для персонализированного управления здоровьем сна с использованием метода CoT.

🔘ALCD: Противодействие галлюцинациям в LLM.
Метод, который устраняет галлюцинации, связанные с идентификацией несуществующих сущностей и ошибками классификации.


▶️Медицинские LLM-приложения

🔘LMLPA: инструмент для лингвистической оценки личности LLM.
Инструмент для измерения личностных черт LLM на основе анализа их текстовых ответов.

🔘Cистема обратной связи для обучения медицинским процедурам.
Система обратной связи по медицинским процедурам для студентов-медиков и обучения медперсонала.


▶️Исследования и обзоры

*️⃣Storytelling XAI: повышение доверия к ИИ в медицине.
Комбинация методов дистилляции знаний и интерпретации моделей для создания комплексных объяснений, адаптированных для медицинских специалистов и специалистов по ML.

*️⃣Оценка объяснимого ИИ (XAI) с помощью LLM.
Исследование о потенциале замены людей на LLM для оценки ИИ-систем. Спойлер - LLM лучше, дешевле и эффективней.

*️⃣ Выявление и устранение предвзятости в LLM для клинических решений.
Методика "Контрфактические вариации пациента" (CPV) для оценки предвзятости LLM в сложных клинических случаях. Спойлер - устранить предвзятость не получается.


🔜 Читать полный дайджест


@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
19👍11🔥6
📌Учебное пособие по диффузионным моделям для обработки изображений и СV.

Учебник Стэнли Чана, профессора кафедры электротехники, вычислительной техники и статистики Purdue University (США), содержит ультраполезные знания в области диффузионных моделей в контексте обработки изображений и CV. Он доступно и детально объясняет сложные концепции и подходит как опытным профессионалам, так и тем, кто только начинает изучать эту область.

Для профессионалов, уже работающих с диффузионными моделями или стремящихся углубить свои знания, этот учебник послужит отличным ресурсом, который предоставляет прочную основу для понимания и применения концепций в прикладных задачах.

▶️ Содержание:

Вариационный автоэнкодер (VAE)

🟢Структурные элементы VAE
🟢Нижняя граница доказательства (ELBO
🟢Оптимизация в VAE
🟢Заключение и ограничения

Вероятностная модель диффузионного денойза (DDPM)

🟠Базовые элементы DDPM
🟠Нижняя граница доказательства (ELBO)
🟠Распределение обратного процесса
🟠Обучение и инференс
🟠Предсказание шума
🟠Неявная модель диффузионного денойза (DDIM)
🟠Заключение и преимущества DDPM и DDIM

Динамика сопоставления баллов Ланжевена (SMLD)

🟢Выборка из распределения
🟢Функция оценки Штейна
🟢Методы сопоставления баллов
🟢Итоги по SMLD

Стохастическое дифференциальное уравнение (SDE)

🟠От итерационных алгоритмов к обыкновенным дифференциальным уравнениям
🟠Что такое SDE?
🟠SDE для DDPM и SMLD
🟠Численные решатели для ODE и SDE
🟠Заключение и взаимосвязь между DDPM, SMLD и SDE

Уравнения Ланжевена и Фоккера-Планка

🟢Броуновское движение
🟢Мастер-уравнение
🟢Разложение Крамерса-Мойала
🟢Уравнение Фоккера-Планка
🟢Заключение и связь между SDE и уравнением Фоккера-Планка


🟡Arxiv


@ai_machinelearning_big_data

#AI #ML #Tutorial #Duffusion
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍3011🔥9❤‍🔥2
🌟 SageAttention: метод квантования механизма внимания в архитектурах трансформеров.

Внимание - ключевой компонент трансформеров, но его квадратичная сложность вычислений становится проблемой при обработке длинных последовательностей. Квантование успешно применяется для ускорения линейных слоев, но оно мало изучено применительно к механизму внимания.

SageAttention - экспериментальный метод, который использует 8-битное квантование механизма внимания для ускорения вычислений и сохранения точности модели.

Метод не требует специального обучения и конвертации моделей в какой-либо формат, он применяется к существующим трансформеным моделям в режиме "plug-and-play".

Ключевые особенности метода:

🟢Для уменьшения ошибки квантования используется сглаживания матртицы К (среднее значение K вычитается по всем токенам);

🟢Квантование Q и K в INT8;
INT8 в четыре раза быстрее, чем в FP16, и в два раза быстрее, чем в FP8.

🟢Matmul PV выполняется с FP16-накопителем;
Умножение матриц в высокой разрядности позволяет ускорить вычисления без потери точности.

🟢Адаптивное квантование;
Для каждого слоя внимания выбирается наиболее быстрый вариант квантования.

SageAttention реализован с использованием Triton и оптимизирован для GPU RTX4090 и 3090. Метод превосходит FlashAttention2 и xformers по скорости примерно в 2,1 и 2,7 раза соответственно.

Тестирование на Llama2, CogvideoX, Unidiffuser и TIMM подтвердило сохранение метрик точности при использовании SageAttention.

⚠️ Использование SageAttention рекомендуется с версиями:

🟠python>=3.11;
🟠torch>=2.4.0;
🟠triton-nightly.

⚠️ SageAttention оптимизирован для RTX4090 и RTX3090. На других архитектурах GPU прирост производительности может быть незначительным.

▶️Пример использования:

# Install sageattention
pip install sageattention

# How to use
from sageattention import sageattn
attn_output = sageattn(q, k, v, is_causal=False, smooth_k=True)

# Plug-and-play example with Cogvideo
# add the following codes and run
from sageattention import sageattn
import torch.nn.functional as F

F.scaled_dot_product_attention = sageattn

# Specifically
cd example
python sageattn_cogvideo.py


📌Лицензирование: BSD-3-Clause license.


🟡Arxiv
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #SageAttention #Transformers
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍268🔥2
✔️ Google разрабатывает ИИ-инструмент, способный управлять браузером для выполнения задач.

Google работает над технологией ИИ под рабочим названием Project Jarvis, которая позволит ИИ автономно управлять веб-браузером для выполнения задач поиска информации и совершения покупок.

Google планирует представить Project Jarvis в декабре, одновременно с выпуском новой большой языковой модели Gemini. Разработка Google направлена на то, чтобы ИИ мог напрямую взаимодействовать с компьютером или браузером пользователя.

Примечательно, что конкурент Google по технологиям поиска, Microsoft, тоже работает над аналогичной технологией.
finance.yahoo.com

✔️ Amazon и Мичиганский университет разработали модель, которая повышает связность текста, генерируемого ИИ.

Модель, основанная на усовершенствованной архитектуре трансформера, эффективнее обрабатывает длинные тексты сохраняя контекст, разбивая его на сегменты и используя механизм, учитывающий ошибки.

В ходе экспериментов модель продемонстрировала улучшение точности на 2% по сравнению со стандартными трансформерами, а также рост показателей в тестах “Tracking Shuffled Objects” и “Penguins in a Table”.

Новая модель, благодаря своей модульной и адаптируемой структуре, обещает преимущества для приложений, требующих обработки естественного языка .
arxiv.org

✔️ Китайская компания Kepler представила гуманоидного робота Forerunner K2.

Kepler Robotics представила Forerunner K2, новое поколение гуманоидного робота, предназначенного для коммерческого использования.

K2 обладает 52 степенями свободы, улучшенной прочностью рук и ног, а также упрощенной конструкцией для удобства производства и обслуживания. Робот оснащен пятипалыми кистями с 11 степенями свободы, способными поднимать до 15 кг каждая.

K2 работает от аккумулятора емкостью 2,33 кВтч, обеспечивающего до 8 часов автономной работы. Усовершенствованная система зрения и навигации позволяет роботу лучше ориентироваться в окружающей среде и быстро реагировать на изменения.

Kepler проводит испытания K2 на объектах клиентов, где он выполняет задачи по обработке материалов, контролю качества и патрулированию.
newatlas.com

✔️ CasTianta Tech представила ИИ-модель для управления спутниками.

Китайская технологическая компания CasTianta Tech Co., Ltd., специализирующаяся на управлении коммерческими спутниками, представила LLM Huashan для повышения надежности управления космическими аппаратами.

Модель Huashan использует ИИ для помощи пользователям в управлении космическими аппаратами, расчете и анализе орбиты и генерации кода команд. Huashan предоставляет программную платформу для управления объектами в космосе, обучение персонала и интеллектуального управления посредством голосового и текстового взаимодействия.
macaubusiness.com

✔️ Гонконг представил первые рекомендации по применению ИИ в финансовой сфере.

Власти Гонконга опубликовали ранюю версию рекомендаций по "ответственному" использованию ИИ в финансовом секторе. Их цель - помочь финансовым учреждениям в реализации потенциала ИИ, одновременно обеспечивая защиту данных, кибербезопасность и интеллектуальную собственность. Финансовые учреждения должны будут разработать стратегию управления ИИ и применять подход, основанный на оценке рисков.

Гонконгский университет науки и технологий (HKUST) предоставит доступ к своей собственной модели ИИ, вычислительным ресурсами консультационно-обучающие услуги. Полиция Гонконга будет укреплять меры киберполиции, а Совет по инвесторам и финансовому образованию запустит инициативы по информированию общественности о влиянии ИИ на розничные инвестиции.
thecyberexpress.com

@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍145🔥4