223K subscribers
3.83K photos
640 videos
17 files
4.46K links
Погружаемся в машинное обучение и Data Science

Показываем как запускать любые LLm на пальцах.

По всем вопросам - @haarrp

@itchannels_telegram -🔥best channels

Реестр РКН: clck.ru/3Fmqri
Download Telegram
✔️ ORCA Computing представила квантовую систему PT-2.

PT-2 - новейшая система фотонных квантовых систем. Она создана на основе PT-1, которая была успешно развёрнута в 7 локальных средах, и предназначена для коммерческих решений, интегрируемых с высокопроизводительными вычислительными инфраструктурами.

PT-2 обладает улучшенными квантовыми возможностями машинного обучения, согласованными с платформой разработки NVIDIA CUDA-Q, что позволяет интегрироваться с моделями генеративного ИИ. Эта разработка поможет организациям более эффективно внедрять квантовые вычисления в свои рабочие процессы ИИ.
techerati.com

✔️ GitHub выпустили свой ежегодный отчет об индустрии опенсорса.
— В связи с развитием ИИ-ассистентов разработчики активно переходят с JavaScript на Python;
— За 2024 год команды внесли 5,2 миллиарда изменений в 518 миллионов проектов;
— Ожидается, что к 2028 году Индия превзойдет США по числу разработчиков;
— Благодаря доминированию Python использование Jupyter Notebooks увеличилось почти вдвое (+92%).
github.blog/news-insights/

✔️ Google запускает новую функцию поиска в интернете для Gemini API и Google AI Studio.

Google представил функцию "Grounding with Google Search" для Gemini API и Google AI Studio, позволяющую разработчикам получать более точные и актуальные ответы от моделей Gemini, опираясь на данные поиска Google.

Эта функция уменьшает вероятность галлюцинаций и обеспечивает доступ к информации в режиме реального времени, делая приложения ИИ более релевантными. "Grounding" предоставляет ссылки на источники информации и направляет пользователей к соответствующим результатам поиска.

Функция доступна для платных тарифов в Google AI Studio и в API. используя платный уровень.
developers.googleblog.com

✔️ Claude теперь доступен в виде десктопного приложения.

Anthropic выпустила десктопное приложение Claude для Mac и Windows. Приложение практически не отличается от веб-версии и позволяет задавать вопросы, просматривать предыдущие чаты и избранные беседы.

Преимуществом является более удобный доступ к Claude прямо с рабочего стола, без необходимости открывать веб-сайт. Функция “computer use”, позволяющая Claude 3.5 Sonnet управлять компьютером, пока недоступна в приложении.

Anthropic также добавила поддержку диктовки в мобильные приложения Claude для Android и iOS.
theverge.com

✔️ Nvidia потребуется одобрение ЕС для покупки стартапа Run:ai.

Производителю чипов потребуется получить одобрение антимонопольных органов ЕС для приобретения стартапа в области ИИ Run:ai, поскольку сделка может угрожать конкуренции на рынках, где работают обе компании.

Nvidia объявила о покупке израильской компании Run:ai в апреле, сумма сделки составит около 700 миллионов долларов. Хотя сделка не достигает порога оборота ЕС, требующего запроса одобрения, она была направлена в итальянское антимонопольное ведомство, которое, в свою очередь, обратилось в Еврокомиссию.

Технология Run:ai позволяет разработчикам управлять и оптимизировать свою инфраструктуру ИИ.
reuters.com

✔️ Международная группа ученых разрабатывает методы мониторинга безопасности аккумуляторов с помощью ML.

Учёные из Технического университета Дармштадта (Германия) и MIT (США) разработали новые методы анализа безопасности литий-ионных аккумуляторов, используемых в электромобилях и системах хранения энергии.

Метод, сочетающий физические техники с машинным обучением, позволяет обнаруживать зависящие от времени и эксплуатационные изменения в аккумуляторных элементах. Для исследования учёные использовали уникальный набор данных, предоставленный анонимным партнёром: данные 28 аккумуляторных систем, возвращённых производителю из-за проблем. Набор данных включает более 133 миллионов строк данных из 224 аккумуляторных элементов и является одним из первых подобных, ставших общедоступными.

Результаты исследований подтверждают, что часто только одна ячейка в аккумуляторной системе демонстрирует аномальное поведение, которое может повлиять на всю систему.
batteriesnews.com

@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
12👍6🔥3😁1
🌟 InkSight: Преобразование рукописных заметок в цифровой формат с анимацией почерка.

InkSight - модель, разработанная в Google Research, для конвертации изображений рукописных заметок в цифровой формат, воспроизводящий процесс написания. Эта технология, "derendering", позволяет преобразовать физический почерк в цифровую форму, сохраняя его индивидуальность и динамику.

InkSight в отличие от OCR , выполняет захват рукописного текста в виде набора штрихов, а не просто преобразует его в текст.

Процесс преобразования входного изображения с рукописным текстом разбит на три этапа: OCR для извлечения слов, обработка каждого слова по отдельности и замена пиксельного представления слов штрихами.

Для обучения модели используются пары изображений текста и соответствующих цифровых штрихов. Штрихи, полученные из траекторий письма в реальном времени, представляются в виде последовательности точек, а соответствующее изображение создается путем рендеринга этих штрихов.

Уникальный этап в обучении модели - "ink tokenizer", преобразующий точки в формат, удобный для обработки LLM.

Архитектура InkSight вдохновлена моделью Pali и состоит из кодера ViT и кодер-декодера mT5. Были обучены три варианта модели:

🟠Small-i - 340M (ViT B/16 + mT5-base), обучена на датасете JFT-300M;

🟢Small-p - 340М (ViT B/16 + mT5-base), обучена на датасете ImageNet-21k;

🟠Large-i - 1B (ViT L/16 + mT5-large), обучена на датасете JFT-300M.

Все модели используют контекст длиной 1024 для инференса и 128 для ввода.

Результаты качественной оценки с базовым методом GVS (General Virtual Sketching) показали, что модели InkSight более точно воспроизводят текстовое содержимое, игнорируя нерелевантный фон, и лучше справляются с окклюзиями по сравнению с GVS.

Количественная оценка показала, что большинство штрихов, сгенерированных моделью Large-i, сопоставимы по качеству с результатами, полученными вручную.

⚠️ В открытый доступ опубликована модель InkSight small-p в вариантах для запуска на CPU\GPU и TPU, дополнительные материалы, упомянутые в техническом отчете и ноутбук с инфренсом модели на нескольких примерах + пример кода для выполнения инференса.

▶️Локальный запуск клонированием InkSight Demo HF :

# Clone the huggingface space
git clone https://huggingface.co/spaces/Derendering/Model-Output-Playground

# Install the dependencies (skip if you have them already)
pip install gradio gdown

# Run the Gradio Playground
python app.py


📌Лицензирование: Apache 2.0 License.


🟡Страница проекта
🟡Модель
🟡Arxiv
🟡Demo
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #InkSight #GoogleResearch
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍2511🔥8🐳2😁1
✔️ Китайские военные используют ИИ-модель Llama для создания военного ИИ.

В исследовательской статье, опубликованной в июне, 6 китайских ученых из 3 учреждений, связанных с Академией военных наук (AMS) НОАК, описали процесс адаптации версии Llama для создания ChatBIT.

Инструмент был разработан с использованием модели Llama-13B и дополнительных параметров для сбора и обработки разведданных, а также предоставления информации для принятия оперативных решений.

ChatBIT был настроен для «диалога и ответов на вопросы в военной области» и показал производительность, превосходящую некоторые другие модели ИИ, достигая уровня 90% возможностей ChatGPT-4 от OpenAI.

Официальные представители компании-разработчика Llama заявили, что любое использование ее моделей НОАК является несанкционированным и противоречит политике компании.
reuters.com

✔️ ИИ создаёт виртуальный мир Minecraft в режиме реального времени.

Компании Decart и Etched представили версию игры Minecraft, полностью сгенерированную ИИ, без написания кода. Модель Oasis обучалась на миллионах часов игрового процесса Minecraft, изучая физику, окружение и управление игрой.

Демонстрация, созданная с использованием метода предсказания следующего кадра, позволяет пользователям взаимодействовать с виртуальным миром в режиме реального времени, но имеет ограничения: низкое разрешение, кратковременные сеансы игры и "галлюцинации", когда элементы игрового мира внезапно меняются.

Компании планируют улучшить качество генерации с помощью нового чипа Sohu, который, как утверждается, увеличит производительность в 10 раз. В будущем разработчики видят потенциал технологии в создании виртуальных помощников и обучающих программ в режиме реального времени.
technologyreview.com

✔️ ИИ вытесняет фэшн-моделей из индустрии рекламы.

Бренд Mango, один из первых внедривших ИИ-моделей в свою рекламу, сообщил о рекордных доходах. Генеральный директор Mango Тони Руис отметил, что использование ИИ позволяет создавать контент быстрее. Компания планирует использовать виртуальных моделей для всех своих коллекций в будущем.

Согласно Bloomberg, Nike, Louis Vuitton и Levi Strauss & Co. также рассматривают возможность использования ИИ-аватаров. Стоимость их использования значительно ниже, чем оплата услуг реальной модели: $29 в месяц против $35 в час.
nypost.com

✔️ Компания Марка Цукерберга продолжит наполнять свои платформы сгенерированным ИИ контентом.

В ходе конференции с инвесторами, Цукерберг рассказал, что компания планирует добавить "совершенно новую категорию контента", которая будет сгенерирована, обобщена или скомпилирована ИИ. Он подчеркнул, что этот подход основан на успехе рекомендательных алгоритмов, которые уже сейчас продвигают в ленты пользователей контент от незнакомых им авторов.

По словам Марка, ИИ поможет создавать контент, который сделает ленты пользователей "более интересными и увлекательными". В то же время, его компания признает, что рост времени, проведенного пользователями на платформах, достигается за счет снижения качества контента и уменьшения человеческого взаимодействия.
404media.co

✔️ Использование LLM может ухудшить творческие способности человека.

В Университете Торонто исследовали влияние LLM на творческие способности человека. В ходе экспериментов участники выполняли задания на дивергентное и конвергентное мышление, используя GPT-4o для получения идей или структурированного руководства.

Результаты показали, что хотя LLM повышают производительность во время использования, в долгосрочной перспективе они снижают способность человека мыслить творчески самостоятельно. Участники, не использовавшие LLM, продемонстрировали лучшие результаты в тестовой фазе, выполняя задания без помощи модели.

Кроме того, исследование подтвердило, что использование LLM приводит к гомогенизации идей, то есть снижению их разнообразия.
techxplore.com

@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍398😨6🍾5🔥4🤔2❤‍🔥1💘1
🌟 Saliency-Diversified Deep Ensembles: новый метод, позволяющий распознавать неизвестные объекты на фото с помощью ИИ.

Предыдущие разработки в области компьютерного зрения (CV) сопровождались проблемой однородности ансамблей, то есть схожесть их друг с другом снижала качество и разнообразие их оценок.

Для решения этой проблемы ученые из T-Bank AI Research разработали самый точный в мире метод SDDE, в котором используются карты внимания, фокусирующиеся на разных аспектах данных. Таким образом схожесть моделей уменьшается, а их общая точность – повышается, что приводит к более надежной и диверсифицированной идентификации объектов.

Значимость открытия заключается также в снижении рисков ошибок при обработке и анализе фото на 20%. Исследователи научили модель при работе с изображениями учитывать не только те наборы данных, которые использовались при ее обучении, но и незнакомую ей информацию. Благодаря такому подходу, модель стала успешнее обнаруживать ранее неизвестные ей объекты и точнее их идентифицировать.

Эффективность метода ученые оценивали в испытаниях на популярных базах данных: CIFAR10, CIFAR100 и ImageNet-1K. Метод SDDE продемонстрировал наилучшие результаты по сравнению со схожими алгоритмами, такими как Negative Correlation Learning и Adaptive Diversity Promoting.

Метод SDDE будет востребован в сферах, требующих высокой точности анализа, например, в медицинской диагностике и развитии беспилотного транспорта. Открытие ученых было признано мировым научным сообществом на Международной конференции по обработке изображений (IEEE ICIP) в Абу-Даби.

🟡Исследование

@ai_machinelearning_big_data

#news #ai #ml
👍35🔥175👏1
🌟 D-FINE: метод регрессии bounding box в детекторах объектов на основе DETR.

D-FINE - детектор объектов в режиме реального времени, который предлагает улучшение регрессии bounding box в моделях DETR . D-FINE обладает высокой точностью локализации, определяя регрессию рамок как процесс итеративного уточнения распределений вероятностей.

D-FINE состоит из двух компонентов:

🟠Мелкозернистое уточнение распределения (Fine-grained Distribution Refinement, FDR).

FDR преобразует процесс регрессии из предсказания фиксированных координат в итеративное уточнение распределений вероятностей. Эта техника дает более детальное промежуточное представление, что повышает точность локализации.

🟠Глобальная оптимальная локализованная самодистилляция (Global Optimal Localization Self-Distillation, GO-LSD).

GO-LSD - двунаправленная стратегия оптимизации, которая передает знания о локализации из уточненных распределений в более ранние слои модели через самодистилляцию.

Старшие версии D-FINE-L и D-FINE-X достигают 54,0% и 55,8% AP на наборе данных COCO соответственно, работая со скоростью 124 и 78 FPS на GPU NVIDIA T4.

При предварительном обучении на Objects365 D-FINE-L и D-FINE-X показывают 57,1% и 59,3% AP, что выше всех существующих детекторов реального времени.

Разработчики D-FINE предлагают несколько предобученных моделей на датасетах Objects365 и COCO под разные задачи и мощности. Все модели поддерживают инференс на изображениях и видео с использованием ONNX Runtime, TensorRT и PyTorch:

🟢D-FINE-S: Самая компактная и быстрая модель (3.49 мс на T4 GPU);

🟢D-FINE-M: Модель среднего размера, баланс между точностью и скоростью (5.62 мс на T4 GPU);

🟢D-FINE-L: Модель высокой точности (8.07 мс на T4 GPU);

🟢D-FINE-X: Самая крупная и точная модель (12.89 мс на T4 GPU).

D-FINE предоставляет инструменты для обучения, бенчмаркинга, визуализации с помощью FiftyOne и инструкции по организации наборов данных.

▶️Локальный инференс на примере ONNX:

# Create env via conda
conda create -n dfine python=3.11.9
conda activate dfine

# Install requirements for inference
pip install -r tools/inference/requirements.txt

# Install ONNX
pip install onnx onnxsim

# Choose a model
export model=l # s, m, x

# Inference
python tools/inference/onnx_inf.py --onnx model.onnx --input image.jpg # video.mp4


📌Лицензирование: Apache 2.0 License.


🟡Arxiv
🖥Github


@ai_machinelearning_big_data

#AI #ML #DETR #DFine #Detection
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍309🔥6😁2
📎 ML в медицине: дайджест за 28 октября - 3 ноября 2024 г.

▶️Модели машинного обучения и бенчмарки

🔘MassSpecGym: бенчмарк для тандемной масс-спектрометрии.
Комплексная коллекция для идентификации и исследования молекул из данных тандемной масс-спектрометрии.

🔘UltraMedical: набор специализированных биомедицинских моделей.
Модели, датасет для обучения и код для инференса.

🔘EchoFM: Базовая модель для обобщенного анализа эхокардиограмм.
Модель для извлечения признаков из видео эхокардиографии без необходимости ручной разметки.

🔘ImmunoHisto Benchmark: оценка базовых моделей гистопатологии к обобщению для аутоиммунных заболеваний и окрашиванию ИГХ.
Бенчмарк на способность моделей гистопатологии обобщаться на данные вне распределения, полученные с помощью иммуногистохимического окрашивания тканей при аутоиммунных заболеваниях.

🔘Оценка LLM в задачах консультирования по вопросам психического здоровья.
Бенчмарк, основанный на Национальном экзамене по клиническому консультированию в области психического здоровья (NCMHCE), используемом в США.

▶️Фреймворки и методологии

🔘FEDKIM: внедрение медицинских знаний в LLM с использованием федеративного обучения.
Метод внедрения медицинских знаний через федеративное обучение, использующий легковесные модели и модуль M3OE

🔘ZALM3: согласованиe текста и изображений с помощью контекста в многоэтапных диалогах.
Zero-shot-методика, которая решает проблему низкого качества изображений используя текстовый контекст.

🔘Flex-MoE: архитектура комбинирования данных разной модальности.
Архитектура для решения проблемы обучения с пропусками в мультимодальных данных, использующая "банк отсутствующих модальностей".

🔘HaarPSIMED: адаптация метрики HaarPSI для медицинских изображений.
Оптимальная конфигурация метрики HaarPSI для оценки качества медицинских изображений.

🔘MAISI: генерация синтетических 3D КТ-изображений с помощью диффузионных моделей.
Метод генерации реалистичных КТ, который решает проблемы нехватки данных и конфиденциальности в медицинской визуализации.

🔘Cough-E: энергоэффективный алгоритм обнаружения кашля на периферийных устройствах.
Алгоритм, который использует аудио и кинематические данные для точного обнаружения кашля на периферийных устройствах с ограниченными ресурсами.

▶️Медицинские LLM-приложения

🔘DiaMond: мультимодальная система диагностики деменции.
Система на архитектуре ViT для диагностики болезни Альцгеймера и лобно-височной деменции.

🔘LLM-Forest: метод обработки пропущенных данных в медицинских таблицах с использованием LLMs.
Метод использования ансамбля языковых моделей для точного заполнения пропусков в медицинских данных.

🔘PFMVG: параметрическая настройка медицинских MMLM для локализации объектов на изображениях.
Эффективная настройка медицинских мультимодальных языковых моделей для точной локализации патологий на изображениях.

🔘TrialMind: синтез клинических данных с LLM.
Генеративный конвейер для повышения эффективности поиска, отбора и извлечения данных из медицинской литературы.

🔘MDAgents: принятие решений с использованием LLMs.
Многоагентная архитектура на основе LLM для автоматизации принятия решений.

🔘Matchmaker: самообучающаяся программа на основе LLM для сопоставления схем данных.
Автоматическое и высокоточное сопоставления медицинских схем данных с LLM.

▶️Исследования и обзоры

*️⃣Оценка восприятия физического мира языковыми моделями в 3D-среде Animal-AI.
Авторы разработали фреймворк LLM-AAI, который позволяет LLM взаимодействовать со средой Animal-AI с помощью простого языка сценариев.

*️⃣Потенциал использования LLM для генерации экзаменационных вопросов по медицине.
Статья о возможности применения LLM для создания вопросов и ответов к квалификационным экзаменам по медицине.

*️⃣Уменьшение галлюцинаций в QA-системах с помощью LLM и графов знаний.
В статье исследуется проблема галлюцинаций LLM и предлагается решение в виде гибридного подхода - сочетание LLM с графами знаний. Спойлер - это работает.


🔜 Читать полный дайджест


@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
👍15🔥156
🌟 Run:ai Model Streamer - ускорение загрузки LLM.

Run:ai Model Streamer – Python SDK, разработанный для оптимизации загрузки моделей машинного обучения. Он поддерживает загрузку моделей в различных форматах (.pt, .h5, .safetensors и др.) из сетевых файловых систем, хранилищ S3 и локальных дисков.

Особенность Streamer - использование многопоточности для параллельной загрузки тензоров из файла в выделенный буфер оперативной памяти.

Каждый тензор идентифицируется уникальным ключом, который впоследствии используется приложением для загрузки тензора в память GPU. Это дает возможность загружать тензоры в память GPU одновременно с чтением других тензоров из хранилища в оперативную память, минимизируя время простоя GPU.

Streamer использует высокопроизводительный слой на C++, а Python API обеспечивает удобную интеграцию Streamer в существующие проекты, например, для автомасштабируемых серверов инференса, где минимизация времени простоя GPU критически важна.

Тест производительности Run:ai Model Streamer выполнялся на NVIDIA A10G с моделью Llama-3-8B (15 GB) и сравнивался с загрузчиками SafeTensors от Hugging Face и Tensorizer от CoreWeave.

При использовании локальных SSD, Run:ai Model Streamer достигал максимальной пропускной способности SSD (1 ГБ/с для GP3 и 2 ГБ/с для IO2), сокращая время загрузки модели в 6 раз по сравнению с SafeTensors Loader.

На Amazon S3 Run:ai Model Streamer загружал модель за 4.88 секунды, значительно превосходя Tensorizer (37.36 секунд).


⚠️ Streamer поддерживает только приложения PyTorch.

⚠️ Размер буфера оперативной памяти регулируется параметром RUNAI_STREAMER_MEMORY_LIMIT


▶️ Пример запуска с локального диска:

# Install streamer from pip
pip install runai-model-streamer

# Load the tensors to the buffer and stream to the GPU
from runai_model_streamer import SafetensorsStreamer

file_path = "/path/to/file.safetensors"

with SafetensorsStreamer() as streamer:
streamer.stream_file(file_path)
for name, tensor in streamer.get_tensors():
tensor.to('CUDA:0')



📌Лицензирование: Apache 2.0 License.


🟡Бенчмарки в блоге RunAI
🟡Документация
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #LLM #RunAI #ModelStramer
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍276🔥5
✔️ Уязвимости в Ollama Framework могут привести к DoS-атакам.

Специалисты по кибербезопасности обнаружили 6 уязвимостей в Ollama, которые могут быть использованы для выполнения атак типа "отказ в обслуживании", отравление или кражу моделей.
Одна из наиболее серьезных уязвимостей - CVE-2024-39722 (CVSS score: 7.5), которая представляет собой обход пути в api/push, предоставляющий доступ к файлам, существующим на сервере и всей структуре каталогов, в которой развернута Ollama.

Две другие уязвимости могут привести к отравлению модели через /api/pull из ненадежного источника или краже модели через /api/push.

Исследователи обнаружили 9 831 уникальный экземпляр Ollama, доступный из Интернета, причем большинство из них расположено в Китае, США, Германии, Южной Корее, Тайване, Франции, Великобритании, Индии, Сингапуре и Гонконге.
Каждый четвертый сервер, доступный из Интернета, оказался уязвим.
thehackernews.com

✔️ Быстрое развитие ИИ приведет к резкому росту электронных отходов.

Исследование, опубликованное в журнале Nature Computational Science, подробно описывает 4 возможных сценария внедрения генеративного ИИ: от ограниченного до агрессивного расширения, с прогнозом потенциального увеличение электронных отходов от уровня 2023 года в 2600 тонн в год.

Модель агрессивного внедрения LLM в частных компаниях и на предприятиях приведет к образованию 2,5 млн. тонн электронных отходов в год к 2030 году. Ограниченное расширение использования ИИ приведет к образованию в общей сложности 1,2 млн. тонн электронных отходов с 2023 по 2030 год.
spectrum.ieee.org

✔️ Поколение Z и миллениалы используют ИИ для управления личными финансами.

Согласно новому отчету Experian, около 67% опрошенных представителей поколения Z и 62% опрошенных миллениалов используют искусственный интеллект для решения задач, связанных с управлением личными финансами. Большинство из них пользуются генеративным ИИ для решения финансовых вопросов не реже одного раза в неделю.

В отчете говорится, что пользователи считают, что ChatGPT, помогают им в накоплениях и составлении бюджета (60%), инвестиционном планировании (48%) и повышении кредитного рейтинга (48%).

98% взрослых представителей поколения Z и 98% миллениалов положительно оценили свой опыт работы с ИИ-сервисами.
cnbc.com

✔️ Apple представит новые исследования на конференции по эмпирическим методам обработки естественного языка (EMNLP).

EMNLP 2024 пройдет в Майами с 12 по 16 ноября. Apple представит свои исследования и выступит спонсором конференции, на которой соберутся представители научного и корпоративного сообществ, занимающихся исследованиями в области NLP и AI. На EMNLP будут представлены доклады, посвященные обработке естественного языка, машинному обучению, глубокому обучению и компьютерной лингвистике.

Среди заявленных работ - исследования, посвященные кросс-культурному машинному переводу, модели обновления для совместимой эволюции LLM и ранжированию любой степени детализации с помощью многовекторных вложений. На конференции также пройдут семинары по WiNLP и BlackboxNLP.
machinelearning.apple.com

✔️ Intel готовит к выпуску новое поколение графических процессоров Battlemage.

Intel готовится к выпуску нового поколения графических процессоров под кодовым названием Battlemage, которые, как ожидается, появятся на рынке в конце 2024 или начале 2025 года.

Intel пока не подтвердила официальные характеристики, но, по слухам, Battlemage будет основан на новой архитектуре Xe2 и будет доступен в двух вариантах: X2 и X3. Предполагается, что X2, флагманская модель, будет иметь 32 ядра Xe2, что соответствует 4096 потоковым процессорам и 512 исполнительным блокам. X3, по слухам, будет иметь 28 ядер Xe2 (3584 потоковых процессора и 448 исполнительных блоков).

Ожидается, что Intel сосредоточится на бюджетном и среднем сегментах рынка. По оценкам, цена на флагманскую модель составит от 350 до 500 долл. США. Intel заявляет, что Battlemage обеспечит 50% прирост производительности по сравнению с предыдущей архитектурой.
digitaltrends.com


@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍216🔥3
🌟 Allegro: открытая text-to-video модель генерации видео в 720p.

Allegro - модель от Rhymes AI для генерации видео по текстовому промпту. Allegro генерирует 6-секундные видеоролики с разрешением 720p и частотой 15 кадров в секунду. Модель отличается высокой детализацией, плавностью переходов в движении и способностью визуализировать сложные сцены.

Allegro основана на трех ключевых технологиях:

🟢Обработка больших объемов видеоданных.

Для обучения модели использовался массив данных из 106 млн. изображений и 48 млн. видеороликов с детальными аннотациями.

🟢Сжатие видео в визуальные токены.

В Allegro используется Video Variational Autoencoder (VideoVAE) с 175 млн. параметров. Он кодирует видео в компактное скрытое пространственно-временное представление и способен работать в разрядностях точности FP32/TF32/BF16/FP16.

🟢Масштабируемая архитектура Diffusion Transformer.

Ядро Allegro - масштабируемая архитектура Diffusion Transformer (DiT) с 3D-позиционным кодированием RoPE и полным 3D-вниманием размером в 2.8 млрд. параметров. DiT моделирует пространственные и временные зависимости в видеокадрах и отвечает за качество генерации и плавность движения. Поддерживаемая разрядность - BF16/FP32/TF32.

Для локального запуска потребуются : Python >= 3.10, PyTorch >= 2.4, CUDA >= 12.4

⚠️ Интерполяция до 30 FPS возможна с помощью EMA-VFI.

⚠️ С использованием параметра --enable_cpu_offload, инференс возможен на 9.3Gb VRAM, без использования выгрузки потребность Allegro около 27Gb VRAM.

⚠️ Модель не может генерировать знаменитостей, разборчивый текст, конкретные места, улицы или здания.

▶️Параметры инференса в CLI:

# Run inference
python single_inference.py

# Keys
--user_prompt '%prompt%'
--save_path '%full path for output file%'
--vae '%path to VAE'
--dit '%path to DiT%'
--text_encoder '%path to text encoder%'
--tokenizer '%path to text tokenizer%'
--guidance_scale 7.5
--num_sampling_steps 100
--seed 42


📌Лицензирование: Apache 2.0 license.


🟡Страница проекта
🟡Модель
🟡Arxiv
🟡Сообщество в Discord
🟡Demo
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #Text-to-Video #DiT #Allegro
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍157🔥5🎉4
⚡️ Hunyuan-Large: MoE-модель с 389 млрд. параметров.

Hunyuan-Large - самая большая на сегодняшний день открытая модель на основе Transformer с архитектурой MoE. Модель мультиязычна и имеет 389 млрд. параметров, из которых 52 млрд. активных, контекстное окно в 256 тыс. токенов (128 тыс. токенов у instruct-версии). В открытый доступ опубликованы 3 версии:

🟢Hunyuan-Large;
🟢Hunyuan-Large-Instruct
🟢Hunyuan-Large-Instruct-FP8

Архитектура Hunyuan-Large основана на классическом Transformer с использованием MoE. Модель состоит из 64 слоев, 80 attention heads и 16 специализированных экспертов, из которых для каждого токена активируется только один эксперт.

Для оптимизации использования памяти во время инференса в Hunyuan-Large используется сжатие KV-кэша с помощью GQA и CLA.

GQA группирует attention heads, а CLA шэрит KV-кэш между соседними слоями, тем самым сокращая использование KV-кэша почти на 95% по сравнению с оригинальным MHA.

Активации экспертов происходит с помощью смешанной стратегии маршрутизации: все токены обрабатываются одним общим экспертом, а специализированные эксперты выбираются с помощью top-k маршрутизации. Чтобы не терять информацию из-за перегрузки экспертов, была разработана стратегия «рециркуляционной маршрутизации», которая рероутит токены от перегруженных экспертов к свободным.

Перед обучением Hunyuan-Large разработчики провели исследования законов масштабирования для моделей MoE. Оптимальное количество активных параметров (52 млрд) и объем обучающих данных (7 трлн. токенов) были определены на основе анализа isoFLOPs кривой.

Hunyuan-Large превосходит по производительности LLama3.1-70B, LLama3.1-405B, Mixtral-8x22B и DeepSeek-V2 в в агрегированных бенчмарках (MMLU, MMLU-Pro), рассуждении CommonsenseQA, PIQA, WinoGrande и HellaSwag), программировании (HumanEval и MBPP), математике (GSM8K и MATH) и классических NLP-задачах (TriviaQA, NaturalQuestions, DROP и ARC-C).


🟡Набор моделей
🟡Arxiv
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #LLM #MoE #HunyuanLarge #Tencent
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
21👍18🔥8😁4🗿2