Machinelearning

🌟 Emu3: набор MMLM, основанный на методе предсказании следующего токена.

Модели Emu3 разработаны для задач мультимодальной генерации и восприятия: генерации изображений и видео по текстовому описанию, понимание визуальных представлений и прогнозирования кадров в видео.

Модель использует токенизатор изображений SBER-MoVQGAN для преобразования видео и изображений в дискретные токены, RMSNorm для нормализации, GQA для механизмов внимания, SwiGLU для активации и RoPE для позиционного кодирования.

Процесс генерации в Emu3 начинается с обработки моделью начальной последовательности токенов (например, текстовое описание для генерации изображения).

Затем Emu3 авторегрессивно предсказывает наиболее вероятный следующий токен в последовательности. Этот процесс продолжается до тех пор, пока не будет сгенерирована вся последовательность, представляющая собой конечный результат (изображение или видео).

▶️

Представлены 3 модели:

🟢

Emu3-Chat – модель-чат, анализирует входные изображения и генерирует текстовые ответы;

🟢

Emu3-Gen – модель для генерации изображений по текстовому описанию;

🟢

Emu3-VisionTokenizer – токенизатор изображений для преобразования изображений и видео в дискретные токены.

Для обучения использовались наборы данных Aquila, LAION-High-Resolution, InternVid, MSCOCO-30K, GenEval, T2I-CompBench, DPG-Bench, SEED-Bench, RealWorldQA, OCRBench и VBench.

Результаты тестирования показывают превосходство Emu3 над SDXL в генерации и сопоставимость с LLaVA-1.6 в задачах интерпретаций изображений.

Инференс моделей пока доступен только в СLI на Transformers, примеры для генерации или описания входного изображения можно найти в репозитории проекта.

⚠️ Информации о технических требованиях по GPU разработчиками Emu3 не предоставлено.

▶️Локальная установка:

# Clone the repository
git clone https://github.com/baaivision/Emu3
cd Emu3

# Install requirements
pip install -r requirements.txt

📌Лицензирование : Apache 2.0 License.

🟡

Страница проекта

🟡

Коллекция моделей на HF

🟡

Arxiv

🖥

GitHub

@ai_machinelearning_big_data

#AI #ML #MMLM #Text2Video #Text2Image

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍25🔥6❤4👏1

14.4K views07:13

Machinelearning

🌟 Local File Organizer: менеджмент локальных файлов под управлением LLM и VLM.

Local File Organizer (LFO) - инструмент для управления локальными файлами и папками, который поможет навести порядок. Он использует квантованные в Q4 модели Google Gemma 2-2B и Llava v1.6 в сочетании с Nexa SDK чтобы выполнять заданные операции с локальным содержимым. Последовательность работы LFO выглядит упрощенно так:

🟢

Сканирование: LFO сканирует целевой каталог поисках.

🟢

Категоризация содержимого: LLM анализирует и обобщает содержимое найденных файлов и создает описания и имена файлам, VLM по такому же принципу обрабатывает графику.

🟢

Организация: На основе сгенерированных метаданных, файлы упорядочиваются в новую структуру каталогов.

Весь процесс происходит на 100% на локальном устройстве. Не требуется подключение к Интернет, данные не покидают локальную машину, и не требуется никаких API — файлы остаются в полной конфиденциальности и безопасности.

LFO может работать на CPU и GPU в Windows, macOS и Linux, понимает графические форматы (.png, .jpg, .jpeg, .gif, .bmp), текстовые (.txt, .docx) и PDF-файлы. Системные промпты управления моделями кастомизируемы.

⚠️ Важно!

🟠Для установки с использованием GPU (CUDA, Metal, ROCm) ознакомьтесь с инструкцией по установке.

🟠Аргументы настройки инференса LLM и VLM можно найти тут.

🟠Предварительно скачайте модели Gemma 2-2B и Llava v1.6 и пропишите путь до них в конфигах.

🟠Предварительно установите Tesseract OCR;

🟠Кастомизация системных промптов - в файле data_processing.py.

▶️ Установка и запуск для CPU:

# Clone the Repository
git clone https://github.com/QiuYannnn/Local-File-Organizer.git

#Create & activate Conda env
conda create --name local_file_organizer python=3.12
conda activate local_file_organizer

# Install the CPU version of Nexa SDK
pip install nexaai --prefer-binary --index-url https://nexaai.github.io/nexa-sdk/whl/cpu --extra-index-url https://pypi.org/simple --no-cache-dir

# Install the dependencies
pip install -r requirements.txt

# Running the Script
python main.py

📌Лицензирование : MIT и Apache 2.0 License.

🟡

Модель Gemma 2-2B

🟡

Модель Llava v1.6

🖥

GitHub

@ai_machinelearning_big_data

#AI #ML #LLM

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥24👍16❤4👀2

16.6K views08:52

Machinelearning

🔥 Memory pinning для ускорения обучения моделей

Если вы регулярно используете GPU для обучения моделей, то существует довольно простая техника, которая часто используется для ускорения обучения моделей.

...изменив всего две строки кода.

Рассмотрим стандартный цикл обучения модели в PyTorch (См Картинку 1)

В этом коде:
- Строка 5 передает данные в GPU из CPU.
- Все выполняется на GPU после передачи данных, то есть в строках 7-15.

💡 Это означает, что когда работает GPU, CPU простаивает, а когда работает CPU, GPU простаивает, наглядно(См Картинку 2)

⚡️ Но вот что мы можем сделать, чтобы оптимизировать:

- Когда модель обучается на 1-м батче, CPU может передать 2-й батч на GPU.
- Таким образом, GPU не придется ждать следующего батча данных, как только он завершит обработку существующего батча.

👉 Иными словами, график использования ресурсов будет выглядеть примерно так (См Картинку 3)

💡 В то время, когда CPU будет простаивать, GPU (который является фактическим ускорителем для обучения модели) гарантированно будет иметь данные для работы.

Формально этот процесс известен как memory pinning, и он используется для ускорения передачи данных от CPU к GPU, делая процесс обучения асинхронным.

Это позволяет нам готовить следующий обучающий набор параллельно с обучением модели на текущих данных.

👉 Включить эту функцию в PyTorch довольно просто. Во-первых, при определении объекта DataLoader надо установить pin_memory=True и указать num_workers (См Картинку 4)

Далее, на этапе передачи данных в шаге обучения укажите non_blocking=True (См Картинку 5)

⚡️ Готово!

Вот как работает ускорение на примере набора данных MNIST в обучении простой нейронной сети (См Картинку 6)

- Без memory pinning обучение модели на 5 эпохах занимает около 43 секунд:
- а с использованием memory pinning та же модель обучается менее чем за 10 (!!!) секунд 🔥(См Картинку 7)

📌 Важные особенности использования memory pinning:

- если несколько тензоров будут выделены в "привязанную" память, это приведет к резервированию значительной части оперативной памяти.

Поэтому, всякий раз, когда используете memory pinning - отслеживайте потребление RAM!

- когда набор данных относительно мал, memory pinning имеет незначительный эффект, поскольку передача данных от CPU к GPU все равно не занимает столько времени (См Картинку 7)

📌 Полная версия

@ai_machinelearning_big_data

👍71🔥9❤7👌1

18.1K views06:05

Machinelearning

🌟 Пространственно-временное прогнозирование с помощью Байесовских нейронных полей.

Байесовские нейронные поля (Bayes NF) - метод масштабируемого пространственно-временного прогнозирования, объединяющий архитектуру глубокой нейронной сети моделирования функций с иерархическим Байесовским моделированием для точной оценки неопределенности в сложных пространственно-временных полях.

Bayes NF строятся на основе Байесовской нейронной сети, отображающей многомерные пространственно-временные координаты в действительное поле.

Для получения высокой априорной вероятности для данных как с низко-, так и с высокочастотными вариациями, к исходным данным о времени и положении, подающимся в сеть, добавляются признаки Фурье, а чтобы учитывать априорные неопределенности, параметры сети получают априорное распределение.

Апостериорный вывод осуществляется с помощью стохастических ансамблей оценки максимального апостериори (MAP) или вариационно обученных суррогатов.

Метод Bayes NF относительно прост, он может обрабатывать пропущенные данные и обучаться по полному распределению вероятностей для произвольных пространственно-временных индексов.

Bayes NF универсален и применим к различным наборам данных без необходимости разработки новой модели для каждого случая или применения специфических для набора данных аппроксимаций вывода.

⚠️ Для локального запуска BayesNF на средних и больших объемах данных требуется GPU.

▶️ Практические туториалы с возможностью запуска на Google Coolab:

🟢

анализ на основе пространственно-временного набора данных из 20 временных рядов еженедельных случаев заболевания ветряной оспой в Венгрии в период с 2005 по 2015 гг. Блокнот;

🟢

анализ данных из об уровне загрязнения воздуха, измеряемом датчиками по всему Лондону каждый час. Блокнот.

▶️Локальная установка:

# Install bayesnf from PIP into venv:
$ python -m venv pyenv
$ source pyenv/bin/activate
$ python -m pip install -U bayesnf

# Install dependencies for Python 3.10
$ python -m pip install -r requirements.Python3.10.14.txt

📌Лицензирование : Apache 2.0 License.

🟡

Документация

🟡

Arxiv

🖥

GitHub

@ai_machinelearning_big_data

#AI #ML #Predictions #BAYESNF

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥22👍21❤7🤔5👏2🥰1

14.4K views10:36

Machinelearning

✔️

ИИ может (в основном) превзойти человека-CEO.

Исследование, проведенное Strategize Inc, стартапом выпускников Кембриджа доказывает, что ИИ способен стать ценным инструментом для руководителей. ИИ "сегодняшнего дня" может автоматизировать анализ данных, моделировать сложные сценарии и помогать в принятии более эффективных решений.

Эксперимент проводился с использованием бизнес-симулятора автомобильной индустрии США, большая языковая модель GPT-4o соревновалась с 344 участниками, включая студентов и опытных руководителей. GPT-4o продемонстрировал неожиданные результаты, превзойдя человеческих конкурентов по ключевым показателям эффективности: разработке продукта, реакции на рыночные сигналы и росту прибыли.

AI-CEO был уволен виртуальным советом директоров быстрее, чем студенты. GPT-4o не удалось адаптироваться к непредвиденным обстоятельствам, в то время как студенты проявили большую гибкость и дальновидность в своих стратегиях. Интересно, что опытные руководители также проявили себя хуже студентов, что указывает на общую тенденцию к чрезмерной уверенности в успехе краткосрочных стратегий.
hbr.org

✔️

Рост популярности ChatGPT связан с сокращением обмена знаниями на онлайн-платформах вопросов и ответов.

Исследование, опубликованное в журнале PNAS Nexus показало, что широкое распространение LLM, таких как ChatGPT, привело к значительному снижению публичного обмена знаниями на платформах, подобных Stack Overflow.

Исследователи обнаружили, что после запуска ChatGPT количество публикаций на Stack Overflow сократилось на 25% за шесть месяцев. Это происходит потому, что люди предпочитают обращаться к ChatGPT за ответами на вопросы, а не публиковать их на открытых платформах, где их могли бы видеть и использовать другие люди.
techxplore.com

✔️

Raspberry Pi представила модуль камеры для ИИ-приложений.

Raspberry Pi AI Camera — это новый модуль камеры, который интегрирует в себя ускоритель ИИ Sony IMX500. Он умеет работает с моделями нейронных сетей, потребляя мало энергии и обеспечивая низкую задержку, освобождая процессор Raspberry Pi для выполнения других задач.

Камера совместима со всеми моделями Raspberry Pi, включая Raspberry Pi Zero. Ее производительность сопоставима с Raspberry Pi AI Kit, который был выпущен ранее, но AI Camera более компактна и доступна по цене - 70 $.

Она отлично интегрируется с программным обеспечением для камер Raspberry Pi, позволяя запускать модели машинного обучения с высокой скоростью.
raspberrypi.com

✔️

Apple отказывается от инвестиций в OpenAI.

Apple отказалась от планов по инвестированию в OpenAI. Как сообщает The Wall Street Journal, Apple вышла из переговоров об участии в раунде финансирования OpenAI, который должен был завершиться на следующей неделе и привлечь 6,5 млрд долларов.

Несмотря на отказ от прямого инвестирования, Apple продолжает сотрудничество с OpenAI в рамках интеграции ChatGPT в iOS 18. ChatGPT будет обрабатывать запросы, связанные с общими знаниями, дополняя функциональность голосового помощника Siri.

Примечательно, что, по данным Bloomberg, Apple не платит OpenAI за использование ChatGPT в iOS 18, и наоборот, OpenAI не платит Apple за доступ к платформе. Apple считает, что интеграция с iOS 18 обеспечит OpenAI рекламу и привлечение новых пользователей, что само по себе является ценным вкладом, сопоставимым с денежными инвестициями.
wsj.com

✔️

YOLO11: новая эра в компьютерном зрении.

Компания Ultralytics представила YOLO11, новейшую версию своей знаменитой модели искусственного интеллекта для компьютерного зрения.

YOLO11 поддерживает широкий спектр задач CV: обнаружение объектов, сегментацию экземпляров, классификацию изображений, оценку позы, обнаружение ориентированных объектов (OBB) и отслеживание объектов. Модель получила улучшенное извлечение признаков.

YOLO11m достигает более высокого балла средней средней точности (mAP) в наборе данных COCO, используя на 22% меньше параметров, чем YOLOv8m.
YOLO11 вскоре будет доступна через Ultralytics HUB и пакет Ultralytics Python.
ultralytics.com

@ai_machinelearning_big_data

#news #ai #ml

Please open Telegram to view this post

VIEW IN TELEGRAM

1👍31❤12🔥8

9.36K views06:10

Machinelearning

🌟 Awesome-list советов по поступлению в аспирантуру и научной работе.

Репозиторий GitHub "advice", в котором содержится обширная коллекция ссылок на ресурсы, предлагающие советы по различным аспектам поступления в аспирантуру, проведения исследований и жизни в аспирантуре, в основном в области информатики, NLP и ML.

Автор репозитория - Shaily Bhatt, аспирант первого года обучения в Институте языковых технологий CMU и бывший сотрудник NLU Group в Google Research (Индия).

Содержание:

Заявки в аспирантуру:

🟢общие советы по заявкам;
🟢советы, специфичные для программ MS;
🟢советы по заявкам на предварительные докторские программы;
🟢советы о том, стоит ли получать докторскую степень;
🟢советы по выбору учебных заведений и научных руководителей.

Исследования:

🟠общие советы по исследованиям;
🟠советы для аспирантов;
🟠идеи для исследований;
🟠советы по написанию работ;
🟠советы по рецензированию;
🟠советы по чтению;
🟠советы по публикации и конференциям;
🟠советы по динамике отношений между научным руководителем и аспирантом;
🟠советы по научно-исследовательским стажировкам;
🟠советы по нетворкингу;
🟠советы по выступлениям и презентациям;
🟠советы по продуктивности;
🟠советы по борьбе с синдромом самозванца;
🟠советы по инструментам для исследований.

В репозитории также есть раздел "Список списков", в котором собраны ссылки на другие полезные ресурсы.

🖥

GitHub

@ai_machinelearning_big_data

#AI #ML #Resources #Github #Awesome

Please open Telegram to view this post

VIEW IN TELEGRAM

👍25❤9🦄2✍1🔥1😁1🥱1

39.2K views09:01

About

Blog

Apps

Platform