MFLUX (MacFLUX) - это построчный порт реализации FLUX в библиотеке Huggingface Diffusers на Apple MLX.
Цель проекта состоит в том, чтобы иметь минимальный набор кода, избегая слишком большого количества абстракций.
Пайплайн инференса моделей реализован с нуля на MLX, токенизаторы используются через библиотеку Huggingface Transformers и минимальные зависимости Numpy и Pillow.
Поддерживаемые модели :
Проект гарантированно работает на чипах M1-M3 всех версий (Pro | Max | Ultra), количество оперативной памяти Mac влияет на скорость инференса.
Ориентировочные бенчмарки времени генерации на FLUX-schnell:
2020 M1 (8GB) - 335 секунд (512х512)
2021 M1 Pro (32GB) - 160 секунд (1024х1024)
2023 M2 Max (32GB) - 70 секунд (1024х1024)
2023 M2 Max (96GB) - 25 секунд (1024х1024)
2023 M3 Pro (36GB) - 80 секунд (1024х1024)
2023 M3 Max (неизвестно) - 20 секунд (1024х1024)
# Clone repository
git clone [email protected]:filipstrand/mflux.git
# Navigate to the project and set up a venv:
cd mflux
python3 -m venv .venv
source .venv/bin/activate
# Install dependencies
pip install -r requirements.txt
import sys
sys.path.append("/path/to/mflux/src")
from flux_1.config.config import Config
from flux_1.flux import Flux1
from flux_1.post_processing.image_util import ImageUtil
flux = Flux1.from_alias("schnell") # "schnell" or "dev"
image = flux.generate_image(
seed=3,
prompt="TEXT_YOUR_PROMPT.",
config=Config(
num_inference_steps=2, # Schnell works well with 2-4 steps, Dev works well with 20-25 steps
height=768,
width=1360,
)
)
ImageUtil.save_image(image, "image.png")
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥16👍12❤3
🔥 Дайджест самых интересных новостей
✔️ Файнтюн на собственных данных доступнен в GPT-4o.
OpenAI запустила возможность файнтюна GPT-4o, позволяющую разработчикам настраивать модель для конкретных случаев использования с помощью собственных наборов данных.
✔️ Meta's Self-Taught Evaluator создает датасеты для обучения LLM.
Self-Taught Evaluator - новый метод обучения для оценочных LLM без необходимости аннотировать датасет с участием человека.
Используя концепцию LLM-as-a-Judge, он итеративно генерирует и уточняет ответы для создания обучающего набора данных. Высокая производительность метода подтверждена вRewardBench. Эта методика даст возможность предприятиям использовать неразмеченные данные для настройки LLM, при условии хорошо согласованной базовой модели.
✔️ Авторы книг подали в суд на Anthropic за нарушение авторских прав при обучении искусственного интеллекта.
Компания Anthropic стала объектом коллективного иска в федеральном суде Калифорнии. Три автора - Андреа Бартц, Чарльз Грейбер и Кирк Уоллес Джонсон - обвиняют компанию в незаконном использовании их книг и сотен тысяч других произведений для обучения чат-бота Claude.
✔️ Symphonic открывает каталог для обучения моделей искусственного интеллекта.
Компания Symphonic Distribution заключила партнерство с Musical AI, чтобы создать лицензированный набор данных для обучения искусственного интеллекта.
✔️ Модель ИИ от Nvidia предсказывает грозы за несколько километров.
Модель предсказывает более 100 переменных, включая температуру и влажность. Такой набор аналитических данных дает возможность наблюдать за развитием шторма в трехмерном пространстве.
✔️ Юридический факультет Университета Беркли запустил новую магистерскую программу, посвященную праву и управлению искусственным интеллектом.
Факультет начинает прием заявок на новую программу магистратуры, которая будет сосредоточена на искусственном интеллекте. Программа рассчитана на практикующих юристов и ученых, уже получивших степень доктора права (JD).
✔️ Stability AI назначила ветерана индустрии развлечений Ханно Бассе (Hanno Basse) новым директором по технологиям.
Ханно Бассе ранее занимал должности технического директора (CTO) в Digital Domain, Microsoft Azure Media & Entertainment и 20th Century Fox Film Corp.
Он является действительным членом Академии кинематографических искусств и наук и обладателем 30 патентов.
✔️ Google Cloud открыла ранний доступ к NVIDIA L4 для разработчиков.
Nvidia L4 GPU Cloud Run позволит разработчикам AI разворачивать в облаке Google языковые модели плотностью до 8B для создания пользовательских чат-ботов или мгновенного резюмирования документов с возможностью масштабирования для обработки пиковой нагрузки от пользователей.
✔️ Midjourney вновь открыл free-tial использование своего сервиса.
Функция доступна на web-сайте сервиса для всех зарегистированных и новых пользователей. На ознакомление с возможностями платформы дают 25 кредитов (1 кредит = 1 генерация из 4 вариантов изображения).
Помимо генерации, появился доступ к галерее генераций других пользователей, выполненной в виде полотна.
⚡️ Подробнее
@ai_machinelearning_big_data
#news #ai #ml
✔️ Файнтюн на собственных данных доступнен в GPT-4o.
OpenAI запустила возможность файнтюна GPT-4o, позволяющую разработчикам настраивать модель для конкретных случаев использования с помощью собственных наборов данных.
✔️ Meta's Self-Taught Evaluator создает датасеты для обучения LLM.
Self-Taught Evaluator - новый метод обучения для оценочных LLM без необходимости аннотировать датасет с участием человека.
Используя концепцию LLM-as-a-Judge, он итеративно генерирует и уточняет ответы для создания обучающего набора данных. Высокая производительность метода подтверждена вRewardBench. Эта методика даст возможность предприятиям использовать неразмеченные данные для настройки LLM, при условии хорошо согласованной базовой модели.
✔️ Авторы книг подали в суд на Anthropic за нарушение авторских прав при обучении искусственного интеллекта.
Компания Anthropic стала объектом коллективного иска в федеральном суде Калифорнии. Три автора - Андреа Бартц, Чарльз Грейбер и Кирк Уоллес Джонсон - обвиняют компанию в незаконном использовании их книг и сотен тысяч других произведений для обучения чат-бота Claude.
✔️ Symphonic открывает каталог для обучения моделей искусственного интеллекта.
Компания Symphonic Distribution заключила партнерство с Musical AI, чтобы создать лицензированный набор данных для обучения искусственного интеллекта.
✔️ Модель ИИ от Nvidia предсказывает грозы за несколько километров.
Модель предсказывает более 100 переменных, включая температуру и влажность. Такой набор аналитических данных дает возможность наблюдать за развитием шторма в трехмерном пространстве.
✔️ Юридический факультет Университета Беркли запустил новую магистерскую программу, посвященную праву и управлению искусственным интеллектом.
Факультет начинает прием заявок на новую программу магистратуры, которая будет сосредоточена на искусственном интеллекте. Программа рассчитана на практикующих юристов и ученых, уже получивших степень доктора права (JD).
✔️ Stability AI назначила ветерана индустрии развлечений Ханно Бассе (Hanno Basse) новым директором по технологиям.
Ханно Бассе ранее занимал должности технического директора (CTO) в Digital Domain, Microsoft Azure Media & Entertainment и 20th Century Fox Film Corp.
Он является действительным членом Академии кинематографических искусств и наук и обладателем 30 патентов.
✔️ Google Cloud открыла ранний доступ к NVIDIA L4 для разработчиков.
Nvidia L4 GPU Cloud Run позволит разработчикам AI разворачивать в облаке Google языковые модели плотностью до 8B для создания пользовательских чат-ботов или мгновенного резюмирования документов с возможностью масштабирования для обработки пиковой нагрузки от пользователей.
✔️ Midjourney вновь открыл free-tial использование своего сервиса.
Функция доступна на web-сайте сервиса для всех зарегистированных и новых пользователей. На ознакомление с возможностями платформы дают 25 кредитов (1 кредит = 1 генерация из 4 вариантов изображения).
Помимо генерации, появился доступ к галерее генераций других пользователей, выполненной в виде полотна.
⚡️ Подробнее
@ai_machinelearning_big_data
#news #ai #ml
👍16❤11🔥5
NVIDIA и Mistral AI представили модель Mistral-NeMo-Minitron 8B, одну из наиболее точных открытых моделей в своем классе для генерации текста.
Mistral-NeMo-Minitron-8B-Base получена в результате обрезки (pruning) и дистилляции Mistral-NeMo 12B. В процессе создания была урезана размерность эмбеддинга и промежуточная размерность MLP (с 14336 до 11520).
Комбинация применяемых методов позволила оставить количество attention heads и слоев неизменным.
После обрезки было продолжено обучение с дистилляцией, используя корпус данных от Nemotron-4 15B размером 380 миллиардов токенов для получения окончательной модели, что примерно в 40 раз меньше, чем необходимо для тренировки модели такой же плотности с нуля.
Корпус обучения (набор данных) по структуре точно такой же, как в недавно представленной другой модели, собранной по такой же методике обрезки и дистилляции.
Дата актуальности корпуса обучения - июнь 2023 года.
При создании Mistral-NeMo-Minitron 8B использованы техники Grouped-Query Attention (GQA) и Rotary Position Embeddings (RoPE).
Архитектурные характеристики:
Поддержка Mistral-NeMo-Minitron-8B-Base в Hugging Face Transformers будет реализована в ближайшем обновлении.
Для инференса модели выполните рекомендованные разработчиками инструкции или запустите модель в NeMo v.24.05
Есть неофициальные квантованные (imatrix) GGUF - версии модели в 8 разрядностях, от 1-bit (2. 12 Gb) до 16-bit (16.08 Gb).
@ai_machinelearning_big_data
#AI #NVIDIA #LLM #ML #Minitron
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍19❤10🔥2🦄2
ML-инженеры Яндекса рассказали, как создавали YaFSDP — алгоритм, который помогает ускорить процесс обучения больших языковых моделей и сократить расходы на GPU.
Специалисты раскрыли алгоритм-референс, на который ориентировались при создании, и назвали основные трудности, возникшие в процессе.
@ai_machinelearning_big_data
#AI #LLM #ML
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍16❤9🔥5😁3
iMESA расширяет алгоритм MESA, используя согласованный метод множителей с переменным направлением (C-ADMM) для пакетных задач C-SLAM.
Он дает возможность роботам обновлять свои локальные решения по мере поступления новых измерений и взаимодействовать друг с другом для поддержания согласованности, предоставляя точные оценки состояния в режиме реального времени при незначительном количестве спораидальных взаимодействий между собой.
iMESA использует возможности оптимизации iSAM2, обеспечивая согласованность оценок состояния с помощью смещенных априорных значений.
Алгоритм масштабируем, хорошо справляется с различными размерами групп и сложностью задач. Он подходит для разработки мультироботных систем в условиях, связанных с развертыванием групп роботов в реальном мире при ограниченных коммуникационных и вычислительные ресурсах.
Программная реализация iMESA выполнена в виде библиотеки C++ с классом IMESAAgent для использования на борту каждого робота. iMESA имеет зависимость от GTSAM версии 4.2.0. Специфические функции разработки, необходимые для iMESA, доступны в ветке 4.2.0-imesa. Тестовые проекты для запуска можно найти в репозитории imesa-experiments.
Поскольку этот пакет представляет собой только библиотеку, чаще всего он будет использоваться в качестве сторонней зависимости в вашем проекте. Используйте FetchContext для доступа к библиотеке iMESA, включите iMESA как зависимость в свой проект, добавив в файл CMakeLists.txt:
include(FetchContent)
FetchContent_Declare(
imesa
GIT_REPOSITORY https://github.com/rpl-cmu/imesa.git
GIT_TAG main
)
FetchContent_MakeAvailable(imesa)
@ai_machinelearning_big_data
#AI #MESA #Robots #ML
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍19❤9🔥4
⚡️ Новостной МЛ дайджест 22 августа 2024.
✔️ Epic Systems создает более 100 новых функций ИИ для врачей и пациентов.
Epic Systems, ведущий поставщик программного обеспечения в сфере здравоохранения, интегрирует более 100 новых функций ИИ в свои платформы MyChart и Cosmos.
✔️ Новый веб-бот Werth,thuf незаметно собирает в интернете данные для обучения ИИ.
Новый веб-сканер под названием External Agent для сбора данных из интернета с целью обучения своих моделей. Бот начал свою работу в прошлом месяце, он сканирует открытые данные на сайтах, тексты новостных статей и обсуждения в онлайн-группах. External Agent пока блокируется лишь на 2% популярных сайтов, в то время как аналогичный по назначению бот OpenAI, GPTBot — на 25%.
✔️ Sapiens: новая SOTA ViTs для задач CV, связанных с обнаружением людей
✔️ Запущен Ideogram 2.0.
Новая txt-2-img модель превосходит предыдущие по качеству, точнее следуют промпту и корректней генерирует тест на изображениях.
✔️ Опубликован регулярный рейтинг "Top 100 Gen AI Consumer Apps" венчурного фонда Andreessen Horowitz.
четом за март 2024 г.
В первую десятку рейтинга веб-продуктов вошли : ChatGPT, character.ai, perplexity, Claude, SUNO, JanitorAI, QuillBot, Poe, liner и Civitai.
Десятка лучших мобильных приложений с ИИ: ChatGPT, Microsoft Edge, photomath, NOVA, Bing, Remini, Chat&Ask AI, BRAINLY, meitu и character.ai.
✔️ Neuroplatform: "Живые компьютеры", созданные из человеческих нейронов.
Органоиды, размером 0,5 миллиметра, соединены с электродами, которые стимулируют нейроны и имитируют естественные процессы, например, выделение дофамина.
FinalSpark предоставляет доступ к своим "биокомпьютерам" для исследователей из 34 университетов.
✔️ Skyfire запускает систему, позволяющую автономным агентам ИИ тратить деньги от вашего имени.
Компания, получившая 8,5 миллиона долларов в рамках начального раунда финансирования, стремится стать "Visa для ИИ", предоставляя ИИ-агентам возможность управлять балансами счетов, отправляя и принимая платежи.
Платформа уже доступна для разработчиков агентного ИИ и интеграции с различными сервисами.
✔️ Виртуальная fashion-модель Mango, созданная с помощью ИИ, стала вирусной в социальных сетях.
Модель "Mango AI", демонстрирующая коллекцию осень-зима 2024 года испанского бренда Mango привлекла внимание пользователей благодаря своей реалистичности и стилю.
✔️ D-ID запустила перевод видео с помощью ИИ, включающий Voice Clone и Lipsync.
Новый инструмент, доступный для подписчиков D-ID, представлен в D-ID Studio и по API, он поддерживает 30 языков, включая русский, мандаринский, японский, хинди, испанский и французский. Технология основана на собственных разработках D-ID.
✔️ Игровой ИИ-стартап анонсировал инструменты для gamedev на базе GenAI.
ИИ-стартап Exists анонсировал платформу "text-to-game", которая позволяет создавать компьютерные 3D-игры на основе текстовых подсказок, не требуя навыков в написании кода.
Анонсированный сервис использует запатентованные модели генеративного GenAI Exists для создания игрового окружения, персонажей и механики. Интегрируя архитектуру нейронных сетей с возможностями игрового движка, компания стремится упростить процесс создания игр.
✔️ Napkin AI: дешевая и простая альтернатива Adobe и Canva.
Napkin AI - это инструмент для заметок и генерации визуальных материалов из текста, который можно использовать для презентаций, статей, отчетов. Сервис быстро создает уникальные графические элементы за 10-30 секунд и поддерживает несколько языков - английский, немецкий, французский, японский и китайский.
📌 Подробнее
@ai_machinelearning_big_data
#news #ai #ml #tech
✔️ Epic Systems создает более 100 новых функций ИИ для врачей и пациентов.
Epic Systems, ведущий поставщик программного обеспечения в сфере здравоохранения, интегрирует более 100 новых функций ИИ в свои платформы MyChart и Cosmos.
✔️ Новый веб-бот Werth,thuf незаметно собирает в интернете данные для обучения ИИ.
Новый веб-сканер под названием External Agent для сбора данных из интернета с целью обучения своих моделей. Бот начал свою работу в прошлом месяце, он сканирует открытые данные на сайтах, тексты новостных статей и обсуждения в онлайн-группах. External Agent пока блокируется лишь на 2% популярных сайтов, в то время как аналогичный по назначению бот OpenAI, GPTBot — на 25%.
✔️ Sapiens: новая SOTA ViTs для задач CV, связанных с обнаружением людей
✔️ Запущен Ideogram 2.0.
Новая txt-2-img модель превосходит предыдущие по качеству, точнее следуют промпту и корректней генерирует тест на изображениях.
✔️ Опубликован регулярный рейтинг "Top 100 Gen AI Consumer Apps" венчурного фонда Andreessen Horowitz.
четом за март 2024 г.
В первую десятку рейтинга веб-продуктов вошли : ChatGPT, character.ai, perplexity, Claude, SUNO, JanitorAI, QuillBot, Poe, liner и Civitai.
Десятка лучших мобильных приложений с ИИ: ChatGPT, Microsoft Edge, photomath, NOVA, Bing, Remini, Chat&Ask AI, BRAINLY, meitu и character.ai.
✔️ Neuroplatform: "Живые компьютеры", созданные из человеческих нейронов.
Органоиды, размером 0,5 миллиметра, соединены с электродами, которые стимулируют нейроны и имитируют естественные процессы, например, выделение дофамина.
FinalSpark предоставляет доступ к своим "биокомпьютерам" для исследователей из 34 университетов.
✔️ Skyfire запускает систему, позволяющую автономным агентам ИИ тратить деньги от вашего имени.
Компания, получившая 8,5 миллиона долларов в рамках начального раунда финансирования, стремится стать "Visa для ИИ", предоставляя ИИ-агентам возможность управлять балансами счетов, отправляя и принимая платежи.
Платформа уже доступна для разработчиков агентного ИИ и интеграции с различными сервисами.
✔️ Виртуальная fashion-модель Mango, созданная с помощью ИИ, стала вирусной в социальных сетях.
Модель "Mango AI", демонстрирующая коллекцию осень-зима 2024 года испанского бренда Mango привлекла внимание пользователей благодаря своей реалистичности и стилю.
✔️ D-ID запустила перевод видео с помощью ИИ, включающий Voice Clone и Lipsync.
Новый инструмент, доступный для подписчиков D-ID, представлен в D-ID Studio и по API, он поддерживает 30 языков, включая русский, мандаринский, японский, хинди, испанский и французский. Технология основана на собственных разработках D-ID.
✔️ Игровой ИИ-стартап анонсировал инструменты для gamedev на базе GenAI.
ИИ-стартап Exists анонсировал платформу "text-to-game", которая позволяет создавать компьютерные 3D-игры на основе текстовых подсказок, не требуя навыков в написании кода.
Анонсированный сервис использует запатентованные модели генеративного GenAI Exists для создания игрового окружения, персонажей и механики. Интегрируя архитектуру нейронных сетей с возможностями игрового движка, компания стремится упростить процесс создания игр.
✔️ Napkin AI: дешевая и простая альтернатива Adobe и Canva.
Napkin AI - это инструмент для заметок и генерации визуальных материалов из текста, который можно использовать для презентаций, статей, отчетов. Сервис быстро создает уникальные графические элементы за 10-30 секунд и поддерживает несколько языков - английский, немецкий, французский, японский и китайский.
📌 Подробнее
@ai_machinelearning_big_data
#news #ai #ml #tech
❤16👍14🔥3
AI21 Labs опубликовала в открытом доступе семейство моделей Jamba 1.5. Модели позиционированы для использования в бизнесе для задач анализа документов, рабочих процессов RAG, поддержки клиентов и обладают возможностями вызова функций, структурированного вывода (JSON) и генерации текстовых данных.
Семейство демонстрирует хорошую управляемость в длительном контексте, скорость и качество. Это первый кейс успешного масштабирования не трансформерной модели до уровня качества топовых открытых моделей.
Архитектура Jamba состоит из гибридного сочетания Transformers и Mamba, что позволило создать модели, которые требуют меньший объем VRAM, чем трансформерные аналоги и могут обрабатывать контексты длиной до 140 тысяч токенов на одном GPU в квантованной версии.
Чтобы сделать модели удобными в использовании, была разработана новая техника квантования ExpertsInt8. Она квантует только веса, которые являются частью слоев MoE, и сохраняет их в формате INT8.
ExpertsInt8 быстрее других методов квантования, не требует калибровки и дает возможность использования BF16 для хранения больших активаций и позволяет загружать Large модель на одном узле из 8 GPU.
Jamba 1.5 Large:
Jamba 1.5 Mini:
Запуск моделей возможен на платформах AI21 Studio, Google Cloud, Azure, Hugging Face, NVIDIA NIM.
Протестировать возможности обеих моделей можно онлайн в сервисе AI21 Studio .
Доступен вход с Gmail и Github, на бесплатный тестовый период дается 10$ на три месяца при тарификации:
@ai_machinelearning_big_data
#AI #Jamba #LLM #ML #SSM
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍29❤6🔥3🎉3
В Яндексе подробно рассказали про новую технологию, которую стали использовать в Яндекс Погоде. OmniCast работает на основе нейросетей, которые рассчитывают температуру воздуха, учитывая множество факторов, в том числе один совершенно новый — любительские метеостанции.
OmniCast помогает решать проблему точности прогноза в разных локальных районах мегаполисов. Подробнее про то, как работает метод, написано в статье.
▪️Хабр
@ai_machinelearning_big_data
#AI #ML #OmniCast
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍23❤7🗿4🥰3🌚1