Мобильная разработка

🔥 Дайджест полезных материалов из мира Мобильной разработки за неделю

Почитать:
— Раскраска SVG картинки во flutter, и почему я решил отключить Impeller
— Огромная шпаргалка с готовыми запросами SQL (SQLite)
— Реализация чата на Flutter при помощи вебсокетов
— Практическая реализация паттерна Server-Driven UI на Flutter c использованием фреймворка Duit
— Где изучать C# в 2024. Бесплатные курсы и полезные ресурсы
— Как создать shader в Flutter для эффектной анимации в приложении?
— Как с помощью ChatGPT реализовать раскраску во flutter
— Вся наша жизнь – игра: или как прижилась геймификация внутри мобильного приложения в ритейле
— Бесплатные курсы Golang 2024
— Уменьшаем boilerplate с помощью Swift Macros
— Направо пойдешь — в бэкенд придешь, налево — в мобилки…
— Кто ты, SwiftData
— Аналитика в игре на Godot: подключаем MyTracker
— How to create a similar pan an a zoom movement in Flutter flame
— First build and publish Nx expo app
— Ultimate Cross-Platform Framework Selection: Flutter or React Native
— Flutter Developer ROADMAP 2024
— Exploration of Flutter Hot Update Technology
— In-Depth Perspective on Flutter: A Comprehensive Analysis and Practice Guide
— SwiftUI Essentials: Crafting a To-Do List App with Xcode and Git Integration
— Easily Replicate a Waiting List UI in .NET MAUI
— Exploring UI UX Immersive Trends in 2024 and Beyond
— Generics in Swift: Expanding Flexibility and Code Reusability

Посмотреть:
🌐 Golang 100 вопросов с собеседований. Подготовка Go разработчика Часть 1 (⏱ 38:15)
🌐 Задание с собеседования Golang разработчика. Разбор важных тем. (⏱ 14:24)
🌐 Q&A Стрим. Прожариваем новые форматы (⏱ 01:19:43)
🌐 Разбор кода приложения по доставке пиццы (⏱ 01:45:57)
🌐 Сколько учиться #ios разработке? #apple #swift (⏱ 00:33)
🌐 Вклад Алан Тьюринга в развитии в #ИИ (⏱ 01:00)
🌐 Сколько времени нужно для разработки #ios приложения #apple #swift (⏱ 00:44)
🌐 Выполнение Тестового задания на вакансию #IOS разработчика. Часть 1 #swiftUI (⏱ 01:14:48)
🌐 Сколько стоит разработка #ios приложения #apple #swift #iphone (⏱ 00:37)
🌐 Вклад Джона фон Неймана в развитии в #ИИ (⏱ 00:56)
🌐 Первое в истории упоминание #ИИ (⏱ 00:28)
🌐 История развития Искуственного Интелекта. Фильм. Часть 1 (⏱ 09:48)
🌐 Про #ios разработку за 60 секунд #swift #apple (⏱ 00:59)

Хорошего дня!

👍3❤1🔥1

1.51K viewsedited 09:36

Forwarded from Machinelearning

🍏

MobileCLIP: Fast Image-Text Models through Multi-Modal Reinforced Training

Apple выпустила невероятно быстрые модели Core ML и приложение для iOS, позволяющее запускать их на iPhone! ⚡

Эти модели можно подключить к демо приложению, представленному в официальном репозитории MobileCLIP.

> S0 соответствует ViT-B/ 16 от OpenAI, но в 4,8 раза быстрее и в 2,8 раза меньше размером.

> S2 превосходит ViT-B/16 от SigLIP в 2,3 раза, при этом в 2,1 раза меньше по размеру, при этом используется для обучения в 3 раза меньше данных.

> MobileCLIP-B(LT) достигает 77,2%-ную точность обработки изображений, превосходя DFN, SigLIP и даже ViT-L/14@336 от OpenAI

conda create -n clipenv python=3.10
conda activate clipenv
pip install -e .

Пример использования:


Python
import torch
from PIL import Image
import mobileclip

model, _, preprocess = mobileclip.create_model_and_transforms('mobileclip_s0', pretrained='/path/to/mobileclip_s0.pt')
tokenizer = mobileclip.get_tokenizer('mobileclip_s0')

image = preprocess(Image.open("docs/fig_accuracy_latency.png").convert('RGB')).unsqueeze(0)
text = tokenizer(["a diagram", "a dog", "a cat"])

with torch.no_grad(), torch.cuda.amp.autocast():
    image_features = model.encode_image(image)
    text_features = model.encode_text(text)
    image_features /= image_features.norm(dim=-1, keepdim=True)
    text_features /= text_features.norm(dim=-1, keepdim=True)

    text_probs = (100.0 * image_features @ text_features.T).softmax(dim=-1)

print("Label probs:", text_probs)

▪HF
▪Github
▪Результаты модели

@ai_machinelearning_big_data

#apple #coreml #mobile

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

❤3👍3🔥1

1.86K views10:55

Мобильная разработка

Forwarded from Machinelearning

🌟 AIMV2: набор визуальных энкодеров от Apple.

AIMV2 – семейство моделей визуальных энкодеров, предварительно обученных с помощью мультимодальной авторегрессионной цели, которая восстанавливает фрагменты изображений и текстовые токены, что, в итоге, позволяет AIMV2 справляться с задачами распознавания изображений, локализации объектов и мультимодального понимания.

Архитектура AIMV2 основана на ViT и использует каузальный мультимодальный декодер, который сначала регрессирует фрагменты изображения, а затем декодирует текстовые токены авторегрессионно. Визуальный энкодер использует префиксное внимание, что позволяет использовать двунаправленное внимание во время вывода без дополнительной настройки.

Семейство AIMV2 обучалось на комбинации общедоступных (DFN-2B, COYO) и собственных (HQITP) датасетов, содержащих пары "изображение-текст" и синтетические аннотации, сгенерированные предварительно обученным инструментом.

Эксперименты после обучения показали, что AIMV2-3B достигает точности 89,5% на ImageNet с замороженным транком, что лучше, чем у генеративных методов MAE и AIM. AIMV2 превосходит CLIP и SigLIP в большинстве тестов на мультимодальное понимание.

Модель совместима с LiT для zero-shot распознавания и может быть настроена для обработки изображений с различными разрешениями и соотношениями сторон.

В отрытый доступ на HF опубликованы модели:

🟠AIMv2 в разрешении 224px: 4 модели с количеством параметров - 0.3B, 0.6B, 1.2B и 2.7B

🟠AIMv2 в разрешении 336px: 4 модели с количеством параметров - 0.3B, 0.6B, 1.2B и 2.7B

🟠AIMv2 в разрешении 448px: 4 модели с количеством параметров - 0.3B, 0.6B, 1.2B и 2.7B

🟢AIMv2 в Native разрешении : aimv2-large-patch14-native c 0.3B (разрешение в диапазоне от 112 до 4096)

🟢AIMv2 distilled ViT-Large (модели, которые были получены путем дистилляции из AIMV2-3B в архитектуру ViT-Large) : AIMv2-L и AIMv2-L-distilled.

🟠Zero-shot Adapted AIMv2 (модель после LiT- тюнинга): AIMv2-L с 0.3B параметров.

⚠️ ! Примеры инференса с JAX и MLX доступны в репозитории AIMv2

▶️Установка и локальный инференс c Pytorch:

# Clone the repository
pip install 'git+https://github.com/apple/ml-aim.git#subdirectory=aim-v2'

# Example Using PyTorch
from PIL import Image

from aim.v2.utils import load_pretrained
from aim.v1.torch.data import val_transforms

img = Image.open(...)
model = load_pretrained("aimv2-large-patch14-336", backend="torch")
transform = val_transforms(img_size=336)

inp = transform(img).unsqueeze(0)
features = model(inp)

📌Лицензирование: Apple Sample Code License.

🟡

Коллекция на HF

🟡

Arxiv

🖥

GitHub

@ai_machinelearning_big_data

#AI #ML #Vision #Apple #AIMv2

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍3🔥1

2.15K views16:13

Мобильная разработка

Forwarded from Machinelearning

🌟 FlexTok: адаптивная 1D-токенизация изображений от Apple.

FlexTok - метод токенизации изображений, который преобразует 2D-изображения в упорядоченные 1D-последовательности переменной длины.

Его цель - сократить объем данных, необходимых для обучения генеративных моделей, и при этом оставить достаточную информацию для качественной реконструкции и генерации.

В отличие от традиционных подходов, где число токенов фиксировано и зависит только от размера изображения, FlexTok подстраивается под сложность контента: простейшая сцена может кодироваться несколькими токенами, а сложная - десятками и сотнями .

FlexTok, это по сути, пайплайн из 3 компонентов: ViT‑энкодер, квантование регистров и маскирование внимания:

ViT‑энкодер с набором «регистровых» токенов читает латентные представления VAE‑GAN и конденсирует их в 1D-последовательность до 256 регистров .

Затем, с помощью FSQ‑квантования, каждый регистр дискретизируется в код из заранее определенного словаря размером ~64 000.
На этом этапе применяется "nested dropout": во время обучения случайно обрезаются последние токены, чтобы модель научилась упорядочивать информацию от грубых форм к деталям.

Параллельно применяется авторегрессионная маска внимания: каждый токен в цепочке видит только те, что были до него, и не знает о тех, что идут после. Это заставляет модель генерировать изображения шаг за шагом, от первого токена к последнему, и упрощает ей задачу прогнозирования следующих элементов.

Декодер в FlexTok - это модель rectified flow, которая на вход берет укороченные токены и слегка зашумленные латенты VAE и учится предсказывать тот шум, который нужно убрать, чтобы вернуть исходное представление.

Чтобы обучение шло быстрее и давало более точные результаты, добавляют REPA‑Loss: он сравнивает промежуточные признаки с векторами из DINOv2‑L. Благодаря этому даже при очень жесткой компрессии (от 1 до 256 токенов), FlexTok успешно восстанавливает детали изображения.

FlexTok легко встраивается в текстово‑ориентированные модели и может улучшить соответствие изображения описанию, даже если число токенов меняется. К тому же его адаптивная токенизация применима не только к картинкам, но и к аудио или видео.

▶️

Набор токенизаторов:

🟢

Flextok_d12_d12_in1k - 12\12 слоев энкодер-декодер, датасет IN1K;

🟢

Flextok_d18_d18_in1k - 18\18 слоев энкодер-декодер, датасет IN1K;

🟢

Flextok_d18_d28_in1k - 18\28 слоев энкодер-декодер, датасет IN1K;

🟢

Flextok_d18_d28_dfm - 18\28 слоев энкодер-декодер, датасет DFN.

▶️

VAE: