Мобильная разработка
4.17K subscribers
161 photos
21 videos
1 file
228 links
@haarrp - admin

@itchannels_telegram - 🔥лучшие ит-каналы

@javascriptv - продвинутый javascript

@JavaScript_testit- js тесты

@programming_books_it - бесплатные it книги

@ai_machinelearning_big_data - ml
Download Telegram
🔥 Дайджест полезных материалов из мира Мобильной разработки за неделю

Почитать:
Раскраска SVG картинки во flutter, и почему я решил отключить Impeller
Огромная шпаргалка с готовыми запросами SQL (SQLite)
Реализация чата на Flutter при помощи вебсокетов
Практическая реализация паттерна Server-Driven UI на Flutter c использованием фреймворка Duit
Где изучать C# в 2024. Бесплатные курсы и полезные ресурсы
Как создать shader в Flutter для эффектной анимации в приложении?
Как с помощью ChatGPT реализовать раскраску во flutter
Вся наша жизнь – игра: или как прижилась геймификация внутри мобильного приложения в ритейле
Бесплатные курсы Golang 2024
Уменьшаем boilerplate с помощью Swift Macros
Направо пойдешь — в бэкенд придешь, налево — в мобилки…
Кто ты, SwiftData
Аналитика в игре на Godot: подключаем MyTracker
How to create a similar pan an a zoom movement in Flutter flame
First build and publish Nx expo app
Ultimate Cross-Platform Framework Selection: Flutter or React Native
Flutter Developer ROADMAP 2024
Exploration of Flutter Hot Update Technology
In-Depth Perspective on Flutter: A Comprehensive Analysis and Practice Guide
SwiftUI Essentials: Crafting a To-Do List App with Xcode and Git Integration
Easily Replicate a Waiting List UI in .NET MAUI
Exploring UI UX Immersive Trends in 2024 and Beyond
Generics in Swift: Expanding Flexibility and Code Reusability

Посмотреть:
🌐 Golang 100 вопросов с собеседований. Подготовка Go разработчика Часть 1 ( 38:15)
🌐 Задание с собеседования Golang разработчика. Разбор важных тем. ( 14:24)
🌐 Q&A Стрим. Прожариваем новые форматы ( 01:19:43)
🌐 Разбор кода приложения по доставке пиццы ( 01:45:57)
🌐 Сколько учиться #ios разработке? #apple #swift ( 00:33)
🌐 Вклад Алан Тьюринга в развитии в #ИИ ( 01:00)
🌐 Сколько времени нужно для разработки #ios приложения #apple #swift ( 00:44)
🌐 Выполнение Тестового задания на вакансию #IOS разработчика. Часть 1 #swiftUI ( 01:14:48)
🌐 Сколько стоит разработка #ios приложения #apple #swift #iphone ( 00:37)
🌐 Вклад Джона фон Неймана в развитии в #ИИ ( 00:56)
🌐 Первое в истории упоминание #ИИ ( 00:28)
🌐 История развития Искуственного Интелекта. Фильм. Часть 1 ( 09:48)
🌐 Про #ios разработку за 60 секунд #swift #apple ( 00:59)

Хорошего дня!
👍31🔥1
Forwarded from Machinelearning
🍏 MobileCLIP: Fast Image-Text Models through Multi-Modal Reinforced Training

Apple выпустила невероятно быстрые модели Core ML и приложение для iOS, позволяющее запускать их на iPhone!

Эти модели можно подключить к демо приложению, представленному в официальном репозитории MobileCLIP.

> S0 соответствует ViT-B/ 16 от OpenAI, но в 4,8 раза быстрее и в 2,8 раза меньше размером.

> S2 превосходит ViT-B/16 от SigLIP в 2,3 раза, при этом в 2,1 раза меньше по размеру, при этом используется для обучения в 3 раза меньше данных.

> MobileCLIP-B(LT) достигает 77,2%-ную точность обработки изображений, превосходя DFN, SigLIP и даже ViT-L/14@336 от OpenAI

conda create -n clipenv python=3.10
conda activate clipenv
pip install -e .


Пример использования:

Python
import torch
from PIL import Image
import mobileclip

model, _, preprocess = mobileclip.create_model_and_transforms('mobileclip_s0', pretrained='/path/to/mobileclip_s0.pt')
tokenizer = mobileclip.get_tokenizer('mobileclip_s0')

image = preprocess(Image.open("docs/fig_accuracy_latency.png").convert('RGB')).unsqueeze(0)
text = tokenizer(["a diagram", "a dog", "a cat"])

with torch.no_grad(), torch.cuda.amp.autocast():
image_features = model.encode_image(image)
text_features = model.encode_text(text)
image_features /= image_features.norm(dim=-1, keepdim=True)
text_features /= text_features.norm(dim=-1, keepdim=True)

text_probs = (100.0 * image_features @ text_features.T).softmax(dim=-1)

print("Label probs:", text_probs)



HF
Github
Результаты модели

@ai_machinelearning_big_data

#apple #coreml #mobile
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
3👍3🔥1
Forwarded from Machinelearning
🌟 AIMV2: набор визуальных энкодеров от Apple.

AIMV2 – семейство моделей визуальных энкодеров, предварительно обученных с помощью мультимодальной авторегрессионной цели, которая восстанавливает фрагменты изображений и текстовые токены, что, в итоге, позволяет AIMV2 справляться с задачами распознавания изображений, локализации объектов и мультимодального понимания.

Архитектура AIMV2 основана на ViT и использует каузальный мультимодальный декодер, который сначала регрессирует фрагменты изображения, а затем декодирует текстовые токены авторегрессионно. Визуальный энкодер использует префиксное внимание, что позволяет использовать двунаправленное внимание во время вывода без дополнительной настройки.

Семейство AIMV2 обучалось на комбинации общедоступных (DFN-2B, COYO) и собственных (HQITP) датасетов, содержащих пары "изображение-текст" и синтетические аннотации, сгенерированные предварительно обученным инструментом.

Эксперименты после обучения показали, что AIMV2-3B достигает точности 89,5% на ImageNet с замороженным транком, что лучше, чем у генеративных методов MAE и AIM. AIMV2 превосходит CLIP и SigLIP в большинстве тестов на мультимодальное понимание.

Модель совместима с LiT для zero-shot распознавания и может быть настроена для обработки изображений с различными разрешениями и соотношениями сторон.

В отрытый доступ на HF опубликованы модели:

🟠AIMv2 в разрешении 224px: 4 модели с количеством параметров - 0.3B, 0.6B, 1.2B и 2.7B

🟠AIMv2 в разрешении 336px: 4 модели с количеством параметров - 0.3B, 0.6B, 1.2B и 2.7B

🟠AIMv2 в разрешении 448px: 4 модели с количеством параметров - 0.3B, 0.6B, 1.2B и 2.7B

🟢AIMv2 в Native разрешении : aimv2-large-patch14-native c 0.3B (разрешение в диапазоне от 112 до 4096)

🟢AIMv2 distilled ViT-Large (модели, которые были получены путем дистилляции из AIMV2-3B в архитектуру ViT-Large) : AIMv2-L и AIMv2-L-distilled.

🟠Zero-shot Adapted AIMv2 (модель после LiT- тюнинга): AIMv2-L с 0.3B параметров.


⚠️ ! Примеры инференса с JAX и MLX доступны в репозитории AIMv2

▶️Установка и локальный инференс c Pytorch:

# Clone the repository
pip install 'git+https://github.com/apple/ml-aim.git#subdirectory=aim-v2'

# Example Using PyTorch
from PIL import Image

from aim.v2.utils import load_pretrained
from aim.v1.torch.data import val_transforms

img = Image.open(...)
model = load_pretrained("aimv2-large-patch14-336", backend="torch")
transform = val_transforms(img_size=336)

inp = transform(img).unsqueeze(0)
features = model(inp)


📌Лицензирование: Apple Sample Code License.


🟡Коллекция на HF
🟡Arxiv
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #Vision #Apple #AIMv2
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍3🔥1
Forwarded from Machinelearning
🌟 FlexTok: адаптивная 1D-токенизация изображений от Apple.

FlexTok - метод токенизации изображений, который преобразует 2D-изображения в упорядоченные 1D-последовательности переменной длины.

Его цель - сократить объем данных, необходимых для обучения генеративных моделей, и при этом оставить достаточную информацию для качественной реконструкции и генерации.

В отличие от традиционных подходов, где число токенов фиксировано и зависит только от размера изображения, FlexTok подстраивается под сложность контента: простейшая сцена может кодироваться несколькими токенами, а сложная - десятками и сотнями .

FlexTok, это по сути, пайплайн из 3 компонентов: ViT‑энкодер, квантование регистров и маскирование внимания:

ViT‑энкодер с набором «регистровых» токенов читает латентные представления VAE‑GAN и конденсирует их в 1D-последовательность до 256 регистров .

Затем, с помощью FSQ‑квантования, каждый регистр дискретизируется в код из заранее определенного словаря размером ~64 000.
На этом этапе применяется "nested dropout": во время обучения случайно обрезаются последние токены, чтобы модель научилась упорядочивать информацию от грубых форм к деталям.

Параллельно применяется авторегрессионная маска внимания: каждый токен в цепочке видит только те, что были до него, и не знает о тех, что идут после. Это заставляет модель генерировать изображения шаг за шагом, от первого токена к последнему, и упрощает ей задачу прогнозирования следующих элементов.

Декодер в FlexTok - это модель rectified flow, которая на вход берет укороченные токены и слегка зашумленные латенты VAE и учится предсказывать тот шум, который нужно убрать, чтобы вернуть исходное представление.

Чтобы обучение шло быстрее и давало более точные результаты, добавляют REPA‑Loss: он сравнивает промежуточные признаки с векторами из DINOv2‑L. Благодаря этому даже при очень жесткой компрессии (от 1 до 256 токенов), FlexTok успешно восстанавливает детали изображения.

FlexTok легко встраивается в текстово‑ориентированные модели и может улучшить соответствие изображения описанию, даже если число токенов меняется. К тому же его адаптивная токенизация применима не только к картинкам, но и к аудио или видео.

▶️Набор токенизаторов:

🟢Flextok_d12_d12_in1k - 12\12 слоев энкодер-декодер, датасет IN1K;
🟢Flextok_d18_d18_in1k - 18\18 слоев энкодер-декодер, датасет IN1K;
🟢Flextok_d18_d28_in1k - 18\28 слоев энкодер-декодер, датасет IN1K;
🟢Flextok_d18_d28_dfm - 18\28 слоев энкодер-декодер, датасет DFN.

▶️ VAE:

🟠Flextok_vae_c4 - 4 каналов латента, коэффициент понижающей дискретизации 8;
🟠Flextok_vae_c8 - 8 каналов латента, коэффициент понижающей дискретизации 8;
🟠Flextok_vae_c16 - 16 каналов латента, коэффициент понижающей дискретизации 8.


🟡Страница проекта
🟡Набор на HF
🟡Arxiv
🟡Demo
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #Tokenizer #Flextok #Apple
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
3👍1