Технозаметки Малышева

Google анонсировала Gemma: новое поколение малых ИИ-моделей

Gemma - семейство легких и современных ИИ моделей (2B/7B), теперь в Vertex AI и GKE.
Созданы на базе технологий, лежащих в основе Gemini.
Обеспечивают высокую производительность, опережая аналоги и доступны для запуска локально.
Предлагаются в двух размерах: Gemma 2B и Gemma 7B.
Поддержка широкого спектра платформ: от Colab до PyTorch и Keras 3.0.
Работают на разных устройствах, включая лэптопы и Google Cloud.
Включено в набор моделей в Vertex AI Model Garden.

#Gemma #VertexAI #GKE

98 viewsedited 13:26

Разработчик пофиксил 8 багов в модели GEMMA от Google и сделал её в 100 раз лучше

Энтузиаст устранил 8 ошибок в языковой модели GEMMA от Google,на 6 триллионов токенов.
Благодаря этому модель стала лучше генерировать тексты, близкие к человеческим.
У GEMMA все еще остаются проблемы с пониманием контекста и сохранением связности текста.
Одна из исправленных ошибок приводила к повторению одного и того же ответа на разные запросы.
Список багов:
- Must add <bos> or else losses will be very high.
- There’s a typo for model in the technical report!
- sqrt(3072)=55.4256 but bfloat16 is 55.5.
Layernorm (w+1) must be in float32.
- Keras mixed_bfloat16 RoPE is wrong.
RoPE is sensitive to y*(1/x) vs y/x.
- RoPE should be float32 - already pushed to transformers 4.38.2.
- GELU should be approx tanh not exact.

Предложены пути дальнейшего усовершенствования: контекстное обучение, устранение предвзятостей, разнообразие методов реализации.

Интересно, что модели которые уже выпущены, получается могут содержать ошибки, исправление которых повышает их общую эффективность на 2 порядка.
Думаю, многие не учитывают этот фактор в прогнозах.
Когда ИИ помогает разработчику, - повышается его общая эффективность и это дополнительно ускоряет прогресс, помимо Мура и т.д.

#GEMMA #Google #debugging
-------
@tsingular

87 viewsedited 07:32

Технозаметки Малышева

This media is not supported in your browser

VIEW IN TELEGRAM

🚀 Gemma Developer Day

Уже через пару часов, в 12:30 по CET, Google DeepMind откроет конференцию Gemma Developer Day in Paris.

Очень ждём Gemma 3, конечно, судя по тому что есть в программе:

1. Архитектурные изменения - Alek Andreev и команда расскажут о дизайн-решениях, которые легли в основу новой модели. Судя по докладу "Understanding Gemma architecture choices", Google серьезно переработал внутренности.

2. Многоязычность - Adi Mayrav Gilady поделится стратегиями обучения, которые делают Gemma многоязычной. Отличная новость для интернациональных проектов и локализации! (В Gemma2 до сих пор русский лучше всего работает)

3. PaliGemma - Модель получила "глаза" через SigLIP-энкодер. Особенно круто, что она предобучена на задачах распознавания объектов и сегментации, а не только на подписях к картинкам.

4. Мобильность и десктоп - Модель будет работать на Mac и Windows через Ollama. А раздел "Gemma on mobile and web" обещает интеграцию через MediaPipe и LiteRT.

5. Безопасность - ShieldGemma на базе Gemma 2 будет выявлять потенциально вредоносный контент, а SynthID добавит водяные знаки для идентификации ИИ-сгенерированного текста. (это она получается и генерить картинки что-ли будет? )

- Доклад про "Building intelligent agents with Gemma" расскажет о function calling, планировании ответов и рассуждениях.

- Поддержка на Jetson устройствах от NVIDIA (доклад Asier Arranz) открывает возможности для edge-вычислений в промышленности и роботах.

Так же расскажут про файнтюнинг и дистилляцию.

#gemma #google #ollama
———
@tsingular

👍7

947 viewsedited 06:08

Технозаметки Малышева

Forwarded from Machinelearning

⚡️ Gemma 3 QAT

Google DeepMind выпустили обновленные версии своих языковых моделей Gemma 3, которые стали значительно эффективнее по использованию памяти без существенной потери производительности.

Ключевая технология: QAT (Quantization-Aware Training)

Что это? QAT — это техника обучения, при которой модель во время дообучения "учится" работать с пониженной точностью вычислений (используя меньше бит для представления чисел). Это имитирует условия, в которых модель будет работать после квантизации (сжатия).

Обычная квантизация после обучения может привести к падению точности. QAT позволяет модели заранее адаптироваться к работе в низкоточном режиме, минимизируя потерю качества после финальной квантизации.

Каждая модель (1B, 4B, 12B, 27B) была дообучена примерно на 5000 шагов с имитацией низкой разрядности весов. При этом использовался приём, похожий на знание-дистилляцию: оригинальная неквантованная модель выступала в роли «учителя».

Преимущество QAT-подхода для Gemma 3 оказалось колоссальным. Официально заявлено, что квантованные модели Gemma 3 QAT сохраняют качество, практически не упало, при этом требуют в ~3 раза меньше памяти.

Например, объём памяти для хранения весов самой крупной модели на 27B параметров сократился с ~54 ГБ (в формате bfloat16) до ~14 ГБ в 4-битном целочисленном формате – это экономия памяти примерно в ~3–4 раза.

ollama run hf(.)co/google/gemma-3-4b-it-qat-q4_0-gguf

✔️HF

@ai_machinelearning_big_data

#google #gemma #AI #ML #LLM #Quantization

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥14❤‍🔥2❤1👍1

1.27K views05:46

Технозаметки Малышева

Google представил Gemma 3 QAT: собственный вариант квантизации Q4 для домашних видеокарт

Google выпустил новую версию Gemma 3, оптимизированную с помощью Quantization-Aware Training.

Технология позволяет даже 27B-модели функционировать на обычных потребительских GPU вроде RTX 3090.

Квантизация снижает точность представления параметров с 16 до 4 бит, что дает четырехкратное уменьшение занимаемой памяти.

Однако благодаря интеграции процесса квантизации в тренировку удалось минимизировать падение качества на 54%.

Требования к видеопамяти сократились: для Gemma 3 12B – с 18 до 4.5 ГБ, для Gemma 3 27B – с 54 до 13.5 ГБ.

Официальные int4 и Q4_0 модели доступны на Hugging Face и Kaggle, с поддержкой Ollama, llama.cpp и MLX.

Получается, что Гугл, проведя собственную квантизацию модели в 2 раза повысил качество по сравнению с тем, что делало сообщество самостоятельно.

В ollama по умолчанию доступна старая нарезка. Чтобы подгрузить QAT версию используйте команду:

ollama run gemma3:27b-it-qat

#Google #Gemma #QAT
———
@tsingular

🔥8

1.14K viewsedited 06:07

Технозаметки Малышева

Сделал парсер для PDF файлов с Ollama глазками на базе gemma3:27b-it-qat

Вдруг кому полезно будет.
GitHub

На вход подаёте любой PDF - не важно что там сканы или текст.
Вытаскивается и текст и каждая страница сохраняется как изображение и отдаётся в ollama gemma3 на анализ.
Результат объединяется и для каждой страницы у вас будет 2 текстовых описания, которые дальше уже можно как удобно обрабатывать.

Модели можно подставлять любые - вызывается через url.

Размер файла тоже не ограничен.
Автоперевод на любой язык (указывается в настройках)
Страницы можно перерабатывать поштучно, указывая их в командной строке.
В случае остановки - продолжает с последней распознанной страницы.
Для каждой страницы сохраняются промежуточные результаты и потом объединяются в общий итоговый файл.
Дальше можно передавать в RAG цепочку.

#dev #PDF #ollama #gemma #OCR
———
@tsingular

🔥15⚡11✍5👍3❤1🤯1

1.74K viewsedited 12:25

Технозаметки Малышева

5:47

Media is too big

VIEW IN TELEGRAM

🚀 Google представил Gemma 3n — мощную мобильную мультимодальную ИИ

Google анонсировал предварительный релиз Gemma 3n — принципиально новой модели, разработанной специально для мобильных устройств. Это полностью переработанная архитектура, созданная совместно с лидерами разработки мобильных чипсетов: Qualcomm, MediaTek и Samsung.

💡 Ключевые улучшения:
- Революционный механизм Per-Layer Embeddings (PLE): 5B и 8B параметров работают с памятью как 2B и 4B модели (всего 2-3 ГБ)
- Мгновенная активация: скорость отклика в 1.5 раза быше предыдущего поколения
- Мультимодальность+++: обработка текста, изображений, видео и теперь АУДИО
- Технология Mix'n'Match: динамическое создание субмоделей из 4B модели под конкретные кейсы
- Улучшенная мультиязычность: поддержка японского, немецкого, корейского, испанского и французского

🛠 Возможности для разработчиков:
- Создание мультимодальных AI приложений работающих без интернета
- Разработка приложений с пониманием аудио: транскрипция речи, перевод, голосовое управление
- Построение интерактивных систем, реагирующих на визуальные и звуковые сигналы из окружения пользователя

🔍 Техническая суть:
Архитектурный прорыв заключается в инновационном подходе к памяти. Благодаря технологиям PLE, KVC sharing и продвинутой квантизации активаций, модель с 8B параметров потребляет всего 3ГБ — революционный показатель для мобильных устройств.

📱 Где попробовать:
Прямо сейчас можно потестировать в облаке в Google AI Studio (пока только текст)
Для разработчиков: локальная интеграция через Google AI Edge (поддержка текста и изображений)
Скоро: полная поддержка аудио

Эта же архитектура ляжет в основу следующего поколения Gemini Nano, что позволит качественно усилить Android и Chrome к концу 2025 года.

#Gemma #Google #переводы
———
@tsingular

👍7🔥5⚡2

1.04K viewsedited 05:43

About

Blog

Apps

Platform