Google анонсировала Gemma: новое поколение малых ИИ-моделей
Gemma - семейство легких и современных ИИ моделей (2B/7B), теперь в Vertex AI и GKE.
Созданы на базе технологий, лежащих в основе Gemini.
Обеспечивают высокую производительность, опережая аналоги и доступны для запуска локально.
Предлагаются в двух размерах: Gemma 2B и Gemma 7B.
Поддержка широкого спектра платформ: от Colab до PyTorch и Keras 3.0.
Работают на разных устройствах, включая лэптопы и Google Cloud.
Включено в набор моделей в Vertex AI Model Garden.
#Gemma #VertexAI #GKE
Gemma - семейство легких и современных ИИ моделей (2B/7B), теперь в Vertex AI и GKE.
Созданы на базе технологий, лежащих в основе Gemini.
Обеспечивают высокую производительность, опережая аналоги и доступны для запуска локально.
Предлагаются в двух размерах: Gemma 2B и Gemma 7B.
Поддержка широкого спектра платформ: от Colab до PyTorch и Keras 3.0.
Работают на разных устройствах, включая лэптопы и Google Cloud.
Включено в набор моделей в Vertex AI Model Garden.
#Gemma #VertexAI #GKE
Разработчик пофиксил 8 багов в модели GEMMA от Google и сделал её в 100 раз лучше
Энтузиаст устранил 8 ошибок в языковой модели GEMMA от Google,на 6 триллионов токенов.
Благодаря этому модель стала лучше генерировать тексты, близкие к человеческим.
У GEMMA все еще остаются проблемы с пониманием контекста и сохранением связности текста.
Одна из исправленных ошибок приводила к повторению одного и того же ответа на разные запросы.
Список багов:
- Must add <bos> or else losses will be very high.
- There’s a typo for model in the technical report!
- sqrt(3072)=55.4256 but bfloat16 is 55.5.
Layernorm (w+1) must be in float32.
- Keras mixed_bfloat16 RoPE is wrong.
RoPE is sensitive to y*(1/x) vs y/x.
- RoPE should be float32 - already pushed to transformers 4.38.2.
- GELU should be approx tanh not exact.
Предложены пути дальнейшего усовершенствования: контекстное обучение, устранение предвзятостей, разнообразие методов реализации.
Интересно, что модели которые уже выпущены, получается могут содержать ошибки, исправление которых повышает их общую эффективность на 2 порядка.
Думаю, многие не учитывают этот фактор в прогнозах.
Когда ИИ помогает разработчику, - повышается его общая эффективность и это дополнительно ускоряет прогресс, помимо Мура и т.д.
#GEMMA #Google #debugging
-------
@tsingular
Энтузиаст устранил 8 ошибок в языковой модели GEMMA от Google,на 6 триллионов токенов.
Благодаря этому модель стала лучше генерировать тексты, близкие к человеческим.
У GEMMA все еще остаются проблемы с пониманием контекста и сохранением связности текста.
Одна из исправленных ошибок приводила к повторению одного и того же ответа на разные запросы.
Список багов:
- Must add <bos> or else losses will be very high.
- There’s a typo for model in the technical report!
- sqrt(3072)=55.4256 but bfloat16 is 55.5.
Layernorm (w+1) must be in float32.
- Keras mixed_bfloat16 RoPE is wrong.
RoPE is sensitive to y*(1/x) vs y/x.
- RoPE should be float32 - already pushed to transformers 4.38.2.
- GELU should be approx tanh not exact.
Предложены пути дальнейшего усовершенствования: контекстное обучение, устранение предвзятостей, разнообразие методов реализации.
Интересно, что модели которые уже выпущены, получается могут содержать ошибки, исправление которых повышает их общую эффективность на 2 порядка.
Думаю, многие не учитывают этот фактор в прогнозах.
Когда ИИ помогает разработчику, - повышается его общая эффективность и это дополнительно ускоряет прогресс, помимо Мура и т.д.
#GEMMA #Google #debugging
-------
@tsingular
This media is not supported in your browser
VIEW IN TELEGRAM
🚀 Gemma Developer Day
Уже через пару часов, в 12:30 по CET, Google DeepMind откроет конференцию Gemma Developer Day in Paris.
Очень ждём Gemma 3, конечно, судя по тому что есть в программе:
1. Архитектурные изменения - Alek Andreev и команда расскажут о дизайн-решениях, которые легли в основу новой модели. Судя по докладу "Understanding Gemma architecture choices", Google серьезно переработал внутренности.
2. Многоязычность - Adi Mayrav Gilady поделится стратегиями обучения, которые делают Gemma многоязычной. Отличная новость для интернациональных проектов и локализации! (В Gemma2 до сих пор русский лучше всего работает)
3. PaliGemma - Модель получила "глаза" через SigLIP-энкодер. Особенно круто, что она предобучена на задачах распознавания объектов и сегментации, а не только на подписях к картинкам.
4. Мобильность и десктоп - Модель будет работать на Mac и Windows через Ollama. А раздел "Gemma on mobile and web" обещает интеграцию через MediaPipe и LiteRT.
5. Безопасность - ShieldGemma на базе Gemma 2 будет выявлять потенциально вредоносный контент, а SynthID добавит водяные знаки для идентификации ИИ-сгенерированного текста. (это она получается и генерить картинки что-ли будет? )
- Доклад про "Building intelligent agents with Gemma" расскажет о function calling, планировании ответов и рассуждениях.
- Поддержка на Jetson устройствах от NVIDIA (доклад Asier Arranz) открывает возможности для edge-вычислений в промышленности и роботах.
Так же расскажут про файнтюнинг и дистилляцию.
#gemma #google #ollama
———
@tsingular
Уже через пару часов, в 12:30 по CET, Google DeepMind откроет конференцию Gemma Developer Day in Paris.
Очень ждём Gemma 3, конечно, судя по тому что есть в программе:
1. Архитектурные изменения - Alek Andreev и команда расскажут о дизайн-решениях, которые легли в основу новой модели. Судя по докладу "Understanding Gemma architecture choices", Google серьезно переработал внутренности.
2. Многоязычность - Adi Mayrav Gilady поделится стратегиями обучения, которые делают Gemma многоязычной. Отличная новость для интернациональных проектов и локализации! (В Gemma2 до сих пор русский лучше всего работает)
3. PaliGemma - Модель получила "глаза" через SigLIP-энкодер. Особенно круто, что она предобучена на задачах распознавания объектов и сегментации, а не только на подписях к картинкам.
4. Мобильность и десктоп - Модель будет работать на Mac и Windows через Ollama. А раздел "Gemma on mobile and web" обещает интеграцию через MediaPipe и LiteRT.
5. Безопасность - ShieldGemma на базе Gemma 2 будет выявлять потенциально вредоносный контент, а SynthID добавит водяные знаки для идентификации ИИ-сгенерированного текста. (это она получается и генерить картинки что-ли будет? )
- Доклад про "Building intelligent agents with Gemma" расскажет о function calling, планировании ответов и рассуждениях.
- Поддержка на Jetson устройствах от NVIDIA (доклад Asier Arranz) открывает возможности для edge-вычислений в промышленности и роботах.
Так же расскажут про файнтюнинг и дистилляцию.
#gemma #google #ollama
———
@tsingular
👍7
Forwarded from Machinelearning
⚡️ Gemma 3 QAT
Google DeepMind выпустили обновленные версии своих языковых моделей Gemma 3, которые стали значительно эффективнее по использованию памяти без существенной потери производительности.
Ключевая технология: QAT (Quantization-Aware Training)
Что это? QAT — это техника обучения, при которой модель во время дообучения "учится" работать с пониженной точностью вычислений (используя меньше бит для представления чисел). Это имитирует условия, в которых модель будет работать после квантизации (сжатия).
Обычная квантизация после обучения может привести к падению точности. QAT позволяет модели заранее адаптироваться к работе в низкоточном режиме, минимизируя потерю качества после финальной квантизации.
Каждая модель (1B, 4B, 12B, 27B) была дообучена примерно на 5000 шагов с имитацией низкой разрядности весов. При этом использовался приём, похожий на знание-дистилляцию: оригинальная неквантованная модель выступала в роли «учителя».
Преимущество QAT-подхода для Gemma 3 оказалось колоссальным. Официально заявлено, что квантованные модели Gemma 3 QAT сохраняют качество, практически не упало, при этом требуют в ~3 раза меньше памяти.
Например, объём памяти для хранения весов самой крупной модели на 27B параметров сократился с ~54 ГБ (в формате bfloat16) до ~14 ГБ в 4-битном целочисленном формате – это экономия памяти примерно в ~3–4 раза.
✔️ HF
@ai_machinelearning_big_data
#google #gemma #AI #ML #LLM #Quantization
Google DeepMind выпустили обновленные версии своих языковых моделей Gemma 3, которые стали значительно эффективнее по использованию памяти без существенной потери производительности.
Ключевая технология: QAT (Quantization-Aware Training)
Что это? QAT — это техника обучения, при которой модель во время дообучения "учится" работать с пониженной точностью вычислений (используя меньше бит для представления чисел). Это имитирует условия, в которых модель будет работать после квантизации (сжатия).
Обычная квантизация после обучения может привести к падению точности. QAT позволяет модели заранее адаптироваться к работе в низкоточном режиме, минимизируя потерю качества после финальной квантизации.
Каждая модель (1B, 4B, 12B, 27B) была дообучена примерно на 5000 шагов с имитацией низкой разрядности весов. При этом использовался приём, похожий на знание-дистилляцию: оригинальная неквантованная модель выступала в роли «учителя».
Преимущество QAT-подхода для Gemma 3 оказалось колоссальным. Официально заявлено, что квантованные модели Gemma 3 QAT сохраняют качество, практически не упало, при этом требуют в ~3 раза меньше памяти.
Например, объём памяти для хранения весов самой крупной модели на 27B параметров сократился с ~54 ГБ (в формате bfloat16) до ~14 ГБ в 4-битном целочисленном формате – это экономия памяти примерно в ~3–4 раза.
ollama run hf(.)co/google/gemma-3-4b-it-qat-q4_0-gguf
@ai_machinelearning_big_data
#google #gemma #AI #ML #LLM #Quantization
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥14❤🔥2❤1👍1
Google представил Gemma 3 QAT: собственный вариант квантизации Q4 для домашних видеокарт
Google выпустил новую версию Gemma 3, оптимизированную с помощью Quantization-Aware Training.
Технология позволяет даже 27B-модели функционировать на обычных потребительских GPU вроде RTX 3090.
Квантизация снижает точность представления параметров с 16 до 4 бит, что дает четырехкратное уменьшение занимаемой памяти.
Однако благодаря интеграции процесса квантизации в тренировку удалось минимизировать падение качества на 54%.
Требования к видеопамяти сократились: для Gemma 3 12B – с 18 до 4.5 ГБ, для Gemma 3 27B – с 54 до 13.5 ГБ.
Официальные int4 и Q4_0 модели доступны на Hugging Face и Kaggle, с поддержкой Ollama, llama.cpp и MLX.
Получается, что Гугл, проведя собственную квантизацию модели в 2 раза повысил качество по сравнению с тем, что делало сообщество самостоятельно.
В ollama по умолчанию доступна старая нарезка. Чтобы подгрузить QAT версию используйте команду:
ollama run gemma3:27b-it-qat
#Google #Gemma #QAT
———
@tsingular
Google выпустил новую версию Gemma 3, оптимизированную с помощью Quantization-Aware Training.
Технология позволяет даже 27B-модели функционировать на обычных потребительских GPU вроде RTX 3090.
Квантизация снижает точность представления параметров с 16 до 4 бит, что дает четырехкратное уменьшение занимаемой памяти.
Однако благодаря интеграции процесса квантизации в тренировку удалось минимизировать падение качества на 54%.
Требования к видеопамяти сократились: для Gemma 3 12B – с 18 до 4.5 ГБ, для Gemma 3 27B – с 54 до 13.5 ГБ.
Официальные int4 и Q4_0 модели доступны на Hugging Face и Kaggle, с поддержкой Ollama, llama.cpp и MLX.
Получается, что Гугл, проведя собственную квантизацию модели в 2 раза повысил качество по сравнению с тем, что делало сообщество самостоятельно.
В ollama по умолчанию доступна старая нарезка. Чтобы подгрузить QAT версию используйте команду:
ollama run gemma3:27b-it-qat
#Google #Gemma #QAT
———
@tsingular
🔥8
Сделал парсер для PDF файлов с Ollama глазками на базе gemma3:27b-it-qat
Вдруг кому полезно будет.
GitHub
На вход подаёте любой PDF - не важно что там сканы или текст.
Вытаскивается и текст и каждая страница сохраняется как изображение и отдаётся в ollama gemma3 на анализ.
Результат объединяется и для каждой страницы у вас будет 2 текстовых описания, которые дальше уже можно как удобно обрабатывать.
Модели можно подставлять любые - вызывается через url.
Размер файла тоже не ограничен.
Автоперевод на любой язык (указывается в настройках)
Страницы можно перерабатывать поштучно, указывая их в командной строке.
В случае остановки - продолжает с последней распознанной страницы.
Для каждой страницы сохраняются промежуточные результаты и потом объединяются в общий итоговый файл.
Дальше можно передавать в RAG цепочку.
#dev #PDF #ollama #gemma #OCR
———
@tsingular
Вдруг кому полезно будет.
GitHub
На вход подаёте любой PDF - не важно что там сканы или текст.
Вытаскивается и текст и каждая страница сохраняется как изображение и отдаётся в ollama gemma3 на анализ.
Результат объединяется и для каждой страницы у вас будет 2 текстовых описания, которые дальше уже можно как удобно обрабатывать.
Модели можно подставлять любые - вызывается через url.
Размер файла тоже не ограничен.
Автоперевод на любой язык (указывается в настройках)
Страницы можно перерабатывать поштучно, указывая их в командной строке.
В случае остановки - продолжает с последней распознанной страницы.
Для каждой страницы сохраняются промежуточные результаты и потом объединяются в общий итоговый файл.
Дальше можно передавать в RAG цепочку.
#dev #PDF #ollama #gemma #OCR
———
@tsingular
🔥15⚡11✍5👍3❤1🤯1
Media is too big
VIEW IN TELEGRAM
🚀 Google представил Gemma 3n — мощную мобильную мультимодальную ИИ
Google анонсировал предварительный релиз Gemma 3n — принципиально новой модели, разработанной специально для мобильных устройств. Это полностью переработанная архитектура, созданная совместно с лидерами разработки мобильных чипсетов: Qualcomm, MediaTek и Samsung.
💡 Ключевые улучшения:
- Революционный механизм Per-Layer Embeddings (PLE): 5B и 8B параметров работают с памятью как 2B и 4B модели (всего 2-3 ГБ)
- Мгновенная активация: скорость отклика в 1.5 раза быше предыдущего поколения
- Мультимодальность+++: обработка текста, изображений, видео и теперь АУДИО
- Технология Mix'n'Match: динамическое создание субмоделей из 4B модели под конкретные кейсы
- Улучшенная мультиязычность: поддержка японского, немецкого, корейского, испанского и французского
🛠 Возможности для разработчиков:
- Создание мультимодальных AI приложений работающих без интернета
- Разработка приложений с пониманием аудио: транскрипция речи, перевод, голосовое управление
- Построение интерактивных систем, реагирующих на визуальные и звуковые сигналы из окружения пользователя
🔍 Техническая суть:
Архитектурный прорыв заключается в инновационном подходе к памяти. Благодаря технологиям PLE, KVC sharing и продвинутой квантизации активаций, модель с 8B параметров потребляет всего 3ГБ — революционный показатель для мобильных устройств.
📱 Где попробовать:
Прямо сейчас можно потестировать в облаке в Google AI Studio (пока только текст)
Для разработчиков: локальная интеграция через Google AI Edge (поддержка текста и изображений)
Скоро: полная поддержка аудио
Эта же архитектура ляжет в основу следующего поколения Gemini Nano, что позволит качественно усилить Android и Chrome к концу 2025 года.
#Gemma #Google #переводы
———
@tsingular
Google анонсировал предварительный релиз Gemma 3n — принципиально новой модели, разработанной специально для мобильных устройств. Это полностью переработанная архитектура, созданная совместно с лидерами разработки мобильных чипсетов: Qualcomm, MediaTek и Samsung.
💡 Ключевые улучшения:
- Революционный механизм Per-Layer Embeddings (PLE): 5B и 8B параметров работают с памятью как 2B и 4B модели (всего 2-3 ГБ)
- Мгновенная активация: скорость отклика в 1.5 раза быше предыдущего поколения
- Мультимодальность+++: обработка текста, изображений, видео и теперь АУДИО
- Технология Mix'n'Match: динамическое создание субмоделей из 4B модели под конкретные кейсы
- Улучшенная мультиязычность: поддержка японского, немецкого, корейского, испанского и французского
🛠 Возможности для разработчиков:
- Создание мультимодальных AI приложений работающих без интернета
- Разработка приложений с пониманием аудио: транскрипция речи, перевод, голосовое управление
- Построение интерактивных систем, реагирующих на визуальные и звуковые сигналы из окружения пользователя
🔍 Техническая суть:
Архитектурный прорыв заключается в инновационном подходе к памяти. Благодаря технологиям PLE, KVC sharing и продвинутой квантизации активаций, модель с 8B параметров потребляет всего 3ГБ — революционный показатель для мобильных устройств.
📱 Где попробовать:
Прямо сейчас можно потестировать в облаке в Google AI Studio (пока только текст)
Для разработчиков: локальная интеграция через Google AI Edge (поддержка текста и изображений)
Скоро: полная поддержка аудио
Эта же архитектура ляжет в основу следующего поколения Gemini Nano, что позволит качественно усилить Android и Chrome к концу 2025 года.
#Gemma #Google #переводы
———
@tsingular
👍7🔥5⚡2