Пользуемся: https://gemini.google.com
@ai_machinelearning_big_data
#Gemini #google
Please open Telegram to view this post
VIEW IN TELEGRAM
👍80🔥26❤12😐11
Исследователи из Google Research представили ECLeKTic — новый бенчмарк, предназначенный для оценки способности больших языковых моделей (LLM) переносить знания между языками.
Исследование направлено на выявление того, насколько эффективно модели могут применять информацию, полученную на одном языке, для решения задач на другом.
Бенчмарк включает вопросы, сформулированные на одном языке, ответы на которые содержатся в соответствующих статьях Википедии. Эти вопросы затем переводятся на другие языки, для которых аналогичных статей нет. Таким образом, модели должны демонстрировать способность извлекать и применять знания, отсутствующие в целевом языке.
Оценка моделей: Испытания восьми современных LLM показали, что даже передовые модели испытывают трудности с межъязыковым переносом знаний. Это подчеркивает необходимость дальнейших исследований и улучшений в этой области.
Вместо простых вопросов используются тесты с множественным выбором, где неправильные ответы (дистракторы) специально сделаны очень похожими на правильный и правдоподобными. Чтобы выбрать верный вариант, модели нужно действительно понять нюансы на целевом языке, а не угадывать.
Минимизация "артефактов перевода": Вопросы тщательно создавались экспертами на 10 различных языках (включая арабский, хинди, японский, русский и др.). Они адаптированы культурно и лингвистически так, чтобы стратегия "перевести-решить-перевести обратно" работала плохо.
ECLECTIC – сложный тест: Он выявляет слабости в понимании, которые могут быть не видны на других бенчмарках.
Результаты показывают, что текущим LLM еще предстоит улучшить способность по-настоящему переносить и применять знания между языками.
@ai_machinelearning_big_data
#AI #ml #google #benchmark
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤35👍24🔥9😁3🙈2
⚡️ Gemma 3 QAT
Google DeepMind выпустили обновленные версии своих языковых моделей Gemma 3, которые стали значительно эффективнее по использованию памяти без существенной потери производительности.
Ключевая технология: QAT (Quantization-Aware Training)
Что это? QAT — это техника обучения, при которой модель во время дообучения "учится" работать с пониженной точностью вычислений (используя меньше бит для представления чисел). Это имитирует условия, в которых модель будет работать после квантизации (сжатия).
Обычная квантизация после обучения может привести к падению точности. QAT позволяет модели заранее адаптироваться к работе в низкоточном режиме, минимизируя потерю качества после финальной квантизации.
Каждая модель (1B, 4B, 12B, 27B) была дообучена примерно на 5000 шагов с имитацией низкой разрядности весов. При этом использовался приём, похожий на знание-дистилляцию: оригинальная неквантованная модель выступала в роли «учителя».
Преимущество QAT-подхода для Gemma 3 оказалось колоссальным. Официально заявлено, что квантованные модели Gemma 3 QAT сохраняют качество, практически не упало, при этом требуют в ~3 раза меньше памяти.
Например, объём памяти для хранения весов самой крупной модели на 27B параметров сократился с ~54 ГБ (в формате bfloat16) до ~14 ГБ в 4-битном целочисленном формате – это экономия памяти примерно в ~3–4 раза.
✔️HF
@ai_machinelearning_big_data
#google #gemma #AI #ML #LLM #Quantization
Google DeepMind выпустили обновленные версии своих языковых моделей Gemma 3, которые стали значительно эффективнее по использованию памяти без существенной потери производительности.
Ключевая технология: QAT (Quantization-Aware Training)
Что это? QAT — это техника обучения, при которой модель во время дообучения "учится" работать с пониженной точностью вычислений (используя меньше бит для представления чисел). Это имитирует условия, в которых модель будет работать после квантизации (сжатия).
Обычная квантизация после обучения может привести к падению точности. QAT позволяет модели заранее адаптироваться к работе в низкоточном режиме, минимизируя потерю качества после финальной квантизации.
Каждая модель (1B, 4B, 12B, 27B) была дообучена примерно на 5000 шагов с имитацией низкой разрядности весов. При этом использовался приём, похожий на знание-дистилляцию: оригинальная неквантованная модель выступала в роли «учителя».
Преимущество QAT-подхода для Gemma 3 оказалось колоссальным. Официально заявлено, что квантованные модели Gemma 3 QAT сохраняют качество, практически не упало, при этом требуют в ~3 раза меньше памяти.
Например, объём памяти для хранения весов самой крупной модели на 27B параметров сократился с ~54 ГБ (в формате bfloat16) до ~14 ГБ в 4-битном целочисленном формате – это экономия памяти примерно в ~3–4 раза.
ollama run hf(.)co/google/gemma-3-4b-it-qat-q4_0-gguf
✔️HF
@ai_machinelearning_big_data
#google #gemma #AI #ML #LLM #Quantization
3🔥87👍27❤12
Ironwood — это TPU седьмого поколения, конкурент Blackwell B200 от NVIDIA.
10× прирост производительности по сравнению с предыдущим поколением.
🔧 Что важно знать:
⚡️ Ironwood TPU = высокая плотность + эффективность: на 67% больше FLOPS/ватт, чем v5p и 4 614 TFLOPS на чип (FP8) и 192 ГБ HBM.
Производительность чипов растёт, а энергоэффективность выходит на новый уровень.
🌐 Интеграция с Google Cloud:
Ironwood TPUs уже работают в дата-центрах с жидкостным охлаждением, интегрированы в Vertex AI .
📈 Под капотом — высокоскоростная сеть с пропускной способностью 3.5 Тбит/с, обеспечивающая быструю связность для масштабных моделей.
💡 И да — теперь TPU поддерживают vLLM, а значит, можно легко гонять PyTorch-инференс прямо на TPU, без магии и костылей.
@ai_machinelearning_big_data
#google #TPU
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
1👍71🔥20❤11🤔6🥰1
Ученые все чаще переходят на облачные технологии, чтобы решать сложнейшие задачи — от прогнозирования погоды до симуляции квантовых систем. Google Cloud сделала новый шаг им навстречу, представив супервычислительные решения, ИИ-модели и сервисы, которые помогут делать открытия быстрее:
Google также добавил в Agentspace двух ИИ-агентов. Первый, Deep Research, за минуты анализирует горы данных и генерирует детальные отчёты. Второй, Idea Generation, помогает учёным быстро придумывать гипотезы для экспериментов. Оба инструмента уже доступны в тестовом режиме.
Не забыли и о хранении данных: новая управляемая файловая система Lustre, созданная с DDN, справится с нагрузками даже самых требовательных проектов. А для тех, кто только начинает, Google Cloud предлагает гранты, обучение и доступ к сообществу Advanced Computing Community.
Эти обновления — не просто апдейты. Они меняют правила игры, объединяя вычислительную мощь, ИИ и удобство облака.
@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
👍51🔥20❤13🤬4🥱1
Google анонсировала запуск тестовой программы новых геопространственных и Population Dynamics моделей.
Эти инструменты объединяют генеративный ИИ (под капотом - Gemini), с данными спутниковых снимков и социальными индексами, чтобы ускорить анализ в сферах урбанистики, экологии и кризисного управления.
Модели позволяют находить объекты по описанию («дороги с заторами»), сегментировать ландшафты и предсказывать динамику населения. Интеграция с Google Cloud и Earth Engine дает разработчикам возможность для создания собственных решений — от медиапланирования до мониторинга сельхозугодий.
Первыми тестерами стали Airbus, Maxar и Planet Labs: они используют модели для анализа спутниковых данных в реальном времени. Сейчас доступ к моделям открыт через программу Trusted Tester, а детали Google обещает раскрыть в ближайшие месяцы.
🔗 research.google
@ai_machinelearning_big_data
#google #geospatialreasoning
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍48❤15🔥14
Media is too big
VIEW IN TELEGRAM
🐬 DolphinGemma — это проект Google, направленный на расшифровку коммуникации дельфинов на архитектуре Gemma (кто бы мог подумать), оптимизированной под open-source задачи.
Разработанный в сотрудничестве с учёными из Georgia Tech и исследовательской группой Wild Dolphin Project (WDP), этот проект использует возможности больших языковых моделей для анализа и генерации звуков, характерных для , характерных для дельфинов
🔍 Исследование коммуникации дельфинов
С 1985 года WDP ведёт долгосрочные наблюдения за популяцией атлантических пятнистых дельфинов (Stenella frontalis) на Багамах. Их подход "В их мире, на их условиях" позволяет собирать уникальные данные: подводные видео и аудиозаписи, связанные с конкретными особями, их жизненным циклом и поведением. Это включает в себя:
- "Подписи-свистки", используемые для идентификации и связи между матерями и детёнышами.
- Импульсные звуки во время конфликтов.
- Щелчки, сопровождающие ухаживание или охоту.
🌟 Модель DolphinGemma
DolphinGemma — это аудио-модель с ~400 миллионами параметров, способная обрабатывать и генерировать последовательности звуков дельфинов.
В модели используются данные за40 лет из уникальной коллекции доктора Дениз Герцин.
Она использует токенизатор SoundStream для эффективного представления аудиосигналов и может работать непосредственно на смартфонах Pixel, используемых исследователями в полевых условиях.
Модель обучена на данных WDP и способна предсказывать последовательности звуков, аналогично тому, как языковые модели предсказывают слова в предложении.
🌊 Основная цель DolphinGemma — выявить структуру и возможное значение звуков дельфинов, что может приблизить нас к межвидовой коммуникации.
Этот проект объединяет передовые модели Гугла и многолетние биологические исследования, открывая новые горизонты в понимании морских млекопитающих.
Теперь осталось только научить дельфинов понимать лицензионное соглашение на использование моделей! 🐬📜🤖
🔜 Подробнее о проекте можно узнать в официальном блоге Google: DolphinGemma: How Google AI is helping decode dolphin communication.
@ai_machinelearning_big_data
#Gemma #google #ml #science
Разработанный в сотрудничестве с учёными из Georgia Tech и исследовательской группой Wild Dolphin Project (WDP), этот проект использует возможности больших языковых моделей для анализа и генерации звуков, характерных для , характерных для дельфинов
🔍 Исследование коммуникации дельфинов
С 1985 года WDP ведёт долгосрочные наблюдения за популяцией атлантических пятнистых дельфинов (Stenella frontalis) на Багамах. Их подход "В их мире, на их условиях" позволяет собирать уникальные данные: подводные видео и аудиозаписи, связанные с конкретными особями, их жизненным циклом и поведением. Это включает в себя:
- "Подписи-свистки", используемые для идентификации и связи между матерями и детёнышами.
- Импульсные звуки во время конфликтов.
- Щелчки, сопровождающие ухаживание или охоту.
DolphinGemma — это аудио-модель с ~400 миллионами параметров, способная обрабатывать и генерировать последовательности звуков дельфинов.
В модели используются данные за40 лет из уникальной коллекции доктора Дениз Герцин.
Она использует токенизатор SoundStream для эффективного представления аудиосигналов и может работать непосредственно на смартфонах Pixel, используемых исследователями в полевых условиях.
Модель обучена на данных WDP и способна предсказывать последовательности звуков, аналогично тому, как языковые модели предсказывают слова в предложении.
🌊 Основная цель DolphinGemma — выявить структуру и возможное значение звуков дельфинов, что может приблизить нас к межвидовой коммуникации.
Этот проект объединяет передовые модели Гугла и многолетние биологические исследования, открывая новые горизонты в понимании морских млекопитающих.
Теперь осталось только научить дельфинов понимать лицензионное соглашение на использование моделей! 🐬📜🤖
@ai_machinelearning_big_data
#Gemma #google #ml #science
Please open Telegram to view this post
VIEW IN TELEGRAM
1🔥88❤22🐳22👍15😁6❤🔥2🥱1🤗1
InstructPipe — это AI-ассистент, который преобразует текстовые команды в визуальные блок-схемы, представляющие собой пайплайны машинного обучения.
Система использует два модуля больших языковых моделей (LLM) и интерпретатор кода для генерации псевдокода и его визуализации в редакторе графов.
Это low-code подход: вы просто соединяете готовые компоненты (ноды) без написания кодп.
@ai_machinelearning_big_data
#Google #InstructPipe
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤85👍52🔥27🙊9
Google DeepMind представили AlphaEvolve — агент на базе Gemini, способный автоматически генерировать новые алгоритмы и находить оптимальные решения сложных задач.
🔘 Генерирует быстрые алгоритмы умножения матриц
🔘 Находит новые решения математических задач
🔘 Оптимизирует работу дата-центров, чипов и обучения ИИ модель за счёт сгенерированный алгоритмов
1) Генерация идей с помощью LLMs: Модель Gemini анализирует существующие подходы к решению задачи и предлагает новые алгоритмические идеи, используя свой широкий контекст и знания.
2) Автоматическая оценка: Каждый предложенный алгоритм проходит через систему автоматической оценки, которая измеряет его эффективность, точность и другие ключевые метрики, позволяя объективно сравнивать различные решения.
3) Эволюционное улучшение: AlphaEvolve применяет эволюционные методы, такие как мутация и рекомбинация, чтобы постепенно улучшать алгоритмы, объединяя лучшие элементы из различных решений и отбрасывая менее эффективные варианты.
Этот подход уже продемонстрировал свою эффективность: AlphaEvolve смог обнаружить новые, более эффективные алгоритмы умножения матриц, превосходящие предыдущие достижения, такие как AlphaTensor. Это открывает возможности для оптимизации вычислений в дата-центрах, проектировании чипов и обучении ИИ-моделей.
Google также применили AlphaEvolve к более чем 50 открытым задачам в области:
✍️ математического анализа,
📐 геометрии,
➕ комбинаторики и
🔂 теории чисел — включая задачу о числе поцелуев (kissing number problem).
🔵 В 75% случаев агент открыл лучшее из известных решений.
🔵 В 20% случаев он улучшил ранее известные решения, тем самым сделав новые открытия.
Доступ пока не дают, но выглядит очень интересно.
@ai_machinelearning_big_data
📎 Подробнее
#google #DeepMind
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥82👍34❤30⚡6🤔2👌1
Google готовится представить новую функцию — AI-сгенерированные видеообзоры (Video Overviews), которая станет частью проекта Illuminate. Эта технология позволяет преобразовывать текстовые запросы в короткие видеоролики продолжительностью от 1 до 3 минут, полностью созданные искусственным интеллектом.
Была показана серия видео, называемых "Sparks", каждое из которых демонстрирует различные стили и темы.
Эти видео генерируются единой моделью, способной синхронизировать видео и аудио без необходимости в отдельных процессах для каждого компонента.
Хотя точная модель, лежащая в основе этой технологии, не раскрывается, предполагается, что она связана с Veo 3 или мультимодальной версией Gemini Ultra.
@ai_machinelearning_big_data
#google #ai #ml #videogeneration
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤57👍37🔥19❤🔥3🎄1
This media is not supported in your browser
VIEW IN TELEGRAM
@ai_machinelearning_big_data
#Veo #google
Please open Telegram to view this post
VIEW IN TELEGRAM
❤77🔥60😁26👍18🤣13🥱7😨7🗿6🙈2🎄1
Google выпустила Gemma 3n — это новая версия модели, которая запускается локально на мобильных устройствах.
Gemma 3n может работа локально на устройстве с 2 ГБ оперативной памяти!
• Работает в 1.5 раза быстрее, чем предыдущая Gemma 3 4B
• Поддерживает работу без интернета — всё локально и безопасно
• Умеет понимать текст, речь и изображения
• Можно использовать даже на устройствах с 2–3 ГБ RAM
• Поддерживает мгожетсво языков,
💡 Gemma 3n использует гибкую архитектуру (MatFormer), которая может "переключаться" между лёгким и полным режимом (2B и 4B параметров) — модель подстраивается под задачу, не перегружая устройство.
🔧 Как начать пользоваться:
• Через Google AI Studio — работает прямо в браузере
• Или через SDK Google AI Edge — интеграция на Android, Chromebook и другие устройства
📊 Где это применимо:
• Голосовые ассистенты
• Приложения с ИИ, которые работают без интернета
• Переводчики, чат-боты, анализ изображений на телефоне
#Gemma #Google #mobile #МультимодальныйИИ #МобильныйИИ #edgedevices
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍108🔥51❤31❤🔥1🎄1
Новая версия уже доступна для тестирования и показывает заметные улучшения в:
🧠 кодинге
📊 логическом выводе
🔬 задачах по науке и математике
Pro-версия показывает прирост на 24 пункта Elo, удерживая лидерство на lmarena_ai с результатом 1470.
💬 Также улучшены стиль и структура ответов — Google учла фидбек пользователей.
Gemini обошёл Opus 4 в тестах на веб-разработку (WebDev Arena).
💰 Цены
— до 200 000 токенов: $1.25 вход / $10 выход (за 1M токенов)
— свыше 200 000 токенов: $2.50 вход / $15 выход (за 1M токенов)
🔧Модель достпна уже сейчас в:
- AI Studio
- Vertex AI
- Gemini app
https://blog.google/products/gemini/gemini-2-5-pro-latest-preview/
@ai_machinelearning_big_data
#Gemini #Google
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍58❤29🔥11🥰5
Google выложил в открытый доступ на Github фуллстек-проект, который превращает пользовательские запросы в глубокие исследования с помощью Gemini. Его главная задача - находить информацию в интернете, анализировать ее и выдавать ответы с ссылками на источники, используя комбинацию React-интерфейса и бэкенда на базе LangGraph.
Проект включает в себя все необходимое: и фронтенд, и бэкенд.
Внутри бэкенда есть модуль, который отвечает за запуск цикла: сначала Gemini создает начальные запросы, затем система ищет информацию через API Google Search, оценивает, хватает ли данных, и при необходимости повторяет процесс.
Важная часть пайплайна — рефлексия. После каждого поиска агент проверяет, закрыты ли все «пробелы» в знаниях. Если информации недостаточно, он генерирует новые вопросы и повторяет цикл, пока не соберёт достаточно данных для ответа.
Проект адаптирован к продакшену, в нем используются Redis (для стриминга результатов в реальном времени) и PostgreSQL (для хранения истории диалогов и управления задачами). Это позволяет системе не терять прогресс даже при перезагрузках.
⚠️ Для практического использования потребуются API-ключи к Google Gemini и LangSmith.
@ai_machinelearning_big_data
#AI #ML #DeepSearch #Google #Gemini #LangGraph
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤80👍41🔥22😁8
🤖 Gemini Robotics: автономный AI для роботов
Google представили Gemini Robotics On-Device — первую модель, объединяющую зрение, язык и действия, которая работает прямо на роботах, без постоянного подключения к интернету.
🔍 Что делает эту модель особенной:
🔹 Объединяет универсальность и точность Gemini, но работает локально
🔹 Моделька справляется со сложными задачами с двумя руками (манипуляции, сборка, перенос)
🔹 Обучается новым действиям всего по 50–100 демкам
Модель уже поддерживает разные типы роботов — от гуманоидов до промышленных двухруких манипуляторов. И это несмотря на то, что изначально она была обучена только на датасете ALOHA под управлением человеческих инструкций.
🛠 В догонку выпустили SDK Gemini Robotics — для разработчиков, которые хотят дообучить модель под свои нужды, включая тесты в физическом симуляторе MuJoCo.
🌐 Полностью автономная работа — идеально для кейсов с плохой связью или требованиями к высокой скорости отклика.
Gemini Robotics продолжает двигаться к будущему, где AI становится частью физического мира.
👉 Подробнее: https://goo.gle/gemini-robotics-on-device
@ai_machinelearning_big_data
#ai #robots #vlm #google #Gemini
Google представили Gemini Robotics On-Device — первую модель, объединяющую зрение, язык и действия, которая работает прямо на роботах, без постоянного подключения к интернету.
🔍 Что делает эту модель особенной:
🔹 Объединяет универсальность и точность Gemini, но работает локально
🔹 Моделька справляется со сложными задачами с двумя руками (манипуляции, сборка, перенос)
🔹 Обучается новым действиям всего по 50–100 демкам
Модель уже поддерживает разные типы роботов — от гуманоидов до промышленных двухруких манипуляторов. И это несмотря на то, что изначально она была обучена только на датасете ALOHA под управлением человеческих инструкций.
🛠 В догонку выпустили SDK Gemini Robotics — для разработчиков, которые хотят дообучить модель под свои нужды, включая тесты в физическом симуляторе MuJoCo.
🌐 Полностью автономная работа — идеально для кейсов с плохой связью или требованиями к высокой скорости отклика.
Gemini Robotics продолжает двигаться к будущему, где AI становится частью физического мира.
👉 Подробнее: https://goo.gle/gemini-robotics-on-device
@ai_machinelearning_big_data
#ai #robots #vlm #google #Gemini
❤41👍25🔥10🥰2
VideoPrism - базовый визуальный энкодер от Google. Это универсальный инструмент, способный разобраться в самых разных нюансах видеоконтента: от простого распознавания объектов до генерации описаний или ответов на вопросы.
По заявлению создателей, VideoPrism демонстрирует топовые результаты на 31 из 33 общедоступных бенчмарков. В тестах на zero-shot, VideoPrism обошел аналоги в задачах классификации (Kinetics-600) и ответов на вопросы (MSRVTT-QA), даже не используя дополнительных модальностей вроде аудио.
В основе VideoPrism - ViT, но с существенными модификациями, учитывающими специфику видеоданных. В его создании инженеры Google DeepMind применили так называемый "факторизованный" подход, разделяя обработку пространственных и временных измерений и исключили слой глобального усреднения, чтобы сохранить максимум информации из каждого кадра и его временной позиции.
Секрет эффективности VideoPrism кроется в его тщательно продуманном двухэтапном методе обучения на гигантском корпусе данных в 600+ миллионов пар "видео-текст" и чуть менее миллиарда "изображение-текст" из набора данных WebLI:
На первом этапе модель осуществляет своего рода "синхронизацию" между видео- и текстовым энкодерами. Используя огромные массивы пар "видео-текст", они учатся сопоставлять визуальные данные с их семантическими описаниями посредством контрастивного обучения. Это позволяет видеоэнкодеру освоить основные визуальные концепции.
На втором этапе обучение продолжается уже исключительно на видеоданных, применяя усовершенствованную технику маскированного моделирования. Здесь часть видеороликов подвергается маскированию, а VideoPrism должен восстановливать скрытые части.
Token shuffling (предотвращает "копипасту" ошибок декодера) и global-local distillation (перенос знаний из первого этапа), помогают VideoPrism одновременно усваивать детали изображений и тонкости движений, избегая при этом "катастрофического забывания".
@ai_machinelearning_big_data
#AI #ML #Encoder #VideoPrism #Google #DeepMind
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍33❤13🔥11🥰1
This media is not supported in your browser
VIEW IN TELEGRAM
• Лёгкий и мощный инструмент для разработки в командной строке
• Работает на базе Gemini 2.5 Pro
• Код агента в открытом доступе (Apache 2.0)
• Поддержка контекста в 1 миллион токенов
• Бесплатный тариф: до 60 запросов в минуту и 1000 в день
• Привязка к Google Search
• Поддержка MCP
• Интеграция с VS Code (Gemini Code Assist)
Запуск в cli:
npx https://github.com/google-gemini/gemini-cli
@ai_machinelearning_big_data
#AI #ML #agent #Google
Please open Telegram to view this post
VIEW IN TELEGRAM
👍98❤71🔥26🥰2❤🔥1😁1🌚1🤣1
Инженеры Google DeepMind решили вдохнуть новую жизнь в классический подход «энкодер-декодер» выпустив семейство моделей T5Gemma.
Главная интрига заключается не в том, что они сделали, а в том, как. Вместо того чтобы обучать модели с нуля, они разработали метод «адаптации»: взяли уже готовую и предобученную модель-декодер Gemma 2 и, по сути, пересобрали ее в двухкомпонентную энкодер-декодерную архитектуру.
Метод открыл дорогу для интересных экспериментов. Например, стало возможно создавать «несбалансированные» модели, комбинируя большой энкодер с маленьким декодером, скажем, 9-миллиардный энкодер и 2-миллиардный декодер.
Такая конфигурация идеальна для задач суммаризации, где глубокое понимание исходного текста (работа энкодера) гораздо важнее, чем генерация сложного и витиеватого ответа (работа декодера). Это дает инженерам гибкий инструмент для тонкой настройки баланса между качеством и скоростью работы.
На тестах T5Gemma показывает результаты на уровне или даже лучше своих «однокомпонентных» аналогов. Асимметричная модель T5Gemma 9B-2B демонстрирует значительно более высокую точность, чем базовая Gemma 2 2B, но при этом скорость инференса у них почти идентична.
Даже сбалансированная T5Gemma 9B-9B оказывается точнее, чем Gemma 2 9B, при сопоставимой задержке. Это прямое доказательство того, что двухкомпонентная архитектура может быть и умнее, и эффективнее.
T5Gemma показывает впечатляющий рост в задачах, требующих логических рассуждений. Например, на математическом тесте GSM8K модель T5Gemma 9B-9B набирает на 9 баллов больше, чем Gemma 2 9B.
Эффект становится еще более выраженным после инструктивной донастройки. Здесь разрыв в производительности резко увеличивается: на бенчмарке MMLU модель T5Gemma 2B-2B IT опережает аналог Gemma 2 2B IT почти на 12 баллов.
@ai_machinelearning_big_data
#AI #ML #T5Gemma #Google
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍67❤36🔥24🤔10🥱5
Google Research продолжают развивать свою линейку специализированных медицинских ИИ-моделей, представив два важных пополнения: MedGemma и MedSigLIP.
Это серьезное пополнение экосистемы открытых и доступных инструментов для здравоохранения. Разработчики предлагают мощные базовые модели, которые можно дообучать и запускать на собственном железе, даже на потребительском GPU.
Младшая, 4-миллиардная версия, показывает себя как один из лучших открытых «малышей» (<8B), а после дообучения достигает SOTA в генерации отчетов по рентгеновским снимкам. В ходе одного из тестов 81% сгенерированных ею заключений были признаны сертифицированными радиологами достаточно точными.
Старшая, на 27 миллиардов, в текстовой версии, на бенчмарке MedQA набрала 87.7%. Это всего на 3 пункта ниже DeepSeek R1, но при этом модель требует в 10 раз меньше ресурсов для инференса.
Его задача - классификация, поиск и другие задачи со структурированным выходом. Он был создан адаптацией общей модели SigLIP на огромном массиве медицинских данных (от рентгена до гистологии и снимков глазного дна).
Они по-прежнему понимают немедицинский контекст и умеют работать с разными языками, что подтвердили исследователи из Тайваня, успешно применявшие модель в связке с литературе на традиционном китайском.
@ai_machinelearning_big_data
#AI #ML #LLM #MedGemma #MedSigLIP #Google
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤101👍42🔥29🥱6👏5
Что делает Marin особенной:
— Полностью открыты не только веса, но показан весь процесс обучения: код, данные, гиперпараметры модели, логи, эксперименты — всё доступно на GitHub
— Модель обучена на 12.7 трлн токенов и в 14 из 19 тестов обошла Llama 3.1 8B
— Лицензия Apache 2.0, всё можно использовать, модифицировать и воспроизводить
— Levanter + JAX обеспечивают bit‑exact повторяемость и масштабируемость на TPU/GPU
Проект позиционируется как открытая лаборатория: каждый эксперимент оформляется через pull request, логируется в WandB, обсуждается в issue и фиксируется в истории репозитория. Даже неудачные эксперименты сохраняются ради прозрачности.
Выпущены две версии:
- Marin‑8B‑Base — сильный base-модель, превосходит Llama 3.1 8B
- Marin‑8B‑Instruct — обучена с помощью SFT, обгоняет OLMo 2, немного уступает Llama 3.1 Tulu
Это не просто открытые веса, а новый стандарт для научных вычислений в эпоху больших моделей.
* JAX — это фреймворк от Google для научных и численных вычислений, особенно популярен в сфере машинного обучения.
**TPU (Tensor Processing Unit) — это специализированный чип от Google, созданный для ускорения AI-задач.
@ai_machinelearning_big_data
#ai #ml #tpu #jax #google
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥70❤24👍18🥰2💯2🤔1