Innovation & Research
2.89K subscribers
416 photos
58 videos
150 files
4.47K links
“Push-the-envelope” Channel
Download Telegram
Google обновил AI-продукты

AI-агент Astra. DeepMind продолжает работать над его предрелизной версией. В настоящий момент агент способен воспринимать видео на вход, искать физические объекты, определять их функции, читать код и вести диалог на естественном языке (впечатляющее демо-видео). Агент будет работать как на смартфонах, так и AR-очках. Дальнейшее направление развития агентов — повышения скорости обработки информации и ответов. Фокус на скорость становится трендом рынка чат-ботов и ассистентов.

Новая модель 1.5 Flash — самая быстрая из семейства, оптимизирована для масштабного промышленного выполнения объёмных высокочастотных задач, оснащена особенно широким контекстным окном. Модель мультимодальна и может обобщать разговоры, добавлять подписи к изображениям и видео, а также извлекать данные из длинных документов и таблиц. Ее обучение проходило при помощи дистилляции – процессе, при котором «навыки» передали из большой и мощной модели 1.5 Pro в более лёгкую и эффективную Flash.

Улучшение 1.5 Pro. Окно контекста расширено до 2 млн токенов (у ChatGPT-4o — 128 тыс.), улучшена генерация кода, планирование, ведение многоходовых диалогов, а также понимание аудио и изображений за счет усовершенствований данных и алгоритмов. Модель будет работать с аудиовизуальным контентом в Google AI Studio.

1.5 Pro может следовать более сложным и специфическим инструкциям, в том числе в части роли, формата и стиля поведения. Улучшен контроль над ответами модели для конкретных случаев применения, например, создание личности или ответов агента чата. Разработка будет доступна в Gemini Advanced и Workspace.

Мультимодальная Gemini Nano. Android становится первой мобильной ОС со встроенной мультимодальной моделью, работающей непосредственно на устройстве. Помимо текста модель теперь понимает также изображения. Оснащенные ею приложения на смартфонах Pixel смогут не только понимать текст, но также изображения, видео, PDF-документы, устную речь и иные звуки.

Следующее поколение открытых моделей Gemma. Эти модели созданы на тех же технологиях, что и Gimini. Gemma 2 получила оптимизацию архитектуры. Новая PaliGemma — лёгкая vision-language model (VLM). Она может распознавать изображения, текст на них, объекты, и анализировать короткие видео.

#news #Google #AI

https://blog.google/technology/ai/google-gemini-update-flash-ai-assistant-io-2024/#gemini-model-updates
Honor внедрит AI-функции Google на новых смартфонах

Китайский производитель стал одним из первых в мире, кто объявил о таком шаге. Речь идет о помощнике Gemini, а также инструменте для преобразования текста в изображение Imagen 2. Несмотря на технологическое противостояние США и КНР и санкционное давление на Пекин, Honor продолжает использовать Android и ориентироваться на инструменты Google. Разработка собственных достаточно эффективных AI-моделей оказывается не под силу большинству производителей техники. Так, Samsung, сперва выпустивший собственную LLM Gauss, в итоге перешёл на решения Google.

#news #Google #AI

https://www.cnbc.com/2024/05/22/honor-will-have-google-ai-features-on-its-upcoming-smartphones.html
Google входит в капитал крупной солнечной электростанции на Тайване

Бигтех в этом проекте выступает партнёром инвестиционного гиганта BlackRock. Корпорации профинансируют строительство СЭС на 1 ГВт, управлять которым будет тайваньская компания New Green Power, подконтрольная BlackRock. Доли софинансирования участники сделки не раскрывают.
Google гарантирует закупку 300 МВт мощности новой станции.

Энергию предполагается направить на питание местных серверов Google, поддерживающих AI- и облачные сервисы Тайваня, а также на производственные мощности некоторых поставщиков чипов для интернет-гиганта.

#Google #news #энергетика

https://www.cnbc.com/2024/07/01/google-invests-in-blackrock-backed-solar-developer-in-taiwan-amid-ai-boom.html