🎮 Google Deepmind представили SIMA
Это первый универсальный агент с искусственным интеллектом, который выполняет инструкции на естественном языке в широком спектре 3D-виртуальных сред и видеоигр.
Агент может выполнять задачи, аналогичные человеческим, и превосходит агентов, обученного всего в одной среде.
Его цель заключается не в достижении высоких результатов в играх, а скорее в умении взаимодействовать с окружающим миром.
На данный момент SIMA обучается на девяти различных видеоиграх, включая No Man's Sky от студии
Нейросеть обучается широкому спектру навыков, начиная от простой навигации и использования меню до добычи ресурсов, полета на космическом корабле и создания предметов.
Ученые также создали четыре исследовательские среды на движке Unity, где агентам предстоит строить скульптуры из строительных блоков, это поможет проверить их способность манипулировать объектами и интуитивное понимание физического мира.
Результаты SIMA демонстрируют потенциал для разработки новой волны универсальных ИИ-агентов, управляемых командами на естественном языке.
▪ Post
▪ Technical report
@ai_machinelearning_big_data
Это первый универсальный агент с искусственным интеллектом, который выполняет инструкции на естественном языке в широком спектре 3D-виртуальных сред и видеоигр.
Агент может выполнять задачи, аналогичные человеческим, и превосходит агентов, обученного всего в одной среде.
Его цель заключается не в достижении высоких результатов в играх, а скорее в умении взаимодействовать с окружающим миром.
На данный момент SIMA обучается на девяти различных видеоиграх, включая No Man's Sky от студии
Hello Games и Teardown от Tuxedo Labs. Кроме того, на скриншотах можно увидеть такие игры, как Valheim, Hydroneer, Wobbly Life, Satisfactory и Goat Simulator 3.
Нейросеть обучается широкому спектру навыков, начиная от простой навигации и использования меню до добычи ресурсов, полета на космическом корабле и создания предметов.
Ученые также создали четыре исследовательские среды на движке Unity, где агентам предстоит строить скульптуры из строительных блоков, это поможет проверить их способность манипулировать объектами и интуитивное понимание физического мира.
Результаты SIMA демонстрируют потенциал для разработки новой волны универсальных ИИ-агентов, управляемых командами на естественном языке.
▪ Post
▪ Technical report
@ai_machinelearning_big_data
👍28🔥11❤6🥰2🍌1
OpenAI пока официально не раскрыла информацию об утечке, поэтому статус GPT-4.5 Turbo и дата выпуска в июне 2024 года окутаны тайной.
12 марта 2024 года исследователи обнаружили в кэше Bing, что OpenAI готовится представить нейросеть GPT-4.5 Turbo. Но ссылка на эту страницу на сайте OpenAI выдаёт ошибку 404. Также из поисковой выдачи пропало упоминание о новом чат-боте.
@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥18👍6🥰3🍌3👏1
Исследование проводилось методом side-by-side. Для определения потенциала модели эксперты использовали комбинацию двух факторов: оценку производительности модели на ее «родном» языке и наивысшую оценку реакции модели на любом другом языке. Кроме того проводились слепые тесты по задачам: перевод, творческое написание текстов, генерация кода и анализ данных.
@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥55🤣38👍16❤7💊6😁4🤪4🤔3🍌1
Стэнфордская библиотека NLP для понимания и улучшения моделей на основе PyTorch.
Воздействие на внутренние состояния модели являются важной операцией во многих областях работы с ИИ, включая редактирование модели, управление, ее надежность и интерпретируемость.
Для облегчения таких задач исследователи Стэнфорда создали библиотеку Python с открытым исходным кодом, которая поддерживает сложные схемы взаимодействия с моделями в интуитивно понятном формате.
pip install pyvene
Например, вы можете использовать любую модель hf:
import torch
import pyvene as pv
from transformers import AutoTokenizer, AutoModelForCausalLM
model_name = "meta-llama/Llama-2-7b-hf" # your HF model name.
model = AutoModelForCausalLM.from_pretrained(
model_name, torch_dtype=torch.bfloat16, device_map="cuda")
tokenizer = AutoTokenizer.from_pretrained(model_name)
def zeroout_intervention_fn(b, s):
b[:,3] = 0. # 3rd position
return b
pv_model = pv.IntervenableModel({
"component": "model.layers[15].mlp.output", # string access
"intervention": zeroout_intervention_fn}, model=model)
# run the intervened forward pass
orig_outputs, intervened_outputs = pv_model(
tokenizer("The capital of Spain is", return_tensors="pt").to('cuda'),
output_original_output=True
)
print(intervened_outputs.logits - orig_outputs.logits)
Вернет:
tensor([[[ 0.0000, 0.0000, 0.0000, ..., 0.0000, 0.0000, 0.
[ 0.0000, 0.0000, 0.0000, ..., 0.0000, 0.0000, 0.0000],
[ 0.0000, 0.0000, 0.0000, ..., 0.0000, 0.0000, 0.0000],
[ 0.4375, 1.0625, 0.3750, ..., -0.1562, 0.4844, 0.2969],
[ 0.0938, 0.1250, 0.1875, ..., 0.2031, 0.0625, 0.2188],
[ 0.0000, -0.0625, -0.0312, ..., 0.0000, 0.0000, -0.0156]]],
device='cuda:0')
▪Github
▪Paper
▪Colab
@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
👍33🔥10❤4🥴3🍌1
Могут ли нейросети понимать человеческие эмоции?
Да, могут!
В Yandex Cloud разработали нейросеть-эмпата на базе технологии распознавания речи Yandex SpeechKit, которая поможет бизнесу понимать эмоции клиентов по голосу. Новая ML-модель уже может определить негатив, неформальные высказывания и нецензурную лексику.
Расшифровка и анализ эмоций происходят сразу во время разговора. Это позволит лучше адаптировать коммуникации компании под каждого клиента и оперативно реагировать на инциденты в диалоге, если что-то пошло не так.
Вскоре нейросеть-эмпат будет работать в связке с YandexGPT в сервисе речевой аналитики SpeechSense — после этого она сможет понимать неуверенность, сарказм и другие сложные эмоции.
➡️ Узнайте обо всех возможностях нейросети по ссылке
@ai_machinelearning_big_data
Да, могут!
В Yandex Cloud разработали нейросеть-эмпата на базе технологии распознавания речи Yandex SpeechKit, которая поможет бизнесу понимать эмоции клиентов по голосу. Новая ML-модель уже может определить негатив, неформальные высказывания и нецензурную лексику.
Расшифровка и анализ эмоций происходят сразу во время разговора. Это позволит лучше адаптировать коммуникации компании под каждого клиента и оперативно реагировать на инциденты в диалоге, если что-то пошло не так.
Вскоре нейросеть-эмпат будет работать в связке с YandexGPT в сервисе речевой аналитики SpeechSense — после этого она сможет понимать неуверенность, сарказм и другие сложные эмоции.
@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
👍23👏5❤3🤔3🍌1
Microsoft заявила, что доступ к огромным объёмам данных и наличие оптимизированных под искусственный интеллект чипов дают Google преимущество в сфере генеративных нейросетей. Таким образом софтверный гигант попытался подчеркнуть наличие конкуренции в сегменте генеративных нейросетей. В январе этого года Еврокомиссия, основной отраслевой регулятор Евросоюза, начала проверку с целью выявления нарушений антимонопольного законодательства в этой сфере.
Сегмент генеративных нейросетей развивается быстрыми темпами. Появление чат-ботов на основе искусственного интеллекта, таких как ChatGPT от OpenAI и Gemini от Google, вызывает опасения по поводу того, что подобные технологии могут использоваться для создания фейковых новостей и распространения дезинформации. На этом фоне Еврокомиссия начала изучать сегмент, чтобы убедиться в том, что все игроки находятся в одинаковых условиях.
«Сегодня только одна компания — Google — вертикально интегрирована таким образом, что обеспечивает ей силу и независимость на всех уровнях ИИ — от чипов до процветающего магазина мобильных приложений. Все остальные вынуждены полагаться на партнёрские отношения, чтобы внедрять инновации и конкурировать», — говорится в докладе Microsoft, который был направлен в Еврокомиссию.
В Microsoft считают, что способность Google самообеспечивать себя оптимизированными под ИИ чипами даст ей конкурентные преимущества на ближайшие несколько лет. В это же время огромные массивы данных из поискового индекса Google и YouTube позволят компании обучать свою языковую модель Gemini. «YouTube предоставляет беспрецедентный набор видеоконтента: на платформе размещено около 14 млрд видеороликов. У Google есть доступ к этому контенту, а у других разработчиков в сфере ИИ — нет», — заявила Microsoft.
@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
👍15😁4❤2🔥2🍌1
This media is not supported in your browser
VIEW IN TELEGRAM
🔥 Clarity-Upscaler: Open-Source 🔥 Open-Source 🔥
Clarity AI - это новая нейросеть для апскейла, которая может значительно улучшать разрешение изображений и добавлять детали к ним.
Вы можете самостоятельно контролировать результаты, задавая нужное описание при запуске генератора.
▪ code: https://github.com/philz1337x/clarity-upscaler
▪ page: https://clarityai.cc
@ai_machinelearning_big_data
Clarity AI - это новая нейросеть для апскейла, которая может значительно улучшать разрешение изображений и добавлять детали к ним.
Вы можете самостоятельно контролировать результаты, задавая нужное описание при запуске генератора.
▪ code: https://github.com/philz1337x/clarity-upscaler
▪ page: https://clarityai.cc
@ai_machinelearning_big_data
👍25🔥14🤷♂3❤3😁2🥰1🍌1
xrt_plugin*-amdxdna
) для использования интерфейса XRT (Xilinx Runtime Library), позволяющего обращаться из приложений к обработчикам (kernel), выполняемым на стороне аппаратного ускорителя. XRT позволяет задействовать NPU AMD в приложениях на обычных языках программирования.@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
👍21❤5🔥4🍌1
🔥Grok-1 LLM от Илона Маска.
Grok-1 представляет собой смесь экспертов размером 314B обученную с нуля xAI.
Лицензия: Apache 2.0
Веса Grok-1 доступны на Brazzer
▪ Model: https://dagshub.com/xai/grok-1
▪ Page: https://x.ai/blog/grok-os
▪ Code: https://github.com/xai-org/grok-1
▪ Hugging face:https://huggingface.co/xai-org/grok-1
@ai_machinelearning_big_data
Grok-1 представляет собой смесь экспертов размером 314B обученную с нуля xAI.
Лицензия: Apache 2.0
Веса Grok-1 доступны на Brazzer
▪ Model: https://dagshub.com/xai/grok-1
▪ Page: https://x.ai/blog/grok-os
▪ Code: https://github.com/xai-org/grok-1
▪ Hugging face:https://huggingface.co/xai-org/grok-1
@ai_machinelearning_big_data
❤26🔥15👍3🥰2🤔2🍌2
@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
👍16❤7🔥4🤣1🍌1😡1
This media is not supported in your browser
VIEW IN TELEGRAM
🔉 MeloTTS is a high-quality multi-lingual text-to-speech library
Mellott одна из лучших библиотек преобразования текста в речь с открытым исходным кодом, поддерживающая несколько языков.
▪Github
▪Project
▪Docs
@ai_machinelearning_big_data
Mellott одна из лучших библиотек преобразования текста в речь с открытым исходным кодом, поддерживающая несколько языков.
▪Github
▪Project
▪Docs
@ai_machinelearning_big_data
👍17🔥3🍌3❤2🗿2🤩1
⭐️ На Хабре вышла статья про введение в современную квантизацию
ML-разработчик Яндекса рассказал о квантизации нейросетевых моделей: зачем она нужна и какие подходы к ней существуют. Квантизация — это переход от типа данных с большим числом бит, например, float32 к типу с меньшим числом, такому как int8. Автор рассказал о своем опыте и рассмотрел ключевые идеи квантизации нейросетевых моделей в перспективе LLM.
@ai_machinelearning_big_data
ML-разработчик Яндекса рассказал о квантизации нейросетевых моделей: зачем она нужна и какие подходы к ней существуют. Квантизация — это переход от типа данных с большим числом бит, например, float32 к типу с меньшим числом, такому как int8. Автор рассказал о своем опыте и рассмотрел ключевые идеи квантизации нейросетевых моделей в перспективе LLM.
@ai_machinelearning_big_data
👍28🔥4❤3😁1🍌1
This media is not supported in your browser
VIEW IN TELEGRAM
🦾 Supervision: reusable computer vision tools
Supervision - получила очередное обновление.
Это библиотека с открытым исходным кодом, для различных задач компьютерного зрения для трекинга объектов.
Более 2000 коммитов, более 500 PR и более 50 участников.
▪Github:
▪Project
▪Colab
▪Supervision Cookbooks
@ai_machinelearning_big_data
Supervision - получила очередное обновление.
Это библиотека с открытым исходным кодом, для различных задач компьютерного зрения для трекинга объектов.
Более 2000 коммитов, более 500 PR и более 50 участников.
pip install supervision
▪Github:
▪Project
▪Colab
▪Supervision Cookbooks
@ai_machinelearning_big_data
👍49🔥7❤5
HPE выпустила локальный суперкомпьютер для генеративного ИИ
⏩ Компания HPE сообщила о доступности модульной суперкомпьютерной системы для генеративного ИИ. Платформа, предназначенная для локального размещения в инфраструктуре заказчика, построена на суперчипах NVIDIA GH200 Grace Hopper.
⏩ О подготовке системы HPE заявила в ноябре 2023 года. В её основу положены серверы ProLiant DL380a Gen11. В общей сложности могут быть задействованы до 168 суперчипов GH200. Кроме того, применяются Ethernet-платформа NVIDIA Spectrum-X и DPU NVIDIA BlueField-3.
⏩ Решение дополнено платформой машинного обучения и аналитическим программным обеспечением HPE, платформой для работы с ИИ-приложениями NVIDIA AI Enterprise 5.0, которая включает микросервисы на базе загружаемых программных контейнеров, а также сервисом NVIDIA NeMo Retriever и другими библиотеками для обработки данных и ИИ. Суперкомпьютерная система ориентирована на крупные предприятия, исследовательские институты и правительственные учреждения.
⏩ Утверждается, что в конфигурации с 16 узлами комплекс может оптимизировать модель Llama 2 с 70 млрд параметров всего за 6 минут (!). Высокая производительность позволяет клиентам повысить продуктивность бизнеса с помощью приложений генеративного ИИ, таких как виртуальные помощники, умные чат-боты и средства корпоративного поиска. При этом софт HPE Machine Learning Inference позволит предприятиям быстро и безопасно развертывать масштабные модели машинного обучения.
⏩ Компания HPE также сообщила о намерении выпустить продукты следующего поколения, использующие аппаратные решения NVIDIA на базе архитектуры Blackwell. Речь идёт о гибридных суперчипах GB200, а также изделиях HGX B200 и HGXB100. Подробности о новых системах будут раскрыты позднее.
@ai_machinelearning_big_data
@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
👍17🔥11❤2🍌2
This media is not supported in your browser
VIEW IN TELEGRAM
🖼 One-Step Image Translation with Text-to-Image Models
CycleGAN-Turbo превосходит существующие методы на основе GAN и диффузии для различных задач изменения изображений, например, преобразование дня в ночь, добавление / удаление погодных эффектов, таких как туман, снег и дождь и тд.
▪Paper: https://arxiv.org/abs/2403.12036
▪Code: https://github.com/GaParmar/img2img-turbo
▪Demo: https://huggingface.co/spaces/gparmar/img2img-turbo-sketch
@ai_machinelearning_big_data
CycleGAN-Turbo превосходит существующие методы на основе GAN и диффузии для различных задач изменения изображений, например, преобразование дня в ночь, добавление / удаление погодных эффектов, таких как туман, снег и дождь и тд.
▪Paper: https://arxiv.org/abs/2403.12036
▪Code: https://github.com/GaParmar/img2img-turbo
▪Demo: https://huggingface.co/spaces/gparmar/img2img-turbo-sketch
@ai_machinelearning_big_data
🔥29👍8👌2🥰1🍌1
⚡ Lightning Thunder: It makes PyTorch programs faster on single accelerators and distributed.
Thunder, новый компилятор для Python!
В задачах обучения LLM (например, Llama 2 7B) он может ускорить работу на 40% по сравнению с обычным PyTorch.
Вы можете использовать его с
▪Github
@ai_machinelearning_big_data
Thunder, новый компилятор для Python!
В задачах обучения LLM (например, Llama 2 7B) он может ускорить работу на 40% по сравнению с обычным PyTorch.
Вы можете использовать его с
pytorch.compile
для повышения эффективности. И, конечно же, он также поддерживает обучение с несколькими графическими процессорами через DDP и SDP SDP
.▪Github
@ai_machinelearning_big_data
👍27🔥10🍌2❤1🥰1
This media is not supported in your browser
VIEW IN TELEGRAM
🪴 SceneScript, a novel method for reconstructing environments and representing the layout of physical spaces
Scene Script - новый метод реконструкции окружающей среды и объектов в пространстве от RealityLabs
SceneScript способен напрямую определять геометрию помещения с помощью сквозного машинного обучения и описывать его.
По сравнению с предыдущими подходами, описание являются компактны и полными.
Scene Script использует предсказание следующего токена, как LLM, но вместо естественного языка он использует архитектурные токены. Чтобы обучить Scene был создан синтетический набор данных из 100 000 уникальных пространств.
Scene Script представляет собой важную веху на пути к идеальной дополненной реальности, которые соединят физический и цифровой миры.
▪Paper
▪Project
▪Dataset
@ai_machinelearning_big_data
Scene Script - новый метод реконструкции окружающей среды и объектов в пространстве от RealityLabs
SceneScript способен напрямую определять геометрию помещения с помощью сквозного машинного обучения и описывать его.
По сравнению с предыдущими подходами, описание являются компактны и полными.
Scene Script использует предсказание следующего токена, как LLM, но вместо естественного языка он использует архитектурные токены. Чтобы обучить Scene был создан синтетический набор данных из 100 000 уникальных пространств.
Scene Script представляет собой важную веху на пути к идеальной дополненной реальности, которые соединят физический и цифровой миры.
▪Paper
▪Project
▪Dataset
@ai_machinelearning_big_data
👍26🔥13❤3🍌1
This media is not supported in your browser
VIEW IN TELEGRAM
📢 𝐕𝐨𝐢𝐜𝐞𝐂𝐫𝐚𝐟𝐭: Zero-Shot Speech Editing and Text-to-Speech in the Wild🪄
SotA как для редактирования речи, и для преобразования текста в речь, превосходящий
VoiceCraft работает с фильмами, видеороликами, подкастами и тд.
▪Github
▪Paper
▪Project
@ai_machinelearning_big_data
SotA как для редактирования речи, и для преобразования текста в речь, превосходящий
VALL-E, XTTS-v
2 и т.д.VoiceCraft работает с фильмами, видеороликами, подкастами и тд.
▪Github
▪Paper
▪Project
@ai_machinelearning_big_data
🔥23👍4🍌2❤1