Yandex AI Rendering Technology (YandexART) — диффузионная нейросеть, которая создаёт и улучшает изображения и анимацию в ответ на текстовые запросы. В более ранних версиях модель обучили прорабатывать мелкие детали при генерации контента, а также работать в заданном художественном стиле и создавать фотореалистичные портреты.
YandexART (Vi) же научилась воссоздавать реалистичные движения, а также учитывать связь между кадрами — благодаря этому генерируемые видео получаются более цельными и плавными. Чтобы нейросеть могла справляться с этой задачей, её обучили на роликах с движущимися объектами, например, с едущим автомобилем или крадущимся котом.
▪️Хабр
@ai_machinelearning_big_data
#AI #ML
Please open Telegram to view this post
VIEW IN TELEGRAM
👍23❤🔥4❤3👏3🥱1🤣1🙊1
Hugging Face представила новую модель Idefics3-8B-Llama3, созданную на базе siglip-so400m и Llama 3.1-8B-Instruct , которая может работать с произвольными последовательностями изображений и текста.
Эта модель умеет отвечать на вопросы об изображениях, описывать визуальный контент, создавать истории на основе нескольких изображений и даже работать как чистая языковая модель без визуальных входных данных.
Idefics3 значительно улучшает возможности своих предшественников, Idefics1 и Idefics2, особенно в области распознавания текста на изображениях (OCR), понимания документов и визуального рассуждения.
Новая модель использует 169 визуальных токенов для кодирования изображения размером 364x364 пикселей. Каждое изображение делится на несколько блоков, которые затем кодируются отдельно.
Для тонкой настройки модели использовались датасеты: The Cauldron и Docmatix. В бенчмарках MMMU, MathVista и DocVQA Idefics3 показывает лучшие результаты по сравнению с Idefics2.
⚠️ Idefics3 поддерживает только английский язык и не подвергалась этапу RLHF alignment, поэтому она может не всегда следовать промпту или справляться с СoT-задачами самостоятельно.
Однако это не значит, что она не способен на это. Добавление префикса к assistant's response, например, "Let's think step" для рассуждения или <html> для генерации HTML-кода, может значительно улучшить инференс на практике.
Также имеет практический смысл поиграть с параметром "температура" в non-greedy mode.
@ai_machinelearning_big_data
#AI #MLLM #ML #Idefics3
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍18🔥11❤4
Новостной дайджест
✔️ AMD назначает ветерана ИИ-индустрии на пост вице-президента.
AMD объявила о назначении Кита Стайера старшим вице-президентом глобального рынка ИИ. Стайер имеет более 30 лет опыта работы в технологическом бизнесе и развитии рынков, технической инженерии и обеспечения ответственной разработки ИИ. Ранее он занимал пост вице-президента международных инициатив в области ИИ в компании NVIDIA. Он будет работать под руководством генерального директора AMD, Лисы Су.
finance.yahoo.com
✔️ Intel выпускает серию процессоров Core Ultra 200V "Lunar Lake".
Серия "Lunar Lake" предназначена для конкуренции с процессорами Arm, используемыми в устройствах Apple и Microsoft. По словам производителя, это самые эффективные процессоры x86 на данный момент.
Процессоры Core Ultra 200V получили снижение энергопотребления до 50% по сравнению с предыдущими поколениями, повышение производительности до 120 TOPS за счет комбинации CPU, GPU и NPU.
Новинки оснащены четвертым поколением NPU, которое в 4 раза мощнее своего предшественника, а также новой графической архитектурой Xe2, на 30% более производительной предыдущей версии GPU.
Процессоры Core Ultra 200V будут использоваться в потребительских устройствах на базе Intel Evo от Acer, ASUS, Dell Technologies, HP, Lenovo, LG, MSI и Samsung.
Устройства с новыми процессорами будут доступны для предварительного заказа с сегодняшнего дня, а в продаже появятся 24 сентября. Все устройства с процессорами Core Ultra 200V и последней версией Windows будут иметь право на бесплатное обновление функций Copilot+ PC.
intel.com
✔️ Чеклист: Что нужно для достижения успеха в обеспечении безопасности ИИ?
Большая статья Sam Bowman, руководителя исследовательского подразделения Anthropic, в которой он высказывает предположение о том, чего должны добиться разработчики для обеспечения безопасности ИИ в процессе создания сверхчеловеческого AI.
sleepinyourhat.github.io
✔️ Hugging Face заключил сотрудничество с TruffleHog для поиска чувствительных данных.
Hugging Face интегрировала TruffleHog в свою экосистему для сканирования репозиториев на наличие секретов, таких как учетные данные, токены и ключи шифрования. Если обнаружен подтвержденный секрет, пользователь получает уведомление по электронной почте. Hugging Face создала собственный сканер TruffleHog, который дает возможность пользователям сканировать свои модели, наборы данных и Spaces на наличие секретов.
huggingface.co
✔️ Проект Graphiti: Графы темпоральных знаний на основе LLM.
Graphiti - инструмент создания и запроса графов знаний, которые развиваются с течением времени.
Граф знаний - это сеть взаимосвязанных фактов, они были широко изучены для поиска информации. Уникальность Graphiti заключается в ее способности автономно строить граф знаний, обрабатывая изменяющиеся отношения и сохраняя исторический контекст. Демо проекта
help.getzep.com
@ai_machinelearning_big_data
#news #ai #ml
AMD объявила о назначении Кита Стайера старшим вице-президентом глобального рынка ИИ. Стайер имеет более 30 лет опыта работы в технологическом бизнесе и развитии рынков, технической инженерии и обеспечения ответственной разработки ИИ. Ранее он занимал пост вице-президента международных инициатив в области ИИ в компании NVIDIA. Он будет работать под руководством генерального директора AMD, Лисы Су.
finance.yahoo.com
Серия "Lunar Lake" предназначена для конкуренции с процессорами Arm, используемыми в устройствах Apple и Microsoft. По словам производителя, это самые эффективные процессоры x86 на данный момент.
Процессоры Core Ultra 200V получили снижение энергопотребления до 50% по сравнению с предыдущими поколениями, повышение производительности до 120 TOPS за счет комбинации CPU, GPU и NPU.
Новинки оснащены четвертым поколением NPU, которое в 4 раза мощнее своего предшественника, а также новой графической архитектурой Xe2, на 30% более производительной предыдущей версии GPU.
Процессоры Core Ultra 200V будут использоваться в потребительских устройствах на базе Intel Evo от Acer, ASUS, Dell Technologies, HP, Lenovo, LG, MSI и Samsung.
Устройства с новыми процессорами будут доступны для предварительного заказа с сегодняшнего дня, а в продаже появятся 24 сентября. Все устройства с процессорами Core Ultra 200V и последней версией Windows будут иметь право на бесплатное обновление функций Copilot+ PC.
intel.com
Большая статья Sam Bowman, руководителя исследовательского подразделения Anthropic, в которой он высказывает предположение о том, чего должны добиться разработчики для обеспечения безопасности ИИ в процессе создания сверхчеловеческого AI.
sleepinyourhat.github.io
Hugging Face интегрировала TruffleHog в свою экосистему для сканирования репозиториев на наличие секретов, таких как учетные данные, токены и ключи шифрования. Если обнаружен подтвержденный секрет, пользователь получает уведомление по электронной почте. Hugging Face создала собственный сканер TruffleHog, который дает возможность пользователям сканировать свои модели, наборы данных и Spaces на наличие секретов.
huggingface.co
Graphiti - инструмент создания и запроса графов знаний, которые развиваются с течением времени.
Граф знаний - это сеть взаимосвязанных фактов, они были широко изучены для поиска информации. Уникальность Graphiti заключается в ее способности автономно строить граф знаний, обрабатывая изменяющиеся отношения и сохраняя исторический контекст. Демо проекта
help.getzep.com
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍28🔥6❤5❤🔥1
Yi-Coder - это серия LLM с открытым исходным кодом, которые предназначены для программирования.
Модели Yi-Coder выпущены в двух размерностях: 1,5 млрд и 9 млрд параметров с контекстным окном в 128 тысяч токенов. Доступны базовая и чат-версия:
Модели основаны на LLM Yi-9B и обучались на 2.4 трлн. токенов, полученных из наборов данных Github и CommonCrawl.
Yi-Coder обладают знаниями 52 языков программирования.
В бенчмарке LiveCodeBench Yi-Coder-9B-Chat достиг показателя в 23.4%, что больше, чем у
моделей с большим числом параметров, например: DeepSeek-Coder-33B-Instruct и CodeLLama-34B-Instruct.
Использование моделей Yi-Coder всех версий поддерживается в Transformers и vLLM.
Подробные руководства по системному промптингу, artifacts-style прототипированию в виде web-страницы, конвертации текстового запроса в SQL-Query, инструкцию по файнтюну и квантованию можно найти в репозитории проекта на Github.
# Clone repository
git clone https://github.com/01-ai/Yi-Coder.git
cd Yi-Coder
# Install requirements
pip install -r requirements.txt
@ai_machinelearning_big_data
#AI #ML #LLM #YiCoder
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍29🔥13❤11
This media is not supported in your browser
VIEW IN TELEGRAM
Это AI для разработки новых белков. Он поможет в разработке лекарств, для лечения рака, аутоиммунных заболеваний, а так же лечения множества других заболеваний 🧬
Ученые предрекают возможность создания нового белкового материала, который будет связываться с белками, участвующими в передаче сигналов между раковыми клетками, нарушая их функцию и вызывая их гибель
Исследователи смогу смоделировать и лучше понять, как функционируют биологические системы, сэкономить время на исследованиях, усовершенствовать разработку лекарств и многое другое. 🧵
Анонс
Статья
@ai_machinelearning_big_data
#deepmind #ai #ml #biology #biotech
Please open Telegram to view this post
VIEW IN TELEGRAM
👍70🔥21❤8🥰2
Новостной дайджест
✔️ Anthropic запускает тарифный план Claude Enterprise для корпоративных клиентов.
Anthropic предлагает новый план подписки для Claude, ориентированный на корпоративных клиентов, предлагая административный контроль и повышенную безопасность.
Claude Enterprise поможет проанализировать информацию, ответить на вопросы о ней, создать графики и простые веб-страницы или действовать как корпоративный AI-ассистент. План также включает в себя функции Projects и Artifacts, где реализована функция совместной работы с контентом.
План Claude Enterprise отличается от существующих решений на рынке. Например, контекстное окно в Claude Enterprise - 500 000 токенов. ChatGPT Enterprise и подписка Claude Team предлагают контекстные окна размером меньше половины, чем Claude Enterprise.
techcrunch.com
✔️ Dell и Red Hat объявили о сотрудничестве и поддержке бекэнда для open-source AI.
Основная цель сотрудничества - предоставить пользователям более простой и безопасный способ разработки, тестирования и развертывания языковых и генеративных моделей.
RHEL AI объединяет лицензированные LLM Granite от IBM Research, инструменты выравнивания моделей, основанные на методологии LAB (Large-scale Alignment for chatBots), и подход к разработке моделей в рамках проекта InstructLab.
Решение RHEL AI реализовано в виде загрузочного образа Red Hat Enterprise Linux (RHEL) для развертывания на отдельных серверах в гибридном облаке и включено в состав Red Hat OpenShift AI, гибридной облачной платформы для MLOps. RHEL AI на серверах Dell PowerEdge будет доступен в третьем квартале 2024 года.
devopsdigest.com
✔️ Microsoft объявила о выпуске Copilot+ на ПК в ноябре 2024 г.
Пользователи смогут получить доступ к функциям Copilot+: Live Captions, Windows Studio Effects и Cocreator в Paint.
Новые функции Copilot+ будут доступны через бесплатные обновления Windows на ПК с процессорами AMD (включая новые Ryzen AI 300), Intel (включая новые Core Ultra 200V), Qualcomm Snapdragon X Elite и X Plus, разработанных экосистемными партнерами Microsoft - Acer, ASUS, Dell, HP, Lenovo, Samsung.
blogs.windows.com
✔️ Биогибридные роботы, управляемые электрофизиологическими импульсами мицелия грибов.
Исследователи из Корнеллского университета создали экспериментальных биогибридных роботов, которые могут потенциально реагировать на окружающую среду лучше, чем их полностью синтетические аналоги.
Команда использовала грибные мицелии, которые имеют способность чувствовать химические и биологические сигналы и реагировать на множество входных данных. Они разработали систему, которая может записывать и обрабатывать электрофизиологическую активность мицелия в режиме реального времени и преобразовывать ее в цифровой сигнал управления, передаваемый на исполнительные узлы робота.
Были построены 2 робота : мягкий робот в форме паука и колесный робот. Роботы выполнили три эксперимента, в которых они реагировали на естественные сигналы мицелия и на внешние стимулы (ультрафиолетовый свет).
В университете надеются, что их разработка может привести к созданию роботов, которые могут взаимодействовать с окружающей средой более естественным образом.
news.cornell.edu
✔️ Проект EnsLoss: Стохастические калиброванные ансамбли потерь для предотвращения переоценки при классификации.
EnsLoss, новый метод объединения потерь, который расширяет концепцию коллективного обучения и позволяет объединять потери в рамках эмпирической минимизации риска (ERM). В отличие от существующих методов объединения, EnsLoss сохраняет "легитимность" объединенных потерь, т.е. обеспечивает свойства сonvexity and calibration (CC).
В репозитории описан набор экспериментов, которые демонстрируют эффективность предлагаемого метода по сравнению с существующими методами, основанными на фиксированной функции потерь, а также оценивают его совместимость с другими методами регуляризации.
github.com
@ai_machinelearning_big_data
#news #ai #ml
Anthropic предлагает новый план подписки для Claude, ориентированный на корпоративных клиентов, предлагая административный контроль и повышенную безопасность.
Claude Enterprise поможет проанализировать информацию, ответить на вопросы о ней, создать графики и простые веб-страницы или действовать как корпоративный AI-ассистент. План также включает в себя функции Projects и Artifacts, где реализована функция совместной работы с контентом.
План Claude Enterprise отличается от существующих решений на рынке. Например, контекстное окно в Claude Enterprise - 500 000 токенов. ChatGPT Enterprise и подписка Claude Team предлагают контекстные окна размером меньше половины, чем Claude Enterprise.
techcrunch.com
Основная цель сотрудничества - предоставить пользователям более простой и безопасный способ разработки, тестирования и развертывания языковых и генеративных моделей.
RHEL AI объединяет лицензированные LLM Granite от IBM Research, инструменты выравнивания моделей, основанные на методологии LAB (Large-scale Alignment for chatBots), и подход к разработке моделей в рамках проекта InstructLab.
Решение RHEL AI реализовано в виде загрузочного образа Red Hat Enterprise Linux (RHEL) для развертывания на отдельных серверах в гибридном облаке и включено в состав Red Hat OpenShift AI, гибридной облачной платформы для MLOps. RHEL AI на серверах Dell PowerEdge будет доступен в третьем квартале 2024 года.
devopsdigest.com
Пользователи смогут получить доступ к функциям Copilot+: Live Captions, Windows Studio Effects и Cocreator в Paint.
Новые функции Copilot+ будут доступны через бесплатные обновления Windows на ПК с процессорами AMD (включая новые Ryzen AI 300), Intel (включая новые Core Ultra 200V), Qualcomm Snapdragon X Elite и X Plus, разработанных экосистемными партнерами Microsoft - Acer, ASUS, Dell, HP, Lenovo, Samsung.
blogs.windows.com
Исследователи из Корнеллского университета создали экспериментальных биогибридных роботов, которые могут потенциально реагировать на окружающую среду лучше, чем их полностью синтетические аналоги.
Команда использовала грибные мицелии, которые имеют способность чувствовать химические и биологические сигналы и реагировать на множество входных данных. Они разработали систему, которая может записывать и обрабатывать электрофизиологическую активность мицелия в режиме реального времени и преобразовывать ее в цифровой сигнал управления, передаваемый на исполнительные узлы робота.
Были построены 2 робота : мягкий робот в форме паука и колесный робот. Роботы выполнили три эксперимента, в которых они реагировали на естественные сигналы мицелия и на внешние стимулы (ультрафиолетовый свет).
В университете надеются, что их разработка может привести к созданию роботов, которые могут взаимодействовать с окружающей средой более естественным образом.
news.cornell.edu
EnsLoss, новый метод объединения потерь, который расширяет концепцию коллективного обучения и позволяет объединять потери в рамках эмпирической минимизации риска (ERM). В отличие от существующих методов объединения, EnsLoss сохраняет "легитимность" объединенных потерь, т.е. обеспечивает свойства сonvexity and calibration (CC).
В репозитории описан набор экспериментов, которые демонстрируют эффективность предлагаемого метода по сравнению с существующими методами, основанными на фиксированной функции потерь, а также оценивают его совместимость с другими методами регуляризации.
github.com
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍20❤7🔥5
🤯 Llama 3 Reflection 70 превосходит, AnthropicAI
Claude 3.5 Sonnet и GPT-4o.👀
1️⃣ Алгоритм начинает с вывода своих рассуждений в тегах
2️⃣ Если модель обнаруживает ошибку в своих рассуждениях, она использует теги
3️⃣ Удовлетворившись своими рассуждениями, модель предоставляет окончательный ответ в тегах
Результаты модели:
🏆 89,9% MMLU, 79,7% MATH, 90,1% IFEval > Sonnet 3.5, GPT-4o
🥇 Лучший в мире открытый LLM (на момент выпуска)
🦙 Обучен на базе Llama 3.1 70B Instruct с новыми специальными токенами для <мышления>, <рефлексии>, <вывода>
🚀 405B модель в разработке, ожидается, что это будет лучшая из существующих моделей
🤗 Доступна на HF
📚 Набор данных и отчет об обучении будут готовы на следующей неделе.
Модель: https://huggingface.co/mattshumer/Reflection-Llama-3.1-70B
@ai_machinelearning_big_data
#llama #opensource #llm
Claude 3.5 Sonnet и GPT-4o.👀
1️⃣ Алгоритм начинает с вывода своих рассуждений в тегах
<thinking>.
2️⃣ Если модель обнаруживает ошибку в своих рассуждениях, она использует теги
<reflection>
в разделе <thinking>
, чтобы сигнализировать об этом и попытаться исправить себя.3️⃣ Удовлетворившись своими рассуждениями, модель предоставляет окончательный ответ в тегах
<output>.
Результаты модели:
🏆 89,9% MMLU, 79,7% MATH, 90,1% IFEval > Sonnet 3.5, GPT-4o
🥇 Лучший в мире открытый LLM (на момент выпуска)
🦙 Обучен на базе Llama 3.1 70B Instruct с новыми специальными токенами для <мышления>, <рефлексии>, <вывода>
🚀 405B модель в разработке, ожидается, что это будет лучшая из существующих моделей
🤗 Доступна на HF
📚 Набор данных и отчет об обучении будут готовы на следующей неделе.
Модель: https://huggingface.co/mattshumer/Reflection-Llama-3.1-70B
@ai_machinelearning_big_data
#llama #opensource #llm
🔥71👍22❤6👏3🤬2🤔1💘1
MAPF-GPT - это метод решения задачи планирования движения агентов (MAPF) с помощью обучения с подкреплением. Он включает в себя четыре основных этапа: создание сценариев MAPF, генерацию решений, токенизацию решений и выполнение основного цикла обучения.
Практическая ценность MAPF-GPT - его способность решать задачи многоагентного планирования маршрутов в децентрализованном режиме, без необходимости в дополнительных модулях коммуникации или планирования.
Эти способности делают MAPF-GPT перспективным решением для реальных секторов: склады и логистические центры, транспортные системы, железнодорожная диспетчеризация и другие сферы, где требуется координация движения множества агентов в общем пространстве.
Для создания сценариев MAPF используется инструмент POGEMA (Probabilistic Obstacle Generation and Environment Modeling Algorithm), который позволяет генерировать карты с препятствиями и создавать экземпляры задачи MAPF. Для обучения моделей было создано 3,75 миллиона экземпляров задачи MAPF на картах размером от 17x17 до 21x21 с 16, 24 или 32 агентами.
За генерацию решений отвечает алгоритм La-CAM (Learning-based Constraint Acquisition and Modeling), - один из лучших решателей задачи MAPF. Алгоритм генерирует планы движения для каждого агента, которые затем используются для создания пар "наблюдение-действие".
Токенизация решений преобразует пары "наблюдение-действие" в последовательность специальных символов, которые затем используются для обучения модели. Модель состоит из 256 токенов, которые кодируют местное наблюдение агента. Первая часть наблюдения включает в себя информацию о карте в окрестности агента, а вторая часть включает в себя информацию об агенте и ближайших агентах.
Всего в словаре используется 67 различных токенов, включая токены для числовых значений (стоимость пути), и токены для буквальных значений (действия).
Диапазон числовых значений составляет [-20. .. 20], в соответствии с размерами карт, используемых в наборе данных для обучения.
Командой разработки метода представлены 3 модели:
@ai_machinelearning_big_data
#AI #ML #MAPF #MIPT
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍22❤11🔥7
OpenVLA - набор моделей с 7млрд. параметров, которые предназначены для универсального управления роботами.
OpenVLA состоит из комбинации визуальных энкодеров SigLIP, DinoV2 и языковой модели Llama 2, выступающей в качестве основы. Обучение производилось на наборе данных Open-X, который состоит из 970 тыс. траекторий манипуляций в различных средах.
Модели принимают на вход языковую инструкцию и изображение рабочей области с камеры робота. Затем, OpenVLA предсказывает нормализированные действия робота, состоящие из 7-DoF дельт конечных эффекторов в виде координатных положений (x, y, z, roll, pitch, yaw, gripper).
Для выполнения на реальной роботизированной платформе действия должны быть де-нормализованы с учетом статистики, вычисляемой для каждого робота и каждого набора данных.
OpenVLA готовы к использованию для управления роботами в комбинациях действий и обстановках, если они схожи с действиями и задачами, которые присутствуют в Open-X (например, для сред BridgeV2 с роботом Widow-X).
Модели не умеют самообучаться на условиях, не представленных в предварительном обучении; для решения таких случаев разработчики подготовили подробные инструкции по самостоятельному дообучению на вашем наборе демонстраций.
Семейство OpenVLA состоит из 5 модификаций базовой OpenVLA-7B:
# Create venv
conda create -n openvla python=3.10 -y
conda activate openvla
# Install PyTorch
conda install pytorch torchvision torchaudio pytorch-cuda=12.4 -c pytorch -c nvidia -y
# Clone and install the openvla repo
git clone https://github.com/openvla/openvla.git
cd openvla
pip install -e .
# for training only
# Install Flash Attention 2
pip install packaging ninja
ninja --version; echo $? # --> should return code "0"
pip install "flash-attn==2.5.5" --no-build-isolation
@ai_machinelearning_big_data
#AI #ML #OpetVLA #Robotics
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥22👍17❤8💘2