Eagle - это семейство MLLM высокого разрешения, построенное на LLaVA. В обновленном до версии X5 наборе представлено 3 модели:
Архитектура Eagle-X5:
Обучение модели Eagle-X5 проходит в три этапа:
Eagle показывает высокие результаты в мультимодальных бенчмарках LLM, особенно в задачах, чувствительных к разрешению - OCR и понимание документов.
Установка и запуск с GradioUI:
# Clone repository
git clone https://github.com/NVlabs/EAGLE.git
cd Eagle
# Create venv and install requirements
conda create -n eagle python=3.10 -y
conda activate eagle
pip install --upgrade pip # enable PEP 660 support
pip install requirements
# Run Gradio
python gradio_demo.py --model-path ${MODEL_CKPT} --conv-mode vicuna_v1
@ai_machinelearning_big_data
#AI #NVIDIA #ML #EAGLEX5 #MMLM
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍30❤6🔥5
⚡️ Новостной МЛ дайджест
✔️ Google предлагает подписчикам Gemini Advanced новые функции: Gems и Imagen 3.
Gems дает возможность пользователям файнтюнить Gemini для конкретных задач, предлагая готовые сценарии: образование, программирование, поиск идей, помощник по карьере и ассистент писателя. Imagen 3 - это новейшая модель генерации изображений, разработанная Google DeepMind.
9to5google.com
✔️ Суд признал Google монополией, окажет ли это влияние на рынок ИИ.
Федеральный судья Амит Мехта признал Google монополией, постановив, что компания незаконно использовала свою рыночную власть для вреда конкурентам в области поисковых систем. Это решение является первым поражением крупной интернет-платформы в антимонопольном деле за более чем 20 лет и может иметь серьезные последствия для бизнес-практик компаний Silicon Valley.
Юристы считают, что это решение может сделать судей более восприимчивыми к антимонопольным действиям в других делах против крупных технологических компаний, особенно в отношении растущей индустрии ИИ. Сегодня рынок ИИ доминируется многими из тех же компаний, которые являются ответчиками по антимонопольным обвинениям в суде, и эти компании используют те же тактики для укрепления своей власти на рынке ИИ.
time.com
✔️ Microsoft разрабатывает новые подходы к ИИ, по примеру работы человеческого мозга.
Microsoft объявила о нескольких новых проектах, направленных на разработку более эффективных и устойчивых технологий искусственного интеллекта.
Один из проектов - разработка нейронной сети CircuitNet, которая имитирует работу мозга в обработке информации. CircuitNet использует комбинацию плотно связанных локальных узлов и меньшего количества соединений между отдаленными регионами, вследствие чего сигналы обрабатываются более эффективно.
Другой проект - улучшение точности предсказательных моделей для будущих событий. В нем используются спайковые нейронные сети (Spiking neural networks), которые активируют нейроны только при достижении определенного порога.
Третий проект - улучшение способности ИИ обрабатывать языковые данные и прогнозировать закономерности. Исследователи разработали новый подход, который комбинирует две техники: центральные генераторы паттернов (Central pattern generators) и позиционное кодирование (Positional encoding). В результате, SNN лучше обрабатывает временные данные и точнее прогнозирует будущие события.
microsoft.com
✔️ Релиз Vectorlite v0.2.0: быстрый векторный поиск в процессе работы на любом языке с поддержкой SQL.
Компания Vectorlite объявила о выпуске новой версии своей библиотеки поиска векторов - v0.2.0. В этой версии разработчики решили проблемы, связанные с ограничениями hnswlib, которая использовалась в предыдущих версиях Vectorlite.
Одной из проблем hnswlib была реализация расстояния между векторами, которая была медленной на платформах ARM и не использовала более быстрые инструкции на платформах x64 с поддержкой AVX2. Кроме того, SIMD-инструкции определялись на этапе компиляции, что могло вызвать проблемы на системах, не поддерживающих AVX2.
В новой версии Vectorlite разработчики представили свою собственную портативную реализацию расстояния между векторами с использованием библиотеки Google Highway. Это позволило улучшить производительность Vectorlite в 1,5-3 раза на машинах с поддержкой AVX2 и векторами размером 256 и более. На платформах ARM Vectorlite теперь также поддерживает SIMD-ускорение.
Еще в новой версии Vectorlite нормализация векторов теперь гарантированно ускорена с помощью SIMD, что делает ее в 4-10 раз быстрее, чем скалярная реализация. .
1yefuwang1.github.io
@ai_machinelearning_big_data
#news #ai #ml
Gems дает возможность пользователям файнтюнить Gemini для конкретных задач, предлагая готовые сценарии: образование, программирование, поиск идей, помощник по карьере и ассистент писателя. Imagen 3 - это новейшая модель генерации изображений, разработанная Google DeepMind.
9to5google.com
Федеральный судья Амит Мехта признал Google монополией, постановив, что компания незаконно использовала свою рыночную власть для вреда конкурентам в области поисковых систем. Это решение является первым поражением крупной интернет-платформы в антимонопольном деле за более чем 20 лет и может иметь серьезные последствия для бизнес-практик компаний Silicon Valley.
Юристы считают, что это решение может сделать судей более восприимчивыми к антимонопольным действиям в других делах против крупных технологических компаний, особенно в отношении растущей индустрии ИИ. Сегодня рынок ИИ доминируется многими из тех же компаний, которые являются ответчиками по антимонопольным обвинениям в суде, и эти компании используют те же тактики для укрепления своей власти на рынке ИИ.
time.com
Microsoft объявила о нескольких новых проектах, направленных на разработку более эффективных и устойчивых технологий искусственного интеллекта.
Один из проектов - разработка нейронной сети CircuitNet, которая имитирует работу мозга в обработке информации. CircuitNet использует комбинацию плотно связанных локальных узлов и меньшего количества соединений между отдаленными регионами, вследствие чего сигналы обрабатываются более эффективно.
Другой проект - улучшение точности предсказательных моделей для будущих событий. В нем используются спайковые нейронные сети (Spiking neural networks), которые активируют нейроны только при достижении определенного порога.
Третий проект - улучшение способности ИИ обрабатывать языковые данные и прогнозировать закономерности. Исследователи разработали новый подход, который комбинирует две техники: центральные генераторы паттернов (Central pattern generators) и позиционное кодирование (Positional encoding). В результате, SNN лучше обрабатывает временные данные и точнее прогнозирует будущие события.
microsoft.com
Компания Vectorlite объявила о выпуске новой версии своей библиотеки поиска векторов - v0.2.0. В этой версии разработчики решили проблемы, связанные с ограничениями hnswlib, которая использовалась в предыдущих версиях Vectorlite.
Одной из проблем hnswlib была реализация расстояния между векторами, которая была медленной на платформах ARM и не использовала более быстрые инструкции на платформах x64 с поддержкой AVX2. Кроме того, SIMD-инструкции определялись на этапе компиляции, что могло вызвать проблемы на системах, не поддерживающих AVX2.
В новой версии Vectorlite разработчики представили свою собственную портативную реализацию расстояния между векторами с использованием библиотеки Google Highway. Это позволило улучшить производительность Vectorlite в 1,5-3 раза на машинах с поддержкой AVX2 и векторами размером 256 и более. На платформах ARM Vectorlite теперь также поддерживает SIMD-ускорение.
Еще в новой версии Vectorlite нормализация векторов теперь гарантированно ускорена с помощью SIMD, что делает ее в 4-10 раз быстрее, чем скалярная реализация. .
1yefuwang1.github.io
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍22❤9🔥6
Qwen2-VL - это новая версия VLMs, основанная на Qwen2 в семействе моделей Qwen. По сравнению предыдущим поколением, Qwen2-VL обладает возможностями:
Набор Qwen2-VL состоит из трех основных моделей, две из которых публикуются в отrрытом доступе. Модель Qwen2-VL-72B доступна только по API:
и их квантованные версии в форматах AWQ и GPTQ в разрядностях Int8 и Int4.
Архитектура моделей. как и в прошлом поколении основана на ViT 600M и LLM Qwen2, но с добавлением двух ключевых модификаций:
⚠️ Ограничения в возможностях и слабые стороны поколения состоят в том, что модели не умеют извлекать звук из видео, а их знания актуальны на июнь 2023 года.
Кроме того, они не могут гарантировать полную точность при обработке сложных инструкций или сценариев. Модели относительно слабы в задачах, связанных со счетом, распознаванием символов и трехмерным пространственным восприятием.
@ai_machinelearning_big_data
#AI #Qwen #ML #GPTQ #VLM #AWQ
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥13👍10❤5😁1
OmniRe - метод для целостной реконструкции городских среды с движущимися объектами по существующим видеозаписям.
Метод использует нейронный граф сцены и гауссовы представления для моделирования различных динамических объектов - транспортные средства, пешеходов и велосипедистов.
OmniRe реконструирует и оптимизирует всю композицию сцены за один этап: гауссовские атрибуты, положения объектов, позы людей и веса сети деформаций.
Способность целостного моделирования динамических объектов позволяет применять OmniRe в проектах управления транспортными средствами, моделирования дорожного движения и симуляции поведения человека в условиях городской среды.
Ограничения и недостатки:
Прикладное применения метода реализовано в виде фреймворка Drive Studio. Помимо имплементации метода OmniRe, он имеет ряд полезных функций:
Фреймворк поддерживает методы OmniRe, Deformable-GS, PVG, Street Gaussians с использованием набора данных Waymo, NuScenes, NuPlan, ArgoVerse, PandaSet, KITTI.
Планы по развитию Drive Studio:
⚠️ Важно! Перед началом обучения внимательно ознакомьтесь с инструкциями по подготовке наборов данных.
# Clone repository with submodules
git clone --recursive https://github.com/ziyc/drivestudio.git
cd drivestudio
# Create venv and install requirements
conda create -n drivestudio python=3.9 -y
conda activate drivestudio
pip install -r requirements.txt
pip install git+https://github.com/facebookresearch/pytorch3d.git
pip install git+https://github.com/NVlabs/nvdiffrast
# Set up for SMPL Gaussians
cd third_party/smplx/
pip install -e .
cd ../..
@ai_machinelearning_big_data
#AI #DriveStudio #ML #OmiRe #Gaussian
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍18❤8🔥4
SkillMimic - метод моделирования симуляции поведения 3D-объекта или физического человекоподобного робота для изучения различных баскетбольных навыков на примерах демонстрации этих навыков людьми.
Основная техника метода заключается в обучении движениям человека используя данные Human-Object Interaction (HOI). Обучаемый объект взаимодействует с окружающей средой на основе прогнозов действий, определяемых политикой и руководствуясь единым вознаграждением за имитацию HOI.
Функция вознаграждения состоит из двух компонентов:
В результате обеспечивается точная имитация движений с мячом с предотвращением локальных оптимумов.
Приобретенные навыки могут быть повторно использованы, объединены и комбинированы целевым объектом для выполнения сложных задач с помощью высокоуровневого контроллера.
SkillMimic позволяет отказаться от традиционного трудоемкого планирования вознаграждений и вместо этого использовать данные HOI для определения и изучения навыков.
Программная интерпретация SkillMimic позволяет обучаться различным баскетбольным навыкам: бросок, подбор, бросок с разворота.
После приобретения этих навыков их можно комбинировать для выполнения сложных задач: непрерывный набор очков, дриблинг в сторону корзины, тайминг дриблинга и броска, поиск отскока и повторение всего процесса.
⚠️ Предобученные модели находятся в репозитории в директории /data/models/
# Create venv
conda create -n skillmimic python=3.8
conda activate skillmimic
pip install -r requirements.txt
# Install the Issac Gym
tar -xzvf /{your_source_dir}/IsaacGym_Preview_4_Package.tar.gz -C /{your_target_dir}/
cd /{your_target_dir}/isaacgym/python/
pip install -e .
python skillmimic/run.py --test --task SkillMimicBallPlay --num_envs 16 \
--cfg_env skillmimic/data/cfg/skillmimic.yaml \
--motion_file skillmimic/data/motions/BallPlay-M/layup \
--checkpoint skillmimic/data/models/mixedskills/nn/skillmimic_llc.pth
# Transform the images into a video
python skillmimic/utils/make_video.py --image_path skillmimic/data/images/test_images --fps 60
📌Лицензирование : Apache 2.0 License.
▪Страница проекта
▪Набор моделей
▪Arxiv
▪Demo Video
▪Github [ Stars: 38 | Issues: 0 | Forks: 1]
@ai_machinelearning_big_data
#AI #SkillMimic #ML #HOI
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥20👍12❤6
Новостной дайджест
✔️ Atlassian приобретает компанию Rewatch для интеграции с Loom
Компания Atlassian объявила о приобретении компании Rewatch, разработчика AI-инструментов для записи и анализа встреч. Rewatch будет интегрирован с платформой Loom, которую Atlassian приобрела в прошлом году за 975 миллионов долларов. Интеграция позволит автоматически создавать заметки и задачи на основе записей встреч и сделать их доступными для поиска в рамках бизнес-контекста.
В будущем, Loom сможет присоединяться к встречам в Zoom, Google Meet и Microsoft Teams, создавать полные транскрипты, заметки и задачи, которые можно автоматически связать с страницами Confluence, задачами Jira и тикетами службы поддержки.
techcrunch.com
✔️ OpenAI и Anthropic поделятся своими моделями с правительством США.
Компании OpenAI и Anthropic подписали соглашения с правительством США о сотрудничестве в области исследований, тестирования и оценки их моделей ИИ. Соглашения, заключенные с Институтом безопасности искусственного интеллекта США, предусматривают доступ института к новым моделям ИИ компаний до и после их публичного выпуска.
reuters.com
✔️ Magic представила новую модель со 100M контекстным окном и бенчмарк HashHop.
Компания Magic представила новую модель, способную обучаться на контексте длиной до 100 миллионов токенов. Эта модель, названная LTM (Long-Term Memory), позволяет обучаться на большом объеме данных и хранить информацию в долгосрочной памяти.
По словам разработчиков, модель имеет большой потенциал для применения в разработке ПО. Например, она может быть использована для синтеза кода, если модель имеет доступ ко всем массивам проекта, документации и библиотекам в контексте, включая те, которые не доступны в публичном интернете.
Также Magic представила новую методику оценки контекстных окон, HashHop. Этот бенчмарк оценивает способность модели хранить и извлекать информацию из контекста без использования явных семантических подсказок.
magic.dev
✔️ Stable Diffusion v1.5 был удален с Huggingface и Github.
Runway без предупреждения пользователей удалила содержимое своего репозитория с Huggingface и репозиторий, содержащий SD 1.5 c Github. Никаких публичных заывлений от компании на сегодняшний день не поступало.
Ранее компания Runway была участником исследований Stable Diffusion и занимала значимую позицию в соответствующих разработках. Однако публикация открытого кода Stable Diffusion 1.5 на Hugging Face вызвала споры из-за проблем с авторскими правами, что, по мнению представителей сообщества и привело к "тихому" удалению.
aibase.com
✔️ Jina AI представила "Late Chunking" - простой подход к внедрению коротких чанков за счет использования возможностей эмбеддинг-моделей с длинным контекстом.
Представленный метод позволяет создавать более эффективные и контекстно-зависимые векторные представления текста, тем самым улучшить результаты поиска и извлечения информации. "Late Chunking" сначала применяет слой трансформера ко всему тексту, а затем разделяет его на чанки и применяет эмбеддинг к каждому фрагменту, что позволяет сохранить контекстную информацию и улучшить результаты поиска.
Эксперименты на наборе данных BEIR, показали, что "Late Chunking" улучшает результаты поиска и извлечения информации по сравнению с традиционным подходом. Особенно заметное улучшение наблюдается при работе с длинными документами.
jina.ai
@ai_machinelearning_big_data
#news #ai #ml
Компания Atlassian объявила о приобретении компании Rewatch, разработчика AI-инструментов для записи и анализа встреч. Rewatch будет интегрирован с платформой Loom, которую Atlassian приобрела в прошлом году за 975 миллионов долларов. Интеграция позволит автоматически создавать заметки и задачи на основе записей встреч и сделать их доступными для поиска в рамках бизнес-контекста.
В будущем, Loom сможет присоединяться к встречам в Zoom, Google Meet и Microsoft Teams, создавать полные транскрипты, заметки и задачи, которые можно автоматически связать с страницами Confluence, задачами Jira и тикетами службы поддержки.
techcrunch.com
Компании OpenAI и Anthropic подписали соглашения с правительством США о сотрудничестве в области исследований, тестирования и оценки их моделей ИИ. Соглашения, заключенные с Институтом безопасности искусственного интеллекта США, предусматривают доступ института к новым моделям ИИ компаний до и после их публичного выпуска.
reuters.com
Компания Magic представила новую модель, способную обучаться на контексте длиной до 100 миллионов токенов. Эта модель, названная LTM (Long-Term Memory), позволяет обучаться на большом объеме данных и хранить информацию в долгосрочной памяти.
По словам разработчиков, модель имеет большой потенциал для применения в разработке ПО. Например, она может быть использована для синтеза кода, если модель имеет доступ ко всем массивам проекта, документации и библиотекам в контексте, включая те, которые не доступны в публичном интернете.
Также Magic представила новую методику оценки контекстных окон, HashHop. Этот бенчмарк оценивает способность модели хранить и извлекать информацию из контекста без использования явных семантических подсказок.
magic.dev
Runway без предупреждения пользователей удалила содержимое своего репозитория с Huggingface и репозиторий, содержащий SD 1.5 c Github. Никаких публичных заывлений от компании на сегодняшний день не поступало.
Ранее компания Runway была участником исследований Stable Diffusion и занимала значимую позицию в соответствующих разработках. Однако публикация открытого кода Stable Diffusion 1.5 на Hugging Face вызвала споры из-за проблем с авторскими правами, что, по мнению представителей сообщества и привело к "тихому" удалению.
aibase.com
Представленный метод позволяет создавать более эффективные и контекстно-зависимые векторные представления текста, тем самым улучшить результаты поиска и извлечения информации. "Late Chunking" сначала применяет слой трансформера ко всему тексту, а затем разделяет его на чанки и применяет эмбеддинг к каждому фрагменту, что позволяет сохранить контекстную информацию и улучшить результаты поиска.
Эксперименты на наборе данных BEIR, показали, что "Late Chunking" улучшает результаты поиска и извлечения информации по сравнению с традиционным подходом. Особенно заметное улучшение наблюдается при работе с длинными документами.
jina.ai
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍21❤8🔥6🤔3🥰1
Развитие базовых языковых и иснтруктивных моделей , таких как GPT и Claude, дал возможность создания агентов общего назначения, способных к гибкому рассуждению и планированию. Но разработка этих агентов часто требует ручной настройки и значительных усилий со стороны инженеров и ресерчеров.
Для упрощения процесса проектирования агентов появилось новое направление исследований — автоматизированное проектирование агентных систем (Automated Design of Agentic Systems, ADAS).
Главное назначение методологии ADAS - автоматизация создания новых агентных блоков и их объединение в сложные системы.
Используя возможности LLM и гибкость языков программирования, ADAS обещает более эффективный и действенный подход к созданию комплексных агентных систем.
Поисковый алгоритм с помощью мета-агента является ярким примером ADAS в действии. Он использует мета-агента, который по сути является LLM, для итеративного проектирования новых агентов на основе постоянно растущего архива результатов предыдущих поисков.
ADAS позволяет исследовать обширное пространство кода, теоретически позволяя обнаружить любую возможную агентную систему. Мета-агент должен исследовать интересные проекты: новые промпты, использование инструментов, потоки управления и их комбинации.
Благодаря обширным экспериментам в областях программирования, науки и математики, алгоритм демонстрирует способность изобретать агентов с новыми проектами, которые превосходят современных агентов, разработанных вручную.
Один из реализованных проектов ADAS в практической среде - использование алгоритма Meta Agent Search в связке с GPT:
# Create Conda venv:
conda create -n adas python=3.11
# Activate venv:
conda activate adas
#Install Dependencies:
pip install -r requirements.txt
# Set OpenAI API Key:
export OPENAI_API_KEY="YOUR KEY HERE"
Запуск Meta Agent Search на примере области поиска "arc":
# Navigate to _arc folder:
cd _arc
# Run Meta Agent Search
python search.py
@ai_machinelearning_big_data
#AI #LLM #Agents #ML #ChatGPT
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍32❤11🎉5🔥2👌1
NVIDIA опубликовала в своем репозитории NV-Embed-v2, универсальную embedding-модель, которая занимает первое место в бенчмарке Massive Text Embedding Benchmark (MTEB benchmark, по состоянию на 30 августа 2024 года) с 56 задачами, включающими поиск, повторное ранжирование, классификацию, кластеризацию и задачи семантического сходства текстов.
Embedding модели позволяют преобразовать текстовые данные в плотные векторные представления, которые используются для задач NLP.
На практике embedding модели используются для векторизации исходного текста, например корпоративной информации, которой нет в основной LLM, и использования его для построения RAG-систем
Отличия NV-Embed-v2 от NV-Embed-v1:
Характеристики модели:
⚠️ Важно!
torch=2.2.0, transformers=4.42.4, flash-attn=2.2.0, sentence-transformers=2.7.0
;import torch
import torch.nn.functional as F
from transformers import AutoTokenizer, AutoModel
# Each query needs to be accompanied by an corresponding instruction describing the task
task_name_to_instruct = {"example": "Given a question, retrieve passages that answer the question",}
query_prefix = "Instruct: "+task_name_to_instruct["example"]+"\nQuery: "
queries = [
'are judo throws allowed in wrestling?',
'how to become a radiology technician?'
]
# No instruction needed for retrieval passages
passage_prefix = ""
passages = [
"** LLM Answer about judo **",
"** LLM Answer about radiology **"
]
# load model with tokenizer
model = AutoModel.from_pretrained('nvidia/NV-Embed-v2', trust_remote_code=True)
# get the embeddings
max_length = 4096
query_embeddings = model.encode(queries, instruction=query_prefix, max_length=max_length)
passage_embeddings = model.encode(passages, instruction=passage_prefix, max_length=max_length)
# normalize embeddings
query_embeddings = F.normalize(query_embeddings, p=2, dim=1)
passage_embeddings = F.normalize(passage_embeddings, p=2, dim=1)
# get the embeddings with DataLoader
scores = (query_embeddings @ passage_embeddings.T) * 100
print(scores.tolist())
@ai_machinelearning_big_data
#AI #Embedding #ML #NVIDIA #LLM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍41🔥6❤5
Command-r (35B) и Command-r-plus(104B) редакции 08-2024 - это мультиязычные (23 языка, включая русский) модели с контекстным окном 128К и навыками в генерации текста, переписывании и объяснении программного кода и, особенно, для использования в RAG-конфигурациях.
Разработчиками было уделено отдельное внимание обучению генерации ответов по фрагментам документов с цитированием источника, точному обобщению документов и возможности применения в качестве последнего узла RAG-системы.
Command-r-08-2024 : повышена производительность при многоязычной генерации с расширенным поиском (RAG), лучше справляется с математикой, кодом и рассуждениями.
Она конкурирует по показателям с предыдущей версией Command R+ и показывает на 50 % большую пропускную способность и на 20 % меньшую задержку по сравнению с предыдущей версией Command-r
Сommand-r-plus-08-2024 обеспечивает примерно на 50 % большую пропускную способность и на 25 % меньшую задержку по сравнению с предыдущей версией Command-p-plus на идентичной аппаратной платформе.
Обе модели доступны для скачивания на Huggingface, онлайн через API в Cohere’s hosted API и в Amazon Sagemaker.
@ai_machinelearning_big_data
#AI #CommandR #Cohere #LLM
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍18🔥11❤7