Llama 3.1-Nemotron-51B-Instruct основана на Llama 3.1-70B и предназначена для NLP-задач генерации текста, чата, рассуждения и обобщения. Мультиязычность наследована от родительская модель. Llama 3.1-Nemotron-51B-Instruct также умеет обрабатывать языки программирования.
Архитектура модели построена с использованием методологии Neural Architecture Search (NAS) и блочной дистилляции.
NAS позволяет отобрать наиболее эффективные блоки трансформера для каждого слоя модели, а блочная дистилляция обеспечивает перенос знаний от исходной модели Llama 3.1-70B к более компактной Llama 3.1-Nemotron-51B-Instruct.
Полученная архитектура имеет нерегулярную структуру блоков с уменьшенным количеством операций внимания и полносвязных слоев, что существенно снижает вычислительную сложность и объем используемой памяти.
В процессе обучения модели использовались бенчмаркиMT-Bench и MMLU. Тестирование проводилось на задачах генерации текста, перевода и ответов на вопросы.
Результаты показали, что инференс Llama 3.1-Nemotron-51B-Instruct в 2.2 раза быстрее "родительской" модели (Llama 3.1-70B) при сохранении практически той же точности.
Благодаря сниженным требованиям к памяти, модель может обрабатывать в 4 раза большие объемы данных на одном GPU.
import torch
import transformers
model_id = "nvidia/Llama-3_1-Nemotron-51B-Instruct"
model_kwargs = {"torch_dtype": torch.bfloat16, "trust_remote_code": True, "device_map": "auto"}
tokenizer = transformers.AutoTokenizer.from_pretrained(model_id)
tokenizer.pad_token_id = tokenizer.eos_token_id
pipeline = transformers.pipeline(
"text-generation",
model=model_id,
tokenizer=tokenizer,
max_new_tokens=20,
**model_kwargs
)
print(pipeline([{"role": "user", "content": "Hey how are you?"}]))
@ai_machinelearning_big_data
#AI #ML #LLM #Nemotron
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍24❤7🔥4
Обучение LLM требует огромных вычислительных ресурсов. Поскольку размеры моделей исчисляются миллиардами параметров, специализированные методы распараллеливания необходимы для того, чтобы сделать обучение выполнимым.
В статье "Исследование параллельных стратегий с Jax" подробно рассматривается реализация некоторых стратегий масштабирования в Jax - фреймворке Python, предназначенном для высокопроизводительных численных вычислений с поддержкой ускорителей GPU и TPU.
Стратегии, описанные в туториале с примерами кода и иллюстрациями:
@ai_machinelearning_big_data
#AI #ML #LLM #JAX #Tutorial
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍13❤6🔥3🎉2🤝1
Только что были опубликованы набор моделей семейства Lllama 3.2.
Семейство Llama 3.2 разработано для решения мультимодальных задач: понимание документов с графиками и диаграммами, создание аннотаций к изображениям, локализация объектов на изображениях по текстовому описанию.
Список моделей релиза:
Малые модели (1B и 3B) созданы методом обрезки и дистилляции знаний на основе модели Llama-3.1-8B. Они оптимизированы для работы на мобильных устройствах и предназначены для обобщения текста, обработка инструкций и генерации текста.
Модели были дополнительно настроены для обработки контекста длиной до 128 тыс. токенов. Эти модели протестированы на оборудовании Qualcomm и MediaTek и оптимизированы для процессоров Arm.
Архитектура больших моделей (11B и 90B) основана на предобученных текстовых моделях Llama 3.1, дополненных адаптерами и энкодерами для обработки изображений.
Результаты тестирования показали, что vision-модели Llama 3.2 сопоставимы с Claude 3 Haiku и GPT4o-mini, в задачах распознавания изображений и визуального понимания.
Модель 3B превосходит модели Gemma 2 2.6B и Phi 3.5-mini в обработке инструкций, обобщения, генерации текста и использования инструментов.
Развертывание на устройствах осуществляется с помощью PyTorch ExecuTorch, а распространение на одном узле - с помощью Ollama. В родительском репозитории дополнительно опубликованы клиентские SDK на NodeJS, Python, Swift, Kotlin.
Все модели Llama 3.2 доступными для скачивания на llama.com и Hugging Face, а также на партнерских платформах : AMD, AWS, Databricks, Dell, Google Cloud, Groq, IBM, Intel, Microsoft Azure, NVIDIA, Oracle Cloud, Snowflake и др.
@ai_machinelearning_big_data
#AI #ML #LLM #Llama
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍29❤8🔥8❤🔥3🥰1
Stability AI объявила о том, что легендарный режиссер Джеймс Кэмерон вошел в совет директоров компании. Это следующий шаг в реализации миссии Stability AI по трансформации визуальных медиа после назначения Hanno Basse на позицию CTO в августе этого года .
"Опыт Кэмерона в сочетании с его деловыми и техническими скиллами поможет Stability AI продолжить открывать новые возможности, позволяющие создателям рассказывать истории такими способами, которые раньше были немыслимы" (с) .
stability.ai
Google выпускает две обновленные модели Gemini: Gemini-1.5-Pro-002 и Gemini-1.5-Flash-002. Разработчики могут бесплатно получить доступ к последним моделям через Google AI Studio и API Gemini. Для крупных организаций и клиентов Google Cloud модели также доступны на Vertex AI.
Обновления включают в себя снижение цены на 1.5 Pro на 50%, увеличение лимитов скорости в 2 раза для 1.5 Flash и примерно в 3 раза для 1.5 Pro, увеличение скорости вывода в 2 раза и снижение задержки в 3 раза, а также обновленные настройки фильтра по умолчанию.
1.5 Pro и Flash теперь стали лучше, быстрее и экономичнее. Google наблюдает увеличение примерно на 7% в MMLU-Pro. В бенчмарках MATH и HiddenMath обе модели добились значительного улучшения примерно на 20%.
developers.googleblog.com
Warner Bros. Discovery заключила партнерство с Google Cloud, чтобы использовать инструмент на основе ИИ для создания субтитров для своих контент-платформ.
Caption AI использует платформу Vertex AI от Google Cloud и будет развернут в первую очередь для несценарийных программ (спортивных и реалити-шоу), чтобы сократить время и производственные затраты на создание субтитров .
WBD добавил, что реальные люди по-прежнему будут следить за использованием Caption AI для обеспечения качества на студийных каналах Max, CNN и Discovery+.
hollywoodreporter.com
Серия Xeon 6900P обещает обеспечить примерно вдвое большую производительность на ватт по сравнению с предыдущим поколением. Согласно Intel, серия Xeon 6900P также значительно лучше справляется с рабочими нагрузками искусственного интеллекта. Чипы в линейке могут выполнять некоторые задачи логического вывода в 2,3 раза быстрее, чем их предшественники.
В процессорах Xeon 6900P используются только ядра, оптимизированные для повышения производительности. Флагманский процессор серии, Xeon 6980P, поставляется с кэшем L3 объемом 504 МБ и 128 ядрами, работающими на базовой частоте 2 ГГц. При выполнении ресурсоемких рабочих нагрузок они могут почти удваивать эту скорость до 3,9 ГГц в течение коротких периодов времени.
siliconangle.com
Исследователи из Корнельского университета и IBM Research представили AutoToS, новую методику, которая сочетает в себе возможности LLM по планированию со скоростью и точностью алгоритмов поиска на основе правил. AutoToS устраняет необходимость вмешательства человека и значительно снижает вычислительные затраты на решение задач планирования.
AutoToS работает в несколько этапов. Сначала он предоставляет LLM описание проблемы и предлагает сгенерировать код для функций-преемников и целевых функций. Затем он запускает модульные тесты целевой функции и предоставляет модели обратную связь в случае сбоя.
Далее модель использует эту обратную связь для исправления своего кода. После того как целевая функция проходит тесты, алгоритм запускает ограниченный поиск в ширину, чтобы проверить, являются ли функции надежными и полными. Этот процесс повторяется до тех пор, пока сгенерированные функции не пройдут все тесты. Наконец, проверенные функции подключаются к классическому алгоритму поиска для эффективного выполнения полного поиска.
venturebeat.com
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍20❤6🔥4🤔1
Свежий Бесплатный курс от freeCodeCamp по программированию CUDA.
Этот 12-ти часовой видео курс, с которым вы научитесь программировать с помощью Nvidia CUDA и использовать графические процессоры для высокопроизводительных вычислений и Deep learning.
Содержание:
▪Video: https://www.youtube.com/watch?v=86FAWCzIe_4
▪Code: https://github.com/Infatoshi/cuda-course
▪Github https://github.com/Infatoshi/mnist-cuda
▪Nvidia CUDA in 100 Seconds: https://youtu.be/pPStdjuYzSI?si=WIUc--IpgN-Qi2AP
#cuda #deeplearning #cpp #c #bigdata #courses #бесплатныйкурс
@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
👍42🔥23❤5🫡4👏2
Molmo (Multimodal Open Language Model) - это семейство VLM, разработанных в Институте искусственного интеллекта Аллена, для решения задач обработки изображений и текста - создание подробных описаний изображений и выполнение комплексных визуальных операций, например:
Обучение семейства выполнялось в 2 этапа: предварительное обучение на наборе данных PixMo-Cap для генерации аннотаций к изображениям и этап SFT с использованием комбинации академических наборов данных и наборов данных PixMo (PixMo-AskModelAnything, PixMo-Points, PixMo-CapQA, PixMo-Docs, PixMo-Clocks).
Тестирование модели проводилось на 11 бенчмарках: AI2D, ChartQA, VQA v2, DocVQA, InfographicVQA, TextVQA, RealWorldQA, MMMU, Math-Vista, CountBenchQA и Flickr Count.
Результаты показали, что Molmo, особенно модель Molmo-72B, демонстрирует производительность на уровне GPT-4o, превосходя Gemini 1.5 Pro, Flash и Claude 3.5 Sonnet.
⚠️ Модели Molmo могут испытывать трудности с прозрачными изображениями. В качестве решения, разработчики рекомендуют добавлять белый или темный фон к изображениям перед передачей их в модель, например, с помощью библиотеки PIL.
@ai_machinelearning_big_data
#AI #ML #Molmo #MoE #MMLM
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍30❤6🔥6
Show-Me — это проект, который использует LangChain для связи с gpt-4o-mini и визуализирует процесс рассуждений в виде динамического графического интерфейса.
Ключевая особенность Show-Me - алгоритм «Reasoning, Refinement, and Update» (RRU), который обрабатывает запросы.
Этот алгоритм работает следующим образом: сначала LLM оценивает сложность задачи и, если это необходимо, разбивает её на подзадачи. Затем она генерирует ответы для каждой подзадачи, а система автоматически проверяет их. Если ответ не проходит проверку, LLM уточняет его, основываясь на результатах.
Этот процесс продолжается до тех пор, пока ответ не будет соответствовать всем критериям. Наконец, результаты подзадач объединяются для получения окончательного ответа.
Весь процесс отображается в реальном времени с помощью динамического графика, что делает процесс рассуждений LLM понятным и наглядным.
Show-Me имеет модульную архитектуру, состоящую из frontend на основе React и backend на базе Flask. Frontend отвечает за взаимодействие с пользователем, визуализацию графика рассуждений и отправку запросов на backend.
Backend обрабатывает взаимодействие сgpt-4o-mini, выполняет алгоритм RRU, управляет разбиением задач, агрегирует ответы и отправляет обновления на frontend через SocketIO.
В будущем разработчики планируют расширить возможности Show-Me, добавив поддержку большего количества языков программирования, улучшив визуализацию и позволив пользователям выбирать различные LLM.
# Clone the Repository
git clone https://github.com/marlaman/show-me.git
# Backend Setup
cd backend
python3 -m venv .venv
source .venv/bin/activate
pip install -r requirements.txt
# Create a .env file and add your OpenAI API Key:
# OPENAI_API_KEY=[your key]
# Frontend Setup:
cd .. # poject root
npm install # or yarn install
# Run Backend
python app.py #or flask run
# Run Frontend
npm start # or yarn start
@ai_machinelearning_big_data
#AI #ML #LLM #Rasoning
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥40👍21❤7
Федеральная торговая комиссия (FTC) объявила о запуске операции «AI Comply» против компаний, использующих ажиотаж вокруг искусственного интеллекта для обмана потребителей. Уже возбуждено пять дел.
FTC отмечает участившиеся случаи использования ИИ для мошенничества. Компании, против которых возбуждены дела: Do Not Pay, обещавшая услуги «робота-юриста», Ascend Ecom, предлагавшая создать онлайн-магазины с помощью ИИ для пассивного дохода, Ecommerce Empire Builders, продававшая тренинги и готовые интернет-магазины для получения прибыли, и Rytr, предлагавшая сервис для написания отзывов на основе ИИ.
Комиссия продолжит пресекать подобные случаи мошенничества.
ftc.gov
Амстердамская группа Nebius, которая возникла после разделения активов российского технологического гиганта «Яндекс», планирует инвестировать более 1 млрд. долларов в инфраструктуру ИИ в Европе к середине 2025 года.
Компания планирует расширить собственные мощности GPU, построив новый кластер в Париже и расширить существующий центр обработки данных в Финляндии. Инвестиции позволят Nebius достичь общей мощности в десятки тысяч GPU.
kfgo.com
Компания SoundExchange, занимающаяся сбором и распределением гонораров за использование музыки, объявила о разработке глобального реестра звукозаписей, предназначенного для использования в сфере ИИ. Ожидается, что реестр будет запущен в первом квартале 2025 года и станет развитием уже существующих систем SoundExchange.
Этот реестр позволит создателям музыки и правообладателям указать, хотят ли они, чтобы их произведения использовались для обучения алгоритмов ИИ. База данных позволит компаниям, создающим модели ИИ, проверять наличие разрешений перед использованием записей для обучения своих алгоритмов.
SoundExchange видит в этом реестре возможность упростить музыкальную индустрию, защитить ценность музыки и предоставить создателям больший контроль над использованием их произведений в сфере ИИ. Несмотря на то, что реестр будет добровольным инструментом, правообладатели сохранят за собой все юридические права на свои записи, независимо от их присутствия в базе данных.
thatericalper.com
Brave представил новую функцию в версии браузера 1.69 и выше, которая позволяет пользователям использовать локальные LLM вместо облачных решений. Эта функция, получившая название «Bring Your Own Model» (BYOM), призвана обеспечить большую конфиденциальность, поскольку данные пользователей не покидают устройство.
Для использования локальных моделей пользователям потребуется Ollama. В настройках Brave Leo пользователи могут добавить свою модель, указав ее имя, эндпоинт сервера и, при необходимости, ключ API. Для локальных моделей ключ API не требуется. После добавления модели ее можно выбрать в качестве основной.
itsfoss.com
Теперь NotebookLM позволяет создавать краткие обзоры видео с YouTube и аудиофайлов. Новые функции помогают обобщать ключевые моменты видео и аудиозаписей генерировать из них подкасты и делиться ими по прямой ссылке.
Например, полная версия этой новости в формате подкаста на английском языке.
NotebookLM, изначально использовавшийся преподавателями и учащимися, привлекает все больше бизнес-пользователей. Райза Мартин, старший менеджер по продуктам ИИ в Google Labs, отметила, что теперь 50% пользователей - преподаватели и учащиеся, а 50% - бизнес-профессионалы.
techcrunch.com
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍31❤8🔥5
NVIDIA представила набор патчей для ядра Linux с технологией vGPU для использования виртуальных графических процессоров в системах виртуализации. vGPU разделяет ресурсы физического графического процессора NVIDIA, привязывая каждый виртуальный GPU к виртуальной функции PCI Express.
Драйвер vGPU работает с видеокартами NVIDIA на архитектуре Ada Lovelace, создавая от одного до нескольких виртуальных GPU в зависимости от модели карты. В хост-системе создание и сопряжение виртуальных GPU с гостевыми системами выполняются изменённым драйвером Nouveau. В гостевых системах используются штатные драйверы NVIDIA, как для обычного графического процессора.
Каждый vGPU получает часть памяти из фреймбуфера физического GPU, различаясь типами, назначением, размером видеопамяти, количеством дисплеев и максимальным разрешением экрана.
Реализация технологии vGPU включает базовый драйвер nvkm на основе Nouveau и менеджер vgpu_mgr, реализованный как модуль VFIO. Менеджер создает и удаляет виртуальные GPU, выбирает тип, управляет ресурсами и предоставляет API для управления. Он взаимодействует с базовым драйвером GPU для загрузки прошивки GSP, управления ресурсами, обработки исключений, конфигурации и системных событий.
Также в Mesa Vulkan-драйвер добавлен gfxstream (Graphics Streaming Kit) для доступа к API Vulkan из гостевых систем Linux, Android и Fuchsia. Драйвер, разработанный Google, перенаправляет обращения к графическим API при виртуализации API Vulkan. Он используется в эмуляторе Android, виртуальном устройстве Cuttlefish, сервисе Google Play Games и операционной системе Fuchsia. Gfxstream включен в QEMU и crosvm и поддерживается совместно с устройствами virtio-gpu и goldish.
@ai_machinelearning_big_data
#AI #ML #vGPU #Linux #NVIDIA
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤19👍12🔥8🥰3🐳2