300K subscribers
3.99K photos
701 videos
17 files
4.57K links
Погружаемся в машинное обучение и Data Science

Показываем как запускать любые LLm на пальцах.

По всем вопросам - @haarrp

@itchannels_telegram -🔥best channels

Реестр РКН: clck.ru/3Fmqri
Download Telegram
⚡️ Llama 3.1-Nemotron-51B-Instruct: модель от NVIDIA по методу Neural Architecture Search.

Llama 3.1-Nemotron-51B-Instruct основана на Llama 3.1-70B и предназначена для NLP-задач генерации текста, чата, рассуждения и обобщения. Мультиязычность наследована от родительская модель. Llama 3.1-Nemotron-51B-Instruct также умеет обрабатывать языки программирования.

Архитектура модели построена с использованием методологии Neural Architecture Search (NAS) и блочной дистилляции.

NAS позволяет отобрать наиболее эффективные блоки трансформера для каждого слоя модели, а блочная дистилляция обеспечивает перенос знаний от исходной модели Llama 3.1-70B к более компактной Llama 3.1-Nemotron-51B-Instruct.

Полученная архитектура имеет нерегулярную структуру блоков с уменьшенным количеством операций внимания и полносвязных слоев, что существенно снижает вычислительную сложность и объем используемой памяти.

В процессе обучения модели использовались бенчмаркиMT-Bench и MMLU. Тестирование проводилось на задачах генерации текста, перевода и ответов на вопросы.

Результаты показали, что инференс Llama 3.1-Nemotron-51B-Instruct в 2.2 раза быстрее "родительской" модели (Llama 3.1-70B) при сохранении практически той же точности.

Благодаря сниженным требованиям к памяти, модель может обрабатывать в 4 раза большие объемы данных на одном GPU.


▶️Рекомендованные аппаратные конфигурации:

🟠FP8 - H100-80GB (версии FP8 пока нет в открытом доступе);

🟢BF16 - 2x H100-80GB GPU или 2x A100-80GB GPU.

▶️Пример инференса на Transformers (версия 4.44.2 или выше):

import torch
import transformers

model_id = "nvidia/Llama-3_1-Nemotron-51B-Instruct"
model_kwargs = {"torch_dtype": torch.bfloat16, "trust_remote_code": True, "device_map": "auto"}
tokenizer = transformers.AutoTokenizer.from_pretrained(model_id)
tokenizer.pad_token_id = tokenizer.eos_token_id

pipeline = transformers.pipeline(
"text-generation",
model=model_id,
tokenizer=tokenizer,
max_new_tokens=20,
**model_kwargs
)
print(pipeline([{"role": "user", "content": "Hey how are you?"}]))


📌Лицензирование : NVIDIA AI Foundation Models Community License.


🟡Страница проекта
🟡Модель
🟡Demo


@ai_machinelearning_big_data

#AI #ML #LLM #Nemotron
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍247🔥4
🌟 Параллельные стратегии с Jax: обучающий туториал.

Обучение LLM требует огромных вычислительных ресурсов. Поскольку размеры моделей исчисляются миллиардами параметров, специализированные методы распараллеливания необходимы для того, чтобы сделать обучение выполнимым.

В статье "Исследование параллельных стратегий с Jax" подробно рассматривается реализация некоторых стратегий масштабирования в Jax - фреймворке Python, предназначенном для высокопроизводительных численных вычислений с поддержкой ускорителей GPU и TPU.

Стратегии, описанные в туториале с примерами кода и иллюстрациями:

🟢Data Parallelism - распределение данных между несколькими устройствами, которые одновременно обучают модель;  

🟢Tensor Parallelism - распределение весов модели между устройствами, позволяет каждому устройству обрабатывать свою часть тензора параллельно; 

🟢Pipeline Parallelism разделяет модель на этапы, которые выполняются последовательно на разных устройствах; 

🟢Mixture-of-Experts использует множество специализированных экспертов для обработки различных частей входных данных, что позволяет масштабировать модель до огромных размеров.


▶️ Автор статьи - Александр Самарин, Lead ML Engineer в Huawei c 5-ти летнем опытом в глубоком обучении.


@ai_machinelearning_big_data

#AI #ML #LLM #JAX #Tutorial
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍136🔥3🎉2🤝1
⚡️ Llama 3.2 : релиз VLM, SLM моделей и дистрибутива Llama Stack.

Только что были опубликованы набор моделей семейства Lllama 3.2.

Семейство Llama 3.2 разработано для решения мультимодальных задач: понимание документов с графиками и диаграммами, создание аннотаций к изображениям, локализация объектов на изображениях по текстовому описанию.

Список моделей релиза:

🟢Llama-3.2-90B-Vision и версия Instruct;

🟢Llama-3.2-11B-Vision и версии Instruct и Guard-3;

🟢Llama-3.2-3B и версия Instruct;

🟢Llama-3.2-1B и версии - Instruct, INT4 и Guard-3.

Малые модели (1B и 3B) созданы методом обрезки и дистилляции знаний на основе модели Llama-3.1-8B. Они оптимизированы для работы на мобильных устройствах и предназначены для обобщения текста, обработка инструкций и генерации текста.

Модели были дополнительно настроены для обработки контекста длиной до 128 тыс. токенов. Эти модели протестированы на оборудовании Qualcomm и MediaTek и оптимизированы для процессоров Arm.

Архитектура больших моделей (11B и 90B) основана на предобученных текстовых моделях Llama 3.1, дополненных адаптерами и энкодерами для обработки изображений.

Результаты тестирования показали, что vision-модели Llama 3.2 сопоставимы с Claude 3 Haiku и GPT4o-mini, в задачах распознавания изображений и визуального понимания.

Модель 3B превосходит модели Gemma 2 2.6B и Phi 3.5-mini в обработке инструкций, обобщения, генерации текста и использования инструментов.

▶️ Llama Stack - дистрибутив, который значительно упростит усилия разработчиков с моделями Llama в различных средах: одноузловые, локальные, облачные и на носимых устройствах, позволяя развертывать "под ключ" RAG и приложения с поддержкой инструментов с интегрированной системой безопасности.

Развертывание на устройствах осуществляется с помощью PyTorch ExecuTorch, а распространение на одном узле - с помощью Ollama. В родительском репозитории дополнительно опубликованы клиентские SDK на NodeJS, Python, Swift, Kotlin.

Все модели Llama 3.2 доступными для скачивания на llama.com и Hugging Face, а также на партнерских платформах : AMD, AWS, Databricks, Dell, Google Cloud, Groq, IBM, Intel, Microsoft Azure, NVIDIA, Oracle Cloud, Snowflake и др.


📌Лицензирование :

🟢Код Llama Stack: MIT License.

🟠Модели : Lama3.2


🟡Страница проекта
🟡Коллекция моделей на HF
🟡Demo Llama-1B
🟡Demo Llama-3B
🖥GitHub Llama-Stack


@ai_machinelearning_big_data

#AI #ML #LLM #Llama
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍298🔥8❤‍🔥3🥰1
✔️ Джеймс Кэмерон присоединился к совету директоров Stability AI.

Stability AI объявила о том, что легендарный режиссер Джеймс Кэмерон вошел в совет директоров компании. Это следующий шаг в реализации миссии Stability AI по трансформации визуальных медиа после назначения Hanno Basse на позицию CTO в августе этого года .

"Опыт Кэмерона в сочетании с его деловыми и техническими скиллами поможет Stability AI продолжить открывать новые возможности, позволяющие создателям рассказывать истории такими способами, которые раньше были немыслимы" (с) .
stability.ai

✔️ Google снизила цены на Gemini и представила обновление моделей.

Google выпускает две обновленные модели Gemini: Gemini-1.5-Pro-002 и Gemini-1.5-Flash-002. Разработчики могут бесплатно получить доступ к последним моделям через Google AI Studio и API Gemini. Для крупных организаций и клиентов Google Cloud модели также доступны на Vertex AI.

Обновления включают в себя снижение цены на 1.5 Pro на 50%, увеличение лимитов скорости в 2 раза для 1.5 Flash и примерно в 3 раза для 1.5 Pro, увеличение скорости вывода в 2 раза и снижение задержки в 3 раза, а также обновленные настройки фильтра по умолчанию.

1.5 Pro и Flash теперь стали лучше, быстрее и экономичнее. Google наблюдает увеличение примерно на 7% в MMLU-Pro. В бенчмарках MATH и HiddenMath обе модели добились значительного улучшения примерно на 20%.
developers.googleblog.com

✔️ Warner Bros. Discovery будет использовать ИИ Google для субтитров.

Warner Bros. Discovery заключила партнерство с Google Cloud, чтобы использовать инструмент на основе ИИ для создания субтитров для своих контент-платформ.

Caption AI использует платформу Vertex AI от Google Cloud и будет развернут в первую очередь для несценарийных программ (спортивных и реалити-шоу), чтобы сократить время и производственные затраты на создание субтитров .

WBD добавил, что реальные люди по-прежнему будут следить за использованием Caption AI для обеспечения качества на студийных каналах Max, CNN и Discovery+.
hollywoodreporter.com

✔️ Intel представила новые серверные процессоры Xeon 6900P.

Серия Xeon 6900P обещает обеспечить примерно вдвое большую производительность на ватт по сравнению с предыдущим поколением. Согласно Intel, серия Xeon 6900P также значительно лучше справляется с рабочими нагрузками искусственного интеллекта. Чипы в линейке могут выполнять некоторые задачи логического вывода в 2,3 раза быстрее, чем их предшественники.

В процессорах Xeon 6900P используются только ядра, оптимизированные для повышения производительности. Флагманский процессор серии, Xeon 6980P, поставляется с кэшем L3 объемом 504 МБ и 128 ядрами, работающими на базовой частоте 2 ГГц. При выполнении ресурсоемких рабочих нагрузок они могут почти удваивать эту скорость до 3,9 ГГц в течение коротких периодов времени.
siliconangle.com

✔️AutoToS cделает планирование LLM быстрым, точным и недорогим.

Исследователи из Корнельского университета и IBM Research представили AutoToS, новую методику, которая сочетает в себе возможности LLM по планированию со скоростью и точностью алгоритмов поиска на основе правил. AutoToS устраняет необходимость вмешательства человека и значительно снижает вычислительные затраты на решение задач планирования.

AutoToS работает в несколько этапов. Сначала он предоставляет LLM описание проблемы и предлагает сгенерировать код для функций-преемников и целевых функций. Затем он запускает модульные тесты целевой функции и предоставляет модели обратную связь в случае сбоя.

Далее модель использует эту обратную связь для исправления своего кода. После того как целевая функция проходит тесты, алгоритм запускает ограниченный поиск в ширину, чтобы проверить, являются ли функции надежными и полными. Этот процесс повторяется до тех пор, пока сгенерированные функции не пройдут все тесты. Наконец, проверенные функции подключаются к классическому алгоритму поиска для эффективного выполнения полного поиска.
venturebeat.com

@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍206🔥4🤔1
🖥 CUDA Programming Course – High-Performance Computing with GPUs

Свежий Бесплатный курс от freeCodeCamp по программированию CUDA.
Этот 12-ти часовой видео курс, с которым вы научитесь программировать с помощью Nvidia CUDA и использовать графические процессоры для высокопроизводительных вычислений и Deep learning.

Содержание:
🔜 (0:00:00) Вступление
🔜 (0:16:52) Глава 1 (Экосистема глубокого обучения)
🔜 (0:37:43) Глава 2 (Настройка CUDA)
🔜 (0:47:03) Глава 3 (Обзор C/C++)
🔜(1:35:47) Глава 4 (Введение в графические процессоры)
🔜 (1:51:40) Глава 5 (Написание ваших первых ядер)
🔜 (3:55:26) Глава 6 (CUDA API)
🔜 (5:35:22) Глава 7 (Быстрое умножение матриц)
🔜 (8:22:36) Глава 8 (Triton)
🔜 (9:04:43) Глава 9 (Расширения PyTorch)
🔜 (9:18:10) Глава 10 (Многослойный персептрон MNIST)
🔜 (11:41:13) Глава 11 (Что изучать дальше?)
🔜 (11:54:38) Заключение

Video: https://www.youtube.com/watch?v=86FAWCzIe_4
Code: https://github.com/Infatoshi/cuda-course
Github https://github.com/Infatoshi/mnist-cuda
Nvidia CUDA in 100 Seconds: https://youtu.be/pPStdjuYzSI?si=WIUc--IpgN-Qi2AP

#cuda #deeplearning #cpp #c #bigdata #courses #бесплатныйкурс

@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
👍42🔥235🫡4👏2
⚡️ Molmo: семейство state-of-art MMLM.

Molmo (Multimodal Open Language Model) - это семейство VLM, разработанных в Институте искусственного интеллекта Аллена, для решения задач обработки изображений и текста - создание подробных описаний изображений и выполнение комплексных визуальных операций, например:

🟢ответы на вопросы;
🟢обнаружение и сегментация по текстовому запросу;
🟢подсчет объектов или элементов;
🟢использование в сфере робототехники для изображений или видео;
🟢расширение возможностей VR.

▶️Molmo 72B - флагманская модель на базе Qwen2-72B в роли LLM и ViT-L/14 336px CLIP в роли visial-энкодера. Molmo-72B достигает наивысшего балла в бенчмарках и занимает второе место по человеческой оценке, лишь немного уступая GPT-4o.

▶️Molmo 7B-D и Molmo 7B-O - более утилитарные модели с разницей в исходных LLM (Qwen2-7B и OLMo-7B-1124 соответственно) и все тем же ViT-L/14 336px в качестве энкодера.

▶️ MolmoE 1B - компактная модель на архитектуре Mixture-of-Experts, основанная на OLMoE-1B-7B с 1.5B активных и 7.2B общих параметров, с производительностью, сравнимой с GPT-4V.

Обучение семейства выполнялось в 2 этапа: предварительное обучение на наборе данных PixMo-Cap для генерации аннотаций к изображениям и этап SFT с использованием комбинации академических наборов данных и наборов данных PixMo (PixMo-AskModelAnything, PixMo-Points, PixMo-CapQA, PixMo-Docs, PixMo-Clocks).

Тестирование модели проводилось на 11 бенчмарках: AI2D, ChartQA, VQA v2, DocVQA, InfographicVQA, TextVQA, RealWorldQA, MMMU, Math-Vista, CountBenchQA и Flickr Count.

Результаты показали, что Molmo, особенно модель Molmo-72B, демонстрирует производительность на уровне GPT-4o, превосходя Gemini 1.5 Pro, Flash и Claude 3.5 Sonnet.

⚠️ Модели Molmo могут испытывать трудности с прозрачными изображениями. В качестве решения, разработчики рекомендуют добавлять белый или темный фон к изображениям перед передачей их в модель, например, с помощью библиотеки PIL.


📌Лицензирование : Apache 2.0


🟡Страница проекта
🟡Коллекция моделей на HF
🟡Arxiv
🟡Demo


@ai_machinelearning_big_data

#AI #ML #Molmo #MoE #MMLM
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍306🔥6
🌟 Show-me: альтернатива ChatGPT-O1 на Сhat-Gpt-4o-mini.

Show-Me — это проект, который использует LangChain для связи с gpt-4o-mini и визуализирует процесс рассуждений в виде динамического графического интерфейса.

Ключевая особенность Show-Me - алгоритм «Reasoning, Refinement, and Update» (RRU), который обрабатывает запросы.

Этот алгоритм работает следующим образом: сначала LLM оценивает сложность задачи и, если это необходимо, разбивает её на подзадачи. Затем она генерирует ответы для каждой подзадачи, а система автоматически проверяет их. Если ответ не проходит проверку, LLM уточняет его, основываясь на результатах.

Этот процесс продолжается до тех пор, пока ответ не будет соответствовать всем критериям. Наконец, результаты подзадач объединяются для получения окончательного ответа.

Весь процесс отображается в реальном времени с помощью динамического графика, что делает процесс рассуждений LLM понятным и наглядным.

Show-Me имеет модульную архитектуру, состоящую из frontend на основе React и backend на базе Flask. Frontend отвечает за взаимодействие с пользователем, визуализацию графика рассуждений и отправку запросов на backend.

Backend обрабатывает взаимодействие сgpt-4o-mini, выполняет алгоритм RRU, управляет разбиением задач, агрегирует ответы и отправляет обновления на frontend через SocketIO.

В будущем разработчики планируют расширить возможности Show-Me, добавив поддержку большего количества языков программирования, улучшив визуализацию и позволив пользователям выбирать различные LLM.

▶️Установка и запуск:

# Clone the Repository
git clone https://github.com/marlaman/show-me.git

# Backend Setup
cd backend
python3 -m venv .venv
source .venv/bin/activate
pip install -r requirements.txt

# Create a .env file and add your OpenAI API Key: 
# OPENAI_API_KEY=[your key]

# Frontend Setup:
cd .. # poject root
npm install # or yarn install

# Run Backend
python app.py #or flask run

# Run Frontend
npm start # or yarn start



🖥GitHub


@ai_machinelearning_big_data

#AI #ML #LLM #Rasoning
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥40👍217
✔️ FTC объявила о правоприменительных мерах против нескольких компаний за обман и недобросовестное использование ИИ.

Федеральная торговая комиссия (FTC) объявила о запуске операции «AI Comply» против компаний, использующих ажиотаж вокруг искусственного интеллекта для обмана потребителей. Уже возбуждено пять дел.

FTC отмечает участившиеся случаи использования ИИ для мошенничества. Компании, против которых возбуждены дела: Do Not Pay, обещавшая услуги «робота-юриста», Ascend Ecom, предлагавшая создать онлайн-магазины с помощью ИИ для пассивного дохода, Ecommerce Empire Builders, продававшая тренинги и готовые интернет-магазины для получения прибыли, и Rytr, предлагавшая сервис для написания отзывов на основе ИИ.

Комиссия продолжит пресекать подобные случаи мошенничества.
ftc.gov

✔️ Nebius, отделившись от Яндекса, планирует инвестировать в инфраструктуру ИИ 1 млрд. долларов.

Амстердамская группа Nebius, которая возникла после разделения активов российского технологического гиганта «Яндекс», планирует инвестировать более 1 млрд. долларов в инфраструктуру ИИ в Европе к середине 2025 года.

Компания планирует расширить собственные мощности GPU, построив новый кластер в Париже и расширить существующий центр обработки данных в Финляндии. Инвестиции позволят Nebius достичь общей мощности в десятки тысяч GPU.
kfgo.com

✔️ SoundExchange разрабатывает глобальный реестр звукозаписей для ИИ.

Компания SoundExchange, занимающаяся сбором и распределением гонораров за использование музыки, объявила о разработке глобального реестра звукозаписей, предназначенного для использования в сфере ИИ. Ожидается, что реестр будет запущен в первом квартале 2025 года и станет развитием уже существующих систем SoundExchange.

Этот реестр позволит создателям музыки и правообладателям указать, хотят ли они, чтобы их произведения использовались для обучения алгоритмов ИИ. База данных позволит компаниям, создающим модели ИИ, проверять наличие разрешений перед использованием записей для обучения своих алгоритмов.

SoundExchange видит в этом реестре возможность упростить музыкальную индустрию, защитить ценность музыки и предоставить создателям больший контроль над использованием их произведений в сфере ИИ. Несмотря на то, что реестр будет добровольным инструментом, правообладатели сохранят за собой все юридические права на свои записи, независимо от их присутствия в базе данных.
thatericalper.com

✔️ Браузер Brave добавил возможность использовать локальные LLM.

Brave представил новую функцию в версии браузера 1.69 и выше, которая позволяет пользователям использовать локальные LLM вместо облачных решений. Эта функция, получившая название «Bring Your Own Model» (BYOM), призвана обеспечить большую конфиденциальность, поскольку данные пользователей не покидают устройство.

Для использования локальных моделей пользователям потребуется Ollama. В настройках Brave Leo пользователи могут добавить свою модель, указав ее имя, эндпоинт сервера и, при необходимости, ключ API. Для локальных моделей ключ API не требуется. После добавления модели ее можно выбрать в качестве основной.
itsfoss.com

✔️ Google расширила возможности NotebookLM, добавив поддержку YouTube и аудиофайлов.

Теперь NotebookLM позволяет создавать краткие обзоры видео с YouTube и аудиофайлов. Новые функции помогают обобщать ключевые моменты видео и аудиозаписей генерировать из них подкасты и делиться ими по прямой ссылке.

Например, полная версия этой новости в формате подкаста на английском языке.

NotebookLM, изначально использовавшийся преподавателями и учащимися, привлекает все больше бизнес-пользователей. Райза Мартин, старший менеджер по продуктам ИИ в Google Labs, отметила, что теперь 50% пользователей - преподаватели и учащиеся, а 50% - бизнес-профессионалы.
techcrunch.com

@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍318🔥5
🌟 vGPU NVIDIA на базе драйвера Nouveau для Linux.

NVIDIA представила набор патчей для ядра Linux с технологией vGPU для использования виртуальных графических процессоров в системах виртуализации. vGPU разделяет ресурсы физического графического процессора NVIDIA, привязывая каждый виртуальный GPU к виртуальной функции PCI Express.

Драйвер vGPU работает с видеокартами NVIDIA на архитектуре Ada Lovelace, создавая от одного до нескольких виртуальных GPU в зависимости от модели карты. В хост-системе создание и сопряжение виртуальных GPU с гостевыми системами выполняются изменённым драйвером Nouveau. В гостевых системах используются штатные драйверы NVIDIA, как для обычного графического процессора.

Каждый vGPU получает часть памяти из фреймбуфера физического GPU, различаясь типами, назначением, размером видеопамяти, количеством дисплеев и максимальным разрешением экрана.

Реализация технологии vGPU включает базовый драйвер nvkm на основе Nouveau и менеджер vgpu_mgr, реализованный как модуль VFIO. Менеджер создает и удаляет виртуальные GPU, выбирает тип, управляет ресурсами и предоставляет API для управления. Он взаимодействует с базовым драйвером GPU для загрузки прошивки GSP, управления ресурсами, обработки исключений, конфигурации и системных событий.

Также в Mesa Vulkan-драйвер добавлен gfxstream (Graphics Streaming Kit) для доступа к API Vulkan из гостевых систем Linux, Android и Fuchsia. Драйвер, разработанный Google, перенаправляет обращения к графическим API при виртуализации API Vulkan. Он используется в эмуляторе Android, виртуальном устройстве Cuttlefish, сервисе Google Play Games и операционной системе Fuchsia. Gfxstream включен в QEMU и crosvm и поддерживается совместно с устройствами virtio-gpu и goldish.


🟡Страница релиза
🟡Документация
🟡Host Kernel
🟡Guest driver package


@ai_machinelearning_big_data

#AI #ML #vGPU #Linux #NVIDIA
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
19👍12🔥8🥰3🐳2