304K subscribers
4.04K photos
715 videos
17 files
4.6K links
Погружаемся в машинное обучение и Data Science

Показываем как запускать любые LLm на пальцах.

По всем вопросам - @haarrp

@itchannels_telegram -🔥best channels

Реестр РКН: clck.ru/3Fmqri
Download Telegram
Новостной дайджест

✔️ AMD назначает ветерана ИИ-индустрии на пост вице-президента.

AMD объявила о назначении Кита Стайера старшим вице-президентом глобального рынка ИИ. Стайер имеет более 30 лет опыта работы в технологическом бизнесе и развитии рынков, технической инженерии и обеспечения ответственной разработки ИИ. Ранее он занимал пост вице-президента международных инициатив в области ИИ в компании NVIDIA. Он будет работать под руководством генерального директора AMD, Лисы Су.
finance.yahoo.com

✔️ Intel выпускает серию процессоров Core Ultra 200V "Lunar Lake".

Серия "Lunar Lake" предназначена для конкуренции с процессорами Arm, используемыми в устройствах Apple и Microsoft. По словам производителя, это самые эффективные процессоры x86 на данный момент.

Процессоры Core Ultra 200V получили снижение энергопотребления до 50% по сравнению с предыдущими поколениями, повышение производительности до 120 TOPS за счет комбинации CPU, GPU и NPU.
Новинки оснащены четвертым поколением NPU, которое в 4 раза мощнее своего предшественника, а также новой графической архитектурой Xe2, на 30% более производительной предыдущей версии GPU.

Процессоры Core Ultra 200V будут использоваться в потребительских устройствах на базе Intel Evo от Acer, ASUS, Dell Technologies, HP, Lenovo, LG, MSI и Samsung.

Устройства с новыми процессорами будут доступны для предварительного заказа с сегодняшнего дня, а в продаже появятся 24 сентября. Все устройства с процессорами Core Ultra 200V и последней версией Windows будут иметь право на бесплатное обновление функций Copilot+ PC.
intel.com

✔️ Чеклист: Что нужно для достижения успеха в обеспечении безопасности ИИ?

Большая статья Sam Bowman, руководителя исследовательского подразделения Anthropic, в которой он высказывает предположение о том, чего должны добиться разработчики для обеспечения безопасности ИИ в процессе создания сверхчеловеческого AI.
sleepinyourhat.github.io

✔️ Hugging Face заключил сотрудничество с TruffleHog для поиска чувствительных данных.

Hugging Face интегрировала TruffleHog в свою экосистему для сканирования репозиториев на наличие секретов, таких как учетные данные, токены и ключи шифрования. Если обнаружен подтвержденный секрет, пользователь получает уведомление по электронной почте. Hugging Face создала собственный сканер TruffleHog, который дает возможность пользователям сканировать свои модели, наборы данных и Spaces на наличие секретов.
huggingface.co

✔️ Проект Graphiti: Графы темпоральных знаний на основе LLM.

Graphiti - инструмент создания и запроса графов знаний, которые развиваются с течением времени.
Граф знаний - это сеть взаимосвязанных фактов, они были широко изучены для поиска информации. Уникальность Graphiti заключается в ее способности автономно строить граф знаний, обрабатывая изменяющиеся отношения и сохраняя исторический контекст. Демо проекта
help.getzep.com

@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍28🔥65❤‍🔥1
⚡️ Yi-Coder: Семейство специализированных моделей для программирования.

Yi-Coder - это серия LLM с открытым исходным кодом, которые предназначены для программирования.

Модели Yi-Coder выпущены в двух размерностях: 1,5 млрд и 9 млрд параметров с контекстным окном в 128 тысяч токенов. Доступны базовая и чат-версия:

🟢Yi-Coder-9B;
🟢Yi-Coder-9B-Chat;
🟠Yi-Coder-1.5B;
🟠Yi-Coder-1.5B-Chat.

Модели основаны на LLM Yi-9B и обучались на 2.4 трлн. токенов, полученных из наборов данных Github и CommonCrawl.
Yi-Coder обладают знаниями 52 языков программирования.

В бенчмарке LiveCodeBench Yi-Coder-9B-Chat достиг показателя в 23.4%, что больше, чем у
моделей с большим числом параметров, например: DeepSeek-Coder-33B-Instruct и CodeLLama-34B-Instruct.

Использование моделей Yi-Coder всех версий поддерживается в Transformers и vLLM.

Подробные руководства по системному промптингу, artifacts-style прототипированию в виде web-страницы, конвертации текстового запроса в SQL-Query, инструкцию по файнтюну и квантованию можно найти в репозитории проекта на Github.

▶️Установка:

# Clone repository
git clone https://github.com/01-ai/Yi-Coder.git
cd Yi-Coder

# Install requirements
pip install -r requirements.txt


📌Лицензирование : Apache 2.0 License.


🟡Arxiv
🟡Набор моделей
🟡Сообщество в Discord
🖥Github


@ai_machinelearning_big_data

#AI #ML #LLM #YiCoder
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍29🔥1311
This media is not supported in your browser
VIEW IN TELEGRAM
😖 Google DeepMind только что выпустили еще один крутой биотех инструмент с искусственным интеллектом: AlphaProteo

Это AI для разработки новых белков. Он поможет в разработке лекарств, для лечения рака, аутоиммунных заболеваний, а так же лечения множества других заболеваний 🧬

Ученые предрекают возможность создания нового белкового материала, который будет связываться с белками, участвующими в передаче сигналов между раковыми клетками, нарушая их функцию и вызывая их гибель

Исследователи смогу смоделировать и лучше понять, как функционируют биологические системы, сэкономить время на исследованиях, усовершенствовать разработку лекарств и многое другое. 🧵

Анонс
Статья

@ai_machinelearning_big_data

#deepmind #ai #ml #biology #biotech
Please open Telegram to view this post
VIEW IN TELEGRAM
👍70🔥218🥰2
Новостной дайджест

✔️ Anthropic запускает тарифный план Claude Enterprise для корпоративных клиентов.

Anthropic предлагает новый план подписки для Claude, ориентированный на корпоративных клиентов, предлагая административный контроль и повышенную безопасность.

Claude Enterprise поможет проанализировать информацию, ответить на вопросы о ней, создать графики и простые веб-страницы или действовать как корпоративный AI-ассистент. План также включает в себя функции Projects и Artifacts, где реализована функция совместной работы с контентом.

План Claude Enterprise отличается от существующих решений на рынке. Например, контекстное окно в Claude Enterprise - 500 000 токенов. ChatGPT Enterprise и подписка Claude Team предлагают контекстные окна размером меньше половины, чем Claude Enterprise.
techcrunch.com

✔️ Dell и Red Hat объявили о сотрудничестве и поддержке бекэнда для open-source AI.

Основная цель сотрудничества - предоставить пользователям более простой и безопасный способ разработки, тестирования и развертывания языковых и генеративных моделей.

RHEL AI объединяет лицензированные LLM Granite от IBM Research, инструменты выравнивания моделей, основанные на методологии LAB (Large-scale Alignment for chatBots), и подход к разработке моделей в рамках проекта InstructLab.

Решение RHEL AI реализовано в виде загрузочного образа Red Hat Enterprise Linux (RHEL) для развертывания на отдельных серверах в гибридном облаке и включено в состав Red Hat OpenShift AI, гибридной облачной платформы для MLOps. RHEL AI на серверах Dell PowerEdge будет доступен в третьем квартале 2024 года.
devopsdigest.com

✔️ Microsoft объявила о выпуске Copilot+ на ПК в ноябре 2024 г.

Пользователи смогут получить доступ к функциям Copilot+: Live Captions, Windows Studio Effects и Cocreator в Paint.

Новые функции Copilot+ будут доступны через бесплатные обновления Windows на ПК с процессорами AMD (включая новые Ryzen AI 300), Intel (включая новые Core Ultra 200V), Qualcomm Snapdragon X Elite и X Plus, разработанных экосистемными партнерами Microsoft - Acer, ASUS, Dell, HP, Lenovo, Samsung.
blogs.windows.com

✔️ Биогибридные роботы, управляемые электрофизиологическими импульсами мицелия грибов.

Исследователи из Корнеллского университета создали экспериментальных биогибридных роботов, которые могут потенциально реагировать на окружающую среду лучше, чем их полностью синтетические аналоги.

Команда использовала грибные мицелии, которые имеют способность чувствовать химические и биологические сигналы и реагировать на множество входных данных. Они разработали систему, которая может записывать и обрабатывать электрофизиологическую активность мицелия в режиме реального времени и преобразовывать ее в цифровой сигнал управления, передаваемый на исполнительные узлы робота.

Были построены 2 робота : мягкий робот в форме паука и колесный робот. Роботы выполнили три эксперимента, в которых они реагировали на естественные сигналы мицелия и на внешние стимулы (ультрафиолетовый свет).

В университете надеются, что их разработка может привести к созданию роботов, которые могут взаимодействовать с окружающей средой более естественным образом.
news.cornell.edu

✔️ Проект EnsLoss: Стохастические калиброванные ансамбли потерь для предотвращения переоценки при классификации.

EnsLoss, новый метод объединения потерь, который расширяет концепцию коллективного обучения и позволяет объединять потери в рамках эмпирической минимизации риска (ERM). В отличие от существующих методов объединения, EnsLoss сохраняет "легитимность" объединенных потерь, т.е. обеспечивает свойства сonvexity and calibration (CC).

В репозитории описан набор экспериментов, которые демонстрируют эффективность предлагаемого метода по сравнению с существующими методами, основанными на фиксированной функции потерь, а также оценивают его совместимость с другими методами регуляризации.
github.com

@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍207🔥5
🤯 Llama 3 Reflection 70 превосходит, AnthropicAI
Claude 3.5 Sonnet и GPT-4o.
👀

1️⃣ Алгоритм начинает с вывода своих рассуждений в тегах <thinking>.
2️⃣ Если модель обнаруживает ошибку в своих рассуждениях, она использует теги <reflection> в разделе <thinking>, чтобы сигнализировать об этом и попытаться исправить себя.
3️⃣ Удовлетворившись своими рассуждениями, модель предоставляет окончательный ответ в тегах <output>.

Результаты модели:
🏆 89,9% MMLU, 79,7% MATH, 90,1% IFEval > Sonnet 3.5, GPT-4o
🥇 Лучший в мире открытый LLM (на момент выпуска)
🦙 Обучен на базе Llama 3.1 70B Instruct с новыми специальными токенами для <мышления>, <рефлексии>, <вывода>
🚀 405B модель в разработке, ожидается, что это будет лучшая из существующих моделей

🤗 Доступна на HF

📚 Набор данных и отчет об обучении будут готовы на следующей неделе.

Модель: https://huggingface.co/mattshumer/Reflection-Llama-3.1-70B

@ai_machinelearning_big_data

#llama #opensource #llm
🔥71👍226👏3🤬2🤔1💘1
🌟 MAPF-GPT: Имитационное обучение для многоагентного поиска путей.

MAPF-GPT - это метод решения задачи планирования движения агентов (MAPF) с помощью обучения с подкреплением. Он включает в себя четыре основных этапа: создание сценариев MAPF, генерацию решений, токенизацию решений и выполнение основного цикла обучения.

Практическая ценность MAPF-GPT - его способность решать задачи многоагентного планирования маршрутов в децентрализованном режиме, без необходимости в дополнительных модулях коммуникации или планирования.

Эти способности делают MAPF-GPT перспективным решением для реальных секторов: склады и логистические центры, транспортные системы, железнодорожная диспетчеризация и другие сферы, где требуется координация движения множества агентов в общем пространстве.

Для создания сценариев MAPF используется инструмент POGEMA (Probabilistic Obstacle Generation and Environment Modeling Algorithm), который позволяет генерировать карты с препятствиями и создавать экземпляры задачи MAPF. Для обучения моделей было создано 3,75 миллиона экземпляров задачи MAPF на картах размером от 17x17 до 21x21 с 16, 24 или 32 агентами.

За генерацию решений отвечает алгоритм La-CAM (Learning-based Constraint Acquisition and Modeling), - один из лучших решателей задачи MAPF. Алгоритм генерирует планы движения для каждого агента, которые затем используются для создания пар "наблюдение-действие".

Токенизация решений преобразует пары "наблюдение-действие" в последовательность специальных символов, которые затем используются для обучения модели. Модель состоит из 256 токенов, которые кодируют местное наблюдение агента. Первая часть наблюдения включает в себя информацию о карте в окрестности агента, а вторая часть включает в себя информацию об агенте и ближайших агентах.

Всего в словаре используется 67 различных токенов, включая токены для числовых значений (стоимость пути), и токены для буквальных значений (действия).
Диапазон числовых значений составляет [-20. .. 20], в соответствии с размерами карт, используемых в наборе данных для обучения.

Командой разработки метода представлены 3 модели:

🟢MAPF-GPT-2M. 2 млн. параметров, время обучения 12 часов, самая компактная и эффективная по ресурсам. Подходит для простых задач;

🟢MAPF-GPT-6M. 6 млн. параметров, время обучения - 50 часов, баланс между точностью и производительностью;

🟢MAPF-GPT-85M. 85 млн. параметров, время обучения - 85 часов, самая крупная и лучшая по качеству решений модель в наборе.


📌Лицензирование : MIT License.


🟡Arxiv
🟡Набор моделей
🖥Github


@ai_machinelearning_big_data

#AI #ML #MAPF #MIPT
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍2211🔥7
🌟 OpenVLA: Open-Source Vision-Language-Action модели.

OpenVLA - набор моделей с 7млрд. параметров, которые предназначены для универсального управления роботами.

OpenVLA состоит из комбинации визуальных энкодеров SigLIP, DinoV2 и языковой модели Llama 2, выступающей в качестве основы. Обучение производилось на наборе данных Open-X, который состоит из 970 тыс. траекторий манипуляций в различных средах.

Модели принимают на вход языковую инструкцию и изображение рабочей области с камеры робота. Затем, OpenVLA предсказывает нормализированные действия робота, состоящие из 7-DoF дельт конечных эффекторов в виде координатных положений (x, y, z, roll, pitch, yaw, gripper).

Для выполнения на реальной роботизированной платформе действия должны быть де-нормализованы с учетом статистики, вычисляемой для каждого робота и каждого набора данных.

OpenVLA готовы к использованию для управления роботами в комбинациях действий и обстановках, если они схожи с действиями и задачами, которые присутствуют в Open-X (например, для сред BridgeV2 с роботом Widow-X).

Модели не умеют самообучаться на условиях, не представленных в предварительном обучении; для решения таких случаев разработчики подготовили подробные инструкции по самостоятельному дообучению на вашем наборе демонстраций.

Семейство OpenVLA состоит из 5 модификаций базовой OpenVLA-7B:

🟢openvla-7b-prismatic - адаптация для использования с Prismatic VLMs project codebase;

🟢openvla-7b-finetuned-libero-spatial - - файнтюн с помощью LoRA на датасете LIBERO-Spatial бенчмарка LIBERO;

🟢openvla-7b-finetuned-libero-object - файнтюн с помощью LoRA на датасете LIBERO-Object;

🟢openvla/openvla-7b-finetuned-libero-10 - файнтюн с помощью LoRA на датасете LIBERO-10 (Long).

▶️Установка :

# Create venv 
conda create -n openvla python=3.10 -y
conda activate openvla

# Install PyTorch
conda install pytorch torchvision torchaudio pytorch-cuda=12.4 -c pytorch -c nvidia -y

# Clone and install the openvla repo
git clone https://github.com/openvla/openvla.git
cd openvla
pip install -e .

# for training only
# Install Flash Attention 2
pip install packaging ninja
ninja --version; echo $? # --> should return code "0"
pip install "flash-attn==2.5.5" --no-build-isolation


📌Лицензирование : MIT License.



🟡Страница проекта
🟡Arxiv
🟡Набор моделей
🖥Github


@ai_machinelearning_big_data

#AI #ML #OpetVLA #Robotics
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥22👍178💘2
Новостной дайджест

✔️ Groq запустила LLaVA v1.5 7B, мультимодальную модель, которая работает в 4 раза быстрее, чем GPT-4o от OpenAI.

LLaVA v1.5 7B может отвечать на вопросы по изображениям, генерировать подписи и вступать в диалог с использованием текста, голоса и картинок.
Это первый опыт Groq с мультимодальными моделями, и более высокая скорость инференса в задачах с изображениями, аудио и текста может привести к созданию более совершенных ассистентов ИИ.
Groq предлагает эту модель бесплатно в режиме "Preview Mode" для разработчиков.
groq.com

✔️ Deep Seek-V2.5: open-source модель, сочетающая функции чата и понимание кода.

DeepSeek выпустила DeepSeek-V2.5, мердж своих моделей DeepSeek-V2-Chat и DeepSeek-Coder-V2.
DeepSeek-V2.5 унаследовала способности от оригинальных моделей к общению и работе с кодом и улучшила производительность в задачах написания текстов и следования инструкциям за счет более точного следования предпочтениям человека.

Модель показала высокие результаты в нескольких бенчмарках, особенно в тестах на китайском и английском языках.

в DeepSeek-V2.5 были сделаны улучшения в области безопасности и генерации кода: уменьшено влияние политик безопасности на обычные вопросы и на 5,1 % улучшен результат в заданиях на завершение кода.
Модель доступна онлайн и на HuggingFace.
platform.deepseek.com

✔️ vLLM v0.6.0: 2,7-кратное повышение пропускной способности и 5-кратное сокращение задержки.

vLLM выпустила новую версию v0.6.0, которая значительно быстрее и эффективней по сравнению с предыдущей версией.
Это достигнуто благодаря серии оптимизаций: разделение API-сервера и движка инференса, пакетная планировка нескольких потоков вывода одновременно и асинхронная обработка инференса.
blog.vllm.ai

✔️ Релиз фреймворка SGLang v0.3: 7-кратное ускорение DeepSeek MLA, 1,5-кратное ускорение torch.compile, поддержка LLaVA-OneVision.

SGLang - это фреймворк для LLM и VLM. Он делает взаимодействие с моделями быстрым и контролируемым за счет совместной разработки бэкэндной среды и фронтэнда.

В версии SGLang v0.3 получил поддержку оптимизаций для MLA: поглощение весов, групповые ядра декодирования, FP8 batched MatMul и FP8 KV cache quantization.

Вторым важным обновлением является интеграция torch.compile для линейных/нормальных/активационных слоев и объединение его FlashInfer attention и sampling kernels.
Torch.compile включен для размеров пакетов от 1 до 32 и поддерживает непрерывную пакетную обработку, а так же RadixAttention для кэширования префиксов.
lmsys.org

✔️ Chatbot Arena, на которую опирается AI-сообщество, не самый лучший бенчмарк.

Бенчмарк, созданный LMSYS, стал популярным инструментом для сравнения производительности различных моделей ИИ, но его методология вызывает вопросы о репрезентативности и объективности результатов.

Основная проблема Chatbot Arena заключается в том, что он полагается на субъективные оценки пользователей, которые могут предпочитать определенный стиль ответов или не замечать галлюцинации модели.

LMSYS пытается смягчить эти предубеждения, используя автоматизированные системы оценки, такие как MT-Bench and Arena-Hard-Auto, которые используют модели OpenAI GPT-4 и GPT-4 Turbo для ранжирования качества ответов. Однако, эффективность этих систем в полной мере не доказана.

Растущие коммерческие связи LMSYS и спонсорство от венчурных фирм, инвестирующих в некоторые из тестируемых моделей, также вызывают вопросы о беспристрастности платформы.
techcrunch.com

@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍3111🔥6
🌟 LLaVaOLMBitNet1B: первая тернарная мультимодальная LLM от IntelLabs.

LLaVaOLMoBitnet1B - мультимодальная модель, способная принимать в качестве входных данных изображение + текст (запрос) и отдавать согласованные текстовые ответы на выходе.

Архитектура модели состоит из 3-х частей:

🟢CLIP ViT-L/14 на 100М параметров, состоящий из 24 слоев с размером скрытого слоя 1024;
🟢MLP, состоящий из 2-х линейных слоев с размером скрытого слоя 2048 с активацией GELU;
🟢Тернарная LLM (OLMoBitNet1B) с 1.1 миллиардом параметров, состоящая из 16 слоев, в которых все линейные слои заменены на слои BitLinear158.

Модель была обучена в 2 фазы. Первая - предварительное обучение для выравнивания функций и вторая фаза - тонкой настройки инструкций.

Фаза предварительного обучения состояла из 1 эпохи на отфильтрованном наборе данных 595 тыс. концептуальных текстовых аннотаций, с обновлением весов только проекционного слоя.
Для второй фазы точной настройки инструкций использовалась 1 эпоха с набором данных LLaVa-Instruct-150K с обновлением и весов слоя проекции и весов LLM.

⚠️ Примечание: Модель в репозитории IntelLabs на Huggingface находится в режиме акцепта доступа. После отправки запроса пройдет какое-то время, прежде чем владелец репозитория одобрит запрос.

▶️Локальная установка и запуск:

# Clone repositry
git clone https://huggingface.co/IntelLabs/LlavaOLMoBitnet1B

# Move to folder & intall requirements
cd LlavaOLMoBitnet1B
pip install -r requirements.txt

# Run inference
python llava_olmo.py


▶️Чтобы задать свой промпт и указать путь до целевого изображения, измените параметры в файле llava_olmo.py:

text = "Be concise. Describe what is in the image"

url = "https://URL_TO_IMAGE.jpg"


📌Лицензирование : Apache 2.0 License.


🟡Arxiv
🟡Модель


@ai_machinelearning_big_data

#AI #Intel #ML #LlavaBitNet
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍21🔥93