226K subscribers
3.89K photos
661 videos
17 files
4.5K links
Погружаемся в машинное обучение и Data Science

Показываем как запускать любые LLm на пальцах.

По всем вопросам - @haarrp

@itchannels_telegram -🔥best channels

Реестр РКН: clck.ru/3Fmqri
Download Telegram
🌟 Lite Oute 2 Mamba2Attn: базовая и инструктивная SLM на архитектуре Mamba2.


OuteAI выпустила второе поколение легких моделей на 250М параметров каждая :

🟢 Lite Oute 2 Mamba2Attn 250M Base
🟢 Lite Oute 2 Mamba2Attn 250M-Instruct

В модели интегрирован механизм Mamba2Attn - усовершенствованный метод внимания, который повышает способность модели фокусироваться на важных частях входных данных. Этот механизм особенно полезен для задач NLP, требующих понимания сложных закономерностей или взаимосвязей в данных.

Интегрировав Mamba2Attn, разработчикам удалось сохранить релевантную для своего класса малых моделей производительность, уменьшив при этом ее размер и вычислительные требования.

Базовая модель была обучена на 30 миллиардах токенов из корпуса данных, структура которого - 50% датасета dclm-baseline-1.0 b 50% fineweb-edu. Инструктивная версия прошла дообучение с SFT и DPO.

Обе модели имеют 4 слоя внимания из общего количества 32, такая конфигурация позволяет минимизировать потери при проверке, что подтверждено исследованием о соотношении слоев самовнимания к MLP.

▶️ Рекомендованные параметры для Instruct - модели:

🟢Temperature: 0.1 - 0.4
🟢Repetition Penalty: 1.10 - 1.12

▶️Ограничения:

🟠Непоследовательная точность. Примите во внимание, что обе модели - малого размера, инференс в некорорых задачах может быть неполным или неточным;
🟠Отсутствие глубины контекста. В некоторых задачах, модели могут не соответствовать ожиданиям глубины запоминания контекста;
🟠Баланс лаконичности. Модель иногда испытывает трудности с балансом между краткостью и детализацией, давая либо слишком краткие ответы, либо излишне повторяя заданную информацию.


📌Лицензирование : Apache 2.0 License


🟡Страница проекта
🟡Набор моделей
🟡Arxiv
🟡Сообщество в Discord


@ai_machinelearning_big_data

#AI #SLM #Mamba2 #ML #Oute
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍214🔥2🦄2
🚀 Новостной дайджест.

✔️ Появилось определение, что такое ИИ с открытым исходным кодом.

Open Source Initiative (OSI) представила определение, разработанное группой из 70 экспертов, включая ученых и представителей крупных технологических компаний. Согласно этому определению, открытый ИИ может использоваться без разрешения авторов, его компоненты подлежат инспекции создателями, а система может модифицироваться и не иметь ограничения на передачу от от одного лица другому.

OSI планирует создать механизм контроля, который будет выявлять модели, не соответствующие новому определению и публиковать список соответствующих моделей, среди которых ожидаются Pythia от Eleuther, OLMo от Ai2 и модели от коллектива LLM360.
technologyreview.com

✔️ Google запустила бесплатную "Галерею промптов" в AI Studio.

Функциональное бновление AI Studio, анонсированное Логаном Килпатриком, предлагает предустановленные промпты, которые демонстрируют возможности моделей семейства Gemini.
В "Prompt Gallery" уже доступны: генератор рецептов на основе схемы JSON, математический репетитор для квадратных уравнений, генератор рабочих листов для начальных классов, а также инструменты для тестирования кода на Python и анализа временной сложности функций.
venturebeat.com

✔️ Ресечеры борются с галлюцинациями ИИ в математике.

Исследователи из Беркли работают над проблемой "галлюцинаций" ИИ в математике, когда модели, такие как ChatGPT, генерируют неверные или вымышленные ответы. В экспериментах они обнаружили, что ChatGPT ошибался в решении алгебраических задач в одной трети случаев, но после применения метода "самосогласованности" (self-consistency) точность возросла до 70%. В статистике ошибки снизились с 29% до 13%, что все еще слишком много.

В другом исследовании 274 участника, использовавшие решения ChatGPT в качестве подсказок, показали прирост в 17% на тестах, в то время как группа с подсказками от людей улучшилась лишь на 12%. Исследование привело к прогнозам о возможности создания эффективных репетиторов на основе ИИ, однако необходимо больше данных о реальном использовании таких систем учащимися
hechingerreport.org

✔️ Путь к эффективным вычислениям в эпоху ИИ: охлаждение теплой водой.

Lenovo представила 6-е поколение технологии жидкостного охлаждения Neptune, которая позволяет запускать серверные стойки мощностью более 100 кВт без необходимости в специализированном кондиционировании. Эта система обеспечивает до 40% снижение потребления энергии и 3,5-кратное улучшение термальной эффективности по сравнению с традиционными воздушными системами охлаждения. Технология использует теплую воду для охлаждения компонентов, уменьшая потребность в мощных вентиляторах.
csrwire.com

✔️ SyncWaveX: сервис автоматического липсинка для видео.

SyncWaveX автоматически синхронизирует движения губ и лица с аудио, позволяя создавать реалистичные видео с минимальными усилиями. Технология прямого синтеза аудио в видео позволяет генерировать контент, основываясь на аудиопотоке, без необходимости в 3D-моделировании.

SyncWaveX использует интеллектуальные технологии синтеза голоса и распознавания речи, которые позволяют генерировать новые треки, имитирующие оригинальный голос. Пользователи сервиса могут создавать неограниченное количество видео из одного шаблона. В ходе предзапуска уже было создано более 10,000 видео, попробовать можно тут
globenewswire.com

@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍206🔥6👏2
⚡️ Liger Kernel: Эффективные ядра Triton для обучения LLM

Liger (Linkedin GPU Efficient Runtime) Kernel — набор оптимизированных ядер Triton, применение которых в задачах обучения LLM на нескольких GPU повышает производительность на 20 % и снижает потребление VRAM на 60%. Это дает возможность использовать более длинные контексты, более крупные размеры пакетов и увеличенные словари в обучении.

Liger предоставляет простой API для операций с оптимизированными ядрами и совместим с Hugging Face: RMSNorm, RoPE, SwiGLU, CrossEntropy, FusedLinearCrossEntropy

Liger работает с Flash Attention, PyTorch FSDP и Microsoft DeepSpeed без необходимости дополнительной настройки.

Зависимости:

🟢PyTorch: 2.1.2 или выше.
🟢Triton: 2.3.0 или выше
🟢Transformers: 4.40.1 или выше.

Liger Kernel доступен в pip. Выберите стабильную версию для продакшена или nightly c последними новыми функциями и исправлениями:

# Stable version
pip install liger-kernel

# Nightly version
pip install liger-kernel-nightly

Патч существующей модели с Hugging Face:

# Import modules
import transformers
from liger_kernel.transformers import apply_liger_kernel_to_llama

# Load Hugging Face model:
model = transformers.AutoModelForCausalLM.from_pretrained("<some llama model>")

# Apply Liger Kernel patches:
apply_liger_kernel_to_llama(model)

После установки патча, модель будет использовать операции ядра Liger для поддерживаемых слоев, что приведет к повышению производительности и снижению потребления VRAM.

Если вы хотите построить собственные модели с помощью Liger Kernel, вы можете импортировать отдельные модули ядра и использовать их в качестве строительных блоков. Например:

# Import the Liger Kernel module:
from liger_kernel.transformers import LigerFusedLinearCrossEntropyLoss

#Create your model:
import torch.nn as nn
import torch
model = nn.Linear(128, 256).cuda()
loss_fn = LigerFusedLinearCrossEntropyLoss()

#Use the model:
input = torch.randn(4, 128, requires_grad=True, device="cuda")
target = torch.randint(256, (4, ), device="cuda")
loss = loss_fn(model.weight, input, target)
loss.backward()

Модель пропатчена, вы можете продолжить обучение как обычно. Liger Kernel будет автоматически выполнять оптимизированные операции во время обучения.


📌Лицензирование: BSD 2-CLAUSE LICENSE (as is и необходимо указывать авторство при копировании и модификации).


🖥Github [ Stars: 767 | Issues: 14 | Forks: 35 ]
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
13👍10🔥6
⚡️ Vikhr-Gemma-2B-instruct: Инструктивная русскоязычная версия Gemma2.

Vikhr models - команда энтузиастов, занимающихся созданием и развитием русифицированных моделей искусственного интеллекта выпустила инструктивную модель Vikhr-Gemma-2B-instruct, построенную на базе Gemma2-2B, которая была дообучена на русскоязычном корпусе данных GrandMaster-PRO-MAX.

Датасет GrandMaster-PRO-MAX - собственный русскоязычный датасет проекта Vikhr models в формате вопрос-ответ, собранных из различных источников.

Характерной особенностью датасета является, то, что модели обученные на этом наборе данных будут иметь способность к Chain-Of-Thought (CoT), за счет использования более сложного промпта для генерации большинства ответов датасета.

Авторы опубликовали квантованные GGUF-версии модели в разрядности от 1-bit (832 MB) до 32-bit (10.5 GB).

Наиболее низкие показатели Perplexity, полученные в тестах на датасетах Veles и Wikitext-2 у GGUF-версий FP32, FP16, BF16, Q8_0 и Q5_K.


▶️Пример запуска модели на Transformers:

from transformers import AutoModelForCausalLM, AutoTokenizer

# Загрузка модели и токенизатора
model_name = "Vikhrmodels/Vikhr-Gemma-2B-instruct"
model = AutoModelForCausalLM.from_pretrained(model_name)
tokenizer = AutoTokenizer.from_pretrained(model_name)

# Подготовка входного текста
input_text = "Напиши стихотворение о весне в России."

# Токенизация и генерация текста
input_ids = tokenizer.encode(input_text, return_tensors="pt")
output = model.generate(input_ids, max_length=200, num_return_sequences=1, no_repeat_ngram_size=2)

# Декодирование и вывод результата
generated_text = tokenizer.decode(output[0], skip_special_tokens=True)
print(generated_text)


📌Лицензирование : Apache 2.0 License (при обороте до 20млн.руб\год)


🟡Модель
🟡Набор GGUF
🟡Датасет
🟡Google Collab (инференс)


@ai_machinelearning_big_data

#AI #LLM #Vikhr #ML
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
25👍15🔥4🌚1
🌟 OCRonos-Vintage: специализированная модель для коррекции OCR.

OCRonos-Vintage — это небольшая модель со 124 миллионами параметров и небольшим контекстным окном в 1024 токена, которая была предварительно обучена с нуля на 18 миллиардах токенов датасета материалов архивов культурного наследия для задачи коррекции OCR. Несмотря на свой небольшой размер, она обеспечивает качество коррекции, сопоставимое с большими моделями, такими как GPT-4, при этом эффективна для работы на CPU.

Модель обучалась в течение 2 эпох с использованием фреймворка обучения llm.c на наборе данных из Library of Congress, Internet Archive и Hathi Trust. Обучение проводилось на 4 графических процессорах H100 и заняло два с половиной часа. OCRonos-Vintage использует токенизатор GPT-2.

OCRonos-Vintage можно загрузить и использовать для инференса так же, как модель GPT-2. Она принимает OCR-текст в качестве входных данных и генерирует исправленный текст. Входные данные и данные инференса разделяются специальными тегами: "### Text ###" и "### Correction ###".
Модель также можно использовать для генерации стилизованного исторического текста, если дать подсказку, начинающуюся с ### Text ###. Это позволяет имитировать исторические стили письма и содержание.

▶️Квантованная 5-bit GGUF версия модели размером всего 127 МБ для локального запуска на llama.cpp


📌Лицензирование : Apache 2.0 License


🟡Модель
🟡Google Collab (инференс)
🟡Demo


@ai_machinelearning_big_data

#AI #SLM #ML #OCR
Please open Telegram to view this post
VIEW IN TELEGRAM
👍245🔥2🥰1🎄1
⚡️ Новостной дайджест

✔️ Anthropic опубликовала system prompts для Claude всех версий.

Anthropic опубликовала системные подсказки для своих моделей Claude 3.5 Opus, Sonnet и Haiku, стремясь к большей прозрачности в области ИИ.
Это системные промпты, которые определяют основные качества моделей и их поведение. Они указывают, что Claude не может открывать ссылки или идентифицировать людей на изображениях. Например, модель должна вести себя так, как будто она "полностью слепа к лицам".
Также указаны характеристики, которые модели должны демонстрировать, такие как интеллектуальное любопытство и беспристрастность при обсуждении спорных тем.
techcrunch.com

✔️ Китайские компании обходят экспортные ограничения США на чипы искусственного интеллекта, используя сервисы Amazon AWS.

За последние два года правительство США ужесточило правила, запрещающие продажу высокопроизводительных ИИ-чипов Nvidia и AMD, в Китай, чтобы ограничить технологические достижения китайских военных.
Доступ к этим чипам через облачные сервисы не нарушает американские законы, поскольку они касаются только прямого экспорта физических товаров. По данным Reuters, по меньшей мере 11 китайских организаций искали доступ к ограниченным технологиям через облачные сервисы, среди которых четыре явно указали на Amazon Web Services (AWS).
Например, Шэньчжэньский университет потратил 200,000 юаней (около $28,000) через посредника для доступа к серверам AWS с чипами Nvidia A100 и H100, запрещенными для прямого экспорта в Китай.
В ответ на это в Конгрессе был предложен законопроект, который даст Министерству торговли США полномочия регулировать удаленный доступ к американским технологиям.
cio.com

✔️ Salesforce готовит к релизу модель Tex-2-Video.

Salesforce опубликовала технический отчет о xGen-VideoSyn-1, модели T2V, которая генерирует реалистичные сцены из текстовых описаний.
Модель использует видео-вариационный автоэнкодер (VidVAE) для сжатия видеоданных и снижения вычислительные требования, и диффузионный трансформер (DiT) для улучшения временной согласованности и обобщения.
Репозиторий Selesforce на Github, указанный в отчете ограничен для доступа с определенных IP-адресов, что говорит о последних подготовках к релизу.
arxiv.org

✔️ На Huggingface Spaces появился генератор синтетических текстовых датасетов на любую тематику.

Генератор работает на базе phi-3-mini, генерирует 99 строк за одну итерацию в формате таблицы в большинстве случаев, формата Title, Text, Label.
У генератора есть поиск по ключевому слову для темы для дальнейшего выбора предустановленных шаблонов.
Он не самый точный, но быстрый и производительный.
huggingface.co

✔️Модель для поиска новых лекарств и биоактивных комбинаций.

ActFound - модель искусственного интеллекта, которая предназначена для проектирования биоактивности соединений была разработана совместными усилиями ученых из Китая и США. Модель сочетает метаобучение и парное обучение, чтобы преодолеть ограничения в нехватке данных и несовместимые измерения при поиске новых химических соединений.

ActFound была обучена на ~35 000 проб из популярной химической базы данных и 1,6 млн экспериментально измеренных биоактивностей.
По завершении обучения, ActFound был протестирован на 6 реальных наборах данных о биологической активности и превзошел 9 конкурирующих моделей для прогнозирования в своей области.
scmp.com

✔️ IBM представила новый чип Spyre для IBM Z для масштабирования корпоративных ИИ-нагрузок будущего.

Spyre включает 32 ядра ускорителей и 25.6 миллиарда транзисторов, производясь по 5-нм технологии. Чипы могут быть установлены на PCIe-карты, которые можно объединять для увеличения вычислительных мощностей.
Архитектура чипа оптимизирована для выполнения матричных операций, что энергоэффективней по сравнению с традиционными процессорами.
IBM планирует дальнейшую разработку Spyre с учетом возможности обучения моделей ИИ на своих мейнфреймах.
research.ibm.com

✔️ Google представляет GameNGen, первый игровой движок, полностью основанный на нейронных сетях.

@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍2211🔥4
⚡️ CogVideoX: Модель CogVideoX-5B теперь в открытом доступе

Tsinghua University (THUDM) выложили в открытый доступ более крупную модель генерации Text-to-Video серии CogVideoX - CogVideoX-5B, которая ранее была доступна только по API.

Помимо публикации большей модели, значительно оптимизирована производительность вычислений обеих моделей: CogVideoX-2B и CogVideoX-5B, изменена лицензия у младшей 2B модели на Apache 2.0 License и усовершенствован код в репозитории на Github

Теперь вы можете запускать CogVideoX-2B на более ранних GPU, например GTX 1080TI и CogVideoX-5B на современных GPU, таких как RTX 3060.


📌Лицензирование кода : Apache 2.0 License.

📌Лицензирование модели CogVideoX-2B: Apache 2.0 License.

📌Лицензирование модели CogVideoX-5B: CogVideoX License (бесплатно для академических целей, регистрация и получение базовой лицензии - для коммерческой эксплуатации до 1млн. в мес. активных посещений. Свыше 1 млн. в мес. - получение дополнительной лицензии).


🟡Модель
🟡Arxiv
🟡Сообщество в Discord
🟡Demo
🖥Github [ Stars: 5.9K | Issues: 19 | Forks: 543]


@ai_machinelearning_big_data

#AI #Text2Video #Cogvideo #ML
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍215🔥3🥰2
🌟Zamba2-mini: компактная и производительная модель с гибридной архитектурой.

Zamba2-mini - гибридная модель c 1.2B параметров, построенная из блоков state-space Mamba (SSM) и transformer.

Модель создана на общей архитектуре Zamba, но отличается от большей модели 2.7B тремя особенностями:

🟢добавлены rotary position embeddings;

🟢чередующиеся трансформерные блоки заменены одним общим;

🟢вместо LoRA на блоке MLP добавлены проекторы LoRA в блоки внимания.

Zamba2-mini использует токенизатор Mistral v0.1 и была предварительно обучена на 3 триллионах токенов текстовых данных и коде различных языков программирования, полученных из открытых веб-наборов данных, к которым был добавлен собственный корпу данных Zyda.

Впоследствии, на втором этапе Zamba2-mini была подвергнута дополнительной фазе агрессивного снижения скорости обучения на смеси из 100B высококачественных токенов.

Zamba2-mini показала в тестах результаты, сопоставимые с моделями с параметрами <2B и может конкурировать с некоторыми LLM большего размера.

Благодаря уникальной гибридной архитектуре SSM Zamba2-mini демонстрирует низкие задержки логического вывода и быструю генерацию при значительно меньшем потреблении VRAM, чем другие модели такой же плотности параметров на основе трансформеров.
Такие характеристики делает ее идеальной универсальной моделью для приложений на устройствах.

⚠️ Примечание: Zamba2-mini еще не полностью совместима со всеми фреймворками и инструментами HuggingFace.

Реализацию Zamba2-1.2B для Pytorch можно найти здесь.

▶️Локальная установка и инференс:

# Clone repositiry
git clone https://github.com/Zyphra/transformers_zamba2.git

#Install requirments:
cd transformers_zamba2
pip install -e .
pip install accelerate

#Inference
from transformers import AutoTokenizer, AutoModelForCausalLM
import torch

tokenizer = AutoTokenizer.from_pretrained("Zyphra/Zamba2-1.2B")
model = AutoModelForCausalLM.from_pretrained("Zyphra/Zamba2-1.2B", device_map="cuda", torch_dtype=torch.bfloat16)

input_text = "A funny prompt would be "
input_ids = tokenizer(input_text, return_tensors="pt").to("cuda")

outputs = model.generate(**input_ids, max_new_tokens=100)
print(tokenizer.decode(outputs[0]))


▶️Для запуске на CPU - only, укажите use_mamba_kernels=False при загрузке модели с помощью AutoModelForCausalLM.from_pretrained.


📌Лицензирование : Apache 2.0 License.


🟡Страница проекта
🟡Arxiv
🟡Модель


@ai_machinelearning_big_data

#AI #SLM #Mamba #ML #Zamba2mini
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍177🔥5😁3