Технозаметки Малышева

Руководство по дообучению Llama 2 с помощью LoRA

- Llama 2 - расширенная языковая модель от Meta, обладающая до 70 миллиардами параметров и увеличенной длиной контекста.
- Модель использует групповое внимание к запросу (GQA) для увеличения масштабируемости вывода.
- Llama 2 может быть дообучена с использованием LoRA для выполнения задач ответа на вопросы.
- LoRA сократила количество обучаемых параметров до 10 тысяч раз, что привело к улучшению производительности.
- Благодаря дообучению, Llama 2 может быть использована для создания чат-ботов, виртуальных ассистентов и других приложений, требующих понимания и генерации языка.

#Llama2 #LoRA #FineTuning

NVIDIA Blog

Deep Learning Archives

46 viewsedited 19:51

Технозаметки Малышева

HuggingFace обновили свой курс по ИИ, добавив раздел файтюна.

Обновление тут

Но есть нюанс. Обновлён только англоязычный раздел пока.
Так что или быстро учим английский, либо ждём пару дней, - переведут на остальные языки. Там их более 20ти в общей сложности в базовом курсе.

#huggingface #finetuning #обучение
———
@tsingular

✍3🔥2👍1👨‍💻1

1.6K viewsedited 05:40

Технозаметки Малышева

Unsloth выпустил руководство по датасетам для файнтюнинга языковых моделей

Создание качественного датасета — ключевой момент в успешном файн-тюне.
Правильно подготовленные данные определяют, насколько хорошо модель усвоит нужные навыки и специализацию.

Основные форматы данных

Четыре ключевых типа датасетов:
📝 Raw Corpus — необработанный текст для продолжения предобучения (CPT)
🎯 Instruct — инструкции и примеры ожидаемого результата для SFT
💬 Conversation — диалоги между пользователем и AI для SFT
🔄 RLHF — диалоги с ранжированием ответов для обучения с подкреплением

Подготовка перед форматированием
Определите цель датасета
- Адаптация модели к конкретной задаче (суммаризация, Q&A)
- Обучение для специфической области (медицина, финансы)
- Настройка на определенный стиль общения

Выберите стиль вывода
Формат: JSON, HTML, код, текст
Язык: испанский, английский, русский и т.д.

Найдите источники данных
- Hugging Face, Wikipedia для готовых наборов
- Специализированные CSV, PDF или веб-ресурсы
- Синтетически сгенерированные данные

Форматы данных под разные задачи
Для предобучения (CPT):

{
  "text": "Pasta carbonara is a traditional Roman pasta dish. The sauce is made by mixing raw eggs with grated Pecorino Romano cheese and black pepper..."
}

Для инструкций (Alpaca style):

{
  "Instruction": "Task we want the model to perform.",
  "Input": "Optional user query.",
  "Output": "The expected result."
}

Для диалогов (ChatML):

{
  "conversations": [
    {
      "from": "human",
      "value": "Can you help me make pasta carbonara?"
    },
    {
      "from": "gpt",
      "value": "Would you like the traditional Roman recipe..."
    }
  ]
}

Hugging Face формат:

{
  "messages": [
    {
      "role": "user",
      "constant": "What is 1+1?"
    },
    {
      "role": "assistant",
      "value": "It's 2!"
    }
  ]
}

Генерация синтетических данных
Используйте мощные LLM (Llama 3.3 70B, GPT-4.5) для создания дополнительных примеров. Это помогает:

- Расширить существующий датасет
- Диверсифицировать данные, предотвращая переобучение
- Автоматически структурировать данные в нужном формате

Особенности мультимодальных моделей
Для моделей с возможностью обработки изображений (например, Llama 3.2 Vision):

[
  { 
    "role": "user",
    "content": [
      {"type": "text", "text": "You are an expert radiographer..."},
      {"type": "image", "image": image_data}
    ]
  },
  {
    "role": "assistant",
    "content": [
      {"type": "text", "text": "This radiograph shows..."}
    ]
  }
]

Практические советы

📊 Минимальный размер датасета: 100+ записей, оптимально 1000+
🧠 Для моделей с рассуждением: включайте в ответы пошаговое объяснение
🔄 Многократный файн-тюнинг: лучше объединить все датасеты и обучить за один раз

Качественная подготовка данных — это 80% успеха файн-тюнинга.
Иначе количество попыток может уйти в бесконечность.

#Unsloth #finetuning #datasets
———
@tsingular

🔥3❤1✍1👍1😐1

1.01K views06:16

Технозаметки Малышева

Невероятно полезный пример по генерации синтетики от Unsloth и Meta*.

Что делает система:
• Извлечение документов - парсит PDF, HTML, CSV
• Чанкинг и разбивка - делит длинные документы на управляемые части с учетом объема
• Генерация QA-пар - создает вопросы и ответы
• Автоматическая очистка данных - отфильтровывает низкокачественные примеры
• LoRA-обучение - дообучает модель с минимальными ресурсами (4-bit квантизация в примере)

Технический стек:
• synthetic-data-kit для автоматической генерации пар вопросов и ответов (от Meta* как раз)
• Unsloth для файнтюнинга
• VLLM в качестве бэкенда
• FastLanguageModel с оптимизированным LoRA (16 rank, использует только 23% GPU памяти на T4)

Практические кейсы:
• Обучение модели пониманию узкоспециализированных документов (например, новых исследований)
• Создание чатботов экспертов в конкретной предметной области
• Быстрый переход от сырых данных к готовой модели без ручной разметки QA-пар

Результаты из примера (там прям готовых блокнот для запуска. можно себе скопировать и под себя подстроить):
• Обучено на 3х чанках из статьи "Byte Latent Transformer"
• 35 QA-пар сгенерировано автоматически
• 1.83 минуты обучения на Tesla T4
• Модель корректно отвечает на вопросы о темпоральном патчинге байтов

Поддерживает все популярные модели (Llama 3.2, Gemma 3, Qwen 3) и экспорт в GGUF для деплоя.

(*Meta - запрещённая в РФ террористическая организация)

#Unsloth #finetuning #GoogleColab
———
@tsingular

🔥7⚡2👍2✍1

2.47K viewsedited 05:30

Технозаметки Малышева

🔊Unsloth опубликовал готовый код для файнтюна TTS моделей

Unsloth выпустил набор блокнотов для файнтюнинга моделей Text-to-Speech (TTS), предлагая разработчикам мощный инструментарий кастомизации.

Технические возможности:
- Оптимизированная производительность: в 1.5 раза быстрее и на 50% меньше потребление памяти благодаря Flash Attention 2
-Поддержка популярных моделей: Sesame CSM (1B), Orpheus (3B), CrisperWhisper, Spark и другие модели из экосистемы transformers
- Двусторонний подход: поддержка как TTS (текст-в-речь), так и STT (речь-в-текст) моделей, включая OpenAI Whisper

Блокноты для файнтюна:
- Sesame-CSM (1B)
- Orpheus-TTS (3B)
- Whisper Large V3 (STT)
- Spark-TTS (0.5B)
- Llasa-TTS (3B)
- Oute-TTS (1B)

Практическое применение:
- Клонирование голосов: создание кастомных голосовых моделей
- Настройка стиля и тона: адаптация эмоциональной окраски (поддержка тегов типа <laugh>, <sigh>)
- Поддержка новых языков: расширение языковых возможностей базовых моделей
- Экспорт в различные форматы: поддержка llama.cpp для совместимости

Рабочий процесс:
1. Загрузка модели через FastModel с опциями для 16-бит LoRA или полного файнтюнинга
2. Подготовка датасета- поддерживаются как готовые наборы с Hugging Face, так и собственные датасеты
3. Настройка параметров обучения с оптимизированными настройками для голосовых моделей
4. Запуск файнтюнинга с мониторингом прогресса
5. Сохранение и экспорт результатов в различные форматы

Unsloth существенно упрощает файнтюн, делая технологии персонализации голоса более доступными для разработчиков.

Самое вкусное во всей этой истории, - готовые коллаб-блокноты.
Можно пользовать из облака или скопировать себе и запускать локально.

#Unsloth #TextToSpeech #TTS #finetuning
———
@tsingular

👍6🔥2❤1⚡1

1.26K viewsedited 18:31

Технозаметки Малышева

Hugging Face обновили курс по LLM

Крупное обновление популярного курса от Hugging Face - теперь фокус на создании как малых, так и больших языковых моделей.

Основные улучшения:
- Новая глава по файн-тюнингу моделей с практическими примерами
- Интеграция библиотек Datasets, Tokenizers, Accelerate и Evaluate
- Обновленные best practices для PyTorch
- Интерактивные квизы для проверки знаний
- Практические задания по классификации текста с BERT

Теперь студенты смогут не только использовать готовые модели, но и адаптировать их под свои задачи с современными подходами.

#HuggingFace #LLMCourse #FineTuning
------
@tsingular

✍3⚡3

1.2K views04:53

About

Blog

Apps

Platform