Машиннное обучение | Наука о данных Библиотека

✔️

Бесплатные полезные руководства по дистилляции моделей:

1. Руководство по дистилляции от OpenAI

🖥

Руководство содержит подробное описание процесса передачи знаний от более крупной модели к компактной, c сохранением высокой производительности модели.

Основные аспекты, рассмотренные в руководстве:
- Сохранение выходных данных крупной модели: Создание набора данных, содержащего предсказания большой модели, которые будут использоваться для обучения меньшей модели.

- Оценка производительности моделей: Сравнительный анализ точности и эффективности как крупной, так и компактной моделей на основе различных метрик.

- Создание обучающих данных для компактной модели: Использование предсказаний крупной модели для генерации обучающего набора данных, способствующего эффективному обучению меньшей модели.

- Оценка дообученной компактной модели: Проверка производительности и точности компактной модели после процесса дистилляции для подтверждения соответствия требованиям.

🔗

Ссылка

2. Учебник по дистилляции знаний от PyTorch

🔥

Руководство от PyTorch, которое содержит практическое введение в технику передачи знаний для развёртывания моделей на устройствах с ограниченными вычислительными ресурсами.

Основные аспекты руководства:

- Извлечение скрытых представлений: В гайде показано, как получить промежуточные представления из обученной модели для дальнейшего использования.

- Модификация циклов обучения в PyTorch: Здесь рассматривается интеграция дополнительных функций в стандартные циклы обучения для эффективной передачи знаний.

- На примере показан процесс обучения компактной модели, с ипользованием предсказания более сложной модели в качестве ориентира.

Руководство содержит пошаговые инструкции и примеры кода, что делает его ценным ресурсом, если вы хотите научиться оптимизировать свои модели для использования в средах с ограниченными ресурсами.

▪Ссылка

3. Jetson Introduction to Knowledge Distillation от Nvidia

🖥

В данном руководстве рассматривается процесс передачи знаний от модели OpenCLIP (vision-language model) к модели ResNet18 для классификации на наборе данных STL10.

Особое внимание уделяется тому, как выбор данных, методы дистилляции и архитектура модели, влияют на итоговую точность.

Кроме того, обсуждаются методы профилирования и оптимизации моделей для их развёртывания на устройствах NVIDIA Jetson Orin Nano.

🔗

Ссылка

4. Учебник по дистилляции знаний от Keras

⭐️

Подробно описывается концепция дистилляции знаний и ее применение в обработке медицинских изображений.

🔗

Github

🔗

Учебник Keras

5. Руководство по дистилляции от
huggingface 🤗

Здесь показано, как выполнять дистилляцию знаний шаг за шагом на конкретном примере.

🔗

Ссылка

6. Дистилляция знаний для задач компьютерного зрения от huggingface

👁

Здесь рассматривается, как сделать файнтюн ViT-модели в MobileNet с помощью API Trainer из Transformers.

🔗

Ссылка

#KnowledgeDistillation #Distillation #openai #keras #tutorial #course #freecourses #huggingface #Nvidia #pytorch

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

❤1👍1

2.66K views11:35

Машиннное обучение | Наука о данных Библиотека

Competitive Programming with Large Reasoning Models
OpenAI∗

▪ Читать

@machinelearning_books

❤2

2.77K views06:12

Машиннное обучение | Наука о данных Библиотека

The Hundred-Page Language Models Book

📕 Book

@machinelearning_books

👍5❤2🔥1

3.28K views08:15

Машиннное обучение | Наука о данных Библиотека

🔥

The Ultra-Scale Playbook: руководство по обучению крупных языковых моделей на GPU-кластерах!

💡 Это руководство посвящено обучению больших языковых моделей на масштабируемых GPU-кластерах. В рамках этого проекта было проведено более 4000 экспериментов по масштабированию на кластере с использованием до 512 GPU, с целью измерения пропускной способности и эффективности обучения.

🔗 Ссылка: *клик*

#курс #machinelearning

Please open Telegram to view this post

VIEW IN TELEGRAM

❤8👍1🥰1

3.07K viewsedited 18:55

Машиннное обучение | Наука о данных Библиотека

📖 В этой статье представлена новая архитектура модели под названием Inner Thinking Transformer (ITT), направленная на улучшение способности языковых моделей к адаптивному внутреннему мышлению без увеличения количества параметров!

💡 Авторы выявили, что сложные токены вызывают резкие всплески градиентов в стандартных трансформерах, что указывает на архитектурные ограничения при обработке таких токенов. В ответ на это ITT динамически распределяет вычислительные ресурсы через адаптивную маршрутизацию токенов, итеративно улучшает представления с помощью остаточных связей мышления и различает этапы рассуждений посредством кодирования шагов мышления. Это позволяет более глубоко обрабатывать критические токены без увеличения параметров модели.

🌟 Экспериментальные результаты показывают, что ITT достигает 96,5% производительности модели с 466 миллионами параметров, используя всего 162 миллиона параметров, сокращает объем необходимых обучающих данных на 43,2% и превосходит варианты Transformer/Loop в 11 различных тестах. Таким образом, ITT эффективно балансирует между производительностью и эффективностью, оптимизируя внутренние процессы мышления модели.

🔗 Ссылка: *клик*

@machinelearning_books

Please open Telegram to view this post

VIEW IN TELEGRAM

❤4👍3🔥3

3.11K viewsedited 15:59

Машиннное обучение | Наука о данных Библиотека

Forwarded from Machinelearning

📌 Llama3 from scratch: расширенная версия

Проект "Deepdive Llama3 from scratch" - расширенный форк гайд-репозитория по созданию LLama-3 c нуля шаг за шагом.

Исходный проект был переработан, проактуализирован, улучшен и оптимизирован для того, чтобы помочь всем желающим понять и освоить принцип реализации и детальный процесс ризонинга модели Llama3.

▶️Изменения и улучшения в этом форке:

🟢Последовательность изложения материала была изменена, скорректирована структура чтобы сделать процесс обучения более прозрачным, помогая понимать код шаг за шагом;

🟢Добавлено большое количество подробных аннотаций к коду;

🟢Изменения размеров матрицы на каждом этапе вычислений полностью аннотированы;

🟢Добавлены подробные пояснения к принципам, чтобы в полной мере можно было освоить концепцию дизайна модели.

🟢Добавлена дополнительная глава, посвященная KV-сache, в которой подробно описаны основные концепции, принципы работы и процесс применения механизма внимания.

📌Лицензирование: MIT License.

🔜

Репозиторий на Github

@ai_machinelearning_big_data

#AI #ML #LLM #Tutorial #Github

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

❤6👍2

2.61K views13:40

Машиннное обучение | Наука о данных Библиотека

🔥 Approaching (Almost) Any Machine Learning Problem — это книга, основное внимание в которой уделяется практическим аспектам решения задач машинного обучения, включая предобработку данных, выбор моделей, кросс-валидацию, оценку метрик, обработку категориальных переменных, инженерные методы работы с признаками, отбор признаков, настройку гиперпараметров, а также подходы к классификации изображений и текста, ансамблированию и стеккингу моделей, обеспечению воспроизводимости кода и развертыванию моделей!

🌟 Книга содержит значительное количество кода, сопровождаемого подробными комментариями, что позволяет читателям следовать примерам и применять их в своих проектах. Автор подчеркивает, что книга не предназначена для изучения базовых алгоритмов, а сосредоточена на практических рекомендациях по решению реальных задач машинного обучения.

🖥

Github

#machinelearning

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥7❤3🤝2

3.5K viewsedited 02:05

Машиннное обучение | Наука о данных Библиотека

🔥

Эта книга — огромный набор упражнений по машинному обучению для самостоятельного решения!

🌟 Темы включают линейную алгебру, оптимизацию, графические модели, скрытые марковские модели, методы выборки и вариационные методы.

🔗 Ссылка: *клик*

Please open Telegram to view this post

VIEW IN TELEGRAM

👍16❤2🤡2🤔1

3.58K viewsedited 09:04

Машиннное обучение | Наука о данных Библиотека

TRACT: Regression-Aware Fine-tuning Meets
Chain-of-Thought Reasoning for LLM-as-a-Judge

📄 Читать

@machinelearning_books

❤3🔥2

2.4K viewsedited 13:56

Машиннное обучение | Наука о данных Библиотека

Forwarded from Machinelearning

🔥 «The State of LLM Reasoning Models» свежая статья от Себастьяна Рашка, которая посвящена современному состоянию исследований в области рассуждений (reasoning) и масштабирования выводов (inference scaling) для больших языковых моделей (LLM).

Основные моменты:
- Эволюция возможностей рассуждения:
В статье показано, как с увеличением размеров моделей и вычислительных ресурсов появляются «внезапные» способности, позволяющие моделям выполнять сложное логическое и пошаговое рассуждение. Это включает методы вроде chain-of-thought, которые помогают моделям структурировать ответ.

- Масштабирование и его эффекты:
Анализируются закономерности масштабирования — как увеличение числа параметров и использование более мощных аппаратных средств влияет на точность и способность моделей к рассуждению. Выявляются пределы, где дополнительные вычисления начинают давать менее заметное улучшение.

- Инновации в инференсе:
Статья рассматривает новые подходы к оптимизации процесса инференса, что особенно важно для применения LLM в реальном времени и на устройствах с ограниченными ресурсами. Поднимается вопрос балансировки между качеством ответов и затратами на вычисления.

- Практические выводы для исследований:
Сатья служит ориентиром, показывающим, какие направления развития (например, улучшение алгоритмов рассуждения, оптимизация инференс-методов) могут принести наибольший эффект при дальнейшем увеличении масштабов моделей. Это позволяет понять, куда двигаться в будущих исследованиях и как лучше интегрировать существующие технологии в практические приложения.

Отличное воскресенье чтиво

📕

📌 Читать

#ai #ml #reasoning #llm

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

❤6👍1🔥1

2.62K views14:10

Машиннное обучение | Наука о данных Библиотека

Forwarded from Data Science

Attention from Beginners Point of View

📚 Reed

@datascienceiot

❤4👍1👎1🔥1