Машиннное обучение | Наука о данных Библиотека
16.9K subscribers
751 photos
10 videos
21 files
652 links
админ - @workakkk

@ai_machinelearning_big_data - Machine learning

@itchannels_telegram - 🔥лучшие ит-каналы

@pythonl - Python

@pythonlbooks- python книги📚

@datascienceiot - ml книги📚

№ 5037635661
Download Telegram
Forwarded from Machinelearning
✔️ Бесплатные полезные руководства по дистилляции моделей:

1. Руководство по дистилляции от OpenAI 🖥

Руководство содержит подробное описание процесса передачи знаний от более крупной модели к компактной, c сохранением высокой производительности модели.

Основные аспекты, рассмотренные в руководстве:
- Сохранение выходных данных крупной модели: Создание набора данных, содержащего предсказания большой модели, которые будут использоваться для обучения меньшей модели.

- Оценка производительности моделей: Сравнительный анализ точности и эффективности как крупной, так и компактной моделей на основе различных метрик.

- Создание обучающих данных для компактной модели:
Использование предсказаний крупной модели для генерации обучающего набора данных, способствующего эффективному обучению меньшей модели.

- Оценка дообученной компактной модели: Проверка производительности и точности компактной модели после процесса дистилляции для подтверждения соответствия требованиям.

🔗Ссылка

2. Учебник по дистилляции знаний от PyTorch 🔥

Руководство от PyTorch, которое содержит практическое введение в технику передачи знаний для развёртывания моделей на устройствах с ограниченными вычислительными ресурсами.

Основные аспекты руководства:

- Извлечение скрытых представлений: В гайде показано, как получить промежуточные представления из обученной модели для дальнейшего использования.

- Модификация циклов обучения в PyTorch: Здесь рассматривается интеграция дополнительных функций в стандартные циклы обучения для эффективной передачи знаний.

- На примере показан процесс обучения компактной модели, с ипользованием предсказания более сложной модели в качестве ориентира.

Руководство содержит пошаговые инструкции и примеры кода, что делает его ценным ресурсом, если вы хотите научиться оптимизировать свои модели для использования в средах с ограниченными ресурсами.

Ссылка

3. Jetson Introduction to Knowledge Distillation от Nvidia 🖥

В данном руководстве рассматривается процесс передачи знаний от модели OpenCLIP (vision-language model) к модели ResNet18 для классификации на наборе данных STL10.

Особое внимание уделяется тому, как выбор данных, методы дистилляции и архитектура модели, влияют на итоговую точность.

Кроме того, обсуждаются методы профилирования и оптимизации моделей для их развёртывания на устройствах NVIDIA Jetson Orin Nano.

🔗 Ссылка

4. Учебник по дистилляции знаний от Keras ⭐️

Подробно описывается концепция дистилляции знаний и ее применение в обработке медицинских изображений.

🔗Github
🔗Учебник Keras

5. Руководство по дистилляции от
huggingface
🤗

Здесь показано, как выполнять дистилляцию знаний шаг за шагом на конкретном примере.

🔗 Ссылка

6. Дистилляция знаний для задач компьютерного зрения от huggingface 👁

Здесь рассматривается, как сделать файнтюн ViT-модели в MobileNet с помощью API Trainer из Transformers.

🔗Ссылка

#KnowledgeDistillation #Distillation #openai #keras #tutorial #course #freecourses #huggingface #Nvidia #pytorch
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
1👍1
🔥 The Ultra-Scale Playbook: руководство по обучению крупных языковых моделей на GPU-кластерах!

💡 Это руководство посвящено обучению больших языковых моделей на масштабируемых GPU-кластерах. В рамках этого проекта было проведено более 4000 экспериментов по масштабированию на кластере с использованием до 512 GPU, с целью измерения пропускной способности и эффективности обучения.

🔗 Ссылка: *клик*

#курс #machinelearning
Please open Telegram to view this post
VIEW IN TELEGRAM
8👍1🥰1
📖 В этой статье представлена новая архитектура модели под названием Inner Thinking Transformer (ITT), направленная на улучшение способности языковых моделей к адаптивному внутреннему мышлению без увеличения количества параметров!

💡 Авторы выявили, что сложные токены вызывают резкие всплески градиентов в стандартных трансформерах, что указывает на архитектурные ограничения при обработке таких токенов. В ответ на это ITT динамически распределяет вычислительные ресурсы через адаптивную маршрутизацию токенов, итеративно улучшает представления с помощью остаточных связей мышления и различает этапы рассуждений посредством кодирования шагов мышления. Это позволяет более глубоко обрабатывать критические токены без увеличения параметров модели.​

🌟 Экспериментальные результаты показывают, что ITT достигает 96,5% производительности модели с 466 миллионами параметров, используя всего 162 миллиона параметров, сокращает объем необходимых обучающих данных на 43,2% и превосходит варианты Transformer/Loop в 11 различных тестах. Таким образом, ITT эффективно балансирует между производительностью и эффективностью, оптимизируя внутренние процессы мышления модели.​

🔗 Ссылка: *клик*

@machinelearning_books
Please open Telegram to view this post
VIEW IN TELEGRAM
4👍3🔥3
Forwarded from Machinelearning
📌 Llama3 from scratch: расширенная версия

Проект "Deepdive Llama3 from scratch" - расширенный форк гайд-репозитория по созданию LLama-3 c нуля шаг за шагом.

Исходный проект был переработан, проактуализирован, улучшен и оптимизирован для того, чтобы помочь всем желающим понять и освоить принцип реализации и детальный процесс ризонинга модели Llama3.

▶️Изменения и улучшения в этом форке:

🟢Последовательность изложения материала была изменена, скорректирована структура чтобы сделать процесс обучения более прозрачным, помогая понимать код шаг за шагом;

🟢Добавлено большое количество подробных аннотаций к коду;

🟢Изменения размеров матрицы на каждом этапе вычислений полностью аннотированы;

🟢Добавлены подробные пояснения к принципам, чтобы в полной мере можно было освоить концепцию дизайна модели.

🟢Добавлена дополнительная глава, посвященная KV-сache, в которой подробно описаны основные концепции, принципы работы и процесс применения механизма внимания.


📌Лицензирование: MIT License.


🔜 Репозиторий на Github


@ai_machinelearning_big_data

#AI #ML #LLM #Tutorial #Github
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
6👍2
🔥 ​Approaching (Almost) Any Machine Learning Problem — это книга, основное внимание в которой уделяется практическим аспектам решения задач машинного обучения, включая предобработку данных, выбор моделей, кросс-валидацию, оценку метрик, обработку категориальных переменных, инженерные методы работы с признаками, отбор признаков, настройку гиперпараметров, а также подходы к классификации изображений и текста, ансамблированию и стеккингу моделей, обеспечению воспроизводимости кода и развертыванию моделей!

🌟 Книга содержит значительное количество кода, сопровождаемого подробными комментариями, что позволяет читателям следовать примерам и применять их в своих проектах. Автор подчеркивает, что книга не предназначена для изучения базовых алгоритмов, а сосредоточена на практических рекомендациях по решению реальных задач машинного обучения.

🖥 Github

#machinelearning
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥72🤝2
🔥 Эта книга — огромный набор упражнений по машинному обучению для самостоятельного решения!

🌟 Темы включают линейную алгебру, оптимизацию, графические модели, скрытые марковские модели, методы выборки и вариационные методы.

🔗 Ссылка: *клик*
Please open Telegram to view this post
VIEW IN TELEGRAM
👍162🤡2🤔1
TRACT: Regression-Aware Fine-tuning Meets
Chain-of-Thought Reasoning for LLM-as-a-Judge


📄 Читать

@machinelearning_books
3🔥2
Forwarded from Machinelearning
🔥 «The State of LLM Reasoning Models» свежая статья от Себастьяна Рашка, которая посвящена современному состоянию исследований в области рассуждений (reasoning) и масштабирования выводов (inference scaling) для больших языковых моделей (LLM).

Основные моменты:
- Эволюция возможностей рассуждения:
В статье показано, как с увеличением размеров моделей и вычислительных ресурсов появляются «внезапные» способности, позволяющие моделям выполнять сложное логическое и пошаговое рассуждение. Это включает методы вроде chain-of-thought, которые помогают моделям структурировать ответ.

- Масштабирование и его эффекты:
Анализируются закономерности масштабирования — как увеличение числа параметров и использование более мощных аппаратных средств влияет на точность и способность моделей к рассуждению. Выявляются пределы, где дополнительные вычисления начинают давать менее заметное улучшение.

- Инновации в инференсе:
Статья рассматривает новые подходы к оптимизации процесса инференса, что особенно важно для применения LLM в реальном времени и на устройствах с ограниченными ресурсами. Поднимается вопрос балансировки между качеством ответов и затратами на вычисления.

- Практические выводы для исследований:
Сатья служит ориентиром, показывающим, какие направления развития (например, улучшение алгоритмов рассуждения, оптимизация инференс-методов) могут принести наибольший эффект при дальнейшем увеличении масштабов моделей. Это позволяет понять, куда двигаться в будущих исследованиях и как лучше интегрировать существующие технологии в практические приложения.

Отличное воскресенье чтиво 📕

📌 Читать

#ai #ml #reasoning #llm
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
5👍1🔥1
Forwarded from Data Science
Attention from Beginners Point of View

📚 Reed

@datascienceiot
4👍1👎1🔥1