Машиннное обучение | Наука о данных Библиотека
16.9K subscribers
759 photos
10 videos
21 files
656 links
админ - @workakkk

@ai_machinelearning_big_data - Machine learning

@itchannels_telegram - 🔥лучшие ит-каналы

@pythonl - Python

@pythonlbooks- python книги📚

@datascienceiot - ml книги📚

№ 5037635661
Download Telegram
Forwarded from Machinelearning
📌 Практические упражнения и дополнительные материалы к книге "Build a Large Language Model (From Scratch)"

Репозиторий на Github c прикладными упражнениями, ноутбуками с кодом для разработки, предварительной подготовки и тонкой настройке LLM-модели типа GPT по одной из лучших книг о построении LLM с нуля.

▶️ О книге:
В книге вы узнаете и поймете, как работают большие языковые модели изнутри, создавая собственную LLM шаг за шагом, c подробным объяснением каждого этапа понятным языком, диаграммами и примерами.

Метод, описанный в книге демонстрирует подход, используемый при создании крупных фундаментальных моделей, таких как те, что лежат в основе ChatGPT.

В репозитории к каждой главе книги соответствуют несколько (3-4) прикладных примеров в формате ipynb или в виде исполняемого python-скрипта. Код ориентирован на широкую аудиторию, разработан для запуска на обычных ноутбуках и не требует специализированного оборудования.

▶️Главная ценность репозитория - дополнительные практические материалы, которые помогут глубже изучить тонкости и нюансы процесса настройки и обучения LLM:

Настройка

🟢Советы на настройке Python
🟢Установка пакетов и библиотек Python
🟢Руководство по настройке среды Docker

Глава 2: Работа с текстовыми данными

🟠Сравнение различных реализаций Byte Pair Encoding (BPE)
🟠Понимание разницы между embedding и линейными слоями
🟠Dataloader Intuition с простыми числами

Глава 3: Код механизмов внимания

🟢Сравнение эффективных реализаций Multi-Head Attention
🟢Буферы PyTorch

Глава 4: Реализация модели GPT с нуля

🟠Анализ FLOPS

Глава 5: Предварительное обучение на немаркированных данных

🟢Альтернативная загрузка весов с HuggingFace с использованием Transformers
🟢Предварительное обучение GPT на наборе данных проекта Gutenberg
🟢Добавление дополнительных функций в цикл обучения
🟢Оптимизация гиперпараметров для предварительного обучения
🟢Создание пользовательского интерфейса для взаимодействия с LLM
🟢Преобразование GPT в Llama
🟢Llama 3.2 с нуля
🟢Memory-efficient загрузка модели

Глава 6: Тонкая настройка для классификации

🟠Дополнительные эксперименты по точной настройке различных слоев и использованию более крупных моделей
🟠Тонкая настройка различных моделей на основе датасета обзоров фильмов IMDB объемом 50 тыс. строк.
🟠Создание пользовательского интерфейса для взаимодействия с классификатором спама на основе GPT

Глава 7: Тонкая настройка для следования инструкциям

🟢Утилиты набора данных для поиска близких дубликатов и создания записей в пассивном залоге
🟢Оценка ответов на инструкции с использованием API OpenAI и Ollama
🟢Создание датасета для точной настройки инструкций
🟢Улучшение набора данных для точной настройки инструкций
🟢Создание набора данных предпочтений с помощью Llama 3.1 70B и Ollama
🟢DPO для процедуры LLM Alignment
🟢Создание пользовательского интерфейса для взаимодействия с моделью GPT с тонкой настройкой инструкций


🖥Github


@ai_machinelearning_big_data

#AI #ML #LLM #Tutorial #Github
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
4👍4🔥21💘1
Reinforcement Learning An Introduction, 2nd Edition

📕 Book

@machinelearning_books
52👎2🔥1💔1
📌Machine Learning cheatsheet

Шпаргалка по ML от Стэнфорда, здесь даны метрики классификации, метрики регрессии, описывается кросс-валидация, регуляризация и не только

📎 Шпаргалка
🟡 PDF-версия

@machinelearning_interview
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍8🔥521
🔥 Крутая шпаргалка по машинному обучению!

В этой шпаргалке представлен весь мир машинного обучения. На ней выделены следующие ключевые направления:

Регрессия: OLS, SVM, Random Forest
Классификация: Naive Bayes, Decision Tree, нейронные сети
Кластеризация: K-Means, DBSCAN
Компьютерное зрение: CNN, YOLO, GANs
NLP/LLM: GPT, BERT, Word2Vec
Рекомендательные системы, прогнозирование

@machinelearning_books
👍113🔥2
Нейронки активно используются в различных областях: бизнес, здравоохранение, образование. Теперь внедрение ИИ в процессы – must have.

На днях Yandex B2B Tech представила новый сервис AI Assistant API. Внедрение API ускорит внедрение языковых моделей в бизнес-процессы более чем на 30%. Под капотом – YandexGPT 4, версия способна рассуждать и обрабатывать в четыре раза более длинные запросы и минимизирует долю ошибок и выдуманных фактов при ответа.

@machinelearning_books
51👍1
💥 Открытый курс от Nvidia: Self-Paced Training

Узнайте, как создать комплексный проект за восемь часов или как применить конкретную технологию Глубокого обучения или методику разработки.

https://learn.nvidia.com/en-us/training/self-paced-courses

@machinelearning_books
👍114🔥2
📌 Введение в глубокое обучение

🖥 Github

@machinelearning_library
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥8👍541
Forwarded from Machinelearning
📌Книга "Обучение с подкреплением: Основы"

Хороших книг по обучению с подкреплением (Reinforcement Learning, RL) уже выпущено достаточно, однако есть пробел между продвинутыми учебниками, в которых основное внимание уделяется одному или нескольким аспектам, и более общими книгами, в которых предпочтение отдается удобочитаемости, а не сложности.

Авторы книги, люди с опытом работы в CS и инжиниринга, подают тему RL в строгом и академическом стиле. Книга основана на конспектах лекций для углубленного курса бакалавриата, который преподается авторами в Тель-Авивском университете.

К этой книге дополнительно идет брошюра с упражнениями и экзаменационными вопросами, которые помогут освоить материал книги на практике. Эти упражнения разрабатывались на протяжении нескольких лет.

Математическая модель книги - Марковский процесс принятия решений (Markov Decision Process, MDP). Основное внимание уделяется: последовательному принятию решений, выбору действий, долгосрочному эффекту от этих действий и разница между немедленным вознаграждением и долгосрочной выгодой.

Тематически книга состоит из двух частей – "Планирование" и "Обучение".

▶️ Раздел "Планирование" - основы принятия оптимальных решений в условиях неопределенности в соответствии с MDP.

🟢Глава 2. Обоснование модели MDP и ее связь с другими моделями.
🟢Глава 3. Основные алгоритмические идеи в детерминированной постановке.
🟢Глава 4. Цепи Маркова, на которых основана MDP.
🟢Глава 5. Модель MDP с конечным горизонтом и фундаментальный подход к динамическому программированию.
🟢Глава 6. Дисконтированная настройка с бесконечным горизонтом.
🟢Глава 7. Эпизодическая настройка.
🟢Глава 8. Альтернативный подход к решению MDP с использованием формулировки линейного программирования.

▶️ Раздел "Обучение" - принятие решений, когда модель MDP неизвестна заранее.

🟠Глава 9. Описание и мотивация модели обучения и ее связь с альтернативами при принятии решений.
🟠Глава 10. Подход, основанный на моделях, при котором агент явно изучает модель MDP на основе своего опыта и использует ее для принятия решений по планированию.
🟠Глава 11. Альтернативный подход без использования моделей, при котором решения принимаются без явного построения модели.
🟠Глава 12. Изучение приблизительно оптимальных решений крупных задач с использованием аппроксимации функции стоимости.
🟠Глава 13 Решение крупных задач с использованием методов градиентной политики.
🟠Глава 14. Особый случай на примере игровых автоматов, как MDP с единым состоянием и неизвестными наградами, и онлайн-характер принятия решений.


🟡Сайт учебника
🟡Читать


@ai_machinelearning_big_data

#AI #ML #RL #MDP #Book
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥8👍74
Introducing the Cookbook 📕

Коллекция гайдов и руководств с открытым исходным кодом для создания блюд с помощью AI SDK.

📚 Книги

@machinelearning_library
Please open Telegram to view this post
VIEW IN TELEGRAM
👍54🔥2
Gaussian Processes for Machine Learning

📚 Книги

@machinelearning_library
Please open Telegram to view this post
VIEW IN TELEGRAM
8👍7🔥2
⚡️Легкий способ получать свежие обновления и следить за трендами в разработке на вашем языке. Находите свой стек и подписывайтесь:

МАШИННОЕ ОБУЧЕНИЕ: t.iss.one/ai_machinelearning_big_data
C++ t.iss.one/cpluspluc
Python: t.iss.one/pythonl
Linux: t.iss.one/linuxacademiya
Хакинг: t.iss.one/linuxkalii
Devops: t.iss.one/DevOPSitsec
АНАЛИЗ Данных: t.iss.one/data_analysis_ml
Javascript: t.iss.one/javascriptv
C#: t.iss.one/csharp_ci
Java: t.iss.one/javatg
Базы данных: t.iss.one/sqlhub
Python собеседования: t.iss.one/python_job_interview
Мобильная разработка: t.iss.one/mobdevelop
Docker: t.iss.one/DevopsDocker
Golang: t.iss.one/golang_interview
React: t.iss.one/react_tg
Rust: t.iss.one/rust_code
ИИ: t.iss.one/vistehno
PHP: t.iss.one/phpshka
Android: t.iss.one/android_its
Frontend: t.iss.one/front
Big Data: t.iss.one/bigdatai
Собеседования МЛ: t.iss.one/machinelearning_interview
МАТЕМАТИКА: t.iss.one/data_math
Kubernets: t.iss.one/kubernetc
Разработка игр: https://t.iss.one/gamedev

💼 Папка с вакансиями: t.iss.one/addlist/_zyy_jQ_QUsyM2Vi
Папка Go разработчика: t.iss.one/addlist/MUtJEeJSxeY2YTFi
Папка Python разработчика: t.iss.one/addlist/eEPya-HF6mkxMGIy
Папка ML: https://t.iss.one/addlist/2Ls-snqEeytkMDgy
Папка FRONTEND: https://t.iss.one/addlist/mzMMG3RPZhY2M2Iy

😆ИТ-Мемы: t.iss.one/memes_prog
🇬🇧Английский: t.iss.one/english_forprogrammers
🧠ИИ: t.iss.one/vistehno

🎓954ГБ ОПЕНСОРС КУРСОВ: @courses
📕Ит-книги бесплатно: https://t.iss.one/addlist/BkskQciUW_FhNjEy
4
📕 Cache-Oblivious Algorithms and Data Structures

🎓 Читать

@machinelearning_books
8👍2
⚡️ Изучите создание промтов с помощью интерактивного руководства Anthropic по разработке подсказок.

👉 Ссылка на Google sheet

@machinelearning_books
11👍5🔥2💩2
Calculus 1 for Honours Mathematics

🔗 Book

@machinelearning_books
👍63🔥1
🖥 t.iss.one/haskell_tg - Haskell входит в число наиболее востребованных функциональных языков программирования.

В нашем новом канале, вы найдете множество уроков, книг и гайдов для погружения в этот мощный язык с нуля.

Отличная возможность не только выучить новый язык, но и возможность прокачать свои навыки программирования.

t.iss.one/haskell_tg - стоит подписаться!
Please open Telegram to view this post
VIEW IN TELEGRAM
😁4👍21