📖 Разработчик из DeepMind выпустил бесплатное руководство по обучению нейросетей с использованием методов подкрепления (Reinforcement Learning, RL).
Для специалистов в области машинного обучения (ML) оно станет настоящей находкой для ближайшего вечера:
- Введение — основные принципы RL и примеры применения.
- Value-based RL — базовые концепции метода.
- Policy-based RL — ключевые стратегии оптимизации действий.
- Model-based RL — техники планирования решений.
- Другие аспекты RL — использование в языковых моделях (LLM), пути к созданию общего искусственного интеллекта (AGI), разработка функций вознаграждения, иерархия задач и многое другое.
📌 Читать
@machinelearning_books
Для специалистов в области машинного обучения (ML) оно станет настоящей находкой для ближайшего вечера:
- Введение — основные принципы RL и примеры применения.
- Value-based RL — базовые концепции метода.
- Policy-based RL — ключевые стратегии оптимизации действий.
- Model-based RL — техники планирования решений.
- Другие аспекты RL — использование в языковых моделях (LLM), пути к созданию общего искусственного интеллекта (AGI), разработка функций вознаграждения, иерархия задач и многое другое.
📌 Читать
@machinelearning_books
❤11👍5🔥2💩1
Forwarded from Machinelearning
Репозиторий на Github c набором ipynb-туториалов по Prompt Engineering для освоения методов создания оптимальных промптов для модели Qwen2.5-14B.
Руководство разделено на 9 глав с практическими упражнениями и приложением с "продвинутыми" методами. В каждой главе есть "Example Playground" для экспериментов с примерами и наблюдения за изменениями в инференсе Ollama.
Руководство использует модель Qwen 2.5-14B, но все материалы подходят и для модели Qwen 2.5-7B.
Начальный уровень
Средний уровень
Продвинутый уровень
Приложение: За пределами стандартных подсказок
@ai_machinelearning_big_data
#AI #ML #LLM #Github #Tutorial #Ollama
Please open Telegram to view this post
VIEW IN TELEGRAM
❤5👍1🔥1💩1
Forwarded from Haskell
Добро пожаловать в мир функционального программирования, строгой типизации, чистых функций, ленивых вычислений и классов типов.
Всё это вы найдёте в замечательном языке программирования Haskell.
Если вы просто где-то слышали о Haskell, и пока это описание ни о чём не говорит, ничего, об этом и о многом другом вы узнаете со страниц этой книги.
Haskell был основан на исходе восьмидесятых, как общий язык для программистов, интересующихся функциональным программированием и ленивой стратегией вычислений.
Это свободный язык, он разрабатывается комитетом разработчиков, программистов, математиков, информатиков, и просто увлечённых программированием людей. Основной компилятор языка GHC разрабатывается в Microsoft Research, но несмотря на это легко доступен в интернет. Вы можете установить его через Haskell Platform (для начинающих) или напрямую с сайта GHC (для гиков и любителей квестов). Ещё нам понадобится редактор с подсветкой синтаксиса Haskell.
Подойдёт простой gedit или более тяжёлые vim и Emacs. Есть и IDE для Haskell. Это Leksah, но пока ещё она совсем юная.
Итак, устанавливаем компилятор GHC подбираем редактор по вкусу и в добрый путь!
📚 Учебник
@haskell_tg
Please open Telegram to view this post
VIEW IN TELEGRAM
👍9❤4🔥1
@machinelearning_books
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6❤3
Forwarded from Machinelearning
Fundan University совместно с Shanghai AI Laboratory составили дорожную карту, как повторить возможности модели o1 от OpenAI.
Главное – обучение с подкреплением, есть 4 важных условия, которые нужно сделать, чтобы добиться такого же уровня, как у o1:
Инициализация политики начинается с предварительного обучения LLM на больших текстовых датасетах. Они должны быть из разных областей и включать помимо классических задач NLP, примеры логического рассуждения, знаний о мире и демонстрировать паттерны навыка сравнения. Это позволит модели освоить базовое понимание языка и навыки рассуждения.
Последующая тонкая настройка на инструкциях преобразует модель из "предсказателя следующего токена" в полноценного агента, который может выполнять задачи. Тут важно добавить в процесс человекоподобных рассуждений через SFT или подсказки, чтобы научить модель исследовать пространство решений. Например, самооценке и самокоррекции, как это происходит у OpenAI o1.
Разработка вознаграждения дает модели четкую и понятную обратную связь не только в конце решения задачи, но и на промежуточных этапах. Правильно спроектированная система с использованием внутренних и внешних функций крайне важна, с ней модель учится лучше.
Поиск - решающий навык для генерации качественных решений на этапах обучения и тестирования. Использование методов Best-of-N, Beam Search, MCTS позволяет получить лучшие из возможных результатов. Например, MCTS подходит для более широкого исследования пространства решений.
Обучение использует данные, полученные в процессе поиска для улучшения политики модели. Чем больше параметров и объем поисковых данных - тем лучше производительность в итоге. По сути, обучение и поиск работают как "суперсила", способствуя развитию модели.
Выводы, сделанные в процессе исследования авторами сводятся к тому, что существующие открытые проекты, которые пытаются воспроизвести o1 - вариации такого метода обучения. Обучение с подкреплением - ключ к созданию "рассуждающей модели".
@ai_machinelearning_big_data
#AI #ML #LLM #Paper #RL
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍11🔥6❤3🤔2💘1
⚡️ LLMs for AGI
В книге подробно обсуждаются фундаментальные проблемы которые необходимо решать для того, чтобы LLM достигли общего интеллекта человеческого уровня.
Отличное чтение для всех, кто интересуется исследованиями в области AGI.
📌 Читать
В книге подробно обсуждаются фундаментальные проблемы которые необходимо решать для того, чтобы LLM достигли общего интеллекта человеческого уровня.
Отличное чтение для всех, кто интересуется исследованиями в области AGI.
📌 Читать
🔥8❤3👏2🤔1🥴1
Forwarded from Machinelearning
Свежее руководство по обучению с подкреплением, которое очень подробно объясняет всю теорию и детали реализации каждого алгоритма в этой области со множеством примеров и кодом.
Наслаждайтесь чтением)
📌 Читать
@ai_machinelearning_big_data
#ml #reinforcementlearning #rl #guiede
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤14👍4🔥2⚡1
Forwarded from Machinelearning
Эта свежая бесплатная книга (и отлично чтиво на выходные) по LLM, которая только что появилась на arXiv.
Более 230 страница!
Книга состоит из четырех частей: предварительному обучению, генеративным моделям, промпт-инжинирингу и методам оптимизации LLM.
Это хорошее введение в большие языковые модели для разработчиков и студентов.
📌 Читать
@ai_machinelearning_big_data
#freebook #book #machinelearning #llm #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤8👍5🥱3🔥1