Linux Books
16.1K subscribers
150 photos
5 videos
252 files
157 links
@linuxkalii - наш канал

По всем вопросам- @notxxx1

№ 5032799382
Download Telegram
Forwarded from Machinelearning
📌Книга "Обучение с подкреплением: Основы"

Хороших книг по обучению с подкреплением (Reinforcement Learning, RL) уже выпущено достаточно, однако есть пробел между продвинутыми учебниками, в которых основное внимание уделяется одному или нескольким аспектам, и более общими книгами, в которых предпочтение отдается удобочитаемости, а не сложности.

Авторы книги, люди с опытом работы в CS и инжиниринга, подают тему RL в строгом и академическом стиле. Книга основана на конспектах лекций для углубленного курса бакалавриата, который преподается авторами в Тель-Авивском университете.

К этой книге дополнительно идет брошюра с упражнениями и экзаменационными вопросами, которые помогут освоить материал книги на практике. Эти упражнения разрабатывались на протяжении нескольких лет.

Математическая модель книги - Марковский процесс принятия решений (Markov Decision Process, MDP). Основное внимание уделяется: последовательному принятию решений, выбору действий, долгосрочному эффекту от этих действий и разница между немедленным вознаграждением и долгосрочной выгодой.

Тематически книга состоит из двух частей – "Планирование" и "Обучение".

▶️ Раздел "Планирование" - основы принятия оптимальных решений в условиях неопределенности в соответствии с MDP.

🟢Глава 2. Обоснование модели MDP и ее связь с другими моделями.
🟢Глава 3. Основные алгоритмические идеи в детерминированной постановке.
🟢Глава 4. Цепи Маркова, на которых основана MDP.
🟢Глава 5. Модель MDP с конечным горизонтом и фундаментальный подход к динамическому программированию.
🟢Глава 6. Дисконтированная настройка с бесконечным горизонтом.
🟢Глава 7. Эпизодическая настройка.
🟢Глава 8. Альтернативный подход к решению MDP с использованием формулировки линейного программирования.

▶️ Раздел "Обучение" - принятие решений, когда модель MDP неизвестна заранее.

🟠Глава 9. Описание и мотивация модели обучения и ее связь с альтернативами при принятии решений.
🟠Глава 10. Подход, основанный на моделях, при котором агент явно изучает модель MDP на основе своего опыта и использует ее для принятия решений по планированию.
🟠Глава 11. Альтернативный подход без использования моделей, при котором решения принимаются без явного построения модели.
🟠Глава 12. Изучение приблизительно оптимальных решений крупных задач с использованием аппроксимации функции стоимости.
🟠Глава 13 Решение крупных задач с использованием методов градиентной политики.
🟠Глава 14. Особый случай на примере игровых автоматов, как MDP с единым состоянием и неизвестными наградами, и онлайн-характер принятия решений.


🟡Сайт учебника
🟡Читать


@ai_machinelearning_big_data

#AI #ML #RL #MDP #Book
Please open Telegram to view this post
VIEW IN TELEGRAM
👍95
Forwarded from Machinelearning
📌Интерактивное руководство по Prompt Engineering для Ollama.

Репозиторий на Github c набором ipynb-туториалов по Prompt Engineering для освоения методов создания оптимальных промптов для модели Qwen2.5-14B.

Руководство разделено на 9 глав с практическими упражнениями и приложением с "продвинутыми" методами. В каждой главе есть "Example Playground" для экспериментов с примерами и наблюдения за изменениями в инференсе Ollama.

Руководство использует модель Qwen 2.5-14B, но все материалы подходят и для модели Qwen 2.5-7B.

▶️Содержание:

Начальный уровень

🟢Глава 1: Базовая структура промпта.
🟢Глава 2: Ясность и прямота.
🟢Глава 3: Назначение ролей.

Средний уровень

🟢Глава 4: Отделение данных от инструкций.
🟢Глава 5: Форматы данных инференса и речь для Ollama.
🟢Глава 6: Рассуждение (шаг за шагом).
🟢Глава 7: Использование примеров.

Продвинутый уровень

🟠Глава 8: Избегание галлюцинаций.
🟠Глава 9: Создание сложных промптов (примеры использования для реальных задач):

🟢Сложные промпты с нуля - чатбот;
🟢Сложные промпты с нуля по юридическим услугам;
🟢Упражнение: Сложные промпты для финансовых услуг;
🟢Упражнение: Сложные промпты для программирования.

Приложение: За пределами стандартных подсказок

🟠Цепочка промптов.
🟠Использование инструментов.


📌Лицензирование: MIT License.


🖥GitHub


@ai_machinelearning_big_data

#AI #ML #LLM #Github #Tutorial #Ollama
Please open Telegram to view this post
VIEW IN TELEGRAM
👍103🔥2👎1