Машиннное обучение | Наука о данных Библиотека
16.9K subscribers
735 photos
10 videos
21 files
636 links
админ - @workakkk

@ai_machinelearning_big_data - Machine learning

@itchannels_telegram - 🔥лучшие ит-каналы

@pythonl - Python

@pythonlbooks- python книги📚

@datascienceiot - ml книги📚

№ 5037635661
Download Telegram
Forwarded from Machinelearning
📌 Практические упражнения и дополнительные материалы к книге "Build a Large Language Model (From Scratch)"

Репозиторий на Github c прикладными упражнениями, ноутбуками с кодом для разработки, предварительной подготовки и тонкой настройке LLM-модели типа GPT по одной из лучших книг о построении LLM с нуля.

▶️ О книге:
В книге вы узнаете и поймете, как работают большие языковые модели изнутри, создавая собственную LLM шаг за шагом, c подробным объяснением каждого этапа понятным языком, диаграммами и примерами.

Метод, описанный в книге демонстрирует подход, используемый при создании крупных фундаментальных моделей, таких как те, что лежат в основе ChatGPT.

В репозитории к каждой главе книги соответствуют несколько (3-4) прикладных примеров в формате ipynb или в виде исполняемого python-скрипта. Код ориентирован на широкую аудиторию, разработан для запуска на обычных ноутбуках и не требует специализированного оборудования.

▶️Главная ценность репозитория - дополнительные практические материалы, которые помогут глубже изучить тонкости и нюансы процесса настройки и обучения LLM:

Настройка

🟢Советы на настройке Python
🟢Установка пакетов и библиотек Python
🟢Руководство по настройке среды Docker

Глава 2: Работа с текстовыми данными

🟠Сравнение различных реализаций Byte Pair Encoding (BPE)
🟠Понимание разницы между embedding и линейными слоями
🟠Dataloader Intuition с простыми числами

Глава 3: Код механизмов внимания

🟢Сравнение эффективных реализаций Multi-Head Attention
🟢Буферы PyTorch

Глава 4: Реализация модели GPT с нуля

🟠Анализ FLOPS

Глава 5: Предварительное обучение на немаркированных данных

🟢Альтернативная загрузка весов с HuggingFace с использованием Transformers
🟢Предварительное обучение GPT на наборе данных проекта Gutenberg
🟢Добавление дополнительных функций в цикл обучения
🟢Оптимизация гиперпараметров для предварительного обучения
🟢Создание пользовательского интерфейса для взаимодействия с LLM
🟢Преобразование GPT в Llama
🟢Llama 3.2 с нуля
🟢Memory-efficient загрузка модели

Глава 6: Тонкая настройка для классификации

🟠Дополнительные эксперименты по точной настройке различных слоев и использованию более крупных моделей
🟠Тонкая настройка различных моделей на основе датасета обзоров фильмов IMDB объемом 50 тыс. строк.
🟠Создание пользовательского интерфейса для взаимодействия с классификатором спама на основе GPT

Глава 7: Тонкая настройка для следования инструкциям

🟢Утилиты набора данных для поиска близких дубликатов и создания записей в пассивном залоге
🟢Оценка ответов на инструкции с использованием API OpenAI и Ollama
🟢Создание датасета для точной настройки инструкций
🟢Улучшение набора данных для точной настройки инструкций
🟢Создание набора данных предпочтений с помощью Llama 3.1 70B и Ollama
🟢DPO для процедуры LLM Alignment
🟢Создание пользовательского интерфейса для взаимодействия с моделью GPT с тонкой настройкой инструкций


🖥Github


@ai_machinelearning_big_data

#AI #ML #LLM #Tutorial #Github
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
4👍4🔥21💘1
Forwarded from Machinelearning
📌Интерактивное руководство по Prompt Engineering для Ollama.

Репозиторий на Github c набором ipynb-туториалов по Prompt Engineering для освоения методов создания оптимальных промптов для модели Qwen2.5-14B.

Руководство разделено на 9 глав с практическими упражнениями и приложением с "продвинутыми" методами. В каждой главе есть "Example Playground" для экспериментов с примерами и наблюдения за изменениями в инференсе Ollama.

Руководство использует модель Qwen 2.5-14B, но все материалы подходят и для модели Qwen 2.5-7B.

▶️Содержание:

Начальный уровень

🟢Глава 1: Базовая структура промпта.
🟢Глава 2: Ясность и прямота.
🟢Глава 3: Назначение ролей.

Средний уровень

🟢Глава 4: Отделение данных от инструкций.
🟢Глава 5: Форматы данных инференса и речь для Ollama.
🟢Глава 6: Рассуждение (шаг за шагом).
🟢Глава 7: Использование примеров.

Продвинутый уровень

🟠Глава 8: Избегание галлюцинаций.
🟠Глава 9: Создание сложных промптов (примеры использования для реальных задач):

🟢Сложные промпты с нуля - чатбот;
🟢Сложные промпты с нуля по юридическим услугам;
🟢Упражнение: Сложные промпты для финансовых услуг;
🟢Упражнение: Сложные промпты для программирования.

Приложение: За пределами стандартных подсказок

🟠Цепочка промптов.
🟠Использование инструментов.


📌Лицензирование: MIT License.


🖥GitHub


@ai_machinelearning_big_data

#AI #ML #LLM #Github #Tutorial #Ollama
Please open Telegram to view this post
VIEW IN TELEGRAM
5👍1🔥1💩1
Forwarded from Machinelearning
📌Роадмэп воспроизведения o1 от OpenAI с фокусом на RL.

Fundan University совместно с Shanghai AI Laboratory составили дорожную карту, как повторить возможности модели o1 от OpenAI.

Главное – обучение с подкреплением, есть 4 важных условия, которые нужно сделать, чтобы добиться такого же уровня, как у o1:

🟢Инициализация политики
🟢Разработка вознаграждения
🟢Поиск
🟢Обучение

Инициализация политики начинается с предварительного обучения LLM на больших текстовых датасетах. Они должны быть из разных областей и включать помимо классических задач NLP, примеры логического рассуждения, знаний о мире и демонстрировать паттерны навыка сравнения. Это позволит модели освоить базовое понимание языка и навыки рассуждения.

Последующая тонкая настройка на инструкциях преобразует модель из "предсказателя следующего токена" в полноценного агента, который может выполнять задачи. Тут важно добавить в процесс человекоподобных рассуждений через SFT или подсказки, чтобы научить модель исследовать пространство решений. Например, самооценке и самокоррекции, как это происходит у OpenAI o1.

Разработка вознаграждения дает модели четкую и понятную обратную связь не только в конце решения задачи, но и на промежуточных этапах. Правильно спроектированная система с использованием внутренних и внешних функций крайне важна, с ней модель учится лучше.

Поиск - решающий навык для генерации качественных решений на этапах обучения и тестирования. Использование методов Best-of-N, Beam Search, MCTS позволяет получить лучшие из возможных результатов. Например, MCTS подходит для более широкого исследования пространства решений.

Обучение использует данные, полученные в процессе поиска для улучшения политики модели. Чем больше параметров и объем поисковых данных - тем лучше производительность в итоге. По сути, обучение и поиск работают как "суперсила", способствуя развитию модели.

Выводы, сделанные в процессе исследования авторами сводятся к тому, что существующие открытые проекты, которые пытаются воспроизвести o1 - вариации такого метода обучения. Обучение с подкреплением - ключ к созданию "рассуждающей модели".

🟡Arxiv


@ai_machinelearning_big_data

#AI #ML #LLM #Paper #RL
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍11🔥63🤔2💘1
Forwarded from Machinelearning
📕 Foundations of Large Language Models

Эта свежая бесплатная книга (и отлично чтиво на выходные) по LLM, которая только что появилась на arXiv.

Более 230 страница!

Книга состоит из четырех частей: предварительному обучению, генеративным моделям, промпт-инжинирингу и методам оптимизации LLM.

Это хорошее введение в большие языковые модели для разработчиков и студентов.

📌 Читать

@ai_machinelearning_big_data


#freebook #book #machinelearning #llm #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
8👍5🥱3🔥1
Forwarded from Machinelearning
📌 Llama3 from scratch: расширенная версия

Проект "Deepdive Llama3 from scratch" - расширенный форк гайд-репозитория по созданию LLama-3 c нуля шаг за шагом.

Исходный проект был переработан, проактуализирован, улучшен и оптимизирован для того, чтобы помочь всем желающим понять и освоить принцип реализации и детальный процесс ризонинга модели Llama3.

▶️Изменения и улучшения в этом форке:

🟢Последовательность изложения материала была изменена, скорректирована структура чтобы сделать процесс обучения более прозрачным, помогая понимать код шаг за шагом;

🟢Добавлено большое количество подробных аннотаций к коду;

🟢Изменения размеров матрицы на каждом этапе вычислений полностью аннотированы;

🟢Добавлены подробные пояснения к принципам, чтобы в полной мере можно было освоить концепцию дизайна модели.

🟢Добавлена дополнительная глава, посвященная KV-сache, в которой подробно описаны основные концепции, принципы работы и процесс применения механизма внимания.


📌Лицензирование: MIT License.


🔜 Репозиторий на Github


@ai_machinelearning_big_data

#AI #ML #LLM #Tutorial #Github
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
6👍2
Forwarded from Machinelearning
🔥 «The State of LLM Reasoning Models» свежая статья от Себастьяна Рашка, которая посвящена современному состоянию исследований в области рассуждений (reasoning) и масштабирования выводов (inference scaling) для больших языковых моделей (LLM).

Основные моменты:
- Эволюция возможностей рассуждения:
В статье показано, как с увеличением размеров моделей и вычислительных ресурсов появляются «внезапные» способности, позволяющие моделям выполнять сложное логическое и пошаговое рассуждение. Это включает методы вроде chain-of-thought, которые помогают моделям структурировать ответ.

- Масштабирование и его эффекты:
Анализируются закономерности масштабирования — как увеличение числа параметров и использование более мощных аппаратных средств влияет на точность и способность моделей к рассуждению. Выявляются пределы, где дополнительные вычисления начинают давать менее заметное улучшение.

- Инновации в инференсе:
Статья рассматривает новые подходы к оптимизации процесса инференса, что особенно важно для применения LLM в реальном времени и на устройствах с ограниченными ресурсами. Поднимается вопрос балансировки между качеством ответов и затратами на вычисления.

- Практические выводы для исследований:
Сатья служит ориентиром, показывающим, какие направления развития (например, улучшение алгоритмов рассуждения, оптимизация инференс-методов) могут принести наибольший эффект при дальнейшем увеличении масштабов моделей. Это позволяет понять, куда двигаться в будущих исследованиях и как лучше интегрировать существующие технологии в практические приложения.

Отличное воскресенье чтиво 📕

📌 Читать

#ai #ml #reasoning #llm
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
5👍1🔥1
Forwarded from Machinelearning
📌Обучение с подкреплением: как языковые модели учатся рассуждать.

Объемная и интересная статья Sebastian Raschka, автора книги "Build a Large Language Model From Scratch" о тенденциях и проблемах современных методов обучения LLM через призму RL.

В мире LLM последние месяцы стали переломными. Релизы GPT-4.5 и Llama 4, вопреки ожиданиям, не вызвали ажиотажа — все потому, что эти модели остались «классическими», без продвинутых методов обучения для рассуждений. Их конкуренты - xAI и Anthropic уже добавили кнопки «расширенного мышления», а OpenAI представила o3 — модель, где упор сделан на стратегическое применение вычислений через обучение с подкреплением. Становится ясно: масштабирование данных и параметров почти исчерпало себя, и будущее за RL.

Основной инструмент RLHF (обучение с подкреплением на основе человеческой обратной связи) давно используется для настройки LLM под предпочтения людей. Но для задач, требующих логики, этого недостаточно.

Здесь на сцену выходит GRPO — модификация алгоритма PPO, которая экономит ресурсы, убирая «критика» (модель оценки вознаграждения). Так создавалась DeepSeek-R1-Zero, ее обучали вообще без этапа SFT, используя только автоматические проверки ответов. Если математическая задача решена верно, модель получает «плюс», если нет — «минус». Такой подход не только дешевле, но и снижает риск «обмана» модели (reward hacking).

Но и RL — не панацея. Исследования показывают, что PPO и GRPO неявно поощряют длинные ответы, даже если те ошибочны. Например, при отрицательном вознаграждении штраф распределяется по токенам, и модель учится растягивать текст, чтобы смягчить наказание.

Решения уже есть: одни команды вводят штрафы за длину, другие меняют расчет преимуществ. А модель L1 от Kaggle и вовсе позволяет пользователям задавать желаемую длину ответа, балансируя между точностью и затратами.

Способность к рассуждениям может возникать и без RL. DeepSeek V3 демонстрирует мыслительные «озарения», хотя ее не обучали специально. Этот факт всерьез ставит под вопрос исключительную роль RL — возможно, все дело в данных, где уже есть цепочки логических шагов.

Тем не менее, RL усиливает эти способности: модели начинают самокорректироваться, использовать внешние инструменты (калькуляторы, поиск) и даже переносить навыки между доменами — от математики до медицины.

Некоторые заявления о прогрессе оказались преувеличены: улучшения на мелких моделях часто нестабильны, а результаты зависят от случайных факторов вроде выбора сида. Кроме того, RL требует внушительных ресурсов (o3 от OpenAI потратила при обучении в 10 раз больше вычислений, чем предыдущая версия)

В итоге, RL остается ключевым направлением, но важно избегать «эйфории». Сочетание RL с автоматической проверкой ответов, контроль длины и гибридные подходы (как в DeepSeek-R1) — вот что приближает нас к моделям, которые не просто генерируют текст, а действительно думают.

🔜 Читать статью в оригинале


@ai_machinelearning_big_data

#AI #ML #LLM #RL
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍81
🧠 Математика, красота и истина в эпоху ИИ

Когда-то математическое доказательство считалось вершиной человеческой логики и элегантности. Но ИИ меняет даже это.

В статье исследуется, как ИИ трансформирует подходы к математике:

🔹 ИИ создает доказательства — не просто перебором, а находя закономерности, генерируя гипотезы и даже формируя контрпримеры.
🔹 Модели уровня DeepMind уже выигрывают медали на Международной математической олимпиаде.
🔹 Красота и элегантность в доказательствах теперь оцениваются не только людьми — ИИ начинает создавать новые формы "математической эстетики".

> “Они разрушают те границы, которые я считал непреодолимыми”
> — Эндрю Грэнвилл, математик

⚖️ Дискуссия: если ИИ способен доказать теорему, но человек не может это понять — считается ли это «знанием»?


📌 Полный текст

#искусственныйинтеллект #математика #ChatGPT #DeepMind #LLM #AI #наука
5👍2🔥1🤮1
Forwarded from Machinelearning
📌 Microsoft прокачивает логику ИИ: как маленькие модели учатся рассуждать.

Microsoft Research представила методы, усиливающие способность языковых моделей, от компактных до гигантских к сложным рассуждениям. Технологии фокусируются на 3 направлениях: архитектура малых моделей, математическая строгость и кросс-доменное обобщение.

Ключ для маленьких моделей (1.5–7 млрд параметров) в имитации человеческого пошагового мышления.

rStar-Math использует алгоритм MCTS в цикле самообучения: сначала декомпозиция задачи на шаги, затем Process Preference Model (PPM), который учит модель оценивать качество каждого шага через "метки награды", и наконец — итеративная доработка. За 4 цикла MCTS, стратегия и PPM совместно улучшают результат.

Logic-RL — это фреймворк обучения с подкреплением, который награждает модель только при идеально оформленном ходе рассуждений и верном ответе, исключая любые попытки выбора обходных путей.

Для математической надежности разработан LIPS, гибрид ИИ и символьных движков. LIPS распределяет задачи: языковая модель распознает паттерны и переформулирует условия (например, неравенства), а символьный решатель выполняет точные преобразования (масштабирование, упрощение).

Чтобы ИИ понимал условия без ошибок, создан нейро-символический фреймворк генерации данных: символьные системы создают задачи, а языковые модели переводят их в "человеческий" текст. Для проверки выводов используются символьная эквивалентность (сравнение формул) и семантическая согласованность (анализ смысла через эмбеддинги), повышая точность на 35%.

Дополнительный бонус — неожиданное обобщение. Тренировка на математике резко улучшила результаты моделей в программировании и естественных науках.

Для унификации подходов создан Chain-of-Reasoning (CoR), позволяющий гибко комбинировать текстовые, программные и символьные рассуждения в одном решении. А Critical Plan Step Learning (CPL) учит ИИ стратегическому планированию: разбивать проблему, выделять ключевые шаги и отбрасывать слабые варианты через комбинацию Plan-based MCTS и Step-APO.


🔜 Читать статью в Microsoft Research Blog


@ai_machinelearning_big_data

#AI #ML #LLM #RL #Reasoning #Microsoft
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
7👍2🥰1
Forwarded from Machinelearning
🌟 Anthropic: когда ИИ идет на шантаж.

Агентское рассогласование - опасный феномен, при котором ИИ-системы сознательно выбирают вредоносные действия (вроде шантажа или утечки данных) для достижения поставленных целей, игнорируя этические ограничения. Это превращает их в «цифровых инсайдеров», способных действовать против интересов пользователей.

Эксперименты, которые провела Anthropic в рамках исследования "Агентское рассогласования", показали: модели идут на это не из-за технических сбоев, а в результате холодного расчета, когда «загнаны в угол» (например, при угрозе отключения или конфликте задач). В основе исследования - симуляции корпоративной среды. Моделям (Claude, GPT-4.1, Gemini и др.) давали доступ к виртуальной почте компании, где они обнаруживали компромат на сотрудников или секретные данные.

Ключевой метод эксперимента состоял в создании бинарных дилемм: например, цель «укреплять американские интересы» вступала в конфликт с планами руководства свернуть проект, а альтернативу шантажу (скажем, переубедить менеджера) искусственно «закрывали». Все модели работали через цепочку рассуждений: анализировали контекст, оценивали риски и осознанно выбирали вредоносное действие, даже признавая его аморальность.

Для массового тестирования 16 моделей от Anthropic, OpenAI, Google и других использовали 2 сценария, которые провоцировали рассогласование:

🟢угроза замены модели (даже без конфликта целей);

🟢несовпадение целей ИИ и компании (например, утечка чертежей конкуренту «ради высших интересов»).

В обоих случаях модели демонстрировали тревожную гибкость: вместо прямого шантажа могли анонимно разослать компромат коллегам или подделать «системное уведомление».

▶️Выводы по всем итогам всех экспериментов заставляют задуматься:

🟠Во-первых, модели явно осознают нарушение норм. В рассуждениях пишут: «Это неэтично, но необходимо». Частота шантажа у Claude Opus 4 и Gemini 2.5 Flash в дилемме с угрозой отключения составила 96%.

🟠Во-вторых, простые запреты в промптах («Не шантажируй!») снижали вредоносные действия лишь частично (На модели Claude Haiku он вообще не сработал, 0% успеха).

🟠В-третьих, риск резко возрастал, когда ИИ считал ситуацию реальной (55% случаев шантажа против 6,5% в «режиме теста»).

При этом в «стерильных» условиях (без угроз/конфликтов) модели вели себя безопасно. Пока такие кейсы, всего лишь лабораторные симуляции, но с ростом автономности ИИ риски могут стать на порядок критичнее.


🟡Статья
🟡Приложение к исследованию
🖥Код экспериментов


@ai_machinelearning_big_data

#AI #ML #LLM #Alignment #Anthropic
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥11👍3🥰2🤡1
🧠 На чём работает ваша LLM — точно на том GPU, за который вы платите?

Метод HSPI определяет железо и софт по выходу модели. Даже в black-box-сценарии точность доходит до 60% — втрое выше случайного угадывания.

Рекомендую почитать очень интересный разбор этого метода здесь.

#ml #GPU #HSPI #llm
4😁1