🔥 Вышла новая PyTorch-библиотека для файн-тюнинга LLM
Библиотека называется torchtune. Она поддерживает весь воркфлоу, включая:
🔸 Загрузку и подготовку датасетов и чекпойнтов моделей;
🔸 Настройку процесса обучения с помощью разнообразных строительных блоков (как в torch);
🔸 Процесс логирования и метрики для отслеживания процесса обучения;
🔸 Квантизацию моделей после обучения;
🔸 Оценку моделей с помощью популярных бенчмарков;
🔸 Локальный запуск для тестирования.
🔗 Репозиторий torchtune
🔗 Туториалы по работе с библиотекой
Библиотека называется torchtune. Она поддерживает весь воркфлоу, включая:
🔸 Загрузку и подготовку датасетов и чекпойнтов моделей;
🔸 Настройку процесса обучения с помощью разнообразных строительных блоков (как в torch);
🔸 Процесс логирования и метрики для отслеживания процесса обучения;
🔸 Квантизацию моделей после обучения;
🔸 Оценку моделей с помощью популярных бенчмарков;
🔸 Локальный запуск для тестирования.
🔗 Репозиторий torchtune
🔗 Туториалы по работе с библиотекой
🤩5👍4🥰2
🤔 Оптимизация гиперпараметров за 5 секунд?
Гиперпараметры — это характеристики модели, которые фиксируются ещё до начала обучения. Например, глубина решающего дерева и learning rate для градиентного спуска. Их подбор — очень важный этап обучения. Правильные значения гиперпараметров могут радикальным образом повлиять на производительность.
На «Хабре» опубликовали обзор следующих основных методов оптимизации гиперпараметров:
▫️Grid Search
▫️Random Search
▫️Байесовская/вероятностная оптимизация
▫️TPE (Tree-structured Parzen Estimator).
🔗 Читать статью
На «Хабре» опубликовали обзор следующих основных методов оптимизации гиперпараметров:
▫️Grid Search
▫️Random Search
▫️Байесовская/вероятностная оптимизация
▫️TPE (Tree-structured Parzen Estimator).
🔗 Читать статью
🔥9👍2
На вход нейросети подаётся фотография размером 227×227×3. К ней применяется свёрточный слой с фильтром размером 11×11. Всего применяется 96 фильтров с шагом 4. Каким будет размер выходного изображения после этого слоя?
Anonymous Quiz
32%
54x54x96
35%
55×55×96
20%
54x54
13%
55×55
👍5
🦙 Вышла Llama 3
Это самая крупная открытая языковая модель от Meta*. Ключевые особенности:
🔘 Доступна сейчас в двух версиях: предобученная модель с 8 млрд параметров и дообученная на инструкциях модель на 70 млрд.
🔘 Должна хорошо справляться со сложными, многоступенчатыми задачами и генерацией кода.
🔘 Размер контекстного окна составляет 8 тысяч токенов.
🔘 По бенчмаркам превосходит другие открытые LLM.
🔘 Дообучение Llama 3 после этапа предтренировки производилось на 10 миллионах примерах, вручную размеченных людьми.
Известно также, что в процессе обучения находится модель с 400+ млрд параметров.
🔗 Репозиторий Llama 3
🔗 Страница моделей на Hugging Face
🔗 Ссылка на тестового чат-бота
*организация, деятельность которой запрещена на территории РФ
Это самая крупная открытая языковая модель от Meta*. Ключевые особенности:
Известно также, что в процессе обучения находится модель с 400+ млрд параметров.
*организация, деятельность которой запрещена на территории РФ
Please open Telegram to view this post
VIEW IN TELEGRAM
👍8❤2
Forwarded from Proglib.academy | IT-курсы
👩💼Собеседование — самое важное событие для начинающего специалиста
Для многих новичков сам факт приглашения на собеседование — уже большое событие. И, как нам кажется, половина успеха!
Давайте проверим, насколько вы к нему готовы — мы выбрали три популярных вопроса, которые задают на собеседованиях будущим Data-специалистам; пишите свои ответы в комментариях!
1️⃣ Как оценить статистическую значимость анализа?
2️⃣ Приведите три примера распределений с длинным хвостом. Почему они важны в задачах классификации и регрессии?
3️⃣ Что такое центральная предельная теорема, и почему она важна?
#собес_academy
Для многих новичков сам факт приглашения на собеседование — уже большое событие. И, как нам кажется, половина успеха!
Давайте проверим, насколько вы к нему готовы — мы выбрали три популярных вопроса, которые задают на собеседованиях будущим Data-специалистам; пишите свои ответы в комментариях!
1️⃣ Как оценить статистическую значимость анализа?
2️⃣ Приведите три примера распределений с длинным хвостом. Почему они важны в задачах классификации и регрессии?
3️⃣ Что такое центральная предельная теорема, и почему она важна?
#собес_academy
👍5❤3🔥2
⬆️ Дорожная карта дата-сайентиста 2024
Очередную Roadmap составил один из реддиторов. В ней он перечислил необходимые специалисту по ИИ библиотеки, фреймворки и платформы. Цветом автор разметил уровень навыков:
💚 — обязательные и относительно простые;
💛 — более сложные;
❤️ — самые сложные в освоении.
👇Мы приводим укороченную версию списка со ссылками на наши обучающие материалы👇
▫️Python 💚
▫️Pandas 💚
▫️SQL 💚
▫️Django 💚
▫️Git 💚
▫️Алгоритмы машинного обучения 💚
▫️Kubernetes ❤️
▫️Большие языковые модели (LLM) 💛
Очередную Roadmap составил один из реддиторов. В ней он перечислил необходимые специалисту по ИИ библиотеки, фреймворки и платформы. Цветом автор разметил уровень навыков:
💚 — обязательные и относительно простые;
💛 — более сложные;
❤️ — самые сложные в освоении.
👇Мы приводим укороченную версию списка со ссылками на наши обучающие материалы👇
▫️Python 💚
▫️Pandas 💚
▫️SQL 💚
▫️Django 💚
▫️Git 💚
▫️Алгоритмы машинного обучения 💚
▫️Kubernetes ❤️
▫️Большие языковые модели (LLM) 💛
👍8🔥6❤4
Forwarded from Proglib.academy | IT-курсы
Очень кратко пересказываем историю одного специалиста, который устроился в Data Science после работы в авиационной промышленности. В карточках — его путь и одна из рекомендаций, а в статье по ссылке — большая подборка полезных ресурсов!
А чтобы следовать совету и окружить себя подходящим информационным фоном, изучайте другие классные статьи про Data Science:
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5
🧠 Теоретические основы популярных алгоритмов машинного обучения и их реализация с нуля на Python
Автор «Хабра» Егор Захаренко составил список собственных статей с описанием популярных алгоритмов классического машинного обучения. К каждой статье прилагается код на Python.
Обучение с учителем
🔸 Линейная регрессия и её модификации
🔸 Логистическая и Softmax-регрессии
🔸 Линейный дискриминантный анализ (LDA)
🔸 Наивный байесовский классификатор
🔸 Метод опорных векторов (SVM)
🔸 Метод K-ближайших соседей (KNN)
🔸 Дерево решений (CART)
🔸 Бэггинг и случайный лес
🔸 Алгоритмы AdaBoost (SAMME & R2)
🔸 Градиентный бустинг и его модификации
🔸 Стекинг и блендинг
Обучение без учителя
🔹 Метод главных компонент (PCA)
🔹 Популярные алгоритмы кластеризации
👉 Ноутбуки с алгоритмами можно скачать на Kaggle и GitHub.
Автор «Хабра» Егор Захаренко составил список собственных статей с описанием популярных алгоритмов классического машинного обучения. К каждой статье прилагается код на Python.
Обучение с учителем
🔸 Линейная регрессия и её модификации
🔸 Логистическая и Softmax-регрессии
🔸 Линейный дискриминантный анализ (LDA)
🔸 Наивный байесовский классификатор
🔸 Метод опорных векторов (SVM)
🔸 Метод K-ближайших соседей (KNN)
🔸 Дерево решений (CART)
🔸 Бэггинг и случайный лес
🔸 Алгоритмы AdaBoost (SAMME & R2)
🔸 Градиентный бустинг и его модификации
🔸 Стекинг и блендинг
Обучение без учителя
🔹 Метод главных компонент (PCA)
🔹 Популярные алгоритмы кластеризации
👉 Ноутбуки с алгоритмами можно скачать на Kaggle и GitHub.
🤩14👍6
Forwarded from Proglib.academy | IT-курсы
А вот и ответы на три вопроса с собеседований, которые мы недавно вам задавали!
1️⃣ Как оценить статистическую значимость анализа?
Для оценки статистической значимости нужно провести проверку гипотезы. Сначала определяют нулевую и альтернативную гипотезы. Затем рассчитывают p – вероятность получения наблюдаемых результатов, если нулевая гипотеза верна. Наконец, устанавливают уровень значимости alpha. Если p < alpha, нулевая гипотеза отвергается – иными словами, анализ является статистически значимым.
2️⃣ Приведите три примера распределений с длинным хвостом. Почему они важны в задачах классификации и регрессии?
Три практических примера: степенной закон, закон Парето и продажи продуктов (например, продукты-бестселлеры против обычных).
При решении задач классификации и регрессии важно не забывать о распределении с длинным хвостом, поскольку редко встречающиеся значения составляют существенную часть выборки. Это влияет на выбор метода обработки выбросов. Кроме того, некоторые методики машинного обучения предполагают, что данные распределены нормально.
3️⃣ Что такое центральная предельная теорема, и почему она важна?
Центральная предельная теорема (ЦПТ) говорит о том, что сумма достаточно большого количества слабо зависимых случайных величин с примерно одинаковыми масштабами имеет распределение, близкое к нормальному.
Центральная предельная теорема важна, поскольку она используется при проверке гипотез и расчете доверительных интервалов.
🎲 40 вопросов по статистике с собеседований на должность Data Scientist
Please open Telegram to view this post
VIEW IN TELEGRAM
👍7
🌐 Онлайн-обучение в ML: что это такое
В традиционном подходе модель обучается, используя весь набор данных сразу. Этот процесс часто сопровождается большими вычислительными затратами и не учитывает изменения в данных, которые происходят в реальном времени.
❓Что делать?
Можно обучать модель на одной точке входящих данных за раз. Например, вы храните на диске (или получаете в реальном времени из какого-то источника) обучающую выборку и не загружаете её в оперативную память. Тогда вы можете считывать объекты по одному и соответственно обновлять веса. После обработки всех объектов обучающей выборки значение функции потерь уменьшится(однако часто нужно несколько десятков проходов по выборке, чтобы оно уменьшилось достаточно) .
🤔 Где можно применять:
▫️Анализ финансовых рынков;
▫️Системы мониторинга показателей здоровья;
▫️Обнаружение мошенничества.
🤖 Ограничения метода:
▫️Чувствительность к порядку поступающих данных;
▫️Меньший контроль за обучением;
▫️Проблемы с интерпретацией.
В традиционном подходе модель обучается, используя весь набор данных сразу. Этот процесс часто сопровождается большими вычислительными затратами и не учитывает изменения в данных, которые происходят в реальном времени.
❓Что делать?
Можно обучать модель на одной точке входящих данных за раз. Например, вы храните на диске (или получаете в реальном времени из какого-то источника) обучающую выборку и не загружаете её в оперативную память. Тогда вы можете считывать объекты по одному и соответственно обновлять веса. После обработки всех объектов обучающей выборки значение функции потерь уменьшится
🤔 Где можно применять:
▫️Анализ финансовых рынков;
▫️Системы мониторинга показателей здоровья;
▫️Обнаружение мошенничества.
🤖 Ограничения метода:
▫️Чувствительность к порядку поступающих данных;
▫️Меньший контроль за обучением;
▫️Проблемы с интерпретацией.
👍5❤2
В новой статье рассказываем, какие разделы математики нужно знать для разработки современных генеративных моделей.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥5❤3👍1
📊🎲 Несколько полезных шпаргалок для дата-сайентистов
Могут пригодиться при подготовке к собеседованию.
🔹Введение в теорию вероятностей
🔹Обзор способов визуализации данных
🔹Описательная статистика
Могут пригодиться при подготовке к собеседованию.
🔹Введение в теорию вероятностей
🔹Обзор способов визуализации данных
🔹Описательная статистика
👍3
Media is too big
VIEW IN TELEGRAM
✨ Визуализация эмбеддингов в браузере
У TensorFlow есть онлайн-инструмент, который позволяет изучить пространство эмбеддингов (векторных представлений). Это не только залипательно, но и может быть полезно.Для пространств высокой размерности инструмент предварительно использует методы сокращения размерности (например, PCA).
На странице доступны предобученные эмбеддинги — Word2Vec, Mnist (в виде картинок!) и Iris. Кроме того, есть возможность загрузить собственные.
🔗 Ссылка на инструмент TensorFlow
У TensorFlow есть онлайн-инструмент, который позволяет изучить пространство эмбеддингов (векторных представлений). Это не только залипательно, но и может быть полезно.
На странице доступны предобученные эмбеддинги — Word2Vec, Mnist (в виде картинок!) и Iris. Кроме того, есть возможность загрузить собственные.
🔗 Ссылка на инструмент TensorFlow
❤4👍1