—
pip install sdv
При этом сгенерированные данные будут иметь те же статистические параметры, что и предоставленный набор данных. SDV генерирует данные, применяя математические методы и разные ML-модели.
С помощью SVD можно генерировать данные, даже если исходный набор содержат несколько типов значений и отсутствующие значения.
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍10🔥9❤4
🤗 Все что нужно знать о работе с Hugging Face за 10 минут!
В этом ролике мы разыгрываем 3 крутые книги по МАШИННОМУ ОБУЧЕНИЮ, нужно всего лишь оставить любой осмысленный коммент и лайк и быть подписанным на наш канал!
https://www.youtube.com/watch?v=4B_foZbWh2c
@data_analysis_ml
В этом ролике мы разыгрываем 3 крутые книги по МАШИННОМУ ОБУЧЕНИЮ, нужно всего лишь оставить любой осмысленный коммент и лайк и быть подписанным на наш канал!
https://www.youtube.com/watch?v=4B_foZbWh2c
@data_analysis_ml
👍12❤5🔥2
Мощная книга, которая на 1108 страницах подробно описывает реализацию алгоритмов ML и Deep Learning с помощью PyTorch, NumPy/MXNet, JAX и TensorFlow.
По этой книге читаются лекции в 500 университетах 70 стран.
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥23👍9❤5❤🔥1
—
pip install -U leptonai
Особенности Lepton:
— Простые абстракции для запуска моделей, наподобие тех, что представлены на HuggingFace
— Готовые шаблоны для распространенных моделей, таких как Llama, SDXL, Whisper и других.
— Возможность для лёгкого разворачивания в облачной среде.
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍10❤6🔥4
На Huffingface пользователь bartowski опубликовал несколько квантизированных версий с разной степенью сжатия,
Размерность моделей: от IQ2_XS (10.3 Gb) до Q8_0_L (37.4GB), рекомендуемая — Q6_K.
Семейство Dolfin основано на моделях Yi и распространяется по лицензии Аpache 2.0
Dolphin-2.9.3 обладает разнообразными навыками следования инструкциям, общения и программирования. Она также имеет начальные агентные способности и поддерживает вызов функций.
Модель не имеет цензуры. Создатели отфильтровали набор данных, чтобы удалить выравнивание и предвзятость. Dolphin обучался на данных, полученных из GPT4, среди других моделей.
🤗 Hugging Face
@data_analysis_ml
#LLM #ML #Huggingface
Please open Telegram to view this post
VIEW IN TELEGRAM
👍10❤4🔥3
—
pip install whylogs
whylogs позволяет эффективно собирать данные для:
— отслеживания любых изменений в наборе данных
— быстрой визуализации основных статистических параметров данных
— обнаружения дрейфа данных
— выявления проблем в процессе обучения, причин снижения производительности ML-модели
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤8🔥6👍2
LongVA – техника визуальной обработки длинных видео, которая может обрабатывать более 1000 кадров и 200К визуальных токенов с помощью концепции Long Context Transfer.
Принцип Long Context Transfer состоит в изменении метода обучения: сначала обучают языковую модель только на данных "изображение-текст", а затем используют краткие данные изображений для согласования модальностей. Модель, обученная таким образом, может напрямую понимать мультикадровые видео, исключая необходимость в обучении на датасетах длинных видео.
В независимом тестировании на Video-MME, предложенном USTC, LongVA заняла седьмое место и достигла уровня SoTA для модели 7B.
В тестировании MLVU - второе место после GPT-4o и была признана самой мощной открытой моделью.
Для лабораторного тестирования метода был разработан специальный тест Visual Needle-In-A-Haystack (V-NIAH), состоящий из пяти вопросов с ответами на основе изображений.
Каждый из пяти изображений были вставлены в качестве отдельного кадра в тестовое многочасовое видео.
Проверка на тестовых пяти вопросах (с подсказкой по локализации в формулировке вопроса) показала, что LongVA проходит этот тест пределах 2000 кадров при плотности 144 токена на кадр.
Этот тест доступен в репозитории проекта наряду с инструкциями по запуску LongVA в локальных средах и инструментами для самостоятельной тонкой настройки (тренировки) модели.
👉 Весь набор предлагаемых инструментов репозитория прошел проверку на выполнение с CUDA 11.8 на 1хA100-SXM-80G
⚖️ Лицензирование кода: Apache-2.0 license
⚖️ Лицензирование моделей: Qwen2 license
@ai_machinelearning_big_data
#ML #VLM #VQA
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍7❤2🔥2
—
pip install llama-recipes
Llama Recipes предоставляет набор методов для файнтюнинга Llama3 с использованием FSDP и PEFT для работы на одном/нескольких GPU.
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍17🔥5❤4
установка CLI:
pip install -U polyaxon
Polyaxon — это платформа для создания, обучения и мониторинга крупномасштабных ML-приложений, призванная решить проблемы воспроизводимости, автоматизации и масштабируемости.
Polyaxon можно развернуть в любом ЦОДе или облачном провайдере;
платформа поддерживает все необходимые фреймворки, такие как Tensorflow, MXNet, Caffe, Torch и т. д.
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥8👍6❤4