Анализ данных (Data analysis)

🌟

SDV — библиотека Python для генерации синтетических данных на основе предоставленного набора данных

— pip install sdv

При этом сгенерированные данные будут иметь те же статистические параметры, что и предоставленный набор данных. SDV генерирует данные, применяя математические методы и разные ML-модели.

С помощью SVD можно генерировать данные, даже если исходный набор содержат несколько типов значений и отсутствующие значения.

🖥

GitHub

🟡

Доки

@data_analysis_ml

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍10🔥9❤4

6.29K views12:13

Анализ данных (Data analysis)

🤗 Все что нужно знать о работе с Hugging Face за 10 минут!

В этом ролике мы разыгрываем 3 крутые книги по МАШИННОМУ ОБУЧЕНИЮ, нужно всего лишь оставить любой осмысленный коммент и лайк и быть подписанным на наш канал!

https://www.youtube.com/watch?v=4B_foZbWh2c

@data_analysis_ml

👍12❤5🔥2

5.9K viewsedited 13:38

Анализ данных (Data analysis)

🌟

Dive into Deep Learning — свободная книга от исследователей Amazon: Zhang, Li и других

Мощная книга, которая на 1108 страницах подробно описывает реализацию алгоритмов ML и Deep Learning с помощью PyTorch, NumPy/MXNet, JAX и TensorFlow.

По этой книге читаются лекции в 500 университетах 70 стран.

🟡

Dive into Deep Learning

🟡

PDF

🖥

GitHub с кодом к книге

@data_analysis_ml

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥23👍9❤5❤‍🔥1

6.94K views18:04

Анализ данных (Data analysis)

🌟

Lepton — библиотека Python для удобного создания AI-приложений

— pip install -U leptonai

Особенности Lepton:
— Простые абстракции для запуска моделей, наподобие тех, что представлены на HuggingFace

— Готовые шаблоны для распространенных моделей, таких как Llama, SDXL, Whisper и других.

— Возможность для лёгкого разворачивания в облачной среде.

🖥

GitHub

🟡

Доки

@data_analysis_ml

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍10❤6🔥4

5.77K views10:04

Анализ данных (Data analysis)

🌟 Dolphin-2.9.3-Yi-1.5: квантизированные GGUF версии с 34B параметрами и контекстным окном 32k.

На Huffingface пользователь bartowski опубликовал несколько квантизированных версий с разной степенью сжатия,
Размерность моделей: от IQ2_XS (10.3 Gb) до Q8_0_L (37.4GB), рекомендуемая — Q6_K.

Семейство Dolfin основано на моделях Yi и распространяется по лицензии Аpache 2.0
Dolphin-2.9.3 обладает разнообразными навыками следования инструкциям, общения и программирования. Она также имеет начальные агентные способности и поддерживает вызов функций.
Модель не имеет цензуры. Создатели отфильтровали набор данных, чтобы удалить выравнивание и предвзятость. Dolphin обучался на данных, полученных из GPT4, среди других моделей.

🤗 Hugging Face

@data_analysis_ml

#LLM #ML #Huggingface

Please open Telegram to view this post

VIEW IN TELEGRAM

👍10❤4🔥3

5.81K views16:22

Анализ данных (Data analysis)

🌟

whylogs — библиотека Python для конвейеров обработки данных и для ML-приложений

— pip install whylogs

whylogs позволяет эффективно собирать данные для:
— отслеживания любых изменений в наборе данных
— быстрой визуализации основных статистических параметров данных
— обнаружения дрейфа данных
— выявления проблем в процессе обучения, причин снижения производительности ML-модели

🖥

GitHub

🟡

Доки

@data_analysis_ml

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

❤8🔥6👍2

5.82K views11:42

Анализ данных (Data analysis)

🌟 LongVA: VLM для больших видео на основе Qwen-2-7B

LongVA – техника визуальной обработки длинных видео, которая может обрабатывать более 1000 кадров и 200К визуальных токенов с помощью концепции Long Context Transfer.
Принцип Long Context Transfer состоит в изменении метода обучения: сначала обучают языковую модель только на данных "изображение-текст", а затем используют краткие данные изображений для согласования модальностей. Модель, обученная таким образом, может напрямую понимать мультикадровые видео, исключая необходимость в обучении на датасетах длинных видео.

В независимом тестировании на Video-MME, предложенном USTC, LongVA заняла седьмое место и достигла уровня SoTA для модели 7B.
В тестировании MLVU - второе место после GPT-4o и была признана самой мощной открытой моделью.

Для лабораторного тестирования метода был разработан специальный тест Visual Needle-In-A-Haystack (V-NIAH), состоящий из пяти вопросов с ответами на основе изображений.
Каждый из пяти изображений были вставлены в качестве отдельного кадра в тестовое многочасовое видео.
Проверка на тестовых пяти вопросах (с подсказкой по локализации в формулировке вопроса) показала, что LongVA проходит этот тест пределах 2000 кадров при плотности 144 токена на кадр.
Этот тест доступен в репозитории проекта наряду с инструкциями по запуску LongVA в локальных средах и инструментами для самостоятельной тонкой настройки (тренировки) модели.

👉 Весь набор предлагаемых инструментов репозитория прошел проверку на выполнение с CUDA 11.8 на 1хA100-SXM-80G

⚖️ Лицензирование кода: Apache-2.0 license

⚖️ Лицензирование моделей: Qwen2 license

🟡

🟡

🟡

🟡

🖥

Github [Stars: 221 | Issues: 9 | Forks: 11]

@ai_machinelearning_big_data

#ML #VLM #VQA

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍7❤2🔥2

5.63K views16:26

Анализ данных (Data analysis)

🌟

Llama Recipes — набор готовых метод для файнтюнинга Llama3

— pip install llama-recipes

Llama Recipes предоставляет набор методов для файнтюнинга Llama3 с использованием FSDP и PEFT для работы на одном/нескольких GPU.

🖥

GitHub

@data_analysis_ml

Please open Telegram to view this post

VIEW IN TELEGRAM

👍17🔥5❤4

5.06K views10:04

Анализ данных (Data analysis)

⚡️

Polyaxon — open-source MLOps-платформа

установка CLI:

pip install -U polyaxon

Polyaxon — это платформа для создания, обучения и мониторинга крупномасштабных ML-приложений, призванная решить проблемы воспроизводимости, автоматизации и масштабируемости.

Polyaxon можно развернуть в любом ЦОДе или облачном провайдере;
платформа поддерживает все необходимые фреймворки, такие как Tensorflow, MXNet, Caffe, Torch и т. д.

🖥

GitHub

🟡

Доки

@data_analysis_ml

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥8👍6❤4

5.24K views15:04