Анализ данных (Data analysis)
46.3K subscribers
2.3K photos
264 videos
1 file
2.04K links
Data science, наука о данных.

@haarrp - админ

@itchannels_telegram - 🔥 главное в ит

@ai_machinelearning_big_data - ML

@machinelearning_interview - вопросы с собесдований по Ml

РКН: clck.ru/3FmyAp
Download Telegram
🌟 SDV — библиотека Python для генерации синтетических данных на основе предоставленного набора данных

pip install sdv

При этом сгенерированные данные будут иметь те же статистические параметры, что и предоставленный набор данных. SDV генерирует данные, применяя математические методы и разные ML-модели.

С помощью SVD можно генерировать данные, даже если исходный набор содержат несколько типов значений и отсутствующие значения.

🖥 GitHub
🟡 Доки

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍10🔥94
🤗 Все что нужно знать о работе с Hugging Face за 10 минут!

В этом ролике мы разыгрываем 3 крутые книги по МАШИННОМУ ОБУЧЕНИЮ, нужно всего лишь оставить любой осмысленный коммент и лайк и быть подписанным на наш канал!

https://www.youtube.com/watch?v=4B_foZbWh2c

@data_analysis_ml
👍125🔥2
🌟 Dive into Deep Learning — свободная книга от исследователей Amazon: Zhang, Li и других

Мощная книга, которая на 1108 страницах подробно описывает реализацию алгоритмов ML и Deep Learning с помощью PyTorch, NumPy/MXNet, JAX и TensorFlow.

По этой книге читаются лекции в 500 университетах 70 стран.

🟡 Dive into Deep Learning
🟡 PDF
🖥 GitHub с кодом к книге

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥23👍95❤‍🔥1
🌟 Lepton — библиотека Python для удобного создания AI-приложений

pip install -U leptonai

Особенности Lepton:
— Простые абстракции для запуска моделей, наподобие тех, что представлены на HuggingFace

— Готовые шаблоны для распространенных моделей, таких как Llama, SDXL, Whisper и других.

— Возможность для лёгкого разворачивания в облачной среде.

🖥 GitHub
🟡 Доки

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍106🔥4
🌟 Dolphin-2.9.3-Yi-1.5: квантизированные GGUF версии с 34B параметрами и контекстным окном 32k.

На Huffingface пользователь bartowski опубликовал несколько квантизированных версий с разной степенью сжатия,
Размерность моделей: от IQ2_XS (10.3 Gb) до Q8_0_L (37.4GB), рекомендуемая — Q6_K.

Семейство Dolfin основано на моделях Yi и распространяется по лицензии Аpache 2.0
Dolphin-2.9.3 обладает разнообразными навыками следования инструкциям, общения и программирования. Она также имеет начальные агентные способности и поддерживает вызов функций.
Модель не имеет цензуры. Создатели отфильтровали набор данных, чтобы удалить выравнивание и предвзятость. Dolphin обучался на данных, полученных из GPT4, среди других моделей.

🤗 Hugging Face

@data_analysis_ml

#LLM #ML #Huggingface
Please open Telegram to view this post
VIEW IN TELEGRAM
👍104🔥3
🌟 whylogs — библиотека Python для конвейеров обработки данных и для ML-приложений

pip install whylogs

whylogs позволяет эффективно собирать данные для:
— отслеживания любых изменений в наборе данных
— быстрой визуализации основных статистических параметров данных
— обнаружения дрейфа данных
— выявления проблем в процессе обучения, причин снижения производительности ML-модели

🖥 GitHub
🟡 Доки

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
8🔥6👍2
🌟 LongVA: VLM для больших видео на основе Qwen-2-7B

LongVA – техника визуальной обработки длинных видео, которая может обрабатывать более 1000 кадров и 200К визуальных токенов с помощью концепции Long Context Transfer.
Принцип Long Context Transfer состоит в изменении метода обучения: сначала обучают языковую модель только на данных "изображение-текст", а затем используют краткие данные изображений для согласования модальностей. Модель, обученная таким образом, может напрямую понимать мультикадровые видео, исключая необходимость в обучении на датасетах длинных видео.

В независимом тестировании на Video-MME, предложенном USTC, LongVA заняла седьмое место и достигла уровня SoTA для модели 7B.
В тестировании MLVU - второе место после GPT-4o и была признана самой мощной открытой моделью.

Для лабораторного тестирования метода был разработан специальный тест Visual Needle-In-A-Haystack (V-NIAH), состоящий из пяти вопросов с ответами на основе изображений.
Каждый из пяти изображений были вставлены в качестве отдельного кадра в тестовое многочасовое видео.
Проверка на тестовых пяти вопросах (с подсказкой по локализации в формулировке вопроса) показала, что LongVA проходит этот тест пределах 2000 кадров при плотности 144 токена на кадр.
Этот тест доступен в репозитории проекта наряду с инструкциями по запуску LongVA в локальных средах и инструментами для самостоятельной тонкой настройки (тренировки) модели.

👉 Весь набор предлагаемых инструментов репозитория прошел проверку на выполнение с CUDA 11.8 на 1хA100-SXM-80G


⚖️ Лицензирование кода: Apache-2.0 license

⚖️ Лицензирование моделей: Qwen2 license


🟡Страница проекта
🟡Demo
🟡Модели на HF
🟡Arxiv
🖥Github [Stars: 221 | Issues: 9 | Forks: 11]


@ai_machinelearning_big_data

#ML #VLM #VQA
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍72🔥2
🌟 Llama Recipes — набор готовых метод для файнтюнинга Llama3

pip install llama-recipes

Llama Recipes предоставляет набор методов для файнтюнинга Llama3 с использованием FSDP и PEFT для работы на одном/нескольких GPU.

🖥 GitHub

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍17🔥54
⚡️ Polyaxon — open-source MLOps-платформа

установка CLI:
pip install -U polyaxon


Polyaxon — это платформа для создания, обучения и мониторинга крупномасштабных ML-приложений, призванная решить проблемы воспроизводимости, автоматизации и масштабируемости.

Polyaxon можно развернуть в любом ЦОДе или облачном провайдере;
платформа поддерживает все необходимые фреймворки, такие как Tensorflow, MXNet, Caffe, Torch и т. д.

🖥 GitHub
🟡 Доки

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥8👍64