Анализ данных (Data analysis)
46.3K subscribers
2.3K photos
264 videos
1 file
2.04K links
Data science, наука о данных.

@haarrp - админ

@itchannels_telegram - 🔥 главное в ит

@ai_machinelearning_big_data - ML

@machinelearning_interview - вопросы с собесдований по Ml

РКН: clck.ru/3FmyAp
Download Telegram
🌟 Kedro — набор готовых к продакшену инструментов для Data Science и ML

pip install kedro

Kedro — фреймворк, который добавляет модульность, удобную для работы с данными. С помощью Kedro можно создавать проекты по шаблону, настраивать пайплайн в YAML, делить его на части, документировать проект — и это далеко не всё.

Kedro позволяет сохранять и загружать данные в различные хранилища, такие как S3, GCP, Azure, sFTP, DBFS и локальные файловые системы. Поддерживаются такие форматы файлов, как Pandas, Spark, Dask, NetworkX, Pickle, Plotly, Matplotlib и многие другие.

🖥 GitHub
🟡 Доки

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍115🥰3🤣1
Forwarded from Machinelearning
⚡️ DeepSeek-V2-Chat-0628: обновленная версия Deepseek-V2

DeepSeek выложила в открытый доступ веса модели V2-Chat-0628. Это обновление флагманской Deepseek-V2, одной из лучших моделей в открытом доступе.
Согласно чартам LMSYS Chatbot Arena - эта модель №11 среди open-source моделей на сегодняшний день.

Детальные достижения:
🟢Hard Prompts 3-я позиция чарта;
🟢Coding 3-я позиция чарта;
🟢Longer Query 4-я позиция чарта;
🟢Math 7-я позиция чарта.

Основная особенность обновления - была оптимизирована возможность следования инструкциям в области "система", что значительно повышает удобство работы с иммерсивным переводом, RAG и другими задачами.
Одновременно с обновлением в репозитории на Huggingface, модель доступна по API в сервисе https://platform.deepseek.com.

💵 Стоимость API DeepSeek-V2-Chat-0628 (128K Context length):
Input - $0.14 / 1M tokens
Output - $0.28 / 1M tokens


⚠️ Размер модели ~ 480 Gb, для локального запуска формата BF16 потребуется 8х80GB GPU`s.

⚖️ Лицензирование кода: MIT
⚖️ Лицензирование модели: Своя лицензия семейства DeepSeek-v2

🟡Страница проекта
🟡Arxiv
🟡Модель на HF


@ai_machinelearning_big_data

#LLM #DeepSeekV2 #ML
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
6🔥3🥰1
🌟 NeuralForecast — большая коллекция ML-моделей для прогнозирования

pip install neuralforecast

NeuralForecast предлагает множество моделей прогнозирования: от классических MLP и RNN, до новых моделей, таких как NBEATS, NHITS, TFT и других.

🖥 GitHub
🟡 Быстрый старт

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥124👍4
🖥 Geomstats — библиотека Python, позволяющая использовать нелинейные многообразия для обучения ML-моделей

pip install geomstats

Данные из многих прикладных областей тесно связаны с нелинейными многообразиями. Например, многообразие трехмерных вращений SO(3) естественным образом возникает при проведении статистического обучения на сочлененных объектах, таких как человеческий позвоночник или руки роботов.
Аналогично, другие многообразия возникают при моделировании сложных биологических объектов

🖥 GitHub
🟡 Доки

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍11🔥64
🌟 Metarank — open-source сервис ранжирования для создания персонализированного семантического поиска и рекомендательных систем

Metarank позволяет реализовать персонализированное ранжирование статей, объявлений, результатов поиска — в общем отлично подходит для создания рекомендательных систем

Быстрый старт с Docker:
docker run -i -t -p 8080:8080 -v $(pwd):/opt/metarank metarank/metarank:latest standalone --config /opt/metarank/config.yml --data /opt/metarank/events.jsonl.gz


🖥 GitHub
🟡 Доки
🟡 Пример использования Metarank

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍153🔥3
🌟 Xorbits — масштабируемый Python фреймворк для задач ML и DS, ориентированный на скорость

Xorbits позволяет, к примеру, легко использовать данные для обучения генеративных моделей а также разворачивать обученные модели в своей инфраструктуре.

Xorbits может использовать несколько ядер/GPU, может работать на 1 машине или масштабироваться до тысяч машин для поддержки обработки терабайтов данных.
Xorbits предоставляет набор полезных библиотек для анализа данных и ML.

🖥 GitHub
🟡 Доки

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥21👍95
📌Skforecast — библиотека для прогнозирования временных рядов

pip install skforecast

Skforecast — это библиотека Python, которая облегчает использование моделей регрессии от scikit-learn для прогнозирования временных рядов.

Skforecast также работает с любыми моделями регрессии, совместимыми с API scikit-learn (LightGBM, XGBoost, CatBoost...)

🖥 GitHub
🟡 Доки
🟡 Примеры использования

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍206🔥4
🌟 Реализация диффузионной модели с архитектурой UNet на чистом CUDA

В этом репозитории приведена реализация модели UNet на чистом CUDA с подробным описанием всех шагов.
Цель этого проекта — создать диффузионную модель на CUDA и достичь производительности PyTorch; выбрана архитектура UNet как ключевая архитектура для диффузионных моделей

В итоге, готовая модель была обучена на изображениях слонов из ImageNet 64x64 и теперь вполне успешно их генерирует.

🖥 GitHub

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍8🔥54❤‍🔥1