This media is not supported in your browser
VIEW IN TELEGRAM
Datastack - это фреймворк с открытым исходным кодом, который позволяет легко создавать веб-приложения, информационные панели , формы ввода данных или прототипы в режиме реального времени, используя только Python - опыт работы с фронтендом не требуется.
В DataStack доступно много готовых виджетов, включая запись текста, выбор из выпадающего списка, списки, кнопки, формы ввода, HTML формы , iframe, разделитель страниц, dataframe, таблицы и многое другое.
pip install pydatastack
from datastack import datastack
ds = datastack(main=True)
ds.subheader('DataStack click counter app')
count = 0
def inc_count():
global count
count += 1
ds.button('Click', on_click=inc_count)
ds.write('counts: ' + str(count))
▪ Github
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍21🔥5❤4
Простая реализация архитектуры Mamba в одном файле PyTorch.
Mamba - это усовершенствованная модель пространства состояний (SSM), предназначенная для эффективной работы со сложными последовательностями, требующими большого количества данных: Linear-Time Sequence Modeling with Selective State Spaces", разработанной ведущими исследователями Альбертом Гу и Три Дао.
📖 Paper
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍15❤5🔥2🤣1
Чтобы преобразовать файлы CSV в базу данных SQLite для эффективной работы с данными и их хранения, попробуйте csvs-to-sqlite.
https://github.com/simonw/csvs-to-sqlite
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍20🔥5❤3
This media is not supported in your browser
VIEW IN TELEGRAM
nbgather предоставляет инструменты для очистки кода, восстановления потерянного кода и сравнения версий кода в
Jupyter Lab.
Загрузите расширение alpha с помощью следующей команды:
jupyter labextension install nbgather
@data_analysis_mlPlease open Telegram to view this post
VIEW IN TELEGRAM
❤14👍6🔥4
🔥 Дайджест полезных материалов из мира Data Science за неделю
Почитать:
— 100 вопросов для подготовки к собесу Python
— Большой тест GPT4, GPT3.5, YandexGPT, GigaChat, Saiga в RAG-задаче. Часть 1
— Полный отчет Github за 2023 о состоянии проектов.
— 9 вопросов для собеседования по SQL в Apple
— Геометрия и навигация
— Разметка данных в 2023 году: текущие тренды и требования будущего
— fsspec и вообще зачем оно нам нужно
— Как мы переезжали с PostgreSQL на Data Lake в AWS и какие грабли собрали по пути
— Расчетная архитектура платформы для A/B-тестов Mail.Ru
— Automate the boring stuff with Julia
— Трёхканальный ИИ
— Decoding a Data Model: Using SchemaSpy in Snowflake ❄️
— Quickly create a personalized data dashboard for your boss.
— What Is Data Analysis and How Can You Get Started?
— Explorando as Funções Específicas da Biblioteca google-cloud-storage no Google Cloud Platform
— Microsoft PHI-2 + Huggine Face + Langchain = Super Tiny Chatbot
— How to rank Fungible Tokens in the TON blockchain by transactions
— A good resource on Algorithms!
— High-level overview of AWS Glue
— What is the population of that region?
— Streamlined Data Processing: A Guide to Cost-Effective ELT Implementation
Посмотреть:
🌐 Mixtral 8x7B - новый ИИ. Нейросети, которые ДОМИНИРУЮТ на другими моделями (⏱ 08:04)
🌐 100 вопросов с собеседований Python. Полный разбор реальных вопросов. (⏱ 34:27)
🌐 💡Задача #Python:Комбинация сумм II #python #программирование #код #yotube #youtube #пито (⏱ 00:54)
🌐 💡Крутая задача #Python: #python #программирование #код #yotube #youtube #питон (⏱ 00:49)
🌐 ODSC Webinar | Preparing for your First Enterprise Large Language Model (LLM) Application (⏱ 48:16)
🌐 Adversarial Validation and Training in Stock Market Price Prediction (⏱ 28:09)
🌐 NVIDIA’s New AI Is 20x Faster…But How? (⏱ 08:16)
🌐 Here’s How ChatGPT is Changing The World! (⏱ 08:33)
Хорошего дня!
@data_analysis_ml
Почитать:
— 100 вопросов для подготовки к собесу Python
— Большой тест GPT4, GPT3.5, YandexGPT, GigaChat, Saiga в RAG-задаче. Часть 1
— Полный отчет Github за 2023 о состоянии проектов.
— 9 вопросов для собеседования по SQL в Apple
— Геометрия и навигация
— Разметка данных в 2023 году: текущие тренды и требования будущего
— fsspec и вообще зачем оно нам нужно
— Как мы переезжали с PostgreSQL на Data Lake в AWS и какие грабли собрали по пути
— Расчетная архитектура платформы для A/B-тестов Mail.Ru
— Automate the boring stuff with Julia
— Трёхканальный ИИ
— Decoding a Data Model: Using SchemaSpy in Snowflake ❄️
— Quickly create a personalized data dashboard for your boss.
— What Is Data Analysis and How Can You Get Started?
— Explorando as Funções Específicas da Biblioteca google-cloud-storage no Google Cloud Platform
— Microsoft PHI-2 + Huggine Face + Langchain = Super Tiny Chatbot
— How to rank Fungible Tokens in the TON blockchain by transactions
— A good resource on Algorithms!
— High-level overview of AWS Glue
— What is the population of that region?
— Streamlined Data Processing: A Guide to Cost-Effective ELT Implementation
Посмотреть:
🌐 Mixtral 8x7B - новый ИИ. Нейросети, которые ДОМИНИРУЮТ на другими моделями (⏱ 08:04)
🌐 100 вопросов с собеседований Python. Полный разбор реальных вопросов. (⏱ 34:27)
🌐 💡Задача #Python:Комбинация сумм II #python #программирование #код #yotube #youtube #пито (⏱ 00:54)
🌐 💡Крутая задача #Python: #python #программирование #код #yotube #youtube #питон (⏱ 00:49)
🌐 ODSC Webinar | Preparing for your First Enterprise Large Language Model (LLM) Application (⏱ 48:16)
🌐 Adversarial Validation and Training in Stock Market Price Prediction (⏱ 28:09)
🌐 NVIDIA’s New AI Is 20x Faster…But How? (⏱ 08:16)
🌐 Here’s How ChatGPT is Changing The World! (⏱ 08:33)
Хорошего дня!
@data_analysis_ml
👍14🔥5❤3🥰3
SQL: комплексный анализ оттока клиентов
Постановка задачи
В конкурентной телекоммуникационной сфере восприятие компании в целом формируется критической оценкой ее услуг клиентами. Сбои в работе чреваты ростом обеспокоенности, поэтому так важен анализ оттока.
Уровнем оттока характеризуется потеря клиентов, а это сказывается на доходах.
На выводы анализа опираются при разработке стратегий, сегментном таргетировании, совершенствовании обслуживания для роста доверия и удовлетворенности клиентов.
Что такое «отток клиентов»?
Отток, или оборот клиентов, называемый также оттоком покупателей, — это явление, при котором клиенты или подписчики прекращают сотрудничать с компанией или пользоваться ее продуктами/услугами. Оно случается, когда привлеченные ее деятельностью или предложениями клиенты решают отказаться от дальнейших отношений или покупок.
Возможные причины: предложения конкурентов, цена, неудовлетворенность продуктом или услугой, недостаточная их ценность в глазах покупателя, личные обстоятельства.
Очистка данных
Определение общего количества клиентов
То есть выбираем из churndata отдельный счетчик count(customer_id) по общему числу клиентов TotalCustomers:
📌Продолжение
@data_analysis_ml
Постановка задачи
В конкурентной телекоммуникационной сфере восприятие компании в целом формируется критической оценкой ее услуг клиентами. Сбои в работе чреваты ростом обеспокоенности, поэтому так важен анализ оттока.
Уровнем оттока характеризуется потеря клиентов, а это сказывается на доходах.
На выводы анализа опираются при разработке стратегий, сегментном таргетировании, совершенствовании обслуживания для роста доверия и удовлетворенности клиентов.
Что такое «отток клиентов»?
Отток, или оборот клиентов, называемый также оттоком покупателей, — это явление, при котором клиенты или подписчики прекращают сотрудничать с компанией или пользоваться ее продуктами/услугами. Оно случается, когда привлеченные ее деятельностью или предложениями клиенты решают отказаться от дальнейших отношений или покупок.
Возможные причины: предложения конкурентов, цена, неудовлетворенность продуктом или услугой, недостаточная их ценность в глазах покупателя, личные обстоятельства.
Очистка данных
Определение общего количества клиентов
SELECT DISTINCT COUNT(CUSTOMER_ID) AS TOTALCUSTOMERS FROM CHURNDATA;
То есть выбираем из churndata отдельный счетчик count(customer_id) по общему числу клиентов TotalCustomers:
📌Продолжение
@data_analysis_ml
❤13👍7🔥5
"
Какой клиент Azure из базы покупателей, приоьретает хотя бы 1 продукт Azure из каждой категории продуктов?"
- Объединить таблицы с помощью
LEFT JOIN
- Подсчитайть разные категории продуктов с помощью
COUNT
и DISTINCT
.Доп задание: напишие код с использованием Pandas для решения задачи.
Протестировать свой SQL-запрос и посмотреть таблицы можно здесь: https://datalemur.com/questions/supercloud-customer
Пишите свое решение в комментариях👇
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
❤9👍6🔥2
Каждая функция в Polars генерирует новую функцию, и эти функции можно объединять в конвейер.
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍27❤8🔥3🤔2😐2👎1
- Geph
- VOSviewer
- Cytoscape
- Kumu
- GraphInsight
- NodeXL
- Orange
- Graphia
- Graphistry
- SocNetV
- Tulip
- Gephisto
- networkx
- graphviz
- pydot
- python-igraph
- pyvis
- ipycytoscape
- pygsp
- graph-tool
- nxviz
- py2cytoscape
- ipydagred3
- ipysigma
- Py3Plex
- net wulf
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
❤25👍11🔥4💔1
Пакет предоставляет методы для анализа и сегментации нестационарных сигналов. Алгоритмы включают точное и приближенное обнаружение для различных параметрических и непараметрических моделей.
С помощью точек изменения можно обнаружить аномалии или отклонения от ожидаемого поведения в данных и получить представление о том, когда происходят эти переходы.
▪Github
▪Документация
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍19❤3🔥2
Эта библиотека для анализа данных, которая содержит функции альтернативы
pd.Series.rolling и pd.Series.expanding,
которые
позволяют получить ускорение за счет использования оптимизированных под numba
функций, работающих с массивами numpy
.pip install window-ops
▪Github
▪Документация@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
❤5👍5🔥2😱1
Модель позволяет решать три разных задачи сегментации:
semantic, instance и panoptic segmentation.
🦒colab: https://github.com/camenduru/OneFormer-colab
🌐page: https://praeclarumjj3.github.io/oneformer
📄paper: https://arxiv.org/abs/2211.06220
🧬code: https://github.com/SHI-Labs/OneFormer
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
❤12👍2🔥1🥰1
🔥 Дайджест полезных материалов из мира Data Science за неделю
Почитать:
— 100 вопросов для подготовки к собесу Data Science
— Сколько ядер CPU можно использовать параллельно в Python?
— Вот так я изучаю ML
— PLC Allen Bradley подключение с помощью Python
— Ortools — библиотека для решения задачи VRP
— 4 миллиарда операторов if
— Python без типов: таким он когда-то был
— Вы точно хотите быть Data Scientist-ом?
— Введение в SQL & СУБД на примере доступа к данным через Python
— Plotting and Data Visualization with Matplotlib
— Applications of Data Science
— Semantic Search Over Satellite Images Using Qdrant
— Introduction to Data Science
— A Comprehensive Guide: How Deepchecks Evaluate the Large Language Model
— Appreciating the "Learning Problem" - Why AI will never replace your job
— Best JavaScript Chart Libraries 2024: Finding the Right Fit for Your JS Applications
— NumPy Arrays: An Introduction
— Hungarian GP 2022 Qualifying, and see what we can
— I built Hippotable for in-browser data analysis
— Десять самых ярких ИИ-работ от NVIDIA Research за 2023 год
Посмотреть:
🌐 100 вопросов с собеседований Data Science — часть 1 (⏱ 36:48)
🌐 💡 Задача: Ряд клавиатуры #Python #yotube #код #алгоритмы #программирование #собеседование #кодинг (⏱ 00:40)
🌐 💡задача #Python: Бинарный поиск #python #программирование #код #yotube #питон #собеседование (⏱ 00:41)
🌐 💡 Задача: Ряд клавиатуры #Python #yotube #код #алгоритмы #программирование #собеседование #кодинг (⏱ 01:00)
🌐 Evaluating Recommendation Algorithms at Delivery Hero - Manchit Madan (⏱ 23:01)
🌐 ODSC Webinar | Open source Data Lake Management, Curation, Governance for New & Growing Companies (⏱ 46:07)
🌐 Stable Diffusion AI: 100 Cats Per Second…For Free! (⏱ 08:21)
Хорошего дня!
@data_analysis_ml
Почитать:
— 100 вопросов для подготовки к собесу Data Science
— Сколько ядер CPU можно использовать параллельно в Python?
— Вот так я изучаю ML
— PLC Allen Bradley подключение с помощью Python
— Ortools — библиотека для решения задачи VRP
— 4 миллиарда операторов if
— Python без типов: таким он когда-то был
— Вы точно хотите быть Data Scientist-ом?
— Введение в SQL & СУБД на примере доступа к данным через Python
— Plotting and Data Visualization with Matplotlib
— Applications of Data Science
— Semantic Search Over Satellite Images Using Qdrant
— Introduction to Data Science
— A Comprehensive Guide: How Deepchecks Evaluate the Large Language Model
— Appreciating the "Learning Problem" - Why AI will never replace your job
— Best JavaScript Chart Libraries 2024: Finding the Right Fit for Your JS Applications
— NumPy Arrays: An Introduction
— Hungarian GP 2022 Qualifying, and see what we can
— I built Hippotable for in-browser data analysis
— Десять самых ярких ИИ-работ от NVIDIA Research за 2023 год
Посмотреть:
🌐 100 вопросов с собеседований Data Science — часть 1 (⏱ 36:48)
🌐 💡 Задача: Ряд клавиатуры #Python #yotube #код #алгоритмы #программирование #собеседование #кодинг (⏱ 00:40)
🌐 💡задача #Python: Бинарный поиск #python #программирование #код #yotube #питон #собеседование (⏱ 00:41)
🌐 💡 Задача: Ряд клавиатуры #Python #yotube #код #алгоритмы #программирование #собеседование #кодинг (⏱ 01:00)
🌐 Evaluating Recommendation Algorithms at Delivery Hero - Manchit Madan (⏱ 23:01)
🌐 ODSC Webinar | Open source Data Lake Management, Curation, Governance for New & Growing Companies (⏱ 46:07)
🌐 Stable Diffusion AI: 100 Cats Per Second…For Free! (⏱ 08:21)
Хорошего дня!
@data_analysis_ml
❤16👍12🔥2
Научитесь поддерживать качество данных и использовать
TensorFlow Data Validation,
получите
практический опыт проверки данных для создания надежных конвейеров ML.https://www.wandb.courses/courses/data-validation-for-machine-learning
@data_analysis_mlPlease open Telegram to view this post
VIEW IN TELEGRAM
❤13👍3🔥3
Этот репозиторий поможет вам создать чатбота с ИИ, используя ваши чаты
WhatsApp
в качестве обучающих данных. По умолчанию используется модель Mistral-7B-Instruct-v0.2.
Код в этом репозитории в значительной степени опирается на llama-recipes (https://github.com/facebookresearch/llama-recipes), где вы можете найти больше примеров того, что можно делать с моделями llama.
▪Github
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍16❤3🔥2
🌟 Что ждет ИИ в 2024 году? В последнем выпуске The Batch на deeplearning.ai, множество ИИ-экспертов рассказывают о своих надеждах и прогнозах на ИИ в наступившем году.
В их обширных статьях рассматриваются новые инструменты ИИ, рассуждения о последующем экспоненциальном росте ИИ и многое другое.
https://deeplearning.ai/the-batch/issue-229/
@data_analysis_ml
В их обширных статьях рассматриваются новые инструменты ИИ, рассуждения о последующем экспоненциальном росте ИИ и многое другое.
https://deeplearning.ai/the-batch/issue-229/
@data_analysis_ml
👍20❤5🔥3
Проект Facets предоставляет инструменты визуализации для понимания и анализа наборов данных машинного обучения:
Facets Overview и Facets Dive
.Визуализации реализованы в виде веб-компонентов Polymer и могут быть легко встроены в блокноты Jupyter или веб-страницы.
Прмеры визуализаций можно найти на странице описания проекта Facets: pair-code.github.io/facets/
▪Github
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍26❤2🔥2
This media is not supported in your browser
VIEW IN TELEGRAM
Это позволит ускорить рабочий процесс и сократить количество опечаток и ошибок, особенно при работе с длинными или сложными командами.
https://fig.io/
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍26🔥4❤2👎1
🚕 Как Uber вычисляет время прибытия со скоростью полмиллиона запросов в секунду
📌 Читать
@data_analysis_ml
📌 Читать
@data_analysis_ml
👍24🔥6❤3🥰1