Aspiring Data Science

#dask #coiled

Ещё что интересно, coiled поддерживает dask-овые ресурсы, но аннотировать рабочие узлы ресурсами нужно самостоятельно, что крайне странно. Ну неужели нельзя было нормально сделать, чтобы железо аннотировалось автоматически?

47 viewsedited 05:36

#dask #coiled

Ураа, после пары часов танцев удалось запустить вычисления на кластере AWS через coiled. Уже хотел отказаться от этой затеи, т.к. постоянно выкидывало ошибку что не установлен мой модуль, хотя я его копировал на узлы с помощью client.upload_file. Уже было расстроился, что не получается сделать прозрачную замену локального dask на распределённый, но оказалось, в той функции, что требуется запустить на кластере, надо сделать импорт из нужного модуля, и тогда всё заработает. Это нигде не документировано и в поисковике не находится, не удивлюсь, если многие до этой проблемы дошли и бросили. Ну ладно, все проблемы решены, получается? Нет, конечно.

Замерил использование CPU на воркере, похоже, всегда загружено только 1 ядро, что за чёрт? Запостил вопрос на их гитхабе (другой поддержки там не предусмотрено).
Похоже, стартап с US$ 21M финансированием, цель которого демократизировать кластерные вычисления питонистов в облаках... решил, что поддерживать многопроцессовость vs многопотоковость, которая нужна для чистого питон-кода, не умеющего обходить GIL, (и которая уже была в dask) не надо, и так сойдёт. Как говорится, что это, глупость или предательство?

Пока что мне подсказали использовать много машинок не более чем с 2 vCPU. По результатам теста, действительно, это позволяет извлечь максимум из железа: 1 ядро по-любому подсунут виртуальное (HT), и оно даёт +15% к производительнсти, даже с учётом того, что dask от coiled на потоках (не знаю, как это получается). Но при добавлении ещё одного реального и виртуального ядра это масштабирается ещё на 15% вместо 50%, что уже невыгодно. Конечно, создавать каждый раз вирутальный сервер со своим полноразмерным образом диска ради 2 потоков глупо, ну а что делать.

GitHub

Making a worker use processes rather than cores · Issue #238 · coiled/feedback

Hi, I am trying to run distributed computing on AWS using coiled. My code is pure Python and therefore can not bypass the GIL. When testing with local Dask on my laptop, to activate all cores I had...

49 viewsedited 20:50

Aspiring Data Science

#cloudcomputing #dask #business #opticloud

Облачные вычисления с Dask требуют знания цен (особенно на спотовые инстансы), думаю начать регулярный сбор цен основных провайдеров (AWS, GCP, Azure) в базу. Возможно, в последующем сделаю какой-то сервис поиска лучшей площадки и инстансов для заданной нагрузки (с учётом прогнозной доступности и цены на заданную длительность вычислений). Например, клиент делает сабмит 1 блока своей задачи, сервис прогоняет его на нескольких инстансах, с помощью ML рассчитывает время выполнения на всех возможных инстансах всех облачных провайдеров (они же отличаются по железу). Согласно указанному клиентом объёму блоков в день, датам начала/завершения работ, система рассчитывает, в каких именно облаках и на каких конкретно инстансах нужно создавать кластер, чтобы минимизировать стоимость/время расчётов.

Производительность железа распадается на несколько блоков: CPU, GPU, RAM, Storage (HDD/SSD), Network.
Также у клиента могут быть задачи разного типа: ML Training, ML inference, Finance/Physics/Bio simulations, Video Encoding.
В голове крутится прогон подобных бенчмарков на каждом уникальном по соответствующему железу типу инстанса (например: модель процессора, тип и частота памяти, тип СХД, пропускная способность сети).

Тогда пользователь сервиса (в первом приближении) говорит: мне надо обучать sklearn-овскую модель. минимум памяти на ядро 8Гб, где сейчас это лучше сделать? Сервис отвечает: в AWS, регион us-west-2, зона 2b, инстанс такой-то, спот цена такая-то., индекс производительности такой-то. А если клиент указывает фреймворк tensorflow, в сравнении участвуют уже и GPU, TPU, Trainium инстансы, и получается другой ответ, к примеру, GCP, регион такой-то, TPU v3 spot, цена такая-то, индекс производительности такой-то.

В идеале можно будет свою задачу на минималках отправить на тестирование, и тогда уже система точно рассчитает производительность на каждом инстансе. Но для начала можно будет ориентироваться хотя бы на какие-то общие бенчмарки.

57 viewsedited 09:43

Aspiring Data Science

#dask #arm #graviton #coiled

... даз даск ... ))

https://medium.com/coiled-hq/how-well-does-dask-run-on-graviton-29d5d9c20279

Medium

How well does Dask run on Graviton?

Authors: Nat Tabris and Sarah Johnson

89 views17:21

Aspiring Data Science

#ml #dask #daskml

Продумываю переход на распределённое обучение с Dask, и внезапно оказывается, что там вроде бы и нет (распределённого) FS (feature selection), OR (outlier removal), TT (target transformer). По крайней мере, в официальной доке нигде упоминаний нет, и непонятно, что будет, если их попробовать с конвейером dask-ml, скорей всего, не сработает. Есть только HPT (Hyper Parameters Tuning) и ES (Early Stopping). В Spark MlLib есть хотя бы FS:
VectorSlicer
RFormula
ChiSqSelector
UnivariateFeatureSelector
VarianceThresholdSelector

94 viewsAnatoly Alekseev, edited 18:15

Aspiring Data Science

#dask #coiled

Так смешно. Мэтт Роклин, глава Coiled (и создатель Dask), прислал мне емэйл, что, мол, я престал пользоваться их продуктом, не предоставлю ли обратную связь, почему так вышло? Не знаю, часть ли это стандартной практики контроля качества, или связано с нашей беседой по поводу отсутствия в койлед функциональности мультипотоков, которая есть в опенсорсном dask-distributed, на что я указал им в issue и они пытались мне помочь (но их советы не сработали). Я ответил на письмо, что детальный feedback предоставлю, но мне только нужно понять, насколько развитие dask-distributed создаёт конфликт интересов с развитием коммерческого Койлед, к примеру, что будет, если я предложу PR по добавлению в AWS dask-cloudporvider спотовых инстансов, которых там по странному стечению обстоятельств не завезли. В течение часа Мэтт ответил, что это не проблема, и парни из nvidia, которые тоже поддерживают dask, будут рады это принять. Ну хорошо, подумал я, люди открыты меняться в лучшую сторону, и честно изложил во втором письме свои мысли по поводу того, что Койлед берёт слишком много денег за весьма скромную функциональность, и не пытается даже решить актуальные проблемы: выбор серверов где нагрузка юзера будет считаться быстрее и дешевле, гетерогенные кластера в разных облаках, прогноз interruption rates, prices, perf scores с помощью ML и предоставление пользователю этих оценок. Я как-то думал, это приведёт к плодотворной дискуссии, но прошло уже несколько дней, а мой визави просто пропал )

В связи с этим вспомнился анекдот:

- Вы указали в резюме, что Вашим основным недостатком является привычка всегда говорить напрямик и только правду, верно?
- Да.
- Но, знаете, я думаю, это вовсе не недостаток, а даже преимущество.
- Да мне по*уй, что ты там думаешь.

😁2

100 viewsAnatoly Alekseev, edited 00:40

Aspiring Data Science

#dask #cupy #numba #cuda

https://www.youtube.com/watch?v=wANQkgDuTAk

YouTube

High Performance Python Processing Pipeline

We start with a simple signals processing workload, and then accelerate it by several orders magnitude using the following libraries:

1. Numpy: https://numpy.org
2. Numba: https://numba.pydata.org
3. Dask: https://dask.org
4. CuPy: https://cupy.chainer.org…

127 viewsAnatoly Alekseev, 13:17

Aspiring Data Science

#dask

https://www.youtube.com/watch?v=WoVVLk7dod4

YouTube

Saturn Cloud Workshop: Scaling LightGBM training with Dask on Saturn Cloud

In this workshop, attendees will get an introduction to LightGBM, a popular lightweight gradient-boosted decision tree (GBDT) library. This introduction will cover GBDTs generally and LightGBM, specifically. It will also describe which parts of a GBDT can…

135 viewsAnatoly Alekseev, 13:16

Aspiring Data Science

#dask #blazingsql #holoviz #cuxfilter

https://www.youtube.com/watch?v=auBaWD31FCk

YouTube

Dask + Rapids | Using GPUs to Accelerate Data Science with Dask + Rapids | Jacob Schmitt

RAPIDS supercharges data science with NVIDIA accelerated compute. Paired with Dask, data professionals can build highly-performant, distributed workloads with a comfortable toolset similar to favorites like pandas or scikit-learn. In this workshop, we’ll…

122 viewsAnatoly Alekseev, edited 10:39

Aspiring Data Science

#dask

https://www.youtube.com/watch?v=LQrgDhN-XOo

YouTube

TUTORIAL / James Bourbeau, Julia Signell / Hacking Dask: Diving Into Dask;s Internals

95 viewsAnatoly Alekseev, 14:12

Aspiring Data Science

#dask

https://www.youtube.com/watch?v=_AL5qpx3Yig

YouTube

Dask ML | Scale Machine Learning Code with Dask | Dask Summit 2021

Speakers - Andrew Mshar, Ryan Soley

Do you use the Scikit-learn library to build machine learning models? In this tutorial, we'll discuss how to avoid the traps that lead to hard to maintain code while implementing customizations to these algorithms. We…

100 viewsAnatoly Alekseev, 09:25

Aspiring Data Science

#dask #groupby #codegems

https://www.youtube.com/watch?v=QY0zFsaO2j8

YouTube

Dask DataFrame Groupby | Why it Can Fail & How to Compensate | Hugo Shi | Dask Summit 2021

Dask DataFrame groupby operations are very common and very powerful. However due to the distributed nature of Dask DataFrames, they can fail in unexpected ways. This talk covers mitigation strategies for these problems, including using set_index to optimize…

78 viewsAnatoly Alekseev, 09:02

Aspiring Data Science

#dask #daskml

HyperBandSearchCV в сочетании с "обычным" sklearn-эстиматором показалось интересной идеей.

https://www.youtube.com/watch?v=we1m4-IsbL8

YouTube

Tom Augspurger: Scalable Machine Learning with Dask | PyData New York 2019

Python has a great ecosystem for machine learning, especially on relatively small datasets processed on a single machine. We'll use Dask to scale libraries like NumPy, pandas, and scikit-learn to larger datasets and larger problems. We'll see that problems…

109 viewsAnatoly Alekseev, edited 10:25

Aspiring Data Science

#dask #cudf

https://www.youtube.com/watch?v=8ZMzsTbfImU

YouTube

100GB/s GPU Log Analytics at Graphistry | Leo Meyerovich | Dask Summit 2021

From security and fraud to sales and marketing, quickly making sense of the relationships across big log files is important but difficult. The rise of GPU cloud computing has changed what is practical here, so for the last 4 years, Graphistry, a visual computing…

102 viewsAnatoly Alekseev, edited 09:46

About

Blog

Apps

Platform