Small Data Science for Russian Adventurers

#код
Доклад о некоторых проблемах памяти и скорости в Pandas:
https://youtu.be/N4pj3CS857c

Ian Ozsvald - Making Pandas Fly | PyData Fest Amsterdam 2020

PyData is excited to announce PyData Global, November 11th - 15th! Tickets are now available: https://global.pydata.org/pages/tickets.html#pricing-and-ticket-purchases
Part of an underrepresented group in tech? PyData Global is offering Diversity Scholarships.…

2.83K views09:32

Small Data Science for Russian Adventurers

#код
Куча полезных библиотек. В заголовке написано "для продакшена", но, на самом деле, там много для чего, например, есть коллекция для поиска аномалий:
https://github.com/EthicalML/awesome-production-machine-learning

GitHub

GitHub - EthicalML/awesome-production-machine-learning: A curated list of awesome open source libraries to deploy, monitor, version…

A curated list of awesome open source libraries to deploy, monitor, version and scale your machine learning - EthicalML/awesome-production-machine-learning

2.69K views19:09

Small Data Science for Russian Adventurers

#код
Руководство по стилю SQL:
https://www.sqlstyle.guide/ru/

www.sqlstyle.guide

Руководство по стилю SQL · SQL style guide by Simon Holywell

Руководство по стилю SQL · A consistent code style guide for SQL to ensure legible and maintainable projects

3.04K views22:01

Small Data Science for Russian Adventurers

#код
Небольшой лайфхак для тех, кто перешёл из Jupyter notebook в Jupyter lab. Непривычно пропало меню работы с изображением, когда щёлкаешь правой кнопкой мыши по картинкам. Вместо этого выводится стандартное меню Lab. Чтобы вернуть "классическое", надо удерживать клавишу Shift при правом клике мыши;)

2.95K views15:01

Small Data Science for Russian Adventurers

#код
Не так давно NVIDIA выпустила фрейворк NeMo для создания разговорного ИИ. Мои знакомые отнеслись к нему с понятной долей подозрения (ещё сырой, никто не использует и т.п.), но стали появляться статьи, в которых он используется: https://arxiv.org/pdf/2010.13886.pdf
NeMo
https://github.com/NVIDIA/NeMo

GitHub

GitHub - NVIDIA/NeMo: A scalable generative AI framework built for researchers and developers working on Large Language Models…

A scalable generative AI framework built for researchers and developers working on Large Language Models, Multimodal, and Speech AI (Automatic Speech Recognition and Text-to-Speech) - NVIDIA/NeMo

2.91K views14:42

Small Data Science for Russian Adventurers

#код
AutoML от Сбербанка в открытом доступе:
https://github.com/sberbank-ai-lab/LightAutoML

GitHub

GitHub - sberbank-ai-lab/LightAutoML: LAMA - automatic model creation framework

LAMA - automatic model creation framework. Contribute to sberbank-ai-lab/LightAutoML development by creating an account on GitHub.

3.4K views20:47

Small Data Science for Russian Adventurers

#код
Какой потрясающий ресурс! Здесь примеры кода на Pytorch с разъяснением как по базовым конструкциям, так и по современным сетям.
https://nn.labml.ai/

5.57K views21:30

Small Data Science for Russian Adventurers

#код
В постах на этом сайте фактически дана инструкция по написанию торгующего бота.
https://conorjohanlon.com/

4.58K views20:44

Small Data Science for Russian Adventurers

#код
Наверное, я стал совсем старым и отсталым... так принято сейчас код оформлять на питоне? Это какой-то стандарт? С такими отступами и запятой в начале при перечислении? Гитхаб набит подобным оформлением...

3.17K views21:12

Small Data Science for Russian Adventurers

#код
Библиотека для активного обучения (пока не пробовал, да и задач таких сейчас у меня нет, но выглядит симпатично, самые известные подходы реализованы, заявлена совместимость с другими библиотеками)
modal-python.readthedocs.io

3.96K views16:11

Small Data Science for Russian Adventurers

image_2021-06-27_18-59-07.png

38.7 KB

#код
Забавный баг (появился относительно недавно): в jupyter lab без выделенных строк ядро умирает при вызове imshow. Весь старый код, в котором есть хотя бы один вызов imshow сейчас не работает...

5.85K views15:59

Small Data Science for Russian Adventurers

#код

Серия полезных ресурсов от Майкрософт (есть полезные хорошо реализованные методы):

NLP
https://github.com/microsoft/nlp-recipes

Computer vision
https://github.com/microsoft/computervision-recipes

Forecasting
https://github.com/microsoft/forecasting

Recommendation systems
https://github.com/microsoft/recommenders

GitHub

GitHub - microsoft/nlp-recipes: Natural Language Processing Best Practices & Examples

Natural Language Processing Best Practices & Examples - microsoft/nlp-recipes

6.58K views13:25

Small Data Science for Russian Adventurers

#код
Сам не пробовал, но когда-то что-то подобное было актуально. Только вот автоматический выбор размера батча проблемы с памятью не решит.
https://github.com/rentruewang/koila

GitHub

GitHub - rentruewang/koila: Prevent PyTorch's `CUDA error: out of memory` in just 1 line of code.

Prevent PyTorch's `CUDA error: out of memory` in just 1 line of code. - rentruewang/koila

👍1

5.45K views20:48

Small Data Science for Russian Adventurers

#код
Сижу тут, пытаюсь тексты кластеризовать, взял представления из трансформеров, решил посмотреть, как в пространстве главных компонент будет получаться... а получается какая-то ерунда, качество то высокое, то низкое. Хорошо, что люблю всё визуализировать - ошибка сразу нашлась - обратил внимание, что порядок сингулярных значений какой-то странный.

Что в итоге... Если Вы пользуетесь функцией scipy.sparse.linalg.svds, то в помощи есть забавная фраза "The order in which the singular values are returned is not guaranteed". Вроде как её раньше не было (я часто пользовался этой функцией, так как она получает нужное количество компонент, и проблем не возникало).

😱54👍16🤔6

6.99K views12:41

Small Data Science for Russian Adventurers

#код
Вот вам простейшая, но хорошая для собеседования DL-исследователей/инженеров задача. Попробуйте решить сами прежде, чем посмотреть ответ.

Даны два тензора - X размера MxN и Y размера KxN, нужно получить тензор размера MxK, ij-й элемент которого норма разности i-й строки X и j-й строки Y.

Понятно, что задачка возникает на практике и должна решаться на автомате;)

Пример: для входа

tensor([[0., 0., 0., 0.],
        [1., 1., 1., 1.],
        [1., 2., 3., 4.]])
tensor([[1., 0., 0., 0.],
        [0., 0., 0., 1.]])

выход

tensor([[1.0000, 1.0000],
        [1.7321, 1.7321],
        [5.3852, 4.7958]])

Решение (для PyTorch): (X.unsqueeze(1) - Y).norm(dim=2)

👍60👏4

7.43K viewsedited 09:18

Small Data Science for Russian Adventurers

#код
В прошлом опросе по питону в комментариях есть ссылки на хорошие ресурсы. Большинство из них я использовал, когда когда-то готовил занятия по питону. Из "странностей" языка моя любимая, пожалуй, эта -

a = [lambda: i for i in range(3)]
b = [f() for f in a]
print (b)

(ниже опрос). Легко объясняется, но совсем нетривиальна до тех пор, пока сам не столкнёшься.

🔥10👍1

7.85K views10:36

Small Data Science for Russian Adventurers

#код
100 упражнений по NumPy на русском языке
https://github.com/alex-sokolov2011/100_Numpy_exercises_Rus_ver

GitHub

GitHub - alex-sokolov2011/100_Numpy_exercises_Rus_ver: 100 упражнений по numpy версия на русском

100 упражнений по numpy версия на русском. Contribute to alex-sokolov2011/100_Numpy_exercises_Rus_ver development by creating an account on GitHub.

👍67❤‍🔥11🔥4🐳2🤡1

10.5K views08:18

Small Data Science for Russian Adventurers

#код
Демки разных методов, есть код на Python, R, Julia и Matlab. Ничего сверхполезного вроде нет, но для новичков будет в самый раз.
https://www.numerical-tours.com/

👍20🔥2

7.02K views15:27

Small Data Science for Russian Adventurers

#код
Забавляет, что в библиотеках, которыми пользуется DS сообщества, при более-менее стандартных именах функций на ровном месте возникают несогласованности. Например, конкатенация матриц / датафреймов / тензоров:
в нумпае - numpy.concatenate,
в пандасе - pandas.concat,
в пайторче - torch.cat.

Некоторые особенности разного именования вызваны разными концепциями средств программирования (например, пометка inplace-методов с помощью аргумента inplace или с помощью знака подчёркивания).

Некоторые просто авторские (например, последний слой предобученных нейросетевых моделей: fc / classifier / head).

Но вот зачем конкатенацию по-разному называть? :)

😁54🥴19🤔5💯5

8.86K views16:27

Small Data Science for Russian Adventurers

#код
Довольно известный ресурс про эффективное программирование на питоне (по памяти и по скорости) - но в этом канале я ещё на него ни разу не ссылался. Есть отдельная подборка статей по DS: numpy, pandas, polars и т.п.

https://pythonspeed.com/

🔥96👍15❤13🙏2

17.2K views11:52

About

Blog

Apps

Platform