Интересное что-то – Telegram

Интересное что-то

551 subscribers

2.77K photos

253 videos

140 files

4.57K links

Материалы и мысли, понадерганные отовсюду
Блог: https://t.iss.one/asisakov_channel
Чат: https://t.iss.one/youknowds_chat

Download Telegram

About

Blog

Apps

Platform

Интересное что-то

551 subscribers

Интересное что-то

Forwarded from Earth&Climate Tech

Машинное и статистическое обучение от профессора Техасского Унивесритета в Остине Майкла Перча (Michael Pyrcz)

Я когда-то писал, но не лишне напомнить еще раз. У Майкла огромный опыт в статистическом и машинном обучении и их применении в геонауках. Он как раз делает упор на статистику и машинное обучение в геопроцессах. Он выкладывает все свои лекции вместе с презентациями и примерами кода бесплатно на своем гитхабе. Там можно найти кучу хорошо задокументированных рабочих процессов в Питоне, включая практические упражнения и демонстрации всех его лекций, которыми он свободно делится на своем ютуб канале. Вот, например, все его лекции его курса по машинному обучению.

Если хотели "войти" в программирование, статистику и машинное обучение находясь в геоиндустрии - самое оно.

Дисклеймер: его лекции не включают Глубокое Обучение.

P.S. Длинноволосый рокер - Майкл, чувак с глупой улыбкой - я.

26 views18:17

Интересное что-то

26 views23:29

Интересное что-то

Forwarded from Записки MLEшника (Egor)

Просматривая видосики (1, 2) на ютубе, наткнулся на интересную библиотечку для инференса моделек от avito - Акведук.

Идея решения стандартная - разбить работу модели на этапы (например, препроцессинг, предсказание и постпроцессинг) и скейлить их отдельно. Этапы работают в отдельных процессах. Скейлить можно за счёт добавления процессов на конкретный этап. GPU экономится, потому что в CPU этапах вообще не будет дл фреймворков, а соответственно и пожирания ресурсов видеокарты.

Фишки:
- Pure python
Работает на основе multiprocessing из питона и имеет всего одну внешнюю зависимость. "No vendor lock" - хвалятся нам из доклада
- Plug-and-play
От датасаентистов требуется установить библиотеку, реализовать пару функций у класса Task (пример) и определить пайплайн обработки.

Flow(
 FlowStep(PreProcessorHandler()),
 FlowStep(ClassifierHandler()),
 FlowStep(PostProcessorHandler()),
)

- Таски переходят между этапами через очереди. При этом реализована возможность немного подождать, чтобы накопить батч
- Передача данных между этапами происходит через

SharedMemory

- Production ready
Есть метрики (размеры очередей, время перехода между этапами и др.), подключается Sentry, Graceful Shutdown (если одна таска умерла, то начатые продолжат выполнение и завершатся), хелсчеки процессов.

Выглядит прикольно. 140 звезд на гите, комиты каждый месяц. Надо бы попробовать

24 views23:29

Интересное что-то

28 views13:14

Интересное что-то

Forwarded from Andrey Lukyanenko

https://www.kaggle.com/code/ogrellier/feature-selection-with-null-importances

Помню был вот такой старый ноутбук на каггле. Этот подход был долгое время популярен.

Feature Selection with Null Importances

Explore and run machine learning code with Kaggle Notebooks | Using data from Home Credit Default Risk

31 views13:14

Интересное что-то

29 views13:24

Интересное что-то

Forwarded from Artem Ryblov’s Data Science Weekly (Artem Ryblov)

Data Science for Tabular Data: Advanced Techniques

This is a collection of the best Kaggle notebooks (kernels) and other resources (including notebooks (kernels) and posts in discussion from Prize Competition Winners) with Advanced Techniques of Data Science for Tabular Data.

Table of Contents:
- Exploratory Data Analysis (EDA)
- Feature Engineering (FE)
- Model Hyper-parameter Optimization
- Models Selection
- Time Series
- Probability Calibration
- Universal Tool-kits
- DS Tutorials

#armkaggle #armknowledgesharing
#datascience #kaggle #tabular #data

Data Science for tabular data: Advanced Techniques

Explore and run machine learning code with Kaggle Notebooks | Using data from No Data Sources

38 views13:24

Интересное что-то

36 views11:08

Интересное что-то

Forwarded from DL in NLP (Vlad Lialin)

Applyingml - забавный сайт с практическими советами как применять ML в реальной жизни.

Зашло The first rule of machine learning: Start without machine learning

Интересно как GPT-3/4 все это поменяют, но пока что советы выглядят полезными.

https://applyingml.com

ApplyingML - Papers, Guides, and Interviews with ML practitioners

Curated papers and blogs, ghost knowledge, and interviews with experienced ML practitioners on how to apply machine learning in industry.

36 views11:08

Интересное что-то

#causal #courses

39 views11:18

Интересное что-то

Forwarded from New Yorko Times (Yury Kashnitsky)

Курс байесовской статистики и causal inference “Statistical Rethinking”
#courses #statistics

Стартует курс байесовской статистики и causal inference ”Statistical Rethinking 2023”.

Я лично давно хотел разобраться в том, как по данным восстанавливать причинно-следственные связи, читал канал @reliable_ml. Но вот и целый курс. Еще здорово, что это не статистика ради статистики, а статистика ради науки в целом – для исследователей из разных областей (мемы во вводной лекции кого-то выбесят, меня – нет).

Цитата: "We will prioritize conceptual, causal models and precise questions about those models. We will use Bayesian data analysis to connect scientific models to evidence"

Про курс поступило много хороших отзывов из твиттера от людей, знающих статистику уж точно лучше меня.

GitHub https://tinyurl.com/4y7zcvz8, 1-ая лекция https://youtu.be/FdnMWdICdRs. Код в основном на R, но есть и адаптация на Python + PyMC3.

Планирую ботать, как минимум лекции послушать.

43 views11:18

Интересное что-то

36 views15:31

Интересное что-то

Forwarded from Small Data Science for Russian Adventurers

#книги
Несколько книг в свободном доступе по SQL и бизнес-аналитике (половина в процессе написания)
https://dataschool.com/books/

32 views15:31

Интересное что-то

35 views15:32

Интересное что-то

Forwarded from Борис опять

Неплохо и коротко про MLOps. Достаточно для обзора основных идей.

https://mlops-guide.github.io/

mlops-guide.github.io

MLOps Guide introducing concepts and application using DVC, CML, IBM Watson Machine Learning, IBM Watson OpenScale, Terraform and Cookiecutter. Learn how to implement MLOps.

35 views15:32

Интересное что-то

34 views14:26

Интересное что-то

Forwarded from Bars

https://m.youtube.com/watch?v=k6PKNGvCKKM&feature=youtu.be

Computational Finance Q&A, Volume 1, Introduction

Computational Finance Q&A, Volume 1, Question 0/30
▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬
Materials discussed in this video are based on:
1) FREE online course "Computational Finance" is available at:
https://www.youtube.com/playlist?list=PL6zzGYGhbWrPaI…

44 views14:26

Интересное что-то

37 views14:34

Интересное что-то

Forwarded from Кодим на Коленке | Уроки по программированию

Парсинг сайтов на Python

Одна из самых востребованных задач на фрилансе — парсинг, представляющий из себя автоматический сбор данных с веб-сайтов. В этом плейлисте автор создал парсеры популярных сайтов, учитывая все нюансы, которые возникают при разработке.

Подробнее: 👉 тут

#видео #python

34 views14:34

Интересное что-то

27 views16:05

Интересное что-то

Forwarded from ИЦ "ГЕВИССТА"

Часть_6_2_4_Иллюстрация_работы_дерева_классификации_CART_на_конкретном.ipynb

Важности скоррелированных признаков в дереве, лесе и бустинге
В группе, посвященной CatBoost, задали вопрос, какие важности будут у двух высоко коррелированных признаков. Если корреляция идеальная, происходит разбавление важности коррелированных признаков из-за их взаимозаменяемости: важность двух идентичных признаков будет снижена примерно вдвое. Чем сильнее корреляция, тем сильнее выражен эффект. Если корреляция сильная, но не идеальная, эффект будет снижен. На эффект можно влиять с помощью отбора наблюдений/признаков. Он проявляется в одиночном дереве, случайном лесе и бустинге, из всех бустингов меньше всего проявляется в LightGBM. Приложил один из экспериментов, которые делал для книжки по бустингу. Там можно поиграть с добавлением шума.

29 views16:05