#career
Матрица компетенций в области SWE
https://sijinjoseph.netlify.app/programmer-competency-matrix/
Матрица компетенций в области SWE
https://sijinjoseph.netlify.app/programmer-competency-matrix/
Sijin Joseph
Programmer Competency Matrix | Sijin Joseph
Note that the knowledge for each level is cumulative; being at
level n implies that you also know everything from the
levels lower than n.
Computer Science 2n (Level 0) n2 (Level 1) n (Level 2) log(n) (Level 3) Comments data structures Doesn’t know the difference…
level n implies that you also know everything from the
levels lower than n.
Computer Science 2n (Level 0) n2 (Level 1) n (Level 2) log(n) (Level 3) Comments data structures Doesn’t know the difference…
Forwarded from Small Data Science for Russian Adventurers
#полезно
Довольно любопытный блог, в основном тут описываются идеи научных статей. Тематика: оптимизация, тензорные разложения, GAN-ы. Из последних интересных постов: качество на тестовой выборке почти совпадает с качеством на синтетической выборке, построенной с помощью GAN-a, обученного на обучении (т.е. предсказывается качество на тесте).
https://www.offconvex.org
Довольно любопытный блог, в основном тут описываются идеи научных статей. Тематика: оптимизация, тензорные разложения, GAN-ы. Из последних интересных постов: качество на тестовой выборке почти совпадает с качеством на синтетической выборке, построенной с помощью GAN-a, обученного на обучении (т.е. предсказывается качество на тесте).
https://www.offconvex.org
Forwarded from Deleted Account
Forwarded from Love. Death. Transformers.
Как шарить за DL не на уровне: пупук вот linear, вот логрег.
Есть пачка Стэнфордских курсов по ML, DL, NLP, выбираем по необходимости и проходим.
Мои фавориты:
DL in NLP - трансформеры и хайп included, благо лекторы делают их
NLP - ну это база, много стат методов и всякого около ml
Cs2289 - классический мл
CS230 - классический DL
Большая часть курсов на русском - в лучшем случае перевод этих, иногда ещё и плохо обновляемый. Ну и есть классическая теорема - хочешь чему-то научиться - учись у того кто это делает.
Есть пачка Стэнфордских курсов по ML, DL, NLP, выбираем по необходимости и проходим.
Мои фавориты:
DL in NLP - трансформеры и хайп included, благо лекторы делают их
NLP - ну это база, много стат методов и всякого около ml
Cs2289 - классический мл
CS230 - классический DL
Большая часть курсов на русском - в лучшем случае перевод этих, иногда ещё и плохо обновляемый. Ну и есть классическая теорема - хочешь чему-то научиться - учись у того кто это делает.
web.stanford.edu
CS230 Deep Learning
Deep Learning is one of the most highly sought after skills in AI. In this course, you will learn the foundations of Deep Learning, understand how to build neural networks, and learn how to lead successful machine learning projects. You will learn about Convolutional…
Forwarded from Earth&Climate Tech
Машинное и статистическое обучение от профессора Техасского Унивесритета в Остине Майкла Перча (Michael Pyrcz)
Я когда-то писал, но не лишне напомнить еще раз. У Майкла огромный опыт в статистическом и машинном обучении и их применении в геонауках. Он как раз делает упор на статистику и машинное обучение в геопроцессах. Он выкладывает все свои лекции вместе с презентациями и примерами кода бесплатно на своем гитхабе. Там можно найти кучу хорошо задокументированных рабочих процессов в Питоне, включая практические упражнения и демонстрации всех его лекций, которыми он свободно делится на своем ютуб канале. Вот, например, все его лекции его курса по машинному обучению.
Если хотели "войти" в программирование, статистику и машинное обучение находясь в геоиндустрии - самое оно.
Дисклеймер: его лекции не включают Глубокое Обучение.
P.S. Длинноволосый рокер - Майкл, чувак с глупой улыбкой - я.
Я когда-то писал, но не лишне напомнить еще раз. У Майкла огромный опыт в статистическом и машинном обучении и их применении в геонауках. Он как раз делает упор на статистику и машинное обучение в геопроцессах. Он выкладывает все свои лекции вместе с презентациями и примерами кода бесплатно на своем гитхабе. Там можно найти кучу хорошо задокументированных рабочих процессов в Питоне, включая практические упражнения и демонстрации всех его лекций, которыми он свободно делится на своем ютуб канале. Вот, например, все его лекции его курса по машинному обучению.
Если хотели "войти" в программирование, статистику и машинное обучение находясь в геоиндустрии - самое оно.
Дисклеймер: его лекции не включают Глубокое Обучение.
P.S. Длинноволосый рокер - Майкл, чувак с глупой улыбкой - я.
Forwarded from Записки MLEшника (Egor)
Просматривая видосики (1, 2) на ютубе, наткнулся на интересную библиотечку для инференса моделек от avito - Акведук.
Идея решения стандартная - разбить работу модели на этапы (например, препроцессинг, предсказание и постпроцессинг) и скейлить их отдельно. Этапы работают в отдельных процессах. Скейлить можно за счёт добавления процессов на конкретный этап. GPU экономится, потому что в CPU этапах вообще не будет дл фреймворков, а соответственно и пожирания ресурсов видеокарты.
Фишки:
- Pure python
Работает на основе multiprocessing из питона и имеет всего одну внешнюю зависимость. "No vendor lock" - хвалятся нам из доклада
- Plug-and-play
От датасаентистов требуется установить библиотеку, реализовать пару функций у класса Task (пример) и определить пайплайн обработки.
- Передача данных между этапами происходит через
Есть метрики (размеры очередей, время перехода между этапами и др.), подключается Sentry, Graceful Shutdown (если одна таска умерла, то начатые продолжат выполнение и завершатся), хелсчеки процессов.
Выглядит прикольно. 140 звезд на гите, комиты каждый месяц. Надо бы попробовать
Идея решения стандартная - разбить работу модели на этапы (например, препроцессинг, предсказание и постпроцессинг) и скейлить их отдельно. Этапы работают в отдельных процессах. Скейлить можно за счёт добавления процессов на конкретный этап. GPU экономится, потому что в CPU этапах вообще не будет дл фреймворков, а соответственно и пожирания ресурсов видеокарты.
Фишки:
- Pure python
Работает на основе multiprocessing из питона и имеет всего одну внешнюю зависимость. "No vendor lock" - хвалятся нам из доклада
- Plug-and-play
От датасаентистов требуется установить библиотеку, реализовать пару функций у класса Task (пример) и определить пайплайн обработки.
Flow(
FlowStep(PreProcessorHandler()),
FlowStep(ClassifierHandler()),
FlowStep(PostProcessorHandler()),
)
- Таски переходят между этапами через очереди. При этом реализована возможность немного подождать, чтобы накопить батч- Передача данных между этапами происходит через
SharedMemory
- Production readyЕсть метрики (размеры очередей, время перехода между этапами и др.), подключается Sentry, Graceful Shutdown (если одна таска умерла, то начатые продолжат выполнение и завершатся), хелсчеки процессов.
Выглядит прикольно. 140 звезд на гите, комиты каждый месяц. Надо бы попробовать
Forwarded from Andrey Lukyanenko
https://www.kaggle.com/code/ogrellier/feature-selection-with-null-importances
Помню был вот такой старый ноутбук на каггле. Этот подход был долгое время популярен.
Помню был вот такой старый ноутбук на каггле. Этот подход был долгое время популярен.
Kaggle
Feature Selection with Null Importances
Explore and run machine learning code with Kaggle Notebooks | Using data from Home Credit Default Risk
Forwarded from Artem Ryblov’s Data Science Weekly (Artem Ryblov)
Data Science for Tabular Data: Advanced Techniques
This is a collection of the best Kaggle notebooks (kernels) and other resources (including notebooks (kernels) and posts in discussion from Prize Competition Winners) with Advanced Techniques of Data Science for Tabular Data.
Table of Contents:
- Exploratory Data Analysis (EDA)
- Feature Engineering (FE)
- Model Hyper-parameter Optimization
- Models Selection
- Time Series
- Probability Calibration
- Universal Tool-kits
- DS Tutorials
#armkaggle #armknowledgesharing
#datascience #kaggle #tabular #data
This is a collection of the best Kaggle notebooks (kernels) and other resources (including notebooks (kernels) and posts in discussion from Prize Competition Winners) with Advanced Techniques of Data Science for Tabular Data.
Table of Contents:
- Exploratory Data Analysis (EDA)
- Feature Engineering (FE)
- Model Hyper-parameter Optimization
- Models Selection
- Time Series
- Probability Calibration
- Universal Tool-kits
- DS Tutorials
#armkaggle #armknowledgesharing
#datascience #kaggle #tabular #data
Kaggle
Data Science for tabular data: Advanced Techniques
Explore and run machine learning code with Kaggle Notebooks | Using data from No Data Sources
Forwarded from DL in NLP (Vlad Lialin)
Applyingml - забавный сайт с практическими советами как применять ML в реальной жизни.
Зашло The first rule of machine learning: Start without machine learning
Интересно как GPT-3/4 все это поменяют, но пока что советы выглядят полезными.
https://applyingml.com
Зашло The first rule of machine learning: Start without machine learning
Интересно как GPT-3/4 все это поменяют, но пока что советы выглядят полезными.
https://applyingml.com
Applyingml
ApplyingML - Papers, Guides, and Interviews with ML practitioners
Curated papers and blogs, ghost knowledge, and interviews with experienced ML practitioners on how to apply machine learning in industry.
Forwarded from New Yorko Times (Yury Kashnitsky)
Курс байесовской статистики и causal inference “Statistical Rethinking”
#courses #statistics
Стартует курс байесовской статистики и causal inference ”Statistical Rethinking 2023”.
Я лично давно хотел разобраться в том, как по данным восстанавливать причинно-следственные связи, читал канал @reliable_ml. Но вот и целый курс. Еще здорово, что это не статистика ради статистики, а статистика ради науки в целом – для исследователей из разных областей (мемы во вводной лекции кого-то выбесят, меня – нет).
Цитата: "We will prioritize conceptual, causal models and precise questions about those models. We will use Bayesian data analysis to connect scientific models to evidence"
Про курс поступило много хороших отзывов из твиттера от людей, знающих статистику уж точно лучше меня.
GitHub https://tinyurl.com/4y7zcvz8, 1-ая лекция https://youtu.be/FdnMWdICdRs. Код в основном на R, но есть и адаптация на Python + PyMC3.
Планирую ботать, как минимум лекции послушать.
#courses #statistics
Стартует курс байесовской статистики и causal inference ”Statistical Rethinking 2023”.
Я лично давно хотел разобраться в том, как по данным восстанавливать причинно-следственные связи, читал канал @reliable_ml. Но вот и целый курс. Еще здорово, что это не статистика ради статистики, а статистика ради науки в целом – для исследователей из разных областей (мемы во вводной лекции кого-то выбесят, меня – нет).
Цитата: "We will prioritize conceptual, causal models and precise questions about those models. We will use Bayesian data analysis to connect scientific models to evidence"
Про курс поступило много хороших отзывов из твиттера от людей, знающих статистику уж точно лучше меня.
GitHub https://tinyurl.com/4y7zcvz8, 1-ая лекция https://youtu.be/FdnMWdICdRs. Код в основном на R, но есть и адаптация на Python + PyMC3.
Планирую ботать, как минимум лекции послушать.
Forwarded from Small Data Science for Russian Adventurers
#книги
Несколько книг в свободном доступе по SQL и бизнес-аналитике (половина в процессе написания)
https://dataschool.com/books/
Несколько книг в свободном доступе по SQL и бизнес-аналитике (половина в процессе написания)
https://dataschool.com/books/