Интересное что-то
553 subscribers
2.78K photos
253 videos
140 files
4.58K links
Материалы и мысли, понадерганные отовсюду
Блог: https://t.iss.one/asisakov_channel
Чат: https://t.iss.one/youknowds_chat
Download Telegram
Forwarded from Пресидский залив (Nadia ズエバ)
Forwarded from Start Career in DS
🏫 Шпаргалки по курсам Стэнфорда!

Вот тут собраны короткие обзоры алгоритмов и подоходов из соотвествтующих тем.
Супер-наглядный и удобный формат + нет замудрёной математики. Всё по делу.

CS 221 Artificial Intelligence
CS 229 Machine Learning
CS 230 Deep Learning
#ml #statistics #bayesian #courses

Максим Кочуров на экономе МГУ этой осенью читал магистерский курс “Practical Bayes” (прикладные Байесовские методы). Рассказывал там про подходы к моделированию, аб тестирование, иерархичные модели, Гауссовские процессы, оценку consumer lifetime моделей. Теперь у курса есть обновляемая страничка с презентациями

https://ferrine.github.io/pages/practical-bayes/
Forwarded from Записки MLEшника (Egor)
Прочитал книжку Чистый Python

Выбор на нее пал из-за высоких оценок, и потому что коллеги устроили ее совместное чтение. На них я не пошел, но интерес возник 👀

Книга родилась из серии публикаций автора в твитере. Этакий сборник фишек и советов. Кстати, у него прикольный блог.

На мой взгляд, фраза "Тонкости программирования для профи" не подходит книге. Я ее интерпретирую так: если ты профи, то сейчас узнаешь тонкости программирования. А по факту тут скорее: прочтешь и узнаешь тонкости, которые знают профи.

Мне понравилось, что после каждой главы есть ключевые выводы, где прямо говорят - если А, то используй list, если B, то deque. Люблю когда прямо и по делу. Потом можно использовать как справочник.

В общем, если вы понимаете декораторы, итераторы, распаковку и использовали defaultdict, то я бы прошел мимо. А если нет, то вполне хорошая книга, чтобы познакомиться без глубокого погружения в детали.
Forwarded from Градиентное погружение (Максим Герасимов)
💻 Russian Texts Statistics (ruts)

👉 Библиотека разработанная для извлечения признаков из произвольного текста. Работает на русском, но ничего не мешает применить для другого языка.

В комплект входят:
• Базовые статистики (количество слогов, букв, пробелов и тд)
• Метрики удобочитаемости (уже писал о них)
• Метрики лексического разнообразия (Индекс Симпсона и тд)
• Морфологические статистики

Визуализации:
— Закон Ципфа
— Литературная дактилоскопия
— Дерево слов

Подойдет в качестве экстрактора для фича инжиниринга к обычному tf-idf или эмбеддингам.

github
#interview #courses

Нашёл в одном из комментариев что-то интересное для DS и MLE

https://github.com/Extremesarova/data_science_resources
Forwarded from Борис опять
# Минимальные знания Software Engineering для Data Scientist 1/3

## Git
Интерактивный туториал
Краткий курс по Git от Github
Git (или другая VCS) каждый день использует любой адекватный программист. Стоит инвестировать время не только в заучивание трех команд, а в понимание принципа работы. К счастью основы изучаются за пару вечеров, а большего и не надо. DS должно быть не сложно понять идею, ведь про графы и деревья вы наверное слышали. Только не используйте никаких GUI клиентов для Git по крайней мере пока учитесь! Например надо понимать разницу между git add и git commit, но GUI клиенты часто заменяют их одной кнопкой.

## Linux
The Linux command line for beginners
Если вы работаете из под Windows, то как можно быстрее бросайте это дело (если у вас уже Mac или Linux, то этот пункт можете пропустить). Считайте, что Python разработки под Windows не бывает. Не умея пользоваться линуксом вы беспомощны. Как слезть с иглы: поставьте себе Ubuntu и работайте только из под нее, а Windows оставьте для игр. Я бы не советовал пользоваться WSL, потому что это полумера, но и это подойдет как крайний вариант. Главное, чтобы вас не пугали фразы уровня “зайди на VPS по ssh по ключу, прокинь симлинк для этой штуки.” Иначе вы в большинстве команд будете тем парнем, которому надо постоянно помогать.

## Библиотеки и зависимости в Python
Python virtual environments: A Primer
Обязательное чтение про менеджмент библиотек и зависимостей в Python. Вы должны быть способны разрабатывать несколько DS проектов с конфликтующими зависимостями (один требует pytorch v1.12, второй v1.4) без использования Anaconda. Так не обязательно делать, но вы должны быть способны. Для вас не должно быть проблемой сделать так, чтобы проект запускался с одинаковыми версиями библиотек у вас, у вашего коллеги и на сервере.

## Практический Python
The Hitchiker’s Guide to Python
Чтение о практическом применении Python. Бесплатная, короткая и по делу написанная книга.

Особенное внимание:
Глава про структуру кода
Содержит очень важную информацию про модули и пакеты в Python (так же см. официальную документацию).
Для закрепления: взять любой свой проект и красиво разбить его на модули.
Глава про стиль кода
Стиль кода это недооцененная (особенно среди DS), но очень важная вещь. От умения писать код зависит, будут ваши коллеги плевать вам в чай или нет. Умение писать читабельный код сэкономит вам уйму времени даже если вы только прототипируете модели и вам никогда не придется поддерживать проекты. Решая Kaggle вы бы скорее хотели искать ошибки в коде или пробовать новые варианты решения?
Прочитали один раз - пишете код лучше, чем большинство DS. Бесплатное преимущество!
Для закрепления: написать любую программу максимально красиво. Достаточно даже задачи с Leetcode. Хороший критерий успеха: вы отложили код на две недели, вернулись и все еще понимаете, что в нем происходит.
Глава про тесты и гайд для pytest
Способность писать тесты отличает дилетанта от программиста. Знание о том, как писать тесты, навсегда меняет подход к написанию любого кода: просто понимаешь, какой код более вероятно содержит скрытые косяки. Минус: паранойя навсегда, потому узнаешь, что весь код без покрытия автотестами сломан. Это очень важно даже если вы только учить модели. Если ваш код невозможно затащить в прод, то вы беспомощны и возможно даже бесполезны.
Для закрепления: покрыть тестами свою программу. Бонусные очки, если вы покрываете тестами ML решение, потому что это довольно нетривиальная задача.

## Читаем код
Узнав про то, что такое модульный и читабельный код, изучаем его экземпляры в дикой природе. Просто читаем, вникаем что и откуда берется, задаем себе вопросы: “почему здесь так?”, “что это такое?”, “зачем это здесь?” Это симуляция ситуации, когда вам нужно работать с кодом коллеги. Только в реальной жизни код не будет хорошим.
Советую исходный код этой небольшой библиотеки для табличек: https://github.com/jazzband/tablib
Более продвинутый уровень, если в библиотеке выше уже все понятно: https://github.com/pallets/flask
#visualization

Или как делать презентации через Markdown