Интересное что-то – Telegram

Интересное что-то

551 subscribers

2.77K photos

253 videos

140 files

4.57K links

Материалы и мысли, понадерганные отовсюду
Блог: https://t.iss.one/asisakov_channel
Чат: https://t.iss.one/youknowds_chat

Download Telegram

About

Blog

Apps

Platform

Интересное что-то

551 subscribers

Интересное что-то

Forwarded from DL in NLP (Vlad Lialin)

Applyingml - забавный сайт с практическими советами как применять ML в реальной жизни.

Зашло The first rule of machine learning: Start without machine learning

Интересно как GPT-3/4 все это поменяют, но пока что советы выглядят полезными.

https://applyingml.com

ApplyingML - Papers, Guides, and Interviews with ML practitioners

Curated papers and blogs, ghost knowledge, and interviews with experienced ML practitioners on how to apply machine learning in industry.

36 views11:08

Интересное что-то

#causal #courses

39 views11:18

Интересное что-то

Forwarded from New Yorko Times (Yury Kashnitsky)

Курс байесовской статистики и causal inference “Statistical Rethinking”
#courses #statistics

Стартует курс байесовской статистики и causal inference ”Statistical Rethinking 2023”.

Я лично давно хотел разобраться в том, как по данным восстанавливать причинно-следственные связи, читал канал @reliable_ml. Но вот и целый курс. Еще здорово, что это не статистика ради статистики, а статистика ради науки в целом – для исследователей из разных областей (мемы во вводной лекции кого-то выбесят, меня – нет).

Цитата: "We will prioritize conceptual, causal models and precise questions about those models. We will use Bayesian data analysis to connect scientific models to evidence"

Про курс поступило много хороших отзывов из твиттера от людей, знающих статистику уж точно лучше меня.

GitHub https://tinyurl.com/4y7zcvz8, 1-ая лекция https://youtu.be/FdnMWdICdRs. Код в основном на R, но есть и адаптация на Python + PyMC3.

Планирую ботать, как минимум лекции послушать.

43 views11:18

Интересное что-то

36 views15:31

Интересное что-то

Forwarded from Small Data Science for Russian Adventurers

#книги
Несколько книг в свободном доступе по SQL и бизнес-аналитике (половина в процессе написания)
https://dataschool.com/books/

32 views15:31

Интересное что-то

35 views15:32

Интересное что-то

Forwarded from Борис опять

Неплохо и коротко про MLOps. Достаточно для обзора основных идей.

https://mlops-guide.github.io/

mlops-guide.github.io

MLOps Guide introducing concepts and application using DVC, CML, IBM Watson Machine Learning, IBM Watson OpenScale, Terraform and Cookiecutter. Learn how to implement MLOps.

35 views15:32

Интересное что-то

34 views14:26

Интересное что-то

Forwarded from Bars

https://m.youtube.com/watch?v=k6PKNGvCKKM&feature=youtu.be

Computational Finance Q&A, Volume 1, Introduction

Computational Finance Q&A, Volume 1, Question 0/30
▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬
Materials discussed in this video are based on:
1) FREE online course "Computational Finance" is available at:
https://www.youtube.com/playlist?list=PL6zzGYGhbWrPaI…

44 views14:26

Интересное что-то

37 views14:34

Интересное что-то

Forwarded from Кодим на Коленке | Уроки по программированию

Парсинг сайтов на Python

Одна из самых востребованных задач на фрилансе — парсинг, представляющий из себя автоматический сбор данных с веб-сайтов. В этом плейлисте автор создал парсеры популярных сайтов, учитывая все нюансы, которые возникают при разработке.

Подробнее: 👉 тут

#видео #python

34 views14:34

Интересное что-то

27 views16:05

Интересное что-то

Forwarded from ИЦ "ГЕВИССТА"

Часть_6_2_4_Иллюстрация_работы_дерева_классификации_CART_на_конкретном.ipynb

Важности скоррелированных признаков в дереве, лесе и бустинге
В группе, посвященной CatBoost, задали вопрос, какие важности будут у двух высоко коррелированных признаков. Если корреляция идеальная, происходит разбавление важности коррелированных признаков из-за их взаимозаменяемости: важность двух идентичных признаков будет снижена примерно вдвое. Чем сильнее корреляция, тем сильнее выражен эффект. Если корреляция сильная, но не идеальная, эффект будет снижен. На эффект можно влиять с помощью отбора наблюдений/признаков. Он проявляется в одиночном дереве, случайном лесе и бустинге, из всех бустингов меньше всего проявляется в LightGBM. Приложил один из экспериментов, которые делал для книжки по бустингу. Там можно поиграть с добавлением шума.

29 views16:05

Интересное что-то

26 views16:12

Интересное что-то

Forwarded from Тимлид Очевидность | Евгений Антонов

Проклятие знания

Проклятие знания — термин, предложенный психологом Робином Хогартом для обозначения психологического феномена, заключающегося в том, что более информированным людям чрезвычайно сложно рассматривать какую-либо проблему с точки зрения менее информированных людей.

Эта штука встречается в работе чаще, чем нам бы этого хотелось.

Обучение и менторство
Видел много раз, что опытный наставник довольно непонятно и непродуктивно чему-то учит новичков. Он уже и забыл, как был сам начинающим специалистом, и что вот эти вот «простейшие азы, которые очевидны», на самом деле не простейшие, не очевидные, и требуют детального объяснения.

В итоге обучающий сыплет сложными терминами и абстракциями, а обучающийся готов провалиться под землю от чувства собственной ничтожности. Ведь наставник же говорит, что там всё легче легкого, значит, это обучающийся – плохой, глупый, неправильный.

Заказчик-исполнитель
В отношениях заказчиков и исполнителей тоже порой всё плохо. Заказчик выдает лишь половину нужной информации, потому что он знает уже хорошо свою доменную область и «ЭТО ЖЕ ОЧЕВИДНО» (оригинальная цитата, с которой я столкнулся в подобном случае).
Или наоборот, исполнитель рассказывает продавцу тортиков, какие он паттерны проектирования использует, как CI/CD настроит и почему синглтон нынче считают моветоном.

Абсолютно то же самое происходит во взаимодействии менеджер-программист. Один про код, другой про РОИ, ДАУ, МАУ, CJM и прочее.

Программист-программист
Уже вроде проще. Да, но нет.
Тут тоже сильно зависит от компетенции и знания глоссария. Кстати, здесь в какой-то мере помогает, например, теория паттернов проектирования. Ведь тут у всех появляется общий словарь и одинаковое понимание абстракций.

Что делать
На мой взгляд, надо хорошенько думать о собеседнике. Надо прикидывать, что он знает, что не знает. Давать как можно больше контекста по теме разговора. Надо уточнять, всё ли понятно. Ну т.е. совет, казалось бы, обо всём и ни о чем.

Давайте чуть более практический пример. Если я хочу, чтобы пентестеры проверили мой новый проект, я не напишу им «Доброго времени суток, коллеги! Прошу проверить мой проект.», как это могли бы сделать некоторые. Я сообщу им весь потенциально нужный контекст, которого они не знают.

Например, я объясню:
⁃ Что за проект и какая у него основная цель. Это нужно для общего понимания, на что делать упор при проверке.
⁃ Когда дедлайн по запуску. Чтобы сроки выполнения сматчить.
⁃ Есть ли пользовательский ввод и если да, то где и какой: формы, загружаемые файлы, регистрации, авторизации и прочее. Чтобы этому уделили максимальное внимание и ничего не осталось незамеченным.
⁃ Есть ли интеграции с внешними системами. Чтобы понимали, какие данные могут поступать извне и куда, в случае прорыва периметра, куда злоумышленник может попасть еще.
⁃ Какой стэк технологий, где конфиги, данные о внешних модулях и библиотеках. Чтобы выяснить все данные об известных уязвимостях.
⁃ Где конфиги сервера и как получить туда доступ. Ведь не только на уровне кода бывают уязвимости.
Все эти пункты дают ответы сразу на многие вопросы, которые потенциально возникали бы спустя часы бестолкового поиска вслепую. Заодно меньше шанс, что что-то пропустят, потому что не знали про это и оно лежало в каком-то неочевидном месте.
Возможно, этих данных окажется недостаточно, и тогда я готов отвечать на дополнительные вопросы. Но я буду знать, что я изначально покрыл большинство темных пятен и люди будут уже что-то уточнять, довольно неплохо ориентируясь в проекте.

Итог
Формирования общего глоссария с собеседником, передача полного контекста, мысль о том, что всё, что очевидно для тебя, может быть неочевидно для кого-то другого – всё это ведет к минимизации негативного эффекта проклятия знания, устранению лишней пустой работы и вопросов.
А еще это довольно уважительно по отношению к собеседнику. А люди любят, когда их уважают.

28 views16:12

Интересное что-то

27 views22:19

Интересное что-то

Forwarded from Блог о Data Science 💻 Наука о данных (Red Powerful)

🔤

🔤

🔤

🔤

🔤

🔤

🔤

🔤

1️⃣

Этот пост будет по большей части как self best practice. 🙃

Cпарсить можно абсолютно все что угодно!)

Если вы когда то проходили курсы по парсингу или веб скрапингу, то в жизни все не так просто, как на курсах. Большинство сайтов защищаются от ддос атак и подозрительных активностей, а парсеры могут сильно нагружать сайты. Поэтому вас на изи заблокать, но выход всегда есть.

Можно почувствовать себя немного хакером и бороться с системой, пытаться её обойти. Благо для этого есть достаточно инструментов. Знайте, что если у вас есть данные - у вас есть все.

🔵Шаг первый
Hello world + Dev Ops, потому что в дальнейшем хрен знает где мы вообще этот парсер запускать будем, а может распределенно придется парсить.

🔵Шаг второй
После чего мы можем начать писать первую версию парсера.
~~Хорошие парсер~~, адекватная программа не пишется в jupyter notebook, избавьте меня от этого пожалуйста.

Что нам для этого понадобиться?

• request
• BS4/selenium/scrapy
• json, csv, postgresql
• pytest 
• superset (или че то такое, что бы картиночки смотреть)
• multiprocessing/joblib 
• fakeuseragent, proxy server

Желательно создать отдельный скрипт бекапа данных на виртуальное хранилище и подгрузка в БД, которая находится на другом сервере.

🔵Шаг третий
Гуглим как парсить данные и пользоваться этим всем, поэтому вот вам гайд
- PythonToday[1][2][3] (Самое годное, что вы можете найти и повторить)
- Как спарсить что угодно?
- HTML не панацея [1][2]
- Request не панацея
- Distributed web parsing [1][2]

Вообще этот мужик годноту делает
Так же вам стоит знать, что запускать лучше всего свои парсеры несколько раз, на несколько параллельных джобах или серверах. (вообще лучше каждый сервер распределить на свой регион или участок, а джобы на один и тот же сектор, так получиться наиболее корректная валидация парсинга). Так вы валидируете результат, а потом просто смотрите по объему и удаляете дубликаты, это достаточно легко сделать.

🔵Шаг четвёртый
Парсим че угодно и радуемся жизни. Можно продать инфу конкурентам или сделать на ней аналитический отчет.

Если вам нужно что-то спарсить 👨‍💻 или вы хотите получить консультацию 📞
Можно всегда написать автору канала @redpf

Please open Telegram to view this post

VIEW IN TELEGRAM

25 views22:19

Интересное что-то

#interview
Страничка с вопросами по собеседованиям в DS

https://interview-mds.ru/

+ вопросы и ответы

https://docs.google.com/document/d/1eeP6R36Ur7aTFica7uBkx8FlaQKSE8dHamdnoAJCVUM/edit?usp=sharing

interview-mds.ru

Вопросы https://interview-mds.ru/ с ответами тг канал: https://teleg.run/mommyscience Что такое статистическая мощность? Сколько нужно провести экспериментов, чтобы построить доверительный интервал? Какой ряд называется стационарным? Как работает регуляризация…

153 viewsedited 12:08

Интересное что-то

#ml
Отбор признаков

26 views12:19

Интересное что-то

Forwarded from Denis

https://academic.oup.com/bioinformatics/article/35/8/1358/5100883

STatistical Inference Relief (STIR) feature selection

AbstractMotivation. Relief is a family of machine learning algorithms that uses nearest-neighbors to select features whose association with an outcome may

30 views12:19

Интересное что-то

Forwarded from Denis

Интересное что-то

https://academic.oup.com/bioinformatics/article/35/8/1358/5100883

Генерирует псевдо статистику фич

28 views12:19