Forwarded from Denis
Интересное что-то
https://academic.oup.com/bioinformatics/article/35/8/1358/5100883
Генерирует псевдо статистику фич
Forwarded from Denis
Интересное что-то
https://academic.oup.com/bioinformatics/article/35/8/1358/5100883
Важно, что хотя и не embedding based, но ищет группы фич
Forwarded from Denis
#career #softskills
Рекомендую ознакамливаться с критической точки зрения и если имеете свободное время
Есть не особо лестные отзывы
Рекомендую ознакамливаться с критической точки зрения и если имеете свободное время
Есть не особо лестные отзывы
Forwarded from Small Data Science for Russian Adventurers
#видео
Выложен в виде коротких нарезок самый нестандартный мини-курс на ВМК "Как уйти с тропы леммингов". Про планирование карьеры, выгорание, здоровье, конкуренцию и т.п.
Автор - Дмитрий Ватолин, известный постами на Хабре, в частности:
- К вопросу о математических способностях студентов или как учить переполненный мозг
- О русской науке замолвите слово или за что я люблю Тинькофф, часть 1
Если кто-то посмотрит, интересно услышать мнение в комментариях;)
Выложен в виде коротких нарезок самый нестандартный мини-курс на ВМК "Как уйти с тропы леммингов". Про планирование карьеры, выгорание, здоровье, конкуренцию и т.п.
Автор - Дмитрий Ватолин, известный постами на Хабре, в частности:
- К вопросу о математических способностях студентов или как учить переполненный мозг
- О русской науке замолвите слово или за что я люблю Тинькофф, часть 1
Если кто-то посмотрит, интересно услышать мнение в комментариях;)
Forwarded from DevFM
Вспоминая git
В статье Top 30 Git Commands You Should Know To Master Git CLI собран набор часто используемых команд для работы с гитом. Некоторые из них достаточно очевидные, но со списком точно стоит ознакомиться.
Мы на практике часто используем команды:
7. посмотреть лог коммитов с изменениями
9. просмотреть изменения перед коммитом
11. переименовать файлы
13. внести изменения в последний коммит
15. откатить произвольный коммит
20. просмотреть лог коммитов в виде графа
24. просмотреть подробности об удаленном репозитории: push url, fetch url, какие ветки есть, какая ветка head
29. удалить ветку в удалённом репозитории
Хочется обратить внимание на вредность второго пункта. Автор рассказывает о способе сохранения своих учетных данных. Но это неправильный путь. Правильный путь — работать с удаленным репозиторием, применяя ssh-ключи. Не парольный способ. И если вдруг не настроена двухфакторка — её тоже стоит прикрутить.
От себя хочется добавить ещё одну полезную команду git stash. А если столкнулись со сложным случаем, то мы рекомендуем использовать sublime merge.
В копилку часто используемых команд добавим создание локальной ветки из удалённой
#skills
В статье Top 30 Git Commands You Should Know To Master Git CLI собран набор часто используемых команд для работы с гитом. Некоторые из них достаточно очевидные, но со списком точно стоит ознакомиться.
Мы на практике часто используем команды:
7. посмотреть лог коммитов с изменениями
9. просмотреть изменения перед коммитом
11. переименовать файлы
13. внести изменения в последний коммит
15. откатить произвольный коммит
20. просмотреть лог коммитов в виде графа
24. просмотреть подробности об удаленном репозитории: push url, fetch url, какие ветки есть, какая ветка head
29. удалить ветку в удалённом репозитории
Хочется обратить внимание на вредность второго пункта. Автор рассказывает о способе сохранения своих учетных данных. Но это неправильный путь. Правильный путь — работать с удаленным репозиторием, применяя ssh-ключи. Не парольный способ. И если вдруг не настроена двухфакторка — её тоже стоит прикрутить.
От себя хочется добавить ещё одну полезную команду git stash. А если столкнулись со сложным случаем, то мы рекомендуем использовать sublime merge.
В копилку часто используемых команд добавим создание локальной ветки из удалённой
git checkout -t origin/some-branch#skills
Medium
Top 30 Git Commands You Should Know To Master Git CLI
Learn the most essential Git commands to boost your productivity, and become a master in managing the GitHub repositories.
Forwarded from ИЦ "ГЕВИССТА"
Полезные задачки по временным рядам
задача Райффайзен Банка https://drive.google.com/drive/folders/1w44RkOz31J5ZF8qb3_rIkC6E2zcEv3n7?usp=share_link
https://www.kaggle.com/competitions/store-sales-time-series-forecasting
https://www.kaggle.com/competitions/demand-forecasting-kernels-only
https://www.kaggle.com/c/competitive-data-science-predict-future-sales
https://www.kaggle.com/competitions/web-traffic-time-series-forecasting/data
https://www.kaggle.com/competitions/jpx-tokyo-stock-exchange-prediction/data
https://www.kaggle.com/competitions/recruit-restaurant-visitor-forecasting/data
https://www.kaggle.com/competitions/the-winton-stock-market-challenge/data
https://www.kaggle.com/competitions/optiver-realized-volatility-prediction/data
https://www.kaggle.com/competitions/g-research-crypto-forecasting/data
https://www.kaggle.com/competitions/tabular-playground-series-mar-2022/overview
https://www.kaggle.com/competitions/godaddy-microbusiness-density-forecasting
https://www.kaggle.com/c/m5-forecasting-accuracy
задача Райффайзен Банка https://drive.google.com/drive/folders/1w44RkOz31J5ZF8qb3_rIkC6E2zcEv3n7?usp=share_link
https://www.kaggle.com/competitions/store-sales-time-series-forecasting
https://www.kaggle.com/competitions/demand-forecasting-kernels-only
https://www.kaggle.com/c/competitive-data-science-predict-future-sales
https://www.kaggle.com/competitions/web-traffic-time-series-forecasting/data
https://www.kaggle.com/competitions/jpx-tokyo-stock-exchange-prediction/data
https://www.kaggle.com/competitions/recruit-restaurant-visitor-forecasting/data
https://www.kaggle.com/competitions/the-winton-stock-market-challenge/data
https://www.kaggle.com/competitions/optiver-realized-volatility-prediction/data
https://www.kaggle.com/competitions/g-research-crypto-forecasting/data
https://www.kaggle.com/competitions/tabular-playground-series-mar-2022/overview
https://www.kaggle.com/competitions/godaddy-microbusiness-density-forecasting
https://www.kaggle.com/c/m5-forecasting-accuracy
Kaggle
Store Sales - Time Series Forecasting
Use machine learning to predict grocery sales
Forwarded from Vladimir Ivanov
Раз такая пьянка пошла - я выложил третье видео из серии "Architecture Readings". Выясняем структуру файлов в БД :) https://youtu.be/haz2h7_xFDk
YouTube
How databases store data on disk?
Architecture Readings #3 - Database Internals. Slotted Pages
0:00 Start
0:23 Encoding data with binary calculation system
3:19 Storing strings
4:00 Structure of a database file
4:56 Fixed-size page layout
6:13 Variable-size pages: Slotted pages
8:00 Cell…
0:00 Start
0:23 Encoding data with binary calculation system
3:19 Storing strings
4:00 Structure of a database file
4:56 Fixed-size page layout
6:13 Variable-size pages: Slotted pages
8:00 Cell…
Forwarded from Reliable ML
АБ-тесты. Экстраполяция результатов пилота
Цикл постов про АБ-тестирование. Пост 8
За предыдущие 7 постов мы закрыли почти все ключевые риски бизнес-процесса АБ-тестирования. Но остался один важный риск, с которым мы еще не разобрались. Это отсутствие единой методики/правил экстраполяции результатов пилота для расчета финансового эффекта на все объекты.
Даже если у нас отлажены процессы дизайна и пилотирования, создана база пилотов и выработана супер корректная статистическая методика расчетов на основе последних практик, финальное решение об инвестициях в проект может оказаться некорректным, если нет правил его масштабирования на всю сеть.
Например, вы получили +1% к выручке на 5 объектах. Можем ли сказать, что при ролл-ауте проекта, для всей сети будет +1% к выручке? Была ли выборка репрезентативна для всей сети? Можем ли назвать результаты пилота робастными? Например, 5 объектов пилота могли быть расположены в Сибири, а основные объекты компании расположены в Центральных регионах.
В идеальном мире вопросы репрезентативности результатов для финальной экстраполяции результатов пилота и методика этого этапа определяются бизнесом совместно с финансовой службой еще на этапе планирования пилота. Именно эти участники процесса АБ обладают наибольшей экспертизой, чтобы определить репрезентативные параметры пилота:
- даты проведения пилота. Период пилота должен иметь длительность, рекомендованную статистическими расчетами, но при этом учитывать последующее применение пилотируемого эксперимента. Например, оптимизацию промо-акции вида Х планируется применять только на сезонные летние товары, следовательно, пилотировать тоже лучше всего в этот период, а не зимой.
- характеристики объектов в пилот и контроль. Стоит учитывать планируемую экстраполяцию результата:
(1) территориально. Если при успехе пилота, его сразу планируется “раскатать” на все объекты, тогда можно математически подобрать репрезентативную группу для всего распределения объектов. Если же планируется поэтапное внедрение (например, сначала все объекты одного региона/города, потом группы регионов), значит для первого пилота подойдут объекты, отражающие специфику конкретного города или региона.
(2) по внутренним показателям объектов (фин. и опер. индикаторы, и др.). Проект может быть направлен на убыточные объекты компании. Значит, и пилотировать его надо на них, и контроли смотреть уж точно не прибыльные.
целевые метрики пилота. Аналогично, если успехом при внедрении проекта для нас будет положительное влияние на маржу при отсутствии отрицательного влияния на совокупные продажи, значит, обе эти метрики должны присутствовать в гипотезах пилота именно в такой постановке. А если планируем эффект на пару категорий продаж, то проверять стоит на них, а не на тотал продажах.
- содержание и механика пилота. Соответствуют ли они планам по внедрению проекта, в случае успеха? Например, если управленчески работа с ценообразованием в магазинах возможна только на уровне целых городов, то, вероятно, не стоит делать выводы об успешности проекта в этой области, проведенного на гранулярности пары отдельных объектов.
Некоторые из вопросов выше могут показаться очевидными. Но на этапах дизайна пилота и финальной экстраполяции результатов пилота иметь это ввиду нужно, и задавать об этом вопросы тоже - если есть сомнения в соответствии пилота и его планируемой применимости в бизнес-процессах компании. Поверьте большому опыту практического АБ за плечами. Очевидное и невероятное всегда где-то рядом 🙂
Если все моменты выше были учтены на этапе дизайна эксперимента, то вопросы робастности результата и возможности его экстраполяции на объекты ролл-аута перестают быть актуальными. Статистически корректная методика (которую мы уже рассмотрели в предыдущих постах) гарантирует нам робастность и корректность экстраполяции результата, если пилот продуман с точки зрения содержательной постановки (бизнес-применения).
#tech #ab_testing
Цикл постов про АБ-тестирование. Пост 8
За предыдущие 7 постов мы закрыли почти все ключевые риски бизнес-процесса АБ-тестирования. Но остался один важный риск, с которым мы еще не разобрались. Это отсутствие единой методики/правил экстраполяции результатов пилота для расчета финансового эффекта на все объекты.
Даже если у нас отлажены процессы дизайна и пилотирования, создана база пилотов и выработана супер корректная статистическая методика расчетов на основе последних практик, финальное решение об инвестициях в проект может оказаться некорректным, если нет правил его масштабирования на всю сеть.
Например, вы получили +1% к выручке на 5 объектах. Можем ли сказать, что при ролл-ауте проекта, для всей сети будет +1% к выручке? Была ли выборка репрезентативна для всей сети? Можем ли назвать результаты пилота робастными? Например, 5 объектов пилота могли быть расположены в Сибири, а основные объекты компании расположены в Центральных регионах.
В идеальном мире вопросы репрезентативности результатов для финальной экстраполяции результатов пилота и методика этого этапа определяются бизнесом совместно с финансовой службой еще на этапе планирования пилота. Именно эти участники процесса АБ обладают наибольшей экспертизой, чтобы определить репрезентативные параметры пилота:
- даты проведения пилота. Период пилота должен иметь длительность, рекомендованную статистическими расчетами, но при этом учитывать последующее применение пилотируемого эксперимента. Например, оптимизацию промо-акции вида Х планируется применять только на сезонные летние товары, следовательно, пилотировать тоже лучше всего в этот период, а не зимой.
- характеристики объектов в пилот и контроль. Стоит учитывать планируемую экстраполяцию результата:
(1) территориально. Если при успехе пилота, его сразу планируется “раскатать” на все объекты, тогда можно математически подобрать репрезентативную группу для всего распределения объектов. Если же планируется поэтапное внедрение (например, сначала все объекты одного региона/города, потом группы регионов), значит для первого пилота подойдут объекты, отражающие специфику конкретного города или региона.
(2) по внутренним показателям объектов (фин. и опер. индикаторы, и др.). Проект может быть направлен на убыточные объекты компании. Значит, и пилотировать его надо на них, и контроли смотреть уж точно не прибыльные.
целевые метрики пилота. Аналогично, если успехом при внедрении проекта для нас будет положительное влияние на маржу при отсутствии отрицательного влияния на совокупные продажи, значит, обе эти метрики должны присутствовать в гипотезах пилота именно в такой постановке. А если планируем эффект на пару категорий продаж, то проверять стоит на них, а не на тотал продажах.
- содержание и механика пилота. Соответствуют ли они планам по внедрению проекта, в случае успеха? Например, если управленчески работа с ценообразованием в магазинах возможна только на уровне целых городов, то, вероятно, не стоит делать выводы об успешности проекта в этой области, проведенного на гранулярности пары отдельных объектов.
Некоторые из вопросов выше могут показаться очевидными. Но на этапах дизайна пилота и финальной экстраполяции результатов пилота иметь это ввиду нужно, и задавать об этом вопросы тоже - если есть сомнения в соответствии пилота и его планируемой применимости в бизнес-процессах компании. Поверьте большому опыту практического АБ за плечами. Очевидное и невероятное всегда где-то рядом 🙂
Если все моменты выше были учтены на этапе дизайна эксперимента, то вопросы робастности результата и возможности его экстраполяции на объекты ролл-аута перестают быть актуальными. Статистически корректная методика (которую мы уже рассмотрели в предыдущих постах) гарантирует нам робастность и корректность экстраполяции результата, если пилот продуман с точки зрения содержательной постановки (бизнес-применения).
#tech #ab_testing
#softskills #courses
Интересные ссылочки для изучения
https://www.howtodeal.dev/
https://www.productmanagementtoday.com/leadership/&source=johanna-rothman?open-article-id=16195899&article-title=leadership-tip-8--stop-focusing-on-happiness---measure-satisfaction-instead&blog-domain=jrothman.com&blog-title=johanna-rothman
https://www.samuelthomasdavies.com/book-summaries/business/never-split-the-difference/
https://www.jfdperfsolutions.com/book-summary-just-listen-by-mark-goulston/
https://www.educative.io/courses/become-an-effective-engineering-manager
https://netology.ru/programs/praktika-soft-skills#/
https://virtualspeech.com/blog/crucial-conversations
https://becomingeden.com/summary-of-how-to-talk-so-kids-will-listen-listen-so-kids-can-talk/
Интересные ссылочки для изучения
https://www.howtodeal.dev/
https://www.productmanagementtoday.com/leadership/&source=johanna-rothman?open-article-id=16195899&article-title=leadership-tip-8--stop-focusing-on-happiness---measure-satisfaction-instead&blog-domain=jrothman.com&blog-title=johanna-rothman
https://www.samuelthomasdavies.com/book-summaries/business/never-split-the-difference/
https://www.jfdperfsolutions.com/book-summary-just-listen-by-mark-goulston/
https://www.educative.io/courses/become-an-effective-engineering-manager
https://netology.ru/programs/praktika-soft-skills#/
https://virtualspeech.com/blog/crucial-conversations
https://becomingeden.com/summary-of-how-to-talk-so-kids-will-listen-listen-so-kids-can-talk/
www.howtodeal.dev
How to Deal with Difficult People on Software Projects
Software is easy. People are hard.
Forwarded from commit history
Иллюзия знания и проверка себя.
Ситуация следующая. Изучил какую-то тему, вроде понял, повторил. А потом тебе приятель задает вопрос и выясняется, что знаешь только один поверхностный тезис.
Барбара Оакли называет это иллюзией знания. Тебе кажется, что ты что-то понимаешь или знаешь, но это ложная уверенность. Знание может быть какое угодно. Особенности развития ленточных червей, принципы работы бустинга над деревьями, насколько ты разбираешься в собственном продукте.
Что с этим делать? Быть тем приятелем самому себе и задавать вопросы во время обучения. На эту тему есть пример из жизни.
У меня в медицинском был преподаватель по физ-коллоидной химии. Его никто не любил, на пересдачи к нему ходили 70% потока и даже ходит байка, что в 90х его в подворотне поймали люди в масках по заказу студентов и попугали для смягчения поведения.
Но мне его подход ведения занятий нравился. По теме он задавал вопрос: "Что такое {название темы}". Ты отвечал определением, потом основываясь на определении он спрашивал, "а почему так происходит?" И так несколько раз, погружаясь все глубже. Запомнил только определение? Начнешь сыпаться уже на 2-3 почему и получишь двойку. Если ты не знал ответа, он предлагал сделать предположение. Однако если не разбираешься в самом предмете, разумные предположения не построишь.
Поэтому сейчас, если есть задача именно разобраться, то я устраиваю себе проверку в формате “почему так?”
Про этот метод я слышал и от своего руководителя в ординатуре. Руководитель специализируется на “бережливом производстве (Lean Production)”, а сам метод называется "Пять почему”
Еще у меня в заметках лежит цитата Вадика Мармеладова из старого видео про ЛОТ2046
“Когда у собеседника закончится почему, вот твоё проверочное слово. Вот настолько проработан твой продукт.”
Ситуация следующая. Изучил какую-то тему, вроде понял, повторил. А потом тебе приятель задает вопрос и выясняется, что знаешь только один поверхностный тезис.
Барбара Оакли называет это иллюзией знания. Тебе кажется, что ты что-то понимаешь или знаешь, но это ложная уверенность. Знание может быть какое угодно. Особенности развития ленточных червей, принципы работы бустинга над деревьями, насколько ты разбираешься в собственном продукте.
Что с этим делать? Быть тем приятелем самому себе и задавать вопросы во время обучения. На эту тему есть пример из жизни.
У меня в медицинском был преподаватель по физ-коллоидной химии. Его никто не любил, на пересдачи к нему ходили 70% потока и даже ходит байка, что в 90х его в подворотне поймали люди в масках по заказу студентов и попугали для смягчения поведения.
Но мне его подход ведения занятий нравился. По теме он задавал вопрос: "Что такое {название темы}". Ты отвечал определением, потом основываясь на определении он спрашивал, "а почему так происходит?" И так несколько раз, погружаясь все глубже. Запомнил только определение? Начнешь сыпаться уже на 2-3 почему и получишь двойку. Если ты не знал ответа, он предлагал сделать предположение. Однако если не разбираешься в самом предмете, разумные предположения не построишь.
Поэтому сейчас, если есть задача именно разобраться, то я устраиваю себе проверку в формате “почему так?”
Про этот метод я слышал и от своего руководителя в ординатуре. Руководитель специализируется на “бережливом производстве (Lean Production)”, а сам метод называется "Пять почему”
Еще у меня в заметках лежит цитата Вадика Мармеладова из старого видео про ЛОТ2046
“Когда у собеседника закончится почему, вот твоё проверочное слово. Вот настолько проработан твой продукт.”
Forwarded from Small Data Science for Russian Adventurers
#код
Демки разных методов, есть код на Python, R, Julia и Matlab. Ничего сверхполезного вроде нет, но для новичков будет в самый раз.
https://www.numerical-tours.com/
Демки разных методов, есть код на Python, R, Julia и Matlab. Ничего сверхполезного вроде нет, но для новичков будет в самый раз.
https://www.numerical-tours.com/