Forwarded from настенька и графики
Решила собрать разные челленджы и проекты, где можно попрактиковать Tableau. На самом деле, никто не мешает брать эти данные и делать визы где угодно.
В челленджах участвовать прикольно потому что есть еще множество людей, которые тоже в нем участвуют помимо вас, и делятся своими решениями. Какие-то из них стартуют время от времени, так что лучше следить на их лендингами отдельно.
Челленджи:
• #B2VB Back 2 Viz Basics – новые задачки каждую неделю, идут от простых к сложным обычно. Прямо что-то конкретное, сделать такой-то график.
• #WorkoutWednesday – повторить визуализацию из примера.
• #MakeoverMonday – новые данные каждую неделю по созданию своих визуализаций.
• #IronQuest – практика создания визов и подготовка к Iron Viz (крупному датавиз конкурсу).
• #RWFD The Real World Fake Data – создание дэшбордов на настоящий и не очень данных
• #GamesNightViz – челлендж с данными про игры
• #SportsVizSunday – челлендж со спортивными данными
Проекты:
• #EduVizzers – визуализация данных про образование.
• #ProjectHealthViz – визуализация данных по теме здравоохранения
• #PublicPolicyViz – датавиз про политику
• #VizForSocialGood – датавиз про социальные данные и НКО
ps по их хэштегам можно в твиттере найти работы участников
В челленджах участвовать прикольно потому что есть еще множество людей, которые тоже в нем участвуют помимо вас, и делятся своими решениями. Какие-то из них стартуют время от времени, так что лучше следить на их лендингами отдельно.
Челленджи:
• #B2VB Back 2 Viz Basics – новые задачки каждую неделю, идут от простых к сложным обычно. Прямо что-то конкретное, сделать такой-то график.
• #WorkoutWednesday – повторить визуализацию из примера.
• #MakeoverMonday – новые данные каждую неделю по созданию своих визуализаций.
• #IronQuest – практика создания визов и подготовка к Iron Viz (крупному датавиз конкурсу).
• #RWFD The Real World Fake Data – создание дэшбордов на настоящий и не очень данных
• #GamesNightViz – челлендж с данными про игры
• #SportsVizSunday – челлендж со спортивными данными
Проекты:
• #EduVizzers – визуализация данных про образование.
• #ProjectHealthViz – визуализация данных по теме здравоохранения
• #PublicPolicyViz – датавиз про политику
• #VizForSocialGood – датавиз про социальные данные и НКО
ps по их хэштегам можно в твиттере найти работы участников
Forwarded from Aspiring Data Science
Лекция об эффективных инструментах тестирования в Питоне от Рэя Хеттингера, разработчика ядра.
https://www.youtube.com/watch?v=ARKbfWk4Xyw&ab_channel=SFPython
Резюме:
1) всегда используйте доктесты, это мотивирует писать качественную документацию и учит вас (не говоря о других) использовать ваш же код. это настолько крутой инструмент, что не использовать его просто глупо. (я его теперь стараюсь всегда использовать). А ещё Сфинксом можно создавать красивые онлайн доки прямо из docstring.
2) не используйте модуль unittest, вместо него берите py.test: понятнее синтаксис, на 60% меньше печатания.
3) Рэй предпочитает PyFlakes вместо PyLint по причине излишней предвзятости и болтливости последнего )
4) статическая типизация не всегда улучшает читаемость кода, зачастую с ней приходится бороться дольше, чем писать сам код (чтобы убедить проверяющий инструмент). возможный выход – gradual typing.
5) интересен пример модуля, проходящего доктесты, юниттесты, имеющего 100% покрытие, строгую типизацию (проходящую проверки mypy), и всё же содержащего много критических ошибок, которые ждут своего часа, чтобы всплыть.
6) с подобными логическими ошибками помогает бороться пакет Hypothesis, который позволяет для входов функции с помощью декоратора задать стратегии (например: текст, или список целых чисел), автоматически влекущие синтез разнообразных тестовых значений, в том числе и краевых. Этот инструмент за секунды придумает и набросит вашей функции на вход столько всего самого разного и неожиданного, что сами и за неделю не составите ) В примере из доки пакет Гипотезы для текстового входа быстро находит ошибку для пустой строки, а затем и куда более нетривиальную логическую, возникающую при наличии в строке повторяющихся символов.
https://www.youtube.com/watch?v=ARKbfWk4Xyw&ab_channel=SFPython
Резюме:
1) всегда используйте доктесты, это мотивирует писать качественную документацию и учит вас (не говоря о других) использовать ваш же код. это настолько крутой инструмент, что не использовать его просто глупо. (я его теперь стараюсь всегда использовать). А ещё Сфинксом можно создавать красивые онлайн доки прямо из docstring.
2) не используйте модуль unittest, вместо него берите py.test: понятнее синтаксис, на 60% меньше печатания.
3) Рэй предпочитает PyFlakes вместо PyLint по причине излишней предвзятости и болтливости последнего )
4) статическая типизация не всегда улучшает читаемость кода, зачастую с ней приходится бороться дольше, чем писать сам код (чтобы убедить проверяющий инструмент). возможный выход – gradual typing.
5) интересен пример модуля, проходящего доктесты, юниттесты, имеющего 100% покрытие, строгую типизацию (проходящую проверки mypy), и всё же содержащего много критических ошибок, которые ждут своего часа, чтобы всплыть.
6) с подобными логическими ошибками помогает бороться пакет Hypothesis, который позволяет для входов функции с помощью декоратора задать стратегии (например: текст, или список целых чисел), автоматически влекущие синтез разнообразных тестовых значений, в том числе и краевых. Этот инструмент за секунды придумает и набросит вашей функции на вход столько всего самого разного и неожиданного, что сами и за неделю не составите ) В примере из доки пакет Гипотезы для текстового входа быстро находит ошибку для пустой строки, а затем и куда более нетривиальную логическую, возникающую при наличии в строке повторяющихся символов.
YouTube
Keynote - Preventing, Finding, and Fixing Bugs On a Time Budget | Raymond Hettinger @ PyBay2018
This talk was presented at PyBay2018 - the Bay Area Regional Python conference. See pybay.com for more details about PyBay and click SHOW MORE for more information about this talk.
Speaker Bio
Raymond is the leader of an international Python training and…
Speaker Bio
Raymond is the leader of an international Python training and…
Forwarded from ИЦ "ГЕВИССТА"
Библиотека Xgbfir
Библиотека Xgbfir (сокращение от XGBoost Feature Interactions Reshaped) – это парсер дампа модели XGBoost, который ранжирует признаки, а также взаимодействия признаков по различным метрикам, и записывает результаты в файл Excel. Проект начался с портирования библиотеки xgbfi, написанной Маттиасом Мюллером на C++, на Python. Главной функцией является функция saveXgbFI(). В функцию saveXgbFI() передаем модель XGBoost (бустер) и настраиваем параметры. Разберем параметры функции saveXgbFI():
• SortBy – метрика (по умолчанию 'Gain', возможные значения: 'Gain', 'FScore', 'FScoreWeighted', 'AverageGain', 'ExpectedGain' и др.), по которой ранжируются признаки и взаимодействия признаков, ниже разберем каждую метрику;
• OutputXlsxFile (по умолчанию 'XgbFeatureInteractions.xlsx') – название файла Excel, в который записываются результаты;
• MaxInteractionDepth (по умолчанию 2) – максимальное количество извлекаемых взаимодействий признаков (начиная с 0, например, 3 задает извлечение признаков, 2-факторные взаимодействия, 3-факторные взаимодействия и 4-факторные взаимодействия);
• MaxTrees (по умолчанию 100) – максимальное количество деревьев, используемых для извлечения признаков;
• TopK (по умолчанию 100) – количество извлекаемых наилучших признаков;
• MaxHistograms (по умолчанию 10) – максимальное количество гистограмм.
Для каждого признака выводятся 15 метрик:
• Gain – общий выигрыш каждого признака и взаимодействия;
• FScore – количество возможных разбиений, связанных с признаком или взаимодействием признаков;
• wFScore – количество возможных разбиений по признаку или взаимодействию признаков, взвешенное по вероятности разбиения;
• Average wFScore – значение wFScore, поделенное на значение FScore;
• Average Gain – значение Gain, поделенное на значение FScore;
• Expected Gain – общий выигрыш каждого признака или взаимодействия признаков, взвешенный по вероятности получения выигрыша;
• Gain Rank – ранг признака или взаимодействия признаков на основе значения Gain;
• FScore Rank – ранг признака или взаимодействия признаков на основе значения FScore;
• wFScore Rank – ранг признака или взаимодействия признаков на основе значения wFScore;
• Average wFScore Rank – ранг признака или взаимодействия признаков на основе значения Average wFScore;
• Average Gain Rank – ранг признака или взаимодействия признаков на основе значения Average Gain;
• Expected Gain Rank – ранг признака или взаимодействия признаков на основе значения Expected Gain;
• Average Rank – ранг признака или взаимодействия признаков на основе усреднения значений Gain Rank, FScore Rank, wFScore Rank, Average wFScore Rank, Average Gain Rank и Expected Gain Rank;
• Average Tree Index – усредненный индекс дерева, выполняется усреднение на основе индексов деревьев, в которых был использован данный признак или взаимодействие признаков;
• Average Tree Depth – средняя глубина использования признака, по каждому дереву вычисляем глубину, на которой был впервые использован данный признак, суммируем глубины и полученную сумму делим на количество деревьев.
Библиотека Xgbfir (сокращение от XGBoost Feature Interactions Reshaped) – это парсер дампа модели XGBoost, который ранжирует признаки, а также взаимодействия признаков по различным метрикам, и записывает результаты в файл Excel. Проект начался с портирования библиотеки xgbfi, написанной Маттиасом Мюллером на C++, на Python. Главной функцией является функция saveXgbFI(). В функцию saveXgbFI() передаем модель XGBoost (бустер) и настраиваем параметры. Разберем параметры функции saveXgbFI():
• SortBy – метрика (по умолчанию 'Gain', возможные значения: 'Gain', 'FScore', 'FScoreWeighted', 'AverageGain', 'ExpectedGain' и др.), по которой ранжируются признаки и взаимодействия признаков, ниже разберем каждую метрику;
• OutputXlsxFile (по умолчанию 'XgbFeatureInteractions.xlsx') – название файла Excel, в который записываются результаты;
• MaxInteractionDepth (по умолчанию 2) – максимальное количество извлекаемых взаимодействий признаков (начиная с 0, например, 3 задает извлечение признаков, 2-факторные взаимодействия, 3-факторные взаимодействия и 4-факторные взаимодействия);
• MaxTrees (по умолчанию 100) – максимальное количество деревьев, используемых для извлечения признаков;
• TopK (по умолчанию 100) – количество извлекаемых наилучших признаков;
• MaxHistograms (по умолчанию 10) – максимальное количество гистограмм.
Для каждого признака выводятся 15 метрик:
• Gain – общий выигрыш каждого признака и взаимодействия;
• FScore – количество возможных разбиений, связанных с признаком или взаимодействием признаков;
• wFScore – количество возможных разбиений по признаку или взаимодействию признаков, взвешенное по вероятности разбиения;
• Average wFScore – значение wFScore, поделенное на значение FScore;
• Average Gain – значение Gain, поделенное на значение FScore;
• Expected Gain – общий выигрыш каждого признака или взаимодействия признаков, взвешенный по вероятности получения выигрыша;
• Gain Rank – ранг признака или взаимодействия признаков на основе значения Gain;
• FScore Rank – ранг признака или взаимодействия признаков на основе значения FScore;
• wFScore Rank – ранг признака или взаимодействия признаков на основе значения wFScore;
• Average wFScore Rank – ранг признака или взаимодействия признаков на основе значения Average wFScore;
• Average Gain Rank – ранг признака или взаимодействия признаков на основе значения Average Gain;
• Expected Gain Rank – ранг признака или взаимодействия признаков на основе значения Expected Gain;
• Average Rank – ранг признака или взаимодействия признаков на основе усреднения значений Gain Rank, FScore Rank, wFScore Rank, Average wFScore Rank, Average Gain Rank и Expected Gain Rank;
• Average Tree Index – усредненный индекс дерева, выполняется усреднение на основе индексов деревьев, в которых был использован данный признак или взаимодействие признаков;
• Average Tree Depth – средняя глубина использования признака, по каждому дереву вычисляем глубину, на которой был впервые использован данный признак, суммируем глубины и полученную сумму делим на количество деревьев.
#ml #statistics #courses
High-dimensional probability course
https://www.math.uci.edu/~rvershyn/papers/HDP-book/HDP-book.pdf
https://www.math.uci.edu/~rvershyn/teaching/hdp/hdp.html
High-dimensional probability course
https://www.math.uci.edu/~rvershyn/papers/HDP-book/HDP-book.pdf
https://www.math.uci.edu/~rvershyn/teaching/hdp/hdp.html
Forwarded from Start Career in DS
👨🎨 Интерактивные визуализации алгоритмов кластеризации
Нашёл несколько очень клёвых статеек, в которых интерактивно показано как работают различные методы:
- DBSCAN
- K-Means
В них можно посмотреть как изначальная инициализация кластеров (в k-means) и гиперпараметры (dbscan) влияют на выделение кластеров на разных наборах данных
Нашёл несколько очень клёвых статеек, в которых интерактивно показано как работают различные методы:
- DBSCAN
- K-Means
В них можно посмотреть как изначальная инициализация кластеров (в k-means) и гиперпараметры (dbscan) влияют на выделение кластеров на разных наборах данных
Forwarded from iggisv9t channel
https://mespadoto.github.io/proj-quant-eval/post/projections/
Ребята прогнали кучу снижалок размерности на куче датасетов.
Ребята прогнали кучу снижалок размерности на куче датасетов.
Forwarded from Тимлид Очевидность | Евгений Антонов
Как делать (бес)толковые собрания
Пару месяцев назад побывал на регулярном митапе Vladimir TechTalks.
Рассказывал о типичных проблемах при организации встреч, созвонов, собраний, и о том, как их избегать.
Тема довольно актуальная и часто болящая. Так что надеюсь, что какие-то полезные мысли удастся донести, и работа станет немного легче и приятнее.
Отдельные слова уважения организаторам митапа. Очень заботливо, душевно и качественно всё было сделано👍
Ссылка на видео https://rutube.ru/video/a1a6c67f4e7b3dba91d30e8a57b58cba/
Мой доклад на 40-й минуте
А еще на 1ч 26-й минуте Виктор Корейша, известный вам по подкасту Кода кода, рассказывает про настолки и их потенциальную пользу для работы.
Пару месяцев назад побывал на регулярном митапе Vladimir TechTalks.
Рассказывал о типичных проблемах при организации встреч, созвонов, собраний, и о том, как их избегать.
Тема довольно актуальная и часто болящая. Так что надеюсь, что какие-то полезные мысли удастся донести, и работа станет немного легче и приятнее.
Отдельные слова уважения организаторам митапа. Очень заботливо, душевно и качественно всё было сделано👍
Ссылка на видео https://rutube.ru/video/a1a6c67f4e7b3dba91d30e8a57b58cba/
Мой доклад на 40-й минуте
А еще на 1ч 26-й минуте Виктор Корейша, известный вам по подкасту Кода кода, рассказывает про настолки и их потенциальную пользу для работы.
RUTUBE
Vladimir TechTalks #15 в ВлГУ
Vladimir TechTalks #15 в ВлГУ
16 сентября 2022 года
00:02:22
Аналитика в IT Service Management
Александра Румянцевa, Head of Service Management
в Altenar
Обсудим, зачем нужен бизнес-аналитик и почему он — важная роль в управлении IT услугами компании.…
16 сентября 2022 года
00:02:22
Аналитика в IT Service Management
Александра Румянцевa, Head of Service Management
в Altenar
Обсудим, зачем нужен бизнес-аналитик и почему он — важная роль в управлении IT услугами компании.…
Forwarded from DevFM
Регулярные выражения в Python от простого к сложному
В статье рассказывается:
— о регулярных выражениях вообще
— их плюсах в виде крутого инструмента для решения задач
— их минусах в виде write-only кода и других нюансах
— о базовом синтаксисе
— о применении регулярок в питоне с кучей примеров
— о разных сложных конструкциях
Приведены интересные задачи с примерами входных и выходных данных для практики в реализации своих регулярных выражений. Прорешайте задачи, чтобы пополнить копилку своих скиллов.
Недавно мы предлагали удобный сервис для проверки регулярок regex101.
#python #skills
В статье рассказывается:
— о регулярных выражениях вообще
— их плюсах в виде крутого инструмента для решения задач
— их минусах в виде write-only кода и других нюансах
— о базовом синтаксисе
— о применении регулярок в питоне с кучей примеров
— о разных сложных конструкциях
Приведены интересные задачи с примерами входных и выходных данных для практики в реализации своих регулярных выражений. Прорешайте задачи, чтобы пополнить копилку своих скиллов.
Недавно мы предлагали удобный сервис для проверки регулярок regex101.
#python #skills
Хабр
Регулярные выражения в Python от простого к сложному. Подробности, примеры, картинки, упражнения
Регулярные выражения в Python от простого к сложному Решил я давеча моим школьникам дать задачек на регулярные выражения для изучения. А к задачкам нужна какая-нибудь теория. И стал я искать хорошие...
Forwarded from Deep learning for NLP (RU)
Embeddings — это числовые представления слов. Они позволяют машинам понимать значение человеческих слов и то, насколько близки слова друг к другу семантически (по смыслу).
OpenAI выпустила новую embedding модель text-embedding-ada-002
Несколько слов о новой модели:
- Она превосходит предыдущие модели OpenAI в большинстве тестовых задач.
- Можно использовать модель для задач поиска и сходства как по тексту, так и по коду.
- Работает с более длительными предложениями. Длина предложения увеличена в 4 раза - до 8 191 токенов (примерно ~10 страниц) по сравнению с 2 046 ранее.
- Дешевле в 10 раз: 0,0004 $ за 1 тыс. токенов (или примерно ~3000 страниц за доллар США), что является 10 % от цены ранее самой дешевой embeddings модели.
Новую модель можно начать использовать в несколько строк кода, используя официальную библиотеку.
#news #openai #embeddings
OpenAI выпустила новую embedding модель text-embedding-ada-002
Несколько слов о новой модели:
- Она превосходит предыдущие модели OpenAI в большинстве тестовых задач.
- Можно использовать модель для задач поиска и сходства как по тексту, так и по коду.
- Работает с более длительными предложениями. Длина предложения увеличена в 4 раза - до 8 191 токенов (примерно ~10 страниц) по сравнению с 2 046 ранее.
- Дешевле в 10 раз: 0,0004 $ за 1 тыс. токенов (или примерно ~3000 страниц за доллар США), что является 10 % от цены ранее самой дешевой embeddings модели.
Новую модель можно начать использовать в несколько строк кода, используя официальную библиотеку.
import openai
response = openai.Embedding.create(
input="porcine pals say",
model="text-embedding-ada-002"
)
#news #openai #embeddings
Forwarded from Quant Valerian
Про карточные платежи
В четверг провел Вастрик.АМА, рассказал про то, как работают карточные платежи: в пластике, с телефона и онлайн. Получилось _очень_ много. Но пусть два с половиной часа вас не пугают -- можно смотреть кусками минут по 15-20, правда, желательно по порядку.
Некоторые вещи объяснил спутано (как-нибудь исправлюсь), скорее всего где-то ошибся, но в целом материал опробованный. Так или иначе всё это я уже рассказывал своим сотрудникам, а недавно решил оформить в красивую, цельную презентацию. Вот она:
https://youtu.be/yxtbtPRh9N8
Ставьте лайки, пишите комменты, задавайте умные вопросы, получайте глупые ответы, смотрите соседние видео.
Я старался.
Я, конечно, не для того 48 слайдов рисовал, чтобы вы их не смотрели, но если всё-таки предпочитаете подкасты, то вот
https://vas3kama.mave.digital/ep-54
В четверг провел Вастрик.АМА, рассказал про то, как работают карточные платежи: в пластике, с телефона и онлайн. Получилось _очень_ много. Но пусть два с половиной часа вас не пугают -- можно смотреть кусками минут по 15-20, правда, желательно по порядку.
Некоторые вещи объяснил спутано (как-нибудь исправлюсь), скорее всего где-то ошибся, но в целом материал опробованный. Так или иначе всё это я уже рассказывал своим сотрудникам, а недавно решил оформить в красивую, цельную презентацию. Вот она:
https://youtu.be/yxtbtPRh9N8
Ставьте лайки, пишите комменты, задавайте умные вопросы, получайте глупые ответы, смотрите соседние видео.
Я старался.
Я, конечно, не для того 48 слайдов рисовал, чтобы вы их не смотрели, но если всё-таки предпочитаете подкасты, то вот
https://vas3kama.mave.digital/ep-54
YouTube
Валерий Овчинников – Как работают карточные платежи
Валерий уже 9 лет работает в финтехе. Он был программистом в Revolut, Deutsche Bank и квант-разработчиком (и немного трейдером) в Райффайзене. Последние полтора года он руководит разработкой инфраструктуры платежей для оффлайн продуктов. Он расскажет про…