Интересное что-то

32 views10:34

Forwarded from Кодим на Коленке | Уроки по программированию

Курс: Основы Python с примерами и заданиями

Курс рассчитан на новичков. Очень удобен тем, что все находится в виде маленьких уроков по каждой из тем. Помимо этого в курсе присутствует практика, которая позволит закрепить свои знания.

Подобнее:👉тут

32 views10:34

Интересное что-то

#visualization

29 views09:48

Интересное что-то

Forwarded from настенька и графики

Решила собрать разные челленджы и проекты, где можно попрактиковать Tableau. На самом деле, никто не мешает брать эти данные и делать визы где угодно.

В челленджах участвовать прикольно потому что есть еще множество людей, которые тоже в нем участвуют помимо вас, и делятся своими решениями. Какие-то из них стартуют время от времени, так что лучше следить на их лендингами отдельно.

Челленджи:
• #B2VB Back 2 Viz Basics – новые задачки каждую неделю, идут от простых к сложным обычно. Прямо что-то конкретное, сделать такой-то график.
• #WorkoutWednesday – повторить визуализацию из примера.
• #MakeoverMonday – новые данные каждую неделю по созданию своих визуализаций.
• #IronQuest – практика создания визов и подготовка к Iron Viz (крупному датавиз конкурсу).
• #RWFD The Real World Fake Data – создание дэшбордов на настоящий и не очень данных
• #GamesNightViz – челлендж с данными про игры
• #SportsVizSunday – челлендж со спортивными данными

Проекты:
• #EduVizzers – визуализация данных про образование.
• #ProjectHealthViz – визуализация данных по теме здравоохранения
• #PublicPolicyViz – датавиз про политику
• #VizForSocialGood – датавиз про социальные данные и НКО

ps по их хэштегам можно в твиттере найти работы участников

32 views09:48

Интересное что-то

#python

30 views09:50

Интересное что-то

Forwarded from Aspiring Data Science

Лекция об эффективных инструментах тестирования в Питоне от Рэя Хеттингера, разработчика ядра.

https://www.youtube.com/watch?v=ARKbfWk4Xyw&ab_channel=SFPython

Резюме:

1) всегда используйте доктесты, это мотивирует писать качественную документацию и учит вас (не говоря о других) использовать ваш же код. это настолько крутой инструмент, что не использовать его просто глупо. (я его теперь стараюсь всегда использовать). А ещё Сфинксом можно создавать красивые онлайн доки прямо из docstring.

2) не используйте модуль unittest, вместо него берите py.test: понятнее синтаксис, на 60% меньше печатания.

3) Рэй предпочитает PyFlakes вместо PyLint по причине излишней предвзятости и болтливости последнего )

4) статическая типизация не всегда улучшает читаемость кода, зачастую с ней приходится бороться дольше, чем писать сам код (чтобы убедить проверяющий инструмент). возможный выход – gradual typing.

5) интересен пример модуля, проходящего доктесты, юниттесты, имеющего 100% покрытие, строгую типизацию (проходящую проверки mypy), и всё же содержащего много критических ошибок, которые ждут своего часа, чтобы всплыть.

6) с подобными логическими ошибками помогает бороться пакет Hypothesis, который позволяет для входов функции с помощью декоратора задать стратегии (например: текст, или список целых чисел), автоматически влекущие синтез разнообразных тестовых значений, в том числе и краевых. Этот инструмент за секунды придумает и набросит вашей функции на вход столько всего самого разного и неожиданного, что сами и за неделю не составите ) В примере из доки пакет Гипотезы для текстового входа быстро находит ошибку для пустой строки, а затем и куда более нетривиальную логическую, возникающую при наличии в строке повторяющихся символов.

YouTube

Keynote - Preventing, Finding, and Fixing Bugs On a Time Budget | Raymond Hettinger @ PyBay2018

This talk was presented at PyBay2018 - the Bay Area Regional Python conference. See pybay.com for more details about PyBay and click SHOW MORE for more information about this talk.

Speaker Bio

Raymond is the leader of an international Python training and…

32 views09:50

Интересное что-то

#ml

28 views08:04

Интересное что-то

Forwarded from ИЦ "ГЕВИССТА"

Библиотека Xgbfir
Библиотека Xgbfir (сокращение от XGBoost Feature Interactions Reshaped) – это парсер дампа модели XGBoost, который ранжирует признаки, а также взаимодействия признаков по различным метрикам, и записывает результаты в файл Excel. Проект начался с портирования библиотеки xgbfi, написанной Маттиасом Мюллером на C++, на Python. Главной функцией является функция saveXgbFI(). В функцию saveXgbFI() передаем модель XGBoost (бустер) и настраиваем параметры. Разберем параметры функции saveXgbFI():
• SortBy – метрика (по умолчанию 'Gain', возможные значения: 'Gain', 'FScore', 'FScoreWeighted', 'AverageGain', 'ExpectedGain' и др.), по которой ранжируются признаки и взаимодействия признаков, ниже разберем каждую метрику;
• OutputXlsxFile (по умолчанию 'XgbFeatureInteractions.xlsx') – название файла Excel, в который записываются результаты;
• MaxInteractionDepth (по умолчанию 2) – максимальное количество извлекаемых взаимодействий признаков (начиная с 0, например, 3 задает извлечение признаков, 2-факторные взаимодействия, 3-факторные взаимодействия и 4-факторные взаимодействия);
• MaxTrees (по умолчанию 100) – максимальное количество деревьев, используемых для извлечения признаков;
• TopK (по умолчанию 100) – количество извлекаемых наилучших признаков;
• MaxHistograms (по умолчанию 10) – максимальное количество гистограмм.

Для каждого признака выводятся 15 метрик:
• Gain – общий выигрыш каждого признака и взаимодействия;
• FScore – количество возможных разбиений, связанных с признаком или взаимодействием признаков;
• wFScore – количество возможных разбиений по признаку или взаимодействию признаков, взвешенное по вероятности разбиения;
• Average wFScore – значение wFScore, поделенное на значение FScore;
• Average Gain – значение Gain, поделенное на значение FScore;
• Expected Gain – общий выигрыш каждого признака или взаимодействия признаков, взвешенный по вероятности получения выигрыша;
• Gain Rank – ранг признака или взаимодействия признаков на основе значения Gain;
• FScore Rank – ранг признака или взаимодействия признаков на основе значения FScore;
• wFScore Rank – ранг признака или взаимодействия признаков на основе значения wFScore;
• Average wFScore Rank – ранг признака или взаимодействия признаков на основе значения Average wFScore;
• Average Gain Rank – ранг признака или взаимодействия признаков на основе значения Average Gain;
• Expected Gain Rank – ранг признака или взаимодействия признаков на основе значения Expected Gain;
• Average Rank – ранг признака или взаимодействия признаков на основе усреднения значений Gain Rank, FScore Rank, wFScore Rank, Average wFScore Rank, Average Gain Rank и Expected Gain Rank;
• Average Tree Index – усредненный индекс дерева, выполняется усреднение на основе индексов деревьев, в которых был использован данный признак или взаимодействие признаков;
• Average Tree Depth – средняя глубина использования признака, по каждому дереву вычисляем глубину, на которой был впервые использован данный признак, суммируем глубины и полученную сумму делим на количество деревьев.

33 views08:04

Интересное что-то

#ml #statistics #courses

High-dimensional probability course

https://www.math.uci.edu/~rvershyn/papers/HDP-book/HDP-book.pdf

https://www.math.uci.edu/~rvershyn/teaching/hdp/hdp.html

33 views08:52

Интересное что-то

#ml

30 views09:47

Интересное что-то

Forwarded from Start Career in DS

👨‍🎨 Интерактивные визуализации алгоритмов кластеризации

Нашёл несколько очень клёвых статеек, в которых интерактивно показано как работают различные методы:
- DBSCAN
- K-Means

В них можно посмотреть как изначальная инициализация кластеров (в k-means) и гиперпараметры (dbscan) влияют на выделение кластеров на разных наборах данных

31 views09:47

Интересное что-то

#sql #database

28 viewsedited 12:09

Интересное что-то

Forwarded from Базы данных & SQL

Tarantool: Билли Миллиган в мире СУБД

Читать статью

Хабр

Tarantool: Билли Миллиган в мире СУБД

Привет! Меня зовут Mons Anderson, я архитектор, разработчик, продакт-менеджер и евангелист Tarantool. В VK работаю уже больше 10 лет. Я постоянно нуждаюсь в базах данных, использую их и очень люблю. И...

29 views12:09

Интересное что-то

#ml

25 views12:14

Интересное что-то

Forwarded from iggisv9t channel

https://mespadoto.github.io/proj-quant-eval/post/projections/

Ребята прогнали кучу снижалок размерности на куче датасетов.

25 views12:14

Интересное что-то

#softskills

26 views12:18

Интересное что-то

Forwarded from Тимлид Очевидность | Евгений Антонов

Как делать (бес)толковые собрания

Пару месяцев назад побывал на регулярном митапе Vladimir TechTalks.
Рассказывал о типичных проблемах при организации встреч, созвонов, собраний, и о том, как их избегать.
Тема довольно актуальная и часто болящая. Так что надеюсь, что какие-то полезные мысли удастся донести, и работа станет немного легче и приятнее.

Отдельные слова уважения организаторам митапа. Очень заботливо, душевно и качественно всё было сделано👍

Ссылка на видео https://rutube.ru/video/a1a6c67f4e7b3dba91d30e8a57b58cba/
Мой доклад на 40-й минуте
А еще на 1ч 26-й минуте Виктор Корейша, известный вам по подкасту Кода кода, рассказывает про настолки и их потенциальную пользу для работы.

RUTUBE

Vladimir TechTalks #15 в ВлГУ

Vladimir TechTalks #15 в ВлГУ
16 сентября 2022 года

00:02:22
Аналитика в IT Service Management

Александра Румянцевa, Head of Service Management
в Altenar

Обсудим, зачем нужен бизнес-аналитик и почему он — важная роль в управлении IT услугами компании.…

33 views12:18

Интересное что-то

#python

35 views08:25

Интересное что-то

Forwarded from DevFM

Регулярные выражения в Python от простого к сложному

В статье рассказывается:
— о регулярных выражениях вообще
— их плюсах в виде крутого инструмента для решения задач
— их минусах в виде write-only кода и других нюансах
— о базовом синтаксисе
— о применении регулярок в питоне с кучей примеров
— о разных сложных конструкциях

Приведены интересные задачи с примерами входных и выходных данных для практики в реализации своих регулярных выражений. Прорешайте задачи, чтобы пополнить копилку своих скиллов.

Недавно мы предлагали удобный сервис для проверки регулярок regex101.
#python #skills

Хабр

Регулярные выражения в Python от простого к сложному. Подробности, примеры, картинки, упражнения

Регулярные выражения в Python от простого к сложному Решил я давеча моим школьникам дать задачек на регулярные выражения для изучения. А к задачкам нужна какая-нибудь теория. И стал я искать хорошие...

34 views08:25

Интересное что-то

#dl #nlp

29 views13:43

Интересное что-то

Forwarded from Deep learning for NLP (RU)

Embeddings — это числовые представления слов. Они позволяют машинам понимать значение человеческих слов и то, насколько близки слова друг к другу семантически (по смыслу).
OpenAI выпустила новую embedding модель text-embedding-ada-002

Несколько слов о новой модели:
- Она превосходит предыдущие модели OpenAI в большинстве тестовых задач.
- Можно использовать модель для задач поиска и сходства как по тексту, так и по коду.
- Работает с более длительными предложениями. Длина предложения увеличена в 4 раза - до 8 191 токенов (примерно ~10 страниц) по сравнению с 2 046 ранее.
- Дешевле в 10 раз: 0,0004 $ за 1 тыс. токенов (или примерно ~3000 страниц за доллар США), что является 10 % от цены ранее самой дешевой embeddings модели.

Новую модель можно начать использовать в несколько строк кода, используя официальную библиотеку.

import openai
response = openai.Embedding.create(
  input="porcine pals say",
  model="text-embedding-ada-002"
)

#news #openai #embeddings

30 views13:43

About

Blog

Apps

Platform