Aspiring Data Science

#numpy #stats #percentile

А Вы задумывались, что вообще-то для вычисления перцентилей/квантилей есть КУЧА методов? По дефолту идёт линейный, но в доках в общем случае для неизвестного распределения рекомендуется median_unbiased.

Облом состоит в том, что numba параметр method не поддерживает.

👍1

61 viewsedited 23:28

https://www.johndcook.com/blog/2009/06/23/tukey-median-ninther/

#stats #tukey #ninther

Как эффективно вычислять медиану: взгляд из 1978.

John D. Cook | Applied Mathematics Consulting

John Tukey's median of medians | ninther

Yesterday I got an email from Jestin Abraham asking a question about Tukey's "median of medians" paper from 1978. (The full title is "The Ninther, a Technique for Low-Effort Robust (Resistant) Location in Large Samples.") Jestin thought I might be familiar…

60 views02:54

Aspiring Data Science

#entropy #antropy #stats #informationtheory

Ботанам, которые любят считать энтропию, пригодится!

https://raphaelvallat.com/antropy/build/html/index.html

✍2

57 views09:27

Aspiring Data Science

#stats #r2

Удивительное рядом. При разных наклонах линии регрессии коэффициент детерминации для по сути одного и того же ряда варьируется от 0 до 0.9! Кто знал, что так бывает, ставьте необычный эмодзи )

https://stats.stackexchange.com/questions/519784/linear-regression-r-squared-vs-slope

☃2🌚1🆒1

55 viewsedited 17:00

Aspiring Data Science

#stats #informationtheory #sklearn #bollocks

Я сильно верил во взаимную информацию, потому что сам много лет назад делал её расчёты, и у меня были прекрасные результаты. Но как же это понятие изгадили в sklearn... У меня просто глаза на лоб полезли от этой "реализации". Позапускайте несколько раз:

mutual_info_regression(
np.arange(10).reshape(-1, 1),
(np.arange(10) * 2).ravel(),
)
reported a bug

GitHub

Proposal to change default value of n_neighbors in mutual_info_regression · Issue #25580 · scikit-learn/scikit-learn

Describe the bug Hi, recently I figured out that for short sequences default value of 3 is way too unstable and gives poor results. Don't know the reasons why 3 was used, my testing shows t...

👍1

73 viewsedited 22:38

Aspiring Data Science

#chess #stats

Нашёл свою старую шахматную аналитику по рейтингам FIDE, вдруг кому надо подобное. Цель была в определении "восходящих звёзд" и особенно "подозрительно быстро восходящих звёзд".

https://github.com/fingoldo/FideRatings/blob/master/FideRatings.ipynb

🔥1

61 views16:22

Aspiring Data Science

#math #stats

Для ценителей математической красоты, но не просто абстрактной, а на стыке с практикой и реальностью.

"А. М. Шурыгин, Нестандартные вариационные задачи в математической статистике, Труды МИАН, 2002, том 236, 378–385."

"Сорок лет очень активных поисков “робастных” оценок, которые должны быть устойчивыми к малым вариациям модельной плотности распределения, имеют скромные успехи. Оптимальная устойчивая оценка не была найдена даже для центра нормального распределения: оценки зависели от неоцениваемых параметров. Причиной являлось использование традиционных методов математической статистики в нестандартной задаче. Использование методов вариационного исчисления и функционального дифференцирования сводит задачу к нестандартной задаче вариационного исчисления и после ее решения делает проблему простой и дает возможность получить компактное оптимальное решение для произвольного параметра распределения."

https://www.mathnet.ru/links/52bfcb49243e547ab0fadf40df1054dc/tm309.pdf

✍1

40 viewsedited 02:22

Aspiring Data Science

#trading #crypto #hft #backtesting https://www.youtube.com/watch?v=7whTVJ9MA20

#stats #probability #python

https://www.youtube.com/watch?v=blMLK620yCg

YouTube

#ЦМФ. Проект по теории вероятностей, математической статистике и случайным процессам

Александр Ланцов, студент программы «Количественная аналитика»:

0:35 Первая неделя: генераторы случайных чисел
2:35 Данные по коронавирусу
4:55 Вторая неделя: обработка данных по коронавирусу — учёт выходных и понедельников, оценка распределения, анализ…

51 views05:11

Aspiring Data Science

#stats #infographic

alpha бы не повредила

89 viewsAnatoly Alekseev, edited 11:58

Aspiring Data Science

#stats #numpy #numba

Набрёл на вот такую библиотечку быстрых вычислений статистик bottleneck. Мне надо было считать скользящую среднюю, так эта библа вдвое заруливает мою реализацию на numba!

PS. Ах, нет, заруливает только в некоторых частных случаях ) В большинстве случаев нумба король.

126 viewsAnatoly Alekseev, edited 18:11

Aspiring Data Science

#stats #distributions #lognormal

Введение в подгонку распределений. Почему выбросы логнормального распределения так сильно удалены друг от друга?

youtube.com/watch?v=44D1bd7tQ4w

YouTube

Allen Downey - Extremes, outliers, and GOATS: on life in a lognormal world | PyData Global 2023

www.pydata.org

The fastest runners are much faster than we expect from a Gaussian distribution, and the best chess players are much better. In almost every field of human endeavor, there are outliers who stand out even among the most talented people in the…

95 viewsAnatoly Alekseev, 14:05

Aspiring Data Science

#stats #distributions

Что примечательно, в МО признаки могут предобрабатываться нормальной CDF, ну или другими непрерывными функциями с прицелом на то, чтобы результат становился нормально распределённым. Возможно, заслуживает внимания замена в этом подходе гауссова распределения на более "длиннохвостовое" Стьюдента.

https://www.youtube.com/watch?v=-rE3DfeZ_jE

YouTube

Allen Downey - Long-tailed distributions in the natural and engineered world | SciPy 2023

Long-tailed distributions are common in natural and engineered systems; as a result, we encounter extreme values more often than we would expect from a short-tailed distribution. If we are not prepared for these "black swans", they can be disastrous.

But…

✍1

131 viewsAnatoly Alekseev, 18:07

Aspiring Data Science

#toboml #stats #ecdf

The main thing we are looking out for are plateaux on the eCDF.

import numpy as np
x_eCDF = np.sort(data)
y_eCDF = np.arange(1, len(data)+1 ) / len(data)

and to plot both the histogram and the eCDF together


import matplotlib.pyplot as plt
fig, ax1 = plt.subplots(figsize=(15, 7))
twin = ax1.twinx()
ax1.hist(data, bins=12, density=False)
twin.plot(x_eCDF, y_eCDF, linewidth=5, color="red")
twin.set_ylim(bottom=0, top=None)
plt.show();

84 viewsAnatoly Alekseev, edited 04:46

Aspiring Data Science

#toboml #stats #ecdf #kstest

Kolmogorov-Smirnov test is based on finding the largest vertical distance between the two eCDF.

91 viewsAnatoly Alekseev, edited 04:48

About

Blog

Apps

Platform