Aspiring Data Science
386 subscribers
465 photos
12 videos
12 files
2.16K links
Заметки экономиста о программировании, прогнозировании и принятии решений, научном методе познания.
Контакт: @fingoldo

I call myself a data scientist because I know just enough math, economics & programming to be dangerous.
Download Telegram
#statistics #fitter

Как компактно описать 1d массив данных неизвестной природы в разумное время? Авторы fitter-а упоминают 80+ распределений из scipy (а по факту фиттятся уже 109). Это занимает даже на скромном массиве длины 1_000 уже 2.5 минуты. При этом многие распределения ну явно близняшки. На добрую половину наверняка не стоило тратить время. Как бы соптимайзить? Найти что-то вроде "опорных распределений"... Best bang for your buck.

get_common_distributions() даёт [ "cauchy", "chi2", "expon", "exponpow", "gamma", "lognorm", "norm", "powerlaw", "rayleigh", "uniform"], но по какому принципу они выбраны?

Хотелось бы получить о данных наиболее полную картину, используя как можно меньше распределений. К примеру, что, если входные данные - это микс 3 распределений?

https://github.com/cokelaer/fitter/issues/81
🔥1
#statistics #informationtheory #entropy #python #featureselection #featureengineering

Ну да ладно, пока просто в личном блоге опубликую, оказывается, вроде потом можно будет статью прикрепить к паблику.

https://medium.com/@fingoldo/15819b261de0
2
Forwarded from Artem Ryblov’s Data Science Weekly (Artem Ryblov)
Mindful Modeler by Christoph Molnar

The newsletter combines the best of two worlds: the performance mindset of machine learning and the mindfulness of statistical thinking.

Machine learning has become mainstream while falling short in the silliest ways: lack of interpretability, biased and missing data, wrong conclusions, … To statisticians, these shortcomings are often unsurprising. Statisticians are relentless in their quest to understand how the data came about. They make sure that their models reflect the data-generating process and interpret models accordingly.
In a sea of people who basically know how to model.fit() and model.predict() you can stand out by bringing statistical thinking to the arena.
Sign up for this newsletter to combine performance-driven machine learning with statistical thinking. Become a mindful modeller.

You'll learn about:
- Thinking like a statistician while performing like a machine learner
- Spotting non-obvious data problems
- Interpretable machine learning
- Other modelling mindsets such as causal inference and prompt engineering

Link
https://mindfulmodeler.substack.com/

Navigational hashtags: #armknowledgesharing #armnewsletters
General hashtags: #modelling #modeling #ml #machinelearning #statistics #modelinterpretation #data #interpretability #casualinference

@accelerated_learning
👍1
#chess #statistics #simulation #cheating #visualization #stockfish

Красивые визуализации шахмат от Дориана Квелле. Интересная метрика average loss after novelty, видно, что он сам придумал, классная идея.

"Yet, the standout performer is David Howell, with an average score of 0.9071. Despite his tendency to withdraw or join late to tournaments, this strategy seems to benefit him as he avoids facing high-performing players in later rounds. With a record of 120 wins, 14 draws, and only 6 losses, Howell clearly dominates the field."

"Yet, the left plot exposes a glaring inconsistency in Kramnik’s performance. Despite his high accuracy in playing engine-recommended moves, he registers a higher average loss per move than one would expect for a player of his Elo rating. This suggests that while Kramnik plays the engine move in most cases, he is also prone to significant blunders. Playing the fools mate because you’re suspecting a player of cheating doesn’t help either."

https://dorianquelle.github.io/blog/Cheating-In-Titled-Tuesday/
Forwarded from Artem Ryblov’s Data Science Weekly (Artem Ryblov)
Thinking Clearly with Data: A Guide to Quantitative Reasoning and Analysis by Ethan Bueno de Mesquita, Anthony Fowler

An introduction to data science or statistics shouldn’t involve proving complex theorems or memorizing obscure terms and formulas, but that is exactly what most introductory quantitative textbooks emphasize. In contrast, Thinking Clearly with Data focuses, first and foremost, on critical thinking and conceptual understanding in order to teach students how to be better consumers and analysts of the kinds of quantitative information and arguments that they will encounter throughout their lives.

Among much else, the book teaches how to assess whether an observed relationship in data reflects a genuine relationship in the world and, if so, whether it is causal; how to make the most informative comparisons for answering questions; what questions to ask others who are making arguments using quantitative evidence; which statistics are particularly informative or misleading; how quantitative evidence should and shouldn’t influence decision-making; and how to make better decisions by using moral values as well as data.

- An ideal textbook for introductory quantitative methods courses in data science, statistics, political science, economics, psychology, sociology, public policy, and other fields
- Introduces the basic toolkit of data analysis―including sampling, hypothesis testing, Bayesian inference, regression, experiments, instrumental variables, differences in differences, and regression discontinuity
- Uses real-world examples and data from a wide variety of subjects
- Includes practice questions and data exercises

Link: https://www.amazon.com/Thinking-Clearly-Data-Quantitative-Reasoning/dp/0691214352

Navigational hashtags: #armknowledgesharing #armbooks
General hashtags: #datascience #correlation #regression #causation #randomizedexperiments #statistics

@data_science_links
Forwarded from asisakov
Статзначимость коэффициентов при регрессии

Вчера спорили с ребятами на работе по поводу статзначимости и как ее считать. После вопроса про оценку значимости коэффициента я ожидал услышать что-то типа бутстрапирования выборки.

Однако, ребята вспомнили интересную формулу из книжки по эконометрике (Jeffrey M. Wooldridge. Introductory Econometrics. A modern approach). Вот та самая формула ниже:

Var(beta_j) = sigma^2 / (SST_j * (1 - R_j^2 )) - уравнение для оценки дисперсии признака j

sigma^2 - дисперсия ошибки

SST_j = sum((x_ij - mean(x_j))^2) - суммарная дисперсия выборки по признаку j

R_j^2 - оценка R^2 от оценки регрессии этого признака j на остальных

При помощи нее мы оениваем дисперсию, и затем можем поглядеть, попадает ли 0 в доверительный интервал, и насколько узок или широк этот самый доверительный интервал.

Но самое интересное еще впереди. Что меня уже зацепило, так это формулировка одной из переменных данной формулы: оценка R^2 от оценки регрессии этого признака j на остальных. Что-то напоминает?

Действительно, это оказался тот самый VIF. Если мы спустимся от этой формулы (в книжке это формула 3.51 на странице 94) ниже на 4 страницы, мы реально увидим переход к этой формулировке:

Var(beta_j) = (sigma^2 / SST_j) * VIF_j


К чему это я: За счет отбора признаков по VIF перед обучением регрессии на них, мы можем добиться повышенной вероятности того, что все наши признаки будут статзначимы для модели. Вот такое небольшое наблюдение.

#ml #statistics
👍1
Forwarded from asisakov
Теория покера

Если погуглить форумы про покер, то в большинстве тредов эта игра воспринимается как некоторая система, в которой есть определенность. Хотя казалось бы, что карты всегда раздаются случайно. Считается, что успех в игре зависит от глубокого понимания математики, статистики и психологии. Даже существует целая дисциплина - теория покера.

С точки зрения человеческих способностей, тут хотелось бы упомянуть в первую очередь память - попробуйте без подсказок держать в голове все вероятностные исходы раздач, когда известна информация только о нескольких картах среди большого числа тех, что сейчас разыгрываются.

При этом, важно не только помнить вероятности по вышедшим картам и например историю сыгранных партий, но и отыскивать и запоминать паттерны поведения соперников в различных ситуациях - кто и как играл в разных позициях за столом.

Где здесь статистика и вероятности

Покер построен на математических расчетах:

▫️Вероятность получить определенную стартовую руку
▫️Шансы улучшить руку на флопе, терне, ривере
▫️Pot odds (соотношение размера банка к ставке)
▫️Implied odds (потенциальные шансы с учетом будущих ставок)

Продвинутая аналитика:

▫️EV (Expected Value) — матожидание каждого решения
▫️ICM (Independent Chip Model) — модель оценки фишек в денежном выражении
▫️GTO (Game Theory Optimal) — теоретически оптимальная стратегия, если мы не знаем стили игры соперников

Покерные движки и софт (обычно всегда платный софт):

Солверы (решатели):
▫️PioSOLVER - рассчитывает GTO-стратегии
▫️MonkerSolver - анализирует сложные споты
▫️SimplePostflop - анализ постфлопа

Трекеры и анализаторы (солверы там тоже есть):
▫️PokerTracker - сбор и анализ статистики
▫️Holdem Manager - детальная аналитика игры
▫️ICMIZER - расчеты для турнирных ситуаций

Очевидно, что программ больше, я просто привел рандомный список из того, что насоветовала GPT

Где тут аналитика

Статистические показатели:

▫️VPIP (Voluntarily Put $ In Pot) - частота вложений в банк
▫️PFR (Pre-Flop Raise) - показатель агрессивности игрока
▫️3-bet% - частота ререйзов
▫️C-bet% - продолженные ставки на флопе

Позиционная аналитика:

▫️Статистика по каждой позиции за столом
▫️Анализ прибыльности в разных ситуациях
▫️Частота блефов в зависимости от позиции

Аналитика психологии:

▫️Тайминг ставок (время на принятие решения)
▫️Поведение в стрессовых или типичных ситуациях
▫️Тильт-контроль

Вообще, покер идеально подходит для изучения стратегических взаимодействий и развития навыков принятия решений в условиях неопределенности. Еще сверху это присыпается умением в риск-менеджмент и проработку поведения под эмоциональным давлением. В современное время теория покера включает и матмодели на основе теории игр, и AI-системы и ML алгоритмы, и даже поведенческие исследования

Покер давно перестал быть просто игрой. Это полноценная научная дисциплина, где успех зависит от глубокого понимания математики, умения анализировать данные и принимать оптимальные решения в условиях неопределенности.

Ну и напоследок ссылочка на открытый курс по теории покера от MIT. Весь пост родился вообще после того, как я нашел курс в рекомендациях ютуба. Очень круто просто понять, в каких случаях может пригодиться знание статистики и математики.

Надеюсь, было интересно ознакомиться.

Важно: в азартные игры играть не рекомендую!

#math #statistics #softskills #interesting
Please open Telegram to view this post
VIEW IN TELEGRAM
1