Data Blog

Upd2: на прошлой картинке была опечатка в исправлении. Здесь совсем исправленный вариант! Неловко вышло…

👍2

390 viewsedited 20:16

Привет, друзья! Как обещала, пишу про боксплоты.

Vilonplot и Boxplot — смыслы и отличия. #Датавизуализация, #датасловарь

Думаю, со старым добрым “ящиком с усами” или, как его называют boxplot’ом вы точно знакомы. Violin plot, как и boxplot, является методом визуализации и показывает он вероятностное распределение некоторой случайной величины (здесь под случайной величиной следует понимать распределение какого-либо непрерывного признака, а не дискретного).

Зачем вообще boxplot’ы и violinplt’ы?

Визуализируя переменную хочется, чтобы график сколь угодно точно отражал природу её распределения. Конечно, можно взять гистограмму. Но по моему субъективному мнению — боксплоты приятнее гистрограм просто потому что они визуально не нагружают зрители двумя осями (по второй в гистрограммах, в случае равного разбиения интервалов (bins), откладывается величина, пропорциональная количеству элементов выборки, попадающих в этот интервал).

Что показывает boxpltot?

В seaborn и plotly boxplot по умолчанию отрисовывает медиану. Границы коробки при этом показывают первый и третий квартили распределения (соответственно 25й и 75й перцентили). Границы усов отражают величину, равную разности и сумме соответственно IQR на коэффициент (коэффициент выбирается равным 1,5).
(Что такое IQR, квартили и перцентили см. в рубрике #Датасловарь)

И вроде бы полезный график. Джон Тьюки (именно он является создателем) предложил понятный, компактный и красивый метод визуализации. Для какой лирики нужен violin plot?

Violinplots с какой-то точки зрения более информативны.

Они похожи на носы ждунов, в то время как boxplots такой живописностью похвастаться не могут. “Ждуновость” обусловлена тем, что по бочкам у скрипичных графиков — плотность вероятностого распределения переменнои.

Это структура графика-скрипки позволяет рассмотреть распределение по границам или, иными словами увидеть, есть ли у него “талия”, узкое или широкое у него “горло”, а может оно вообще “пандообразно” и жизнью помято.

И, как приятный бонус, они менее популярны и от того более эффектны для предоставления отчетов.

Вот так!

Как мысль.

Не стоит нагружать лицо, принимающее анализ данных новым видом графика, если цель показать, что вот он такой есть. В базовых случаях валидно и достаточно показывать характер распределения через старый, добрый boxplot. Но если формы и выпуклости распределения переменной играют значимую роль, то violinplot с радостью выручит вас.

А в повседневной работе, при непосредственно анализе мне кажется информативнее будет всё-таки violinplot.

Посмотреть наглядную разницу, а также построение обоих графиков в Python с seaborn и plotly можно тут: ссылка на гугл-коллаб

👍1

403 viewsedited 08:56