data.csv
13.2K subscribers
1.25K photos
77 videos
6 files
940 links
Блог о журналистике данных и дата-сторителлинге
Ведёт @BlackPineapple — аналитик в службе дата-журналистики Яндекса
Download Telegram
Тут произошёл большой казус. Многие издания, включая РБК и даже сам сайт ФНС написали, что в 2022 году российские компании заработали 1,3 квадриллиона рублей. Один квадриллион — это 1000 триллионов, число с 15 нулями.

Эксперты это радостно подтвердили, рассказав множество версий, откуда в России появилось так много денег, да ещё и на фоне кризиса. Однако никто почему-то не предположил, что озвученное число — это просто ошибка в данных.

А вот Институт проблем правоприменения пишет, что таким расчётам просто нельзя верить. Судя по всему, журналисты просто сложили общую выручку по всем компаниям, не вникая в детали.

Однако, если изучить исходные данные, можно обнаружить, что в 2022 году больше всего денег сделала некая компания ООО «ЮССА», сделав 214 триллионов рублей и обогнав Лукойл (выручка 2.9 трлн руб.) и Магнит (2 трлн руб.). ИПП предполагает, что подобное значение — бугхалтерская ошибка. Вероятно — не единственная.

О чём это говорит?
Если у вас есть исходные данные — обязательно изучите распределение и отсутствующие значения. Возможно, перед суммированием и подсчётом средних часть данных придётся исключить или исправить.

А ещё эта история учит нас тому, что можно найти экспертов под самое безумное утверждение, подтвердив любую ошибку в данных 🙈

За подробной аргументацией отправлю вас в канал ИПП — там интересно.
👍65😁18😱115🔥3🌚2
В датавизе есть правила, от которых у новичков может вскружиться голова.

Например, у барчартов ни при каких обстоятельствах нельзя обрезать ноль. А у линейных графиков — можно и чаще всего даже нужно. А ещё есть коварный Lollipop Chart, который вроде бы очень похож на столбики, но и его можно строить не от нуля.

Всё дело в том, на какой вопрос отвечает график, и каким параметром визуализация кодирует числовые значения. В случае со столбиками — это длина. В случае с линейным и «леденцовым» графиком — координата.

Столбики предлагают нам сравнить величины целиком (на сколько одно число больше другого), линейный график отвечает на вопрос — стало больше или стало меньше — не уточняя, во сколько раз.

С другой стороны, даже обрезать ось в «леденцах» — это всё ещё сомнительный приём, и не стоит им злоупотреблять всякий раз, когда хочется выдать маленькую разницу за большую. Неплохой пример — здесь: по контексту и соотношению величин сразу очевидно, что на графике показан рейтинг, а не сравнение.

Вот и в примере, который прикреплён к этому сообщению, ничего страшного нет. Людей на графике обрезали, но очевидно, что никто не пытается сказать, что женщины в два раза ниже мужчин — потому что по силуэтам понятно, что люди изображены не в полный рост.

Источник: ролик Варламова про гендерное неравенство.

А в комментарии скину отвратительный график про рост 😈
👍163🤔3🥱2
Недавно исполнилась моя старая мечта — для проекта Sellesta.ai я «пощупал» данные о ценах в мексиканский аналог «Чёрной пятницы», который называется Hot Sale.

Времени на такой объём данных (15 миллионов цен) было у нас экстремально мало, поэтому получилось проверить только самые базовые гипотезы, не закапываясь в подробности. Но и тут вышло интересно.

1. Ухватить скидку на таких распродажах (по крайней мере, на Hot Sale) — вполне реально. Почти половина популярного ассортимента товаров в скидочную неделю стоила дешевле, чем в предшествующий месяц.
2. Однако здесь надо обратить внимание, что большая часть товаров дешевеет незначительно, в пределах пяти процентов. А чаще всего делают скидки на «виртуальные» товары — музыку, книги, видео.
3. С подешевевшими товарами есть также две загвоздки. Почти половина из тех, которые стоили дешевле в Hot Sale по сравнению с предшествующим месяцем, начали дешеветь ещё до Hot Sale. Вероятно, это и так не самые ходовые товары, на которые цена снижалась естественным образом.
А ещё на треть подешевевших за неделю до Hot Sale повышали цены. Мы не можем точно увидеть причину, но полагаем, это для того, чтобы скидка казалась больше, чем есть на самом деле.

Ну и очень мне нравятся графики, которые у нас с Надей Андриановой получилось сделать 🥰

Публикаций в мексиканских СМИ вышло много, например, такая:
https://tynmagazine.com/artificial-intelligence-hot-sale-revelo-crecimiento-del-e-commerce-gracias-a-ia/ (осторожно, испанский!)
21🔥8👍5🤔1
Давно хотел рассказать вам о дорогом своему сердцу хобби

С конца прошлого года мы вместе с певицей Крис Аивер готовили совместную песню, посвящённую эмиграции. Релиз этой песни назначен на 29 июня. Песня называется «За воздушным змеем», она раскрывает переживания друзей, находящихся по разные стороны границы. Смысл её — в надежде на объединение и мирное беззаботное лето, которое когда-нибудь должно наступить.

Грустно и иронично, но ещё пару дней назад казалось, что релиз песни придётся как раз на очередную волну эмиграции.

📊 Чтобы рассказать о релизе на канале, мы вместе с дизайнером Надей Андриановой придумали дата-арт. Я выгрузил с Авито все активные объявления, содержащие фразу «в связи с переездом в другую страну», разметил их по категориям, а Надя их виузализировала. Так мы получили примерный список вещей, которые пытаются продать или отдать эмигранты.

На каждой карточке показаны примеры объявлений из разных категорий. Этот «портрет» потерь и «оставленной жизни», конечно, не полон и точен. Однако и он даёт некоторое представление о том, чем приходится жертвовать людям. Дома и бизнесы, детские кресла и письменный стол «Успех», любимые животные — от крысы до лошади.

А как послушать песню об этом, напишу в следующем посте →
Please open Telegram to view this post
VIEW IN TELEGRAM
38🕊20👍8🥱4🔥2💔2
И снова про песню. Выйдет она 29 июня, и чтобы музыкальные площадки заметили нас в день релиза, мы прямо сейчас ведём «пресейв»-кампанию.

Пресейв — это сигнал «буду слушать» для музыкальной платформы. В день релиза песня появится в вашей медиатеке и плейлисте с премьерами. Это бесплатно и даже не зависит от подписки.

Если вам близка эта тема; если вы скучаете по дому или по друзьям, которые уехали из страны, помогите нам и сделайте пресейв:
https://t.iss.one/donotfox_bot

В знак благодарности мы готовы отправить очень символичные открытки, которые будут напоминать о том, что любая тёмная полоса однажды кончится.

Всех обнимаю 💛
🕊24💔10🥱43👍3
Washington Post сделали инфографику об одном из самых вредных видов спорта — соревнованиях по поеданию сосисок в тесте. Оказывается, за 40 лет чемпионы сильно эволюционировали: если в 80-х победители съедали примерно по 10 хот-догов за 12 минут, то чемпион 2021 года съел за 10 минут 76 хот-догов.

Только не повторяйте это дома:
https://www.washingtonpost.com/sports/2023/07/01/hot-dog-eating-contest-competitive-eater/
🌭38😁4😱3🏆31🍌1
«Важные истории» сделали скроллителинг, в котором шаг за шагом рассказывают, где в недавно опубликованных предварительных данных Росстата о смертности «спрятано» число погибших на войне за 2022 год.

Получилось что-то вроде «расследования данных», потому что, конечно же, никакой отдельной графы в духе «погибшие на войне» там нет. Но используя статистические методы все же можно сделать оценку военных потерь на данных Росстата, а заодно сравнить ее с оценкой журналистов и волонтеров «Би-би-си» и «Медиазоны», которые ведут пофамильный список погибших на войне.


Откроется без VPN: https://storage.googleapis.com/istories/stories/2023/07/06/rosstat-poteri/index.html
29👍9🔥6
Мона Чалаби желает всем приятной пятницы
😁52🌭11❤‍🔥7🏆3🙈3👎1