Ivan Begtin
7.99K subscribers
1.77K photos
3 videos
101 files
4.49K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]
Download Telegram
О том как на базе данных делают работу исследователи-журналисты данных в публикации Paul Bradshow [1]

Он разбирает 4 истории:
1. Анализ 300 тысяч песен из MusicNotes и выявление певцов с наиболее широким диапазоном голосом и публикация в The Mirror [2]
2. She Giggles, He Gallops (Она хихикает, он скачет). Гендерные диалоги в фильмах [3] , исследование Julia Silge с анализом более 2000 диалогов из фильмов с выявлением гендерных стереотипов.
3. Исследование BuzzFeed по теннисным матчам [4]
4. ... и работа David Robinson о том как и кто публикует твиты Дональда Трампа [5], вплоть до выявления времени когда больше вероятности что твит написал он сам и когда, наоборот, пишут его помощники.

И у того же Paul Bradshow есть отличная публикация о том как делать красивые графики прямо в тексте используя шрифт AtF Spark [6]. Я пока не видел ни одного российского издания которое бы его использовало. Так что это может быть забавной фичей. Подробнее о шрифте и его создателях у них на сайте [7]

Ссылки:
[1] https://medium.com/@paulbradshaw/introducing-computational-thinking-to-journalists-23d7c260ef16
[2] https://www.mirror.co.uk/news/uk-news/singer-best-vocal-range-uk-4323076
[3] https://pudding.cool/2017/08/screen-direction/
[4] https://www.buzzfeed.com/johntemplon/how-we-used-data-to-investigate-match-fixing-in-tennis?utm_term=.xyqaBVVBXJ#.jxYYaMMaXp
[5] https://varianceexplained.org/r/trump-tweets/
[6] https://medium.com/@paulbradshaw/how-to-use-the-atf-spark-font-to-create-charts-with-just-text-6925b978fed3
[7] https://aftertheflood.co/projects/atf-spark

#opendata #datajournalism
К вопросу о медиастартапах. Шведский Newsworthy https://www.newsworthy.se мониторят кучу статистических данных Евросоюза и генерят новостные лиды.

Тоже дата журналистика с элементами робожурналистики, с той лишь разницей что они не текст финальный создают, а значительно облегчают поисковые возможности.

Кстати создать такой сервис в России можно, даже не супер сложно на самом деле, но покупателей на него будет 5-10 изданий, в основном федерального значения и рынок совсем скромный. Так что у нас в можно запускать это скорее как некий in-house проект.

Другой интересный проект - это нидерландский LocalFocus https://www.localfocus.nl/en/ по созданию интерактивной инфографики с данными. Они так и пишут что превращают данные в истории.

#opendata #ddj #datajournalism
Дата журналистам на заметку.

1. Заходите на сайт Газпроммежрегионгаза в раздел "Крупнейшие должники за газ"
https://mrg.gazprom.ru/implementation/spisok-dolzhnikov/

2. Парсите данные любым удобным Вам образом и превращаете в CSV или JSON где у Вас должны быть поля:
- наименование организации должника
- сумма задолженности
- наименование субъекта федерации
- наименование федерального округа в который субъект федерации входит

3. Открываете Википедию (или Wikidata) и скачиваете таблицу с населением страны по субъектам https://ru.wikipedia.org/wiki/Население_субъектов_Российской_Федерации

4. Открываете Википедию (или Wikidata) и скачиваете таблицу ВРП по субъектам https://ru.wikipedia.org/wiki/Список_субъектов_Российской_Федерации_по_валовому_продукту

5. На этих данных считаете рейтинги:
- субъектов по общей задолженности
- субъектов по задолженности на 1 человека
- субъектов по задолженности к ВРП

6. Аналогично для федеральных округов

7. Полученные цифры визуализируете любым удобным Вам образом

8. Вуаля! Отдавайте результат в любое федеральное издание, особенно в те которые сейчас активно чморят власти Московской области.

Потому что кто будет анти-лидером рейтинга я уже вам как бы подсказал.
#datajournalism #ddj #opendata
New York Times выложили в открытый доступ материалы по обучению журналистов дата-журналистике [1], со всеми материалами и датасетами [2]. Неплохой курс/тренинг, очень практичный, про работу с таблицами, очистку данных, брейншторм на данных и так далее.

Такой гайд был бы хорош и на русском языке. Благо материалов предостаточно.

Ссылки:
[1] https://www.niemanlab.org/2019/06/the-new-york-times-has-a-course-to-teach-its-reporters-data-skills-and-now-theyve-open-sourced-it/
[2] https://drive.google.com/drive/u/0/folders/1ZS57_40tWuIB7tV4APVMmTZ-5PXDwX9w

#opendata #ddj #data #datajournalism
Для тех кому долго самостоятельно искать тот слив из банка на каймановых островах, вот прямая ссылка [1]. Он там под кодом "Sherwood"

Только помните - там 2 терабайта. Для опытного специалиста это несколько часов работы, для неопытного может занять месяцы. Для современного журналиста расследователя это должно быть по силам, а если чувствуете что "сложно это всё", то срочно беритесь за журналистику данных.

Ссылки:
[1] https://ddosecrets.com/data/corporations/

#leaks #data #datajournalism