Ivan Begtin
8.09K subscribers
1.99K photos
3 videos
102 files
4.7K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]
Download Telegram
Сжатые новости о главном в виде дайджеста:

1. Журналисты, энтузиасты и эксперты в США продолжают находится в недоумении что же будет делать администрация Трампа с данными о чем пишет Chase Gunter из FCW https://fcw.com/articles/2017/02/23/open-data-trump-future.aspx и Megan Moteni https://www.wired.com/2017/02/army-old-guard-archivers-federal-data-safer-think/ из Wired.

2. Аналогичные голоса приходят из области медицины критикующих Трампа за подмены науки "альтернативными" фактами - https://www.healio.com/hepatology/practice-management/news/online/%7B71d682b6-ba57-4919-b074-b5c66858ba0c%7D/bmj--trumps-policies-risk-head-on-collision-with-science-health-care

3. Европейский проект EuroGeographics обещает еще больше данных https://www.gisresources.com/eurogeographics-enhances-open-data-2017/

4. Morningstar, компания специализирующаяся на фондовой аналитике, открыла портал для разработчиков https://developer.morningstar.com/

5. Большой каталог того как гражданские данные помогают улучшать города - https://datasmart.ash.harvard.edu/news/article/how-can-data-and-analytics-be-used-to-enhance-city-operations-723

#opendata
Тем временем журналисты многих крупнейших СМИ в США продолжают свою войну с Трампом. В BuzzFeed вышла статья "Trump World" [1] с базой связей Трампа и его кабинета с более чем 2100 персонами и организациями. Эти же данные собраны в форматах CSV и GraphML [2], а также в виде Google Docs [3].

И база, регулярно, пополняется.

Кстати, BuzzFeed известен тем что они публикуют немало кода и данных на github'е. В их репозитории everything [4] можно найти немало данных, кода которым они его обрабатывают и статей на этих данных.

Другие интересные проекты на ту же тему:
- TrumpTracker [5] отслеживает все обещания Дональда Трампа. 7 он выполнил и 7 не выполнил на 26 февраля. Кстати, аналогичный проект TrudeauMeter [6] есть про Джастина Трудо, Президента Канады.

А также каталоги проектов в проектах Code Against Trump [7] и Stop Trump [8].
Проектов по организации сопротивления администрации Трампа становится так много что появляются проекты которые каталогизируют такие проекты.

И, отдельно, не могу не отметить проект по потребительскому сопротивлению Grap Your Wallet [9] каталогизирующий всех ритейлеров поддерживающих Дональда Трампа и сделавшие расширение для браузера которое предупреждает покупателя при попытке купить что-то в интернет-магазинах из этого списка.

Лично я наблюдаю как масштаб сопротивления Дональду Трампу растет и, конечно, на его фоне рождаются десятки и сотни идей и небольших проектов которые еще не раз вернутся в общественное пространство в самых разных формах.

А я лично продолжаю исходить из тезиса что Дональду Трампу будет очень сложно избежать импичмента.

Ссылки:
[1] https://www.buzzfeed.com/johntemplon/help-us-map-trumpworld?utm_term=.wem9OLdVv#.icnEoBLKW
[2] https://github.com/BuzzFeedNews/trumpworld
[3] https://docs.google.com/spreadsheets/d/1Z5Vo5pbvxKJ5XpfALZXvCzW26Cl4we3OaN73K9Ae5Ss/edit#gid=634968401
[4] https://github.com/BuzzFeedNews/everything
[5] https://trumptracker.github.io/
[6] https://www.trudeaumetre.ca/
[7] https://github.com/katerabinowitz/Code-Against-Trump
[8] https://github.com/bkeepers/stop-trump
[9] https://grabyourwallet.org/

#opendata #trump
Частый вопрос - где найти денег чтобы помогать открытым данным и открытости в принципе. Open Knowledge International раздает мини-гранты до $5000 [1] на создание инструментов по работе с Frictionless Data [2]

Эти инструменты включают библиотеки для таких языков программирования как Go, PHP, Java, C#, Swift, C++, Perl, Matlab, Clojure, R.

Для тех кто не слышал о том что такое Frictionless Data - это набор стандартов, таких как , Data Packages [3] созданных чтобы, с одной стороны, сохранить простоту табличных данных таких как в формате CSV, а с другой дать достаточно метаданных чтобы избежать ошибок в нотациях, чтении данных, разделителях и так далее.

$5 000 - это около 250 тысяч рублей. Небольшой грант для любой организации, но большой для индивидуальных разработчиков.

Если Вы решились, то надо вначале заполнить форму по ссылке [4].


Я и сам много лет думаю про организацию мини-грантов в России. Будь у меня хотя бы 3-4 свободных миллиона рублей, я бы по аналогии с OKI раздавал бы мини гранты, но на проекты _создающие данные_. Через краудсорсинг, парсинг множества источников и так далее. Вроде Open Food Database и ему подобных. Но в России еще не появились те грантодающие фонды которые были бы готовы раздавать на это деньги.

Ссылки:
[1] https://toolfund.frictionlessdata.io/
[2] https://www.frictionlessdata.io/
[3] https://frictionlessdata.io/data-packages/
[4] https://docs.google.com/forms/d/1q4dkiSJDPLEAzVhFSV-8ic5bpsEIG8v_ecmlGJNPmS4/viewform?edit_requested=true

#opendata #opengov #funding

Ссылки:
[1] https://toolfund.frictionlessdata.io/
[2] https://www.frictionlessdata.io/
[3] https://frictionlessdata.io/data-packages/
[4] https://docs.google.com/forms/d/1q4dkiSJDPLEAzVhFSV-8ic5bpsEIG8v_ecmlGJNPmS4/viewform?edit_requested=true

#opendata #opengov #funding
4-5 марта прошло в напряженном и отличном отмечании Дня открытых данных в Москве. Наши лекции и хакатон закончились, 300 человек посетило и мы со всем справились. Так что я возвращаюсь к регулярной публикации новостей.

В Великобритании приняли UK Digital Strategy [1] где интересно все, но я сделаю отдельный акцент на разделе 7. Data - unlocking the power of data in the UK economy and improving public confidence in its use [2]

В Великобритании описывают работу с данными в следующих разрезах:
- Supporting the data economy
- Building public trust
- Using government data effectively

Охватывает все - инфраструктуру данных, госданные, поощрение когда бизнес открывает собственные данные и многое другое.

И далее много деталей. Очень крутая стратегия для большой страны. Я еще напишу о ней подробнее

Ссылки:
[1] https://www.gov.uk/government/publications/uk-digital-strategy
[2] https://www.gov.uk/government/publications/uk-digital-strategy/7-data-unlocking-the-power-of-data-in-the-uk-economy-and-improving-public-confidence-in-its-use

#opendata #opengov
После года разработки вышла первая версия стандартов дизайна для официальных сайтов органов власти в США. U.S. Web Design Standards [1] представлены на специальном сайте

О том что включено в версию 1.0 можно прочитать в release notes [2]. Я же хочу обратить на высокий профессиональный уровень разработчиков стандартов. Они не пытались воспроизвести негодными методами формальный документ, наоборот, стандарты разработаны в Github репозитории и с мощнейшей обратной связью от сообщества [3].

Обязательно посмотрите на получившиеся в итоге:
- Визуальные компоненты [4]
- Страницы сайтов [5]
- Примеры реализации [6]

Я думаю уже не нужно напоминать что все это публикуется с открытым исходным кодом. А сами рекомендации применимы не только к госсайтам, но и к любой веб-разработке.

Всячески могу порекомендовать присмотреться к команде 18F. Они запускают одну госплатформу за другой.
Например такие проекты как:
- Federalist - https://federalist.18f.gov/ публикация статических госсайтов
- Communicart - https://cap.18f.gov/ ускоритель внутренних согласований малых покупок госслужащими по корп картам

Ссылки:
[1] https://standards.usa.gov/
[2] https://standards.usa.gov/whats-new/releases/#version-1-0-0
[3] https://github.com/18F/web-design-standards/issues
[4] https://standards.usa.gov/components/
[5] https://standards.usa.gov/page-templates/
[6] https://standards.usa.gov/getting-started/implementations/

#opendata #opengov #webdev
Для всех кто подписан на мой канал напомню что он слегка не обезличенный, я веду его от своего имени. У Инфокультуры пока нет своего отдельного Telegram канала, но у нас есть олдскульная и небесполезная рассылка где мы еженедельно присылаем дайджест всего что было интересного.

Если Вы интересуетесь темой открытых данных и хотите получать новости не ежедневным потоком - то рассылка это для вас.

Вот тут можно на нее подписаться - https://infoculture.us7.list-manage1.com/subscribe?u=2e38b8af0d8a547b51427dc9b&id=dadb533f05

#opendata #opengov
Очень частое заблуждение считать открытыми данными только открытые государственные данные. Политики так любят открытость что за их речами мы часто забываем что все явления вроде "Открытое Правительство" или "Партнерство открытых правительств" или их инициативы - это эхо гораздо более раннего и большего явления открытости знаний.

Много ли данных, много ли открытых данных создается без государства. Очень много. Обычно я привожу в пример Википедию, в дампах которой [1] миллионы страниц. Но если про Википедию слышали многие, то про такой проект как Wiki Apiary [2] знают далеко не все.

Wiki Apiary - это каталог всех интернет проектов на базе Mediawiki где, кроме всего прочего, есть и каталог архивированных Wiki сайтов [3]. Я всячески рекомендую его посмотреть и посмотреть примеры крупнейших архивов. Например, Citywiki в 125 гигабайт [4].

Немало данных также в The Dataset Collection [5], причем многое - это тексты и материалы не государственных данных.

Ссылки:
[1] https://dumps.wikimedia.org
[2] https://wikiapiary.com
[3] https://wikiapiary.com/wiki/Websites/WikiTeam
[4] https://archive.org/details/wiki-citywiki.ugr.es
[5] https://archive.org/details/datasets

#opendata #opengov
15 марта в медиаклубе в Благосфере я буду рассказывать про большие данные
Скажу честно - про этику больших данных мне говорить даже проще чем про открытые данные. Действительно, современные технологии углубляют информационное неравенство. Концентрация данных делает сильных сильнее и слабых слабее.


Вот тут можно зарегистрироваться
https://www.facebook.com/events/1117410538369049/

#privacy #bigdata #bigdataethics
Самое частое что я наблюдаю на большинстве хакатонов - это то что многие приходящие участники, или не определились с идеей и могут потратить на поиск несколько часов, или не владеют/не знают о существовании ключевых инструментов которые позволяют очень быстро вести разработку.

Вот некоторые инструменты, полезные не только на хакатонах:

Огромный список программ скрейперов помогающих извлекать данные из веб-сайтов. Это инструменты на всех языках программирования и несложные в освоении
Ссылка: https://github.com/cassidoo/scrapers

Быстрая визуализация табличных данных с помощью React Visualized. Например, Вы берете любой более-менее большой набор данных в CSV и делаете над ним надстройку.
Ссылка: https://github.com/bvaughn/react-virtualized

Обработка текста с командной строки. Большая подборка инструментов позволяющих быстро обрабатывать CSV, JSON, XML и другие структурированные документы
Ссылка: https://github.com/dbohdan/structured-text-tools

Быстрая сборка статического сайта с использованием "Jekyll"
Ссылка: https://jekyllrb.com/

Малоизвестный в России открытый движок JKAN для быстрой сборки статического портала открытых данных. Очень просто устроен, очень быстро разворачивается.
Ссылка: https://jkan.io/

#opendata #hackathons
Одна из важных областей применения открытых данных - это расследования на открытых источниках информации. Эти расследования используют, обычно, не только открытые данные, но и данные полученные другими путями или общедоступную информацию, не обязательно под свободными лицензиями.

Это направление называется Open Source Intelligence (OSINT) [1] и в последние годы оно особенно активно используется государственными разведслужбами и частными агентствами.

Одни из основных источников информации для расследований являются открытые базы данных. Расследование о "латинице в госзакупках" или "слепых закупках" [2] построено как раз на OSINT.

Аналогично расследования проводят и многие организации занимающиеся публичными расследованиями, вроде OCCRP.

Но не все знают о том как из открытых источников используются скрытые знания.

Например, Justin Seitz, автор блога по автоматизации расследований регулярно пишет про применение баз данных.
Я могу порекомендовать к прочтению, как минимум, две его краткие заметки:
Vacuuming Image Metadata from The Wayback Machine [3] и Using Python to Mine Common Crawl [4]

В первом случае это извлечение метаданных из глобального интернет-архива, а во втором из крупнейшего слепка всех веб-страниц в интернете.

В обоих случаях эти источники данных используются для сокрытия интереса исследователя к объекту исследования. Например, часто чтобы собрать информацию о той или иной организации необходимо провести анализ данных. В этом случае, при использовании открытых источников информации - исследователь может скрыть свой интерес к организации и предотвратить контрмеры.

Извлечение данных из Archive.org и из Common Crawl - это один из способов подобного сокрытия исследования.

Я не открою большого секрета в том что, иногда, чиновники задающие вопросы "А зачем Вам эти данные? Их же будут использовать против нас" бывают правы. Открытые данные хорошо ложаться в идею сокрытия интереса расследователя от расследуемого. Опубликование данных о госзакупках в России, например, привело к значительному всплеску интереса к публичными расследованиям.

Аналогично и во многих других темах, открытые данные активно применяются для самых разных задач, исследования инфраструктуры, подготовки преступлений и многого другого. В статье "The Dark side of Open Data" [5] Matteo Mauri, Alessio Mulas, Davide Ariu пишут о возможностях применения открытых данных в преступных целях.

Что еще нагляднее видно из их презентации [6].

О чем пишет и Abhinav Biswas в заметке "https://Open Government Data Analysis to retrieve OSINT insights into Critical Infrastructure security.linkedin.com/pulse/open-government-data-analysis-retrieve-osint-insights-abhinav-biswas" [7]

Такие открытые проекты как Censys [8] с самого начала настроены именно на Open Source Intelligence, равно как и множество других, менее известных открытых баз данных и основанных на них инструментов используются так же.

Открытые данные в мире всегда находятся в противостоянии с приватностью. Например, в соревновании Outbrain click prediction [9] участникам соревнования по анализу данных явным образом запрещается их повторно идентифицировать, проводить реидентификацию.

В Австралии уже рассматривается законопроект об ответственности за реидентификацию анонимизированных данных [10] причем презумпция невиновности в данном случае не действует.

В качестве итога хочу завершить той мыслью что открытость не означает вседозволенность. Если улица открыта для прохода - это не означает что она доступна для того чтобы на ней гадить. В мире где технологии развиваются гораздо быстрее чем отношения в обществе мы очень рискуем оказаться когда забыв о приватности и этике использования больших данных мы столкнемся с тем что открытость в личном станет приглашением к насилию.
Баланс приватного и открытого - это важнейшая тема на повестке. Это же одна из причин почему я считаю что существование тематики открытых данных самой по себе в России невозможно без диалога со сторонами отвечающих за приватность и безопасность данных. И "Совет по открытым данным" при Правительственной комиссии в текущей своей форме не имеет сколь бы то ни было шансов на системное развитие темы открытых данных именно по причине игнорирования баланса между открытостью и приватностью.

Ссылки:
[1] https://ru.wikipedia.org/wiki/OSINT
[2] https://clearspending.ru/media/analytics/Open%20data%20as%20a%20tool%20for%20civil%20society%20and%20expert%20control%20in%20public%20procurement.pdf
[3] https://www.automatingosint.com/blog/2016/12/vacuuming-image-metadata-from-the-wayback-machine/
[4] https://www.automatingosint.com/blog/2015/08/osint-python-common-crawl/
[5] https://ceur-ws.org/Vol-1748/paper-19.pdf
[6] https://pralab.diee.unica.it/sites/default/files/The_dark_side_of_open_data_Mauri_KDWEB_2016_609x914.pdf
[7] https://www.linkedin.com/pulse/open-government-data-analysis-retrieve-osint-insights-abhinav-biswas
[8] https://censys.io/
[9] https://www.kaggle.com/c/outbrain-click-prediction
[10] https://www.aph.gov.au/Parliamentary_Business/Bills_Legislation/Bills_Search_Results/Result?bId=s1047
[11] https://www.zdnet.com/article/australian-data-re-identification-defendants-will-need-to-prove-their-innocence/


#opendata #osint
Не зря активисты сохраняли данные и сайты федеральных департаментов США. Дональд Трамп обозначил реформу - https://www.cnbc.com/2017/03/13/trump-to-sign-executive-order-aiming-to-see-where-money-is-being-wasted-in-government-spicer-says.html в которой многие из ведомств могут исчезнуть.

Ведомства не жалко, данные жалко!

#opendata
Techcrunch пишет что в США следователи установили что за взломом Yahoo стояло 4 россиян которых уже обвиняют в связях с российскими спецслужбами [1].
Странно что в этой цепочке они еще не дошли до главных бенефициаров взлома, а они то точно должны быть за пределами РФ. Особенно если вспомнить что акции Yahoo резко упали после анонса утечки и кто-то вполне на этом заработал.

Самое важное в этой заметке - упоминание что между США и Россией нет договора об экстрадиции поэтому наиболее вероятны новые санкции как ответные действия.

Ссылки:
[1] https://techcrunch.com/2017/03/15/doj-accuses-two-russian-spies-and-two-criminals-of-2014-yahoo-hack/

#privacy #security
В России из несиловых ведомств накапливающих большие данные одним из наиболее закрытых можно смело назвать Минюст России. И дело не только в открытых данных, но и в недолговечности того что они уже публикуют.

В разделе открытые данные [1] на сайте Министерства выложено 6 наборов данных минимального объема и ни один из них не относится к данным которые содержаться в их информационных системах, неполный перечень которых опубликован в разделах "Правовые информационные системы" [2] и "Перечень государственных информационных систем" [3].

Ни одна из этих систем не является системой ограниченного доступа, информация в них так или иначе общедоступна, но не в форматах открытых данных.

У Минюста России есть план реализации концепции открытости [4] согласно которой в декабре 2016 года должна была быть обеспечена выгрузка данных в машиночитаемых форматах. Но, в декабре 2016 года вышел их приказ N305 от 26.12.2016 согласно которому все перенесено на декабрь 2017, а ряд пунктов просто исключены [5].

Обратите внимание что концепция открытости должна утверждаться с учетом совета по открытым данным и правительственной комиссии по координации деятельности открытого правительства, а изменения принимаются внутренним приказом Минюста.

А если поднять их план информатизации то можно обнаружить что даже перечни информационных систем у них на сайте неполны [6].

Беглый аудит контрактов Минюста показывает что в требованиях к модернизации и разработке систем открытые данные у них нигде не упоминались. Пример - система АИС УНРО. Последний контракт на ее модернизацию был заключен 16.10.2015 и в тексте контракта отсутствуют требования по раскрытию информации [7] или на примере ФГИС "Учет адвокатов" [7] где ТЗ также Главный вывод который можно из этого сделать в том что Приказ N305 - это лишь констатация ранней позиции Минюста в том чтобы не открывать данные настолько насколько это возможно.

И, наконец, "на закуску". Из системы регистрации отчетов НКО исчезли _все_ отчеты до 2015 года. И это уже вопрос не открытых данных, а принципиальной сохранности всего того цифрового что Минюст России хранит в своих системах и необходимости безусловно архивации всех накопленных материалов.

Ссылки:
[1] https://minjust.ru/ru/opendata_old
[2] https://minjust.ru/activity/databases
[3] https://minjust.ru/press/news/perechen-gosudarstvennyh-informacionnyh-sistem
[4] https://minjust.ru/sites/default/files/konechnyy_plan.docx
[5] https://minjust.ru/sites/default/files/izmeneniya_v_plan_myurf_po_realizacii_koncepcii_otkrytosti.pdf
[6] https://minjust.ru/sites/default/files/plan_informatizacii_minyusta_rossii_na_2016_god_i_planovyy_period_2017_-_2018_godov.pdf
[7] https://zakupki.gov.ru/epz/contract/contractCard/document-info.html?reestrNumber=1770721141815000090
[8] https://zakupki.gov.ru/epz/contract/contractCard/document-info.html?reestrNumber=1770721141815000084
[9] https://unro.minjust.ru/NKOReports.aspx?request_type=nko

#opendata #opengov #digitalpreservation
Почему я с каждым годом все критичнее отношусь к публичным предложениям Яндекса могу проиллюстрировать на последней их инициативе для ЦИКа - https://roem.ru/20-03-2017/245408/new-service-for-voters/

Яндекс _не предлает_ ЦИКу публиковать открытые данные избирательных участков и их регулярно обновлять.
Яндекс _предлагает_ ЦИКу загружать данные по избирательным участкам в их проприетарный Яндекс.Справочник откуда потом никто их как открытые данные не получит.

Яндекс не помогает общей экосистеме, Яндекс использует GR ресурс для замыкания инфраструктуры данных на себя.
Пока это еще какое-то время будет прокатывать,
но рано или поздно это придет к антимонопольному регулированию в Интернете и прямым жалобам конкурентов в ФАС и не только.

Подобное отношение - это лишнее подтверждение того что профессиональные продукты и этика не обязательно идут рядом.

Если делать регулярный рейтинг врагов открытых данных, то туда войдут не только некоторые Министерства, но и некоторые компании.

#opendata #yandex
Я вот недавно спрашивал зачем нужно архивировать данные. А теперь сам могу ответить. Минюст потерял все отчеты НКО до 2015 года в их реестре [1] . Теперь самый давний отчет там датируется 01.01.2015

А МИД России недавно обновляли свой сайт и старые ссылки на их страницы более не работают. Новый сайт [2] устроен по другому и многие базы данных и наборы данных которые там были теперь очень сложно найти. А копию старого сайта в МИДе не сохранили.

Поэтому во всех моих мыслях про архивацию государство стоит на первом месте и архивацию данных тоже.

5 лет назад я писал в Московских новостях о том к чему привело объединение всех сайтов МВД под один домен mvd.ru [3]

При этом я не могу не оговориться что в подавляющем числе случаев потери данных - это отсутствие культуры, а не злой умысел.

Что делать в этой ситуации? Создавать архивы всех органов власти. Часто они нужны им самим же, когда материалы теряются и найти их невозможно. Но ждать когда этим займется Росархив лично я уже давно не готов

Ссылки:
[1] https://unro.minjust.ru/NKOReports.aspx?request_type=nko
[2] https://www.mid.ru
[3] https://www.mn.ru/oped/columns/82477

#opendata #opengov #digitalpreservation
Пришла пора написать публично о изменениях в моей жизни - я с марта месяца выступаю в роли члена и председателя экспертного совета по информационным технологиям при Генпрокуратуре РФ. Правильнее сказать что это совет по цифровой трансформации.

Анонс уже прошел еще 20 февраля https://genproc.gov.ru/smi/news/genproc/news-1165272/
но я до поры до времени его не афишировал.
Чуть позже я напишу подробнее о том чем будет заниматься совет. Но общая повестка я уверен уже понятна - подружить консервативное ведомство с новой цифровой реальностью.

Задача непростая, но первые шаги уже делаются.

Обратите внимание на слова Генпрокурора на недавно прошедшей коллегии
...
Будущее объективного учета преступлений за высокими технологиями, исключающими любые махинации со статистикой.
Но цифровые технологии должны применяться не только в данной сфере. Прокурорам следует готовиться к тому, что в ближайшие годы мы начнем использовать их на всех направлениях надзора.
Месяц назад моим приказом создан Экспертный совет при Генеральной прокуратуре по вопросам информационных технологий. Он объединил специалистов, признанных лучшими не только в нашей стране, авторитетных в мировом масштабе. Реализация на практике их идей откроет для нас дополнительные возможности осуществления надзора, определит принципиально новые его направления в сфере IT (ай-ти).
Поэтому, уважаемые коллеги, начинайте учиться сами и учить своих подчиненных.
...

Полный текст выступления
https://genproc.gov.ru/upload/17%2003%2013%20%D0%94%D0%BE%D0%BA%D0%BB%D0%B0%D0%B4.doc

Моя должность общественная, это даже скорее не должность, а роль накладывающая ответственность и обязанность во взаимодействии с ИТ сообществом в принципе.

Если Вы журналист и у Вас будут вопросы касательно деятельности совета, то пишите мне в телеграм t.iss.one/ibegtin, по почте на [email protected] или в фэйсбуке и я буду готов рассказать подробнее в форме заметки или интервью.

Если у Вас есть идеи или вопросы по ИТ в контексте органов прокуратуры, то пишите мне на [email protected] и туда же входят любые идеи которые у Вас могут возникнуть про органы прокуратуры в контексте ИТ, новых технологий и интернета. Лучше почтой, продублировать, тогда я точно ничего не потеряю. Я не могу пообещать что все идеи и предложения сразу получат отклик, но они точно будут прочитаны и донесены до руководства ГП.

Ну а "на закуску" ссылка на канал Генпрокуратуры в Телеграм'е - https://t.iss.one/genprocrf - подписывайтесь и пишите идеи если вдруг Вам бы хотелось что-то новое узнать в том числе про деятельность прокуратуры, открытые данные и тд

#genproc #opendata #opengov #digitalgov
И вдогонку к новости - в экспертном совете при ГП я являюсь председателем и вот первая новость на сайте в которой рассказано подробнее о заседании совета https://www.genproc.gov.ru/smi/news/genproc/news-1177071/

Обязательно обратите внимание что сейчас Генеральная прокуратура собирает идеи от граждан и бизнеса по тому как реорганизовать свою работу в цифровом мире - если такие идеи у Вас есть, пишите на [email protected]

#opendata #genproc #digitalgov
Для тех кто любит и ищет новые датасеты по самым разным темам - мы выложили на хаб открытых данных обновленный список дипломатов в рангах послов и посланников. Датасет можно скачать в CSV тут [1] и там же он есть в XLSX формате, а сами данные собраны с сайта МИД России [2]

Но не просто собраны, а расширены. Набор включает дополнительные атрибуты, такие как:
- фамилия, имя, отчество по отдельности
- пол
- этническая принадлежность (насколько можно оценить по ФИО)
- возраст на 27 марта 2017 года
- возраст в котором получил текущий ранг

Было еще желание собрать биографии и показать траектории назначения послов, но этих данных на сайте МиД России маловато, надо собирать их из многих источников.

Откуда данные по полу и по этносу? Много лет назад, в 2008 году я сделал несколько простых алгоритмов по распознаванию пола и, отчасти, этнической принадлежности по ФИО.

Периодически с тех пор я натравливал его на списки сотрудников разных органов власти, вот и, к примеру, на список послов.

Если у Вас есть другие интересные наборы данных по персонам пригодных для гендерного, этнического или возрастного анализа - пишите мне

Ссылки:
[1] https://hubofdata.ru/dataset/midrf-ambassadors
[2] https://mid.ru/activity/shots/personnel/extraordinary_ambassador

#opendata #opengov #midrf
Вышло исследование "Access to New Data Sources for Statistics: Business Models and Incentives for the Corporate Sector"
за авторством Thilo Klein и Stefaan Verhulst посвященное тому как коммерческие компании предоставляют принципиально новое знание о происходящих социальных процессах и то как эти данные используются на практике.

Примеры таких инициатив:
- Telefonica Smart Steps [2] (теперь стало LUCA [3]) - данные телекомов
- Orbital Insight [4] - мониторинг бедности со спутников и с анализом данных
- Open Diversity Data [5] - общественный проект по добровольному раскрытию компаниями информации о их национальном и гендерном составе. Например, Google [6] и Microsoft [7] раскрывают подобную информацию.

В исследовании есть много других примеров. И описание подхода Trusted Third Party позволяющее использовать данные третьих сторон для подсчета статистики.

Ссылки:
[1] https://www.paris21.org/sites/default/files/Paper_new-data-sources_final.pdf
[2] https://dynamicinsights.telefonica.com
[3] https://luca-d3.com
[4] https://orbitalinsight.com
[5] https://opendiversitydata.org
[6] https://www.google.com/diversity/
[7] https://www.microsoft.com/en-us/diversity/inside-microsoft/default.aspx#epgDivFocusArea

#opendata #statistics