Ivan Begtin
8.09K subscribers
1.99K photos
3 videos
102 files
4.7K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]
Download Telegram
Вышел OpenRefine 2.7RC1 [1] свежий кандидат в релизы известного open source продукта по чистке данных.
Из новых возможностей:
- использование Wikidata вместо Freebase
- перевод на японский
- экспорт кластеров

OpenRefine один из наиболее незаменимых инструментов при работе с данными, как с открытыми, так и не очень. Жаль лишь что его востребованность совершенно не коррелирует с развитием проекта. Основной разработчик не проявлял активности более 9 месяцев [2] и теперь основными контрибьюторами являются члены сообщества и привлеченные разработчики через BountySource.

Все это не дает пока надежды что OpenRefine может стабильно развиваться, в то время как спрос на data wrangling tools весьма немал. Коммерческие приложения вроде DataIku и Trifacta не дают той же гибкости. И вопрос о том на что заменять OpenRefine долгосрочно является актуальным.

Ссылки:
[1] https://github.com/OpenRefine/OpenRefine/releases/
[2] https://github.com/tfmorris

#opendata #data
Ответ вопрос о том как существует бизнес на открытых данных в том что бизнесу все равно данные открыты или нет, открытость лишь делает это топливо бесплатным и позволяет снизить издержки, иногда значительно.

Пример коммерческого проекта на данных - это Quandl - https://www.quandl.com/

Стартап предоставляющий часть данных бесплатно на своей платформе, а часть, коммерческих данных, только по платной подписке. Коммерческие данные они получают не из открытых источников или же сводят много данных из открытых для создания нового продукта.

Очень простая и очевидная модель для любого стартапа.

#opendata #data
Друзья, на International Open Data Day в Москве я буду вести секцию "Бизнес". На сегодняшний день подтвердилось 2 спикера и я продолжаю искать тех кто готов выступить о том как бизнес работает с открытыми данными.
Это 4-5 марта и все подробности здесь - https://msk.opendataday.ru

Есть направления:
- как компания зарабатывает на открытых данных
- как компании создают инфраструктуру для открытия данных
- как компания использует открытые данные для своих внутренниъ нужд
- как компания раскрывает данные

Если у Вас есть тема или Вы можете порекомендовать спикера - напишите мне в facebook.com/ibegtin или на email - [email protected]

#opendata
Визуализация законодательства Новой Зеландии https://bcn-nzln.co.nf/ по кластерам в зависимости от цитирования

Помимо того что это красиво и показывает какие законы чаще всего меняли, это еще и полезно для понимания того как переплетены законы.

Чтобы было понятно - в Новой Зеландии все законы опубликованы как набор открытых данных - https://data.govt.nz/dataset/show/776

Там по ссылке https://legislation.govt.nz/subscribe/ доступны для выгрузки законы начиная с 1267 года https://legislation.govt.nz/subscribe/act/imperial

В целом это все что я думаю про открытые данные о законодательстве и законотворчестве в России

#opendata #opengov
Всем исследованиям Яндекса нехватает только открытых данных - как и многие data corporations они их не отдают, но как пример визуализации данных - их работы выше всяких похвал
Яндекс проанализировал базу организаций и выяснил какие районы Москвы наиболее пригодны для жизни, какие для работы, а какие для работы. В квадратах 300х300 метров можно выяснить насколько удобно там жить и какие сервисы/бизнесы там представлены.

https://yandex.ru/company/researches/2017/moscow_districts
То что с приходом новой администрации в США стали исчезать открытые данные прошлой [1] - это, наверняка, читали уже многие. Нет, глобального тренда на полную закрытость нет ни в мире, ни в России, даже при российской шпиономании и бессмысленной паранойи в одном, и недостаточной в другом.

Но думать о том что открытые данные необходимо архивировать - надо обязательно.
Я веду длительный проект по архивации государственных сайтов находящихся под угрозой закрытия. И, в частности, сохраняю все ресурсы открытого правительства, поскольку, неизбежно все они изменятся при новом кабинете министров в России в 2018 году.

Сейчас предметом архивации являются сайты:
- open.gov.ru
- openstandard.ru
- data.gov.ru
- opendatacontest.ru
- opendatasummit.ru

В данном случае речь не о их глобальной ценности, хотя и что-то полезное там есть, а о сохранении того что может быть уничтожено.

Если Вы знаете какие-либо ресурсы созданные Открытым Правительством с 2012 года и все еще доступным или же если Вы знаете какие-то другие ресурсы которые могут прекратить свое существование при смене правительства - пишите мне на [email protected] или в чате в Telegram https://t.iss.one/begtinchat

И все эти ресурсы будут сохранены.

Ссылки:
[1] https://technical.ly/dc/2017/02/15/trump-open-data-taken-down/

#opendata #opengov
Наконец-то мы подготовили анонс дня открытых данных в Москве с описанием всей программы - https://habrahabr.ru/company/infoculture/blog/322100/

Я лично приглашаю всех прийти, и послушать лекции, и похакатонить. Помимо ответственности за все мероприятие - я буду вести секцию "Бизнес". Мой доклад будет посвящен бизнес моделям, а докладчики на секции расскажут о своих коммерческих проектах.

Много лет мы работали над тем чтобы сообщество использующих открытые данные сформировалось и вот, наконец-то, все получается. Даже если государство забудет про открытость как ценность, невозможно будет изменить появившийся спрос на доступность информации.

Более чем 150 зарегистрировавшихся человек на ODD в Москве - это лишнее тому подтверждение

#opendata #opengov
Один из крупнейших проектов публикующих большие открытые данные и при этом не имеющем никакого отношения к государствам и правительствам - это Censys [1]. Проект и гигантская база сканирования публичных сетей охватывающий 1 миллион крупнейших веб-сайтов и все IP адреса (IPv4) в мире.

Проект ведется группой исследователей из университета Мичиган [2] при поддержке инфраструктурой от Google и проводит ежедневное сканирование всех адресов и доменов и выкладывают по 800 гигабайт в архиве (около 5 терабайт в распакованном виде) данных [3].

Итого, 5 терабайт в день, данные по всему Интернету, все IP адреса. Конечно, большая часть применения этой базы данных - это аудит безопасности сетей, сайтов, оборудования и так далее.

Сам проект затевался, в первую очередь, именно с точки зрения анализа степени уязвимости сервисов использующих SSL/TLS для нескольких видов новых атак, но, конечно, это не единственное его применение.

Исследование инфраструктуры Интернета позволяет отслеживать применение смену технологий, заранее знать какие продукты используются с точки зрения планирования применения новых и многое другое.

Не говоря уже о корпоративной разведке, которая часто заключается даже не во взломе, а в несанкционированном доступе к тому что "плохо лежит", по техническим причинам временно оказалось открытым.

Ссылки:
[1] https://censys.io
[2] https://censys.io/about
[3] https://censys.io/data

#opendata #censys #security
Мой канал про открытые данные, но не только про них. Я пишу про приватность, госзакупки, государство, цифровое государство, открытость в принципе, big data и прочую смесь практических и не очень тем. Совсем чистых каналов про открытость данных немного, но есть многие близкие по смыслу и духу.

Я уже упоминал канал Андрея Кармацкого https://t.iss.one/urbandata и напомню про канал Strelka Magazine https://t.iss.one/strelkamagazine - это каналы на которых бывают темы близкие к открытым данным и посвященные урбанистике.

В принципе же, у нас в России и в русскоязычном интернете мало блогов и каналов про открытые данные. Если Вы такие знаете - то пишите мне на @ibegtin или в @begtinchat или же вносите их напрямую в Awesome list на GIthub'е https://github.com/infoculture/awesome-opendata-rus

#opendata #opengovernment #telegram
Для тех кто ищет очень большие открытые данные и кому очень хочется работать с действительно большими объемами информации - есть примеры подобных данных (и созданные не на государственных данных).

Проект N-gram counts and language models from the CommonCrawl [1] создает базу N-gram на базе веб-страниц собранных в рамках проекта Common Crawl [2]. Объемы данных там составляют терабайты в сжатом виде - от 4 до 15 терабайт в совокупности, а может быть и больше. Скачивать все не обязательно, можно ограничиться любимыми языками. Самое удивительное что о проекте мало кто знает, хотя ему уже более 3 лет.

Сравнимые по объемы данные о n-gram публикует только Google в проекте Ngram Viewer созданные на базе Google Books [3] раскрывая большие объемы данных по множеству языков, но несравнимые с данными из Common Crawl.

Для тех кто задается вопросом что такое N-грамма [4] - это последовательность из нескольких элементов, в случая языка, предполагается что это последовательность из нескольких слов.

Для русского языка и в рунете также есть открытый проект Open Corpora [5] основанный на текстах публикуемых сообществами, меньший по объему, но выверенный вручную.

Извлечение N-gram - это лишь один из способов работы с Common Crawl. Есть и другие, существуют примеры скриптов помогающих быстро и легко извлекать из веб-страниц номера телефонов или же другую полуструктурированную информацию. Наборы данных Common Crawl хорошо подходят когда есть алгоритмы и задачи которые нужно опробовать на миллионах доменов и миллиардах веб-страниц.

Ссылки:
[1] https://statmt.org/ngrams/
[2] https://commoncrawl.org/
[3] https://storage.googleapis.com/books/ngrams/books/datasetsv2.html
[4] https://ru.wikipedia.org/wiki/N-%D0%B3%D1%80%D0%B0%D0%BC%D0%BC%D0%B0
[5] https://opencorpora.org/?page=downloads

#opendata #bigdata #commoncrawl
У проекта DataRefuge [1] по спасению климатических данных появилось сообщество Archivers.space [2] где сотни участников координируют свою работу по сохранению данных во время 15 мероприятий [3] идущих в США.

Все мероприятия координируются в PPEH Labs [4] при Penn University.

Я также напомню про проект Climate Mirror [5] по сохранению копий климатических данных, проект Azimuth Backup [6] и The Environmental Data and Governance Initiative [7].

Все эти проекты очень похожи на инициативы ArchiveTeam [8], команды которая сохраняла исчезающие данные и сайты еще до всех инициатив по DataRefuge.

Напомню что и в России у нас есть риск исчезнования открытых данных в будущем, по этой причине я веду архивацию всех сайтов связанных с открытыми данными и архивацию сайтов в принципе.

Ссылки:
[1] https://www.datarefuge.org/
[2] https://www.archivers.space/
[3] https://www.archivers.space/events
[4] https://www.ppehlab.org/datarefuge
[5] https://climatemirror.org
[6] https://math.ucr.edu/home/baez/azimuth_backup_project/
[7] https://envirodatagov.org/
[8] https://archiveteam.org/index.php?title=Main_Page

#opendata #datarefuge
Позавчера команда криптографов из Google опубликовали анонс первой "коллизии" криптографического алгоритма SHA1 [1]. Коллизия - означает уязвимость алгоритма к взлому, тот факт что, например, когда криптографическая функция используется для цифровой подписи, то эту подпись можно скомпрометировать создав другой документ с аналогичной подписью.

Алгоритму SHA-1 уже более 22 лет [2] и еще в 2005 году Брюс Шнайер писал о тому что алгоритм SHA-1 пора заменять [3].

Почему это важно? Алгоритм SHA-1 до сих пор используется в большом числе legacy систем. Он активно применялся в 1990-х и 2000-х годах и до сих пор во многих продуктах которые не обновлялись с той поры он используется. Кроме того SHA-1 это криптографическая функция которая часто используется для хранения паролей в базах данных и при отсутствии дополнительных мер может создать риски.

SHA-1 также активно использовался и используется для распространения дистрибутивов ПО и наборов данных.

Ссылки:
[1] https://security.googleblog.com/2017/02/announcing-first-sha1-collision.html
[2] https://ru.wikipedia.org/wiki/SHA-1
[3] https://www.schneier.com/blog/archives/2005/02/cryptanalysis_o.html

#security #sha1
Сжатые новости о главном в виде дайджеста:

1. Журналисты, энтузиасты и эксперты в США продолжают находится в недоумении что же будет делать администрация Трампа с данными о чем пишет Chase Gunter из FCW https://fcw.com/articles/2017/02/23/open-data-trump-future.aspx и Megan Moteni https://www.wired.com/2017/02/army-old-guard-archivers-federal-data-safer-think/ из Wired.

2. Аналогичные голоса приходят из области медицины критикующих Трампа за подмены науки "альтернативными" фактами - https://www.healio.com/hepatology/practice-management/news/online/%7B71d682b6-ba57-4919-b074-b5c66858ba0c%7D/bmj--trumps-policies-risk-head-on-collision-with-science-health-care

3. Европейский проект EuroGeographics обещает еще больше данных https://www.gisresources.com/eurogeographics-enhances-open-data-2017/

4. Morningstar, компания специализирующаяся на фондовой аналитике, открыла портал для разработчиков https://developer.morningstar.com/

5. Большой каталог того как гражданские данные помогают улучшать города - https://datasmart.ash.harvard.edu/news/article/how-can-data-and-analytics-be-used-to-enhance-city-operations-723

#opendata
Тем временем журналисты многих крупнейших СМИ в США продолжают свою войну с Трампом. В BuzzFeed вышла статья "Trump World" [1] с базой связей Трампа и его кабинета с более чем 2100 персонами и организациями. Эти же данные собраны в форматах CSV и GraphML [2], а также в виде Google Docs [3].

И база, регулярно, пополняется.

Кстати, BuzzFeed известен тем что они публикуют немало кода и данных на github'е. В их репозитории everything [4] можно найти немало данных, кода которым они его обрабатывают и статей на этих данных.

Другие интересные проекты на ту же тему:
- TrumpTracker [5] отслеживает все обещания Дональда Трампа. 7 он выполнил и 7 не выполнил на 26 февраля. Кстати, аналогичный проект TrudeauMeter [6] есть про Джастина Трудо, Президента Канады.

А также каталоги проектов в проектах Code Against Trump [7] и Stop Trump [8].
Проектов по организации сопротивления администрации Трампа становится так много что появляются проекты которые каталогизируют такие проекты.

И, отдельно, не могу не отметить проект по потребительскому сопротивлению Grap Your Wallet [9] каталогизирующий всех ритейлеров поддерживающих Дональда Трампа и сделавшие расширение для браузера которое предупреждает покупателя при попытке купить что-то в интернет-магазинах из этого списка.

Лично я наблюдаю как масштаб сопротивления Дональду Трампу растет и, конечно, на его фоне рождаются десятки и сотни идей и небольших проектов которые еще не раз вернутся в общественное пространство в самых разных формах.

А я лично продолжаю исходить из тезиса что Дональду Трампу будет очень сложно избежать импичмента.

Ссылки:
[1] https://www.buzzfeed.com/johntemplon/help-us-map-trumpworld?utm_term=.wem9OLdVv#.icnEoBLKW
[2] https://github.com/BuzzFeedNews/trumpworld
[3] https://docs.google.com/spreadsheets/d/1Z5Vo5pbvxKJ5XpfALZXvCzW26Cl4we3OaN73K9Ae5Ss/edit#gid=634968401
[4] https://github.com/BuzzFeedNews/everything
[5] https://trumptracker.github.io/
[6] https://www.trudeaumetre.ca/
[7] https://github.com/katerabinowitz/Code-Against-Trump
[8] https://github.com/bkeepers/stop-trump
[9] https://grabyourwallet.org/

#opendata #trump
Частый вопрос - где найти денег чтобы помогать открытым данным и открытости в принципе. Open Knowledge International раздает мини-гранты до $5000 [1] на создание инструментов по работе с Frictionless Data [2]

Эти инструменты включают библиотеки для таких языков программирования как Go, PHP, Java, C#, Swift, C++, Perl, Matlab, Clojure, R.

Для тех кто не слышал о том что такое Frictionless Data - это набор стандартов, таких как , Data Packages [3] созданных чтобы, с одной стороны, сохранить простоту табличных данных таких как в формате CSV, а с другой дать достаточно метаданных чтобы избежать ошибок в нотациях, чтении данных, разделителях и так далее.

$5 000 - это около 250 тысяч рублей. Небольшой грант для любой организации, но большой для индивидуальных разработчиков.

Если Вы решились, то надо вначале заполнить форму по ссылке [4].


Я и сам много лет думаю про организацию мини-грантов в России. Будь у меня хотя бы 3-4 свободных миллиона рублей, я бы по аналогии с OKI раздавал бы мини гранты, но на проекты _создающие данные_. Через краудсорсинг, парсинг множества источников и так далее. Вроде Open Food Database и ему подобных. Но в России еще не появились те грантодающие фонды которые были бы готовы раздавать на это деньги.

Ссылки:
[1] https://toolfund.frictionlessdata.io/
[2] https://www.frictionlessdata.io/
[3] https://frictionlessdata.io/data-packages/
[4] https://docs.google.com/forms/d/1q4dkiSJDPLEAzVhFSV-8ic5bpsEIG8v_ecmlGJNPmS4/viewform?edit_requested=true

#opendata #opengov #funding

Ссылки:
[1] https://toolfund.frictionlessdata.io/
[2] https://www.frictionlessdata.io/
[3] https://frictionlessdata.io/data-packages/
[4] https://docs.google.com/forms/d/1q4dkiSJDPLEAzVhFSV-8ic5bpsEIG8v_ecmlGJNPmS4/viewform?edit_requested=true

#opendata #opengov #funding
4-5 марта прошло в напряженном и отличном отмечании Дня открытых данных в Москве. Наши лекции и хакатон закончились, 300 человек посетило и мы со всем справились. Так что я возвращаюсь к регулярной публикации новостей.

В Великобритании приняли UK Digital Strategy [1] где интересно все, но я сделаю отдельный акцент на разделе 7. Data - unlocking the power of data in the UK economy and improving public confidence in its use [2]

В Великобритании описывают работу с данными в следующих разрезах:
- Supporting the data economy
- Building public trust
- Using government data effectively

Охватывает все - инфраструктуру данных, госданные, поощрение когда бизнес открывает собственные данные и многое другое.

И далее много деталей. Очень крутая стратегия для большой страны. Я еще напишу о ней подробнее

Ссылки:
[1] https://www.gov.uk/government/publications/uk-digital-strategy
[2] https://www.gov.uk/government/publications/uk-digital-strategy/7-data-unlocking-the-power-of-data-in-the-uk-economy-and-improving-public-confidence-in-its-use

#opendata #opengov
После года разработки вышла первая версия стандартов дизайна для официальных сайтов органов власти в США. U.S. Web Design Standards [1] представлены на специальном сайте

О том что включено в версию 1.0 можно прочитать в release notes [2]. Я же хочу обратить на высокий профессиональный уровень разработчиков стандартов. Они не пытались воспроизвести негодными методами формальный документ, наоборот, стандарты разработаны в Github репозитории и с мощнейшей обратной связью от сообщества [3].

Обязательно посмотрите на получившиеся в итоге:
- Визуальные компоненты [4]
- Страницы сайтов [5]
- Примеры реализации [6]

Я думаю уже не нужно напоминать что все это публикуется с открытым исходным кодом. А сами рекомендации применимы не только к госсайтам, но и к любой веб-разработке.

Всячески могу порекомендовать присмотреться к команде 18F. Они запускают одну госплатформу за другой.
Например такие проекты как:
- Federalist - https://federalist.18f.gov/ публикация статических госсайтов
- Communicart - https://cap.18f.gov/ ускоритель внутренних согласований малых покупок госслужащими по корп картам

Ссылки:
[1] https://standards.usa.gov/
[2] https://standards.usa.gov/whats-new/releases/#version-1-0-0
[3] https://github.com/18F/web-design-standards/issues
[4] https://standards.usa.gov/components/
[5] https://standards.usa.gov/page-templates/
[6] https://standards.usa.gov/getting-started/implementations/

#opendata #opengov #webdev
Для всех кто подписан на мой канал напомню что он слегка не обезличенный, я веду его от своего имени. У Инфокультуры пока нет своего отдельного Telegram канала, но у нас есть олдскульная и небесполезная рассылка где мы еженедельно присылаем дайджест всего что было интересного.

Если Вы интересуетесь темой открытых данных и хотите получать новости не ежедневным потоком - то рассылка это для вас.

Вот тут можно на нее подписаться - https://infoculture.us7.list-manage1.com/subscribe?u=2e38b8af0d8a547b51427dc9b&id=dadb533f05

#opendata #opengov
Очень частое заблуждение считать открытыми данными только открытые государственные данные. Политики так любят открытость что за их речами мы часто забываем что все явления вроде "Открытое Правительство" или "Партнерство открытых правительств" или их инициативы - это эхо гораздо более раннего и большего явления открытости знаний.

Много ли данных, много ли открытых данных создается без государства. Очень много. Обычно я привожу в пример Википедию, в дампах которой [1] миллионы страниц. Но если про Википедию слышали многие, то про такой проект как Wiki Apiary [2] знают далеко не все.

Wiki Apiary - это каталог всех интернет проектов на базе Mediawiki где, кроме всего прочего, есть и каталог архивированных Wiki сайтов [3]. Я всячески рекомендую его посмотреть и посмотреть примеры крупнейших архивов. Например, Citywiki в 125 гигабайт [4].

Немало данных также в The Dataset Collection [5], причем многое - это тексты и материалы не государственных данных.

Ссылки:
[1] https://dumps.wikimedia.org
[2] https://wikiapiary.com
[3] https://wikiapiary.com/wiki/Websites/WikiTeam
[4] https://archive.org/details/wiki-citywiki.ugr.es
[5] https://archive.org/details/datasets

#opendata #opengov