Ivan Begtin
8K subscribers
1.91K photos
3 videos
101 files
4.61K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]
Download Telegram
Прямо сейчас в рамках проекта DataSreda [1] идет трансляция лекции Саркиса Дарбиняна об особенностях регулирования цифровых прав человека в Интернете.

Напомню что DataSreda - это совместный проект магистерской программы НИУ ВШЭ Журналистика данных, Social Data Hub и Инфокультуры в виде лекций о данных и дата журналистике. Раз в 2 недели по средам мы находим интересного спикера и просим его рассказать о том чем он занимается или рассказать на практике как работать с данными.

Ссылки:
[1] https://datasreda.ru
[2] https://youtu.be/utg8CUmmG94

#opendata #privacy
Принятый ФЗ "О федеральном бюджете на 2018 год и плановый период 2019 и 2020 годов" ждет вас на сайте Минфина России традиционно в формате 4388-страничного pdf https://www.minfin.ru/ru/document/?id_4=121329&order_4=P_DATE&dir_4=DESC&is_new_4=1&page_4=1&area_id=4&page_id=2104&popup=Y (а мы его, тем временем, традиционно ждем в машиночитаемых форматах на порталах информационных систем Минфина)
Data will rule all

Предсказание в блоге GitHub о технологиях в 2018 году начинаются со слов Data will rule all и того что облака 2.0 будут именно про данные.

Там много и других не менее важных предсказаний, но это важнейшее.

Ссылки:
[1] https://github.com/blog/2480-github-s-technology-predictions-for-2018

#opendata #data
У Cliqz [1], компании разработчика Ghostery [2] специального расширения для браузеров по блокированию рекламы и трекеров, вышел отчет о распросраненности трекеров [3].

Ожидаемо лидирует Google Analytics и за ним следом Facebook Connect.

Там же доступен полный текст исследования [4] в котором есть упоминания и России. Например, то что в России, США и Великобритании в среднем больше число счетчиков на сайт чем в других странах. А также что в России доминирует Яндекс.Метрика, фактически являясь тем же чем является Google Analytics для всего мира.

И тут нельзя не отметить еще один проект Clicz - Whotracksme [5] где собраны данные по топ-500 мировых сайтов и приведены наиболее популярные трекеры. У проекта открытый код и открытые данные [6] и на их основе можно проводить свои исследования.

Для контекста - ситуация с трекерами в России совсем небезоблачная. Пока Роскомнадзор гоняется с блокировками сайтов, трекерами увешаны и личные кабинеты пользователей коммерческих сервисов, и многочисленные государственные порталы и сайты. Причем там стоят трекеры тех самых компаний которых так периодически поминают российские официальные лица.

На сегодняшний день нет в России организаций защищающий интересы потребителей в сети занимающихся приватностью пользователей. Во всяком случае тех кто делал бы это системно.

Ссылки:
[1] https://cliqz.com
[2] https://www.ghostery.com
[3] https://cliqz.com/en/magazine/ghostery-study-infographic
[4] https://static.cliqz.com/wp-content/uploads/2017/12/Ghostery_Study_-_Tracking_the_Trackers.pdf
[5] https://whotracks.me
[6] https://github.com/cliqz-oss/whotracks.me/blob/master/whotracksme/data/assets/companies.json

#opendata #privacy #trackers
К вопросу об открытом коде государственных систем. Разумеется такое не только в Нидерландах, это массово происходит по всему миру
Forwarded from HABR FEED + OPENNET
Нидерландское правительство открыло код информационной системы регистрации жителей
https://www.opennet.ru/opennews/art.shtml?num=47706
Министерство внутренних дел и по делам королевства Нидерландов перевело в разряд свободного ПО программное обеспечение BRP (Basisregistratie Personen), применяемое для ведения базы регистрации жителей страны. Код и сопутствующая документация опубликованы на GitHub под лицензией AGPLv3. #opennet
Airbnb запустили собственный внутренний университет по подготовке специалистов по data science.
Об этом пишет Wired в публикации о выпуске первых 700 человек из Airbnb data university [1]

Еще в мае о нем же писали Techcrunch [2] и Airbnb Engineering у себя в блоге [3].

Airbnb всегда были круты в данных и этот шаг вполне закономерен. Чего стоят только их Superset [4] и внутренний портал данных [5].

Интересно можно ли назвать создание внутреннего дата университета экспериментом или это лишь начало большого тренда. Все таки выпуск 700 человек в год - это очень много. Это действительно приближается к количеству выпускников небольшого классического университета и, при этом, выпускники обладают несомненно большим объемом специализированных знаний.

Ссылки:
[1] https://www.wired.co.uk/article/airbnb-in-house-data-university-employee-skills
[2] https://techcrunch.com/2017/05/24/airbnb-is-running-its-own-internal-university-to-teach-data-science/
[3] https://medium.com/airbnb-engineering/how-airbnb-democratizes-data-science-with-data-university-3eccc71e073a
[4] https://airbnb.io/projects/superset/
[5] https://medium.com/airbnb-engineering/democratizing-data-at-airbnb-852d76c51770

#opendata #airbnb #data
Небольшой анонс

После некоторых размышлений я решил разделить свои блоги на несколько.

Новый блог на Яндекс.Дзен будет только на русском языке https://zen.yandex.ru/id/5a315e1300b3dd77beb64261. Там уже есть несколько заметок по единой платформе для государственных сайтов и архивации сайтов кандидатов в президенты.

Блог на Medium - https://medium.com/@ibegtin - будет только на английском и других языках (не на русском). Он будет на зарубежную аудиторию и о том что происходит у нас в России или глобально в тех темах которыми я занимаюсь.

В Телеграм канале https://t.iss.one/begtin будут публикации оттуда и оттуда и собственные "короткие заметки".

В фэйсбуке то же самое что в телеграм канале сдобренное текстами для дискуссии и рефлексии https://facebook.com/ibegtin.

По прежнему связаться со мной проще всего в чате https://t.iss.one/begtinchat

#opendata #blogging
Владельцы веб-сайтов давно следят за пользователями, с самыми разными целями, но в основном с тем чтобы сохранить и преумножить свою аудиторию (и прибыль).

Иногда эта слежка проста и очевидна, а иногда оказывается что относительно безобидные счетчики собирают о пользователях ту информацию которую те не были бы готовы раскрыть. Пользователи ищут приватности и начинают пользоваться такими браузерами как Tor и расширениями для браузеров такими как Ghostery, Privacy Badger или Adblock.

В свою очередь разработчики сайтов и сервисов отслеживания применяют все более изощренную технику сбора информации о посетителях и отслеживания даже тех кто борется с отслеживанием.
...
https://zen.yandex.ru/media/id/5a315e1300b3dd77beb64261/novye-mehanizmy-slejki-za-polzovateliami-issledovanie-1-milliona-saitov-5a32ae52fd96b19b2f8d7e3b
ОЭСР выпустила Recommendation of the Council on Open Government 14 December 2017 - C(2017)140 - C/M(2017)22
https://www.oecd.org/gov/Recommendation-Open-Government-Approved-Council-141217.pdf

Спасибо Алексею Ефремову за ссылку.
Моя презентация с пятничной конференции Минэкономразвития
Портал данных по миграции [1] открыт IOM [2], Международной организации по миграции. На портале собрана международная статистика, удобные инструменты для работы с ней, инфографика, методики и многое другое.

Структуры ООН давно и много собирают данных, при этом сама ООН не так много их публикует как бы хотелось. Из наиболее памятных их проектов это Data.UN [3] и Data Worldbank [4].

Для тех кто занимается международными исследованиями в этих данных найдется что-то полезное.

Ссылки:
[1] https://migrationdataportal.org
[2] https://www.iom.int/
[3] https://data.un.org
[4] https://data.worldbank.org

#opendata #opengov #un
Для тех кто любит данные, связанные данные и утечки - свежий интересный набор данных. Exaptive [1] выложили Панамские бумаги в формате RDF на платформе data.world [2] и разместили пост о том как они это делали в блоге [3] с небольшой рекламой их Exaptive Studio и Cray Graph Engine (CGE) [4] для визуализации графовых баз данных.

Признаться я впервые вижу какое-либо применение CGE, тем более стартапом и, сразу, немного немало, а связанные данные и пока не могу понять дает ли их движок какую-либо реальную добавленную ценность.

А вот блог data.world [5] вполне могу порекомендовать для регулярного чтения. Data.world претендует на то чтобы стать Github'ом для данных и, вполне возможно, у них получится. Это один из стартапов за которым я лично пристально слежу.

Ссылки:
[1] https://exaptive.city
[2] https://data.world/exaptive/panama-papers
[3] https://blog.data.world/how-a-startup-analyzed-over-11-million-panama-papers-in-1-week-bcfe9ea76260
[4] https://www.cray.com/products/analytics/cray-graph-engine
[5] https://blog.data.world

Читайте также мой основной блог на русском языке https://zen.yandex.ru/id/5a315e1300b3dd77beb64261, на английском https://medium.com/@ibegtin, в телеграм https://t.iss.one/begtin

#opendata #panamapapers #data #semanticweb
Национальная комиссия по инфраструктуре Великобритании опубликовала доклад Data for Public Good [1] где признала данные инфраструктурой [2] и обозначила значимость открытых данных для инноваций.

Доклад, отчасти, возвращает нас к вопросу чем открытые данные более полезны чем когда они доступны за деньги или иным регулируемым образом. Открытость данных значительно снижает порог входа для data-стартапов и дает возможность создавать информационные продукты значительно быстрее и с меньшими издержками.

Ссылки:
[1] https://www.nic.org.uk/publications/data-public-good/
[2] https://theodi.org/what-is-data-infrastructure

#opendata #opengov #data #uk
В следующем годы наши планы Инфокультуры будут в том чтобы постепенно приводить в порядок наши ресурсы - Хаб открытых данных [1], наш сайт [2], цифровой архив [3] и многое другое.

Большую часть наших проектов мы создаем и поддерживаем сами. Иногда удается найти для них финансирование, а чаще это собственные инициативы.

А также мы начинаем перезапуск комуникационных площадок. Телеграм для них хорош, но он ограничен и поиском по истории и возможностями работы.

Ссылки:
[1] https://hubofdata.ru
[2] https://infoculture.ru
[3] https://ruarxive.org

#opendata #infoculture
Приглашаю в наше сообщество в Slack'е Open Data in Russian. Его преимуществом будет не только несколько каналов, но и интеграция с новостями об открытых данных и база документов.

https://join.slack.com/t/opendatarussia/shared_invite/enQtMjg4ODM2MTQzODU4LWFhYjRiNThjZmFhNjQwMjgyNTZmMDU5NDAwNWUxZmNlYTA2YWI5OGE5MWUyMDBhOGE1ZDUxOTk2NjAyNTY3YWE

Мы создавали его изначально именно для обсуждения открытых данных на русском языке, наряду с сообществами в Facebook и других площадках. За это время более-менее прижился только телеграм, но и у него есть свои пределы удобства. Так что будем реактивировать эту площадку.

#opendata #opengov #infoculture
Тем временем не я один поднимаю вопрос об алгоритмической манипуляции потребителями. В Нью Йорке власти города рассматривают законопроект об обязательной публичности и обследовании всех алгоритмов используемых городскими службами.

Arstechnica пишет [1] что уже публикуют даже алгоритмы анализа ДНК и изучают способы описания работы алгоритмов понятным людям языком. Что особенно важно для безальтернативных алгоритмов используемых госорганами.

Это важная история именно в контексте цифровой экономики и не надо думать что Россию она не затронет.

Однако будем надеяться что наши депутаты еще не скоро до этого догадаются, потому что начнут они регулировать не государство, а коммерческие компании.

Не присылайте им ссылки на этот текст. Не надо.

Ссылки:
[1] https://arstechnica.com/tech-policy/2017/12/new-york-city-moves-to-create-accountability-for-algorithms/

#opendata #opensource #algorithms