Ivan Begtin
7.99K subscribers
1.88K photos
3 videos
101 files
4.58K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]
Download Telegram
Вчера прошел Общероссийский гражданский форум и я там работал в столь плотном режиме что никак не имел возможности транслировать происходящее. Расскажу сегодня по итогам:

1. На форуме мы представили проект Открытые НКО [1] и проект Открытые СМИ (ссылки не будет, проект во внутреннем бета тестировании) посвященные открытости финансирования НКО и СМИ соответственно. Я в очередной раз обращаю внимание на то что проекты которые мы создаем в Инфокультуре имеют внутренний стандарт предусматривающий публикацию API и/или открытых данных наборами данных, а также раскрытие всего кода если нет каких то внешних обязательств. Мы таким образом публикуем открытые данные Госзатрат [2] и API Госзатрат [3], а теперь и API в Открытых НКО [4].

В открытом аккаунте Инфокультуры на github [5] есть открытый код значительного числа наших проектов.

2. На форуме было много разговоров о судьбе Открытого Правительства. Моя позиция проста - Открытому правительству в текущем виде осталось существовать 4-5 месяцев. Его никогда не было и нет в федеральном бюджете, оно изначально было построено как внешнее по отношению к органам власти и единственно правильная модель существования это когда характеристики открытости относятся к базовому, по умолчанию закрытому, правительству.

3. Я и коллеги говорили о качестве данных Министерства юстиции, в которых отсутствуют данные о более чем 60 тысячах НКО - у которых не указаны реквизиты или указаны с ошибками. И то что министерство совершенно не торопится их исправлять.

Было и многое другое, все транслировалось онлайн и уверен что скоро будут записи секций и дискуссий на сайте ОГФ.

Ссылки:
[1] https://openngo.ru
[2] https://clearspending.ru/opendata/
[3] https://clearspending.ru/page/for-developers/
[4] https://openngo.ru/api-docs/
[5] https://github.com/infoculture

#opendata #opengov #infoculture
В Японии в городе Кавасаки ищут решение по предсказанию цунами с помощью искусственного интеллекта [1]. Проект ведет Fujitsu и он был представлен на World Bosai Forum International Disaster and Risk Conference 25-28 ноября [2].

Это то что можно назвать наиболее практическим применением большим данных в области управления рисками.
Можно ли что-то подобное применять в более сухопутных странах вроде России? Как минимум в части предупреждения катастроф таких как лесные пожары, засухи.

Ссылки:
[1] https://govinsider.asia/digital-gov/japan-predict-tsunamis-ai/
[2] https://www.fujitsu.com/global/about/resources/news/press-releases/2017/1124-01.html

#opendata #japan
1% редакторов Википедии создали более 77% всех статей и правок в них, согласно статье в Motherboard от Daniel Oberhaus [1]
При том что всего у Википедии 132 тысячи авторов, а в день создается до 600 новых статей, но костяк авторов хотя и меняется со временем, но может быть измерян в 1300 человек.

В статье же упоминается снижение числа активных редакторов и риски которые возникают по этой причине, поскольку Википедия активно используется алгоритмами AI для всевозможных проектов.

Ссылки:
[1] https://motherboard.vice.com/en_us/article/7x47bb/wikipedia-editors-elite-diversity-foundation

#opendata #opengov
Talend [1], разработчики ETL продуктов по работе с данными, покупают стартап Restlet [2] ориентированный на создание удобной документации и описания API по стандарту Swagger (Open API).

Как давний пользователь Restlet надеюсь что это послужит развитию сервиса, а не потерей им каких-либо текущих функций.

Ссылки:
[1] https://www.talend.com
[2] https://restlet.com/company/blog/2017/11/27/restlet-is-now-part-of-talend/

#opendata #opengov #openapi
Тем временем суд Калифорнии обязал биржу CoinBase раскрыть IRS персональные данные более 14 тысяч ее клиентов проводивших транзакции (покупал, продавал, переводил и тд) более 20 тысяч долларов США [1].

Важный момент в том что в налоговых декларациях в США лишь 1000 жителей указали владение биткоинами при том что на бирже Coinbase присутствует более 6 миллионов участников.

По поводу биткоинов это будет полезно не забывать что курс - это хорошо, но налоги заплатить еще придется.

Ссылки:
[1] https://www.theverge.com/2017/11/29/16717416/us-coinbase-irs-records

#cryptocurrency
Напомню про наш проект цифрового архива [1] и о том что начинаются кампании кандидатов в президенты и наша деятельность по архивации всех их онлайн ресурсов - сайтов, социальных сетей, каналов с видео тд.
Обычно сайты кандидатов в президенты или другие выборные должности живут не более месяца после завещения выборов, но в этот раз мы сохраним копии всех из них.
По ссылке текущий перечень сайтов и других онлайн ресурсов [2]

Сохранять будем все сайты, включая самых странных и непонятных кандидатов. Сохранение будет производится каждый 2 недели, потому кандидат может в любой момент отказаться от гонки и свой сайт удалить.
Кандидатов пока не так уж много и это облегчает работу.

Присылайте мне на [email protected], в телеграм @begtinchat сайты и другие ресурсы которые относятся к кандидатам и которые надо сохранить.

Ссылки:
[1] https://ruarxive.org
[2] https://docs.google.com/spreadsheets/d/1gc87aTDC2dVTt55-gpVI98THUlR1V2rNtPsSqTEyqLA/edit#gid=0

#opendata #digitalpreservation
23-24 декабря пройдет хакатон Happy data saints[1] для разработчиков, дизайнеров и дата-журналистов и по теме ритейла и покупательского поведения.
Не забудьте зарегистрироваться [2], а также, если у Вас есть данные которые хотелось бы предоставить участникам для работы - напишите по контактам организаторам или мне тут и мы их предложием участникам.

Ссылки:
[1] https://www.facebook.com/events/1520325351356387/
[2] https://socialdatahub.com/ru/happy_data_saints_hackathon
Прямо сейчас в рамках проекта DataSreda [1] идет трансляция лекции Саркиса Дарбиняна об особенностях регулирования цифровых прав человека в Интернете.

Напомню что DataSreda - это совместный проект магистерской программы НИУ ВШЭ Журналистика данных, Social Data Hub и Инфокультуры в виде лекций о данных и дата журналистике. Раз в 2 недели по средам мы находим интересного спикера и просим его рассказать о том чем он занимается или рассказать на практике как работать с данными.

Ссылки:
[1] https://datasreda.ru
[2] https://youtu.be/utg8CUmmG94

#opendata #privacy
Принятый ФЗ "О федеральном бюджете на 2018 год и плановый период 2019 и 2020 годов" ждет вас на сайте Минфина России традиционно в формате 4388-страничного pdf https://www.minfin.ru/ru/document/?id_4=121329&order_4=P_DATE&dir_4=DESC&is_new_4=1&page_4=1&area_id=4&page_id=2104&popup=Y (а мы его, тем временем, традиционно ждем в машиночитаемых форматах на порталах информационных систем Минфина)
Data will rule all

Предсказание в блоге GitHub о технологиях в 2018 году начинаются со слов Data will rule all и того что облака 2.0 будут именно про данные.

Там много и других не менее важных предсказаний, но это важнейшее.

Ссылки:
[1] https://github.com/blog/2480-github-s-technology-predictions-for-2018

#opendata #data
У Cliqz [1], компании разработчика Ghostery [2] специального расширения для браузеров по блокированию рекламы и трекеров, вышел отчет о распросраненности трекеров [3].

Ожидаемо лидирует Google Analytics и за ним следом Facebook Connect.

Там же доступен полный текст исследования [4] в котором есть упоминания и России. Например, то что в России, США и Великобритании в среднем больше число счетчиков на сайт чем в других странах. А также что в России доминирует Яндекс.Метрика, фактически являясь тем же чем является Google Analytics для всего мира.

И тут нельзя не отметить еще один проект Clicz - Whotracksme [5] где собраны данные по топ-500 мировых сайтов и приведены наиболее популярные трекеры. У проекта открытый код и открытые данные [6] и на их основе можно проводить свои исследования.

Для контекста - ситуация с трекерами в России совсем небезоблачная. Пока Роскомнадзор гоняется с блокировками сайтов, трекерами увешаны и личные кабинеты пользователей коммерческих сервисов, и многочисленные государственные порталы и сайты. Причем там стоят трекеры тех самых компаний которых так периодически поминают российские официальные лица.

На сегодняшний день нет в России организаций защищающий интересы потребителей в сети занимающихся приватностью пользователей. Во всяком случае тех кто делал бы это системно.

Ссылки:
[1] https://cliqz.com
[2] https://www.ghostery.com
[3] https://cliqz.com/en/magazine/ghostery-study-infographic
[4] https://static.cliqz.com/wp-content/uploads/2017/12/Ghostery_Study_-_Tracking_the_Trackers.pdf
[5] https://whotracks.me
[6] https://github.com/cliqz-oss/whotracks.me/blob/master/whotracksme/data/assets/companies.json

#opendata #privacy #trackers
К вопросу об открытом коде государственных систем. Разумеется такое не только в Нидерландах, это массово происходит по всему миру
Forwarded from HABR FEED + OPENNET
Нидерландское правительство открыло код информационной системы регистрации жителей
https://www.opennet.ru/opennews/art.shtml?num=47706
Министерство внутренних дел и по делам королевства Нидерландов перевело в разряд свободного ПО программное обеспечение BRP (Basisregistratie Personen), применяемое для ведения базы регистрации жителей страны. Код и сопутствующая документация опубликованы на GitHub под лицензией AGPLv3. #opennet
Airbnb запустили собственный внутренний университет по подготовке специалистов по data science.
Об этом пишет Wired в публикации о выпуске первых 700 человек из Airbnb data university [1]

Еще в мае о нем же писали Techcrunch [2] и Airbnb Engineering у себя в блоге [3].

Airbnb всегда были круты в данных и этот шаг вполне закономерен. Чего стоят только их Superset [4] и внутренний портал данных [5].

Интересно можно ли назвать создание внутреннего дата университета экспериментом или это лишь начало большого тренда. Все таки выпуск 700 человек в год - это очень много. Это действительно приближается к количеству выпускников небольшого классического университета и, при этом, выпускники обладают несомненно большим объемом специализированных знаний.

Ссылки:
[1] https://www.wired.co.uk/article/airbnb-in-house-data-university-employee-skills
[2] https://techcrunch.com/2017/05/24/airbnb-is-running-its-own-internal-university-to-teach-data-science/
[3] https://medium.com/airbnb-engineering/how-airbnb-democratizes-data-science-with-data-university-3eccc71e073a
[4] https://airbnb.io/projects/superset/
[5] https://medium.com/airbnb-engineering/democratizing-data-at-airbnb-852d76c51770

#opendata #airbnb #data
Небольшой анонс

После некоторых размышлений я решил разделить свои блоги на несколько.

Новый блог на Яндекс.Дзен будет только на русском языке https://zen.yandex.ru/id/5a315e1300b3dd77beb64261. Там уже есть несколько заметок по единой платформе для государственных сайтов и архивации сайтов кандидатов в президенты.

Блог на Medium - https://medium.com/@ibegtin - будет только на английском и других языках (не на русском). Он будет на зарубежную аудиторию и о том что происходит у нас в России или глобально в тех темах которыми я занимаюсь.

В Телеграм канале https://t.iss.one/begtin будут публикации оттуда и оттуда и собственные "короткие заметки".

В фэйсбуке то же самое что в телеграм канале сдобренное текстами для дискуссии и рефлексии https://facebook.com/ibegtin.

По прежнему связаться со мной проще всего в чате https://t.iss.one/begtinchat

#opendata #blogging
Владельцы веб-сайтов давно следят за пользователями, с самыми разными целями, но в основном с тем чтобы сохранить и преумножить свою аудиторию (и прибыль).

Иногда эта слежка проста и очевидна, а иногда оказывается что относительно безобидные счетчики собирают о пользователях ту информацию которую те не были бы готовы раскрыть. Пользователи ищут приватности и начинают пользоваться такими браузерами как Tor и расширениями для браузеров такими как Ghostery, Privacy Badger или Adblock.

В свою очередь разработчики сайтов и сервисов отслеживания применяют все более изощренную технику сбора информации о посетителях и отслеживания даже тех кто борется с отслеживанием.
...
https://zen.yandex.ru/media/id/5a315e1300b3dd77beb64261/novye-mehanizmy-slejki-za-polzovateliami-issledovanie-1-milliona-saitov-5a32ae52fd96b19b2f8d7e3b
ОЭСР выпустила Recommendation of the Council on Open Government 14 December 2017 - C(2017)140 - C/M(2017)22
https://www.oecd.org/gov/Recommendation-Open-Government-Approved-Council-141217.pdf

Спасибо Алексею Ефремову за ссылку.
Моя презентация с пятничной конференции Минэкономразвития
Портал данных по миграции [1] открыт IOM [2], Международной организации по миграции. На портале собрана международная статистика, удобные инструменты для работы с ней, инфографика, методики и многое другое.

Структуры ООН давно и много собирают данных, при этом сама ООН не так много их публикует как бы хотелось. Из наиболее памятных их проектов это Data.UN [3] и Data Worldbank [4].

Для тех кто занимается международными исследованиями в этих данных найдется что-то полезное.

Ссылки:
[1] https://migrationdataportal.org
[2] https://www.iom.int/
[3] https://data.un.org
[4] https://data.worldbank.org

#opendata #opengov #un