Ivan Begtin
7.99K subscribers
1.77K photos
3 videos
101 files
4.49K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]
Download Telegram
Дайджест ссылок о которых не хватает времени рассказать подробнее:
1. The Atlas https://www.the-atlas.com/ - каталог проектов по улучшению городской среды, не только технологических проектов, но и инфраструктурным и организационным. Там же можно найти параметры проекта, результаты и вендора. По сути - это каталог решений для городских проблем и каталог поиска поставщика для таких решений, но с акцентом на лучшие практики и жизненные ситуации. Идея весьма здравая, охватывает только США

2. Мало кто знает, в Новой Зеландии лидирующее ведомство в работе с данными это их статистическое агентство Stats NZ. Именно там находится ключевой чиновник Government Chief Data Steward (Главный государственный управляющий данными) который отвечает за работу с данными в органах власти https://www.stats.govt.nz/about-us/data-leadership/ Заранее отвечая на вопрос - нет, для России такая схема не годится.

3. Напомню что один из крупнейших каталогов порталов данных и отдельных больших датасетов есть в Awesome Public Datasets https://github.com/awesomedata/awesome-public-datasets

4. Один из наиболее проработанных проектов дата-журналистики, The Atlas of Redistricting https://projects.fivethirtyeight.com/redistricting-maps/ о том как переопределяются границы избирательных округов в США.

5. The Stanford Open Policing project https://openpolicing.stanford.edu/ научный проект Университета Стенфорда по сбору базы по причинам по которым полиция останавливает пешеходов и автомобили. База по более чем половине штатов США, с описанием уровня детализации для каждого штата. А также публикации на основе собранных данных. Это делается в рамках Computational Journalism Lab https://cjlab.stanford.edu/

6. Music Map от Pudding Cool https://pudding.cool/2018/01/music-map/ (за декабрь 2017 года) и https://pudding.cool/2018/06/music-map/ (за май 2018 года) - это пример того как на данных просмотров видео на Youtube можно измерить предпочтения по 3000 городов. Ссылки на видео не всегда ведут к изначальным роликам, похоже их авторы иногда меняют после публикации, но довольно легко эти ролики снова находятся на Youtube и действительно цифры по просмотру сходятся.

#opendata #data #datavis
Трансперенси Инт. Россия опубликовали API проекта Декларатор [1] о чём подробно пишет Теплица Социальных Технологий [2], а само API можно найти в разделе "Открытые данные" [3]

Ребята в трансперенси проделали большую работу по открытости деклараций и не так давно проводили хакатон по использованию этих данных. Доступность данных по стандарту popolo [4] значительно упрощает работу за счёт возможности использования существующих инструментов.


Ссылки:
[1] https://declarator.org/
[2] https://te-st.ru/2018/05/29/project-declarator-opened-the-api/
[3] https://declarator.org/opendata/
[4] https://www.popoloproject.com/

#opendata
А я тем временем расскажу вам то о чём публично почти не рассказывал. Проект аналогичный декларатору я делал ещё в далёком 2010 году. Тогда, при президенте Медведеве был Институт современного развития (ИНСОР) и в рамках ИНСОРа я разрабатывал около 6 проектов которые можно отнести к гражданским проектам и проектам общественного контроля.

Это был, например, прототип портала data.gov.ru (в итоге использовался не он), самая первая версия проекта Госзатраты [1], тогда он назывался Росгосзатраты и был на данных гораздо меньшего объекта и только по контрактам федеральной власти.

Проект должен был быть показан Медведеву в рамках Тверского экономического форума, но, возникла накладка и Медведев вместо форума свернул и поехал на Селигер.

А одним из проектов который так и не стал публичным был проект "Публичные доходы". Мы собрали сотни файлов деклараций чиновников за 2009 и 2010 годы и автоматически их обработали и имели базу более чем в 50 тысяч деклараций, порядок был примерно как у трансперенси сейчас. Только коллеги в трансперенси многое делали и делают руками, а мы принципиально делали только парсерами для файлов с декларациями.

В начале 2011 года была встреча Д. Медведева со всякими общественниками и там в том числе был я и я говорил ровно про эти проекты и о том что они уже готовы и чтобы придать им государственный статус не нужно было бюджетных расходов, проекты уже готовы, а поддержание их требует минимальных трат.

На что многоуважаемый Дмитрий Анатольевич мне тогда витьевато ответил что это очень хорошо что общественники создают такие проекты, и что не надо государству этим заниматься.

После перехода ДМ в председатели Правительства, проекты ИНСОРа быстро зачахли и практически все они исчезли. Только Госзатраты мы фактически реконструировали с нуля поскольку ещё и появился новый госпортал zakupki.gov.ru и все форматы данных сменились и их стало на порядок больше. Тогда же мы и начали делать его от КГИ.

Тогда до появления Открытого правительства оставалось чуть более одного года. Но с его появлением лучше не стало, ни один из существовавших ранее проектов по открытости который создавался государством или рядом с ним не пережил его появления.

Ссылки:
[1] https://clearspending.ru

#opendata #spending
Facebook публикуют рейтинг стран [1] по уровню использования IPv6 [2] посетителями их сайта. Для тех кто не знает - IPv6 это давняя, но до сих пор не до конца внедрённая технология адресация в Интернете пришедшая на смену IPv4. Цель её внедрения в том что адресное пространство IPv4 заканчивается и это усугубляется ещё и массовым внедрением интернета-вещей которое приводит к исчерпанию доступных IP адресов.

До сих пор немногие российские провайдеры и компании его используют и предоставляют услугу адресации по IPv6 своим клиентам.

В каком-то смысле этот рейтинг стран - это тоже показатель деятельности российского Минсвязи за эти годы поскольку именно задачей регулятора является предупреждение будущих проблем у игроков отрасли, а они обязательно настанут.

Данные можно скачать в CSV или JSON прямо на сайте

За наводку спасибо Михаилу Климареву из канала Zatelecom [3]

Ссылки:
[1] https://www.facebook.com/ipv6/?tab=ipv6_country
[2] https://ru.wikipedia.org/wiki/IPv6
[3] https://t.iss.one/zatelecom

#opendata #telecom
Тем временем с момента покупки Microsoft'ом Github'а в конкурирующую платформу для хостинга кода Gitlab было перенесено 50 тысяч проектов [1] из которых 13 тысяч было перенесено в течение часа после анонса новости о покупке в понедельник.

С одной стороны это капля в море 8 миллионов проектов размещённых на Github, с другой стороны OSS сообщество помнит высказывание Стива Балмера о том что "Linux это рак".

Ответная позиция, например, Фонда свободного программного обеспечения в том что "Программы Microsoft вредоносны" [2] и "Microsoft: враг рода человеческого?" [3]. В обсуждениях разработчики приводят немало примеров поведения Microsoft далёким от работы с сообществом OSS [4]

С другой стороны в последние годы Microsoft стали основным контрибьютором в код Linux и Linux Foundation официально приветствует решение Microsoft о покупки Github [5].

Пока же Gitlab анонсировали бесплатность их Gold и Ultimate тарифов для проектов с открытым кодом и с для образовательных учреждений [6].

Gitlab гораздо лучше остальных конкурентов сумели поймать волну и хештег #movingtogitlab в Twitter'е набирает обороты [7]


Ссылки:
[1] https://motherboard.vice.com/en_us/article/ywen8x/13000-projects-ditched-github-for-gitlab-monday-morning
[2] https://www.gnu.org/proprietary/malware-microsoft.ru.html
[3] https://www.gnu.org/philosophy/microsoft.ru.html
[4] https://news.ycombinator.com/item?id=17227286
[5] https://www.linuxfoundation.org/blog/microsoft-buys-github-the-linux-foundations-reaction/
[6] https://itsfoss.com/gitlab-free-open-source/
[7] https://twitter.com/hashtag/movingtogitlab

#opensource
Какие data-стартапы бывают и успешно развиваются.

Стартапов основанных на данных по всему миру возникает довольно много. Некоторые из них основаны на открытых данных данных, другие на создании удобных интерфейсах работы с данными компаний и частных лиц, третьи на алгоритмах помогающих придавать любым данным новое качество.

Накопив какое-то количество описаний data-стартапов я их разместил их описание заметкой в блоге. Подробнее тут https://begtin.tech/data-startups/

#opendata #data #startups
Правильная работа с негативом - это общаться с аудиторией и объяснять, объяснять и ещё раз объяснять. Nat Friedman, будущий CEO Github'а подробно ответил на вопросы разработчиков на Reddit'е в жанре AMA (Ask Me Anything) [1]. За год это самая популярная тема на Reddit по числу комментариев, их там более 1400+ и второй по популярности по просмотрам.

Я бы сказал что это хороший кейс для российских стартаперов и глав компаний, но в России такая практика большая редкость.

Ссылки:
[1] https://www.reddit.com/r/AMA/comments/8pc8mf/im_nat_friedman_future_ceo_of_github_ama/

#github
70+ корифеев интернета (luminaries) включая Тима Бернерса Ли, Винта Сёрфа и многих других хорошо известных в Интернет-среде и ИТ подписали письмо обращение к Президенту Европарламента [1] о необходимости отмены статьи 13 в проекте директивы о копирайте в Директиве единого цифрового рынка )Directive for Copyright in the Digital Single Market Directive).

Эта статья требует немного немало, а обязательной премодерации всего контента который пользователь загружает на платформы. Её цель - защита правообладателей и её не без оснований считают директивой вводящей государственную слежку за материалами пользователей и интернет-цензуру.

Директива ещё не принята, возможно ещё есть время на её изменение и, кстати, не стоит полагать что российские платформы с user generated content это не затронет.

Текст письма по ссылке: [2]

Ссылки:
[1] https://www.eff.org/deeplinks/2018/06/internet-luminaries-ring-alarm-eu-copyright-filtering-proposal
[2] https://www.eff.org/files/2018/06/12/article13letter.pdf

#privacy #censorship
В эпоху HTTPS государствам гораздо сложнее фильтровать интернет, невозможно заблокировать конкретную страницу, необходимо блокировать сразу весь домен поскольку при фильтрации ссылки за HTTPS не видны. Это одно из не многих, не единственное, последствие массового внедрения HTTPS от крупнейших до самых незначительных сайтов.

Существенное изменение в сетевой инфраструктуре переводит государственную цензуру в законодательное и иное регуляторное воздействие на платформы собирающие пользовательские данные, всё созданное и публикуемое пользователями онлайн, обязывая платформы вводить премодерацию и исполнять выписанные им предписания. То как платформы платформы взаимодействуют с такими запросами и пользователями приобретает всё более значительную роль.

31 мая EFF опубликовали обзор 2018 года [1] крупнейших платформ США по наличию у них публичных политик удаления материалов, возможности делать такие запросы легально, уведомлению пользователей о том что их материалы снимаются (с объяснением почему), предоставлению возможности оспаривания и ограничениями блокировки контента по территориальному принципу, если это возможно.

Под оценку попали сервисы таких компаний как:
- Apple
- Google (Alphabet)
- Facebook
- Microsoft
- Twitter
и многие другие.

Оценки большей части далеко не блестящие, но, например, Youtube, Apple Store и Google Play получили оценку по всем 5 направлениям, остальные так или иначе хуже.

Подробнее в таблице сравнения сервисов [2] и в итоговом отчёте [3]

Ссылки:
[1] https://www.eff.org/who-has-your-back-2018#introduction-government-censorship-in-the-age-of-https
[2] https://www.eff.org/files/2018/05/31/whyb-2018-chart-3b.pdf
[3] https://www.eff.org/files/2018/05/31/whyb_2018_report.pdf

#privacy #censorship
В Великобритании правительство открыло ключевые части OS MasterMap, картографических данных выского качества. Официальный анонс [1] и детальное описание публикуемых данных [2].

Данные публикуются с акцентом на поддержку малого бизнеса для которого приобретение данных является существенной нагрузкой для их бюджета.

Ссылки:
[1] https://assets.publishing.service.gov.uk/government/uploads/system/uploads/attachment_data/file/716023/OSMM_narrative.pdf
[2] https://www.gov.uk/government/news/unlocking-of-governments-mapping-and-location-data-to-boost-economy-by-130m-a-year

#opendata
Финансовый отчёт норвежского государственного пенсионного фонда
- за 1 кв 2018 г. https://www.nbim.no/contentassets/2d7320021b0e40b7bb6a45c3d827a635/government-pension-fund-global---1q-2018-report.pdf
- годовой отчёт за 2017 г. https://www.nbim.no/en/transparency/reports/2017/annual-report-2017/
- и отчёт о владении (ownership report) https://www.folketrygdfondet.no/getfile.php/132669-1495538600/Download%20center/Ownership%20reports/Ownership%20report%202016.pdf
- официальная статистика всех пенсионных фондов Норвегии https://www.ssb.no/en/pensjonsfond

Это примерно всё что я думаю про Пенсионный Фонд РФ не только в контексте грядущего повышения пенсий, но и самого смысла его существования.

Дополню для журналистов которые хотят писать по этой теме. Если Вы просто пройдётесь по сайтам государственных фондов сравнимых с Россией пенсионных систем и сделаете _сравнение их открытости_ Вы сами всё поймете.

#opendata #opengov
Январское исследование IDB: Open Up guide: Testing how to use opendata to combat corruption in Mexico [1] довольно подробно описывает процессы раскрытия и использования данных о деятельности государства в Мексике и как они используются обществом для противодействия коррупции.

Исследование короткое, но полезное, с методикой описания видов и оценки качества данных и их применимости.

Ссылки:
[1] https://drive.google.com/file/d/1de9WwYhUsgY8LJLnQmDJY3RyM2Lw1TN7/view

#opendata #mexico
Какие корпорации раскрывают открытые данные? Довольно многие, большая часть тех которые хантят специалистов по работе с данными в свои исследовательские подразделения.

Так, специальный сайт открытых данных есть у Microsoft Research [1], а Facebook Research содержит раздел с наборами данных [2] на своем основном портале.

Google и Amazon предоставляют доступ к чужим большим данным через Google Big Query Public Datasets [3] и Registry of open data on AWS [4].

Yahoo уже много лет раскрывает данные для некоммерческого использования в проекте WebScope [5], а Mozilla собирает и публикует данные записи голоса в проекте Common Voice [6]

Публикация данных коммерческими компаниями, особенно с open source корнями, не является чем-то редким. Это довольно частое явление с практическими результатами - привлечение квалифицированных кадров.


Ссылки:
[1] https://msropendata.com/
[2] https://research.fb.com/downloads/?type=1818
[3] https://cloud.google.com/bigquery/public-data/
[4] https://registry.opendata.aws/
[5] https://webscope.sandbox.yahoo.com
[6] https://voice.mozilla.org/ru

#opendata
Не то что бы неожиданно, но всегда удивительно что открытость очень тяжело даётся НКО. Некоммерческие организации, казалось бы, должны создавать общественное благо, максимально широко доносить эту информацию до жертвователей и потребителей их услуг.

Но реальность такова что как раз некоммерческий сектор сложнее убедить открыть хоть что бы то ни было по сравнению с коммерческими компаниями и тем более с государственным учреждениями и органами власти.

За всё время взаимодействия с сектором НКО я встречаю в нём многократно меньше тех кто разделяет ценности открытости и прозрачности чем среди предпринимателей и чиновников и тем ценнее те кто эти ценности разделяет.

Мы в Инфокультуре обеспечиваем открытость нашей работы очень давно. Обычно нехватало времени на то чтобы её систематизировать, но это то что мы исправляем в последние годы.

Что мы делаем?
1. Мы публикуем информацию о деятельности организации по стандарту информационной открытости [1] на специальной странице на нашем сайте [2]. В дальнейшем там будет больше информации о наших добровольных обязательствах по раскрытию. Включая декларацию о доходах руководителя (меня), политике приватности, политике открытости проектов, этическому кодексу и так далее. При том что организация существует не на пожертвования граждан (они есть, но их очень мало), тем не менее мы считаем нашу открытость необходимой.
2. Мы обеспечиваем открытость исходного кода публикуя множество кода в открытом доступе на Github [3]. Принципиально мы бы хотели раскрывать исходный код всех проектов которые мы ведем и вести режим открытой разработки, но тут мы сталкиваемся с ограничениями юридического характера когда некоммерческий проект делается на контрактной основе или грантовой и заказчик не может или не имеет право открывать код. Тем не менее открытый код - это наша базовая ценность.
3. Мы открываем максимум возможных данных которые публикуются на Github'е и на Хабе открытых данных [4]. Большая часть этих данных собрана нами из других источников, но мы стараемся публиковать их максимально возможно.
4. Наши проекты и проекты которые мы ведем если содержат данные внутри то всегда предоставляют открытые данные или API [6]
5. Документы и материалы которые мы публикуем распространяются под свободными лицензиями Creative Commons или Public Domain.
6. Все видео мероприятий которые мы записываем мы публикуем онлайн [7]
7. А новости проектов собираем на канале в Телеграм [8]

Если бы мы ещё и умели собирать пожертвования от граждан и их доля была бы существенной, то мы обеспечивали бы и ещё большую открытость.

У меня перед глазами немало международных примеров на которые мы равняемся. И цель нашей открытости в том что сравнивать нас будут не с российскими организациями, а с аналогичными НКО существующими в других странах - тех кого называют civil hackers.

Как-нибудь я сделаю небольшой обзор того как технологические НКО в мире раскрывают о себе информацию и тогда будет понятно что всё что мы практикуем, это просто базовая культура существования в современном мире. В этом нет ничего выдающегося, это просто такая же норма как чистить зубы и не плевать под ноги прохожим.

Ссылки:
[1] https://www.donorsforum.ru/projects/tochka-otschyota/informatsionnaya-otkrytost/
[2] https://www.infoculture.ru/disclosure/
[3] https://github.com/infoculture/
[4] https://hubofdata.ru/organization/infoculture
[5] https://clearspending.ru/opendata/
[6] https://openngo.ru/api-docs/
[7] https://www.youtube.com/channel/UCve6269kQEJ1LW52HXKtTng
[8] https://t.iss.one/infoculture

#opendata #opengov #ngo
“When I look back at 2010 me, I think I had this naïve idea that tech would save government,” confessed Jen Pahlka, the founder of Code for America, a civic-tech nonprofit.

В The Atlantic статья "Civic Tech in a Time of Technopessimism" [1] о технопессимизме, размышления Jen Pahlka о наивном времени 2010 года когда ещё можно было бы предполагать что технологии могут изменить государство. Сейчас Jen пишет о том что не технологии, а люди и результаты должны быть в центре внимания, любого проекта, в том числе в сфере гражданских технологий.

Для понимания контекста - Code for America это движение с 75 постоянными сотрудниками и 22 тысячами волонтеров в США которые разрабатывали государственные и муниципальные приложения, приложения для граждан в рамках конкурсов и хакатонов.

Ссылки:
[1] https://www.theatlantic.com/technology/archive/2018/06/civic-tech-in-a-time-of-technopessimism/563696/

#opengov #opendata
Одна из особенностей государственной информатизации и госполитики в ИТ - это квалификационное б&$*ство.

Заключается оно в том что оценка по квалификации компаний участвующих в конкурсах производится на исключительно формальной основе. Компания подаёт документы в которые набивает максимум сотрудников с докторскими, кандидатскими и другими степенями которые нужны только и исключительно для баллов на конкурсе.

Любая, даже самая базовая проверка, покажет и подтвердит что большая часть команды заявленной на конкурс не только не участвует в последующей работе, но и принципиально для неё не нужна.

По русски это называется подлог, но сами игроки на рынке называют это "правилами игры". Они мало чем отличаются от правил игры со СНИПами и ГОСТами на стройке которые формально все соблюдают, а по факту главное построить так чтобы последущий контроль и не знал как всё оно создано на самом деле.

Это же вопрос к наличию липовых диссертаций и диссертаций с плагиатом - все они являются следствием массового др&$*ния граждан и госрегулирования на образование которое и привело к блокирующим деятельность профстандартам и многим, кстати, отчасти сословным ограничениям во многих структурах.

Особенно остро это чувствуешь когда исследуешь как формируются команды цифровой трансформации, digital teams, в странах которые мы постоянно приводим в пример. Я успел посмотреть Канаду, США, Новую Зеландию и Австралию. У них там только два критерия для minimal qualification:
- гражданство
- подтверждение опыта (мотивационные письма, рекомендации, резюме и образование как дополнение к этому).

При этом даже эти требования они описывают как "мол извините, у нас тут бюрократия, ничего с этим нельзя поделать".
А у меня ощущение что даже требование к гражданству они в итоге скорректируют поскольку уж очень напрашивается трансфер технологий между, как минимум, англосаксонскими странами и странами ЕС (в ЕС это проще).

Все самые идиотские проявления российского регулирования в имитационности и описанное Выше лишь один из очень многих примеров.

#digital
Forwarded from Канал (Дмитрий Галушко)
Роскомнадзор теперь будет называться "Фед.Служба по надзору в сфере цифрового развития, связи и массовых коммуникаций" МинЦифры вскоре разработает требования к: - параметрам качества услуг связи,
- элементам и объектам инфраструктуры цифровой экономики
-приложениям, устанавливаемым на оборудование пользователя , в том числе предустановленным производителем средств связи -организует использование механизмов производства BigData Подробности см. https://regulation.gov.ru/Files/GetFile?fileid=aba8b336-b5e2-43c2-9301-7c5572d9af62