Ivan Begtin
7.99K subscribers
1.77K photos
3 videos
101 files
4.49K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]
Download Telegram
Какие корпорации раскрывают открытые данные? Довольно многие, большая часть тех которые хантят специалистов по работе с данными в свои исследовательские подразделения.

Так, специальный сайт открытых данных есть у Microsoft Research [1], а Facebook Research содержит раздел с наборами данных [2] на своем основном портале.

Google и Amazon предоставляют доступ к чужим большим данным через Google Big Query Public Datasets [3] и Registry of open data on AWS [4].

Yahoo уже много лет раскрывает данные для некоммерческого использования в проекте WebScope [5], а Mozilla собирает и публикует данные записи голоса в проекте Common Voice [6]

Публикация данных коммерческими компаниями, особенно с open source корнями, не является чем-то редким. Это довольно частое явление с практическими результатами - привлечение квалифицированных кадров.


Ссылки:
[1] https://msropendata.com/
[2] https://research.fb.com/downloads/?type=1818
[3] https://cloud.google.com/bigquery/public-data/
[4] https://registry.opendata.aws/
[5] https://webscope.sandbox.yahoo.com
[6] https://voice.mozilla.org/ru

#opendata
Не то что бы неожиданно, но всегда удивительно что открытость очень тяжело даётся НКО. Некоммерческие организации, казалось бы, должны создавать общественное благо, максимально широко доносить эту информацию до жертвователей и потребителей их услуг.

Но реальность такова что как раз некоммерческий сектор сложнее убедить открыть хоть что бы то ни было по сравнению с коммерческими компаниями и тем более с государственным учреждениями и органами власти.

За всё время взаимодействия с сектором НКО я встречаю в нём многократно меньше тех кто разделяет ценности открытости и прозрачности чем среди предпринимателей и чиновников и тем ценнее те кто эти ценности разделяет.

Мы в Инфокультуре обеспечиваем открытость нашей работы очень давно. Обычно нехватало времени на то чтобы её систематизировать, но это то что мы исправляем в последние годы.

Что мы делаем?
1. Мы публикуем информацию о деятельности организации по стандарту информационной открытости [1] на специальной странице на нашем сайте [2]. В дальнейшем там будет больше информации о наших добровольных обязательствах по раскрытию. Включая декларацию о доходах руководителя (меня), политике приватности, политике открытости проектов, этическому кодексу и так далее. При том что организация существует не на пожертвования граждан (они есть, но их очень мало), тем не менее мы считаем нашу открытость необходимой.
2. Мы обеспечиваем открытость исходного кода публикуя множество кода в открытом доступе на Github [3]. Принципиально мы бы хотели раскрывать исходный код всех проектов которые мы ведем и вести режим открытой разработки, но тут мы сталкиваемся с ограничениями юридического характера когда некоммерческий проект делается на контрактной основе или грантовой и заказчик не может или не имеет право открывать код. Тем не менее открытый код - это наша базовая ценность.
3. Мы открываем максимум возможных данных которые публикуются на Github'е и на Хабе открытых данных [4]. Большая часть этих данных собрана нами из других источников, но мы стараемся публиковать их максимально возможно.
4. Наши проекты и проекты которые мы ведем если содержат данные внутри то всегда предоставляют открытые данные или API [6]
5. Документы и материалы которые мы публикуем распространяются под свободными лицензиями Creative Commons или Public Domain.
6. Все видео мероприятий которые мы записываем мы публикуем онлайн [7]
7. А новости проектов собираем на канале в Телеграм [8]

Если бы мы ещё и умели собирать пожертвования от граждан и их доля была бы существенной, то мы обеспечивали бы и ещё большую открытость.

У меня перед глазами немало международных примеров на которые мы равняемся. И цель нашей открытости в том что сравнивать нас будут не с российскими организациями, а с аналогичными НКО существующими в других странах - тех кого называют civil hackers.

Как-нибудь я сделаю небольшой обзор того как технологические НКО в мире раскрывают о себе информацию и тогда будет понятно что всё что мы практикуем, это просто базовая культура существования в современном мире. В этом нет ничего выдающегося, это просто такая же норма как чистить зубы и не плевать под ноги прохожим.

Ссылки:
[1] https://www.donorsforum.ru/projects/tochka-otschyota/informatsionnaya-otkrytost/
[2] https://www.infoculture.ru/disclosure/
[3] https://github.com/infoculture/
[4] https://hubofdata.ru/organization/infoculture
[5] https://clearspending.ru/opendata/
[6] https://openngo.ru/api-docs/
[7] https://www.youtube.com/channel/UCve6269kQEJ1LW52HXKtTng
[8] https://t.iss.one/infoculture

#opendata #opengov #ngo
“When I look back at 2010 me, I think I had this naïve idea that tech would save government,” confessed Jen Pahlka, the founder of Code for America, a civic-tech nonprofit.

В The Atlantic статья "Civic Tech in a Time of Technopessimism" [1] о технопессимизме, размышления Jen Pahlka о наивном времени 2010 года когда ещё можно было бы предполагать что технологии могут изменить государство. Сейчас Jen пишет о том что не технологии, а люди и результаты должны быть в центре внимания, любого проекта, в том числе в сфере гражданских технологий.

Для понимания контекста - Code for America это движение с 75 постоянными сотрудниками и 22 тысячами волонтеров в США которые разрабатывали государственные и муниципальные приложения, приложения для граждан в рамках конкурсов и хакатонов.

Ссылки:
[1] https://www.theatlantic.com/technology/archive/2018/06/civic-tech-in-a-time-of-technopessimism/563696/

#opengov #opendata
Одна из особенностей государственной информатизации и госполитики в ИТ - это квалификационное б&$*ство.

Заключается оно в том что оценка по квалификации компаний участвующих в конкурсах производится на исключительно формальной основе. Компания подаёт документы в которые набивает максимум сотрудников с докторскими, кандидатскими и другими степенями которые нужны только и исключительно для баллов на конкурсе.

Любая, даже самая базовая проверка, покажет и подтвердит что большая часть команды заявленной на конкурс не только не участвует в последующей работе, но и принципиально для неё не нужна.

По русски это называется подлог, но сами игроки на рынке называют это "правилами игры". Они мало чем отличаются от правил игры со СНИПами и ГОСТами на стройке которые формально все соблюдают, а по факту главное построить так чтобы последущий контроль и не знал как всё оно создано на самом деле.

Это же вопрос к наличию липовых диссертаций и диссертаций с плагиатом - все они являются следствием массового др&$*ния граждан и госрегулирования на образование которое и привело к блокирующим деятельность профстандартам и многим, кстати, отчасти сословным ограничениям во многих структурах.

Особенно остро это чувствуешь когда исследуешь как формируются команды цифровой трансформации, digital teams, в странах которые мы постоянно приводим в пример. Я успел посмотреть Канаду, США, Новую Зеландию и Австралию. У них там только два критерия для minimal qualification:
- гражданство
- подтверждение опыта (мотивационные письма, рекомендации, резюме и образование как дополнение к этому).

При этом даже эти требования они описывают как "мол извините, у нас тут бюрократия, ничего с этим нельзя поделать".
А у меня ощущение что даже требование к гражданству они в итоге скорректируют поскольку уж очень напрашивается трансфер технологий между, как минимум, англосаксонскими странами и странами ЕС (в ЕС это проще).

Все самые идиотские проявления российского регулирования в имитационности и описанное Выше лишь один из очень многих примеров.

#digital
Forwarded from Канал (Дмитрий Галушко)
Роскомнадзор теперь будет называться "Фед.Служба по надзору в сфере цифрового развития, связи и массовых коммуникаций" МинЦифры вскоре разработает требования к: - параметрам качества услуг связи,
- элементам и объектам инфраструктуры цифровой экономики
-приложениям, устанавливаемым на оборудование пользователя , в том числе предустановленным производителем средств связи -организует использование механизмов производства BigData Подробности см. https://regulation.gov.ru/Files/GetFile?fileid=aba8b336-b5e2-43c2-9301-7c5572d9af62
Визуализация бюджетов земель Германии в проекте Offener Haushalt [1] с открытым кодом [2]. Полезная особенность что весь проект сделан на Jekyll и собирается в статический сайт. Выглядит очень неплохо.

Полевое руководство Open Up Field Guide о том как планировать публикацию открытых данных [3] от Open Data Charter.

Открытые данные по матчам чемпионата мира по футболу 2018 года [4] в рамках проекта Open Football [5]


Ссылки:
[1] https://offenerhaushalt.de/
[2] https://github.com/okfde/offenerhaushalt.de
[3] https://drive.google.com/file/d/1itEjUOzSdn35K0o7VLoxrYzKHEwASYKV/view
[4] https://github.com/openfootball/world-cup
[5] https://github.com/openfootball
#opendata
Мне не верят, но это так - я не только занимаюсь общественными и коммерческими проектами, но и стараюсь находить время на то чтобы напрограммировать чего-нибудь простого и полезного.

Одна из таких штук - это @FeedRetranslatorBot (https://t.iss.one/@FeedRetranslatorBot), агрегатор новостей превращающий их в каналы в Телеграм.

В своё время я делал его для того чтобы не самому искать новости, а так чтобы новости находили меня. Учитывая что на множество телеграм каналов и так подписываешься и читаешь то и логично выглядело создать несколько каналов по тематикам и собирать туда новости регулярно.

Так вот @FeedRetranslatorBot именно это и делает. Создаёшь канал, добавляешь его туда с правами на делать посты, добавляешь ему этот канал командой /channel и добавляешь в туда подписки командой /add

Все это описано в его справке вызываемой по /help

Особенность бота в том что он поддерживает новостные ресурсы без RSS. То есть ему можно скормить и RSS ленту. Например RSS лента сайта Правительства https://government.ru/all/rss/, а можно и дать ссылку на раздел с новостям, но без RSS. Пример, сайт ЦСРа https://csr.ru

Если RSS ленты нет то в сервисе срабатывает мой давний алгоритм "Скиур", он умеет извлекать новости из HTML.

С помощью этого бота работают такие каналы как:
- Правительственный дайджест https://t.iss.one/govdigest
- Контрактная система https://t.iss.one/gzcontracts
- Open Government Digest https://t.iss.one/opengovdigest
- Open Data Digest https://t.iss.one/opendatadigest
- Data is Good https://t.iss.one/dataisgood
- Госфинансы https://t.iss.one/govfin

Они все не про популярное, а скорее в форме канала заменяющего подписки на RSS. Общедоступного канала.

Так же работает и канал Инфокультуры https://t.iss.one/infoculture туда транслируются все новости Инфокультуры со всех проектов - Госзатраты, Открытая полиция, сайт ИК и тд.

Так что бот это бесплатный и общедоступный сервис, им уже пользуются другие и создают свои каналы.

А это же и пример почему экосистема телеграма так удобна, я думал о том как воспроизвести это всё в других мессенжерах и никак не выходит, они просто не дают такой возможности.

#open
Счётная Палата опубликовала результаты проверки "Карты Российской науки" [1] с ожидаемыми выводами о серьёзных нарушениях и множестве других не менее интересных фактов о том как этот проект делался.

О проекте ещё в 2013 году писали коллеги из Киберленинки, а настойчиво защищала его Екатерина Шапочка [2], с 2012 года партнёр PwC в России [3], но выступавшая на заседании в Минобре от Правкомиссии по открытости.

Конфликты интересов не такое уж сложное явление, интересно сколько ещё их вылезет за эти годы? Вернее, сколько из них выйдут на свет.

Ссылки:
[1] https://audit.gov.ru/press_center/news/33645
[2] https://habr.com/company/cyberleninka/blog/205394/
[3] https://www.rvc.ru/about/governance/consult/shapochka/

#opengov
protocol.pdf
180.8 KB
​​Dark patterns - это уловки в интерфейсе, с помощью которых разработчики управляют поведением пользователей. Условия, прописанные мелким шрифтом; большая кнопка "Принять" и маленькая "Отклонить"; включение настроек по умолчанию, автовоспроизведение следующего трека/ролика и так далее. Если вы когда-нибудь пытались отписаться от почтовой рассылки Linkedin, вы понимаете о чём речь.

Норвежский Совет по защите потребителей выпустил отчёт с критикой dark patterns, которые угрожают приватности данных пользователей. Под раздачу попали интернет-гиганты - Google, Facebook и Microsoft. Очень познавательный документ, почитайте.

Хитрые дизайнеры Гугла и Фейсбука делают поп-апы с яркой кнопкой "Принять" и бледной "Подробнее", нужные настройки включают по умолчанию, используют тонкие формулировки, за которыми сложно распознать реальную их суть - и всё ради того, чтобы получить от пользователей согласие на сбор и обработку персональных данных. Кстати, у Microsoft в этом плане дизайн менее обманчивый.

Норвежским защитникам потребителей респект - хороший отчёт сделали, интересно почитать. Скандинавская дотошность! Ну а от гуглофейсбуков ничего другого и не ждёшь, только хитростей и уловок ради увеличения прибыли.

Кстати, если вдруг не видели, почитайте нашумевший текст бывшего сотрудника Google про 10 приёмов хитрого дизайна, которые технологические сервисы используют, чтобы украсть наше внимание и время.
О том как создавать востребованные data порталы и вовлекать НКО и госструктуры в публикацию данных.

Проект HumData [1] - это центр, стандарты и портал по раскрытию информации о гуманитарных катастрофах и усилиях по их предотвращению.

Созданный управление по координации гуманитарных вопросов ООН (UN OCHA) проект представляет собой центр по работе с гуманитарными данными [2] в рамках которого создаётся портал для обмена данными, стандарты раскрытия информации и координация получателей поддержки и участников инициатив по публикацию собранных ими данных.

Его важное отличие в том что это НЕ портал раскрытия информации о деятельности ООН и НЕ портал открытости НКО, это коллаборативный ресурс где кроме данных НКО и кроме данных структур ООН публикуются ещё и все те данные которые им самим нужны в работе.

Поэтому там можно найти данные из проектов OpenStreetMap [3], проекта OurAirports [4] и многое другое. Данные разделены не по организациям, а по группам и темам.

Так, там можно найти данные разделённые по странам [5] и по ситуациям затрагивающим множество стран [6].

Пример этого проекта - это одна из наиболее зрелых инициатив по работе с открытыми данными, поскольку она следует важному принципу сформулированному в Open Data Charter - "Publishing with a purpose". Публикация с заранее определенной целью.

HDX - это портал с заранее определенной целью, содействие кооперации в совместном предотвращении гуманитарных катастроф.

Ссылки:
[1] https://data.humdata.org
[2] https://centre.humdata.org/
[3] https://data.humdata.org/organization/hot
[4] https://data.humdata.org/organization/ourairports
[5] https://data.humdata.org/group
[6] https://data.humdata.org/ebola

#opendata
По поводу формирования нового-старого правительства.
Вот объясните мне почему:
1. До сих пор нет сайта "Министерства высшего образования и науки"
2. На сайте министерства образования и науки минобрнауки.рф до сих пор публикуются новости, а в сайт Министерства просвещения он не преобразован

Оба органа власти нарушают положения 8-ФЗ "Об обеспечении доступа к информации о деятельности государственных органов и органов местного самоуправления" от 09.02.2009 и ряд других нормативно-правовых актов следующих из этого закона.

И я впервые такое вижу что через полтора месяца после решения о создании ФОИВов их сайтов всё ещё нет.

Напомню что надзор за соблюдение 8-ФЗ осуществляет Генеральная прокуратура
Сразу много новостей о государственных информационных системах.

Минфином России подготовлен проект закона, устанавливающего основы систематизации и гармонизации информации в РФ [1]. Если законопроект примут то Минфин станет не только финансовым мегарегулятором, но и мегарегулятором в управлении данными. Особенно интересно появление всероссийского реестра информационных ресурсов упомянутого в статье 13.

Единый государственный реестр заключений экспертизы проектной документации объектов капитального строительства [2] пока непонятно содержит ли что-то поскольку поиск не даёт результатов, но выглядит как новая ГИС. При том что в реестре ФГИС её найти не удалось.

Обновился ФГИС Координация информатизации [3] включая их открытые данные [4], но внутри не работает поиск по ФГИС, а информация о ФГИС введена даже без форматирования текстов, пример Государственная интегрированная информационная система управления общественными финансами "Электронный бюджет" в разделе " Cведения об источниках финансирования создания, эксплуатации, модернизации ФГИС: "

Ссылки:
[1] https://regulation.gov.ru/projects#npa=80844
[2] https://egrz.ru
[3] https://portal.eskigov.ru/
[4] https://portal.eskigov.ru/opendata
[5] https://portal.eskigov.ru/fgis/336

#opendata #data
Для тех кто всерьёз задумывается о коммерческих проектах на базе открытых данных, на сайте ODINe, Европейского инкубатора стартапов на базе Open Data есть раздел где собрано много бизнес моделей стартапов [1] отрисованных по схеме Остервальдера Business Model Canvas.

Второй источник вдохновения - это каталог OpenData 500 [2], с большой коллекцией компаний создавших бизнес используя открытые данные.

Открытые данные - это, конечно же, часть экосистемы данных вообще и часть экосистемы открытости куда входят ещё и открытый код, открытые знания и многое другое.

Коммерческие проекты часто возникают на стыке открытых данных и данных непубличных. О том какие бизнес модели существуют подробнее есть в докладе Deloitte 2014 года [3]

Ссылки:
[1] https://opendataincubator.eu/resources/
[2] https://www.opendata500.com/
[3] https://ec.europa.eu/futurium/sites/futurium/files/deloitte_pov_-_new_business_models_with_data.pdf

#opendata #business #data
Ещё вчера поиск Яндекса выдавал множество интереснейших результатов при поиске по общедоступным документам в Google Documents (docs.google.com), например, многие находили там общедоступные списки паролей, паспортные данные и списки ДСП и иных непубличных документов.

Всё это происходило по причине того Google позволял индексировать эти документы [1], а Яндекс выдавал эти результаты. Сработала комбинация факторов, начиная с пользователей кто делал общедоступными по ссылке документы, и продолжая поисковиками которые, с ненулевой вероятностью, получали эти ссылки не интернет-краулинга, а из истории посещений браузеров и из ссылок при переписке по электронной почте.

Сейчас поиск по "passwords site:docs.google.com" уже не работает [2], по крайней мере на утро 5 июля.

То что вскрылось сейчас это не единственный такой случай. Какое-то время назад аналогично и гугл индексировал disk.yandex.ru, yadi.sk и другие домены Яндекс.Диска с содержащимися там файлами и находки там были ничуть не менее нелестными, но не получили публичного освещения.

Всё это совсем не новость для всех кто более-менее серьёзно занимался темой Open Source Intelligence. Индексы поисковых систем - это один из источников информации при составлении досье, анализе информации о компании или о человеке и не только.

Большинство тех кто знает такие механизмы утечки информации не афишируют свои знания, используют их по мере практической необходимости.

Для Google даже существует Google Hacking Database (GHDB) [3] с большой коллекцией запросов по поиску уязвимостей в серверах и устройствах и утечек данных на сайтах. Для Яндекса я ничего подобного и публичного не встречал, отчасти из-за значительно более слабого общедоступного языка запросов к поисковому индексу (внутри то я не сомневаюсь возможностей гораздо больше).

Надо помнить что такие утечки не редкость. Один из малоизученных пока каналов утечки - это сканы документов. Google, Яндекс, Bing и остальные поисковики постепенно учатся индексировать текст с картинок, из PDF'ов состоящих из изображений, заглядывают в файлы архивов и вообще вгрызаются в ранее не индексируемые документы. Это вытаскивает на свет документы содержащие персональные данные и много другой чувствительной информации.

Увы, те кто до сих пор публикуют сканы документов этого не понимают. Впрочем и без сканированных документов и даже на государственных сайтах часто исполнители просто не проверяют что они публикуют и в открытом доступе оказываются документы и другие материалы которых там не должно было бы быть никогда.

Ссылки:
[1] https://docs.google.com/robots.txt
[2] https://yandex.ru/search/?text=passwords&lr=213&site=docs.google.com
[3] https://www.exploit-db.com/google-hacking-database/

#opendata #osint #security #privacy
Через 5 дней, с 10-го по 15 июля я на https://ostrov.2035.university в рамках программы по подготовке Chief Data Officers буду много рассказывать о работе с данными, в особенности о том как устроены данные в России, как они публикуются, где их искать, как они устроены и многое другое.

Мне там надо будет работать довольно много, буквально с утра до вечера в несколько потоков, но это и хорошо поскольку наконец-то в России созрела отдельная большая категория потребителей данных - это региональные чиновники и госслужащие.

В ситуации когда огромные объёмы данных в России концентрируются в федеральных государственных информационных системах возникает ситуация когда решать какие-либо региональные задачи невозможно в полной мере не зная как эти данные получать. И тут уже не работают механизмы вроде СМЭВа, тут оказывается что практика публикации именно открытых данных востребована более чем закрытые механизмы обмена данными (которые или не работают хорошо или не работают вообще).

#opendata #data
В Евросоюзе сейчас идёт большая кампания в защиту Интернета от статьи 13 в защиту копирайта [1]. 20 июня профильный комитет Европарламент проголосовал 15 против 10 за принятие этой статьи и если сегодня 5 июля Европарламент проголосует за, то практически все онлайн платформы работающие с европейскими потребителями будут обязаны фильтровать контент загружаемый пользователями на предмет нарушения владельцев прав на интеллектуальную собственность.

У свободы много граней и свободный обмен знаниями - одна из важнейших. На мой взгляд запреты копирайта даже хуже политической цензуры. Но в современном мире у нас мало возможностей в выборе между разными видами свободы, наш выбор сводится к разным формам несвободы.

Ссылки:
[1] https://saveyourinternet.eu/

#saveyourinternet
Многие знают о Europeana [1], крупнейшем онлайн музее/архиве/выставке Евросоюза основанном на партнёрстве и оцифровке материалов более чем 3,500 музеев, галерей, библиотек и архивов Европы, но мало кто знает о Канадиане [2] и схожего масштаба проект Trove [3] в Австралии, как поисковая машина и краудсорсинговый проект по оцифровке и разметке исторических материалов.

Но это государственные инициативы, а немало проектов по сохранению цифрового наследия существует и без государства. Как некоммерческие и коммерческие частные проекты.

Например:
- Software Heritage [4] спонсируемая Microsoft, Intel, Google и многими другими компаниями инициатива по долгосрочному сохранению открытого исходного кода. Они выкачивают его из github'а, gitlab'а и других источников и хранят все версии и все релизы.
- Old Version [5] большой краудсорсинговый проект архива старого ПО
- Common Crawl [6] огромный репозиторий веб-страниц собранных веб-краулерами и с возможностью ретроспективы.
- Archive Team [7] - команда волонтёров архивирующая погибающие (гигантские) сайты совместной работой над выгрузкой всего контента который может исчезнуть

И многие другие проекты. Чем больше данных и знаний создает человечество, тем больше нужно усилий по их сохранению.

Ссылки:
[1] https://europeana.eu/
[2] https://www.canadiana.ca/
[3] https://trove.nla.gov.au
[4] https://www.softwareheritage.org
[5] https://www.oldversion.com/
[6] https://commoncrawl.org/
[7] https://www.archiveteam.org/

#open #digitalpreservation
Forwarded from Эшер II A+
https://mobile.twitter.com/espectalll/status/1014814409162620928 Европарламент отклонил директиву об авторском праве в интернете. Бог есть