Ivan Begtin
8.06K subscribers
1.97K photos
3 videos
102 files
4.68K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]
Download Telegram
В Nature статья о запросе учёных на полностью открытый обмен данными о коронавирусе [1]. 29 января сотнями ведущих учёных было подготовлено и подписано открытое письмо [2] о том что данные о расшифровке геномов штаммов SARS-CoV-2 должны публиковаться на портале International Nucleotide Sequence Database Collaboration (INSDC) [3] и быть доступными всем желающим.

Это необходимо потому что без этого невозможно поддерживать высокий темп разработки мер противодействия COVID-19.

Откуда возникло это письмо? В статье подробно рассматривается текущая инфраструктура раскрытия геномных данных. Основным порталом для их сбора является GISAID (Global Initiative on Sharing Avian Influenza Data) [4] созданный в форме государтсвенно-частной инициативы [5] правительствами Германии, США, Сингапура, Бразилии, компании Seqirus и фонда Sanofi Pasteur’s Foundation for Influenza Epidemiology.

GISAID изначально был платформой не про открытие данные, а про обмен данными (data sharing). Главная причина в том что учёные работающие над исследованиями хотят точно знать кто скачивал и использует их данные и быть уверенными что результаты их работы
не будут использованы без ссылки на них.

Авторы письма не предлагают открыть данные GISAID, но получится ли создать более полную базу данных и полностью открытую, вот в чём вопрос. Впрочем проблема COVID-19 - это, действительно, мировая проблема и хочется надеяться что принципы ограничения доступа к информации применяемые в "условно-мирное время" могут быть более открытыми во время пандемии.


Ссылки:
[1] https://www.nature.com/articles/d41586-021-00305-7
[2] https://www.covid19dataportal.org/support-data-sharing-covid19
[3] https://www.insdc.org/
[4] https://www.gisaid.org/
[5] https://www.gisaid.org/about-us/public-private-partnerships/

#opendata #openaccess #fair #covid19
Фабрика законов (La fabrique de la loi) [1] французский проект по мониторингу и визуализации производства законов французским парламентом. Самое интересное в проекте в том что они разбирают всё прохождение от законопроекта до закона, принятые/непринятые поправки, изменения в тексте и ещё многое другое. Для стран с активной парламентской жизнью такой проект очень нагляден. Правда, в данном случае, он скорее ближе к академической работе, чем к общественной или применимой лоббистами или в госуправлении. В нем нет призывов к действию или инструментов отслеживания рисков или вовлеченных сторон. Все это впрочем не отменяет его ценности и возможности развиваться в любом направлении.

Авторы проекта Regards Citoyens [2] создатели многих проектов по открытости государства и данных во Франции, включая мониторинг парламентариев NosDéputés [3] и Sciences Pro Medialab [4] междисциплинарной лабораторией исследующей влияние роли цифровых технологий на общество.

У проекта открытое API и открытые данные [5] и открытый код [6].

Ссылки:
[1] https://www.lafabriquedelaloi.fr/
[2] https://www.regardscitoyens.org
[3] https://www.nosdeputes.fr/
[4] https://medialab.sciencespo.fr/
[5] https://www.lafabriquedelaloi.fr/api/
[6] https://github.com/regardscitoyens/the-law-factory

#opendata #opengov #lawmaking #france #legaltech
Фонд Chan-Zukerberg Initiative [1] выдал грант на 190 тысяч долларов проекту Galaxy [2]. Galaxy - это платформа интенсивной работы с данными используемая, в первую очередь, для биомедицинских расчетов с 250 тысячами пользователей по всему миру, большой коллекцией больших данных и значительным числом инструментов для работы с ними [3]

В мире есть более 163 сред и инсталляций для развертывания или использования общедоступных проектов на базе Galaxy [4]. Некоторые только для внутреннего пользования, другие, как австралийский [5] поддерживаются национальным исследовательским агентством Австралии и общедоступны.

У Galaxy полностью открытый код [6] и сам проект создавался под data intesive science и пример того что часто исследователям нужны не просто данные, а сложные комплексные расширяемые среды где кроме данных есть ещё и инструменты работы с ними с учётом их специфики

Ссылки:
[1] https://chanzuckerberg.com/
[2] https://ardc.edu.au/news/chan-zuckerberg-initiative-injects-funds-into-galaxy-platform-for-biomedical-research/
[3] https://usegalaxy.org/
[4] https://galaxyproject.org/use/
[5] https://usegalaxy.org.au
[6] https://github.com/galaxyproject

#data #datascience
Знаете ли Вы что...
Германское приложение по отслеживанию контактов при COVID-19 [1]:
- сделано не Правительством Германии, а компанией SAP в консорциуме с 12 компаниями
- при этом продвигается Правительством Германии [2]
- его исходный код полностью открыт [3] и разработка ведется в открытом режиме
- в нем абсолютно нет никаких трекеров [4], включая Google Firebase и Crashlytics (привет Минцифре в приложении которого они есть [5])

Итого:
- данные собираются не государством
- код открыт и вся разработка видна и публична
- трекеров нет

Другие примеры:
- Австрия, приложение Stopp Corona [6], исходный код открыты с апреля 2020 года [7], создатели - Австрийский красный крест. Трекеров нет [8]
- Австралия, приложение COVIDSafe [9], исходный код раскрыт [10], используют один трекер [11] Google Firebase
- Индия, приложение Aarogya Setu App [12], исходный код раскрыт [13], используют те же трекеры что и российское Google Firebase и Google CrashLytics

и так ещё более 20 официальных государственных приложений для отслеживания COVID-19 разрабатываются полностью с открытым кодом. Некоторые включают трекеры, в основном, Google Firebase, но тогда их использование можно увидеть в исходном коде и уже предметно говорить с разработчиками когда это использование необосновано.

Лично я считаю что весь код созданный за средства государственных бюджетов должен раскрываться и мобильные приложения не исключение. Если даже в Марокко это делают [15], то, казалось бы, что мешает Минцифры России начать публиковать код общественно значимых проектов и перевести их разработку в открытый режим?

Ссылки:
[1] https://www.coronawarn.app/en/
[2] https://www.bundesregierung.de/breg-de/themen/corona-warn-app/corona-warn-app-englisch
[3] https://github.com/corona-warn-app/
[4] https://reports.exodus-privacy.eu.org/en/reports/de.rki.coronawarnapp/latest/
[5] https://reports.exodus-privacy.eu.org/en/reports/com.minsvyaz.gosuslugi.stopcorona/latest/
[6] https://play.google.com/store/apps/details?id=at.roteskreuz.stopcorona
[7] https://github.com/austrianredcross/stopp-corona-android
[8] https://reports.exodus-privacy.eu.org/en/reports/164043/
[9] https://covidsafe.gov.au/
[10] https://github.com/AU-COVIDSafe
[11] https://reports.exodus-privacy.eu.org/en/reports/161910/
[12] https://aarogyasetu.gov.in/
[13] https://github.com/nic-delhi/AarogyaSetu_Android
[14] https://reports.exodus-privacy.eu.org/en/reports/140895/
[15] https://github.com/Wiqaytna-app

#mobile #apps #covid19
#13. Что делать в ситуации, когда за приватность граждан никто не отвечает?
Существует давний вопрос о том, какой из российских органов должен реагировать на проблемы с текущими, потенциальными и возможными утечками данных, злоупотреблениями в использовании данными и так далее. ФСТЭК? Роскомнадзор? Минцифры? МВД? Генпрокуратура? Например, в мире этой проблемой более всего озадачены органы по защите прав потребителей. А проблема госслежки - это, в первую очередь, вопрос защиты граждан законодательной властью от произвола исполнительной.
...
Продолжение в регулярной рассылке https://begtin.substack.com/p/13

#privacy #data #government
Рыночная стоимость компаний Big Tech в США на конец 2020 года превысила $7.5 триллиона долларов, это в полтора раза больше чем на конец 2019 года когда их рыночная стоимость была чуть более $4.9 триллионов.

Крупнейшие Big Tech компании - это:
- Facebook
- Alphabet
- Amazon
- Microsoft
- Apple

А также доходы компаний выросли на 24%, более чем на $1.1 триллион долларов.

Об этом статья в Wall Street Journal [1] (требуется подписка)

Что всё это значит? Усиление регулирования, рост налообложения, усиление лоббирования и GR со стороны компаний big tech.

Сложно до конца представить мир в котором мы будем жить лет через 10 если этот тренд не изменится.

Ссылки:
[1] https://www.wsj.com/articles/how-big-tech-got-even-bigger-11612587632

#tech #bigtech
Последний раз я обновлял рейтинг и метрики стран по открытости кода 2 года назад. Расчёты и данные рейтинга сохранено на Data.world в проекте "Open source government project" [1]. Тогда открытый код публиковался 58 странами и десятками международных организаций. Сейчас их значительно больше потому что кураторы списка открытых репозиториев государства на Github [2] не учитывают госорганы публикующие свой код на других платформах и поскольку не поспевают за раскрытием кода в контексте COVID-19, многие страны начали публиковать код приложений.

Пока же вот ещё несколько стран которые точно прибавились к тому списку из 58 стран и начали публиковать исходный код в последнее время:
- Ирландия https://github.com/HSEIreland/
- Словакия https://github.com/slovak-egov
- Мадагаскар https://github.com/e-Gouvernance-Madagascar

Забегая вперед сказу скажу что России в этом списке по прежнему нет. Официально в России всё ещё нет политики раскрытия исходного кода и открытой его разработки.

Ссылки:
[1] https://data.world/ibegtin/open-source-government-project
[2] https://government.github.com/

#opensource #opengov #opendata
Forwarded from Госзатраты
«Госзатраты» планируют опубликовать архив документов по истории госфинансов в России.

Уже несколько месяцев команда нашего проекта кропотливо собирает исторические документы, связанные с темой госфинансов. Среди них как уже оцифрованные материалы, так и те, которые никогда не публиковались. Мы объединим на одной общедоступной площадке самые разные исторические источники — от бюджетов, отчетов и перечней цен до статистических сводок и учебников.

Приглашаем принять участие в создании цифрового архива по истории госфинансов. Будем признательны всем, кто сможет предоставить материалы для оцифровки или пришлет готовые сканы, веб-ссылки на архивы или наборы данных с исторической ретроспективой. Если вам есть, чем поделиться — пишите Ольге Пархимович на эл. почту [email protected].
Роскомнадзор анонсировал мобильное приложение [1] для ускоренной подачи жалоб граждан на запрещенную информацию.

Как я и говорил ранее, на госприложения этот год будет урожайным. Его вариант для Android'а [2] сейчас помечен как в разработке и поэтому пока не получается стандартными средствами скачать APK файл для анализа на предмет трекеров и разрешений. Разрешения, вернее, можно увидеть и так на странице в Google Play.

Если Вы знаете как скачать APK файл такого приложения и можете помочь инструкцией/инструментом или скачать его и передать на исследование, то можем узнать какие трекеры Роскомнадзора туда запрятал. Или не запрятал, не проверишь не узнаешь.

Буду рад любой помощи, пишите мне в Telegram или на почту [email protected]

Ссылки:
[1] https://rkn.gov.ru/news/rsoc/news73388.htm
[2] https://play.google.com/store/apps/details?id=org.rkn.ermp

#privacy #mobile #rkn #roskomnadzor
Итак, парам-пам-пам, о том почему бессмысленно обращаться в Роскомнадзор по поводу трекинга пользователей в госприложениях.

В свежее приложение Роскомнадзора [1] включён код передачи данных в сервис Google Firebase и в сервис AppMetrica (Яндекс).

На скриншоте результат анализа через инструменты Exodus Privacy. На всякий случай перепроверка через MobSF это подтверждает. Там и с точки зрения безопасности приложение неидеально, но пусть это анализируют другие.

Не только "гос госу глаз не выклюет", но и "Роскомнадзор сам себя не выпорет".

А пора бы Роскомнадзору быть не только дуботолками и чертями веревочными, а заканчивать это божедурье и начать работать.

Ссылки:
[1] https://play.google.com/store/apps/details?id=org.rkn.ermp

#privacy
Google обновили "Требования к приложениям, имеющим отношение к коронавирусной инфекции COVID-19" [1].

Теперь упоминание COVID-19 в приложении возможно только в случаях если:

1. Приложения, содержащие информацию о болезни, лечении, вакцинировании и тестировании, а также другие данные, связанные с коронавирусной инфекцией COVID-19.
2. Приложения, созданные для помощи в борьбе с коронавирусной инфекцией COVID-19, ее сдерживании, исследованиях, обучении или подготовке в этой сфере.
3. Приложения, созданные для оказания услуг, непосредственно связанных с коронавирусной инфекцией COVID-19, например услуг в области здравоохранения, предоставления социальной поддержки (выплат, продовольственных талонов) или выдачи кредитов.

Приложения должны иметь подтверждение:

1. Письмо на официальном бланке соответствующего государственного учреждения или организации. Оно должно включать название приложения и название его пакета.
2. Государственный регистрационный номер организации здравоохранения (NPI в США, NIN в Индии и т. д.). Применимо не для всех стран.

Также были обновлены разделы "Требования к конфиденциальности" и "Видимость приложения и информирование пользователя".

Похоже что в ближайшее время начнется чистка Google Play от приложений не соответствующих этим требованиям.

Российские приложения, кстати, также необходимо будет проверить на соответствие и, скорее всего, обновить.

Ссылки:
[1] https://support.google.com/googleplay/android-developer/answer/9889712#privacy_requirements

#privacy #covid19
В марте 2021 года Еврокомиссия официально открытывает портал Open Research Europe [1] созданный для публикации материалов исследований в рамках исследовательской программы Евросоюза Horizon 2020. Внутри платформы движок от F1000Research [2], коммерческой платформы для открытой публикации научных материалов. Её бизнес модель, в отличие от "классических издательств", во взимании от 800 до 1300 евро за ревью и публикации статьи. Изначально платформа создавалась под публикацию биомедицинских исследований, но, похоже, будет использоваться и для других научных направлений.

А Open Research Europe имеет свой ISSN, похоже что, будет приравнено к научному изданию и обязательным для всех исследований в рамках Horizon 2020.

Ссылки:
[1] https://open-research-europe.ec.europa.eu/
[2] https://f1000research.com

#openaccess #research #opendata #europe
В Glowing Flow короткий и полезный текст про управление метаданными [1], конечно, с акцентом на корпоративные системы управления метаданными, но ими не ограничиваясь.

Полезно для понимания того как рынок корпоративных данных будет структурироваться в ближайшее время. Каждый блок - это кусок функций единой системы или отдельный, но интегрированный продукт.

Ссылки:
[1] https://gradientflow.com/the-growing-importance-of-metadata-management-systems/
Для тех кто изучает то как государство раздает деньги, новый полезный набор данных "Данные грантовых конкурсов Ростуризма" [1] собран с сайта грантов Ростуризма [2] и охватывает всех получателей и заявителей на гранты.

Нам этот набор был интересен, в первую очередь, с точки зрения его подключения к проектам Открытые НКО [3], Госзатраты [4] и Госрасходы [5], но уверен что многие найдут ему разные другие способы применения.

Данные в формате CSV, описание полей и структуры файлов есть в описании набора, поскольку текст описания многострочен, то файл надо правильно открывать, впрочем Excel, OpenOffice и все программные пакеты обработки CSV это умеют.

Данные будут полезны журналистам исследователям, всем изучающим деятельность Ростуризма и распределение госфинансирования.

Отдельно обращу внимание что, с одной стороны, Ростуризм начал значительно лучше публиковать данные, создали специальный портал opendata.tourism.gov.ru [6] и даже кое-что полезное там публикуют, а вот этих данных там нет и на самом сайте системы публикации грантов тоже нет.

Но у нас есть и никогда не жалко поделиться.

Ссылки:
[1] https://ngodata.ru/dataset/grant-contests-rosturizm
[2] https://1619.tourism.gov.ru/
[3] https://openngo.ru
[4] https://clearspending.ru
[5] https://spending.gov.ru
[6] https://opendata.tourism.gov.ru

#opendata #data #tourism #grants
Тем кто ищет большие данные со множеством взаимосвязей и пригодных для углублённого анализа, набор данных графовой базы Software Heritage [1] - это несколько терабайт данных о исходном коде архивируемом в этом проекте. Включает данные о релизах, файлах исходного кода, авторах, каждой строке, изменениях в коде и так далее, для это есть описание схемы [2] и инструкций по развертыванию этой базы у себя.

Software Heritage [3] - это французский проект в INRIA по созданию универсального хранилища всего исходного кода человечества. У проекта довольно сильный акцент на научном использовании, авторы регулярно пишут научные статьи о сохранении исходного кода, а также есть фокус на сохранение исходного кода создаваемого в рамках научное работы. Поэтому, например, сохраняются исходные коды из системы открытых научных архивов Франции HAL [4] и многое другое.

А сам проект поддерживается Microsoft, Huawei, Intel, Societe Generale и ещё рядом крупных компаний и академических структур.

Ссылки:
[1] https://docs.softwareheritage.org/devel/swh-dataset/graph/index.html
[2] https://docs.softwareheritage.org/devel/swh-dataset/graph/schema.html#
[3] https://softwareheritage.org
[4] https://hal.archives-ouvertes.fr/

#opendata #opensource #opengov
Алексей Лукацкий довольно сдержанно пишет о довольно важной проблеме, российское регулирование отстаёт даже у, казалось бы, неглупых людей в Минцифре РФ. При всей той критике что я в их адрес могу адресовать, я, всё же, несмотря ни на что и вопреки всему, считаю что это тот редкий случай когда люди понимающие в ИТ там есть. Но современное ИТ - это не набор готового ПО на которое у его разработчиков есть все права. Это сложный механизм управления зависимостями (dependency management), отдельная и большая индустрия software and application intelligence и так далее.

Если какой-то продукт сделан без внешних, особенно опенсорсных компонентов, то это или, извините, или "вещь в себе" (например, управление навигацией истребителя или атомной подводной лодкой), или "уникальное произведение искусства" (крайне редкое, всё таки Леонардо да Винчи и другие полиматы это редкость), либо и чаще "кусок устаревшего говна" (устаревшее, неинтегрируемое, никому не нужное ПО).

Да, регулирование зависимостей это куда более сложная задача чем "всё запретить", это требует гораздо более серьёзного разговора с владельцами ИТ продуктов, переговоров с их разработчиками, наличия экспертных центров и тд. и тп. В принципе, системной политики в части разработки ПО, но даже её, даже очень осмысленную, многие разработчики софта проклянут последними словами потому что всё это время все эти зависимости были предметом коммерческой и технической целесообразности.

#opensource #software
Для тех кто задается вопросами о том в чём риски встраиваемых трекеров, большое исследование от цифровой лаборатории ExpressVPN по трекерам использовавших SDK X-Mode [1]

Исследование выявило использование этого трекера в 450 приложениях скачанных совокупно 1.7 миллиардов раз.
Именно с его помощью правительство США следило (а может и следит сейчас) за мусульманскими общинами.

Это сейчас один из главных вызовов для рынка AdTech. Он вырос настолько и создал столь эффективные инструменты коммерческой слежки что уже нельзя говорить о том что "пусть о нас собирают данные, они ведь просто хотят наши деньги". Проблема в том что государства в данном случае могут выступать не только как "этичные регуляторы", но и как неэтичные потребители собираемых данных слежки за собственными гражданами и гражданами других стран.

Ссылки:
[1] https://www.expressvpn.com/digital-security-lab/investigation-xoth

#privacy #xmode #mobile #adtech