Ivan Begtin
7.99K subscribers
1.77K photos
3 videos
101 files
4.49K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]
Download Telegram
Такое чувство что всех дата продуктами интересуется, пользуется и развивается как аналитик данных и дата инженер не обошла тема modern data stack. Я регулярно писал о том как эта концепция набирала обороты последние 2-3 года и сейчас превратилась в какой-то непрерывный хайп. Вот и автор текста Is It Time To Rebrand (or Rethink) the Modern Data Stack? [1] соучредитель стартапа Validio задаётся тем же вопросом.

Не пора переосмыслить само это понятие?

А с другой стороны интервью с основателем dbt по поводу партнерств в Modern data stack [2].

Лично я бы сказал так, что для применения в гос продуктах modern data stack пока, практически, невозможен или крайне ограничен, поскольку все танцы с бубном тут вокруг облачных хранилищ и их экосистемы.

А для стартапов и корпоративных продуктов и дата инфраструктуры это актуально, но надо делить на 10 все обещания "серебрянных пуль". И отдавать себе отчет в рисках и моделировании инфраструктуры из десятков компонентов вне своего прямого контроля.

Ссылки:
[1] https://betterprogramming.pub/is-it-time-to-rebrand-or-rethink-the-modern-data-stack-5d76366e3c95
[2] https://www.madrona.com/dbt-labs-founder-tristan-handy-on-the-modern-data-stack-partnerships-and-creating-community/

#moderndatastack #data #readings
Пока все обсуждают разного рода макрополитические аспекты саммита G20 я не могу не обратить внимание на обсуждавшиеся там вопросы открытости. А на саммите обсуждались темы связанные с прозрачностью и открытостью. Подробнее можно прочитать в B20 Indonesia 2022. Integrity and compliance task force. Policy paper [1]. Там же есть и про открытые данные в других областях, важно что тема не просто есть на повестке, но и развивается.

#opendata #opengov

Ссылки:
[1] https://t.co/T6Jd3B6sCH
Сейчас многие активно обсуждают решение Сената Франции с рекомендацией Правительству Франции о признании Нагорно-Карабахской республики и призывом к выводу азербайджанских войск с территории Республики Армения [1], а я как раз давно планировал написать о том как Сенат Франции публикует данные о своей деятельности.

На сайте Сената есть баннер со ссылкой на их портал открытых данных [2] где не только собраны сведения о выборах, принятых законопроектах, сенаторах, полученных ими грантах и всё это в форматах CSV, JSON и XML, но там также есть такое редкое явление как полные дампы базы данных публикуемые в формате SQL дампов для СУБД Postgres.

Например, база поправок в законодательство, Ameli [3] и в 100 мегабайтном ZIP файле содержит 500 мегабайтный SQL файл. Для полной радости не хватает только чтобы они вообще всю базу целиком публиковали для выгрузки, а не несколькими SQL файлами и чтобы к данным и к дампам баз данных была бы более полная документация.


Ссылки:
[1] https://www.senat.fr/dossier-legislatif/ppr22-003.html
[2] https://data.senat.fr/
[3] https://data.senat.fr/ameli/

#opendata #datasets #france #parliaments #opengov
По поводу новости о том что российские власти в лице Минюста РФ хотят публиковать в открытом доступе СНИЛС и ИНН иностранных агентов [1] я многое могу об этом сказать, но начну с того что сама практика публикации персональных и личных данных граждан является ущербной.

В российском законе о персональных данных была и есть оговорка о том что их использование, по смыслу, включая раскрытие возможно в соответствии с нормативно-правовыми актами. Чаще всего эта практика шла, либо от целенаправленной дискриминации определённых групп граждан, или от идиотского сочетания устоявшихся юридических практик и законов которые этого не учитывали.

Несколько лет назад я публиковал исследование Утечки персональных данных из государственных информационных систем. Открытая часть доклада [2] со множеством примеров когда из государственных официальных информационных систем и реестров публиковались паспортные данные, ИНН, СНИЛС и иные персональные данные граждан. Самая яркая из описанных там историй - это раскрытие данных о СНИЛС в электронных сертификатах и цифровых подписях к документам сделанных этими сертификатами.

Другой пример в виде дискриминируемых групп был в раскрытии данных о людях подозреваемых в преступлениях, например, в сообщениях арбитражных судов [3] и разного рода уполномоченных гос-вом агентов.

До недавних пор чиновников обязанных сдавать декларации публикуемые на сайтах органов власти также можно было бы отнести к подобным дискриминируемым меньшинствам. Эта дискриминация была основана на контроле над бюрократией со стороны политического руководства и большим пластом международных практик, соглашений, инициатив по прозрачности государства. А то есть контроль политической власти над властью административной.

Сейчас, когда Минюст инициирует раскрытие данных персональных данных иностранных агентов, де факто - это как раз пример признания власти другой группы лиц, в данном случае обладающих медийной властью (по мнению Минюста, полагаю). Что, разумеется, большое лукавство и сам способ дискриминации выглядит не только архаично, но и предельно цинично.

Как и всё законодательство об инагентах эта инициатива весьма порочна по своей природе. Лично я считаю что законодательство должно меняться в сторону снижения раскрытия личных данных о гражданах, а не политически мотивированным расширением.

В России именно государство, в своей широкой массе органов власти, бюджетных учреждений и уполномоченных организаций, и является совокупностью крупнейших нарушений в сборе и публикации персональных данных. И с той поры как я публиковал то исследование по "легальным утечкам" персональных данных мало что изменилось.

Ссылки:
[1] https://www.rbc.ru/politics/13/11/2022/6370be7d9a79471426620f95
[2] https://begtin.tech/pdleaks-p3-govsys/
[3] https://www.asv.org.ru/news/612038

#privacy #security #data #personaldata
Недавно я написал про то какое открытое API есть на сайте органов власти Казахстана [1], такой подход к доступу к контенту имеет свои плюсы и минусы. Да, минус в сложности архивации, но плюсы в скорости отображения, в работе на мобильных устройствах и тд. В целом можно обсуждать и дискутировать насколько он оправдан и что задачи архивации можно решать, например, публикацией наборов данных.

Но, изначально, к мыслям о проблемах доступа к материалам меня натолкнул последний сайт российского Росстата где с недавних пор почти весь контент подгружается через Javascript.

Возьмём любую произвольную страницу со списком публикаций [2]. Внутри страницы нет HTML контента, только обрамление, а реальный контент подгружается через Ajax запрос который возвращает JSON объект внутри которого HTML веб страница [3].

Такой подход применяют когда есть цель целенаправленно ограничить доступ поисковых систем и краулеров к контенту. Или по большому недомыслию.

Всегда хочется надеяться на второе, но приходится учитывать и первое.

Это не означает что контент на сайте Росстата не индексируется, если даётся ссылка на прямую публикацию, вроде такой [4] то там есть контент и она будет проиндексирована. Но это уже не заслуга сотрудников Росстата, а скорее если кто-то на эти публикации где-то ещё ссылается. Иначе говоря глобальные поисковики индексируют сайт и документы Росстата потому что другие сайты ссылаются на отдельные документы, но сам сайт организован так чтобы индексирование было ограничено.

Ссылки:
[1] https://t.iss.one/begtin/4380
[2] https://rosstat.gov.ru/compendium
[3] https://rosstat.gov.ru/compendium/getPage?page=1&order=
[4] https://rosstat.gov.ru/compendium/document/50801

#data #statistics #government #opendata
В рубрике "как это устроено у них" программа Pathways to Enable Open-Source Ecosystems (POSE) [1] от Национального научного фонда США по финансированию экосистемы открытого кода. Общая сумма фонда 8 миллионов долларов (около 480 миллионов рублей)

Полный список из 25 проектов включает проекты по гражданской науке, по развитию продуктов с открытым кодом для создания экосистемы открытых данных [2]․ Средний размер гранта на этой фазе (Phase 1) - это $300 тысяч, это порядка 18 миллионов рублей и все они выдаются именно научным командам которые исследуют то как устроены те или иные экосистемы открытого кода и также, привлекают к проектам в этих экосистемах дополнительные ресурсы.

Ссылки:
[1] https://beta.nsf.gov/funding/opportunities/pathways-enable-open-source-ecosystems-pose
[2] https://www.nsf.gov/awardsearch/advancedSearchResult?ProgEleCode=211Y&BooleanElement=Any&BooleanRef=Any&ActiveAwards=true#results

#opendata #openaccess #opensource
DuckDuckGo добавили в своё приложение для Android возможность отслеживать отслеживающих, перехватывать и блокировать отправку данных о пользователе трекерами в мобильных приложениях. Об этом в заметке в The Verge [1]․

У меня после обновления приложение активировалось только на одном Андроид устройстве, на втором пока говорит что надо присоединиться к листу ожидания.

На этом устройстве у меня сейчас нет госприложений, поэтому не могу ничего сказать про них, но обязательно проверю позже. Зато есть такие приложения как Яндекс Такси, Тинькофф банк и Discord. Их всех успешно DuckDuckGo перехватывает.

Думаю что скоро у DuckDuckGo будет потрясающая по масштабам база результатов мониторинга слежки и возможность рейтинговать приложения по её масштабам.

Обратите внимание - это не статический анализ и проверка на "принциальную возможность утечки", это отслеженные факты передачи данных о пользователе.

Само приложение DuckDuckGo можно поставить здесь [2]

P.S. Если у Вас стоят госприложения на телефоне из списка [3] не поленитесь потратить немного времени и замерить куда и какую информацию они сливают․ Присылайте скриншоты или ссылки на Ваши телеграм каналы если Вы запостите эти скриншоты туда.

Ссылки:
[1] https://www.theverge.com/2022/11/16/23462053/duckduckgo-app-tracking-tool-beta-android-users
[2] https://play.google.com/store/apps/details?id=com.duckduckgo.mobile.android
[3] https://apps.rustore.ru/state

#privacy #government #tracking
Mother Duck, компания созданная для развития СУБД DuckDB получили $47.5 миллионов инвестиций от Andreessen Horowitz [1]․ У них забавный лозунг Making analytics fun, frictionless and ducking awesome. Ducking awesome звучит особенно замечательно, невозможно перевести это с языка оригинала.

Для тех кто не помнит, DuckDB - это такая OLAP база данных, работающая полностью в памяти и внутри процесса из которого запускается. Её называют SQLite для аналитики и вокруг неё уже выстроилось большое сообщество, создан специальный фонд DuckDB Foundation [2] в который входят многие компании, включая Mother Duck, Mode, Posit и другие компании, в основном стартапы.

Как бы то ни было если Вы занимаетесь обсчётом больших данных в аналитических СУБД, то попробовать DuckDB стоит .

Ссылки:
[1] https://techcrunch.com/2022/11/15/motherduck-secures-investment-from-andreessen-horowitz-to-commercialize-duckdb/
[2] https://duckdb.org/foundation/

#startups #data #datatools
В рубрике больших открытых наборов данных The Stack [1] 3.1 терабайта 300 миллионов файлов исходного кода на 30 языках программирования с разрешающими лицензиями (permissive licenses) на его повторное использование. Опубликован на Hugging Face, кроме программных языков, охватывает около 20 естественных языков (английский, китайский, испанский, русский и др.)

Является результатом проекта BigCode [2], совместных усилий команд ServiceNow и Hugging Face․

Можно сказать что это большой шаг вперед к развитию языковых моделей для программного кода и появлению новых продуктов похожих на Github Copilot и аналоги, но, на сей раз, с соблюдением лицензионной чистоты.

А также большой тред в твиттере с рассказом об этом наборе данных [3]

Ссылки:
[1] https://huggingface.co/datasets/bigcode/the-stack
[2] https://www.bigcode-project.org/
[3] https://twitter.com/BigCodeProject/status/1585631176353796097

#opendata #opensource #datasets
Прекрасное руководство [1] с примерами по тому как можно визуализировать реки и затопленные территории с помощью QGIS и RiverREM [2], библиотеки для Python из проекта OpenTopography.

Примеры все из США где в рамках программы 3D Elevation Program [4] сейчас оцифрована почти каждая миля страны с высокой степенью геометрической детализации.

Есть, также, очень подробное руководство как создавать именно такие картинки [5] с использованием файлов DEM (Digital elevation model), а на Flickr есть коллекция изображений подобных этим [6] которые можно использовать в некоммерческих целях.

Ссылки:
[1] https://www.beautifulpublicdata.com/visualizing-rivers-and-floodplains/
[2] https://github.com/klarrieu/RiverREM
[3] https://opentopography.org/
[4] https://www.usgs.gov/3d-elevation-program
[5] https://dancoecarto.com/creating-rems-in-qgis-the-idw-method
[6] https://www.flickr.com/photos/165735975@N07/sets/72177720300430208/

#dataviz #opendata