Такое чувство что всех дата продуктами интересуется, пользуется и развивается как аналитик данных и дата инженер не обошла тема modern data stack. Я регулярно писал о том как эта концепция набирала обороты последние 2-3 года и сейчас превратилась в какой-то непрерывный хайп. Вот и автор текста Is It Time To Rebrand (or Rethink) the Modern Data Stack? [1] соучредитель стартапа Validio задаётся тем же вопросом.
Не пора переосмыслить само это понятие?
А с другой стороны интервью с основателем dbt по поводу партнерств в Modern data stack [2].
Лично я бы сказал так, что для применения в гос продуктах modern data stack пока, практически, невозможен или крайне ограничен, поскольку все танцы с бубном тут вокруг облачных хранилищ и их экосистемы.
А для стартапов и корпоративных продуктов и дата инфраструктуры это актуально, но надо делить на 10 все обещания "серебрянных пуль". И отдавать себе отчет в рисках и моделировании инфраструктуры из десятков компонентов вне своего прямого контроля.
Ссылки:
[1] https://betterprogramming.pub/is-it-time-to-rebrand-or-rethink-the-modern-data-stack-5d76366e3c95
[2] https://www.madrona.com/dbt-labs-founder-tristan-handy-on-the-modern-data-stack-partnerships-and-creating-community/
#moderndatastack #data #readings
Не пора переосмыслить само это понятие?
А с другой стороны интервью с основателем dbt по поводу партнерств в Modern data stack [2].
Лично я бы сказал так, что для применения в гос продуктах modern data stack пока, практически, невозможен или крайне ограничен, поскольку все танцы с бубном тут вокруг облачных хранилищ и их экосистемы.
А для стартапов и корпоративных продуктов и дата инфраструктуры это актуально, но надо делить на 10 все обещания "серебрянных пуль". И отдавать себе отчет в рисках и моделировании инфраструктуры из десятков компонентов вне своего прямого контроля.
Ссылки:
[1] https://betterprogramming.pub/is-it-time-to-rebrand-or-rethink-the-modern-data-stack-5d76366e3c95
[2] https://www.madrona.com/dbt-labs-founder-tristan-handy-on-the-modern-data-stack-partnerships-and-creating-community/
#moderndatastack #data #readings
Пока все обсуждают разного рода макрополитические аспекты саммита G20 я не могу не обратить внимание на обсуждавшиеся там вопросы открытости. А на саммите обсуждались темы связанные с прозрачностью и открытостью. Подробнее можно прочитать в B20 Indonesia 2022. Integrity and compliance task force. Policy paper [1]. Там же есть и про открытые данные в других областях, важно что тема не просто есть на повестке, но и развивается.
#opendata #opengov
Ссылки:
[1] https://t.co/T6Jd3B6sCH
#opendata #opengov
Ссылки:
[1] https://t.co/T6Jd3B6sCH
Сейчас многие активно обсуждают решение Сената Франции с рекомендацией Правительству Франции о признании Нагорно-Карабахской республики и призывом к выводу азербайджанских войск с территории Республики Армения [1], а я как раз давно планировал написать о том как Сенат Франции публикует данные о своей деятельности.
На сайте Сената есть баннер со ссылкой на их портал открытых данных [2] где не только собраны сведения о выборах, принятых законопроектах, сенаторах, полученных ими грантах и всё это в форматах CSV, JSON и XML, но там также есть такое редкое явление как полные дампы базы данных публикуемые в формате SQL дампов для СУБД Postgres.
Например, база поправок в законодательство, Ameli [3] и в 100 мегабайтном ZIP файле содержит 500 мегабайтный SQL файл. Для полной радости не хватает только чтобы они вообще всю базу целиком публиковали для выгрузки, а не несколькими SQL файлами и чтобы к данным и к дампам баз данных была бы более полная документация.
Ссылки:
[1] https://www.senat.fr/dossier-legislatif/ppr22-003.html
[2] https://data.senat.fr/
[3] https://data.senat.fr/ameli/
#opendata #datasets #france #parliaments #opengov
На сайте Сената есть баннер со ссылкой на их портал открытых данных [2] где не только собраны сведения о выборах, принятых законопроектах, сенаторах, полученных ими грантах и всё это в форматах CSV, JSON и XML, но там также есть такое редкое явление как полные дампы базы данных публикуемые в формате SQL дампов для СУБД Postgres.
Например, база поправок в законодательство, Ameli [3] и в 100 мегабайтном ZIP файле содержит 500 мегабайтный SQL файл. Для полной радости не хватает только чтобы они вообще всю базу целиком публиковали для выгрузки, а не несколькими SQL файлами и чтобы к данным и к дампам баз данных была бы более полная документация.
Ссылки:
[1] https://www.senat.fr/dossier-legislatif/ppr22-003.html
[2] https://data.senat.fr/
[3] https://data.senat.fr/ameli/
#opendata #datasets #france #parliaments #opengov
www.senat.fr
Établir une paix durable entre l'Arménie et l'Azerbaïdjan - Sénat
proposition de résolution en application de l'article 34-1 de la Constitution, visant à appliquer des sanctions à l'encontre de l'Azerbaïdjan et exiger son retrait immédiat du territoire arménien, à faire respecter l'accord de cessez-le-feu du 9 novembre…
По поводу новости о том что российские власти в лице Минюста РФ хотят публиковать в открытом доступе СНИЛС и ИНН иностранных агентов [1] я многое могу об этом сказать, но начну с того что сама практика публикации персональных и личных данных граждан является ущербной.
В российском законе о персональных данных была и есть оговорка о том что их использование, по смыслу, включая раскрытие возможно в соответствии с нормативно-правовыми актами. Чаще всего эта практика шла, либо от целенаправленной дискриминации определённых групп граждан, или от идиотского сочетания устоявшихся юридических практик и законов которые этого не учитывали.
Несколько лет назад я публиковал исследование Утечки персональных данных из государственных информационных систем. Открытая часть доклада [2] со множеством примеров когда из государственных официальных информационных систем и реестров публиковались паспортные данные, ИНН, СНИЛС и иные персональные данные граждан. Самая яркая из описанных там историй - это раскрытие данных о СНИЛС в электронных сертификатах и цифровых подписях к документам сделанных этими сертификатами.
Другой пример в виде дискриминируемых групп был в раскрытии данных о людях подозреваемых в преступлениях, например, в сообщениях арбитражных судов [3] и разного рода уполномоченных гос-вом агентов.
До недавних пор чиновников обязанных сдавать декларации публикуемые на сайтах органов власти также можно было бы отнести к подобным дискриминируемым меньшинствам. Эта дискриминация была основана на контроле над бюрократией со стороны политического руководства и большим пластом международных практик, соглашений, инициатив по прозрачности государства. А то есть контроль политической власти над властью административной.
Сейчас, когда Минюст инициирует раскрытие данных персональных данных иностранных агентов, де факто - это как раз пример признания власти другой группы лиц, в данном случае обладающих медийной властью (по мнению Минюста, полагаю). Что, разумеется, большое лукавство и сам способ дискриминации выглядит не только архаично, но и предельно цинично.
Как и всё законодательство об инагентах эта инициатива весьма порочна по своей природе. Лично я считаю что законодательство должно меняться в сторону снижения раскрытия личных данных о гражданах, а не политически мотивированным расширением.
В России именно государство, в своей широкой массе органов власти, бюджетных учреждений и уполномоченных организаций, и является совокупностью крупнейших нарушений в сборе и публикации персональных данных. И с той поры как я публиковал то исследование по "легальным утечкам" персональных данных мало что изменилось.
Ссылки:
[1] https://www.rbc.ru/politics/13/11/2022/6370be7d9a79471426620f95
[2] https://begtin.tech/pdleaks-p3-govsys/
[3] https://www.asv.org.ru/news/612038
#privacy #security #data #personaldata
В российском законе о персональных данных была и есть оговорка о том что их использование, по смыслу, включая раскрытие возможно в соответствии с нормативно-правовыми актами. Чаще всего эта практика шла, либо от целенаправленной дискриминации определённых групп граждан, или от идиотского сочетания устоявшихся юридических практик и законов которые этого не учитывали.
Несколько лет назад я публиковал исследование Утечки персональных данных из государственных информационных систем. Открытая часть доклада [2] со множеством примеров когда из государственных официальных информационных систем и реестров публиковались паспортные данные, ИНН, СНИЛС и иные персональные данные граждан. Самая яркая из описанных там историй - это раскрытие данных о СНИЛС в электронных сертификатах и цифровых подписях к документам сделанных этими сертификатами.
Другой пример в виде дискриминируемых групп был в раскрытии данных о людях подозреваемых в преступлениях, например, в сообщениях арбитражных судов [3] и разного рода уполномоченных гос-вом агентов.
До недавних пор чиновников обязанных сдавать декларации публикуемые на сайтах органов власти также можно было бы отнести к подобным дискриминируемым меньшинствам. Эта дискриминация была основана на контроле над бюрократией со стороны политического руководства и большим пластом международных практик, соглашений, инициатив по прозрачности государства. А то есть контроль политической власти над властью административной.
Сейчас, когда Минюст инициирует раскрытие данных персональных данных иностранных агентов, де факто - это как раз пример признания власти другой группы лиц, в данном случае обладающих медийной властью (по мнению Минюста, полагаю). Что, разумеется, большое лукавство и сам способ дискриминации выглядит не только архаично, но и предельно цинично.
Как и всё законодательство об инагентах эта инициатива весьма порочна по своей природе. Лично я считаю что законодательство должно меняться в сторону снижения раскрытия личных данных о гражданах, а не политически мотивированным расширением.
В России именно государство, в своей широкой массе органов власти, бюджетных учреждений и уполномоченных организаций, и является совокупностью крупнейших нарушений в сборе и публикации персональных данных. И с той поры как я публиковал то исследование по "легальным утечкам" персональных данных мало что изменилось.
Ссылки:
[1] https://www.rbc.ru/politics/13/11/2022/6370be7d9a79471426620f95
[2] https://begtin.tech/pdleaks-p3-govsys/
[3] https://www.asv.org.ru/news/612038
#privacy #security #data #personaldata
Недавно я написал про то какое открытое API есть на сайте органов власти Казахстана [1], такой подход к доступу к контенту имеет свои плюсы и минусы. Да, минус в сложности архивации, но плюсы в скорости отображения, в работе на мобильных устройствах и тд. В целом можно обсуждать и дискутировать насколько он оправдан и что задачи архивации можно решать, например, публикацией наборов данных.
Но, изначально, к мыслям о проблемах доступа к материалам меня натолкнул последний сайт российского Росстата где с недавних пор почти весь контент подгружается через Javascript.
Возьмём любую произвольную страницу со списком публикаций [2]. Внутри страницы нет HTML контента, только обрамление, а реальный контент подгружается через Ajax запрос который возвращает JSON объект внутри которого HTML веб страница [3].
Такой подход применяют когда есть цель целенаправленно ограничить доступ поисковых систем и краулеров к контенту. Или по большому недомыслию.
Всегда хочется надеяться на второе, но приходится учитывать и первое.
Это не означает что контент на сайте Росстата не индексируется, если даётся ссылка на прямую публикацию, вроде такой [4] то там есть контент и она будет проиндексирована. Но это уже не заслуга сотрудников Росстата, а скорее если кто-то на эти публикации где-то ещё ссылается. Иначе говоря глобальные поисковики индексируют сайт и документы Росстата потому что другие сайты ссылаются на отдельные документы, но сам сайт организован так чтобы индексирование было ограничено.
Ссылки:
[1] https://t.iss.one/begtin/4380
[2] https://rosstat.gov.ru/compendium
[3] https://rosstat.gov.ru/compendium/getPage?page=1&order=
[4] https://rosstat.gov.ru/compendium/document/50801
#data #statistics #government #opendata
Но, изначально, к мыслям о проблемах доступа к материалам меня натолкнул последний сайт российского Росстата где с недавних пор почти весь контент подгружается через Javascript.
Возьмём любую произвольную страницу со списком публикаций [2]. Внутри страницы нет HTML контента, только обрамление, а реальный контент подгружается через Ajax запрос который возвращает JSON объект внутри которого HTML веб страница [3].
Такой подход применяют когда есть цель целенаправленно ограничить доступ поисковых систем и краулеров к контенту. Или по большому недомыслию.
Всегда хочется надеяться на второе, но приходится учитывать и первое.
Это не означает что контент на сайте Росстата не индексируется, если даётся ссылка на прямую публикацию, вроде такой [4] то там есть контент и она будет проиндексирована. Но это уже не заслуга сотрудников Росстата, а скорее если кто-то на эти публикации где-то ещё ссылается. Иначе говоря глобальные поисковики индексируют сайт и документы Росстата потому что другие сайты ссылаются на отдельные документы, но сам сайт организован так чтобы индексирование было ограничено.
Ссылки:
[1] https://t.iss.one/begtin/4380
[2] https://rosstat.gov.ru/compendium
[3] https://rosstat.gov.ru/compendium/getPage?page=1&order=
[4] https://rosstat.gov.ru/compendium/document/50801
#data #statistics #government #opendata
В рубрике "как это устроено у них" программа Pathways to Enable Open-Source Ecosystems (POSE) [1] от Национального научного фонда США по финансированию экосистемы открытого кода. Общая сумма фонда 8 миллионов долларов (около 480 миллионов рублей)
Полный список из 25 проектов включает проекты по гражданской науке, по развитию продуктов с открытым кодом для создания экосистемы открытых данных [2]․ Средний размер гранта на этой фазе (Phase 1) - это $300 тысяч, это порядка 18 миллионов рублей и все они выдаются именно научным командам которые исследуют то как устроены те или иные экосистемы открытого кода и также, привлекают к проектам в этих экосистемах дополнительные ресурсы.
Ссылки:
[1] https://beta.nsf.gov/funding/opportunities/pathways-enable-open-source-ecosystems-pose
[2] https://www.nsf.gov/awardsearch/advancedSearchResult?ProgEleCode=211Y&BooleanElement=Any&BooleanRef=Any&ActiveAwards=true#results
#opendata #openaccess #opensource
Полный список из 25 проектов включает проекты по гражданской науке, по развитию продуктов с открытым кодом для создания экосистемы открытых данных [2]․ Средний размер гранта на этой фазе (Phase 1) - это $300 тысяч, это порядка 18 миллионов рублей и все они выдаются именно научным командам которые исследуют то как устроены те или иные экосистемы открытого кода и также, привлекают к проектам в этих экосистемах дополнительные ресурсы.
Ссылки:
[1] https://beta.nsf.gov/funding/opportunities/pathways-enable-open-source-ecosystems-pose
[2] https://www.nsf.gov/awardsearch/advancedSearchResult?ProgEleCode=211Y&BooleanElement=Any&BooleanRef=Any&ActiveAwards=true#results
#opendata #openaccess #opensource
NSF - National Science Foundation
Pathways to Enable Open-Source Ecosystems (POSE)
DuckDuckGo добавили в своё приложение для Android возможность отслеживать отслеживающих, перехватывать и блокировать отправку данных о пользователе трекерами в мобильных приложениях. Об этом в заметке в The Verge [1]․
У меня после обновления приложение активировалось только на одном Андроид устройстве, на втором пока говорит что надо присоединиться к листу ожидания.
На этом устройстве у меня сейчас нет госприложений, поэтому не могу ничего сказать про них, но обязательно проверю позже. Зато есть такие приложения как Яндекс Такси, Тинькофф банк и Discord. Их всех успешно DuckDuckGo перехватывает.
Думаю что скоро у DuckDuckGo будет потрясающая по масштабам база результатов мониторинга слежки и возможность рейтинговать приложения по её масштабам.
Обратите внимание - это не статический анализ и проверка на "принциальную возможность утечки", это отслеженные факты передачи данных о пользователе.
Само приложение DuckDuckGo можно поставить здесь [2]
P.S. Если у Вас стоят госприложения на телефоне из списка [3] не поленитесь потратить немного времени и замерить куда и какую информацию они сливают․ Присылайте скриншоты или ссылки на Ваши телеграм каналы если Вы запостите эти скриншоты туда.
Ссылки:
[1] https://www.theverge.com/2022/11/16/23462053/duckduckgo-app-tracking-tool-beta-android-users
[2] https://play.google.com/store/apps/details?id=com.duckduckgo.mobile.android
[3] https://apps.rustore.ru/state
#privacy #government #tracking
У меня после обновления приложение активировалось только на одном Андроид устройстве, на втором пока говорит что надо присоединиться к листу ожидания.
На этом устройстве у меня сейчас нет госприложений, поэтому не могу ничего сказать про них, но обязательно проверю позже. Зато есть такие приложения как Яндекс Такси, Тинькофф банк и Discord. Их всех успешно DuckDuckGo перехватывает.
Думаю что скоро у DuckDuckGo будет потрясающая по масштабам база результатов мониторинга слежки и возможность рейтинговать приложения по её масштабам.
Обратите внимание - это не статический анализ и проверка на "принциальную возможность утечки", это отслеженные факты передачи данных о пользователе.
Само приложение DuckDuckGo можно поставить здесь [2]
P.S. Если у Вас стоят госприложения на телефоне из списка [3] не поленитесь потратить немного времени и замерить куда и какую информацию они сливают․ Присылайте скриншоты или ссылки на Ваши телеграм каналы если Вы запостите эти скриншоты туда.
Ссылки:
[1] https://www.theverge.com/2022/11/16/23462053/duckduckgo-app-tracking-tool-beta-android-users
[2] https://play.google.com/store/apps/details?id=com.duckduckgo.mobile.android
[3] https://apps.rustore.ru/state
#privacy #government #tracking
Mother Duck, компания созданная для развития СУБД DuckDB получили $47.5 миллионов инвестиций от Andreessen Horowitz [1]․ У них забавный лозунг Making analytics fun, frictionless and ducking awesome. Ducking awesome звучит особенно замечательно, невозможно перевести это с языка оригинала.
Для тех кто не помнит, DuckDB - это такая OLAP база данных, работающая полностью в памяти и внутри процесса из которого запускается. Её называют SQLite для аналитики и вокруг неё уже выстроилось большое сообщество, создан специальный фонд DuckDB Foundation [2] в который входят многие компании, включая Mother Duck, Mode, Posit и другие компании, в основном стартапы.
Как бы то ни было если Вы занимаетесь обсчётом больших данных в аналитических СУБД, то попробовать DuckDB стоит .
Ссылки:
[1] https://techcrunch.com/2022/11/15/motherduck-secures-investment-from-andreessen-horowitz-to-commercialize-duckdb/
[2] https://duckdb.org/foundation/
#startups #data #datatools
Для тех кто не помнит, DuckDB - это такая OLAP база данных, работающая полностью в памяти и внутри процесса из которого запускается. Её называют SQLite для аналитики и вокруг неё уже выстроилось большое сообщество, создан специальный фонд DuckDB Foundation [2] в который входят многие компании, включая Mother Duck, Mode, Posit и другие компании, в основном стартапы.
Как бы то ни было если Вы занимаетесь обсчётом больших данных в аналитических СУБД, то попробовать DuckDB стоит .
Ссылки:
[1] https://techcrunch.com/2022/11/15/motherduck-secures-investment-from-andreessen-horowitz-to-commercialize-duckdb/
[2] https://duckdb.org/foundation/
#startups #data #datatools
TechCrunch
MotherDuck secures investment from Andreessen Horowitz to commercialize DuckDB
Jordan Tigani — a founding engineer at Google BigQuery, Google’s fully managed data analysis platform — was working as the chief product officer at SingleStore when he noticed that the vast majority of database workloads were small (less than 10GB in size)…
В рубрике больших открытых наборов данных The Stack [1] 3.1 терабайта 300 миллионов файлов исходного кода на 30 языках программирования с разрешающими лицензиями (permissive licenses) на его повторное использование. Опубликован на Hugging Face, кроме программных языков, охватывает около 20 естественных языков (английский, китайский, испанский, русский и др.)
Является результатом проекта BigCode [2], совместных усилий команд ServiceNow и Hugging Face․
Можно сказать что это большой шаг вперед к развитию языковых моделей для программного кода и появлению новых продуктов похожих на Github Copilot и аналоги, но, на сей раз, с соблюдением лицензионной чистоты.
А также большой тред в твиттере с рассказом об этом наборе данных [3]
Ссылки:
[1] https://huggingface.co/datasets/bigcode/the-stack
[2] https://www.bigcode-project.org/
[3] https://twitter.com/BigCodeProject/status/1585631176353796097
#opendata #opensource #datasets
Является результатом проекта BigCode [2], совместных усилий команд ServiceNow и Hugging Face․
Можно сказать что это большой шаг вперед к развитию языковых моделей для программного кода и появлению новых продуктов похожих на Github Copilot и аналоги, но, на сей раз, с соблюдением лицензионной чистоты.
А также большой тред в твиттере с рассказом об этом наборе данных [3]
Ссылки:
[1] https://huggingface.co/datasets/bigcode/the-stack
[2] https://www.bigcode-project.org/
[3] https://twitter.com/BigCodeProject/status/1585631176353796097
#opendata #opensource #datasets
Прекрасное руководство [1] с примерами по тому как можно визуализировать реки и затопленные территории с помощью QGIS и RiverREM [2], библиотеки для Python из проекта OpenTopography.
Примеры все из США где в рамках программы 3D Elevation Program [4] сейчас оцифрована почти каждая миля страны с высокой степенью геометрической детализации.
Есть, также, очень подробное руководство как создавать именно такие картинки [5] с использованием файлов DEM (Digital elevation model), а на Flickr есть коллекция изображений подобных этим [6] которые можно использовать в некоммерческих целях.
Ссылки:
[1] https://www.beautifulpublicdata.com/visualizing-rivers-and-floodplains/
[2] https://github.com/klarrieu/RiverREM
[3] https://opentopography.org/
[4] https://www.usgs.gov/3d-elevation-program
[5] https://dancoecarto.com/creating-rems-in-qgis-the-idw-method
[6] https://www.flickr.com/photos/165735975@N07/sets/72177720300430208/
#dataviz #opendata
Примеры все из США где в рамках программы 3D Elevation Program [4] сейчас оцифрована почти каждая миля страны с высокой степенью геометрической детализации.
Есть, также, очень подробное руководство как создавать именно такие картинки [5] с использованием файлов DEM (Digital elevation model), а на Flickr есть коллекция изображений подобных этим [6] которые можно использовать в некоммерческих целях.
Ссылки:
[1] https://www.beautifulpublicdata.com/visualizing-rivers-and-floodplains/
[2] https://github.com/klarrieu/RiverREM
[3] https://opentopography.org/
[4] https://www.usgs.gov/3d-elevation-program
[5] https://dancoecarto.com/creating-rems-in-qgis-the-idw-method
[6] https://www.flickr.com/photos/165735975@N07/sets/72177720300430208/
#dataviz #opendata