В рубрике полезных инструментов по работе с данными, инструменты по документированию баз данных.
- schemaspy [1] довольно древний популярный инструмент по генерации документации к базам данных. На входе настройки подключения, на выходе папка с HTML файлами. Сам движок написан на Java, поддерживает только SQL базы данных, но не все.
- dbdocs.io [2] онлайн сервис/продукт по генерации документации к базам данных․ Кусочек в открытом
коде, но сам сервис онлайн. Self hosted версии пока нет․ Эта же команда разработчики стандарта DBML [3] по описанию баз данных
- tbls [4] движок по генерации документации написанный на Go. В том числе поддерживает NoSQL и генерацию документации в разных форматах и с очень гибкими настройками.
- SchemaCrawler [5] открытый код на Java и поддержка любой СУБД через JDBC, очень много возможностей и опций.
А также есть много узкоспециализированных инструментов и коммерческих продуктов.
В средних и крупных компаниях сейчас такими инструментами пользуются редко поскольку мигрируют на каталоги данных и системы управления метаданными, поскольку важнее становится не только то где данные хранятся, а все объекты дата-инженерии, взаимосвязи, data lineage (нет нормального перевода этого термина) и так далее.
Тем не менее инструменты документирования данных имеют своё применение. Лично я предполагаю их будущее в направлении загрузки данных в каталоги данных.
Ссылки:
[1] https://github.com/schemaspy/schemaspy
[2] https://dbdocs.io
[3] https://www.dbml.org
[4] https://github.com/k1LoW/tbls
[5] https://github.com/schemacrawler/SchemaCrawler
#data #datatools #opensource #datadocumentation #datacatalogs
- schemaspy [1] довольно древний популярный инструмент по генерации документации к базам данных. На входе настройки подключения, на выходе папка с HTML файлами. Сам движок написан на Java, поддерживает только SQL базы данных, но не все.
- dbdocs.io [2] онлайн сервис/продукт по генерации документации к базам данных․ Кусочек в открытом
коде, но сам сервис онлайн. Self hosted версии пока нет․ Эта же команда разработчики стандарта DBML [3] по описанию баз данных
- tbls [4] движок по генерации документации написанный на Go. В том числе поддерживает NoSQL и генерацию документации в разных форматах и с очень гибкими настройками.
- SchemaCrawler [5] открытый код на Java и поддержка любой СУБД через JDBC, очень много возможностей и опций.
А также есть много узкоспециализированных инструментов и коммерческих продуктов.
В средних и крупных компаниях сейчас такими инструментами пользуются редко поскольку мигрируют на каталоги данных и системы управления метаданными, поскольку важнее становится не только то где данные хранятся, а все объекты дата-инженерии, взаимосвязи, data lineage (нет нормального перевода этого термина) и так далее.
Тем не менее инструменты документирования данных имеют своё применение. Лично я предполагаю их будущее в направлении загрузки данных в каталоги данных.
Ссылки:
[1] https://github.com/schemaspy/schemaspy
[2] https://dbdocs.io
[3] https://www.dbml.org
[4] https://github.com/k1LoW/tbls
[5] https://github.com/schemacrawler/SchemaCrawler
#data #datatools #opensource #datadocumentation #datacatalogs
GitHub
GitHub - schemaspy/schemaspy: Database documentation built easy
Database documentation built easy. Contribute to schemaspy/schemaspy development by creating an account on GitHub.
Вышел доклад/исследование State of Frontend [1] по технологиям фронтэнд разработки основанный на опросе 3703 разработчиков и с комментариями нескольких экспертов. Хотя я лично и далёк от темы фронтэнда, но тут большой любопытный текст с интересными результатами.
Вот подборка фактов:
- большинство прошедших опрос работают дистанционно: 59.7%, ещё 35.3% в гибридном формате
- в безусловных лидерах фреймворки Angular (51%) и React (25%), наиболее перспективные Svelte и Next.js
- самые популярные дизайн системы Material UI, Tailwind UI и Bootstrap
- Typescript используют 84% разработчиков и большинство (43%) считают что он заменит Javascript однажды
- большинство используют сервера AWS (Amazon) или свои собственные
- подавляющее большинство используют Visual Studio Code: 74.4%
И там ещё много всего, что-то кажется очевидным, что-то совсем нет. Например, про VS Code или про Typescript.
Ссылки:
[1] https://tsh.io/state-of-frontend/
#reports #research #frontend #javascript #development
Вот подборка фактов:
- большинство прошедших опрос работают дистанционно: 59.7%, ещё 35.3% в гибридном формате
- в безусловных лидерах фреймворки Angular (51%) и React (25%), наиболее перспективные Svelte и Next.js
- самые популярные дизайн системы Material UI, Tailwind UI и Bootstrap
- Typescript используют 84% разработчиков и большинство (43%) считают что он заменит Javascript однажды
- большинство используют сервера AWS (Amazon) или свои собственные
- подавляющее большинство используют Visual Studio Code: 74.4%
И там ещё много всего, что-то кажется очевидным, что-то совсем нет. Например, про VS Code или про Typescript.
Ссылки:
[1] https://tsh.io/state-of-frontend/
#reports #research #frontend #javascript #development
The Software House
The State of Frontend 2024
Based on surveys filled in by 6028 developers from 139 countries, the State of Frontend 2024 is supported by 23 expert commentaries about frontend trends and the future.
Полезное чтение про данные и не только:
- No, you don’t need MLOps [1] текст о том что MLOps это маркетинговый термин на который не надо покупаться и есть много инструментов настолько упростивших создание моделей для data science что покупаться на MLOps не нужно.
- Raster4ML [2] программная библиотека для Python по извлечению данных для машинного обучения из спутниковых снимков. По сути превращает растр в данные
- Command-line data analytics made easy [3] заметка про spysql, утилиту командной строки на Python позволяющей делать SQL подобные запросы к файлам CSV или JSON.
- Process Large Dataset with DataTable, Replacement for Pandas Library? [4] потенциальная альтернатива Pandas, библиотека datatables. Довольно давняя, но и Pandas интегрировано много с чем что сильно его ускоряет.
Ссылки:
[1] https://lakshmanok.medium.com/no-you-dont-need-mlops-5e1ce9fdaa4b
[2] https://raster4ml.readthedocs.io/index.html
[3] https://danielcmoura.com/blog/2022/spyql-cell-towers/
[4] https://towardsdev.com/process-large-dataset-with-datatable-replacement-for-pandas-library-31414cbba549
#readings #data #datatools #opensource
- No, you don’t need MLOps [1] текст о том что MLOps это маркетинговый термин на который не надо покупаться и есть много инструментов настолько упростивших создание моделей для data science что покупаться на MLOps не нужно.
- Raster4ML [2] программная библиотека для Python по извлечению данных для машинного обучения из спутниковых снимков. По сути превращает растр в данные
- Command-line data analytics made easy [3] заметка про spysql, утилиту командной строки на Python позволяющей делать SQL подобные запросы к файлам CSV или JSON.
- Process Large Dataset with DataTable, Replacement for Pandas Library? [4] потенциальная альтернатива Pandas, библиотека datatables. Довольно давняя, но и Pandas интегрировано много с чем что сильно его ускоряет.
Ссылки:
[1] https://lakshmanok.medium.com/no-you-dont-need-mlops-5e1ce9fdaa4b
[2] https://raster4ml.readthedocs.io/index.html
[3] https://danielcmoura.com/blog/2022/spyql-cell-towers/
[4] https://towardsdev.com/process-large-dataset-with-datatable-replacement-for-pandas-library-31414cbba549
#readings #data #datatools #opensource
Medium
No, You Don’t Need MLOps
Keep It Simple: the complexity of full MLOps is rarely needed
Forwarded from Пост Лукацкого
Похоже, ПЕРВАЯ УГОЛОВКА за использование VPN в личных целях!
Подписчик, Андрей Лаптев, прислал прекрасное. Томский районный суд приговорил гражданина К. к 3-м годам ограничения свободы за использование VPN-программы, квалифицировав данное деяние по ст.273 УК РФ (вредоносные программы). Осужденный признал, что с помощью VPN были нейтрализованы средства защиты компьютерной информации, выразившиеся в невозможности однозначной идентификации пользователя и его сетевой активности в сети «Интернет».
Оборот «регулярно осуществлял запуск вредоносной компьютерной программы со своего персонального компьютера, тем самым используя ее» поверг меня в легкий ступор, но такова уж наша судебная лексика.
Обратите внимание. Речь идет об ограничении свободы, а не о лишении. То есть в места не столь отдаленные👮 виновник не пойдет, но три года - это три года! Железный занавес 🤬 все ближе…
ЗЫ. По ссылка пока только резолютивная часть - приговор в силу еще не вступил.
Подписчик, Андрей Лаптев, прислал прекрасное. Томский районный суд приговорил гражданина К. к 3-м годам ограничения свободы за использование VPN-программы, квалифицировав данное деяние по ст.273 УК РФ (вредоносные программы). Осужденный признал, что с помощью VPN были нейтрализованы средства защиты компьютерной информации, выразившиеся в невозможности однозначной идентификации пользователя и его сетевой активности в сети «Интернет».
Оборот «регулярно осуществлял запуск вредоносной компьютерной программы со своего персонального компьютера, тем самым используя ее» поверг меня в легкий ступор, но такова уж наша судебная лексика.
Обратите внимание. Речь идет об ограничении свободы, а не о лишении. То есть в места не столь отдаленные
ЗЫ. По ссылка пока только резолютивная часть - приговор в силу еще не вступил.
Please open Telegram to view this post
VIEW IN TELEGRAM
Подробности по делу за использование VPN, на самом деле там оказался не VPN, а мессенжер Vipole
что ничуть не лучше, поскольку формулировки дела таковы:
...осуществил поиск вредоносной компьютерной программы «Vipole», выражающейся в невозможности однозначной идентификации пользователя сети «Интернет» и его сетевой активности...
и
...осознавая, что использование данной программы приведет к нейтрализации средств защиты компьютерной информации провайдеров, регулярно осуществлял запуск вредоносной компьютерной программы «Vipole» со своего персонального компьютера, тем самым используя ее...
Под эти формулировки попадают, и VPN, и мессенжеры вроде Signal и ещё много что.
#privacy #security #vpn #messengers
что ничуть не лучше, поскольку формулировки дела таковы:
...осуществил поиск вредоносной компьютерной программы «Vipole», выражающейся в невозможности однозначной идентификации пользователя сети «Интернет» и его сетевой активности...
и
...осознавая, что использование данной программы приведет к нейтрализации средств защиты компьютерной информации провайдеров, регулярно осуществлял запуск вредоносной компьютерной программы «Vipole» со своего персонального компьютера, тем самым используя ее...
Под эти формулировки попадают, и VPN, и мессенжеры вроде Signal и ещё много что.
#privacy #security #vpn #messengers
Для тех кто недавно подписался и в качестве регулярных напоминаний о том кто я и о чем тут пишу.
Я много лет в занимаюсь темой открытых данных и возглавляю АНО Инфокультура НКО со специализацией на открытости данных, государства и, в последние годы, приватности. Наши проекты включают Госзатраты, Открытые НКО, Простым языком и многие другие, их можно найти на сайте. У Инфокультуры есть телеграм канал @infoculture․ Много лет мы организовывали ежегодное мероприятие Open Data Day в России, в этом годы мы не стали этого делать поскольку как диалог с гос-вом она более не работает, большинство людей активно действовавших в открытости гос-ва покинули Россию.
Также я являюсь основателем проекта Национальный цифровой архив (Ruarxive) в котором наша команда архивирует сайты и иной цифровой контент находящиеся под угрозой исчезновения. О нём можно узнать больше в телеграм канале @ruarxive.
Цифровой архив (Ruarxive) и исследования о приватности такие как Исследование приватности мобильных приложений в RuStore - это то на чём мы делали акцент последние пару лет, видя как ухудшается ситуация с открытостью в России.
Пока ещё всем этим удаётся заниматься, хотя и риски растут, а многие наши друзья и некоммерческие организации были признаны инагентами, покинули страну и подвергаются ничем не обоснованным гонениям. Но, безусловно, ресурсов на некоммерческую деятельность стало сильно меньше.
Сейчас значительная часть всей этой некоммерческой активности финансируется тем что она поддерживается нашей коммерческой ИТ компанией где наша ИТ команда делает коммерческие и некоммерческие ИТ проекты, часть из которых известны, часть гораздо меньше чем публичные некоммерческие проекты. Подробнее о нашей компании DataCoon и продаем сервисы через такие продукты как APICrafter.
В основе всех проектов лежит открытый код, значительная часть которого открыта нами и публикуется на нескольких аккаунтах на Github.
Я лично финансирую деятельность Инфокультуры и некоммерческие проекты занимаясь консалтингом, консультациями и преподаванием по темам работы с данными и передавая полученные средства на некоммерческую деятельность.
Из России вы можете помочь нашим проектам пожертвовав на сайте Инфокультуры, а также при заказе нам технологических проектов и продуктов можете быть уверены что часть этих средств пойдет на поддержание некоммерческой деятельности.
Также, для проекта Цифрового архива можно пожертвовать сервера, компьютеры, диски, системы хранения и сетевое оборудование. Мы используем его для создания резервных копий и улучшения инфраструктуры проекта.
В этом телеграм канале (@begtin) я пишу по темам открытости данных, технологиях, работы с данными в принципе, инженерии данных, государственных технологиях (gov tech) и стартапах.
Значительно реже, я пишу о общетехнологических вопросах и проблемам с которыми все мы сталкиваемся.
Пожалуйста, имейте это в виду когда подписываетесь, вполне возможно что темы этого канала могут оказаться слишком техническими для кого-то и недостаточно глубоко техническими для других.
#opendata #opensource #opengov #infoculture
Я много лет в занимаюсь темой открытых данных и возглавляю АНО Инфокультура НКО со специализацией на открытости данных, государства и, в последние годы, приватности. Наши проекты включают Госзатраты, Открытые НКО, Простым языком и многие другие, их можно найти на сайте. У Инфокультуры есть телеграм канал @infoculture․ Много лет мы организовывали ежегодное мероприятие Open Data Day в России, в этом годы мы не стали этого делать поскольку как диалог с гос-вом она более не работает, большинство людей активно действовавших в открытости гос-ва покинули Россию.
Также я являюсь основателем проекта Национальный цифровой архив (Ruarxive) в котором наша команда архивирует сайты и иной цифровой контент находящиеся под угрозой исчезновения. О нём можно узнать больше в телеграм канале @ruarxive.
Цифровой архив (Ruarxive) и исследования о приватности такие как Исследование приватности мобильных приложений в RuStore - это то на чём мы делали акцент последние пару лет, видя как ухудшается ситуация с открытостью в России.
Пока ещё всем этим удаётся заниматься, хотя и риски растут, а многие наши друзья и некоммерческие организации были признаны инагентами, покинули страну и подвергаются ничем не обоснованным гонениям. Но, безусловно, ресурсов на некоммерческую деятельность стало сильно меньше.
Сейчас значительная часть всей этой некоммерческой активности финансируется тем что она поддерживается нашей коммерческой ИТ компанией где наша ИТ команда делает коммерческие и некоммерческие ИТ проекты, часть из которых известны, часть гораздо меньше чем публичные некоммерческие проекты. Подробнее о нашей компании DataCoon и продаем сервисы через такие продукты как APICrafter.
В основе всех проектов лежит открытый код, значительная часть которого открыта нами и публикуется на нескольких аккаунтах на Github.
Я лично финансирую деятельность Инфокультуры и некоммерческие проекты занимаясь консалтингом, консультациями и преподаванием по темам работы с данными и передавая полученные средства на некоммерческую деятельность.
Из России вы можете помочь нашим проектам пожертвовав на сайте Инфокультуры, а также при заказе нам технологических проектов и продуктов можете быть уверены что часть этих средств пойдет на поддержание некоммерческой деятельности.
Также, для проекта Цифрового архива можно пожертвовать сервера, компьютеры, диски, системы хранения и сетевое оборудование. Мы используем его для создания резервных копий и улучшения инфраструктуры проекта.
В этом телеграм канале (@begtin) я пишу по темам открытости данных, технологиях, работы с данными в принципе, инженерии данных, государственных технологиях (gov tech) и стартапах.
Значительно реже, я пишу о общетехнологических вопросах и проблемам с которыми все мы сталкиваемся.
Пожалуйста, имейте это в виду когда подписываетесь, вполне возможно что темы этого канала могут оказаться слишком техническими для кого-то и недостаточно глубоко техническими для других.
#opendata #opensource #opengov #infoculture
Mage.ai свежий инструмент по организации пайплайнов для обработки данных [1]. Его команда позиционирует продукт как замену Airflow. За продуктом команда поднявшая $6.3M инвестиций в октябре 2021 года на ИИ инструмент для разаботчиков продукта.
Если честно, ИИ там не видно, но есть аналог Airflow со смазливым интерфейсом и неполной документацией. Тем не менее продукт любопытный, последить за ним стоит.
Ссылки:
[1] https://www.mage.ai/
[2] https://www.crunchbase.com/organization/mage-38af/company_financials
#data #startups #datatools
Если честно, ИИ там не видно, но есть аналог Airflow со смазливым интерфейсом и неполной документацией. Тем не менее продукт любопытный, последить за ним стоит.
Ссылки:
[1] https://www.mage.ai/
[2] https://www.crunchbase.com/organization/mage-38af/company_financials
#data #startups #datatools
В рубрике полезных инструментов по работе с данными, сервис GraphCommons [1] по визуализации графов онлайн. Он существует относительно давно и даже частично с открытым кодом [2] для подключения к нему программным образом.
Сервис позволяет рисовать довольно сложные графы, указывая типы объектов, виды связей и многое другое. Основное применение - это визуализация разного рода данных для презентаций или чтобы поделиться ими публично. Можно посмотреть на примере графа экосистемы открытости во Франции [3]. Выглядит неплохо, но не бизнес модель не тянет или тянет не до конца, компания не привлекала венчурного финансирования и создание графов в моменте не кажется ежедневно используемым продуктом. Для графов в расследованиях есть иные инструменты.
Тем не менее Graph Commons и Kumu, другой похожий продукт и компания, весьма любопытные продукты для визуализации графов.
На Kumu я когда-то делал довольно визуализаций помогающих структурировать какие-либо материалы, например, верхнеуровневый граф предустанавливаемого российского ПО в на телефоны для андроида [5]. Но это, что называется, самый что ни на есть простой пример, более сложные, увы, не имею права показывать. Но, в итоге, Kumu как продукт скорее разочаровывающий. Потенциал хороший, развитие минимальное.
Кроме этих двух продуктов есть много других: Neo4J, GraphXR, Aleph, Maltego, Linkurious, Graphistry и другие.
Ссылки:
[1] https://graphcommons.com
[2] https://github.com/graphcommons
[3] https://graphcommons.com/graphs/baa12ee7-e391-4f02-acd6-dda3b73d8c9d?show=info
[4] https://kumu.io/
[5] https://embed.kumu.io/db05ce5d67611103337a6a101da9d937
#graph #dataviz #startups #data
Сервис позволяет рисовать довольно сложные графы, указывая типы объектов, виды связей и многое другое. Основное применение - это визуализация разного рода данных для презентаций или чтобы поделиться ими публично. Можно посмотреть на примере графа экосистемы открытости во Франции [3]. Выглядит неплохо, но не бизнес модель не тянет или тянет не до конца, компания не привлекала венчурного финансирования и создание графов в моменте не кажется ежедневно используемым продуктом. Для графов в расследованиях есть иные инструменты.
Тем не менее Graph Commons и Kumu, другой похожий продукт и компания, весьма любопытные продукты для визуализации графов.
На Kumu я когда-то делал довольно визуализаций помогающих структурировать какие-либо материалы, например, верхнеуровневый граф предустанавливаемого российского ПО в на телефоны для андроида [5]. Но это, что называется, самый что ни на есть простой пример, более сложные, увы, не имею права показывать. Но, в итоге, Kumu как продукт скорее разочаровывающий. Потенциал хороший, развитие минимальное.
Кроме этих двух продуктов есть много других: Neo4J, GraphXR, Aleph, Maltego, Linkurious, Graphistry и другие.
Ссылки:
[1] https://graphcommons.com
[2] https://github.com/graphcommons
[3] https://graphcommons.com/graphs/baa12ee7-e391-4f02-acd6-dda3b73d8c9d?show=info
[4] https://kumu.io/
[5] https://embed.kumu.io/db05ce5d67611103337a6a101da9d937
#graph #dataviz #startups #data
В рубрике полезного регулярного чтения
Tragedy of the Digital Commons [1] свежая научная статья об открытом исходном коде и роли государства в контексте уязвимости Log4Shell. Суть статьи в размышлении вокруг проблемы того что сообщество открытого кода само не всегда может оперативно и с достаточными ресурсами реагировать на zero-day уязвимости и о том какова роль государства в этом всём. Автор приходит к мысли что государство выступает как орган стандартизации, клиент, регулятор и контрибьютор кода, а также как потенциальная ресурсная база для сообществ открытого кода. При этом то что саморегулирование в открытом коде распространено повсеместно и попытки прямого регулирования могут повредить.
GDP is getting a makeover — what it means for economies, health and the planet [2] статья в Nature о том том что GDP (ВВП) теперь является плохой метрикой экономики и что эта метрика должна быть заменена, приводятся несколько подходов к такой замене в том числе через Gross Ecosystem Product (GEP) [3]. Помимо всего прочего это может изменить подход к макроэкономической статистике и её расчетам.
Ethics, Integrity and Policymaking [4] книга об этичном регулировании и доказательной политике, в открытом доступе. Она вся построена из примеров в Хорватии, Великобритании, Индии, Эфиопии и не только. Плюс затрагивает тему регулирования и применения в регулировании искусственного интеллекта.
Data Structures the Fun Way [5] книга рассказывающая о структурах данных смешным образом. С сайта можно скачать одну главу, а целиком только если заказать онлайн. По сути книга о том как устроена организация разного типа данных, но в слегка юмористическом стиле в части примеров и диалогов. Полезно для всех кто разрабатывает базы данных и работает с данными в задачах требующих высокой производительности.
Ссылки:
[1] https://papers.ssrn.com/sol3/papers.cfm?abstract_id=4245266
[2] https://www.nature.com/articles/d41586-022-03576-w
[3] https://www.nature.com/articles/d41586-020-01390-w
[4] https://link.springer.com/book/10.1007/978-3-031-15746-2#about-this-book
[5] https://nostarch.com/data-structures-fun-way
#opensource #opengov #security #opendata #data #policymaking #readings
Tragedy of the Digital Commons [1] свежая научная статья об открытом исходном коде и роли государства в контексте уязвимости Log4Shell. Суть статьи в размышлении вокруг проблемы того что сообщество открытого кода само не всегда может оперативно и с достаточными ресурсами реагировать на zero-day уязвимости и о том какова роль государства в этом всём. Автор приходит к мысли что государство выступает как орган стандартизации, клиент, регулятор и контрибьютор кода, а также как потенциальная ресурсная база для сообществ открытого кода. При этом то что саморегулирование в открытом коде распространено повсеместно и попытки прямого регулирования могут повредить.
GDP is getting a makeover — what it means for economies, health and the planet [2] статья в Nature о том том что GDP (ВВП) теперь является плохой метрикой экономики и что эта метрика должна быть заменена, приводятся несколько подходов к такой замене в том числе через Gross Ecosystem Product (GEP) [3]. Помимо всего прочего это может изменить подход к макроэкономической статистике и её расчетам.
Ethics, Integrity and Policymaking [4] книга об этичном регулировании и доказательной политике, в открытом доступе. Она вся построена из примеров в Хорватии, Великобритании, Индии, Эфиопии и не только. Плюс затрагивает тему регулирования и применения в регулировании искусственного интеллекта.
Data Structures the Fun Way [5] книга рассказывающая о структурах данных смешным образом. С сайта можно скачать одну главу, а целиком только если заказать онлайн. По сути книга о том как устроена организация разного типа данных, но в слегка юмористическом стиле в части примеров и диалогов. Полезно для всех кто разрабатывает базы данных и работает с данными в задачах требующих высокой производительности.
Ссылки:
[1] https://papers.ssrn.com/sol3/papers.cfm?abstract_id=4245266
[2] https://www.nature.com/articles/d41586-022-03576-w
[3] https://www.nature.com/articles/d41586-020-01390-w
[4] https://link.springer.com/book/10.1007/978-3-031-15746-2#about-this-book
[5] https://nostarch.com/data-structures-fun-way
#opensource #opengov #security #opendata #data #policymaking #readings
Я регулярно писал о том что в России много открытых и общедоступных данных гос-ва через открытые API, нигде не документированные, но существующие [1]. Но это, конечно же, не только российская специфика и очень многие сайты создаются по архитектуре Jamstack [2] и данные подгружаются через вызовы REST API или запросы GraphQL.
Такой подход имеет много преимуществ при доступе с мобильных устройств и для ускорения настольных браузеров, но имеет один важнейший недостаток - контент сайтов выпадает из архивации. Поэтому, к примеру, многие данные с сайта Мэрии Москвы (mos.ru) не архивируются, они доступны только через API и не присутствуют в форме HTML кода.
А вот выдался и наглядный пример из другой страны. Относительно недавно обновился официальный сайт органов власти Республики Казахстан (www.gov.kz) [3]. Выглядит он сейчас весьма прилично, быстро грузится и обладает многими полезными характеристиками: удобным поиском, чёткой структурой и быстрым откликом.
И, как Вы уже догадались новый сайт Правительства Казахстана сделан именно таким. Почти весь контент отдаётся через GraphQL или REST API. Например, документы Министерства цифрового развития, инноваций и аэрокосмической промышленности Республики Казахстан [4] возвращаются именно через такое API [5]. Аналогично новости, события, вакансии, госуслуги, жизненные ситуации и тд. по всем организациям на этом портале.
Казалось бы почему бы не публиковать их сразу как открытые данные? Но это другой вопрос. Сейчас ничто не мешает желающим превращать данные из API с этого сайта/этой госсистемы в общедоступные наборы данных.
Но, конечно, это никак не поможет тому что сайт gov.kz будет хуже индексироваться поисковыми системами, что архивы материалов в Интернет-архиве (archive.org) будут не полны и что если теперь делать архивную копию этого сайта, то надо учитывать ещё и его API.
Ссылки:
[1] https://t.iss.one/begtin/3303
[2] https://jamstack.org/
[3] https://www.gov.kz
[4] https://www.gov.kz/memleket/entities/mdai?lang=ru
[5] https://www.gov.kz/api/v1/public/content-manager/documents?sort-by=created_date:DESC&projects=eq:mdai&page=1&size=10
#opendata #opengov #digitalpreservation #webarchives #api #government #kazakhstan
Такой подход имеет много преимуществ при доступе с мобильных устройств и для ускорения настольных браузеров, но имеет один важнейший недостаток - контент сайтов выпадает из архивации. Поэтому, к примеру, многие данные с сайта Мэрии Москвы (mos.ru) не архивируются, они доступны только через API и не присутствуют в форме HTML кода.
А вот выдался и наглядный пример из другой страны. Относительно недавно обновился официальный сайт органов власти Республики Казахстан (www.gov.kz) [3]. Выглядит он сейчас весьма прилично, быстро грузится и обладает многими полезными характеристиками: удобным поиском, чёткой структурой и быстрым откликом.
И, как Вы уже догадались новый сайт Правительства Казахстана сделан именно таким. Почти весь контент отдаётся через GraphQL или REST API. Например, документы Министерства цифрового развития, инноваций и аэрокосмической промышленности Республики Казахстан [4] возвращаются именно через такое API [5]. Аналогично новости, события, вакансии, госуслуги, жизненные ситуации и тд. по всем организациям на этом портале.
Казалось бы почему бы не публиковать их сразу как открытые данные? Но это другой вопрос. Сейчас ничто не мешает желающим превращать данные из API с этого сайта/этой госсистемы в общедоступные наборы данных.
Но, конечно, это никак не поможет тому что сайт gov.kz будет хуже индексироваться поисковыми системами, что архивы материалов в Интернет-архиве (archive.org) будут не полны и что если теперь делать архивную копию этого сайта, то надо учитывать ещё и его API.
Ссылки:
[1] https://t.iss.one/begtin/3303
[2] https://jamstack.org/
[3] https://www.gov.kz
[4] https://www.gov.kz/memleket/entities/mdai?lang=ru
[5] https://www.gov.kz/api/v1/public/content-manager/documents?sort-by=created_date:DESC&projects=eq:mdai&page=1&size=10
#opendata #opengov #digitalpreservation #webarchives #api #government #kazakhstan
Telegram
Ivan Begtin
Я регулярно пишу о том что у многих информационных систем и иных публичных ресурсов государства есть много недокументированных API. Причём эти API имеют, как правило, две истории происхождения:
a) API сделанные разработчиками для работы каких-то компонентов…
a) API сделанные разработчиками для работы каких-то компонентов…
Такое чувство что всех дата продуктами интересуется, пользуется и развивается как аналитик данных и дата инженер не обошла тема modern data stack. Я регулярно писал о том как эта концепция набирала обороты последние 2-3 года и сейчас превратилась в какой-то непрерывный хайп. Вот и автор текста Is It Time To Rebrand (or Rethink) the Modern Data Stack? [1] соучредитель стартапа Validio задаётся тем же вопросом.
Не пора переосмыслить само это понятие?
А с другой стороны интервью с основателем dbt по поводу партнерств в Modern data stack [2].
Лично я бы сказал так, что для применения в гос продуктах modern data stack пока, практически, невозможен или крайне ограничен, поскольку все танцы с бубном тут вокруг облачных хранилищ и их экосистемы.
А для стартапов и корпоративных продуктов и дата инфраструктуры это актуально, но надо делить на 10 все обещания "серебрянных пуль". И отдавать себе отчет в рисках и моделировании инфраструктуры из десятков компонентов вне своего прямого контроля.
Ссылки:
[1] https://betterprogramming.pub/is-it-time-to-rebrand-or-rethink-the-modern-data-stack-5d76366e3c95
[2] https://www.madrona.com/dbt-labs-founder-tristan-handy-on-the-modern-data-stack-partnerships-and-creating-community/
#moderndatastack #data #readings
Не пора переосмыслить само это понятие?
А с другой стороны интервью с основателем dbt по поводу партнерств в Modern data stack [2].
Лично я бы сказал так, что для применения в гос продуктах modern data stack пока, практически, невозможен или крайне ограничен, поскольку все танцы с бубном тут вокруг облачных хранилищ и их экосистемы.
А для стартапов и корпоративных продуктов и дата инфраструктуры это актуально, но надо делить на 10 все обещания "серебрянных пуль". И отдавать себе отчет в рисках и моделировании инфраструктуры из десятков компонентов вне своего прямого контроля.
Ссылки:
[1] https://betterprogramming.pub/is-it-time-to-rebrand-or-rethink-the-modern-data-stack-5d76366e3c95
[2] https://www.madrona.com/dbt-labs-founder-tristan-handy-on-the-modern-data-stack-partnerships-and-creating-community/
#moderndatastack #data #readings
Пока все обсуждают разного рода макрополитические аспекты саммита G20 я не могу не обратить внимание на обсуждавшиеся там вопросы открытости. А на саммите обсуждались темы связанные с прозрачностью и открытостью. Подробнее можно прочитать в B20 Indonesia 2022. Integrity and compliance task force. Policy paper [1]. Там же есть и про открытые данные в других областях, важно что тема не просто есть на повестке, но и развивается.
#opendata #opengov
Ссылки:
[1] https://t.co/T6Jd3B6sCH
#opendata #opengov
Ссылки:
[1] https://t.co/T6Jd3B6sCH
Сейчас многие активно обсуждают решение Сената Франции с рекомендацией Правительству Франции о признании Нагорно-Карабахской республики и призывом к выводу азербайджанских войск с территории Республики Армения [1], а я как раз давно планировал написать о том как Сенат Франции публикует данные о своей деятельности.
На сайте Сената есть баннер со ссылкой на их портал открытых данных [2] где не только собраны сведения о выборах, принятых законопроектах, сенаторах, полученных ими грантах и всё это в форматах CSV, JSON и XML, но там также есть такое редкое явление как полные дампы базы данных публикуемые в формате SQL дампов для СУБД Postgres.
Например, база поправок в законодательство, Ameli [3] и в 100 мегабайтном ZIP файле содержит 500 мегабайтный SQL файл. Для полной радости не хватает только чтобы они вообще всю базу целиком публиковали для выгрузки, а не несколькими SQL файлами и чтобы к данным и к дампам баз данных была бы более полная документация.
Ссылки:
[1] https://www.senat.fr/dossier-legislatif/ppr22-003.html
[2] https://data.senat.fr/
[3] https://data.senat.fr/ameli/
#opendata #datasets #france #parliaments #opengov
На сайте Сената есть баннер со ссылкой на их портал открытых данных [2] где не только собраны сведения о выборах, принятых законопроектах, сенаторах, полученных ими грантах и всё это в форматах CSV, JSON и XML, но там также есть такое редкое явление как полные дампы базы данных публикуемые в формате SQL дампов для СУБД Postgres.
Например, база поправок в законодательство, Ameli [3] и в 100 мегабайтном ZIP файле содержит 500 мегабайтный SQL файл. Для полной радости не хватает только чтобы они вообще всю базу целиком публиковали для выгрузки, а не несколькими SQL файлами и чтобы к данным и к дампам баз данных была бы более полная документация.
Ссылки:
[1] https://www.senat.fr/dossier-legislatif/ppr22-003.html
[2] https://data.senat.fr/
[3] https://data.senat.fr/ameli/
#opendata #datasets #france #parliaments #opengov
www.senat.fr
Établir une paix durable entre l'Arménie et l'Azerbaïdjan - Sénat
proposition de résolution en application de l'article 34-1 de la Constitution, visant à appliquer des sanctions à l'encontre de l'Azerbaïdjan et exiger son retrait immédiat du territoire arménien, à faire respecter l'accord de cessez-le-feu du 9 novembre…
По поводу новости о том что российские власти в лице Минюста РФ хотят публиковать в открытом доступе СНИЛС и ИНН иностранных агентов [1] я многое могу об этом сказать, но начну с того что сама практика публикации персональных и личных данных граждан является ущербной.
В российском законе о персональных данных была и есть оговорка о том что их использование, по смыслу, включая раскрытие возможно в соответствии с нормативно-правовыми актами. Чаще всего эта практика шла, либо от целенаправленной дискриминации определённых групп граждан, или от идиотского сочетания устоявшихся юридических практик и законов которые этого не учитывали.
Несколько лет назад я публиковал исследование Утечки персональных данных из государственных информационных систем. Открытая часть доклада [2] со множеством примеров когда из государственных официальных информационных систем и реестров публиковались паспортные данные, ИНН, СНИЛС и иные персональные данные граждан. Самая яркая из описанных там историй - это раскрытие данных о СНИЛС в электронных сертификатах и цифровых подписях к документам сделанных этими сертификатами.
Другой пример в виде дискриминируемых групп был в раскрытии данных о людях подозреваемых в преступлениях, например, в сообщениях арбитражных судов [3] и разного рода уполномоченных гос-вом агентов.
До недавних пор чиновников обязанных сдавать декларации публикуемые на сайтах органов власти также можно было бы отнести к подобным дискриминируемым меньшинствам. Эта дискриминация была основана на контроле над бюрократией со стороны политического руководства и большим пластом международных практик, соглашений, инициатив по прозрачности государства. А то есть контроль политической власти над властью административной.
Сейчас, когда Минюст инициирует раскрытие данных персональных данных иностранных агентов, де факто - это как раз пример признания власти другой группы лиц, в данном случае обладающих медийной властью (по мнению Минюста, полагаю). Что, разумеется, большое лукавство и сам способ дискриминации выглядит не только архаично, но и предельно цинично.
Как и всё законодательство об инагентах эта инициатива весьма порочна по своей природе. Лично я считаю что законодательство должно меняться в сторону снижения раскрытия личных данных о гражданах, а не политически мотивированным расширением.
В России именно государство, в своей широкой массе органов власти, бюджетных учреждений и уполномоченных организаций, и является совокупностью крупнейших нарушений в сборе и публикации персональных данных. И с той поры как я публиковал то исследование по "легальным утечкам" персональных данных мало что изменилось.
Ссылки:
[1] https://www.rbc.ru/politics/13/11/2022/6370be7d9a79471426620f95
[2] https://begtin.tech/pdleaks-p3-govsys/
[3] https://www.asv.org.ru/news/612038
#privacy #security #data #personaldata
В российском законе о персональных данных была и есть оговорка о том что их использование, по смыслу, включая раскрытие возможно в соответствии с нормативно-правовыми актами. Чаще всего эта практика шла, либо от целенаправленной дискриминации определённых групп граждан, или от идиотского сочетания устоявшихся юридических практик и законов которые этого не учитывали.
Несколько лет назад я публиковал исследование Утечки персональных данных из государственных информационных систем. Открытая часть доклада [2] со множеством примеров когда из государственных официальных информационных систем и реестров публиковались паспортные данные, ИНН, СНИЛС и иные персональные данные граждан. Самая яркая из описанных там историй - это раскрытие данных о СНИЛС в электронных сертификатах и цифровых подписях к документам сделанных этими сертификатами.
Другой пример в виде дискриминируемых групп был в раскрытии данных о людях подозреваемых в преступлениях, например, в сообщениях арбитражных судов [3] и разного рода уполномоченных гос-вом агентов.
До недавних пор чиновников обязанных сдавать декларации публикуемые на сайтах органов власти также можно было бы отнести к подобным дискриминируемым меньшинствам. Эта дискриминация была основана на контроле над бюрократией со стороны политического руководства и большим пластом международных практик, соглашений, инициатив по прозрачности государства. А то есть контроль политической власти над властью административной.
Сейчас, когда Минюст инициирует раскрытие данных персональных данных иностранных агентов, де факто - это как раз пример признания власти другой группы лиц, в данном случае обладающих медийной властью (по мнению Минюста, полагаю). Что, разумеется, большое лукавство и сам способ дискриминации выглядит не только архаично, но и предельно цинично.
Как и всё законодательство об инагентах эта инициатива весьма порочна по своей природе. Лично я считаю что законодательство должно меняться в сторону снижения раскрытия личных данных о гражданах, а не политически мотивированным расширением.
В России именно государство, в своей широкой массе органов власти, бюджетных учреждений и уполномоченных организаций, и является совокупностью крупнейших нарушений в сборе и публикации персональных данных. И с той поры как я публиковал то исследование по "легальным утечкам" персональных данных мало что изменилось.
Ссылки:
[1] https://www.rbc.ru/politics/13/11/2022/6370be7d9a79471426620f95
[2] https://begtin.tech/pdleaks-p3-govsys/
[3] https://www.asv.org.ru/news/612038
#privacy #security #data #personaldata
Недавно я написал про то какое открытое API есть на сайте органов власти Казахстана [1], такой подход к доступу к контенту имеет свои плюсы и минусы. Да, минус в сложности архивации, но плюсы в скорости отображения, в работе на мобильных устройствах и тд. В целом можно обсуждать и дискутировать насколько он оправдан и что задачи архивации можно решать, например, публикацией наборов данных.
Но, изначально, к мыслям о проблемах доступа к материалам меня натолкнул последний сайт российского Росстата где с недавних пор почти весь контент подгружается через Javascript.
Возьмём любую произвольную страницу со списком публикаций [2]. Внутри страницы нет HTML контента, только обрамление, а реальный контент подгружается через Ajax запрос который возвращает JSON объект внутри которого HTML веб страница [3].
Такой подход применяют когда есть цель целенаправленно ограничить доступ поисковых систем и краулеров к контенту. Или по большому недомыслию.
Всегда хочется надеяться на второе, но приходится учитывать и первое.
Это не означает что контент на сайте Росстата не индексируется, если даётся ссылка на прямую публикацию, вроде такой [4] то там есть контент и она будет проиндексирована. Но это уже не заслуга сотрудников Росстата, а скорее если кто-то на эти публикации где-то ещё ссылается. Иначе говоря глобальные поисковики индексируют сайт и документы Росстата потому что другие сайты ссылаются на отдельные документы, но сам сайт организован так чтобы индексирование было ограничено.
Ссылки:
[1] https://t.iss.one/begtin/4380
[2] https://rosstat.gov.ru/compendium
[3] https://rosstat.gov.ru/compendium/getPage?page=1&order=
[4] https://rosstat.gov.ru/compendium/document/50801
#data #statistics #government #opendata
Но, изначально, к мыслям о проблемах доступа к материалам меня натолкнул последний сайт российского Росстата где с недавних пор почти весь контент подгружается через Javascript.
Возьмём любую произвольную страницу со списком публикаций [2]. Внутри страницы нет HTML контента, только обрамление, а реальный контент подгружается через Ajax запрос который возвращает JSON объект внутри которого HTML веб страница [3].
Такой подход применяют когда есть цель целенаправленно ограничить доступ поисковых систем и краулеров к контенту. Или по большому недомыслию.
Всегда хочется надеяться на второе, но приходится учитывать и первое.
Это не означает что контент на сайте Росстата не индексируется, если даётся ссылка на прямую публикацию, вроде такой [4] то там есть контент и она будет проиндексирована. Но это уже не заслуга сотрудников Росстата, а скорее если кто-то на эти публикации где-то ещё ссылается. Иначе говоря глобальные поисковики индексируют сайт и документы Росстата потому что другие сайты ссылаются на отдельные документы, но сам сайт организован так чтобы индексирование было ограничено.
Ссылки:
[1] https://t.iss.one/begtin/4380
[2] https://rosstat.gov.ru/compendium
[3] https://rosstat.gov.ru/compendium/getPage?page=1&order=
[4] https://rosstat.gov.ru/compendium/document/50801
#data #statistics #government #opendata
В рубрике "как это устроено у них" программа Pathways to Enable Open-Source Ecosystems (POSE) [1] от Национального научного фонда США по финансированию экосистемы открытого кода. Общая сумма фонда 8 миллионов долларов (около 480 миллионов рублей)
Полный список из 25 проектов включает проекты по гражданской науке, по развитию продуктов с открытым кодом для создания экосистемы открытых данных [2]․ Средний размер гранта на этой фазе (Phase 1) - это $300 тысяч, это порядка 18 миллионов рублей и все они выдаются именно научным командам которые исследуют то как устроены те или иные экосистемы открытого кода и также, привлекают к проектам в этих экосистемах дополнительные ресурсы.
Ссылки:
[1] https://beta.nsf.gov/funding/opportunities/pathways-enable-open-source-ecosystems-pose
[2] https://www.nsf.gov/awardsearch/advancedSearchResult?ProgEleCode=211Y&BooleanElement=Any&BooleanRef=Any&ActiveAwards=true#results
#opendata #openaccess #opensource
Полный список из 25 проектов включает проекты по гражданской науке, по развитию продуктов с открытым кодом для создания экосистемы открытых данных [2]․ Средний размер гранта на этой фазе (Phase 1) - это $300 тысяч, это порядка 18 миллионов рублей и все они выдаются именно научным командам которые исследуют то как устроены те или иные экосистемы открытого кода и также, привлекают к проектам в этих экосистемах дополнительные ресурсы.
Ссылки:
[1] https://beta.nsf.gov/funding/opportunities/pathways-enable-open-source-ecosystems-pose
[2] https://www.nsf.gov/awardsearch/advancedSearchResult?ProgEleCode=211Y&BooleanElement=Any&BooleanRef=Any&ActiveAwards=true#results
#opendata #openaccess #opensource
NSF - National Science Foundation
Pathways to Enable Open-Source Ecosystems (POSE)
DuckDuckGo добавили в своё приложение для Android возможность отслеживать отслеживающих, перехватывать и блокировать отправку данных о пользователе трекерами в мобильных приложениях. Об этом в заметке в The Verge [1]․
У меня после обновления приложение активировалось только на одном Андроид устройстве, на втором пока говорит что надо присоединиться к листу ожидания.
На этом устройстве у меня сейчас нет госприложений, поэтому не могу ничего сказать про них, но обязательно проверю позже. Зато есть такие приложения как Яндекс Такси, Тинькофф банк и Discord. Их всех успешно DuckDuckGo перехватывает.
Думаю что скоро у DuckDuckGo будет потрясающая по масштабам база результатов мониторинга слежки и возможность рейтинговать приложения по её масштабам.
Обратите внимание - это не статический анализ и проверка на "принциальную возможность утечки", это отслеженные факты передачи данных о пользователе.
Само приложение DuckDuckGo можно поставить здесь [2]
P.S. Если у Вас стоят госприложения на телефоне из списка [3] не поленитесь потратить немного времени и замерить куда и какую информацию они сливают․ Присылайте скриншоты или ссылки на Ваши телеграм каналы если Вы запостите эти скриншоты туда.
Ссылки:
[1] https://www.theverge.com/2022/11/16/23462053/duckduckgo-app-tracking-tool-beta-android-users
[2] https://play.google.com/store/apps/details?id=com.duckduckgo.mobile.android
[3] https://apps.rustore.ru/state
#privacy #government #tracking
У меня после обновления приложение активировалось только на одном Андроид устройстве, на втором пока говорит что надо присоединиться к листу ожидания.
На этом устройстве у меня сейчас нет госприложений, поэтому не могу ничего сказать про них, но обязательно проверю позже. Зато есть такие приложения как Яндекс Такси, Тинькофф банк и Discord. Их всех успешно DuckDuckGo перехватывает.
Думаю что скоро у DuckDuckGo будет потрясающая по масштабам база результатов мониторинга слежки и возможность рейтинговать приложения по её масштабам.
Обратите внимание - это не статический анализ и проверка на "принциальную возможность утечки", это отслеженные факты передачи данных о пользователе.
Само приложение DuckDuckGo можно поставить здесь [2]
P.S. Если у Вас стоят госприложения на телефоне из списка [3] не поленитесь потратить немного времени и замерить куда и какую информацию они сливают․ Присылайте скриншоты или ссылки на Ваши телеграм каналы если Вы запостите эти скриншоты туда.
Ссылки:
[1] https://www.theverge.com/2022/11/16/23462053/duckduckgo-app-tracking-tool-beta-android-users
[2] https://play.google.com/store/apps/details?id=com.duckduckgo.mobile.android
[3] https://apps.rustore.ru/state
#privacy #government #tracking