Думал делать обзорную рассылку ежемесячно, но получается еженедельно. Очередной пост на Substack https://begtin.substack.com/p/2- "#2. Наблюдаемость данных, государство - это формы, как учёные работают с данными"
Ivan’s Begtin Newsletter on digital, open and preserved government
#2. Наблюдаемость данных, государство - это формы, как учёные работают с данными
Несмотря на моё желание писать большие тексты с рефлексией на профессиональные темы лишь раз в месяц, но получается чаще. Скорее к радости, чем к сожалению, больше тем для размышления в последнее время. Data Observability Источник: https://medium.com/@co…
В США на портале USASpending.gov теперь есть отдельный раздел COVID-19 Spending [1] где собраны все контракты, субсидии, гранты, строки бюджета, бюджетные обязательства и кредиты направленные на борьбу с COVID-19.
Как это реализуется? Для чрезвычайных ситуаций в системе контрактации США есть специальные Disaster Emergency Fund Codes (DEFC) [2], коды финансирования при чрезвычайных ситуациях, заполняемые только в случаях если расходы идут для ликвидации последствий, предупреждения или мерам реагирования при чрезвычайной ситуации.
И, в целом, у USASPending хорошо описана методология работы с этими данными [3].
Наш, российский портал Госрасходы, spending.gov.ru [4] похож на портал в США, с тем лишь различием что в России раскрытие сведений о контрактах - это побочный результат раскрытия сведений о процедурах закупок, а в США, наоборот, сведения о закупках и раскрытие информации о расходах разнесены между информационными системами. Их USASpending охватывает не только закупки и субсидии, но и все прямые платежи из федерального бюджета, а Госрасходах охватываются контракты всех уровней в России, но нет охвата транзакций.
В, принципе, российская система раскрытия информации о госфинансах одна из самых открытых в мире, даже несмотря на закрытие информации о поставщикам по контрактам по 223-ФЗ в 2018 году, принятое в рамках антисанкционных мер.
Ссылки:
[1] https://www.usaspending.gov/disaster/covid-19
[2] https://www.whitehouse.gov/wp-content/uploads/2020/04/Implementation-Guidance-for-Supplemental-Funding-Provided-in-Response.pdf
[3] https://www.usaspending.gov/disaster/covid-19/data-sources
[4] https://spending.gov.ru
#spending #usa
Как это реализуется? Для чрезвычайных ситуаций в системе контрактации США есть специальные Disaster Emergency Fund Codes (DEFC) [2], коды финансирования при чрезвычайных ситуациях, заполняемые только в случаях если расходы идут для ликвидации последствий, предупреждения или мерам реагирования при чрезвычайной ситуации.
И, в целом, у USASPending хорошо описана методология работы с этими данными [3].
Наш, российский портал Госрасходы, spending.gov.ru [4] похож на портал в США, с тем лишь различием что в России раскрытие сведений о контрактах - это побочный результат раскрытия сведений о процедурах закупок, а в США, наоборот, сведения о закупках и раскрытие информации о расходах разнесены между информационными системами. Их USASpending охватывает не только закупки и субсидии, но и все прямые платежи из федерального бюджета, а Госрасходах охватываются контракты всех уровней в России, но нет охвата транзакций.
В, принципе, российская система раскрытия информации о госфинансах одна из самых открытых в мире, даже несмотря на закрытие информации о поставщикам по контрактам по 223-ФЗ в 2018 году, принятое в рамках антисанкционных мер.
Ссылки:
[1] https://www.usaspending.gov/disaster/covid-19
[2] https://www.whitehouse.gov/wp-content/uploads/2020/04/Implementation-Guidance-for-Supplemental-Funding-Provided-in-Response.pdf
[3] https://www.usaspending.gov/disaster/covid-19/data-sources
[4] https://spending.gov.ru
#spending #usa
www.usaspending.gov
COVID Relief Spending | USAspending
Federal agencies that have received COVID-19 supplemental appropriations are required by the Office of Management and Budget (OMB) to report obligations and expenditures on a monthly basis to USAspending.gov. Visit the COVID-19 Spending profile page for an…
Незаслуженно пропущенная мной новость о том что Mozilla опубликовали исследования в направлении Data Futures [1], например, отчет Shifting Power Through Data Governance [2] о 7 подходах в управлении данными, это такие подходы как:
- data cooperative (кооператив данных)
- data commons (общие данные)
- data collaborative (совместные данные)
- data trust (фонд данных)
- data fiduciary (дата-опека)
- Indigenous data sovereignty (автохонный суверенитет над данными)
- data marketplace (маркетплейс данных)
Исследование более чем полезное для всех кто хочет понимать как будет развиваться дальнейшее регулирование работы с данными в ЕС, США и других странах. Как будет устроено управление данными в некоммерческих организациях.
Ссылки:
[1] https://foundation.mozilla.org/en/initiatives/data-futures/
[2] https://drive.google.com/file/d/1OB9iXHFCxk4Dc-1E5B_O48LKCC6mWtcT/view
#data #datapolicy
- data cooperative (кооператив данных)
- data commons (общие данные)
- data collaborative (совместные данные)
- data trust (фонд данных)
- data fiduciary (дата-опека)
- Indigenous data sovereignty (автохонный суверенитет над данными)
- data marketplace (маркетплейс данных)
Исследование более чем полезное для всех кто хочет понимать как будет развиваться дальнейшее регулирование работы с данными в ЕС, США и других странах. Как будет устроено управление данными в некоммерческих организациях.
Ссылки:
[1] https://foundation.mozilla.org/en/initiatives/data-futures/
[2] https://drive.google.com/file/d/1OB9iXHFCxk4Dc-1E5B_O48LKCC6mWtcT/view
#data #datapolicy
Для тех кто интересуется как исследуют госзакупки в других странах, европейский проект TheyBuyForYou.eu [1] финансируется в рамках исследовательской программы Horizon 2020 и нацелен на построение Knowledge Graph (графа знаний) на данных о закупках в Евросоюзе с использованием онтологий OCDS и euBusinessGraph.
В том числе исследователи проекта занимаются поиском типовых шаблонов и аномалий [2], правда, если честно и на мой взгляд, то они это делают довольно наивно. Для глубокого анализа и выявления разного рода "аномалий" не обойтись без работы с данными которые относятся к персональным, выявления конфликтов интересов, аффиляции участвующих поставщиков и многое другое.
Ссылки:
[1] https://theybuyforyou.eu/
[2] https://theybuyforyou.eu/detecting-patterns-and-anomalies-in-spending-data/
#opendata #procurement #eu
В том числе исследователи проекта занимаются поиском типовых шаблонов и аномалий [2], правда, если честно и на мой взгляд, то они это делают довольно наивно. Для глубокого анализа и выявления разного рода "аномалий" не обойтись без работы с данными которые относятся к персональным, выявления конфликтов интересов, аффиляции участвующих поставщиков и многое другое.
Ссылки:
[1] https://theybuyforyou.eu/
[2] https://theybuyforyou.eu/detecting-patterns-and-anomalies-in-spending-data/
#opendata #procurement #eu
They Buy For You
Home - They Buy For You
Если коротко про последний указ мэра Москвы Собянина об обязанности работодателей передавать персональные данные о сотрудниках, то в России появилась новая спецслужба, это Мэрия Москвы. Почему, кто, как и зачем это им позволил, вопрос отдельный, но важно помнить что федеральные законы эта спецслужба игнорирует.
Об этом я ранее комментировал в Коммерсант.FM https://t.iss.one/kommersant/15349
#privacy #moscow #bigbrother
Об этом я ранее комментировал в Коммерсант.FM https://t.iss.one/kommersant/15349
#privacy #moscow #bigbrother
Telegram
Коммерсантъ
#Мнение: директор некоммерческой организации «Информационная культура» Иван Бегтин — об инициативе властей обязать работодателей передавать данные переведенных на удаленку сотрудников
У нас есть специального рода службы, агентства и так далее, деятельность…
У нас есть специального рода службы, агентства и так далее, деятельность…
В канале TAdviser (https://t.iss.one/tadviser) просто потоком список сотрудников ПФР связанных с цифровизацией отправленных в СИЗО в последние сутки, спасибо Циниксу за наводку (https://t.iss.one/CynExp).
Хотелось бы надеяться, но нет, слишком много денег погрузили в национальную программу Цифровая экономика, слишком много денег тратят на ИТ. Сложно поверить что не вскроются ситуации и похуже чем то что происходит в ПФР.
#procurement
Хотелось бы надеяться, но нет, слишком много денег погрузили в национальную программу Цифровая экономика, слишком много денег тратят на ИТ. Сложно поверить что не вскроются ситуации и похуже чем то что происходит в ПФР.
#procurement
Telegram
TAdviser
Новостной канал портала TAdviser.ru. Здесь только главные события ИТ-рынка и никакого информационного шума. Связь с нами по e-mail: [email protected]
Регистрация в перечне РКН https://knd.gov.ru/license?id=6734832f8a5fe04efd3e5442®istryType=bloggers
Регистрация в перечне РКН https://knd.gov.ru/license?id=6734832f8a5fe04efd3e5442®istryType=bloggers
Два очень разных и по разному интересных публичных доклада State of AI 2020 [1] от команды State of AI и 2020 State of the API report [2] от разработчиков сервиса проектирования и тестирования API - Postman.
В обоих случаях вопрос о развитии рынка, сервисов, направлений, потребителей. В State of AI важные прогнозы, сбывшиеся и будущие и поведение игроков на рынке. State of API куда больше про технологии и изменение в их применении потребителями и разработчиками API.
Ссылки:
[1] https://www.stateof.ai/
[2] https://www.postman.com/state-of-api
#reports
В обоих случаях вопрос о развитии рынка, сервисов, направлений, потребителей. В State of AI важные прогнозы, сбывшиеся и будущие и поведение игроков на рынке. State of API куда больше про технологии и изменение в их применении потребителями и разработчиками API.
Ссылки:
[1] https://www.stateof.ai/
[2] https://www.postman.com/state-of-api
#reports
www.stateof.ai
State of AI Report 2024
The State of AI Report analyses the most interesting developments in AI. Read and download here.
Для тех кто интересуется созданием и развитием государственных информационных систем в России, обратите внимание на последний бюллетень Счетной палаты [1], где на 105-107 страниц есть любопытные подробности по государственной информационной системе учета твердых коммунальных отходов (ГИС УТКО). Не без ссылки на наш аналитический доклад [2] по открытости ГИСов.
Ссылки:
[1] https://ach.gov.ru/upload/iblock/462/46234b3e3624fcccbb8bace5c892f2f4.pdf#page=105
[2] https://ach.gov.ru/upload/pdf/%D0%9E%D1%86%D0%B5%D0%BD%D0%BA%D0%B0%20%D0%BE%D1%82%D0%BA%D1%80%D1%8B%D1%82%D0%BE%D1%81%D1%82%D0%B8%20%D0%93%D0%98%D0%A1%202020.pdf
#opendata #gis #data
Ссылки:
[1] https://ach.gov.ru/upload/iblock/462/46234b3e3624fcccbb8bace5c892f2f4.pdf#page=105
[2] https://ach.gov.ru/upload/pdf/%D0%9E%D1%86%D0%B5%D0%BD%D0%BA%D0%B0%20%D0%BE%D1%82%D0%BA%D1%80%D1%8B%D1%82%D0%BE%D1%81%D1%82%D0%B8%20%D0%93%D0%98%D0%A1%202020.pdf
#opendata #gis #data
Кратко о платформах работы с данными на которые стоит обратить внимание и лично я отслеживаю:
- Streamr [1] платформа для распространения данных в реальном времени
- Data.world [2] уже 5-летний стартап-платформа для публикации данных, одна из попыток сделать Git для данных
- Splitgraph [3] продукт с интересной идеей предоставления доступа к 40 тысячам наборов открытых данных через СУБД на базе PostgreSQL. Работать можно как с любой другой базой данных стандартными средствами.
- DoltHub [4] другой Git для данных, с удобной командной строкой, но без открытого кода. Продуманное версионирование данных
- Quilt [5] большой каталог очень больших данных на 3.7 петабайт 10.2 миллиарда объектов (чаще файлов) в 30 блоках Amazon Web Services
Ссылки:
[1] https://streamr.network/
[2] https://data.world/
[3] https://www.splitgraph.com/
[4] https://www.dolthub.com/
[5] https://open.quiltdata.com/
#opendata #data #platforms
- Streamr [1] платформа для распространения данных в реальном времени
- Data.world [2] уже 5-летний стартап-платформа для публикации данных, одна из попыток сделать Git для данных
- Splitgraph [3] продукт с интересной идеей предоставления доступа к 40 тысячам наборов открытых данных через СУБД на базе PostgreSQL. Работать можно как с любой другой базой данных стандартными средствами.
- DoltHub [4] другой Git для данных, с удобной командной строкой, но без открытого кода. Продуманное версионирование данных
- Quilt [5] большой каталог очень больших данных на 3.7 петабайт 10.2 миллиарда объектов (чаще файлов) в 30 блоках Amazon Web Services
Ссылки:
[1] https://streamr.network/
[2] https://data.world/
[3] https://www.splitgraph.com/
[4] https://www.dolthub.com/
[5] https://open.quiltdata.com/
#opendata #data #platforms
streamr.network
The decentralized real-time data network
Судя по всему, и тому всё более подтверждений [1], Роскомнадзор взялся за кеширующие сервера Google в России. Пока трудно понять до конца все последствия того к чему приведет их отключение, как минимум, снижение российского трафика, рост трафика зарубежного и замедление Youtube. Отразится ли это на скорости и качестве работы других сервисов Google ? Вот в чём вопрос
Ссылки:
[1] https://t.iss.one/zatelecom/15810
#runet
Ссылки:
[1] https://t.iss.one/zatelecom/15810
#runet
Telegram
ЗаТелеком
кое-кто не верит, что про GGC реальный запрос. Вот док с удаленными реквизитами.
И тут еще нужно вспомнить, что были прецеденты наказания операторов за рабочие GGC. Ну, то есть, здесь РКН предлагает настучать на самого себя, чтоб оштрафовать. Это странная…
И тут еще нужно вспомнить, что были прецеденты наказания операторов за рабочие GGC. Ну, то есть, здесь РКН предлагает настучать на самого себя, чтоб оштрафовать. Это странная…
Forwarded from Эшер II A+
👉 Когда вы смотрите картинки Google или YouTube, то зачастую вы не технически не ходите по проводам в США, а забираете данные с так называемых «Google Global Cache» (GGC). Это сервера, установленные по всему миру. Google старается расположить их у каждого более-менее заметного провайдера. В каждой его сети. Что будет, если их прямо сейчас снять? Будет тормозить ютубчик и возрастёт доля зарубежного трафика. Причем настолько возрастет, что может поменять ценовую политику
👉 Несколько лет назад у кого-то «засвербило» и провайдеров пытались заставить сертифицировать эти сервера или снять. Не без активной помощи всем известного анонимного бывшего федерального чиновника Google «родил» декларацию соответствия и от GGC отстали
⚡️⚡️⚡️ Но что-то опять пошло не так...
В целях оценки по обеспечению устойчивого, безопасного и целостного функционирования на территории Российской Федерации информационно-телекоммуникационной сети «Интернет» в соответствии с положениями Федерального закона от 1 мая 2019 г. № 90-ФЗ «О внесении изменений в Федеральный закон «О связи» и Федеральный закон «Об информации, информационных технологиях и о защите информации» просим представить информацию об установленном или планируемом к установке на Ваших сетях специализированном иностранном телекоммуникационном оборудовании «Google Global Cache».
Информацию просим направить в Управление по надзору в сфере информационных технологий Роскомнадзора по адресу: 109992, г. Москва, Китайгородский проезд, д. 7, стр. 2 и на адрес электронной почты [email protected] в возможно короткие сроки.
‼️ Возможно это утка, но за сутки никто не опроверг. Я не знаю как это искать. Роскомнадзор ни разу мне не ответил по делу быстро, так что я им просто не пишу уже. Но все, кому пришло, воспринимают это за чистую монету
💥 Мне всегда нравились многие обоснования каких-то действий чиновников. «В целях запаха моего обеденного супа». Людмила Бокова перешла работать в Роскомнадор? Кто будет предложения согласовывать? Причем тут вообще №90-ФЗ от 01 мая 2019 г.? Название красивое и слово «безопасность» есть?
☝️ Чем им помешал кэш — не понятно. Вот уж у американцев точно хватает на российских сетях разведывательных устройств кроме GGC
👉 Несколько лет назад у кого-то «засвербило» и провайдеров пытались заставить сертифицировать эти сервера или снять. Не без активной помощи всем известного анонимного бывшего федерального чиновника Google «родил» декларацию соответствия и от GGC отстали
⚡️⚡️⚡️ Но что-то опять пошло не так...
В целях оценки по обеспечению устойчивого, безопасного и целостного функционирования на территории Российской Федерации информационно-телекоммуникационной сети «Интернет» в соответствии с положениями Федерального закона от 1 мая 2019 г. № 90-ФЗ «О внесении изменений в Федеральный закон «О связи» и Федеральный закон «Об информации, информационных технологиях и о защите информации» просим представить информацию об установленном или планируемом к установке на Ваших сетях специализированном иностранном телекоммуникационном оборудовании «Google Global Cache».
Информацию просим направить в Управление по надзору в сфере информационных технологий Роскомнадзора по адресу: 109992, г. Москва, Китайгородский проезд, д. 7, стр. 2 и на адрес электронной почты [email protected] в возможно короткие сроки.
‼️ Возможно это утка, но за сутки никто не опроверг. Я не знаю как это искать. Роскомнадзор ни разу мне не ответил по делу быстро, так что я им просто не пишу уже. Но все, кому пришло, воспринимают это за чистую монету
💥 Мне всегда нравились многие обоснования каких-то действий чиновников. «В целях запаха моего обеденного супа». Людмила Бокова перешла работать в Роскомнадор? Кто будет предложения согласовывать? Причем тут вообще №90-ФЗ от 01 мая 2019 г.? Название красивое и слово «безопасность» есть?
☝️ Чем им помешал кэш — не понятно. Вот уж у американцев точно хватает на российских сетях разведывательных устройств кроме GGC
Свежий пост/рассылка через Substack по теме "#3. Государственные доклады, государственный открытый код и другие результаты государственных контрактов" [1]
Подписаться можно в моём блоге/рассылке на Substack [2], это формат под большие тексты которые никак целостно не помещаются в формат телеграм канала
Ссылки:
[1] https://begtin.substack.com/p/3-
[2] https://begtin.substack.com/
#data #procurement #government
Подписаться можно в моём блоге/рассылке на Substack [2], это формат под большие тексты которые никак целостно не помещаются в формат телеграм канала
Ссылки:
[1] https://begtin.substack.com/p/3-
[2] https://begtin.substack.com/
#data #procurement #government
Substack
#3. Государственные доклады, государственный открытый код и другие результаты государственных контрактов
Нужно ли превращать бесполезную деятельность государства в полезную и какой ценой?
Счетная палата опубликовала рейтинг ИТ расходов федеральных органов власти. О нем можно прочитать в новости на сайте СП РФ [1], а с самим рейтингом ознакомиться на сайте проекта Госрасходы [2] и о нем пишет Ольга Пархимович у себя в канале "Ах, этот Минфин" [3].
Рейтинг можно скачать в XLSX или CSV формате, сделать выводы как просмотрев его визуально, так и машинным образом обработав данные.
Обратите внимание что:
1. Охвачены не только ФОИВы, но и другие федеральные ГРБС
2. У некоторых органов власти доля прямых ИТ расходов по госконтрактам превышает 25%.
3. В рейтинге учитываются не только контракты, но и ИТ-субсидии подведомственным учреждениям.
4. Для полноты картины, конечно, интересно сделать не рейтинг, а визуализацию структуры расходов органов власти хотя бы по таким группам как: ИТ, строительство, автотранспортное обслуживание, и тд. Но это уже скорее не рейтинг, а большой аналитический материал.
5. Подробная методология составления рейтинга тоже опубликована [4], она будет полезна всем кто анализирует ИТ расходы.
Ссылки:
[1] https://ach.gov.ru/news/ckolko-ministerstva-i-vedomstva-tratyat-na-it-novyy-reyting-portala-gosraskhody-
[2] https://spending.gov.ru/analytics/ratings/it/
[3] https://t.iss.one/ahminfin/289
[4] https://spending.gov.ru/analytics/ratings/it/methodology/
#spending #opendata #it
Рейтинг можно скачать в XLSX или CSV формате, сделать выводы как просмотрев его визуально, так и машинным образом обработав данные.
Обратите внимание что:
1. Охвачены не только ФОИВы, но и другие федеральные ГРБС
2. У некоторых органов власти доля прямых ИТ расходов по госконтрактам превышает 25%.
3. В рейтинге учитываются не только контракты, но и ИТ-субсидии подведомственным учреждениям.
4. Для полноты картины, конечно, интересно сделать не рейтинг, а визуализацию структуры расходов органов власти хотя бы по таким группам как: ИТ, строительство, автотранспортное обслуживание, и тд. Но это уже скорее не рейтинг, а большой аналитический материал.
5. Подробная методология составления рейтинга тоже опубликована [4], она будет полезна всем кто анализирует ИТ расходы.
Ссылки:
[1] https://ach.gov.ru/news/ckolko-ministerstva-i-vedomstva-tratyat-na-it-novyy-reyting-portala-gosraskhody-
[2] https://spending.gov.ru/analytics/ratings/it/
[3] https://t.iss.one/ahminfin/289
[4] https://spending.gov.ru/analytics/ratings/it/methodology/
#spending #opendata #it
ach.gov.ru
Официальный сайт Счетной палаты Российской Федерации
Тема не про IT, но весьма интересная. Люди подвержены микроэволюции и эволюция людей ускорилась за последние 250 лет. Австралийские исследовали выяснили [1].
Например:
- челюсти и рты людей становятся меньше
- всё меньше людей рождается с зубами мудрости
- появилось больше артерий в предплечьях, для питания кистей рук
- стали сохраняться медианные артерии
Подробнее в статье Recently increased prevalence of the human median artery of the forearm: A microevolutionary change [2]
Ссылки:
[1] https://news.sky.com/story/human-microevolution-sees-more-people-born-without-wisdom-teeth-and-an-extra-artery-12099689
[2] https://onlinelibrary.wiley.com/doi/10.1111/joa.13224
#research #humans
Например:
- челюсти и рты людей становятся меньше
- всё меньше людей рождается с зубами мудрости
- появилось больше артерий в предплечьях, для питания кистей рук
- стали сохраняться медианные артерии
Подробнее в статье Recently increased prevalence of the human median artery of the forearm: A microevolutionary change [2]
Ссылки:
[1] https://news.sky.com/story/human-microevolution-sees-more-people-born-without-wisdom-teeth-and-an-extra-artery-12099689
[2] https://onlinelibrary.wiley.com/doi/10.1111/joa.13224
#research #humans
Sky News
Human 'microevolution' sees more people born without wisdom teeth and an extra artery
Australian researchers found our faces have got shorter over time and our jaws smaller.
Несмотря на то что я много пишу тут в телеграме, тексты в СМИ и ещё веду много разной консультационной работы, программирование я почти никогда не бросал и хотя бы несколько часов в неделю всегда стараюсь найти, как минимум для того чтобы поддерживать навыки ну и просто потому что это же страшно интересно. Но если лет 15 назад моя работа состояла из программирования и проектирования ПО, а то как устроено государство и данные было хобби, то последние лет 8-9 скорее она состоит из всего остального, а программирование почти превратилось в хобби.
Для тех кто интересуется открытым кодом работы с данными напоминаю что и я и мои коллеги публикуем открытый код как минимум здесь:
- https://github.com/ivbeg
- https://github.com/infoculture
- https://github.com/ruarxive
- https://github.com/datacoon
- https://code.ach.gov.ru/public
Это такие инструменты для работы с данными:
- https://github.com/datacoon/undatum - Undatum, инструмент командной строки для обработки файлов JSON Lines, преобразованию форматов и тд. Создан под обработку особенно больших jsonl файлов, таких как дампы из проекта Госрасходы.
- https://github.com/datacoon/russiannames - парсер русскоязычных ФИО с идентификацией пола и идентификацией того как ФИО написаны
- https://github.com/datacoon/datadifflib - библиотека создания diff'ов, дельт изменений между разными версиями одного набора данных в CSV или JSON
- https://github.com/ruarxive/apibackuper - утилита по архивации данных публикуемых через API
- https://github.com/datacoon/apiready - давний инструмент командной строки по быстрому созданию API из CSV или JSON файла
Инструменты извлечения данных:
- https://github.com/ivbeg/newsworker - продвинутая библиотека извлечения новостей из веб-сайтов у которых нет экспорта новостей в RSS/ATOM.
- https://github.com/ivbeg/lazyscraper - утилита командной строки для скрейпинга данных для ленивых. Полезно когда совсем лень писать код
- https://github.com/ivbeg/docx2csv - утилита извлечения таблиц из файлов DOCX и сохранения их в CSV формат. Оказывается нужно чаще чем хотелось бы
- https://github.com/ivbeg/qddate - библиотека идентификации и разбора дат написанных на любом языке и в любом стиле, без знания об этом стиле и языке заранее
Репозитории по созданию датасетов:
- https://github.com/infoculture/govdomains - реестр всех госдоменов (сейчас мигрирует в Airtable, а в репозиторий выкладываю слепки)
- https://github.com/infoculture/ruregions - реестр метаданных по российским регионам
Наверное есть ещё что-то на чём можно сделать акцент, но я и сам уже всё не припомню. Открытость кода - это хорошо, многое не получается выложить только от того что не хватает времени всё документировать.
#opensource
Для тех кто интересуется открытым кодом работы с данными напоминаю что и я и мои коллеги публикуем открытый код как минимум здесь:
- https://github.com/ivbeg
- https://github.com/infoculture
- https://github.com/ruarxive
- https://github.com/datacoon
- https://code.ach.gov.ru/public
Это такие инструменты для работы с данными:
- https://github.com/datacoon/undatum - Undatum, инструмент командной строки для обработки файлов JSON Lines, преобразованию форматов и тд. Создан под обработку особенно больших jsonl файлов, таких как дампы из проекта Госрасходы.
- https://github.com/datacoon/russiannames - парсер русскоязычных ФИО с идентификацией пола и идентификацией того как ФИО написаны
- https://github.com/datacoon/datadifflib - библиотека создания diff'ов, дельт изменений между разными версиями одного набора данных в CSV или JSON
- https://github.com/ruarxive/apibackuper - утилита по архивации данных публикуемых через API
- https://github.com/datacoon/apiready - давний инструмент командной строки по быстрому созданию API из CSV или JSON файла
Инструменты извлечения данных:
- https://github.com/ivbeg/newsworker - продвинутая библиотека извлечения новостей из веб-сайтов у которых нет экспорта новостей в RSS/ATOM.
- https://github.com/ivbeg/lazyscraper - утилита командной строки для скрейпинга данных для ленивых. Полезно когда совсем лень писать код
- https://github.com/ivbeg/docx2csv - утилита извлечения таблиц из файлов DOCX и сохранения их в CSV формат. Оказывается нужно чаще чем хотелось бы
- https://github.com/ivbeg/qddate - библиотека идентификации и разбора дат написанных на любом языке и в любом стиле, без знания об этом стиле и языке заранее
Репозитории по созданию датасетов:
- https://github.com/infoculture/govdomains - реестр всех госдоменов (сейчас мигрирует в Airtable, а в репозиторий выкладываю слепки)
- https://github.com/infoculture/ruregions - реестр метаданных по российским регионам
Наверное есть ещё что-то на чём можно сделать акцент, но я и сам уже всё не припомню. Открытость кода - это хорошо, многое не получается выложить только от того что не хватает времени всё документировать.
#opensource
Forwarded from Городские данные (Andrey Karmatsky)
Разработчики из GeoAlert разработали алгоритм и технологию автоматического картографирования по спутниковым снимкам: нейросеть распознаёт форму зданий и классифицирует их по типам.
Такие проекты уже были, но в данном случае речь идёт об открытых данных территории нашей необъятной. Ребята публикуют получившиеся данные по регионам России и активно принимают заявки какие из регионов нужно картографировать.
https://link.medium.com/kzQzWCqIxab
Такие проекты уже были, но в данном случае речь идёт об открытых данных территории нашей необъятной. Ребята публикуют получившиеся данные по регионам России и активно принимают заявки какие из регионов нужно картографировать.
https://link.medium.com/kzQzWCqIxab
Medium
Open Urban Mapping
Ура! Мы наконец закончили автоматическое картирование зданий по всей России по спутниковым снимкам Mapbox Satellite и готовы их…
Вышел доклад Ответственное машинное обучение, Responsible Machine Learning [1] подготовленный ORelly. Документ полезный для тех кто уже думает о политиках ответственности систем искусственного интеллекта и алгоритмических систем.
Ссылки:
[1] https://www.h2o.ai/resources/ebook/responsible-machine-learning/
#ai #privacy
Ссылки:
[1] https://www.h2o.ai/resources/ebook/responsible-machine-learning/
#ai #privacy
h2o.ai
Responsible Machine Learning | H2O.ai
This report outlines a set of actionable best practices for people, processes, and technology that can enable organizations to innovate with ML in a responsible manner.
Для тех кто хочет поработать с большими данными, но не знает с какими, Национальная библиотека Новой Зеландии опубликовала набор данных Papers Past [1] включающей 235GB сканов газет Новой Зеландии с 1839 по 1899 годы и CSV файл с метаданными описывающими эти газеты. Всё вместе после распаковки 1.6TB данных
Ссылки:
[1] https://natlib.govt.nz/about-us/open-data/papers-past-metadata/papers-past-newspaper-open-data-pilot/dataset-papers-past-newspaper-open-data-pilot
#opendata #nz #papers #culture
Ссылки:
[1] https://natlib.govt.nz/about-us/open-data/papers-past-metadata/papers-past-newspaper-open-data-pilot/dataset-papers-past-newspaper-open-data-pilot
#opendata #nz #papers #culture
Как публиковать данные по коронавирусу наиболее правильным образом? В виде открытых данных для исследователей и в виде графиков для рядовых пользователей. В Великобритании на портале GOV.UK Coronavirus (COVID-19) in the UK [1] публикуются данные о:
- тестировании [2]
- выявленных случаях [3]
- нагрузке на систему здравоохранения [4]
- смертности [5]
Всё с детализацией до муниципального района, ежедневно, начиная с марта 2020 года.
Для разработчиков доступно API и SDK [6]
Ссылки:
[1] https://coronavirus-staging.data.gov.uk/
[2] https://coronavirus-staging.data.gov.uk/details/testing
[3] https://coronavirus-staging.data.gov.uk/details/cases
[4] https://coronavirus-staging.data.gov.uk/details/healthcare
[5] https://coronavirus-staging.data.gov.uk/details/deaths
[6] https://coronavirus-staging.data.gov.uk/details/developers-guide
#opendata #covid-19 #uk
- тестировании [2]
- выявленных случаях [3]
- нагрузке на систему здравоохранения [4]
- смертности [5]
Всё с детализацией до муниципального района, ежедневно, начиная с марта 2020 года.
Для разработчиков доступно API и SDK [6]
Ссылки:
[1] https://coronavirus-staging.data.gov.uk/
[2] https://coronavirus-staging.data.gov.uk/details/testing
[3] https://coronavirus-staging.data.gov.uk/details/cases
[4] https://coronavirus-staging.data.gov.uk/details/healthcare
[5] https://coronavirus-staging.data.gov.uk/details/deaths
[6] https://coronavirus-staging.data.gov.uk/details/developers-guide
#opendata #covid-19 #uk
coronavirus.data.gov.uk
England Summary | Coronavirus (COVID-19) in the UK
Official Coronavirus (COVID-19) disease situation dashboard with latest data in the UK.
Для тех кто хочет поработать с большими данными, изучает публикации в специализированных отраслях или, в принципе, заинтересован в исследовании научной мысли, ещё в апреле 2020 года Crossref выложили набор данных в 65GB и 112.5 миллионов записей [1]. В распакованном виде это около 1 терабайта. Эти данные всегда были доступны через их API api.crossref.org, но теперь стали доступны ещё и сразу для массовой выгрузки. С технической точки зрения эти данных хороши для построения больших графов и поиска взаимосвязей, аномалий и перспективных научных направлений.
Ссылки:
[1] https://www.crossref.org/blog/free-public-data-file-of-112-million-crossref-records/
#opendata #data
Ссылки:
[1] https://www.crossref.org/blog/free-public-data-file-of-112-million-crossref-records/
#opendata #data
www.crossref.org
Free public data file of 112+ million Crossref records - Crossref
A lot of people have been using our public, open APIs to collect data that might be related to COVID-19. This is great and we encourage it. We also want to make it easier. To that end we have made a free data file of the public elements from Crossref’s 112.5…
В блоге Facebook заметка о Nemo [1], их внутреннем инструменте для Data Discovery, продукте котором можно назвать каталогом данных, но правильнее называть инструментом обнаружения и использования данных для работы внутренних команд. Они не первые создавшие такой инструмент в Airbnb, Lyft, Netflix, и Uber есть свои аналогичные продукты. На рынке существует несколько десятков продуктов по созданию каталогов данных все из которых можно разделить на три условные категории:
- внутрикорпоративные каталоги данных (от метаданных до баз/таблиц/озер данных)
- порталы открытых данных
- порталы для открытых научных репозиториев
При этом именно внутрикорпоративные каталоги сейчас переживают бум расцвета, но со своей сильной спецификой на том что они ориентированы на интеграцию с разного рода корпоративными системами хранения и продуктами. И, как правило, предусматривают строгий контроль метаданных и их гармонизацию.
Есть определить основные характеристики этих всех продуктов то их отличия можно описать следующим образом.
Порталы открытых данных
- почти всегда публичны
- предполагают отсутствие контроля за первоисточниками
- включают метаданные характеризующие доступность данных, например, лицензии
- интегрированы на уровне сбора метаданных (OAI-PMH, CKAN Metadata и др)
- иногда предусматривают, но почти никогда не обеспечивают на 100% гармонизацию метаданных
- либо включают очень много наборов данных или фокус на конкретную область их применения (отрасль)
Порталы открытых научных данных (репозитории научных данных)
- почти всегда публичны
- не контролируют первоисточники, но устанавливают требования к структуре метаданных публикуемых материалов
- чаще всего созданы на базе репозиториев научных работ или связаны с ними общей логикой формирования метаданных
- почти всегда включают регистрацию уникальных ссылок (пермалинков) и инструменты генерации цитат в выбранном стиле для научного цитирования
- интегрированы на уровне сбора метаданных (OAI-PMH)
Внутрикорпоративные каталоги данных / порталы данных и системы метаданных
- непубличны
- интегрированы с внутренними озерами и данных и хранилищами данных
- предполагают полный или преимущественный контроль за хранимыми данными
- включают описания бизнес-словаря метаданных и гармонизацию метаданных
Из всего вышеперечисленного именно внутрикорпоративные каталоги данных - это самый трудоёмкий формат работы с данными именно из-за огромной работы с метаданными. Она требует выстраивания процессов так чтобы все изменения в таблицах регистрировались в каталоге в специальной форме описания метаданных. Это хорошо работает при небольшом числе контролируемых внутренних источников и плохо работает при большом числе внешних неконтролируемых источников данных.
Из открытых инструментов с открытым исходным кодом есть Apache Atlas [2] выступающий как репозиторий метаданных для контроля уровня чувствительности данных и Amundsen [3], для удобства специалистов по data science
Ссылки:
[1] https://engineering.fb.com/data-infrastructure/nemo/
[2] https://atlas.apache.org
[3] https://github.com/amundsen-io/amundsen
#opendata #data #opensource
- внутрикорпоративные каталоги данных (от метаданных до баз/таблиц/озер данных)
- порталы открытых данных
- порталы для открытых научных репозиториев
При этом именно внутрикорпоративные каталоги сейчас переживают бум расцвета, но со своей сильной спецификой на том что они ориентированы на интеграцию с разного рода корпоративными системами хранения и продуктами. И, как правило, предусматривают строгий контроль метаданных и их гармонизацию.
Есть определить основные характеристики этих всех продуктов то их отличия можно описать следующим образом.
Порталы открытых данных
- почти всегда публичны
- предполагают отсутствие контроля за первоисточниками
- включают метаданные характеризующие доступность данных, например, лицензии
- интегрированы на уровне сбора метаданных (OAI-PMH, CKAN Metadata и др)
- иногда предусматривают, но почти никогда не обеспечивают на 100% гармонизацию метаданных
- либо включают очень много наборов данных или фокус на конкретную область их применения (отрасль)
Порталы открытых научных данных (репозитории научных данных)
- почти всегда публичны
- не контролируют первоисточники, но устанавливают требования к структуре метаданных публикуемых материалов
- чаще всего созданы на базе репозиториев научных работ или связаны с ними общей логикой формирования метаданных
- почти всегда включают регистрацию уникальных ссылок (пермалинков) и инструменты генерации цитат в выбранном стиле для научного цитирования
- интегрированы на уровне сбора метаданных (OAI-PMH)
Внутрикорпоративные каталоги данных / порталы данных и системы метаданных
- непубличны
- интегрированы с внутренними озерами и данных и хранилищами данных
- предполагают полный или преимущественный контроль за хранимыми данными
- включают описания бизнес-словаря метаданных и гармонизацию метаданных
Из всего вышеперечисленного именно внутрикорпоративные каталоги данных - это самый трудоёмкий формат работы с данными именно из-за огромной работы с метаданными. Она требует выстраивания процессов так чтобы все изменения в таблицах регистрировались в каталоге в специальной форме описания метаданных. Это хорошо работает при небольшом числе контролируемых внутренних источников и плохо работает при большом числе внешних неконтролируемых источников данных.
Из открытых инструментов с открытым исходным кодом есть Apache Atlas [2] выступающий как репозиторий метаданных для контроля уровня чувствительности данных и Amundsen [3], для удобства специалистов по data science
Ссылки:
[1] https://engineering.fb.com/data-infrastructure/nemo/
[2] https://atlas.apache.org
[3] https://github.com/amundsen-io/amundsen
#opendata #data #opensource
Engineering at Meta
Nemo: Data discovery at Facebook
Large-scale companies serve millions or even billions of people who depend on the services these companies provide for their everyday needs. To keep these services running and delivering meaningful…