Поскольку так получилось что вот уже долгое время я больше читал чем писал что-то осмысленное. Тексты в канале - это просто поддержание этого чтения, заметки на полях. Я тут в несколько итераций думал о том как развивается рынок вокруг данных.
Про каталоги данных и продукты на data discovery я уже писал, они переживают взлёт и один такой продукт DataCrafter, наша команда делает. Я также писал много про alternative data, большой рынок для тех кто понимает как устроено потребление данных в финансовой сфере и не только.
Но самое интересное, ИМХО, это то что творится вокруг Modern data stack. Инструментальная насыщенность там очень высокая, стартапов много, инвестиций много, конкуренция очень сильная, но и появление новых продуктов очень стремительное. Я уже писал ранее что вижу уже сильное отставание между продуктами платформ для открытых данных и корпоративными системами управления данными. Ещё лет 7-8 было не так.
Так вот в Modern data stack ещё есть свободные ниши, для разных продуктов, которые постепенно заполняются, но в целом не так быстро, при том что востребованность высокая. Я бы выделил следующие направления.
- Редакторы баз данных для больших данных (аналоги Airtable для BigData). Об одном таком проекте я писал - это Dropbase работающий поверх Snowflake. А, в принципе, это про перенос удобного проектирования баз данных, обработки, выполнения задач траснформации, data wrangling, экспорта, импорта и интеграции именно для данных на миллионы и миллиарды записей. Сейчас все эти инструменты работают, в основном, до 100 тысяч записей. А для данных большего объёма нужны другие инструменты для фронтэнда и другой подход к бэкэнду. Это большая ниша, востребованная по мере переноса корпоративных данных в облака.
- Системы мониторинга и контроля качества (data observability). Их стало сильно больше в последние 2 года: Anomalo, MonteCarlo,SODA и другие. Но в этой нише всё ещё очень много задач и разных отраслей и сред где инструментов недостаточно. Сейчас явный фокус на то мониторинг оперативности поставки данных, базовых метрик и отклонений, выявления аномалий и так далее применительно к данным из внешних систем.
- Системы обогащения данных (data enrichment) многие из них на самом деле не так публичны и не так рекламируются как инструменты. Из известных Explorium, Crunchbase, Craft.co и многие другие. Но востребованность их велика и они частично пересекаются с продуктами на альтернативных данных.
#data #dataproducts
Про каталоги данных и продукты на data discovery я уже писал, они переживают взлёт и один такой продукт DataCrafter, наша команда делает. Я также писал много про alternative data, большой рынок для тех кто понимает как устроено потребление данных в финансовой сфере и не только.
Но самое интересное, ИМХО, это то что творится вокруг Modern data stack. Инструментальная насыщенность там очень высокая, стартапов много, инвестиций много, конкуренция очень сильная, но и появление новых продуктов очень стремительное. Я уже писал ранее что вижу уже сильное отставание между продуктами платформ для открытых данных и корпоративными системами управления данными. Ещё лет 7-8 было не так.
Так вот в Modern data stack ещё есть свободные ниши, для разных продуктов, которые постепенно заполняются, но в целом не так быстро, при том что востребованность высокая. Я бы выделил следующие направления.
- Редакторы баз данных для больших данных (аналоги Airtable для BigData). Об одном таком проекте я писал - это Dropbase работающий поверх Snowflake. А, в принципе, это про перенос удобного проектирования баз данных, обработки, выполнения задач траснформации, data wrangling, экспорта, импорта и интеграции именно для данных на миллионы и миллиарды записей. Сейчас все эти инструменты работают, в основном, до 100 тысяч записей. А для данных большего объёма нужны другие инструменты для фронтэнда и другой подход к бэкэнду. Это большая ниша, востребованная по мере переноса корпоративных данных в облака.
- Системы мониторинга и контроля качества (data observability). Их стало сильно больше в последние 2 года: Anomalo, MonteCarlo,SODA и другие. Но в этой нише всё ещё очень много задач и разных отраслей и сред где инструментов недостаточно. Сейчас явный фокус на то мониторинг оперативности поставки данных, базовых метрик и отклонений, выявления аномалий и так далее применительно к данным из внешних систем.
- Системы обогащения данных (data enrichment) многие из них на самом деле не так публичны и не так рекламируются как инструменты. Из известных Explorium, Crunchbase, Craft.co и многие другие. Но востребованность их велика и они частично пересекаются с продуктами на альтернативных данных.
#data #dataproducts
Forwarded from Roskomsvoboda
Transparency report Twitter: по запросам на удаление контента Россия поднялась на второе место
Twitter опубликовал отчёт о прозрачности, согласно которому с января по июнь 2021 года компания получила от правительств всего мира 43 387 юридических требования об удалении контента из 196 878 аккаунтов.
95% от общего объёма запросов на удаление пришлось на следующие пять стран (в порядке убывания): Японию, Россию, Турцию, Индию и Южную Корею.
Доля России составила 25% (10448; увеличение на 56% по сравнению с предыдущим периодом), при этом 71% российских требований относился к запрету пропаганды самоубийств:
➡️ https://roskomsvoboda.org/post/twitter-transparency-report-jan-jun-2021/
Twitter опубликовал отчёт о прозрачности, согласно которому с января по июнь 2021 года компания получила от правительств всего мира 43 387 юридических требования об удалении контента из 196 878 аккаунтов.
95% от общего объёма запросов на удаление пришлось на следующие пять стран (в порядке убывания): Японию, Россию, Турцию, Индию и Южную Корею.
Доля России составила 25% (10448; увеличение на 56% по сравнению с предыдущим периодом), при этом 71% российских требований относился к запрету пропаганды самоубийств:
➡️ https://roskomsvoboda.org/post/twitter-transparency-report-jan-jun-2021/
Кто зарабатывает на том что к Вашим данным может добавить дополнительные данные? Примеры стартапов по обогащению данных (Data Enrichment):
- Explorium.ai [1] продвинутая платформа обещающая применение алгоритмов ИИ к анализу данных и дающая сервисы обогащениями данными о людях, компаниях, сайтах, объектах интересах и погоде. Появились в 2017 году в Израиле. Привлекли венчурных инвестиций на $125M
- Uplead [2] предоставляют данные о людях и компаниях. Обогащают данные о человеке, компании или email'е. Частная компания, инвестиции не раскрывают. Созданы в 2017 году в Калифорнии.
- People Data Labs [3] Существуют с 2015 года, привлекли $55.3M инвестиций, из которых $45M в ноябре 2021 года. Фокус только на данных компаний и людей, плюс API по идентификации типов данных для задач комплаенса. Построены вокруг API для обогащения данных о персоне, компании, API по очистке данных и так далее.
Многие из компаний в рынке data enrichment также торгуют данными и их можно найти на площадках вроде Datarade [4], также у многих компаний это часть их больших платформу управления данными.
Ссылки:
[1] https://www.explorium.ai
[2] https://www.uplead.com/data-enhancement/
[3] https://www.peopledatalabs.com/
[4] https://datarade.ai/
#data #startups #dataenrichment
- Explorium.ai [1] продвинутая платформа обещающая применение алгоритмов ИИ к анализу данных и дающая сервисы обогащениями данными о людях, компаниях, сайтах, объектах интересах и погоде. Появились в 2017 году в Израиле. Привлекли венчурных инвестиций на $125M
- Uplead [2] предоставляют данные о людях и компаниях. Обогащают данные о человеке, компании или email'е. Частная компания, инвестиции не раскрывают. Созданы в 2017 году в Калифорнии.
- People Data Labs [3] Существуют с 2015 года, привлекли $55.3M инвестиций, из которых $45M в ноябре 2021 года. Фокус только на данных компаний и людей, плюс API по идентификации типов данных для задач комплаенса. Построены вокруг API для обогащения данных о персоне, компании, API по очистке данных и так далее.
Многие из компаний в рынке data enrichment также торгуют данными и их можно найти на площадках вроде Datarade [4], также у многих компаний это часть их больших платформу управления данными.
Ссылки:
[1] https://www.explorium.ai
[2] https://www.uplead.com/data-enhancement/
[3] https://www.peopledatalabs.com/
[4] https://datarade.ai/
#data #startups #dataenrichment
Explorium
Explorium - B2B Data Foundation for AI Agents & GTM Success
The B2B data foundation for AI agents. Access go-to-market data and infrastructure built to power context-aware AI products and strategies.
Совершенно свежая и поучительная история о том как один немецкий исследователь раскрыл секретное германское ведомство с помощью AirTag'а.
Если вкратце то один немецкий активист отправил AirTag подозрительному германскому федеральному ведомству и отследил его настоящие офисы.
А если подробнее то Лилит Витман, исследователь из Германии, утверждает что она раскрыла что Federal Telecommunications Service в Германии - это, на самом деле, "камуфляжная служба" и она изначально написала о том как столкнулась со службой которой не существует [1].
После чего она обстоятельно и методично собирала все возможные данные о этой структуре, вплоть до IP адресов и того чтобы проехаться мимо зданий [2].
После чего она отправила посылку с AirTag внутри и с помощью сервиса Apple Find My [3] следила за её движением и нашла что посылку переслали в Office for the Protection of the Constitution in Cologne. О чём она написала подробно в германоязычной Википедии [4]
А вся история на английском языке есть в Apple Insider [5].
История поучительна тем что современные технологии позволяют следить за теми кто следит. Можно рассмотреть много кейсов при которых можно выяснять немало интересного о существующих и камуфляжных государственных структурах.
Хочется надеяться что в России после этого AirTag не запретят.
Ссылки:
[1] https://lilithwittmann.medium.com/bundesservice-telekommunikation-wie-ich-versehentlich-eine-tarnbeh%C3%B6rde-in-der-bundesverwaltung-a8823f308536
[2] https://lilithwittmann.medium.com/bundesservice-telekommunikation-enttarnt-dieser-geheimdienst-steckt-dahinter-cd2e2753d7ca
[3] https://appleinsider.com/inside/Find-My
[4] https://de.wikipedia.org/wiki/Bundesservice_Telekommunikation
[5] https://appleinsider.com/articles/22/01/25/apples-airtag-uncovers-a-secret-german-intelligence-agency
#privacy #security #airtag #germany #specialagencies
Если вкратце то один немецкий активист отправил AirTag подозрительному германскому федеральному ведомству и отследил его настоящие офисы.
А если подробнее то Лилит Витман, исследователь из Германии, утверждает что она раскрыла что Federal Telecommunications Service в Германии - это, на самом деле, "камуфляжная служба" и она изначально написала о том как столкнулась со службой которой не существует [1].
После чего она обстоятельно и методично собирала все возможные данные о этой структуре, вплоть до IP адресов и того чтобы проехаться мимо зданий [2].
После чего она отправила посылку с AirTag внутри и с помощью сервиса Apple Find My [3] следила за её движением и нашла что посылку переслали в Office for the Protection of the Constitution in Cologne. О чём она написала подробно в германоязычной Википедии [4]
А вся история на английском языке есть в Apple Insider [5].
История поучительна тем что современные технологии позволяют следить за теми кто следит. Можно рассмотреть много кейсов при которых можно выяснять немало интересного о существующих и камуфляжных государственных структурах.
Хочется надеяться что в России после этого AirTag не запретят.
Ссылки:
[1] https://lilithwittmann.medium.com/bundesservice-telekommunikation-wie-ich-versehentlich-eine-tarnbeh%C3%B6rde-in-der-bundesverwaltung-a8823f308536
[2] https://lilithwittmann.medium.com/bundesservice-telekommunikation-enttarnt-dieser-geheimdienst-steckt-dahinter-cd2e2753d7ca
[3] https://appleinsider.com/inside/Find-My
[4] https://de.wikipedia.org/wiki/Bundesservice_Telekommunikation
[5] https://appleinsider.com/articles/22/01/25/apples-airtag-uncovers-a-secret-german-intelligence-agency
#privacy #security #airtag #germany #specialagencies
Medium
Bundesservice Telekommunikation — wie ich versehentlich eine Tarnbehörde in der Bundesverwaltung…
Vor einigen Tagen tat ich etwas, dass ist so ungewöhnlich, das es scheinbar noch fast niemand vor mir gemacht hat: Ich habe mir die Liste…
В рубрике интересных наборов данных сведения о объёме газа в газовых хранилищах Европы [1] доступны в виде таблиц, выгрузки в Excel и через API. База данных создана и ведётся Gas Infrastructure Europe (GIE) ассоциацией Европейских газовых операторов.
Данные будут полезны всем журналистам пишущих о поставках данных в Европу и о дефиците газа, но не приводящих цифры или графики.
Ссылки:
[1] https://agsi.gie.eu/
#opendata #datasets #gas #europe
Данные будут полезны всем журналистам пишущих о поставках данных в Европу и о дефиците газа, но не приводящих цифры или графики.
Ссылки:
[1] https://agsi.gie.eu/
#opendata #datasets #gas #europe
Телеграм бот @DataClassifierBot - это то что я обещал как инструмент автоматической классификации данных DataCrafter'а. В него можно загрузить файлы в формате CSV (разделитель обязательно запятая) или JSON lines (.jsonl) и на выходе будет одно или нескольк сообщений с таблицей структуры полей в файле, их типа и идентифицированного класса данных. Подробнее можно посмотреть на скриншотах. Через телеграм бот будет открытое бета тестирование, прошу делиться обратной связью в чате @apicrafterchat или написав мне. А для тех у кого более серьёзные задачи скоро будет доступно API.
По результатам бета-тестирования хочется понять:
1) Каких функций возможностей нехватает
2) Какие дополнительные классификации нужны/ожидаемы и пока отсутствуют.
3) Насколько точно алгоритмы работают на Ваших данных
Особенности работы бота:
- отключены почти все "неточные" правила
- текущие основные правила под русский язык
- ограничения на файлы 10Mb, 1000 строк, ограничений на число полей нет
#data #apicrafter #datacrafter #datatools
По результатам бета-тестирования хочется понять:
1) Каких функций возможностей нехватает
2) Какие дополнительные классификации нужны/ожидаемы и пока отсутствуют.
3) Насколько точно алгоритмы работают на Ваших данных
Особенности работы бота:
- отключены почти все "неточные" правила
- текущие основные правила под русский язык
- ограничения на файлы 10Mb, 1000 строк, ограничений на число полей нет
#data #apicrafter #datacrafter #datatools
Многие уже написали о просрочке сертификата домена у cert.gov.ru [1], официального сайта Национального координационного центра по компьютерным инцидентам. В котором, казалось бы, должны быть люди как никто понимающие про безопасность, сертификаты, HTTPS, TLS и так далее, а, тем не менее, вот уже 8 дней с 19 января их сертификат просрочен.
Здесь можно задаваться вопросом и о том что сайт cert.gov.ru почему-то до сих пор сайт-визитка, на нём нет даже методических рекомендаций, а контактный номер - номер мобильной связи.
Но я о другом. Мониторинг состояния доменов, недоступность сайтов, просрочка сертификатов и тому подобное - это всё то что должно быть часть мониторинга государственной инфраструктуры. Как минимум публичной инфраструктуры и который не ведётся и даже не планируется. Нет даже реестра госдоменов и сайтов относящихся к государственным. Я регулярно напоминаю что мы такой реестр ведём в виде открытых данных [2] в частном порядке, для целей архивации сайтов в Национальный цифровой архив [3], но за все эти годы никто из госорганов даже не связывался о том чтобы взять его за основу или иначе повторно использовать для создания государственной системы мониторинга.
Ссылки:
[1] https://cert.gov.ru
[2] https://github.com/infoculture/govdomains
[3] https://ruarxive.org
#security #domains #government
Здесь можно задаваться вопросом и о том что сайт cert.gov.ru почему-то до сих пор сайт-визитка, на нём нет даже методических рекомендаций, а контактный номер - номер мобильной связи.
Но я о другом. Мониторинг состояния доменов, недоступность сайтов, просрочка сертификатов и тому подобное - это всё то что должно быть часть мониторинга государственной инфраструктуры. Как минимум публичной инфраструктуры и который не ведётся и даже не планируется. Нет даже реестра госдоменов и сайтов относящихся к государственным. Я регулярно напоминаю что мы такой реестр ведём в виде открытых данных [2] в частном порядке, для целей архивации сайтов в Национальный цифровой архив [3], но за все эти годы никто из госорганов даже не связывался о том чтобы взять его за основу или иначе повторно использовать для создания государственной системы мониторинга.
Ссылки:
[1] https://cert.gov.ru
[2] https://github.com/infoculture/govdomains
[3] https://ruarxive.org
#security #domains #government
GitHub
GitHub - infoculture/govdomains: Создание реестра всех доменных имён Российской Федерации относящихся к органам власти, государственным…
Создание реестра всех доменных имён Российской Федерации относящихся к органам власти, государственным учреждениям, а также региональным и муниципальным властям. - infoculture/govdomains
Полезное чтение про данные и не только:
- Document Your Dataset Using Apache Parquet [1] о том что формат данных Parquet позволяет хранить метаданные к полям таблиц и к набору данных. Можно использовать его для хранения метаданных пакета данных и документации.
- AutoDoc - a project to document automatically your data warehouse [2] от CastorDoc об автоматизации написания документации к данным. То и чем я тоже занимаюсь и очень связано с автоклассификацией данных. Жаль коротко об этом пишут.
- MDS 18 [3] - 18-я рассылка Modern Data Stack, внутри интересное про low code data engineering, тоже интересный тренд и стартап Prophecy [4] который превращает сложные задачи по настройке сложного ПО в упрощённый интерфейс доступный юниору.
Ссылки:
[1] https://medium.com/geekculture/add-metadata-to-your-dataset-using-apache-parquet-75360d2073bd
[2] https://medium.com/castor-app/docmaster-a-project-to-auto-document-your-data-warehouse-castor-blog-69005927c4c3
[3] https://letters.moderndatastack.xyz/mds-newsletter-18/
[4] https://www.prophecy.io/
#reading #data #datatools
- Document Your Dataset Using Apache Parquet [1] о том что формат данных Parquet позволяет хранить метаданные к полям таблиц и к набору данных. Можно использовать его для хранения метаданных пакета данных и документации.
- AutoDoc - a project to document automatically your data warehouse [2] от CastorDoc об автоматизации написания документации к данным. То и чем я тоже занимаюсь и очень связано с автоклассификацией данных. Жаль коротко об этом пишут.
- MDS 18 [3] - 18-я рассылка Modern Data Stack, внутри интересное про low code data engineering, тоже интересный тренд и стартап Prophecy [4] который превращает сложные задачи по настройке сложного ПО в упрощённый интерфейс доступный юниору.
Ссылки:
[1] https://medium.com/geekculture/add-metadata-to-your-dataset-using-apache-parquet-75360d2073bd
[2] https://medium.com/castor-app/docmaster-a-project-to-auto-document-your-data-warehouse-castor-blog-69005927c4c3
[3] https://letters.moderndatastack.xyz/mds-newsletter-18/
[4] https://www.prophecy.io/
#reading #data #datatools
Medium
Document Your Dataset Using Apache Parquet
Working with Dataset — Part 3: Document Your Dataset Using Apache Parquet
Для тех кто задумывается что изучать в работе с данными, в Open Data Science пишут [1] про наиболее популярные платформы и навыки в работе с данными. Данные собраны по результатам анализа 18 тысяч вакансий для специалистов по данным.
Обратите внимание:
- главное data infrastructure - это базовое понимание как работать с данными, извлекать, собирать, хранить и тд.
- Python это отраслевой стандарт де-факто. Остальные языки программирования это плюс к нему, но не более того.
- SQL всё ещё необходим и обязателен, а вот NoSQL, к сожалению, хоть и важен, но не на первых местах.
- облачная работа с данными в приоритетах, особено AWS, Azure, Snowflake, Google Cloud
и так далее.
А из продуктов наиболее востребованы специалисты по Spark, Kafka, Airflow и Hadoop.
Правда, я здесь не могу не оговориться о том что жаль что нет такого анализа в разрезе по годам, потому что всё меняется довольно быстро.
Ссылки:
[1] https://opendatascience.com/20-data-engineering-platforms-skills-needed-in-2022/
#data #dataskills
Обратите внимание:
- главное data infrastructure - это базовое понимание как работать с данными, извлекать, собирать, хранить и тд.
- Python это отраслевой стандарт де-факто. Остальные языки программирования это плюс к нему, но не более того.
- SQL всё ещё необходим и обязателен, а вот NoSQL, к сожалению, хоть и важен, но не на первых местах.
- облачная работа с данными в приоритетах, особено AWS, Azure, Snowflake, Google Cloud
и так далее.
А из продуктов наиболее востребованы специалисты по Spark, Kafka, Airflow и Hadoop.
Правда, я здесь не могу не оговориться о том что жаль что нет такого анализа в разрезе по годам, потому что всё меняется довольно быстро.
Ссылки:
[1] https://opendatascience.com/20-data-engineering-platforms-skills-needed-in-2022/
#data #dataskills
Весьма интересный Block Protocol [1] стандарт/протокол про интеграцию между данными и интерактивными элементами. Позволяют через данные и схемы стыковать таблицы, загрузки файлов, отображение карточек персон и так далее по заранее готовым шаблонам. Большая работа и интересная идея, стоит отслеживать его развитие. За стандартом находится команда Hash.ai [2] стартапа по созданию "Github'а для симуляций", также любопытный продукт. Немного за пределами моих интересов, но их подход к учёту и систематизации данных очень любопытен.
Ссылки:
[1] https://blockprotocol.org
[2] https://hash.ai
#protocols #standards #data
Ссылки:
[1] https://blockprotocol.org
[2] https://hash.ai
#protocols #standards #data
Block Protocol
An open standard for data-driven blocks
Ещё один аналог/замена Airflow, Airbyte и др. data pipeline orchestration инструментов - Estuary [1]. Сейчас в виде открытого кода продукта flow [2] и обещают облачную версию, предлагают присоединяться в листу ожидания беты. В качестве коннекторов к источникам данных используют совместимые с Airbyte. Внутри всё на Go и Rust, с конфигами на Yaml и с активным использованием JSON schema.
Делают существенный акцент на почти реальном времени обработки данных и сравнивают свой продукт с Kafka. В общем и целом будет полезно понаблюдать за его развитием.
Ссылки:
[1] https://estuary.dev
[2] https://github.com/estuary/flow
#datatools #opensource
Делают существенный акцент на почти реальном времени обработки данных и сравнивают свой продукт с Kafka. В общем и целом будет полезно понаблюдать за его развитием.
Ссылки:
[1] https://estuary.dev
[2] https://github.com/estuary/flow
#datatools #opensource
GitHub
GitHub - estuary/flow: 🌊 Continuously synchronize the systems where your data lives, to the systems where you _want_ it to live…
🌊 Continuously synchronize the systems where your data lives, to the systems where you _want_ it to live, with Estuary Flow. 🌊 - GitHub - estuary/flow: 🌊 Continuously synchronize the systems where...
Неприятный факт в том что почти все порталы открытых данных, не только российские, а в мире - это редкостные дата-помойки. Ещё более менее там где данные загружены в сервисы вроде Socrata или в OpenDataSoft и хранятся таблицами. А там где публикуются просто файлы, особенно CSV, всё в разнобой.
Я смотрю сейчас data.gov.uk [1] и там та же беда с CSV файлами что и российских порталах открытых данных:
- разные кодировки файлов
- отсутствие заголовков
- разные разделители значений в строках
- мусорные значения из-за экспорта из Excel (ломают автоматическую обработку данных)
Причина - отсутствие валидации при загрузке и, как мне подсказывают коллеги, в отсутствии культуры работы с данными у государственных служащих. Данные публикуют пресс службы, рядовые сотрудники не знающие разницу между CSV и XML файлами, необученные специалисты и люди не понимающие ценности данных и как их используют.
В результате автоматическая обработка таких данных - это оочень затруднённый процесс.
Но, что надо отметить в Великобритании, это правовая проработка раскрытия данных, раскрытие данных в рамках политической транспарентности и в целом модель open by default у них работает. Публикуют много мусора, но работает. Эдакий open garbage by default.
Надо об этом написать статью на английском языке и так и назвать Open garbage by default. Data.gov.uk as an example.
Ссылки:
[1] https://data.gov.uk
#opendata #opengarbage #dataportals
Я смотрю сейчас data.gov.uk [1] и там та же беда с CSV файлами что и российских порталах открытых данных:
- разные кодировки файлов
- отсутствие заголовков
- разные разделители значений в строках
- мусорные значения из-за экспорта из Excel (ломают автоматическую обработку данных)
Причина - отсутствие валидации при загрузке и, как мне подсказывают коллеги, в отсутствии культуры работы с данными у государственных служащих. Данные публикуют пресс службы, рядовые сотрудники не знающие разницу между CSV и XML файлами, необученные специалисты и люди не понимающие ценности данных и как их используют.
В результате автоматическая обработка таких данных - это оочень затруднённый процесс.
Но, что надо отметить в Великобритании, это правовая проработка раскрытия данных, раскрытие данных в рамках политической транспарентности и в целом модель open by default у них работает. Публикуют много мусора, но работает. Эдакий open garbage by default.
Надо об этом написать статью на английском языке и так и назвать Open garbage by default. Data.gov.uk as an example.
Ссылки:
[1] https://data.gov.uk
#opendata #opengarbage #dataportals
The Future history of data engineering [1] активно цитируемый сейчас текст от Matt Arderne в котором он описывает развитие текущих платформ по инженерии данных и их будущее. Рассуждения интересные, практические и автор пишет про новое понятие и роль Data Platform Engineer (DPE). Это инженер данных который знает как устроены платформы для работы с данными и знает как правильно их применять для конкретых, как правило сложных, случаях.
Ссылки:
[1] https://groupby1.substack.com/p/data-engineering
#data #readings #dataenginering
Ссылки:
[1] https://groupby1.substack.com/p/data-engineering
#data #readings #dataenginering
group by 1
The future history of Data Engineering
On Data Engineers and their place in a Data SaaS world
Сегодня в 11:10, в рамках Privacy Day 2022 модерирую сессию Биометрия и другие персональные данные в школах: в чем опасность единой базы данных о детях.
Подключайтесь к трансляции https://privacyday.ru
#privacy #biometrics #vents
Подключайтесь к трансляции https://privacyday.ru
#privacy #biometrics #vents
2025.privacyday.net
Privacy Day 2025
Международная конференция о приватности, защите персональных данных и балансе между доступом к информации и тайной частной жизни
В рубрике больших наборов данных команда Microsoft Bing опубликовала наборы данных со сведениями о зданиях [1] под открытой лицензией Open Data Commons Open Database License (ODbL) используемой в OpenStreetMap.
Наборы данных включают:
- США - 129.6 миллиона зданий
- Нигерия и Кения - 50.5 миллиона зданий
- Южная Африка - 44.5 миллиона зданий
- Уганда и Танзания - 17.9 миллионов зданий
- Канада - 11.8 миллионов зданий
- Австралия - 11.3 миллионов зданий
Это очень большое раскрытие данных, около сотни гигабайт в распакованном виде в формате GeoJSON.
P.S. Хотелось бы чтобы они так разметили и законтрибьютили данные по России, но подозреваю что в России так много конфликтов вокруг секретности геоданных что на это Microsoft не пойдет.
Ссылки:
[1] https://blogs.bing.com/maps/2022-01/New-and-updated-Building-Footprints/
#opendata #microsoft
Наборы данных включают:
- США - 129.6 миллиона зданий
- Нигерия и Кения - 50.5 миллиона зданий
- Южная Африка - 44.5 миллиона зданий
- Уганда и Танзания - 17.9 миллионов зданий
- Канада - 11.8 миллионов зданий
- Австралия - 11.3 миллионов зданий
Это очень большое раскрытие данных, около сотни гигабайт в распакованном виде в формате GeoJSON.
P.S. Хотелось бы чтобы они так разметили и законтрибьютили данные по России, но подозреваю что в России так много конфликтов вокруг секретности геоданных что на это Microsoft не пойдет.
Ссылки:
[1] https://blogs.bing.com/maps/2022-01/New-and-updated-Building-Footprints/
#opendata #microsoft
Bing
Microsoft has released new and updated building footprints
The Microsoft Maps team has been busy since our last Building footprints blog in 2020. Not only have we added Australia, South America, Nigeria & Kenya but we have also updated our previous collections from 2019 by leveraging newer imagery. As with our other…
Кроме того что я тут пишу довольно много про данные, регулярно пишу колонки для СМИ и ещё много чем занимаюсь, я не перестаю программировать. Чаще в режиме ведения pet-проектов, помогающих в работе, обработке и анализе данных вручную и автоматически.
Один из таких проектов которые я веду и обновляю - это undatum [1] утилита командной строки с открытым кодом для Python написанная изначально как швейцарский нож по обработке данных JSON lines и BSON. Для тех кто не знает, JSON lines и BSON - это форматы используемые активно в NoSQL document-oriented базах данных. Они могут содержать вложенные объекты: словари, массивы данных и тд. Это довольно сильно отличает их от форматов для плоских таблиц таких как CSV/TSV. И для их обработки инструментов гораздо меньше. Особенно для BSON, который применяется преимущественно в MongoDB и мало где используется. Но, поскольку у нас в DataCrafter (data.apicrafter.ru) внутри используется MongoDB, то BSON оказывается нативным и нечеловекочитаемым форматом и для него инструменты работы с данными нужны.
Undatum умеет:
- преобразовывать между форматами файлов CSV, XLS, XLSX JSON lines, BSON, а теперь ещё и Parquet
- печатать поля (headers) файлов и структуру для CSV, JSONl, BSON
- делать дамп уникальных значений конкретного поля
- делать дамп частот значений конкретного поля
- генерировать схему структуры данных
- анализировать статистику по набору данных: тип поля, является ли уникальным, частоты значений и тд.
- разрезать файлы на множество по значению поля или по числу записей в каждом
- применять к каждой записи файла скрипты на Python
- проверять значения в полях файла на одно из правил валидации: сейчас это проверка email, url, кодов ИНН, ОГРН и др.
И так далее, инструмент универсальный. Присоединяйтесь к его развитию и использованию.
Пишите в issues если найдете баги или потребуются новые функции.
Ссылки:
[1] https://github.com/datacoon/undatum
#datatools #opensource
Один из таких проектов которые я веду и обновляю - это undatum [1] утилита командной строки с открытым кодом для Python написанная изначально как швейцарский нож по обработке данных JSON lines и BSON. Для тех кто не знает, JSON lines и BSON - это форматы используемые активно в NoSQL document-oriented базах данных. Они могут содержать вложенные объекты: словари, массивы данных и тд. Это довольно сильно отличает их от форматов для плоских таблиц таких как CSV/TSV. И для их обработки инструментов гораздо меньше. Особенно для BSON, который применяется преимущественно в MongoDB и мало где используется. Но, поскольку у нас в DataCrafter (data.apicrafter.ru) внутри используется MongoDB, то BSON оказывается нативным и нечеловекочитаемым форматом и для него инструменты работы с данными нужны.
Undatum умеет:
- преобразовывать между форматами файлов CSV, XLS, XLSX JSON lines, BSON, а теперь ещё и Parquet
- печатать поля (headers) файлов и структуру для CSV, JSONl, BSON
- делать дамп уникальных значений конкретного поля
- делать дамп частот значений конкретного поля
- генерировать схему структуры данных
- анализировать статистику по набору данных: тип поля, является ли уникальным, частоты значений и тд.
- разрезать файлы на множество по значению поля или по числу записей в каждом
- применять к каждой записи файла скрипты на Python
- проверять значения в полях файла на одно из правил валидации: сейчас это проверка email, url, кодов ИНН, ОГРН и др.
И так далее, инструмент универсальный. Присоединяйтесь к его развитию и использованию.
Пишите в issues если найдете баги или потребуются новые функции.
Ссылки:
[1] https://github.com/datacoon/undatum
#datatools #opensource
GitHub
GitHub - datacoon/undatum: undatum: a command-line tool for data processing. Brings CSV simplicity to JSON lines and BSON
undatum: a command-line tool for data processing. Brings CSV simplicity to JSON lines and BSON - datacoon/undatum
Вышла свежая версия OpenMetadata 0.80 [1] инструмента сбора метаданных о таблицах, дашбордах, трубах данных и тд. Аналог Datahub, Amundsen, но с прицелом на открытый общедоступный стандарт описания данных.
В новой версии:
- политики контроля доступа (access control policy)
- ручное добавление происхождения данных (manual linage)
- уведомления о событиях (event notification)
- контроль качество данных (data profiler) на базе Great Expectations
и ещё много чего.
Главный недостаток, на мой взгляд, в том что OpenMetadata не поддерживает NoSQL базы данных такие как MongoDB или Elasticsearch. Например, Datahub умеет данные о MongoDB собирать.
Об этом я как-нибудь отдельно напишу, о том как существующая среда Modern Data Stack тяжело стыкуется с NoSQL продуктами и что с этим делать.
А пока стоит изучить новые возможности OpenMetadata.
Ссылки:
[1] https://blog.open-metadata.org/openmetadata-0-8-0-release-ca09bd2fbf54
#opensource #datatools #metadata
В новой версии:
- политики контроля доступа (access control policy)
- ручное добавление происхождения данных (manual linage)
- уведомления о событиях (event notification)
- контроль качество данных (data profiler) на базе Great Expectations
и ещё много чего.
Главный недостаток, на мой взгляд, в том что OpenMetadata не поддерживает NoSQL базы данных такие как MongoDB или Elasticsearch. Например, Datahub умеет данные о MongoDB собирать.
Об этом я как-нибудь отдельно напишу, о том как существующая среда Modern Data Stack тяжело стыкуется с NoSQL продуктами и что с этим делать.
А пока стоит изучить новые возможности OpenMetadata.
Ссылки:
[1] https://blog.open-metadata.org/openmetadata-0-8-0-release-ca09bd2fbf54
#opensource #datatools #metadata
Medium
OpenMetadata 0.8.0 Release
OpenMetadata 0.8.0 Release — Event Notification via Webhooks, Slack Integration, Access Control Policy, and Manual Lineage
Тем временем как минимум с прошлого года идёт большая кампания [1] по поводу раскрытия данных Международным энергетическим агенством (IEA) и 6 января они анонсировали что предложение по раскрытию данных внутри агентства было прдставлено совету директоров [2] что уже большой прогресс и даёт надежду что данные будут раскрываться.
Почему это важно? IEA собирает данные от всех развитых и большей части развивающихся стран, сотен энергетических компаний по всему миру. Исследователям эти данные неоходимы для принятия решений и анализа влияния энергопроизводства человечества на климат и изменения климата.
Почему это не так просто? Потому что данные передаваемые в IEA часто не раскрываются на национальном и корпоративном уровне и рассматриваются как данные ограниченного использования и корпоративные тайны.
Многие организации направили открытые письма в IEA с запросом ускорить процесс открытия и данных [3] и есть некоторая надежда что это произойдет.
А у нас появятся новые интересные данные для серьёзного и не очень серьёзного анализа.
Ссылки:
[1] https://ourworldindata.org/free-data-iea
[2] https://www.qcintel.com/article/correction-iea-proposes-to-make-all-its-data-freely-available-3540.html
[3] https://thebreakthrough.org/blog/urge-iea-to-make-energy-data-free
#opendata #iea #energy #climate #climatechange
Почему это важно? IEA собирает данные от всех развитых и большей части развивающихся стран, сотен энергетических компаний по всему миру. Исследователям эти данные неоходимы для принятия решений и анализа влияния энергопроизводства человечества на климат и изменения климата.
Почему это не так просто? Потому что данные передаваемые в IEA часто не раскрываются на национальном и корпоративном уровне и рассматриваются как данные ограниченного использования и корпоративные тайны.
Многие организации направили открытые письма в IEA с запросом ускорить процесс открытия и данных [3] и есть некоторая надежда что это произойдет.
А у нас появятся новые интересные данные для серьёзного и не очень серьёзного анализа.
Ссылки:
[1] https://ourworldindata.org/free-data-iea
[2] https://www.qcintel.com/article/correction-iea-proposes-to-make-all-its-data-freely-available-3540.html
[3] https://thebreakthrough.org/blog/urge-iea-to-make-energy-data-free
#opendata #iea #energy #climate #climatechange
Our World in Data
The IEA wants to make their data available to the public – now it is on governments of the world’s rich countries to make this…
We are just one step away from unlocking the world’s energy data for everyone. This would be a massive achievement for progress on energy and climate.