Ivan Begtin
8.09K subscribers
1.99K photos
3 videos
102 files
4.71K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]
Download Telegram
Интересный стартап Dropbase автоматизации работы с облачными базами данных [1] с финансируемый в Y Combinator [2] на неназванную сумму. Создан полностью поверх Snoflake, фактически является красивой надстройкой над ним, позволяет импортировать CSV и Excel файлы и проводить трансформации над ними прямо в облаке. Интеграция устроена по принципу что не он интегрируется, а даёт ключи для прямого подключения к базе Snowflake.

Трасформация данных там очень ограниченная. Я бы даже сказал куцая, по сравнению с серьёзными инструментами вроде Trifacta (коммерческий) или OpenRefine (открытый), но стратегия весьма интересная. Удобный быстрый интерфейс и развитие в сторону преобразования данных. Фактические пользователи такого - analytic engineers, инженеры готовящие данные для аналитиков.

Ссылки:
[1] https://www.dropbase.io
[2] https://www.crunchbase.com/organization/dropbase

#datatools #startups #datawrangling
По заказу ВЭБа для города Байкальска создали цифровой мастер план [1]. Я, сознаюсь, до сих пор не могу понять смысла его цифровой формы и в чём его достоинства. Но один плюс есть - из него можно выгрузить все данные по мероприятиям и там их 349 штук, общей стоимостью, по грубым подсчетам, на 165 миллиардов рублей на ближайшие несколько лет. Что из какого бюджета и что от частных инвесторов - отдельный вопрос. При том что среднегодовой бюджет Байкальска 150-200 миллионов рублей, всего там около 13 тысяч жителей.

Не могу сравнить Байкальск с Сочи, не те суммы вроде бы и не тот масштаб города.

Кстати, для тех кто интересовался мастер-планом Байкальска и хочет сделать по нему анализ - есть скачанные данные по всем 349 мероприятиям. Из интересного - крупнейшее мероприятие там на 18 миллиардов рублей на 4 года по очистке территории БЦБК. Для тех кто хочет проанализировать эти данные, они есть по ссылке [2] в формате JSON lines размером в 2.6MB. Формат JSON lines хорошо поддерживает OpenRefine ну и опытные специалисты по работе с данными знают как работать с JSON файлами и JSON lines сложностей не вызовет.

Ссылки:
[1] https://план.байкальск.рф
[2] files.begtin.tech/f/59165db094504bb98e6c/?dl=1

#data #cities #datasets
Поскольку так получилось что вот уже долгое время я больше читал чем писал что-то осмысленное. Тексты в канале - это просто поддержание этого чтения, заметки на полях. Я тут в несколько итераций думал о том как развивается рынок вокруг данных.

Про каталоги данных и продукты на data discovery я уже писал, они переживают взлёт и один такой продукт DataCrafter, наша команда делает. Я также писал много про alternative data, большой рынок для тех кто понимает как устроено потребление данных в финансовой сфере и не только.

Но самое интересное, ИМХО, это то что творится вокруг Modern data stack. Инструментальная насыщенность там очень высокая, стартапов много, инвестиций много, конкуренция очень сильная, но и появление новых продуктов очень стремительное. Я уже писал ранее что вижу уже сильное отставание между продуктами платформ для открытых данных и корпоративными системами управления данными. Ещё лет 7-8 было не так.

Так вот в Modern data stack ещё есть свободные ниши, для разных продуктов, которые постепенно заполняются, но в целом не так быстро, при том что востребованность высокая. Я бы выделил следующие направления.
- Редакторы баз данных для больших данных (аналоги Airtable для BigData). Об одном таком проекте я писал - это Dropbase работающий поверх Snowflake. А, в принципе, это про перенос удобного проектирования баз данных, обработки, выполнения задач траснформации, data wrangling, экспорта, импорта и интеграции именно для данных на миллионы и миллиарды записей. Сейчас все эти инструменты работают, в основном, до 100 тысяч записей. А для данных большего объёма нужны другие инструменты для фронтэнда и другой подход к бэкэнду. Это большая ниша, востребованная по мере переноса корпоративных данных в облака.
- Системы мониторинга и контроля качества (data observability). Их стало сильно больше в последние 2 года: Anomalo, MonteCarlo,SODA и другие. Но в этой нише всё ещё очень много задач и разных отраслей и сред где инструментов недостаточно. Сейчас явный фокус на то мониторинг оперативности поставки данных, базовых метрик и отклонений, выявления аномалий и так далее применительно к данным из внешних систем.
- Системы обогащения данных (data enrichment) многие из них на самом деле не так публичны и не так рекламируются как инструменты. Из известных Explorium, Crunchbase, Craft.co и многие другие. Но востребованность их велика и они частично пересекаются с продуктами на альтернативных данных.


#data #dataproducts
Forwarded from Roskomsvoboda
Transparency report Twitter: по запросам на удаление контента Россия поднялась на второе место

Twitter опубликовал отчёт о прозрачности, согласно которому с января по июнь 2021 года компания получила от правительств всего мира 43 387 юридических требования об удалении контента из 196 878 аккаунтов.

95% от общего объёма запросов на удаление пришлось на следующие пять стран (в порядке убывания): Японию, Россию, Турцию, Индию и Южную Корею.

Доля России составила 25% (10448; увеличение на 56% по сравнению с предыдущим периодом), при этом 71% российских требований относился к запрету пропаганды самоубийств:

➡️ https://roskomsvoboda.org/post/twitter-transparency-report-jan-jun-2021/
Кто зарабатывает на том что к Вашим данным может добавить дополнительные данные? Примеры стартапов по обогащению данных (Data Enrichment):
- Explorium.ai [1] продвинутая платформа обещающая применение алгоритмов ИИ к анализу данных и дающая сервисы обогащениями данными о людях, компаниях, сайтах, объектах интересах и погоде. Появились в 2017 году в Израиле. Привлекли венчурных инвестиций на $125M
- Uplead [2] предоставляют данные о людях и компаниях. Обогащают данные о человеке, компании или email'е. Частная компания, инвестиции не раскрывают. Созданы в 2017 году в Калифорнии.
- People Data Labs [3] Существуют с 2015 года, привлекли $55.3M инвестиций, из которых $45M в ноябре 2021 года. Фокус только на данных компаний и людей, плюс API по идентификации типов данных для задач комплаенса. Построены вокруг API для обогащения данных о персоне, компании, API по очистке данных и так далее.

Многие из компаний в рынке data enrichment также торгуют данными и их можно найти на площадках вроде Datarade [4], также у многих компаний это часть их больших платформу управления данными.

Ссылки:
[1] https://www.explorium.ai
[2] https://www.uplead.com/data-enhancement/
[3] https://www.peopledatalabs.com/
[4] https://datarade.ai/

#data #startups #dataenrichment
Совершенно свежая и поучительная история о том как один немецкий исследователь раскрыл секретное германское ведомство с помощью AirTag'а.

Если вкратце то один немецкий активист отправил AirTag подозрительному германскому федеральному ведомству и отследил его настоящие офисы.

А если подробнее то Лилит Витман, исследователь из Германии, утверждает что она раскрыла что Federal Telecommunications Service в Германии - это, на самом деле, "камуфляжная служба" и она изначально написала о том как столкнулась со службой которой не существует [1].

После чего она обстоятельно и методично собирала все возможные данные о этой структуре, вплоть до IP адресов и того чтобы проехаться мимо зданий [2].

После чего она отправила посылку с AirTag внутри и с помощью сервиса Apple Find My [3] следила за её движением и нашла что посылку переслали в Office for the Protection of the Constitution in Cologne. О чём она написала подробно в германоязычной Википедии [4]

А вся история на английском языке есть в Apple Insider [5].

История поучительна тем что современные технологии позволяют следить за теми кто следит. Можно рассмотреть много кейсов при которых можно выяснять немало интересного о существующих и камуфляжных государственных структурах.

Хочется надеяться что в России после этого AirTag не запретят.

Ссылки:
[1] https://lilithwittmann.medium.com/bundesservice-telekommunikation-wie-ich-versehentlich-eine-tarnbeh%C3%B6rde-in-der-bundesverwaltung-a8823f308536
[2] https://lilithwittmann.medium.com/bundesservice-telekommunikation-enttarnt-dieser-geheimdienst-steckt-dahinter-cd2e2753d7ca
[3] https://appleinsider.com/inside/Find-My
[4] https://de.wikipedia.org/wiki/Bundesservice_Telekommunikation
[5] https://appleinsider.com/articles/22/01/25/apples-airtag-uncovers-a-secret-german-intelligence-agency

#privacy #security #airtag #germany #specialagencies
В рубрике интересных наборов данных сведения о объёме газа в газовых хранилищах Европы [1] доступны в виде таблиц, выгрузки в Excel и через API. База данных создана и ведётся Gas Infrastructure Europe (GIE) ассоциацией Европейских газовых операторов.

Данные будут полезны всем журналистам пишущих о поставках данных в Европу и о дефиците газа, но не приводящих цифры или графики.

Ссылки:
[1] https://agsi.gie.eu/

#opendata #datasets #gas #europe
Телеграм бот @DataClassifierBot - это то что я обещал как инструмент автоматической классификации данных DataCrafter'а. В него можно загрузить файлы в формате CSV (разделитель обязательно запятая) или JSON lines (.jsonl) и на выходе будет одно или нескольк сообщений с таблицей структуры полей в файле, их типа и идентифицированного класса данных. Подробнее можно посмотреть на скриншотах. Через телеграм бот будет открытое бета тестирование, прошу делиться обратной связью в чате @apicrafterchat или написав мне. А для тех у кого более серьёзные задачи скоро будет доступно API.
По результатам бета-тестирования хочется понять:
1) Каких функций возможностей нехватает
2) Какие дополнительные классификации нужны/ожидаемы и пока отсутствуют.
3) Насколько точно алгоритмы работают на Ваших данных

Особенности работы бота:
- отключены почти все "неточные" правила
- текущие основные правила под русский язык
- ограничения на файлы 10Mb, 1000 строк, ограничений на число полей нет


#data #apicrafter #datacrafter #datatools
Многие уже написали о просрочке сертификата домена у cert.gov.ru [1], официального сайта Национального координационного центра по компьютерным инцидентам. В котором, казалось бы, должны быть люди как никто понимающие про безопасность, сертификаты, HTTPS, TLS и так далее, а, тем не менее, вот уже 8 дней с 19 января их сертификат просрочен.

Здесь можно задаваться вопросом и о том что сайт cert.gov.ru почему-то до сих пор сайт-визитка, на нём нет даже методических рекомендаций, а контактный номер - номер мобильной связи.

Но я о другом. Мониторинг состояния доменов, недоступность сайтов, просрочка сертификатов и тому подобное - это всё то что должно быть часть мониторинга государственной инфраструктуры. Как минимум публичной инфраструктуры и который не ведётся и даже не планируется. Нет даже реестра госдоменов и сайтов относящихся к государственным. Я регулярно напоминаю что мы такой реестр ведём в виде открытых данных [2] в частном порядке, для целей архивации сайтов в Национальный цифровой архив [3], но за все эти годы никто из госорганов даже не связывался о том чтобы взять его за основу или иначе повторно использовать для создания государственной системы мониторинга.

Ссылки:
[1] https://cert.gov.ru
[2] https://github.com/infoculture/govdomains
[3] https://ruarxive.org

#security #domains #government
Полезное чтение про данные и не только:
- Document Your Dataset Using Apache Parquet [1] о том что формат данных Parquet позволяет хранить метаданные к полям таблиц и к набору данных. Можно использовать его для хранения метаданных пакета данных и документации.
- AutoDoc - a project to document automatically your data warehouse [2] от CastorDoc об автоматизации написания документации к данным. То и чем я тоже занимаюсь и очень связано с автоклассификацией данных. Жаль коротко об этом пишут.
- MDS 18 [3] - 18-я рассылка Modern Data Stack, внутри интересное про low code data engineering, тоже интересный тренд и стартап Prophecy [4] который превращает сложные задачи по настройке сложного ПО в упрощённый интерфейс доступный юниору.

Ссылки:
[1] https://medium.com/geekculture/add-metadata-to-your-dataset-using-apache-parquet-75360d2073bd
[2] https://medium.com/castor-app/docmaster-a-project-to-auto-document-your-data-warehouse-castor-blog-69005927c4c3
[3] https://letters.moderndatastack.xyz/mds-newsletter-18/
[4] https://www.prophecy.io/

#reading #data #datatools
Для тех кто задумывается что изучать в работе с данными, в Open Data Science пишут [1] про наиболее популярные платформы и навыки в работе с данными. Данные собраны по результатам анализа 18 тысяч вакансий для специалистов по данным.

Обратите внимание:
- главное data infrastructure - это базовое понимание как работать с данными, извлекать, собирать, хранить и тд.
- Python это отраслевой стандарт де-факто. Остальные языки программирования это плюс к нему, но не более того.
- SQL всё ещё необходим и обязателен, а вот NoSQL, к сожалению, хоть и важен, но не на первых местах.
- облачная работа с данными в приоритетах, особено AWS, Azure, Snowflake, Google Cloud
и так далее.

А из продуктов наиболее востребованы специалисты по Spark, Kafka, Airflow и Hadoop.

Правда, я здесь не могу не оговориться о том что жаль что нет такого анализа в разрезе по годам, потому что всё меняется довольно быстро.

Ссылки:
[1] https://opendatascience.com/20-data-engineering-platforms-skills-needed-in-2022/

#data #dataskills
Весьма интересный Block Protocol [1] стандарт/протокол про интеграцию между данными и интерактивными элементами. Позволяют через данные и схемы стыковать таблицы, загрузки файлов, отображение карточек персон и так далее по заранее готовым шаблонам. Большая работа и интересная идея, стоит отслеживать его развитие. За стандартом находится команда Hash.ai [2] стартапа по созданию "Github'а для симуляций", также любопытный продукт. Немного за пределами моих интересов, но их подход к учёту и систематизации данных очень любопытен.

Ссылки:
[1] https://blockprotocol.org
[2] https://hash.ai

#protocols #standards #data
Ещё один аналог/замена Airflow, Airbyte и др. data pipeline orchestration инструментов - Estuary [1]. Сейчас в виде открытого кода продукта flow [2] и обещают облачную версию, предлагают присоединяться в листу ожидания беты. В качестве коннекторов к источникам данных используют совместимые с Airbyte. Внутри всё на Go и Rust, с конфигами на Yaml и с активным использованием JSON schema.

Делают существенный акцент на почти реальном времени обработки данных и сравнивают свой продукт с Kafka. В общем и целом будет полезно понаблюдать за его развитием.

Ссылки:
[1] https://estuary.dev
[2] https://github.com/estuary/flow

#datatools #opensource
Неприятный факт в том что почти все порталы открытых данных, не только российские, а в мире - это редкостные дата-помойки. Ещё более менее там где данные загружены в сервисы вроде Socrata или в OpenDataSoft и хранятся таблицами. А там где публикуются просто файлы, особенно CSV, всё в разнобой.

Я смотрю сейчас data.gov.uk [1] и там та же беда с CSV файлами что и российских порталах открытых данных:
- разные кодировки файлов
- отсутствие заголовков
- разные разделители значений в строках
- мусорные значения из-за экспорта из Excel (ломают автоматическую обработку данных)

Причина - отсутствие валидации при загрузке и, как мне подсказывают коллеги, в отсутствии культуры работы с данными у государственных служащих. Данные публикуют пресс службы, рядовые сотрудники не знающие разницу между CSV и XML файлами, необученные специалисты и люди не понимающие ценности данных и как их используют.

В результате автоматическая обработка таких данных - это оочень затруднённый процесс.

Но, что надо отметить в Великобритании, это правовая проработка раскрытия данных, раскрытие данных в рамках политической транспарентности и в целом модель open by default у них работает. Публикуют много мусора, но работает. Эдакий open garbage by default.

Надо об этом написать статью на английском языке и так и назвать Open garbage by default. Data.gov.uk as an example.

Ссылки:
[1] https://data.gov.uk

#opendata #opengarbage #dataportals
The Future history of data engineering [1] активно цитируемый сейчас текст от Matt Arderne в котором он описывает развитие текущих платформ по инженерии данных и их будущее. Рассуждения интересные, практические и автор пишет про новое понятие и роль Data Platform Engineer (DPE). Это инженер данных который знает как устроены платформы для работы с данными и знает как правильно их применять для конкретых, как правило сложных, случаях.

Ссылки:
[1] https://groupby1.substack.com/p/data-engineering

#data #readings #dataenginering
Сегодня в 11:10, в рамках Privacy Day 2022 модерирую сессию Биометрия и другие персональные данные в школах: в чем опасность единой базы данных о детях.

Подключайтесь к трансляции https://privacyday.ru

#privacy #biometrics #vents
В рубрике больших наборов данных команда Microsoft Bing опубликовала наборы данных со сведениями о зданиях [1] под открытой лицензией Open Data Commons Open Database License (ODbL) используемой в OpenStreetMap.

Наборы данных включают:
- США - 129.6 миллиона зданий
- Нигерия и Кения - 50.5 миллиона зданий
- Южная Африка - 44.5 миллиона зданий
- Уганда и Танзания - 17.9 миллионов зданий
- Канада - 11.8 миллионов зданий
- Австралия - 11.3 миллионов зданий

Это очень большое раскрытие данных, около сотни гигабайт в распакованном виде в формате GeoJSON.

P.S. Хотелось бы чтобы они так разметили и законтрибьютили данные по России, но подозреваю что в России так много конфликтов вокруг секретности геоданных что на это Microsoft не пойдет.

Ссылки:
[1] https://blogs.bing.com/maps/2022-01/New-and-updated-Building-Footprints/

#opendata #microsoft