Ivan Begtin – Telegram

Ivan Begtin

8.09K subscribers

1.99K photos

3 videos

102 files

4.71K links

I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]

Download Telegram

About

Blog

Apps

Platform

8.09K subscribers

Интересный стартап Dropbase автоматизации работы с облачными базами данных [1] с финансируемый в Y Combinator [2] на неназванную сумму. Создан полностью поверх Snoflake, фактически является красивой надстройкой над ним, позволяет импортировать CSV и Excel файлы и проводить трансформации над ними прямо в облаке. Интеграция устроена по принципу что не он интегрируется, а даёт ключи для прямого подключения к базе Snowflake.

Трасформация данных там очень ограниченная. Я бы даже сказал куцая, по сравнению с серьёзными инструментами вроде Trifacta (коммерческий) или OpenRefine (открытый), но стратегия весьма интересная. Удобный быстрый интерфейс и развитие в сторону преобразования данных. Фактические пользователи такого - analytic engineers, инженеры готовящие данные для аналитиков.

Ссылки:
[1] https://www.dropbase.io
[2] https://www.crunchbase.com/organization/dropbase

#datatools #startups #datawrangling

www.dropbase.io

Dropbase AI | Build Software Faster With AI

Dropbase is a prompt-based developer platform for building web apps and automation software, fast and painless.

1.3K viewsIvan Begtin, 08:27

По заказу ВЭБа для города Байкальска создали цифровой мастер план [1]. Я, сознаюсь, до сих пор не могу понять смысла его цифровой формы и в чём его достоинства. Но один плюс есть - из него можно выгрузить все данные по мероприятиям и там их 349 штук, общей стоимостью, по грубым подсчетам, на 165 миллиардов рублей на ближайшие несколько лет. Что из какого бюджета и что от частных инвесторов - отдельный вопрос. При том что среднегодовой бюджет Байкальска 150-200 миллионов рублей, всего там около 13 тысяч жителей.

Не могу сравнить Байкальск с Сочи, не те суммы вроде бы и не тот масштаб города.

Кстати, для тех кто интересовался мастер-планом Байкальска и хочет сделать по нему анализ - есть скачанные данные по всем 349 мероприятиям. Из интересного - крупнейшее мероприятие там на 18 миллиардов рублей на 4 года по очистке территории БЦБК. Для тех кто хочет проанализировать эти данные, они есть по ссылке [2] в формате JSON lines размером в 2.6MB. Формат JSON lines хорошо поддерживает OpenRefine ну и опытные специалисты по работе с данными знают как работать с JSON файлами и JSON lines сложностей не вызовет.

Ссылки:
[1] https://план.байкальск.рф
[2] files.begtin.tech/f/59165db094504bb98e6c/?dl=1

#data #cities #datasets

2.3K viewsIvan Begtin, 09:22

Поскольку так получилось что вот уже долгое время я больше читал чем писал что-то осмысленное. Тексты в канале - это просто поддержание этого чтения, заметки на полях. Я тут в несколько итераций думал о том как развивается рынок вокруг данных.

Про каталоги данных и продукты на data discovery я уже писал, они переживают взлёт и один такой продукт DataCrafter, наша команда делает. Я также писал много про alternative data, большой рынок для тех кто понимает как устроено потребление данных в финансовой сфере и не только.

Но самое интересное, ИМХО, это то что творится вокруг Modern data stack. Инструментальная насыщенность там очень высокая, стартапов много, инвестиций много, конкуренция очень сильная, но и появление новых продуктов очень стремительное. Я уже писал ранее что вижу уже сильное отставание между продуктами платформ для открытых данных и корпоративными системами управления данными. Ещё лет 7-8 было не так.

Так вот в Modern data stack ещё есть свободные ниши, для разных продуктов, которые постепенно заполняются, но в целом не так быстро, при том что востребованность высокая. Я бы выделил следующие направления.
- Редакторы баз данных для больших данных (аналоги Airtable для BigData). Об одном таком проекте я писал - это Dropbase работающий поверх Snowflake. А, в принципе, это про перенос удобного проектирования баз данных, обработки, выполнения задач траснформации, data wrangling, экспорта, импорта и интеграции именно для данных на миллионы и миллиарды записей. Сейчас все эти инструменты работают, в основном, до 100 тысяч записей. А для данных большего объёма нужны другие инструменты для фронтэнда и другой подход к бэкэнду. Это большая ниша, востребованная по мере переноса корпоративных данных в облака.
- Системы мониторинга и контроля качества (data observability). Их стало сильно больше в последние 2 года: Anomalo, MonteCarlo,SODA и другие. Но в этой нише всё ещё очень много задач и разных отраслей и сред где инструментов недостаточно. Сейчас явный фокус на то мониторинг оперативности поставки данных, базовых метрик и отклонений, выявления аномалий и так далее применительно к данным из внешних систем.
- Системы обогащения данных (data enrichment) многие из них на самом деле не так публичны и не так рекламируются как инструменты. Из известных Explorium, Crunchbase, Craft.co и многие другие. Но востребованность их велика и они частично пересекаются с продуктами на альтернативных данных.

#data #dataproducts

1.3K viewsIvan Begtin, 10:39

Forwarded from Roskomsvoboda

Transparency report Twitter: по запросам на удаление контента Россия поднялась на второе место

Twitter опубликовал отчёт о прозрачности, согласно которому с января по июнь 2021 года компания получила от правительств всего мира 43 387 юридических требования об удалении контента из 196 878 аккаунтов.

95% от общего объёма запросов на удаление пришлось на следующие пять стран (в порядке убывания): Японию, Россию, Турцию, Индию и Южную Корею.

Доля России составила 25% (10448; увеличение на 56% по сравнению с предыдущим периодом), при этом 71% российских требований относился к запрету пропаганды самоубийств:

➡️ https://roskomsvoboda.org/post/twitter-transparency-report-jan-jun-2021/

1.2K viewsIvan Begtin, 14:06

Кто зарабатывает на том что к Вашим данным может добавить дополнительные данные? Примеры стартапов по обогащению данных (Data Enrichment):
- Explorium.ai [1] продвинутая платформа обещающая применение алгоритмов ИИ к анализу данных и дающая сервисы обогащениями данными о людях, компаниях, сайтах, объектах интересах и погоде. Появились в 2017 году в Израиле. Привлекли венчурных инвестиций на $125M
- Uplead [2] предоставляют данные о людях и компаниях. Обогащают данные о человеке, компании или email'е. Частная компания, инвестиции не раскрывают. Созданы в 2017 году в Калифорнии.
- People Data Labs [3] Существуют с 2015 года, привлекли $55.3M инвестиций, из которых $45M в ноябре 2021 года. Фокус только на данных компаний и людей, плюс API по идентификации типов данных для задач комплаенса. Построены вокруг API для обогащения данных о персоне, компании, API по очистке данных и так далее.

Многие из компаний в рынке data enrichment также торгуют данными и их можно найти на площадках вроде Datarade [4], также у многих компаний это часть их больших платформу управления данными.

Ссылки:
[1] https://www.explorium.ai
[2] https://www.uplead.com/data-enhancement/
[3] https://www.peopledatalabs.com/
[4] https://datarade.ai/

#data #startups #dataenrichment

Explorium - B2B Data Foundation for AI Agents & GTM Success

The B2B data foundation for AI agents. Access go-to-market data and infrastructure built to power context-aware AI products and strategies.

1.6K viewsIvan Begtin, 15:35

Совершенно свежая и поучительная история о том как один немецкий исследователь раскрыл секретное германское ведомство с помощью AirTag'а.

Если вкратце то один немецкий активист отправил AirTag подозрительному германскому федеральному ведомству и отследил его настоящие офисы.

А если подробнее то Лилит Витман, исследователь из Германии, утверждает что она раскрыла что Federal Telecommunications Service в Германии - это, на самом деле, "камуфляжная служба" и она изначально написала о том как столкнулась со службой которой не существует [1].

После чего она обстоятельно и методично собирала все возможные данные о этой структуре, вплоть до IP адресов и того чтобы проехаться мимо зданий [2].

После чего она отправила посылку с AirTag внутри и с помощью сервиса Apple Find My [3] следила за её движением и нашла что посылку переслали в Office for the Protection of the Constitution in Cologne. О чём она написала подробно в германоязычной Википедии [4]

А вся история на английском языке есть в Apple Insider [5].

История поучительна тем что современные технологии позволяют следить за теми кто следит. Можно рассмотреть много кейсов при которых можно выяснять немало интересного о существующих и камуфляжных государственных структурах.

Хочется надеяться что в России после этого AirTag не запретят.

Ссылки:
[1] https://lilithwittmann.medium.com/bundesservice-telekommunikation-wie-ich-versehentlich-eine-tarnbeh%C3%B6rde-in-der-bundesverwaltung-a8823f308536
[2] https://lilithwittmann.medium.com/bundesservice-telekommunikation-enttarnt-dieser-geheimdienst-steckt-dahinter-cd2e2753d7ca
[3] https://appleinsider.com/inside/Find-My
[4] https://de.wikipedia.org/wiki/Bundesservice_Telekommunikation
[5] https://appleinsider.com/articles/22/01/25/apples-airtag-uncovers-a-secret-german-intelligence-agency

#privacy #security #airtag #germany #specialagencies

Bundesservice Telekommunikation — wie ich versehentlich eine Tarnbehörde in der Bundesverwaltung…

Vor einigen Tagen tat ich etwas, dass ist so ungewöhnlich, das es scheinbar noch fast niemand vor mir gemacht hat: Ich habe mir die Liste…

5.7K viewsIvan Begtin, edited 15:50

В рубрике интересных наборов данных сведения о объёме газа в газовых хранилищах Европы [1] доступны в виде таблиц, выгрузки в Excel и через API. База данных создана и ведётся Gas Infrastructure Europe (GIE) ассоциацией Европейских газовых операторов.

Данные будут полезны всем журналистам пишущих о поставках данных в Европу и о дефиците газа, но не приводящих цифры или графики.

Ссылки:
[1] https://agsi.gie.eu/

#opendata #datasets #gas #europe

1.3K viewsIvan Begtin, 18:16

Телеграм бот @DataClassifierBot - это то что я обещал как инструмент автоматической классификации данных DataCrafter'а. В него можно загрузить файлы в формате CSV (разделитель обязательно запятая) или JSON lines (.jsonl) и на выходе будет одно или нескольк сообщений с таблицей структуры полей в файле, их типа и идентифицированного класса данных. Подробнее можно посмотреть на скриншотах. Через телеграм бот будет открытое бета тестирование, прошу делиться обратной связью в чате @apicrafterchat или написав мне. А для тех у кого более серьёзные задачи скоро будет доступно API.
По результатам бета-тестирования хочется понять:
1) Каких функций возможностей нехватает
2) Какие дополнительные классификации нужны/ожидаемы и пока отсутствуют.
3) Насколько точно алгоритмы работают на Ваших данных

Особенности работы бота:
- отключены почти все "неточные" правила
- текущие основные правила под русский язык
- ограничения на файлы 10Mb, 1000 строк, ограничений на число полей нет

#data #apicrafter #datacrafter #datatools

1.6K viewsIvan Begtin, 07:03

Многие уже написали о просрочке сертификата домена у cert.gov.ru [1], официального сайта Национального координационного центра по компьютерным инцидентам. В котором, казалось бы, должны быть люди как никто понимающие про безопасность, сертификаты, HTTPS, TLS и так далее, а, тем не менее, вот уже 8 дней с 19 января их сертификат просрочен.

Здесь можно задаваться вопросом и о том что сайт cert.gov.ru почему-то до сих пор сайт-визитка, на нём нет даже методических рекомендаций, а контактный номер - номер мобильной связи.

Но я о другом. Мониторинг состояния доменов, недоступность сайтов, просрочка сертификатов и тому подобное - это всё то что должно быть часть мониторинга государственной инфраструктуры. Как минимум публичной инфраструктуры и который не ведётся и даже не планируется. Нет даже реестра госдоменов и сайтов относящихся к государственным. Я регулярно напоминаю что мы такой реестр ведём в виде открытых данных [2] в частном порядке, для целей архивации сайтов в Национальный цифровой архив [3], но за все эти годы никто из госорганов даже не связывался о том чтобы взять его за основу или иначе повторно использовать для создания государственной системы мониторинга.

Ссылки:
[1] https://cert.gov.ru
[2] https://github.com/infoculture/govdomains
[3] https://ruarxive.org

#security #domains #government

GitHub - infoculture/govdomains: Создание реестра всех доменных имён Российской Федерации относящихся к органам власти, государственным…

Создание реестра всех доменных имён Российской Федерации относящихся к органам власти, государственным учреждениям, а также региональным и муниципальным властям. - infoculture/govdomains

1.5K viewsIvan Begtin, 08:00

Полезное чтение про данные и не только:
- Document Your Dataset Using Apache Parquet [1] о том что формат данных Parquet позволяет хранить метаданные к полям таблиц и к набору данных. Можно использовать его для хранения метаданных пакета данных и документации.
- AutoDoc - a project to document automatically your data warehouse [2] от CastorDoc об автоматизации написания документации к данным. То и чем я тоже занимаюсь и очень связано с автоклассификацией данных. Жаль коротко об этом пишут.
- MDS 18 [3] - 18-я рассылка Modern Data Stack, внутри интересное про low code data engineering, тоже интересный тренд и стартап Prophecy [4] который превращает сложные задачи по настройке сложного ПО в упрощённый интерфейс доступный юниору.

Ссылки:
[1] https://medium.com/geekculture/add-metadata-to-your-dataset-using-apache-parquet-75360d2073bd
[2] https://medium.com/castor-app/docmaster-a-project-to-auto-document-your-data-warehouse-castor-blog-69005927c4c3
[3] https://letters.moderndatastack.xyz/mds-newsletter-18/
[4] https://www.prophecy.io/

#reading #data #datatools

Document Your Dataset Using Apache Parquet

Working with Dataset — Part 3: Document Your Dataset Using Apache Parquet

1.5K viewsIvan Begtin, 09:05

Для тех кто задумывается что изучать в работе с данными, в Open Data Science пишут [1] про наиболее популярные платформы и навыки в работе с данными. Данные собраны по результатам анализа 18 тысяч вакансий для специалистов по данным.

Обратите внимание:
- главное data infrastructure - это базовое понимание как работать с данными, извлекать, собирать, хранить и тд.
- Python это отраслевой стандарт де-факто. Остальные языки программирования это плюс к нему, но не более того.
- SQL всё ещё необходим и обязателен, а вот NoSQL, к сожалению, хоть и важен, но не на первых местах.
- облачная работа с данными в приоритетах, особено AWS, Azure, Snowflake, Google Cloud
и так далее.

А из продуктов наиболее востребованы специалисты по Spark, Kafka, Airflow и Hadoop.

Правда, я здесь не могу не оговориться о том что жаль что нет такого анализа в разрезе по годам, потому что всё меняется довольно быстро.

Ссылки:
[1] https://opendatascience.com/20-data-engineering-platforms-skills-needed-in-2022/

#data #dataskills

1.4K viewsIvan Begtin, 14:50

Весьма интересный Block Protocol [1] стандарт/протокол про интеграцию между данными и интерактивными элементами. Позволяют через данные и схемы стыковать таблицы, загрузки файлов, отображение карточек персон и так далее по заранее готовым шаблонам. Большая работа и интересная идея, стоит отслеживать его развитие. За стандартом находится команда Hash.ai [2] стартапа по созданию "Github'а для симуляций", также любопытный продукт. Немного за пределами моих интересов, но их подход к учёту и систематизации данных очень любопытен.

Ссылки:
[1] https://blockprotocol.org
[2] https://hash.ai

#protocols #standards #data

An open standard for data-driven blocks

1.3K viewsIvan Begtin, 20:21

Ещё один аналог/замена Airflow, Airbyte и др. data pipeline orchestration инструментов - Estuary [1]. Сейчас в виде открытого кода продукта flow [2] и обещают облачную версию, предлагают присоединяться в листу ожидания беты. В качестве коннекторов к источникам данных используют совместимые с Airbyte. Внутри всё на Go и Rust, с конфигами на Yaml и с активным использованием JSON schema.

Делают существенный акцент на почти реальном времени обработки данных и сравнивают свой продукт с Kafka. В общем и целом будет полезно понаблюдать за его развитием.

Ссылки:
[1] https://estuary.dev
[2] https://github.com/estuary/flow

#datatools #opensource

GitHub - estuary/flow: 🌊 Continuously synchronize the systems where your data lives, to the systems where you _want_ it to live…

🌊 Continuously synchronize the systems where your data lives, to the systems where you _want_ it to live, with Estuary Flow. 🌊 - GitHub - estuary/flow: 🌊 Continuously synchronize the systems where...

1.2K viewsIvan Begtin, 05:37

Неприятный факт в том что почти все порталы открытых данных, не только российские, а в мире - это редкостные дата-помойки. Ещё более менее там где данные загружены в сервисы вроде Socrata или в OpenDataSoft и хранятся таблицами. А там где публикуются просто файлы, особенно CSV, всё в разнобой.

Я смотрю сейчас data.gov.uk [1] и там та же беда с CSV файлами что и российских порталах открытых данных:
- разные кодировки файлов
- отсутствие заголовков
- разные разделители значений в строках
- мусорные значения из-за экспорта из Excel (ломают автоматическую обработку данных)

Причина - отсутствие валидации при загрузке и, как мне подсказывают коллеги, в отсутствии культуры работы с данными у государственных служащих. Данные публикуют пресс службы, рядовые сотрудники не знающие разницу между CSV и XML файлами, необученные специалисты и люди не понимающие ценности данных и как их используют.

В результате автоматическая обработка таких данных - это оочень затруднённый процесс.

Но, что надо отметить в Великобритании, это правовая проработка раскрытия данных, раскрытие данных в рамках политической транспарентности и в целом модель open by default у них работает. Публикуют много мусора, но работает. Эдакий open garbage by default.

Надо об этом написать статью на английском языке и так и назвать Open garbage by default. Data.gov.uk as an example.

Ссылки:
[1] https://data.gov.uk

#opendata #opengarbage #dataportals

1.2K viewsIvan Begtin, 05:51

The Future history of data engineering [1] активно цитируемый сейчас текст от Matt Arderne в котором он описывает развитие текущих платформ по инженерии данных и их будущее. Рассуждения интересные, практические и автор пишет про новое понятие и роль Data Platform Engineer (DPE). Это инженер данных который знает как устроены платформы для работы с данными и знает как правильно их применять для конкретых, как правило сложных, случаях.

Ссылки:
[1] https://groupby1.substack.com/p/data-engineering

#data #readings #dataenginering

The future history of Data Engineering

On Data Engineers and their place in a Data SaaS world

6.5K viewsIvan Begtin, 06:33

Сегодня в 11:10, в рамках Privacy Day 2022 модерирую сессию Биометрия и другие персональные данные в школах: в чем опасность единой базы данных о детях.

Подключайтесь к трансляции https://privacyday.ru

#privacy #biometrics #vents

2025.privacyday.net

Privacy Day 2025

Международная конференция о приватности, защите персональных данных и балансе между доступом к информации и тайной частной жизни

1.6K viewsIvan Begtin, 07:42

В рубрике больших наборов данных команда Microsoft Bing опубликовала наборы данных со сведениями о зданиях [1] под открытой лицензией Open Data Commons Open Database License (ODbL) используемой в OpenStreetMap.

Наборы данных включают:
- США - 129.6 миллиона зданий
- Нигерия и Кения - 50.5 миллиона зданий
- Южная Африка - 44.5 миллиона зданий
- Уганда и Танзания - 17.9 миллионов зданий
- Канада - 11.8 миллионов зданий
- Австралия - 11.3 миллионов зданий

Это очень большое раскрытие данных, около сотни гигабайт в распакованном виде в формате GeoJSON.

P.S. Хотелось бы чтобы они так разметили и законтрибьютили данные по России, но подозреваю что в России так много конфликтов вокруг секретности геоданных что на это Microsoft не пойдет.

Ссылки:
[1] https://blogs.bing.com/maps/2022-01/New-and-updated-Building-Footprints/

#opendata #microsoft

Microsoft has released new and updated building footprints

The Microsoft Maps team has been busy since our last Building footprints blog in 2020. Not only have we added Australia, South America, Nigeria & Kenya but we have also updated our previous collections from 2019 by leveraging newer imagery. As with our other…

1.3K viewsIvan Begtin, 13:42