Ivan Begtin
7.99K subscribers
1.77K photos
3 videos
101 files
4.49K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]
Download Telegram
Конгресс США официально открыл API к базе законопроектов [1], а также опубликовал исходный код с примерами работы с этим API [2].

Важно что данных там отдаётся много, фактически не просто законопроекты и законы, а весь их цифровой след, со всеми поправками, голосованиями и тд.

Удивительно скорее то что у них это заняло так много времени, поскольку общественные базы данных и API к данным конгресса существуют давно [3]. Но, как бы то ни было, значит число общественных проектов на этих данных только вырастет.

Ссылки:
[1] https://blogs.loc.gov/law/2022/09/introducing-the-congress-gov-api/
[2] https://github.com/LibraryOfCongress/api.congress.gov/
[3] https://projects.propublica.org/api-docs/congress-api/

#opendata #us #congress #api #legislation
В продолжение того о чём я писал тут в телеграм канале про обработку данных [1] написал короткую технологическую заметку NoSQL data wrangling [2] про проблему обработки NoSQL данных и о дефиците инструментов позволяющих обрабатывать JSON/JSON lines.

Правда заметка пока в формате размышлений вслух, готового решения у меня нет. Пока нет.

Ссылки:
[1] https://t.iss.one/begtin/4255
[2] https://medium.com/@ibegtin/nosql-data-wrangling-50b5a2898a83

#datatools #datawrangling #dataengineering
Для тех кто "любит командную строку также как люблю её я" (c). Командная строка - это стиль жизни, удобство и привычка. Я сижу за командной строкой уже с незапамятных времен UNIX и MS-DOS и для многих задач это гораздо быстрее чем что-либо ещё.

Есть ли оболочки для работы с данными?

- nushell [1] потрясающая штука для тех кто работает в командной строке и работает с данными. Умеет открывать CSV, JSON и кучу других типов файлов и показывать их таблицами. Имеет язык запросов (набор функций) позволяющих таблицами работать с файлами и ещё много всего. Пока один важный минус - не поддерживает файлы JSON lines, Parquet и BSON, но это поправимо и не критично.

- Textualize и Rich [2] набор утилит и библиотека для создания оболочек для Python. Позволяет очень много, а Rich Cli ещё и умеет подсвечивать дата файлы удобным образом.

- bubbletea [3] создаём терминальные приложения на языке Go. Может многое, а ещё его использует gum [4] позволяющий создавать стильные скрипты без строчки кода на Go

В 2021 году в Google проводили исследование по доступности инструментов командной строки с полезными советами как их дорабатывать [5].

Командная строка - это, часто, возможность делать что-то быстро, без задержек и раздражения. Современные инструменты позволяют сделать работу с ними значительно удобнее.

Ссылки:
[1] https://www.nushell.sh
[2] https://www.textualize.io/
[3] https://github.com/charmbracelet/bubbletea
[4] https://github.com/charmbracelet/gum
[5] https://dl.acm.org/doi/fullHtml/10.1145/3411764.3445544

#datatools #opensource #commandline
Регулярное чтение про данные, технологии и не только:
- Complexity: the new analytics frontier [1] в блоге dbt о том что обновление внутренних аналитических моделей у них в компании занимает до 21 часа и о том что сложность работа с аналитическими данными - это новый фронтир. С подробностями проблем. Несомненно актуально
- Data Glossary [2] Airbyte выпустили словарик по инженерии данных с определениями и с графом связей между понятиями и вопросами. Хорошая база знаний для тех кто погружен или погружается в эту тему. В основу взяли тему Quartz [3] для генератора статических сайтов Hugo. Я думал сделать похожий словарь, у меня даже более 200 терминов накопилось, но ребята опередили.
- How python programmers save the environment (by making python run faster)? [4] текст о том как ускорять Python с отсылкой на прошлогоднюю публикацию [5] о том что Python, Perl и Ruby сжигают более энергии в компьютерах. Сравнение, конечно, так себе. Можно задаться вопросом о том сколько нервных клеток экономят развитые языки программирования и насколько эффективнее разработка. Вообще приход климатической повестки в разработку ПО может оказаться неожиданным.
- Go MySQL Server [6] реализация MySQL совместимого SQL сервера написанного на Go и декларируемого как хорошо расширяемого. Делает его команда Dolt, распределенной Git-подобной СУБД. Есть шанс что станет интересным продуктом однажды.
- How Fivetran fails [7] Benn Stancil рассуждает о том что SaaS ETL инструмент Fivetran скоро потеряет лидерство и его заменят Airbyte и владельцы крупнейших облачных хранилищ данных Microsoft, Amazon, Google и др. Не без основательное утверждение. Про Fivetran в России мало знают, а в США - это гигантский стартап с большой корпоративной базой клиентов.
- Connectors catalog [8] таблица в Airtable со списком сервисов к которым есть коннекторы у облачных ETL движков таких как Fivetran, Hevo Data, Airbyte, Whaly, Stitch и тд. Кстати, давно замечаю что российских сервисов в этих движках не было и нет. Есть ли рынок для отдельного ETL движка здесь? Может быть, но скорее нет, потому что нет облачных хранилищ как драйвера таких сервисов

Ссылки:
[1] https://roundup.getdbt.com/p/complexity-the-new-analytics-frontier
[2] https://glossary.airbyte.com
[3] https://quartz.jzhao.xyz/
[4] https://laszlo.substack.com/p/how-python-programmers-save-the-environment
[5] https://medium.com/codex/what-are-the-greenest-programming-languages-e738774b1957
[6] https://github.com/dolthub/go-mysql-server
[7] https://benn.substack.com/p/how-fivetran-fails
[8] https://airtable.com/shrQMzHOF4hWfdTBG/tblA6Jm3vnbGCyLeC/viw2hJa6PanS8GtQa

#datatools #data #readings #opensource #dataengineering
Я тут несколько раз писал о том что нет удобных инструментов для обработки для обработки NoSQL данных. Нет аналога OpenRefine или возможности удобной манипуляции данными внутри NoSQL баз данных. Писал на русском [1] и на английском языках [2].

Но рассуждать вслух хорошо, а экспериментировать лучше. Поэтому на выходных я сделал вот такой простой инструмент mongorefine [3] воспроизводящий часть функций OpenRefine используя MongoDB как бэкенд. Штука эта экспериментальная, измерения по скорости с другими подходами могут быть не в её пользу, особенно в части плоских данных. Но для не-плоских данных, она полезна даже в таком виде.

Основная фича в том чтобы сделать оболочку поверх коллекций MongoDB позволяющую работать с записями как с колоночной базой данных. Свободно удалять отдельные колонки, создавать колонки на основе

Лично я пока не обладаю уверенностью что путь создания системы автоматизации обработки данных поверх MongoDB - это оптимальный путь.

Но если Вы готовы поэкспериментировать и дать обратную связь, то такой инструмент теперь доступен.

P.S. Никогда не делайте экспериментов на рабочих базах данных. Сделайте тестовую копию и тренируйтесь на ней;)

Ссылки:
[1] https://t.iss.one/begtin/4255
[2] https://medium.com/@ibegtin/nosql-data-wrangling-50b5a2898a83
[3] https://github.com/ivbeg/mongorefine

#data #opensource #mongodb #dataengineering #datawrangling
Полезное чтение про данные, технологии и не только:
- SQL Vs. NoSQL: Choose The Most Convenient Technology [1] полезное чтение для начинающих о разнице между SQL и NoSQL базами данных. Почему для начинающих? Потому что в реальности выбор зависит от того насколько выбранный продукт соответствует компетенциям команды и выбранному технологическому стеку.
- Evolution of data companies [2] о том как развиваются компании на рынке инструментов работы с данными.
- Penpot - The Open-Source design & prototyping platform [3] открытая и свободная альтернатива Figma. Для тех кто хочет проектировать приложения и не хочет платить сервисам за эту возможность
- Devops excercises [4] каталог ресурсов, документов, вопросов и ответов и упражнения для DevOps'ов. Полезно, как начинающим, так и углубляющим знания.
- ZincSearch [5] альтернативная поисковая система декларируемая как более быстрая чем Elastic
- The Production-Grade Data Pipeline [6] о том почему трубы данных надо делать сразу как продукты и о рисках накопления технического долга

Ссылки:
[1] https://pub.towardsai.net/sql-vs-nosql-choose-the-most-convenient-technology-4506d831b6e4
[2] https://medium.com/coriers/the-evolution-of-data-companies-167ff4b65e1d
[3] https://github.com/penpot/penpot
[4] https://github.com/bregman-arie/devops-exercises
[5] https://github.com/zinclabs/zinc
[6] https://dataproducts.substack.com/p/the-production-grade-data-pipeline

#opensource #datatools #data #readings #dataengineering
Когда читаю государственные или корпоративные новости про внедрение и разработку ИИ не могу не напомнить что без аналитики - нет тех кто измерит результаты машинного обучения. Без дата инженерии не появится нормальных аналитических инструментов. А без дата стратегии всё вообще не сдвинется с места и, с самого начала, пойдет не туда. Поэтому я не перестаю поражаться обилию новых создаваемых государственных информационных систем без стратегии работы с данными которые в них должны собираться.

С бизнес продуктами то же самое. Кто-то уже умеет быть и реально строит бизнес на данных, а кто-то умеет казаться и не имеет даже стратегии.

Поэтому, в качестве завершения этого короткого ранта, всё начинается со стратегий, далее сбора, обработки и очистки данных, далее профессионально отлаженной аналитики и только в конце уже можно что-то говорить про машинное обучение. А если стратегии нет, остаётся только пустая болтовня.


#thoughts #rants #opinion #dataengineering
В Великобритании Министерство юстиции (российский аналог - Министерство внутренних дел) анонсировало [1] подготовку стратегии по работе с данными, data strategy, которую пока описали одним слайдом из 3 пунктов на этом же слайде.

Обещают вскоре в блоге опубликовать саму стратегию, очень будет интересно её почитать. Я коллекционирую документы дата-стратегий и цифровых стратегий, хочется надеяться что этот будет полезным.

Ссылки:
[1] https://mojdigital.blog.gov.uk/2022/08/30/becoming-a-truly-data-led-justice-system/

#opendata #data #uk #datastrategies
В рубрике интересного чтения про данные, технологии и не только:
- The Vector Database Index [1] сравнение нескольких векторных баз данных. Полезно для понимания как устроен этот рынок и того между чем можно и стоит выбирать. Не все продукты рассмотрены, но достаточно многие. Для тех кто не знает или подзабыл - векторные базы данных используются для построения нейросетей и, например, для поиска по подобиям, поиска аномалий и пользовательских рекомендаций и скоринга. Этот рынок растёт и в нём довольно много инвестиций уже есть и приходит.
- What I've learned from users [2] свежий текст Пола Грэхема о том чему научился от основателей стартапов профинансированных Y Combinator. Как и все тексты автора - почитать его стоит. Пишет он редко и всегда по делу.
- Modern COBOL Tooling [3] для тех кто хочет погрузится в вечность или даже не знаю как это описать, но набор инструментов в современных средах разработки и курсов по COBOL.
- Instant MD5 Collisions [4] всё ещё используете хэш функции MD5? А их уже подменяют моментально, на примере пары картинок и большой текст.
- Faster CPython ideas [5] репозиторий идей по ускорению языка Python реализованного на С. Python никогда не отличался высокой скоростью, но был и есть гибок. Интересно то как думают о его ускорении.
- SQLite: Past, Present, and Future [6] об устройстве и судьбе СУБД Sqlite. Важно потому что не стоит недооценивать масштабов её использования особенно в мобильных устройствах и IoT.
- Document Foundation starts charging €8.99 for 'free' LibreOffice [7] этот момент настал и LibreOffice в магазине для Mac'ов продается за 8.99 евро. Обещается что сумма пойдет на разработку ПО. Напомню что LibreOffice - это ответвление (форк) OpenOffice.

Ссылки:
[1] https://gradientflow.com/the-vector-database-index/
[2] https://paulgraham.com/users.html
[3] https://www.openmainframeproject.org/all-projects/cobolprogrammingcourse
[4] https://github.com/corkami/collisions
[5] https://github.com/faster-cpython/ideas
[6] https://muratbuffalo.blogspot.com/2022/09/sqlite-past-present-and-future.html
[7] https://www.theregister.com/2022/09/20/libre_office_macos_fees/

#opensource #readings #rdbms #data
В рубрике интересных наборов данных открытое API проекта Metaculus [1] по краудсорсингу предсказаний.

Проект позволяет регистрировать предсказания, собирать оценки от пользователей и измерять точность предсказаний.

Все эти сведения доступны в формате JSON через API проекта [2].

Всего в проекте более 1 миллиона предсказаний [3] что очень даже немало.

Для полного счастья нехватает только дампов данных, но может быть авторы добавят их в будущем.

Ссылки:
[1] https://www.metaculus.com
[2] https://www.metaculus.com/api2/
[3] https://twitter.com/fianxu/status/1569537658103431168

#opendata #predictions #datasets #API
The right to privacy in the digital age

Свежий доклад представителя по правам человека ООН [1]. Документ короткий, на 17 страниц. Там про всё, взломы телефонов правительствами (спецслужбами), массовую слежку, ограничения в использовании шифрования, нарушениях прав человека и так далее.

То о чём писали многие, но изложено сжато и в докладе ООН.

Ссылки:
[1] https://documents-dds-ny.un.org/doc/UNDOC/GEN/G22/442/29/PDF/G2244229.pdf?OpenElement

#privacy #reports
Полезное чтение про управление командами данных. Onboarding for Data teams [1] о том как собирать команды дата специалистов и погружать их в работу. Онбоардинг - это быстрое погружение в работу. Много полезных советов и рекомендаций.

Мне понравилась идея в том что новичок в первый день должен сделать коммит в промышленный код (production). Что-то в этой идее есть.

Ссылки:
[1] https://seattledataguy.substack.com/p/onboarding-for-data-teams

#data #datateams
Интересная и пока малопопулярная, но перспективная штука Daft [1] это интерфейс работы с датафреймами вместе с мультимедиа и другими файлами, например, это актуально в задачах генеративного искусства, автоматического создания текстов, изображений, аудио и видео.

Поддерживает стандартный интерфейс датафреймов а-ля Pandas и позволяет выполнять комплексные запросы.

Я чувствую что как-то надо сделать обзор движков для датафреймов, их возможностей и ограничений. В первую очередь с точки зрения работы с данными в диких / реальных, а не лабораторно выверенных условиях.

Ссылки:
[1] https://www.getdaft.io/

#data #datatools
В рубрике как это работает у них, портал открытых транспортных данных Франции transport.data.gouv.fr [1] я писал о нём несколько лет назад и за эти годы портал активно развивался.

На портале уже размещено 417 наборов данных [2] причем 112 наборов данных - это данные реального времени!

Данные публикуются в соответствии с 6 национальными стандартами описания транспортных данных.

Многие данные можно, также, увидеть на интерактивной карте [7] в реальном времени по местам публикации этих данных их владельцами.

Ссылки:
[1] https://transport.data.gouv.fr
[2] https://transport.data.gouv.fr/datasets?
[3] https://normes.transport.data.gouv.fr/
[4] https://transport.data.gouv.fr/explore

#opendata #france #transport #datasets
Вчера я выступал на Kazan Digital Week про открытость транспортных данных и, похоже, я был единственным на этом мероприятии кто вообще говорил про открытость государства хотя бы частично. Осталось ощущение гласа вопиющего в пустыни.
Media is too big
VIEW IN TELEGRAM
Председатель Ассоциации участников рынка данных Иван Бегтин о доступности транспортных данных, собираемых госсистемами, для использования бизнесом.

Выступление на круглом столе «Большие данные в транспортной отрасли на примере работы ГИС «Электронные перевозочные документы»”, KAZAN DIGITAL WEEK
В рубрике интересных стартапов на данных Whaly [1] французский стартап в области автоматизации BI и аналитики, привлекший $1.9M венчурных инвестиций в июле 2022 г. [2]. Стартап любопытный в том что конкурирует с Looker, но своим рыночным преимуществом указывает что умеет интегрироваться с десятками онлайн сервисов и эта интеграция не требует внешнего ETԼ сервиса. Что, в целом, соответствует тому о чём писал Benn Stancil [3] о том что ETL бизнесу вроде Fivetran недолго осталось царствовать. Whaly продукт весьма любопытный, но бесплатно его не попробовать и ценообразование там какое-то непонятное, всё через созвон с сейлами и в прайс листе указано что
планы начинаются с $460 в месяц. Наверное сервис хороший, но вот этот вот подход с невозможностью бесплатного тестирования мне лично категорически не нравится.

И, признаюсь, я лично, обжёгшись на Gitbook'е и Scaleway очень настороженно отношусь к французским стартапам. Даже когда продукт выглядит интересно, customer service оказывается ужасающим.

Ссылки:
[1] https://whaly.io/
[2] https://www.crunchbase.com/organization/whaly
[3] https://benn.substack.com/p/how-fivetran-fails

#data #datatools #startups #analytics #BI
Всемирная организация здравоохранения приняла новую политику с требованием по обязательному раскрытию данных всех финансируемых ими научных исследований [1] в их анонсе ссылка на документ руководства опубликованного в апреле 2022 г.
Распространение и повторное использование медико-санитарных данных в исследовательских целях: руководство ВОЗ по политике и осуществлению [2]

Если изложить кратко тезисами, то примерно так:
1. Все данные исследований должны раскрываться
2. Данные должны публиковаться в одном из открытых репозиториев соответствующих ряду критериев. Примеры приведены
3. Исследования должны быть основаны на принципах FAIR [3]
4. Данные должны проходить деперсонализацию.

Как я уже много раз писал, структуры ООН сейчас одни из лидирующих в мире по масштабам раскрытия данных.

Ссылки:
[1] https://www.who.int/news/item/16-09-2022-new-who-policy-requires-sharing-of-all-research-data
[2] https://www.who.int/ru/publications/i/item/9789240044968
[3] https://www.go-fair.org/fair-principles/

#opendata #un #who #openaccess
Полезное чтение про данные, технологии, программирование и не только в виде дайджеста:
- The impossible case of pitching rust in a web dev shop [1] полезный образный кейс и подборка примеров того почему крупнейшие компании переходят на Rust и очень конкретные примеры того к какой эффективности это приводит. В основном речь о сокращении энергопотребления, меньшем объёме потребления памяти, значительно лучшей производительности.
- Hurl [2] инструмент тестирования запросов к веб-сайтам через скриптовое описание текста в простом тексте. Умеет то же что и Curl, но через скрипты и включает удобную проверку результатов. Несомненно полезно и необходимо для автоматизации тестирования API.
- MFA Fatigue: Hackers’ new favorite tactic in high-profile breaches [3] новая тактика хакеров по взлому аккаунтов через "задалбывание пользователей" запросами через многофакторную аутентификацию. Так чтобы пользователь, или случайно, или от усталости подтвердил вход. Уже несколько компаний были успешно взломаны через такую социальную инженерию. В частности это был Uber.
- Rocketry [4] система планирования задач написанная на Python и позволяющая регулярно выполнять определенные задачи в отдельной нити или в отдельном процессе. Казалось бы зачем это нужно если есть Crontab для локального или Airflow для глобального? Потому что позволяет строить трубы задач (pipelines) и помогает решать более комплексно чем crontab, и потому что сильно проще чем Airflow. И, конечно, потому что концепция Everything as a code - не такая уж плохая концепция.
- The beginning of ‘Everything as Code’ [5] в качестве напоминания текст Ethan Batraski от 2020 года про то что "всё код" и концепцию Everything-as-a-Code (EaC). Он там приводит немало примеров того что можно, также, представить в форме кода: управление настройками, документацию, политики соответствия и тд. и тп.
- The World Bank Data Catalog [6] весьма развившийся каталог данных Мирового Банка. 5449 наборов данных на 24 сентября, из них 175 наборов данных связаны с Россией.

Ссылки:
[1] https://flakm.github.io/posts/rust_why_dev_shop/
[2] https://hurl.dev/
[3] https://www.bleepingcomputer.com/news/security/mfa-fatigue-hackers-new-favorite-tactic-in-high-profile-breaches/
[4] https://rocketry.readthedocs.io
[5] https://medium.com/ethanjb/the-beginning-of-everything-as-code-a25c4e9a75e9
[6] https://datacatalog.worldbank.org/home
[7] https://datacatalog.worldbank.org/search?fq=(geographical_extent%2Fcoverage%2Fany(geo:geo%2Fname%20eq%20%27Russian%20Federation%27))&q=&sort=last_updated_date%20desc

#opendata #data #opensource #datatools #readings