Ivan Begtin
8.1K subscribers
2K photos
3 videos
102 files
4.72K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech
Download Telegram
Написал в сегодняшнюю рассылку [1] про платформу Гостех, где постарался изложить свою позицию насколько можно подробно.

А тут напишу что мой прогноз в том что платформа Гостех имеет следующие сценарии развития:
- Оптимистичный (для платформы): стать востребованным продуктом, на платформу начнут переносить существующие ФГИСы, а Сбербанк/ФКУ Гостех станут естественной монополией в этой области.

- Реалистичный: платформу будут использовать для создания новых ФГИС и расширения интеграционного контура с Госуслугами и ещё рядом ФГИС под прямым контролем Минцифры и нескольких ФОИВов и иных госструктур.

- Пессимистичный: появятся систематизированные требования для гособлаков, появится 2-3 платформы близких по масштабу к текущему Гостеху, скорее всего в отраслевом разрезе. Например, единая облачная платформа ВПК или единая облачная платформа транспортной отрасли и так далее, с выстраиванием отраслевой специфики.

Всё это сценарии развития Гостеха с точки зрения его создателей, каковы сценарии его развития для пользователей и разработчиков которые будут с ним работать - я предлагаю подумать всем вместе.

Ссылки:
[1] https://begtin.substack.com/p/17-
#government #tech #technology #clouds
October 26, 2021
В рубрике полезные инструменты для работы с данными:
- OpenRefine версии 3.5.0 вышел совсем недавно, один из лучших инструментов для data wrangling, точно лучший из бесплатных. Много разных улучшений, для поддержки Wikibase/Wikidata, для работы в UI и ещё многое другое.
- Autoscraper не совсем обычный инструмент автоматического скрейпинга данных на основе примеров. Вместо сложных конструкций по парсингу HTML скрейперу передаётся пример данных, а дальше он сам додумывается. Хорошая штука, я когда-то думал в этом же направлении, но шёл от понимания структуры данных, а тут от содержания.
- Developing AI-Based Solution for Web Scraping: Lessons Learned - полезная статья на ту же тему автоматизации скрейпинга данных. То что авторы используют термин AI - это, конечно, совсем неправда. Просто адаптивные алгоритмы, но и они это уже хороший прогресс.
- QuestDb - открытая СУБД с обещаниями очень хорошей скорости для хранения и обработки временных рядов. По их собственным бенчмаркам обгоняет ClickHouse
- NADA (National Data Archive) - проект Мирового Банка по публикации микроданных опросов, переписей и так далее. С открытым кодом и с поддержкой стандарта раскрытия данных DDI (Data Documentation Initiative). Используется самим Мировым банком в их базе микроданных и ещё в нескольких странах национальными службами статистики.

А также не совсем про данные:
- PubPub для тех кто интересуется новыми моделями публикации научных текстов, у проекта PubPub.org есть открытый код которым можно воспользоваться. Это не совсем про данные, но близко к открытости науки и открытости знания.

#data #tools #tech
November 22, 2021
Я бы сказал что у меня скепсиса прибавилось, но посмотрим. По прежнему считаю что концепция здравая, а реализацию ещё не поздно корректировать.

Ссылки:
[1] https://www.youtube.com/watch?v=NddaKbSqa94
[2] https://www.developer.tech.gov.sg/

#govtech #government #tech
December 23, 2021
В рубрике много интересного чтения о данных. Практически все по практике работы с данными и технологических стартапах:
- 30 startups that show how open source ate the world in 2021 [1] обзор 30 стартапов продуктов с открытым кодом привлекших значительное финансирование. Многие стартапы исключительно про работу с данными и про инфраструктурные аспекты работы с данными, например, MindsDB [2] про машинное обучение внутри СУБД или Airbyte [3] про преобразование и интеграцию данных. Там же упоминается весьма интересный проект Hoppscotch [4] про проектирование API с открытым кодом, фактически открытый аналог Postman. А модель многих open source продуктов часто похожа на "давайте посмотрим на лучший продукт на рынке и сделаем такой-же только с открытым кодом. А зарабатывать будем на облачной версии", иногда это работает;)
- One Year of dbt [5] статья автора о более чем годе практике использования Dbt (data build tool) [6], теперь уже популярном инструменте преобразования данных, с открытым кодом и интеграцией практически со всеми современными корпоративными инструментами и современным стеком данных.
- Announcing preview of BigQuery’s native support for semi-structured data [7] в Google BigQuery анонсируют поддержку полу-структурированных данных, с обращением к JSON данным внутри запросов. Много времени прошло с тех пор как она ожидалась и вот появилась.

Ссылки:
[1] https://venturebeat.com/2022/01/03/30-startups-that-show-how-open-source-ate-the-world-in-2021/
[2] https://mindsdb.com/
[3] https://airbyte.com/
[4] https://hoppscotch.io
[5] https://tech.devoted.com/one-year-of-dbt-b2e8474841ca
[6] https://www.getdbt.com/
[7] https://cloud.google.com/blog/products/data-analytics/bigquery-now-natively-supports-semi-structured-data

#reading #data #tech
January 11, 2022
February 5, 2022
Полезное чтение про разное

- How often do people actually copy and paste from Stack Overflow? Now we know. [1] о том как часто программисты копируют тексты со Stack Overflow. Мини-исследование от команды проекта собиравших данные о копировании с помощью отслеживания фактов копирования в JavaScript коде. Если кратко - копируют много и посты/ответы с хорошей репутацией.

- The next billion programmers [2] рассуждения всё того же Benn Stancil из стартапа Mode о том что самый главный продукт для переделки или пересоздания - это Excel. У Бена хорошие рассуждения практически во всех его текстах, он уходит куда дальше чем просто продвижение Mode и дискуссий вокруг хайпов вокруг данных, а рассуждает по общеотраслевые проблемы. Excel - это, действительно, с одной стороны гениальное, а с другой тяжкое наследие.

- Six Reasons Why the Wolfram Language Is (Like) Open Source [3] ноябрьский текст от Jon McLoone, директора по коммуникациям и стратегии в Wolfram, о том почему модель открытого кода не подходит для ключевых технологий Wolfram. Для тех кто не знает, Wolfram Mathematica один из лучших продуктов для технических вычислений, а Wolfram Alpha один из лучших продуктов поиска ответов на вопросы со способностью давать ответы в технических дисциплинах. Но все эти продукты с закрытым кодом, включая их Wolfram Language и многие не используют именно из-за закрытости и замкнутости экосистемы Wolfram. Стоит почитать чтобы понимать позицию тех кто делает хорошие продукты и не может поменять бизнес модель в сторону открытости и поговорить о том к чему это приведет.

- Tableau Data Catalog: Let’s do the jigsaw puzzle! [4] команда разработчиков пытаются построить каталог данных на базе Tableau. На мой взгляд это не самый правильный путь, но активным пользователям Tableau может оказаться полезным.

- Understanding of metrics store [5] полезный обзорный текст про хранилища метрик, как лучше их организовать, зачем и кому они нужны. Лично у меня metrics store четко ассоциируется с Headless BI, и разделением аналитических показателей на подсчет, хранение и интерфейс.

- Snowflake Data Classification Now Available in Public Preview [6] в Snowflake анонсировали технологии классификации данных для данных загружаемых пользователями, но потом почему-то статью убрали и осталась она только в гугл кеше. Технология практически та же что у нас в DataCrafter'е [7] и то что я недавно анонсировал в виде утилиты metacrafter [8] с открытым кодом. Разница в том что у Snowflake это встроено в систему SQL запросов и находится прямо внутри их движка.

Ссылки:
[1] https://stackoverflow.blog/2021/12/30/how-often-do-people-actually-copy-and-paste-from-stack-overflow-now-we-know/
[2] https://benn.substack.com/p/the-next-billion-programmers
[3] https://blog.wolfram.com/2021/11/30/six-reasons-why-the-wolfram-language-is-like-open-source/
[4] https://medium.com/iadvize-engineering/tableau-data-catalog-lets-do-the-jigsaw-puzzle-cef93e674622
[5] https://medium.com/kyligence/understanding-the-metrics-store-c213341e4c25
[6] https://webcache.googleusercontent.com/search?q=cache:61aCFi3onBwJ:https://www.snowflake.com/blog/data-classification-now-available-in-public-preview/+&cd=1&hl=fr&ct=clnk&gl=de&client=firefox-b-d
[7] https://data.apicrafter.ru/class
[8] https://github.com/apicrafter/metacrafter/

#reading #data #tech
February 12, 2022
April 5, 2022
Тем временем в Японии специалисты NICT разработали и создали технологию передачи данных со скоростью в 1.02 Петабита в секунду [1] по кабелю длиной 51.7 километра.

Авторы исследования и ранее немало добились в экспериментах по передаче данных, даже интересно когда такие скорости доберутся до потребителей.

Ссылки:
[1] https://www.sciencealert.com/researchers-just-set-a-new-record-for-data-transmission-speed

#tech
June 6, 2022
September 2, 2022
October 1, 2022