Ivan Begtin
9.12K subscribers
2.04K photos
3 videos
102 files
4.77K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech
Download Telegram
Написал в сегодняшнюю рассылку [1] про платформу Гостех, где постарался изложить свою позицию насколько можно подробно.

А тут напишу что мой прогноз в том что платформа Гостех имеет следующие сценарии развития:
- Оптимистичный (для платформы): стать востребованным продуктом, на платформу начнут переносить существующие ФГИСы, а Сбербанк/ФКУ Гостех станут естественной монополией в этой области.

- Реалистичный: платформу будут использовать для создания новых ФГИС и расширения интеграционного контура с Госуслугами и ещё рядом ФГИС под прямым контролем Минцифры и нескольких ФОИВов и иных госструктур.

- Пессимистичный: появятся систематизированные требования для гособлаков, появится 2-3 платформы близких по масштабу к текущему Гостеху, скорее всего в отраслевом разрезе. Например, единая облачная платформа ВПК или единая облачная платформа транспортной отрасли и так далее, с выстраиванием отраслевой специфики.

Всё это сценарии развития Гостеха с точки зрения его создателей, каковы сценарии его развития для пользователей и разработчиков которые будут с ним работать - я предлагаю подумать всем вместе.

Ссылки:
[1] https://begtin.substack.com/p/17-
#government #tech #technology #clouds
October 26, 2021
В рубрике полезные инструменты для работы с данными:
- OpenRefine версии 3.5.0 вышел совсем недавно, один из лучших инструментов для data wrangling, точно лучший из бесплатных. Много разных улучшений, для поддержки Wikibase/Wikidata, для работы в UI и ещё многое другое.
- Autoscraper не совсем обычный инструмент автоматического скрейпинга данных на основе примеров. Вместо сложных конструкций по парсингу HTML скрейперу передаётся пример данных, а дальше он сам додумывается. Хорошая штука, я когда-то думал в этом же направлении, но шёл от понимания структуры данных, а тут от содержания.
- Developing AI-Based Solution for Web Scraping: Lessons Learned - полезная статья на ту же тему автоматизации скрейпинга данных. То что авторы используют термин AI - это, конечно, совсем неправда. Просто адаптивные алгоритмы, но и они это уже хороший прогресс.
- QuestDb - открытая СУБД с обещаниями очень хорошей скорости для хранения и обработки временных рядов. По их собственным бенчмаркам обгоняет ClickHouse
- NADA (National Data Archive) - проект Мирового Банка по публикации микроданных опросов, переписей и так далее. С открытым кодом и с поддержкой стандарта раскрытия данных DDI (Data Documentation Initiative). Используется самим Мировым банком в их базе микроданных и ещё в нескольких странах национальными службами статистики.

А также не совсем про данные:
- PubPub для тех кто интересуется новыми моделями публикации научных текстов, у проекта PubPub.org есть открытый код которым можно воспользоваться. Это не совсем про данные, но близко к открытости науки и открытости знания.

#data #tools #tech
November 22, 2021
Я бы сказал что у меня скепсиса прибавилось, но посмотрим. По прежнему считаю что концепция здравая, а реализацию ещё не поздно корректировать.

Ссылки:
[1] https://www.youtube.com/watch?v=NddaKbSqa94
[2] https://www.developer.tech.gov.sg/

#govtech #government #tech
December 23, 2021
В рубрике много интересного чтения о данных. Практически все по практике работы с данными и технологических стартапах:
- 30 startups that show how open source ate the world in 2021 [1] обзор 30 стартапов продуктов с открытым кодом привлекших значительное финансирование. Многие стартапы исключительно про работу с данными и про инфраструктурные аспекты работы с данными, например, MindsDB [2] про машинное обучение внутри СУБД или Airbyte [3] про преобразование и интеграцию данных. Там же упоминается весьма интересный проект Hoppscotch [4] про проектирование API с открытым кодом, фактически открытый аналог Postman. А модель многих open source продуктов часто похожа на "давайте посмотрим на лучший продукт на рынке и сделаем такой-же только с открытым кодом. А зарабатывать будем на облачной версии", иногда это работает;)
- One Year of dbt [5] статья автора о более чем годе практике использования Dbt (data build tool) [6], теперь уже популярном инструменте преобразования данных, с открытым кодом и интеграцией практически со всеми современными корпоративными инструментами и современным стеком данных.
- Announcing preview of BigQuery’s native support for semi-structured data [7] в Google BigQuery анонсируют поддержку полу-структурированных данных, с обращением к JSON данным внутри запросов. Много времени прошло с тех пор как она ожидалась и вот появилась.

Ссылки:
[1] https://venturebeat.com/2022/01/03/30-startups-that-show-how-open-source-ate-the-world-in-2021/
[2] https://mindsdb.com/
[3] https://airbyte.com/
[4] https://hoppscotch.io
[5] https://tech.devoted.com/one-year-of-dbt-b2e8474841ca
[6] https://www.getdbt.com/
[7] https://cloud.google.com/blog/products/data-analytics/bigquery-now-natively-supports-semi-structured-data

#reading #data #tech
January 11, 2022
February 5, 2022
Полезное чтение про разное

- How often do people actually copy and paste from Stack Overflow? Now we know. [1] о том как часто программисты копируют тексты со Stack Overflow. Мини-исследование от команды проекта собиравших данные о копировании с помощью отслеживания фактов копирования в JavaScript коде. Если кратко - копируют много и посты/ответы с хорошей репутацией.

- The next billion programmers [2] рассуждения всё того же Benn Stancil из стартапа Mode о том что самый главный продукт для переделки или пересоздания - это Excel. У Бена хорошие рассуждения практически во всех его текстах, он уходит куда дальше чем просто продвижение Mode и дискуссий вокруг хайпов вокруг данных, а рассуждает по общеотраслевые проблемы. Excel - это, действительно, с одной стороны гениальное, а с другой тяжкое наследие.

- Six Reasons Why the Wolfram Language Is (Like) Open Source [3] ноябрьский текст от Jon McLoone, директора по коммуникациям и стратегии в Wolfram, о том почему модель открытого кода не подходит для ключевых технологий Wolfram. Для тех кто не знает, Wolfram Mathematica один из лучших продуктов для технических вычислений, а Wolfram Alpha один из лучших продуктов поиска ответов на вопросы со способностью давать ответы в технических дисциплинах. Но все эти продукты с закрытым кодом, включая их Wolfram Language и многие не используют именно из-за закрытости и замкнутости экосистемы Wolfram. Стоит почитать чтобы понимать позицию тех кто делает хорошие продукты и не может поменять бизнес модель в сторону открытости и поговорить о том к чему это приведет.

- Tableau Data Catalog: Let’s do the jigsaw puzzle! [4] команда разработчиков пытаются построить каталог данных на базе Tableau. На мой взгляд это не самый правильный путь, но активным пользователям Tableau может оказаться полезным.

- Understanding of metrics store [5] полезный обзорный текст про хранилища метрик, как лучше их организовать, зачем и кому они нужны. Лично у меня metrics store четко ассоциируется с Headless BI, и разделением аналитических показателей на подсчет, хранение и интерфейс.

- Snowflake Data Classification Now Available in Public Preview [6] в Snowflake анонсировали технологии классификации данных для данных загружаемых пользователями, но потом почему-то статью убрали и осталась она только в гугл кеше. Технология практически та же что у нас в DataCrafter'е [7] и то что я недавно анонсировал в виде утилиты metacrafter [8] с открытым кодом. Разница в том что у Snowflake это встроено в систему SQL запросов и находится прямо внутри их движка.

Ссылки:
[1] https://stackoverflow.blog/2021/12/30/how-often-do-people-actually-copy-and-paste-from-stack-overflow-now-we-know/
[2] https://benn.substack.com/p/the-next-billion-programmers
[3] https://blog.wolfram.com/2021/11/30/six-reasons-why-the-wolfram-language-is-like-open-source/
[4] https://medium.com/iadvize-engineering/tableau-data-catalog-lets-do-the-jigsaw-puzzle-cef93e674622
[5] https://medium.com/kyligence/understanding-the-metrics-store-c213341e4c25
[6] https://webcache.googleusercontent.com/search?q=cache:61aCFi3onBwJ:https://www.snowflake.com/blog/data-classification-now-available-in-public-preview/+&cd=1&hl=fr&ct=clnk&gl=de&client=firefox-b-d
[7] https://data.apicrafter.ru/class
[8] https://github.com/apicrafter/metacrafter/

#reading #data #tech
February 12, 2022
April 5, 2022
Тем временем в Японии специалисты NICT разработали и создали технологию передачи данных со скоростью в 1.02 Петабита в секунду [1] по кабелю длиной 51.7 километра.

Авторы исследования и ранее немало добились в экспериментах по передаче данных, даже интересно когда такие скорости доберутся до потребителей.

Ссылки:
[1] https://www.sciencealert.com/researchers-just-set-a-new-record-for-data-transmission-speed

#tech
June 6, 2022
September 2, 2022
October 1, 2022
В рубрике интересных ссылок про данные, технологии и не только:
- This Implant Turns Brain Waves Into Words [1] в журнале IEEE Spectrum об импланте преобразующем мозговые волны в слова на экране. Выглядит как большой прорыв и он основан, в том числе, на нескольких больших датасетов собранных исследователями и объединённых в нейросеть: данные по нейро активности и данные кинематики (движения мускулов) при речи.

Базы данных
- Why is PostgreSQL the most loved database [2] в блоге ByteByteGo о том почему все так любят СУБД Postgres. Если кратко, то многое в ней реализовано и есть немало расширений делающих эту систему ещё лучше.
- RQLite [3] продукт по превращению SQLite в распределённую СУБД. Казалось бы зачем, если есть Postgres, но кому-то нравится. В том числе реализует богатое Data API для доступа к данным.
- Go Performance Case Studies [4] в блоги Dolt внутренние подробности того как их разработчики пишут движок СУБД на Go. Пример того как выглядит технологический евангелизм не от маркетологов, а от инженеров.

Регулирование
- Europe prepares to rewrite the rules of the Internet [5] в Arstechnica о том как европейский Digital Markets Act может поменять экосистемы технологических гигантов, в части регулирования ИИ и многого другого. Косвенными бенефициарами будут и многие другие страны.
- Businesses call for mandatory nature impact data [6] 330 компаний из 52 стран призывают ввести обязательные отчеты для крупных компаний о воздействии их и зависимости от природы и природных ресурсов. Среди подписантов очень много крупных ритейловых, банковых, косметических и строительных холдингов.

Открытые данные
- The open data revolution [7] сэр Nigel Shadbolt, основатель Института открытых данных в Великобритании, рефлексирует над последним десятилетием и будущих годах развития открытости данных.
- Hyperlocal [8] не совсем про открытые данные, но связано с ними, о изменениях на территориях и поселениях на гиперлокальном уровне и принятиях решений связанных с гиперлокальностью

Ссылки:
[1] https://spectrum.ieee.org/brain-computer-interface-speech
[2] https://blog.bytebytego.com/p/ep30-why-is-postgresql-the-most-loved
[3] https://github.com/rqlite/rqlite
[4] https://www.dolthub.com/blog/2022-10-14-golang-performance-case-studies/
[5] https://arstechnica.com/tech-policy/2022/10/europe-prepares-to-rewrite-the-rules-of-the-internet/
[6] https://www.businessfornature.org/
[7] https://theodi.org/article/the-open-data-revolution-sir-nigel-shadbolt-reflects-on-the-odis-first-decade-and-considers-what-the-next-might-hold/
[8] https://www.brookings.edu/book/hyperlocal/

#opendata #opensource #ai #tech #regulation
November 1, 2022
В The Verge статья [1] о том что Элон Маск собирается перезапустить механизм прямых сообщений в Twitter и дать возможность обмениваться зашифрованными сообщениями, аудио и видео и тд. И даже собираются сотрудничать с командой Signal в этой задаче. Звучит как конкурент как раз Signal, WhatsApp, Telegram (?), но от Элона Маска.

Может ли Twitter пройти такое преобразование? Почему бы и нет, тогда и логика с платностью аккаунтов и премиумом будет иметь больше пространств для расширения возможностей.

Иначе говоря, если Twitter сможет превратиться аналог в Telegram, то у Telegram՛а появится сильный конкурент. Хотя о чём я, скорее Telegram станет ещё более прямым аналогом Twitter'а ;)

Ссылки:
[1] https://www.theverge.com/2022/11/21/23472174/twitter-dms-encrypted-elon-musk-voice-video-calling

#twitter #telegram #tech #privacy
November 24, 2022
January 23, 2023
Полезное чтение про данные, технологии и не только:
- Parquet file format – everything you need to know! [1] короткое понятное чтение с примерами и визуализацией о том что такое формат Parquet. Автор активно рекламирует в конце Delta Lake file format от Databricks, но почему бы и нет, почитать про него тоже стоит потраченного времени.

- Dolt 1.0 [2] вышел релиз первой стабильной версии Dolt, базы данных совмещающей интерфейс MySQL и Git и сделанной по принципу git для данных. Лично я бы давно перешёл на Dolt в своих экспериментах если бы там был не аналог MySQL, а аналог MongodB, потому что плоские таблицы пригодны не для всех данных. Но конкретно Dolt очень интересная штука.

- What Happened to the Semantic Layer? [3] хороший текст про текущее состояние технологий semantic layer которые ещё называют "headless BI", автор работает на проектом Malloy в Google для языков запросов и преобразования данных в SQL-совместимых средах, так что без рекламы Malloy там текст не обошёлся, но если вы про Malloy не читали, то почитать точно вреда не будет, у технологии есть перспектива.

- Financing the common good [4] а вот это уже статья не про технологии, а про проблемы финансирования общего блага (common good) в том числе закрепленного в глобальных программах ООН и о необходимости радикальной реформы мировых финансов.

- Chandler Good Governance Index [5] вышел ежегодный индекс качества государственного управления, покрывает 104 правительства стран в мире, на постсоветском пространстве авторы не оценивали только Туркменистан и Азербайджан. Рейтинг составной, в основном учитываются другие рейтинги и опросы с подтверждённой методологией. Например, используется Open Budget Index и рейтинги оценки электронного пр-ва.

Ссылки:
[1] https://data-mozart.com/parquet-file-format-everything-you-need-to-know/
[2] https://www.dolthub.com/blog/2023-05-05-dolt-1-dot-0/
[3] https://carlineng.com/?postid=semantic-layer
[4] https://www.socialeurope.eu/financing-the-common-good
[5] https://chandlergovernmentindex.com/

#readings #data #tech
May 8, 2023