Ivan Begtin – Telegram

Ivan Begtin

7.98K subscribers

1.85K photos

3 videos

101 files

4.56K links

I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]

Download Telegram

About

Blog

Apps

Platform

7.98K subscribers

Облачные сервисы повсеместны и имеют много плюсов и большой минус - доступ к облаку может пропасть в любой момент. Не говоря уже о том что облачные сервисы почти всегда нарушают пользовательскую приватность. Альтернативный архитектурный подход в разработке приложений по модели local first [1] это архитектурный шаблон разработки программ в которых данные, в первую очередь, обязательно хранятся локально и синхронизируются с облаком без потери функциональности приложения если сервер/сервис недоступен.

Основные идеалы архитектуры local-fist:
1. Никаких индикаторов загрузки (спиннеров): работа всегда доступна
2. Работа не ограничена одним устройством
3. Сеть опциональна
4. Прозрачная интеграция работы с коллегами
5. Длинное Сейчас (The Long Now)
6. Безопасность и приватность по умолчанию
7. Ваш полный контроль и владение данными и процессами

Здесь, конечно, можно вспомнить что именно такая модель использовалась многими приложениями из 90-х, и вот мода на такую архитектуру возвращается.

Например о такой архитектуре пишут создатели Riffle [2], исследовательского проекта по построению приложений на данных по модели local first.

Ссылки:
[1] https://www.inkandswitch.com/local-first/
[2] https://riffle.systems/essays/prelude/

#data #architecture

Local-first software: You own your data, in spite of the cloud

A new generation of collaborative software that allows users to retain ownership of their data.

2.0K viewsIvan Begtin, 22:14

Burtch Works опубликовали исследование по изменениям заработной плате инженеров данных и дата сайентистов [1], доступ там через форму которую надо заполнить, можно также в Forbes прочитать оттуда краткие выводы [2].

Если кратко то это одни из самых востребованных профессий с беспрецедентным ростом зарплат. Доходы руководителей команд по ИИ достигают $300000 в год. А доходы профессионалов выросли на 10-13%.

Конечно, это обзор рынка в США, но, по моим ощущениям, ситуацию с кадровым рынком данных это отражает хорошо.

Ещё несколько инсайтов из этого исследования:
1. Среди дата инженеров кратно меньше PhD (5%), и около 32% бакалавров. Что отражает общий тренд на то что многие разработчики отказываются от высшего образования в пользу карьеры. В области dat science наоборот много именно PhD, почти 50%.
2. В области инженерии данных всего 12.5% женщин
3. Средний опыт дата инженера на рынке около 11 лет
4. В data science идет образовательный тренд на большую специализацию магистерских программ.

И ещё много много чего, в целом любопытно понимать как всё обстоит прямо сейчас на рынке труда.

Как это может повлиять на российский рынок data science и data engineering ? Не хочется делать несмешных предсказаний, но прогнозы весьма пессимистичные. Чем больше будет мировой спрос на специалистов и рост зарплат в этой области, тем больше может быть их отток из российских компаний и репрессивными мерами его точно не сдержать.

Ссылки:
[1] https://www.burtchworks.com/big-data-analyst-salary/big-data-career-tips/the-burtch-works-study/
[2] https://www.forbes.com/sites/gilpress/2022/06/14/a-booming-market-for-ai-skills-with-salaries-topping-300000/

#itmarket #data

The Burtch Works Study | Data Science & Market Research Salary Reports

Download free salary reports for data scientists, predictive analytics professionals, and marketing research and consumer insights professionals.

23.0K viewsIvan Begtin, 07:11

Свежий доклад ORelly о каталогах данных сделанный в партнерстве/при поддержке стартапа Alation [1]. Хотя такие доклады при поддержке одного из коммерческих игроков нельзя назвать полностью нейтральными, но доклад полезный, определяет три вида каталогов данных: инструментальные, отраслевые и платформенные.

Плюс отсылки на интересные проекты, не все из них широко известны. Например, я неожиданно для себя открыл Ground [2], проект Google и UC Berkley по анализу контекста работы с данными.

Ссылки:
[1] https://www.alation.com/resource-center/snowflake-summit-2022/oreilly-implementing-a-modern-data-catalog
[2] https://www.ground-context.org

#datacatalogs #dataplatforms #data

Implementing a Modern Data Catalog to Power Data Intelligence

Are you looking to use data as a strategic asset in your organization, so that more people can make better, data-driven decisions and accelerate time to value? This report explains how. Read today!

1.7K viewsIvan Begtin, 07:40

Вышел Tauri 1.0 [1] первый релиз фреймворка для построения кросс-платформенных приложений с помощью языка Rust. Авторы очень постарались чтобы приложения на его основе имели минимальный футпринт - были бы как можно меньше по размеру, потребляли бы меньше CPU и оперативной памяти. В нынешнее время приложений распухающих до сотен гигабайт это вызывает большое уважение и признак высокой квалификации разработчиков. У создателей много бенчмарков подтверждающих такой подход [2] и в целом одного взгляда на код и на примеры достаточно чтобы понять что будущее приложений для десктопа если не за Tauri, то за подобными фреймворками как новым подходом.

А подход как раз в том о чём я ранее писал про модель local-first [3]. Дословно из их описания
Tauri allows you to build "local first" applications without a webserver, so your users don't have to share their data with big tech. Using local databases and rust based cryptography have never been easier.

При том что как раз big tech не связанный с разработкой ПО активно Tauri используют, например, Cloudflare и Digital Ocean.

Из любопытных продуктов на Tauri можно обратить внимание на SpaceDrive [4] файловый менеджер в активной разработке с множеством интересных возможностей вроде поддержки облачных файловых систем, шифрованного хранилища, управления ключами и тд.

А также большая подборка приложений в списке Awesome Tauri [5]

Если говорить про настольные приложения по интенсивной работе с данными, например, настольные приложения для data wrangling нового поколения, то Tauri выглядит как очень подходящий инструмент.

Ссылки:
[1] https://tauri.app/blog/tauri_1_0/
[2] https://tauri.app/about/benchmarks
[3] https://t.iss.one/begtin/3977
[4] https://www.spacedrive.com/
[5] https://github.com/tauri-apps/awesome-tauri

#opensource #frameworks #datatools

Tauri 1.0 Release

The cross-platform app building toolkit

1.8K viewsIvan Begtin, 09:12

Отвлекаясь от технологических тем, в Полит.ру есть проект "После" про моделирование будущего России, интервью со мной назвали «Единственная стратегия выживания – это радикальная деконсерватизация общества» [1] а я как мог говорил о самых радикальных преобразованиях как возможное будущее страны.

А может быть даже не о самых радикальных.

Ссылки:
[1] https://polit.ru/article/2022/06/21/begtin/

#politics #russia

Иван Бегтин: «Единственная стратегия выживания — это радикальная деконсерватизация общества»

Для проекта «После» Дмитрий Ицкович и Иван Давыдов поговорили с директором АНО «Информационная культура» Иваном Бегтиным и узнали, что главным экспортным товаром в будущей России станет свобода, федерацию придется переучреждать на новых условиях, а у центральной…

2.0K viewsIvan Begtin, 11:33

Полезное чтение про данные
- The Death of Data Modeling - Pt. 1 [1] о том как текущие подходы к разработки влияют на моделирование данных и о том что это необходимо перезапускать/воскрешать уже в рамках Modern Data Stack
- Airflow Summit 2022 — The Best Of [2] материалы саммита AirFlow, хорошая подборка ссылок
- Automated Experiment Analysis - Making experimental analysis scalable [3] про автоматизацию ML экспериментов в Grab
- A framework for designing document processing solutions [4] фреймворк для потоковой обработки сканированных документов

Ссылки:
[1] https://dataproducts.substack.com/p/the-death-of-data-modeling-pt-1
[2] https://medium.com/apache-airflow/airflow-summit-2022-the-best-of-373bee2527fa
[3] https://engineering.grab.com/automated-experiment-analysis
[4] https://ljvmiranda921.github.io/notebook/2022/06/19/document-processing-framework/

#data #datatools #readings

The Death of Data Modeling - Pt. 1

And why it must be resurrected in the Modern Data Stack

1.6K viewsIvan Begtin, 08:02

В рубрике как это устроено у них портал GovInfo.gov [1] Правительства США. Единый портал раскрытия документов федеральных органов власти, начиная с законов и до всех остальных нормативных и иных распорядительных документов подлежащих обязательному раскрытию.

Например, все документы бюджетов США [2] или официальная экономическая статистика [3] или отчеты конгресса [4].

Все эти данные раскрываются для массовой выгрузки (bulk download) и через API [5].

В России нормативные документы публикуются в нескольких государственных информационных системах, ненормативные публикуются в на сайтах ведомств. Обязательные требования по архивации и централизованному раскрытию всех создаваемых отчетов, статистики, нормативных и иных документов отсутствуют или покрывают далеко не все.

Можно сказать что в России сейчас нет единого портала раскрытия государственных документов.

Ссылки:
[1] https://www.govinfo.gov
[2] https://www.govinfo.gov/app/collection/budget/2022
[3] https://www.govinfo.gov/app/collection/econi/2022/01/1
[4] https://www.govinfo.gov/app/collection/crpt
[5] https://www.govinfo.gov/developers

#opendata #usa #opengov

U.S. Government Publishing Office

1.6K viewsIvan Begtin, 14:37

В рубрике стартапов на данных и связанных с данными

- CloudQuery [1] сервис инвентаризации облачных активов. Это когда у вас серверов и других сервисов много, а управлять ими уже сложно ну или надо хотя бы знать где что находится. Также есть в открытом коде [2]. Подняли $15M инвестиций 22 июня [3]

- Avo [4] система управления аналитикой и прослеживаемостью пользователей. Подняли $5M в 5 раундов, последний раунд в сентябре 2020 г. Дают удобный интерфейс для отслеживания каждого пользователя и с интеграцией с RudderStack, Segment, Posthog и другими инструментами.

- Y42 [5] платформа управления данными с претензией на полный цикл охвата: интеграция, моделирование, визуализация и оркестрация. Всего подняли 33.9M в 2 раунда. Последний раунд в октябре 2021 г.

- Castor [6], стартап по каталогизации данных, получил инвестиций в объёме $23.5M в начале июня [7]. В основном делают акцент на большей понимаемости данных, удобном интерфейсе каталога и тд.

- Immuta [8] разработчики платформы по защите данных с функциями обнаружения чувствительных данных подняли раунд E на $100M [9] инвестиций. Это корпоративный каталог с акцентом на интеграцию со всеми крупнейшими облачными базами данных Snowflake, RedShift, BigQuery и тд. Общий объём привлеченных ими инвестиций $276M

Ссылки:
[1] https://www.cloudquery.io/
[2] https://github.com/cloudquery/cloudquery
[3] https://www.cloudquery.io/blog/cloudquery-raises-15m-series-a
[4] https://www.avo.app/
[5] https://www.y42.com/
[6] https://www.castordoc.com/
[7] https://techcrunch.com/2022/06/07/castor-a-data-catalog-startup-nabs-23-5m-to-expand-its-platform/
[8] https://www.immuta.com
[9] https://www.immuta.com/articles/series-e-funding-announcement/

#startups #data #itmarket

www.cloudquery.io

Data Fabric for Cloud and Security Teams | CloudQuery

Load data from any source to any destination, transform and visualize. Based on our popular open source project. Self-host or run it in our cloud.

1.5K viewsIvan Begtin, 05:46

В качестве регулярного напоминания проект по созданию каталога каталогов данных DataCatalogs [1] созданный командой @infoculture.

В нем собрано описание 263 каталогов данных всех типов и категорий: открытых, закрытых, государственных, общественных, частных и тд., сгруппированных по 115 темам.

Этот сайт создан поверх базы в Airtable которую мы ведем в Инфокультуре и можно предложить туда каталог данных через форму на сайте [2].

У Airtable есть большие достоинства в удобстве моделирования и ведения базы данных вручную, но минусы в проприетарности и невозможности простого построения веб-интерфейса открытыми решениями.

Из незавершённого:
- нет экспорта каталога в открытые данные и выкладкой на сайте или в Github. Проще всего через Github Actions скорее всего
- нет автоматизированного пополнения Awesome Opendata Russia [3], списка ссылок на порталы и ресурсы по открытым данным в России.

Если есть идеи и предложения по развитию этого каталога каталогов, присылайте нам, возьмём в работу.

Ссылки:
[1] https://datacatalogs.ru
[2] https://www.datacatalogs.ru/add-resource
[3] https://github.com/infoculture/awesome-opendata-rus

#opendata #russia #datasets #datacatalogs

1.9K viewsIvan Begtin, 06:54

YaLM 100B [1] GPT-подобная нейросеть для обработки и создания текста. Доступна под лицензией Apache 2.0 и вчера выложена командой Яндекса на Github.

Авторы заявляют 100 миллиардов параметров, отсюда 100B в названии, и то что модель создавалась на основе 1.7 ТБ текстов и рассчитывалась 65 дней на кластере из 800 видеокарт A100.

Подробнее в статье в Medium [2] и на Habr [3].

Ссылки:
[1] https://github.com/yandex/YaLM-100B
[2] https://medium.com/yandex/yandex-publishes-yalm-100b-its-the-largest-gpt-like-neural-network-in-open-source-d1df53d0e9a6
[3] https://habr.com/ru/company/yandex/blog/672396/

#datasets #gpt #neuralnetworks #ai

GitHub - yandex/YaLM-100B: Pretrained language model with 100B parameters

Pretrained language model with 100B parameters. Contribute to yandex/YaLM-100B development by creating an account on GitHub.

1.9K viewsIvan Begtin, 09:04

Forwarded from Национальный цифровой архив

Продолжается кампания по архивации российских сайтов СМИ, медиа и культурных инициатив

Веб-архивы сайтов доступны для скачивания в формате WARC и открываются в приложении ReplayWeb.page.

Сведения о планах архивации и сохраненных ресурсах доступны в открытой таблице.

Если вы знаете, какой сайт может стать утерянным, сообщите нам об этом с помощью специальной формы.

В это же время в Великобритании в национальной библиотеке проходит выставка «Breaking the News», для которой используются сохраненные новости из веб-архива Великобритании (UKWA). Коллекция «Новости» в UKWA содержит веб-архивы более 2700 новостных сайтов. Туда входят крупные национальные новостные издания — BBC, Guardian, Daily Mail и т.д. Помимо этого собираются веб-архивы тысячи местных новостных сайтов, посвященных жизни отдельных городов и деревень.

Большинство архивов можно просмотреть только в читальных залах библиотек Великобритании, однако есть и те, которые доступны для просмотра онлайн, например, веб-архив сайта Brixton Blog.

1.4K viewsIvan Begtin, 13:24

Мало кто думает об архивации чего-бы то ни было как потеряв какие-то очень важные данные или файлы. Личное осознание значимости бэкапов - это часто последствия личного же травматического опыта.

Практические механизмы применяемые в корпоративной среде - это, чаще всего, разного рода инструменты входящие в состав операционной системы. А для СУБД - это чаще генерация дампов баз данных специфичных для конкретной СУБД.

Когда речь заходит об архивации на системном уровне то возникает вопрос стандартов и универсальных спецификаций. А их и то оказывается не так много. У библиотеки Конгресса США есть коллекция форматов рассматриваемых для архивации табличных данных/баз данных [1]․

Почти все они - это форматы обмена данными, такие как XML, JSON, CSV, HDF, CDF, XLS и тд. Рекомендуемыми форматами для данных при этом являются CSV/TSV и SQLite [2].

А вот в Швейцарии разработали и приняли ещё в 2013 году стандарт SIARD, его описание также есть в библиотеке Конгресса [3]. Этот стандарт описывает унифицированный экспорт баз данных не только с точки зрения данных, но и всех связанных объектов, понятий, артефактов и метаданных. Стандарт не самый древний, но ограниченный с самого начала такими СУБД как Oracle, Microsoft SQL Server, MySQL, IBM DB2, Microsoft Access. Тут не то что NoSQL нет, но и нет поддержки облачных СУБД, нет многих популярных баз данных и не только. А сам стандарт с 2015 года практически не развивался.

Что характерно, других универсальных стандартов экспорта/импорта СУБД не существует. Что иногда кажется странным, поскольку в ИТ очень любят разрабатывать собственные спецификации. Например, в Modern Data Stack уже есть множество стандартов описания метаданных в СУБД таких как OpenMetadata [4] и OpenLineage [5] которые довольно сильно пересекаются с SIARD в части метаданных описывающих данные, но не заходят в область непосредственно сохранения контента.

Вопрос о том как сохранять унаследованные данные после закрытия проектов по прежнему открытый. Всё что я могу вспомнить даже в довольно крупных организациях - это положенные на сетевое хранилище дампы с кратким описанием содержания.

Ссылки:
[1] https://www.loc.gov/preservation/digital/formats/fdd/dataset_fdd.shtml
[2] https://www.loc.gov/preservation/resources/rfs/data.html
[3] https://www.loc.gov/preservation/digital/formats/fdd/fdd000426.shtml
[4] https://docs.open-metadata.org/metadata-standard/schemas
[5] https://github.com/OpenLineage/OpenLineage

#databases #digitalpreservation

Format Descriptions for Dataset Formats

Browse an alphabetical list of format descriptions for digital formats used for datasets (e.g., scientific or numeric datasets). The format descriptions provide specific information about individual formats and their characteristics.

1.5K viewsIvan Begtin, 06:21

В рубрике интересных наборов данных, VizNet [1], четыре корпуса данных Plotly, ManyEyes, Webtables, Open data portal, собранных из этих источников. По сути VizNet содержит большой срез данных высокого качества из открытого доступа и позволяет проводить исследования по визуализации, анализу, аннотированию и машинному обучению на данных.

Проект создан внутри MIT Media Labs и, например, используется в системе Sherlock [2] для идентификации семантических типов данных.

Ссылки:
[1] https://github.com/mitmedialab/viznet
[2] https://github.com/mitmedialab/sherlock-project

#opendata #datasets

GitHub - mitmedialab/viznet: VizNet is a repository providing real-world datasets that enable, among other things, (re)running…

VizNet is a repository providing real-world datasets that enable, among other things, (re)running empirical studies with higher ecological validity - mitmedialab/viznet

1.5K viewsIvan Begtin, 08:31

Postman опубликовали обновление API Platform Landscape [1] с перечнем продуктов и трендов в мире API.

Ключевые тезисы оттуда:
1. Компании переходят к модели API-first
2. Гибридная архитектура и многооблачность
3. API как продукт
4. Взрывной рост продуктов API Gateway
5. Всё больше протоколов для API в активном использовании.
6. Всё больший сдвиг в сторону безопасности доступа к API.

Не все согласятся что экосистема API существует автономна, например, для меня это скорее часть экосистемы работы с данными, а Postman показывают её с выгодной для них стороны там где они лидеры, но, тем не менее, в части описанного, тренды изложены верно и сам обзор полезен.

Ссылки:
[1] https://blog.postman.com/2022-api-platform-landscape-trends-and-challenges/

#api

10.4K viewsIvan Begtin, 09:02

Из важного, Microsoft серьёзно пересматривают подход к этике ИИ, о чём пишут у себя в блоге [1], а также анонсируют вторую версию стандарта ответственного ИИ [2].

В контексте этого стандарта они закрыли для доступа их API распознавания лиц и эмоций [3] и это, также, весьма важный шаг саморегулирования ответственности корпораций.

И здесь я не могу не кинуть камень в огород российского кодекса этики ИИ [4] и важной разнице между ним и то в каком направлении сейчас движутся международные корпорации вроде Microsoft.

В российском кодексе этики ИИ явно декларируется требование соответствия законам, тем самым ставя компании которые имеют компетенции в этой области заведомо ниже законодателей у которых гарантированно компетенций в разы, если не на порядок меньше.

В стандарте Microsoft и иных подобных документах декларируется позиция корпорации которая и предполагается как будущая основа для законов.

Поэтому стандарт Microsoft будет иметь влияние на нашу с Вами жизнь, а российский кодекс этики ИИ не будет.

Ссылки:
[1] https://blogs.microsoft.com/on-the-issues/2022/06/21/microsofts-framework-for-building-ai-systems-responsibly/
[2] https://blogs.microsoft.com/wp-content/uploads/prod/sites/5/2022/06/Microsoft-Responsible-AI-Standard-v2-General-Requirements-3.pdf
[3] https://www.theverge.com/2022/6/21/23177016/microsoft-retires-emotion-recognition-azure-ai-tool-api
[4] https://bit.ly/3nfk7Lz

#ai #dataethics #aiethics #microsoft

Microsoft On the Issues

Microsoft’s framework for building AI systems responsibly

Today we are sharing publicly Microsoft’s Responsible AI Standard, a framework to guide how we build AI systems. It is an important step in our journey to develop better, more trustworthy AI. We are releasing our latest Responsible AI Standard to share what…

1.6K viewsIvan Begtin, edited 10:48

Полезное чтение о методике JTBD (jobs-to-be-done) для дата-команд [1]

В тексте фокус на ключевых задачах дата команд, в основном в контексте средних-крупных компаний, тем не менее справедливо в любом контексте.

Если Вы работаете в команде работающей с данными как с продуктом - это текст точно про Вашу работу.

Ссылки:
[1] https://locallyoptimistic.com/post/building-more-effective-data-teams-using-the-jtbd-framework/

#readings #data #datateams

1.9K viewsIvan Begtin, 13:02

Мало кто знает что многие файлы с данными находятся не на порталах открытых данных, не в поисковиках вроде Google Dataset Search или DataCite, а на крупнейших хостингах кода таких как Github.

Поисковая система Github'а поддерживает запросы с указанием части названия файла, простым поиском можно найти десятки миллионов файлов в форматах .json, .csv, .xml, .sqlite.

Пример запроса filename:.csv [1] конечно, надо помнить что у Github'а нет сбора метаданных как в других поисковиках, но, при этом, объём хранимых данных количественно превосходит все остальные источники вместе взятые. Хотя и по объёму, наверное, меньше чем реестр открытых данных Amazon.

Как бы то ни было - это бесценный исследовательский материал, полезный всем кто изучает то какие данные существуют и из чего они состоят.

Также у Github'а много других, расширенных опций для поиска [2] которыми, на удивление, многие редко пользуются

Ссылки:
[1] https://github.com/search?q=filename%3A.csv&type=code
[2] https://github.com/search/advanced

#opendata #github #opensource

2.2K viewsIvan Begtin, 18:02