Ivan Begtin
7.99K subscribers
1.86K photos
3 videos
101 files
4.56K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]
Download Telegram
Актуальная и сейчас часто обсуждаемая инженерами тема Data contracts (дата-контракты). По своему смыслу - это создание и применение структурированных спецификаций на предоставление и получение данных, с соблюдением к контроля версий и управления кодом этих спецификаций.

В блоге Data Products хороший вводный текст пол дата-контракты в контексте современного стека данных [1]. Многое в реализации сейчас упоминается, или в контексте спецификации формата данных Avro, или через реестр схем Kafka. Он называется Confluent (Kafka) Schema Registry.

В основном разговоры про дата-контракты идут в контексте работ множества разделенных команд внутри больших компаний. Когда за разные продукты отвечают небольшие группы разработчиков и они зависят друг от друга и, в первую очередь, от тех команд которые предоставляют данные из первоисточников.

Главное не путать data contracts из инженерии данных с data contracts из Windows Communication Framework (WCF) входящем в .NET. Название совпадают, применение тоже похоже, но в в инженерии данных - это универсальное описание схемы данных, а в WCF - это узко заточенная спецификация.

Ссылки:
[1] https://dataproducts.substack.com/p/an-engineers-guide-to-data-contracts

#dataengineering
Ещё в 2018 году в Инфокультуре (@infoculture) мы делали множество карт данных, подсказок для хакатонов и тех кто делает продукты на открытых данных о том где открытые данные взять. С той поры у меня не доходили руки привести их все в порядок. Какие-то были более-менее систематизированы, какие-то ещё рассеяны по разным местам.

Наконец-то дошли руки привести их в порядок, сделать машиночитаемый формат и выложить онлайн в репозитории ru-datamaps [1].

Охватываются такие темы как:
- Авиация
- Экология
- Госфинансы
- Законотворчество
- Здравоохранение
- Нефтегазовый сектор
- Образование
- Некоммерческие организации
- Правоохранительная система

Карты в форматах Xmind, PNG, PDF и JSON.

По мере того как буду находить остальные карты, они появятся в этом же репозитории на Github.

Ссылки:
[1] https://github.com/infoculture/ru-datamaps

#opendata #opensource #datamaps #datadiscovery
Для тех кто следит наблюдает за теми организациями и лицами кто подпал под санкции ЕС, США, Канады и других стран я напомню про такой замечательный проект как OpenSanctions [1] простой и понятный агрегатор санкционных и иных списков, например, они включают списки PEPs'ов (Politically Exposed Persons) и много чего другого.

Всё это доступно в виде наборов данных и в виде API которое авторы обновили буквально 3 дня назад и сделали его многократно удобнее [2]. Внутри проекта используется графовая база Neo4J [3], а кроме открытых данных у проекта есть бизнес модель основанная на платной подписке для коммерческих сервисов. При этом, для журналистов и аналитиков исследователей все данные бесплатны и не имеют ограничений.

Проект интересный, кроме России там ещё много какие страны охвачены так что полезно для разного.

Ссылки:
[1] https://www.opensanctions.org/
[2] https://www.opensanctions.org/articles/2022-10-04-saas-api/
[3] https://neo4j.com/blog/graphs-power-opensanctions-interview-with-friedrich-lindenberg/

#opendata #datasets
В рубрике полезного чтения про данные, технологии и не только:

Технологии и данные
- Don’t make databases available on the public internet [1] прокси для безопасного доступа к базам Postgres в блоге Tailscale. Tailscale - это весьма любопытный Zero-config VPN сервис, не в смысле выйти за пределы юрисдикции страны, а в том смысле чтобы создать виртуальную защищённую локальную сеть между своими устройствами в разных местах. Я лично его использую в бесплатной версии и это очень себя оправдывает.
- Postgres: a better message queue than Kafka? [2] в блоге Dagster, системы ETL с открытым кодом о том почему они выбрали Postgres, а не Kafka для управления очередями. Вообще это считается анти-шаблоном, в последние годы было много публикаций где писалось о том насколько не рекомендуется делать очереди задач через RDBMS, и разработчики Dagster тоже об этом знали. Поэтому интересно почему они, всё таки, выбрали этот путь.
- matanolabs/matano [3] - озеро данных для инфобеза для AWS. Интересная специализация, с фокусом на сбор и обработку данных и логов и сенсоров в оперативном режиме.
- Rok create job immerok cloud [4] стартап Immerok привлекли $17m на создание облачного сервиса на базе опенсорсного продукта для потоковой обработки данных на базе Apache Flink. Альтернатив много, но интересно что нового они предложат.
- Apache Iceberg Reduced Our Amazon S3 Cost by 90% [5] о том как миграция на Apache Iceberg позволяет сократить расходы на Amazon S3. Полезное чтение и, честно говоря, уже можно отдельно выделить спектр продуктов и услуг "мы поможем Вам уменьшить расходы на инфраструктуру". Для средних и крупных компаний суперактуально, для малых чуть меньше, но тоже нужно.

Регулирование и государство
- The EU wants to put companies on the hook for harmful AI [6] - законопроект в Евросоюзе который может позволить пользователям судится с компаниями использующими "опасный ИИ". Через пару лет может стать законом, а ещё и ЕС хочет сделать его "золотым стандартом" для других стран и в нём может быть принцип экстерриториальности как в GDPR․
- Smart cities: reviewing the debate about their ethical implications [7] рассуждения в виде научной статьи об этичности создания и развития умных городов. Стоит почитать чтобы хотя бы понимать разумные доводы почему тотальная автоматизация городской инфраструктуры - это не только хорошо, но и не очень хорошо, а где-то и плохо
- Big Data and Official Statistics [8] о том почему текущие методы подготовки официальной экономической статистики устарели и что с ней надо делать с помощью больших данных. Много и по делу о изменении подходов и роли статистических органов власти в мире.

Книги
- Data Spaces [9] книга в открытом доступе посвящённая пространствам данных как концепции по объединению стандартов, онтологий, форматов, баз данных в некую общую экосистему. Имеет некоторый философский налёт, но полезно для понимания возможного будущего регулирования и академических подходов в этой области

Ссылки:
[1] https://tailscale.com/blog/introducing-pgproxy/
[2] https://dagster.io/blog/skip-kafka-use-postgres-message-queue
[3] https://github.com/matanolabs/matano
[4] https://www.immerok.io/blog/immerok-cloud-early-access
[5] https://medium.com/insiderengineering/apache-iceberg-reduced-our-amazon-s3-cost-by-90-997cde5ce931
[6] https://www.technologyreview.com/2022/10/01/1060539/eu-tech-policy-harmful-ai-liability/
[7] https://link.springer.com/article/10.1007/s00146-022-01558-0
[8] https://onlinelibrary.wiley.com/doi/full/10.1111/roiw.12617
[9] https://link.springer.com/book/10.1007/978-3-030-98636-0

#data #opensource #regulation #government
Я довольно давно не рассказывал про развитие инструментов metacrafter для выявления семантических типов данных и реестра семантических типов данных metacrafter-registry которыми давно занимаюсь.

Изменений там много, в основном в части постепенно улучшения списка типов данных, связанности с базами Schema.org и Wikidata. А есть одно изменение важное именно для инженерии данных - это экспорт реестра в формат бизнес глоссария (Business Glossary) используемого в каталоге данных Datahub.

Для тех кто не знает, бизнес глоссарий, это смысловые характеристики полей данных записываемые в каталогах данных. Не обязательно семантический/смысловой тип поля, но может быть, например, уровень его конфиденциальности, чувствительности данных и так далее.

Datahub - это опенсорсный каталог корпоративных данных [1] созданный некогда в LinkedIn и развиваемый сейчас компанией Acryl. Среди его достоинств есть импорт данных, в том числе, для бизнес глоссария.

И вот для тех кто хочет загрузить туда типы данных из Metacrafter'а теперь это можно сделать воспользовавшись файлом metacrafter.yml [2] из репозитория проекта. Выглядит результат примерно как на вот этом скриншоте.

Следующий шаг в интеграции metacrafter'а в непосредственно процесс загрузки метаданных в Datahub, так чтобы привязку поля к данным можно было бы осуществлять автоматически.

Ссылки:
[1] https://datahubproject.io
[2] https://github.com/apicrafter/metacrafter-registry/tree/main/data/datahub

#opensource #semanticdatatypes #dataengineering #apicrafter #metacrafter
Хороший обзор How Open Source is eating AI [1] о сокращении циклов разработки ИИ и о том как открытость кода в виде открытости языковых моделей, открытых инструментов машинного обучения, открытых наборов данных и так далее влияет на появление новых ИИ продуктов.

Общий посыл такой что без открытости кода развитие ИИ невозможно, и автор призывает к появлению Open source AI Institute. Идея любопытная, может быть такое и будет в каком-то обозримом времени.

Ссылки:
[1] https://lspace.swyx.io/p/open-source-ai

#opensouece #ai
В рубрике полезных инструментов для публикации данных roapi [1] фреймворк по публикации статических наборов данных, написан на Rust, а внутри использует Apache Arrow и Datafusion. Автор описывает его как то что не надо написать ни строчки кода что, не совсем так, вместо кода надо писать конфиг на YAML, но даже при этом возможности весьма немалые. Фактически, из коробки, получаем REST API, GraphQL и SQL (через HTTPS и протокол Postgres Wire) для доступа к выбранному набору данных.

Можно делать API на основе файлов CSV, JSON, NDJSON (JSON lines), Parquet, баз SQLite и MySQL.

Пока это лучший движок для таких задач, по крайней мере по описанию, конечно, ещё надо интенсивно тестировать.

Я помню как ещё 10 лет назад командой data.gov публиковался простой PHP скрипт csv-to-api [2], а я лет 9 назад писал простой движок apiready [3] генерировавший чуть более продвинутое API выделяя отдельно справочные значения.

Через много лет лично я пришёл к архитектуре:
1) Положи все данные в СУБД
2) Используй обертку вокруг данных в СУБД
и написал и опубликовал движок apicrafter [4] позволяющий такую обёртку делать вокруг базы в MongoDB.

Но, возможно, roapi - это лучший выбор из имеющихся для табличных данных. Потому что поддержка сразу многих протоколов для доступа к данным имеет значение и упрощает доступ из разных приложений и в разных сценариях использования.

Ссылки:
[1] https://github.com/roapi/roapi
[2] https://github.com/project-open-data/csv-to-api
[3] https://github.com/ivbeg/apiready
[4] https://github.com/apicrafter/apicrafter

#datatools #api #openapi
#opensource : RuLeanALBERT от Yandex Research
2.9B трансформер для русского, которая влезет в домашнюю ПеКарню ресерчера

Мало того, что это самая большая БЕРТ-подобная модель для русского языка, которая показывает крутые результаты в бенчмарках, так еще и с кодом для fine-tuning-а

GitHub

А в статье можете узнать, как обучалась эта модель (а-ля коллаборативное глубокое обучение) на фреймворке по децентрализованному обучению Hivemind
В телеграм канале Минцифры РФ новость о том что теперь доступна услуга получения выписки о наличии компании в реестре ИТ компаний [1]. Казалось бы, новая госуслуга, это хорошо? Но нет, реестры компаний как и другие данные ранее публиковались органами власти. Реестр ИТ компаний публиковался на сайте Минцифры РФ в виде Excel файла в соответствующем разделе [2]․ Теперь для получения данных надо авторизоваться на госуслугах и есть возможность получить информацию только про себя.

Безусловно это снижение открытости аккредитации ИТ организаций и, безусловно, если формальной причиной для этого является попытка избежать санкций, то это довольно бессмысленный шаг. Для санкций на ИТ сектор достаточно взять перечень всех действующих компаний из ЕГРЮЛа и наложить санкции целенаправленно на них сколько бы их там не было 5-10-20-100 тысяч, неважно. Можно наложить санкции на целый сектор.

Поэтому единственной причиной закрытия может быть только попытку избежать любой формы государственного и гражданского контроля за процессом аккредитации. Путь это сомнительный и усилия министерства по "исправлению" процесса аккредитации закрытием реестра аккредитованных дискредитируется весьма существенно. Он же не засекречен, так или иначе этот список получить можно если не через сайт Минцифры, то иным образом, сопоставляя ряд источников.

И чего опасаться то? Что там останутся реселлеры разного рода Консультант-плюса и иных систем ? Или туоператоры и семейные отели? Или заводы которым мало брони от оборонки и они ещё и ИТ аккредитацию получили?

Зря я хвалил Минцифры ранее, ох зря.

Ссылки:
[1] https://t.iss.one/mintsifry/1580
[2] https://digital.gov.ru/ru/activity/govservices/1/#section-list-of-accredited-organizations

#openness #digital #itmarket
Команда авторов ежегодного доклада State of AI выпустила очередной доклад State of AI 2022 [1], его удобнее сразу смотреть в Google Slides [2] и скачать оттуда же.

Приводить все факты и предсказания оттуда очень долго, там 110+ слайдов на темы технологий, индустрии, исследований, политики и тд и интересного и важного немало. Для меня интересным был блок Safety поскольку он про состояние отношений учёных к развитию ИИ и ряда госстратегий вроде UK National Strategy for AI.

Но это то на что я обратил внимание, а так там очень много всего. При чтении важно помнить кто основной адресат этого обзора и кто его составляет. Он готовится людьми погруженными в венчурную индустрию для тех кто ищет финансирование, дает финансирование или думает о том или другом. Поэтому далеко не все примеры harmful AI приводятся, но примеры полезного применения многочисленны. Что, в любом случае, не обесценивает этот замечательный отчет.

Ссылки:
[1] https://www.stateof.ai/
[2] https://docs.google.com/presentation/d/1WrkeJ9-CjuotTXoa4ZZlB3UPBXpxe4B3FMs9R9tn34I/edit?usp=sharing

#ai #regulation #reports
Разного рода накопившиеся технологические размышления и не только:

1. Читаю много размышлений о том что моделирование данных отмирает, из последнего [1], автор пишет
о том что у этой ниши нет бизнес модели и все активно ломанулись в направлении озер данных и отсюда столько болот данных (data swamps). Рассуждения обоснованные, а вот стенания нет. Моделирования данных никуда не исчезает, оно перестаёт быть вещью в себе и становится частью чего-то большего. Например, прослеживаемости данных (data lineage) и контроля качества и наблюдаемости (data quality и data observability) которые хотя и часто упоминаются в формате хайпа на грани булшита. А самое главное важно помнить что данных сейчас производится значительно больше чем даже десятилетие назад. Осуществлять тщательное моделирование всего практически невозможно, поэтому дата-команды определяют ключевое и уделяют этому много внимания, а остальное, действительно, часто находится в болоте данных.

2. Вижу всё более распространённую связку rust + python. На rust переписывают модули ранее написанные для Python или пишут их с нуля и делают очень быстрыми. Пример, connector-x [2] библиотека для быстрой загрузки датафреймов из СУБД в Pandas и иные движки для датафреймов․ Реально быстрый движок. И таких примеров много. Хочешь чтобы твой код на Python работал быстро? Перепиши его или зависимые библиотеки на Rust!

3. Вижу явный тренд когда в вакансиях дата инженеров, аналитиков и дата сайентистов начинают чуть ли не первым пунктом писать "Навык документирования своей работы". У меня не хватает слов передать насколько это реально проблема для программистов, разработчиков баз данных, инженеров данных и всех остальных это реально делать. Это не софт скилл уже, а хард скилл высокого порядка. И беда в том что этому не учат, хотя среднего уровня разработчик способный и привычный документировать свою работу не в пример ценнее высококвалифицированного после ухода которого разваливается всё потому что никто не знает что делать с оставшимся унаследованным кодом.

4. О софт скиллах и открытых проектах, вижу как взлетают и падают опенсорсные проекты по автоматизации чего-либо по модели: "открытый код можно скачать, а ещё мы предлагаем наш продукт как облачный с нашей крутой поддержкой". Так вот взлетают продукты с мощными сообществами и падают продукты с плохой коммуникацией. Вижу такие примеры успеха с dbt или Datahub и вижу противоположное с Splitgraph и Qri. Это из тех кто у меня на виду прямо сейчас. В то же время размер сообщества вообще не показатель его активности. Например, в сообществе Open Data Community в Slack 6641 участник, что довольно много. Но активность там - одно сообщение в месяц, что совсем мало. Очень многое зависит от организаторов сообществ, наличия общих тем и наличия потребности в коммуникации.


Ссылки:
[1] https://medium.com/@chris.jackson_46175/so-who-killed-data-modelling-f39f711c68
[2] https://github.com/sfu-db/connector-x

#thoughts #data #startups
Я продолжаю, постепенно, наводить порядок с унаследованным кодом который я же насоздавал за последние лет 10. Большая часть этого должно было быть в открытом доступе, всегда ограничения в том же на что я сетую - надо документировать.

Сейчас я выложил два репозитория.

Коллекция тетрадок по анализу данных [1]

Это подборка тетрадок для Jupyter Notebook по разным аспектам работы с госданными:
- datagovru - тетрадка для анализа статистики и реестра данных на портале data.gov.ru
- kremlinlaw - тетрадка с анализом статистики принятия законов собранных с kremlin.ru (не лучший источник)
- nalogstats - тетрадка с анализом статистики регистрации ИП и юр. лиц с сайта ФНС России
- ano-sub - тетрадка с анализом сумм выделяемых НКО через субсидии на основе уже закрытого Минфином реестра субсидий
- regbudgets-roskazna - тетрадка с кодом извлечения данных из отчётов федерального казначейства об исполнении федерального бюджета. Я её делал когда-то для оценки субсидирования СМИ и НКО, там есть примеры финансирования НКО

Последние две тетрадки я использую до сих пор для анализа госрасходов на НКО.

Библиотека анализа структуры госбюджета [2] писалась мной ещё довольно давно, изначально как API для анализа и сравнения изменений в бюджете. В качестве источника использовался budget.gov.ru портал электронного бюджета и был вариант использовать именно её в проекта Госрасходы, но, увы, качество данных в Электронном бюджете было и остаётся весьма посредственным до сих пор.
Сейчас я бы всё это переписал в универсальный формат описания и анализа финансовых данных, но мой интерес к анализу госфинансов слегка поугас за эти годы․

Финансовая отчетность политических партий [3] это код сбора файлов и архив самих финансовых отчетов политических партий за 2005-2020 годы. Сейчас всё это имеет скорее исторический смысл, чем какой-либо ещё. Для истории есть копия этих данных в @ruarxive, а в этом репозитории файлы и код их сбора. Но код применить сейчас сложно потому что ЦИК блокируют почти любые попытки выкачать с сайта что-либо не с помощью браузера. С другой стороны в этом архиве есть отчеты которые с сайта ЦИКа давно убраны. Например, на сайте ЦИКа отчеты начинаются с 2010 года, а здесь собраны с 2005.

Ссылки:
[1] https://github.com/ivbeg/runotebooks
[2] https://github.com/ivbeg/budgetlib
[3] https://github.com/infoculture/ru-cik-data

#opendata #opengov #opensource
В блоге Atlan, продукта для корпоративных каталогов данных, про то что Forrester поменял классификацию каталогов данных с каталогов данных для машинного обучения на каталоги для DataOps [1].

Новость интересная в смене акцентов, потому что ранее и Gartner заменили их "магический квадрат" по управлению метаданными [2] на руководство по активным метаданным [3].

Для систематизации смыслов, типов и целей продуктов это довольно важно, с рядом оговорок. Сама идея "активные метаданные" - это одна из форм хайпа продвигаемая как раз компанией Atlan и которую Gartner как раз и взяли на вооружение, а далее и многие разработчики продуктов по инвентаризации корпоративных данных используют.

Об активных метаданных писала [4] Prukalpa, сооснователь Atlan и из её описания сложно понять отличия идеи активных метаданных от платформ по наблюдению за данными (data observability platforms) таких как Monte Carlo [5]․ Лично по мне так наблюдаемость данных куда как более важный приоритет чем активные метаданные. В случае активных метаданных речь идет о том что "у вас много данных о которых вы не знаете или мало используете", а в случае наблюдаемости данных речь о том что "у вас много критических процессов сбора и обработки данных, вам нужно оперативно их исправлять если что-то идет не так". По аналогии: в одном случае это управление активами, а в другом процедурами и процессами. Что важнее?

Впрочем что Forrester, что Gartner, это известные собиратели трендов и хайпов вперемешку, часто оторвано от реальной практики, и их выбор важнее с точки зрения понимания движения рынка инвесторов чем для реальных технических задач.

Ссылки:
[1] https://humansofdata.atlan.com/2022/10/forrester-enterprise-data-catalogs-dataops/
[2] https://www.gartner.com/en/documents/3993025
[3] https://www.gartner.com/en/documents/4006759
[4] https://towardsdatascience.com/what-is-active-metadata-and-why-does-it-matter-add3408c228
[5] https://www.montecarlodata.com/blog-what-is-data-observability/

#datacatalogs #data #thoughts
По поводу постановления Правительства РФ о национальном репозитории кода [1] мне много что есть сказать. Хорошего, плохого и разного.

Начну с хорошего:
1) Раскрытие кода информационных систем органов власти - это правильно для внутреннего и внешнего их аудита, отчуждаемости систем от их разработчиков, обеспечения прослеживаемости кода, повышения качества его сопровождения и тд.
2) Важно помнить что репозитории кода есть во многих органах власти федеральных и региональных. Есть они у Федерального казначейства, ДИТа Москвы, МЧС РФ и большей части органов власти которые хоть немного заботятся о том что они делают. Но не всегда работа с этим кодом носит системный характер, не всегда есть даже внутренние документы обязывающие поставщиков передавать туда код.

Плохое:
1) Открытая лицензия - это свободная лицензия. Она должна быть OSI совместимой. Just google "osi-compatible open source licenses" и у того что под ней публикует должен быть выбор, потому что там есть вариации. То что вместо адаптации лицензий вроде MIT, Apache, Creative Commons и тд. изобретается велосипед приведет к невозможности или ограничениям использования кода в проектах под другими лицензиями.
2) На самом деле масштаб открытости кода мы не знаем. Репозиторий может включать много кода, но закрытого, а открываться будет лишь малая часть. А для целей "национальной безопасности" могут обязать для доступа авторизовываться только через Госуслуги.
3) То что создается именно государственная платформа для кода имеет те риски что туда могут начать запихивать не только код госпроектов, но и обязать туда сдавать код всех получателей господдержки и субсидий как обязательный шаг.

И, наконец, ключевое соображение. Для раскрытия кода не надо 2-х и более лет и даже больших расходов на создание новых платформ. Нужно только желание. Мало кто понимает что ключевое на платформах вроде Github или Gitlab их инфраструктурность и интегрируемость. Через них устанавливаются пакеты (библиотеки) кода для большинства известных языков программирования, это крупнейшие хабы для коммуникации разработчиков, это ещё много всего из-за чего оттуда разработчики не уходят даже несмотря на репутационные и иные риски когда Github запускал проект Co-Pilot.

Может ли такой платформой стать национальный репозиторий? Я пока не вижу сценария/стратегии/понимания подобного от регуляторов и инициаторов.

Ссылки:
[1] https://publication.pravo.gov.ru/Document/View/0001202210120022

#digital #opensource #russia
Незаслуженно упущенная мной публикация июля этого года What is the value of data? A review of empirical methods [1] от исследователей из Bennett Institute for Public Policy Университета Кэмбриджа. Они разбирают методы оценки стоимости/ценности данных, в первую очередь, с точки зрения экономических оценок их использования и ссылаются на их же работу 2020 года Value of Data report [2], а также на оценки ОЭСР и других.

С научной точки зрения и с точки зрения лоббирования раскрытия данных и принятия политик представления данных (data sharing) в странах где прислушиваются к доводам исследователей - это полезный текст.

Ссылки:
[1] https://www.bennettinstitute.cam.ac.uk/publications/value-of-data/
[2] https://www.bennettinstitute.cam.ac.uk/wp-content/uploads/2020/12/Value_of_data_summary_report_26_Feb.pdf

#opendata #research #policies
Практика цифрового сохранения США

Программа сохранения цифровых данных (Digital Preservation Framework) Национального архива США (NARA) описывает оценку рисков и рекомендуемые планы сохранения для более 600 форматов файлов. Система цифрового сохранения архивов состоит из матрицы рисков, приоритетов и планов действий по сохранению форматов файлов. Планы открыто опубликованы для исследователей и архивистов в специальном репозитории.

В документации системы каждый формат данных отнесен к одной из 16 категорий, таких как «цифровое аудио», «электронные таблицы», «программное обеспечение и код». В августе этого года появилась категория «связанные открытые данные» (linked open data).

Доступ к открытым данным, связанным с цифровым сохранением, можно получить путем массовой загрузки, по категориям записей (цифровое видео, электронная почта и т.д.) или просмотрев полный список сотен форматов файлов.

Также наборы данных коллекций доступны через API.

Подробнее о Digital Preservation Framework Linked Open Data: https://www.archives.gov/preservation/digital-preservation/linked-data
В рубрике регулярных напоминаний не могу не рассказать про сервис оценки простоты языка Простой язык (plainrussian.ru) [1] который я много лет назад сделал и передал в Инфокультуру при её создании.

Это очень простой сервис который на вход получает текст на русском языке и на выходе выдает его сложность в баллах где баллы - это число лет учёбы которые необходимо пройти чтобы понимать этот текст. Например, 11.97 баллов - это, примерно, 1-3 курс ВУЗа, а то есть около 12 лет учебы.

При том что анализ текстов - это, довольно сложная задача в общем понимании, но в данном случае было целью сделать как можно более доходчивый сервис для всех и каждого.

У сервиса есть API [2] и открытый код [3]. Код не обновлялся примерно лет 10, во всяком случае та его часть которая использовалась для расчета формул.

И вот в формулах и было самое сложное и интересное. Алгоритмы сервиса работают на тех же принципах что формулы читабельности текста созданные изначально для английского языка: Flesch-Kincaid, SMOG, Automatic Readability Index и другие. В их основе подсчет числа слов на предложение, среднее число слогов на слово, среднее число букв на слово, число редких слов и так далее.

Когда я задумал впервые сделать такой же алгоритм для русского языка, то столкнулся что для него формул нет. Их надо было, или придумать с нуля, или адаптировать коэффициенты английского языка для русского. В итоге я пошёл вторым путем, но составление собственного языкового корпуса с нужной мне статистикой тогда казалось длительной и неэффективной задачей, поэтому коэффициенты были подобраны грубым перебором за несколько недель-месяцев (?) нескольких десятков миллиардов вариантов коэффициентов на обучающей предразмеченной выборке из пары десятков текстов литературы для внеклассного чтения.

Сейчас всё это можно было бы решить гораздо быстрее, с современными ML инструментами расчеты были бы быстрее чем их проектирование.

Особенность итогового результата в том что тексты простые/бытовые он идентифицирует хорошо, а вот тексты юридические или нормативно-государственные оценивает всегда как особо сложные.

По прежнему сайт остаётся одним из тех проектов которым регулярно пользуются несмотря на его неизменность в последние годы.

Ссылки:
[1] https://plainrussian.ru/
[2] https://github.com/ivbeg/readability.io/wiki/API
[3] https://github.com/infoculture/plainrussian/tree/master/textmetric

#plainrussian #russian #language #api #tools
Похоже Google делают ключевую ставку на поглощённый ими продукт Looker и переименовывают Google Data Studio в Looker Studio [1] и планируют развивать этот бренд и направление․

Это стратегия на явное усиление их продуктов по работе с данными, в первую очередь, продукты для BI.

Looker был куплен Google ещё 2.5 года назад [2] и уже сейчас вокруг него выстроена экосистема интегрированных продуктов и большого числа расширений где 20 источников данных предоставляются внутри Looker Studio, а 660 являются партнерскими источниками и коннекторами.

У всего этого, конечно, сильнейшая сторона в доступе к маркетинговым данным. Всё то что является частью "капитализма слежки".

В этом смысле Looker идеально соответствует бизнес модели Google о том что данные входят-данные не выходят.

Поэтому то что на Looker делается ставка, лично меня совершенно не удивляет.

Ссылки:
[1] https://www.youtube.com/watch?v=Bc_hcLVyFJI
[2] https://techcrunch.com/2020/02/13/google-closes-2-6b-looker-acquisition/

#datatools #clouds #google
В рубрике полезных инструментов и полезного чтения о данных:
- The Contract-Powered Data Platform [1] о платформе управления данными с дата-контрактом на каждый тип данных и о её ценности для всех пользователей. Можно весь текст свести к выводу что схемы данных - это хорошо, используйте их повсеместно.
- Compressed Log Processor [2] бесплатное ПО по автоматизации сбора сжатых логов и работы с ними без разжатия. Обещают большую экономию диска и памяти. Делают в стартапе YSCope который также предлагает это же как облачную услугу.
- Data Lineage: State-of-the-art and Implementation Challenges [3] обзор инструментов по прослеживаемости данных, Data Lineage. Главная польза в том что автор уже посмотрел на некоторые из них и, в целом, мои выводы подтверждаются что не все инструменты достаточно зрелые. Плюс в обзоре только инструменты с открытым кодом.
- RecSysOps: Best Practices for Operating a Large-Scale Recommender System [4] наступило время когда все придумывают новые термины. Вот у Netflix'а новая выдумка "RecSysOps" - управление рекомендательными системам. В их блоге сводка некоторых правил того как идёт работа над их внутренней рекомендательной системой. Технических подробностей мало, организационные выглядят любопытными.
- Crossmodal-3600 — Multilingual Reference Captions for Geographically Diverse Images [5] свежий большой набор данных от Google для генерации текстов к изображениям не на английском языке. Большая часть датасетов по этой теме именно на английском, а тут 36 языков.
- State of Data Science and Machine Learning 2022 [6] от Kaggle. Короткие выводы: наибольший рост специалистов по DS в Индии и в Японии, основные языки программирования: Python, SQL, R; основные среды разработки: Jupyter Notebook, RStudio, PyCharm, VSCode; популярность RStudio падает, VSCode растёт. И, популярность всех облачных платформ растёт.
- Microsoft Ignite Book of News [7] очень много новостей о развитии продуктов Microsoft Azule собранных в одной новости. Много про облачные версии их Cosmos DB, развитие MongoDB и множество других СУБД и связанных с базами данных и машинным обучением сервисов.
- The case for a query modification language [8] автор пишет про ещё один язык работы с запросами, QML - Query Modification Language, с акцентом на функции преобразования. Что-то много стало языков запросов и попыток их изменить.

Ссылки:
[1] https://buz.dev/blog/the-contract-powered-data-platform
[2] https://github.com/y-scope/clp
[3] https://medium.com/bliblidotcom-techblog/data-lineage-state-of-the-art-and-implementation-challenges-1ea8dccde9de
[4] https://netflixtechblog.medium.com/recsysops-best-practices-for-operating-a-large-scale-recommender-system-95bbe195a841
[5] https://ai.googleblog.com/2022/10/crossmodal-3600-multilingual-reference.html
[6] https://www.kaggle.com/kaggle-survey-2022
[7] https://news.microsoft.com/ignite-2022-book-of-news/
[8] https://www.thoughtspot.com/blog/the-case-for-a-query-modification-language-qml-and-why-dashboards-are-dead

#data #readings #opensource #opendata
Я продолжаю довольно много читать про то как развивается тема открытых данных в мире, того как развиваются корпоративные каталоги данных и научные репозитории данных. Всё это три разных направления о которых я много раз писал, например, тут [1].

Чем больше я наблюдаю тем больше вижу оторванность всех трех направлений друг от друга. Технологическое и регуляторное их пересечение невелико, а аудитории пересекаются незначительно.

Например, для Data Scientist'ов преимущественные инструменты для работы связаны с работой с хорошо структурированными данными, пригодными для быстрой загрузки в СУБД или инструменты вроде программных сред разработок. Почти все порталы открытых данных, или вообще никак, или довольно посредственно предоставляют документацию и схемы данных. Чаще всего эти описания не гармонизированы, а преобразование открытых данных в данные для машинного обучения требует существенных усилий.

Другой пример, стандарты вроде Frictionless Data [2] существуют давно, делает их команда которая когда-то имела отношение к проекту CKAN, наиболее популярному открытому ПО для каталогов открытых данных. Но реально почти нет внедрения этого стандарта за пределами научных сообществ [3] и научных проектов. Госорганы создающие порталы открытых данных очень медленно внедряют стандарты обеспечивающие качество данных. В лучшем случае в порталах внедряются стандарты метаданных вроде DCAT, позволяющие работать с метаданными наборов данных.

Научные репозитории данных уходят во вселенную отраслевой специализации. Очень сильной специализации, вроде продуктов Galaxy для биоинформатики, множества медицинских репозиториев провязанных с PubMed и похожими реестрами и многим другим для других научных областей.

Эволюция государственных каталогов открытых данных, на мой взгляд, возможна в двух важнейших направлениях. Первый - это поощрение инноваций, развитие ИИ и инвестиции в создание общедоступных значимых сопровождаемых ключевых наборов данных. Второй - это развитие каталогов открытых данных с акцентом на прикладное научное использование с выдачей DOI, привязкой к научным работам и интеграцией в агрегаторы результатов и источников научной деятельности.

Прозрачность государства остаётся одной из ключевых тем, но и она должна сопровождаться с интеграцией с этими направлениями. Потому что некачественные и недостоверные данные о деятельности госорганов, также, имеют малую пользу и ценность.

Причём, всё вышенаписанное, можно отнести практически к любой стране.

Ссылки:
[1] https://begtin.substack.com/p/11
[2] https://frictionlessdata.io/
[3] https://frictionlessdata.io/adoption/

#opendata #thoughts #datacatalogs