Ivan Begtin
7.99K subscribers
1.78K photos
3 videos
101 files
4.49K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]
Download Telegram
В рубрике интересных наборов данных OpenSanctions [1] проект о котором я уже писал в сентябре 2021 года [2] добавил интеграцию с Wikidata [3], одним из проектов фонда Викимедиа. В Wikidata собраны многие профили политиков и теперь эти профили импортируются в OpenSanctions. В пример, ожидаемо, приводят профиль Владимира Путина [4] и Дональда Трампа [5].

Проект активно развивается, раскрывает исходный код и данные в виде наборов данных и API. У него ограничивающая лицензия CC-BY 4.0 NC и коммерческое лицензирование для бизнес пользователей. С оговоркой что для журналистов и активистов лицензия CC BY 4.0 [6]. Это не вполне открытая лицензия, но учитывая плотный рынок due diligence и того что эти правила заданы на старте проекта, вполне приемлемая.

А то что теперь подгружаются данные из Wikidata даёт шанс что проект со временем превратится в большую базу PEPs (персон с политическим влиянием) по аналогии с LittleSis.org [7], но если LittleSis был с самого начала проектом ориентированным на США, то OpenSanctions довольно универсален.

Ссылки:
[1] https://www.opensanctions.org
[2] https://t.iss.one/begtin/3074
[3] https://www.opensanctions.org/articles/2022-01-25-wikidata/
[4] https://www.opensanctions.org/entities/Q7747/
[5] https://www.opensanctions.org/entities/Q22686/
[6] https://www.opensanctions.org/licensing/
[7] https://littlesis.org

#opendata #opengov #sanctions #datasets #openapi
Firebolt, израильский стартап облачной управляемой базы данных, получил очередной раунд финансирования в $100M и общую оценку в $1.4 миллиарда. Firebolt - это аналог Snowflake, Amazon Redshift, Google BigQuery. Главный акцент делают на скорости с позицией что "всем нравится Snowflake, мы делаем не хуже, но быстрее". Имеют хорошие шансы занять свою нишу в корпоративном стеке данных.

Другой стартап DreamIO получили раунд финансирования в $160M при общей оценке в $2 миллиарда. DreamIO предлагают облачное и корпоративное озера данных основанные на Apache Arrow.

Ещё один стартап Minio предоставляющие ПО для создания S3 совместимых хранилищ получили финансирование в $104M при общей оценке более чем в $1 миллиард. В основе Minio их же опенсорсный продукт.


Ссылки:
[1] https://techcrunch.com/2022/01/26/firebolt-a-data-warehouse-startup-raises-100m-at-a-1-4b-valuation-for-faster-cheaper-analytics-on-large-data-sets/
[2] https://www.dremio.com/press-releases/dremio-doubles-valuation-to-2-billion-with-160m-investment-towards-reinventing-sql-for-data-lakes/
[3] https://blog.min.io/ab_seriesb/

#startups #data #dataproducts
В блоге Incident.io хорошая публикация A modern data stack for startups [1]. В отличие от многих рассуждений про современный стек данных в этот раз про случаи когда у Вас не так много данных, не так много связей между ними и в целом простые задачи. К примеру, Gitlab который я приводил в пример, или многие другие публикации о стеках технологии, в основном про крупные корпорации. А тут публикация про малый средний бизнес на собственном примере, когда у тебя из источников данных только продукт, поддержка и CRM, всего две системы извлечения данных, одно хранилище и один инструмент визуализации.

Правда, везде dbt, буквально куда ни ткнись, всюду для трансформации данных используют преимущественно dbt.

Публикация полезная, собрать стек несложно, выбор, в основном в том что выбирать из open source, а что из облачных решений. Всё чаще в облачных решениях выбирают хранилища данных и озера данных, а в open source преобразование.

Ссылки:
[1] https://incident.io/blog/data-stack

#datastack #startups #data #datatools
В США Национальный институт здоровья (NIH), осуществляющий финансирование большей части государственных расходов на исследования в области здравоохранения, анонсировал инициативу GREI по поддержке открытых репозиториев публикации научных данных и приведению их к общим стандартам метаданных необходимых для результатов исследований финансируемых NIH [1]. Это охватывает 6 открытых репозитория таких как:
- Dryad
- Dataverse
- Figshare
- Mendeley Data
- Open Science Framework
- VIvli

Всё это в дополнение к 67 отраслевым предметным научным репозиториям данных поддерживаемых NIH [2], большая часть которых являются государственными.

Почему это важно? Открытость науки начинается с открытости тех кто даёт деньги на научные исследования. Пока грантодатель/заказчик не выставляет обязательные требования по раскрытию результатов в форматах открытых данных, под свободными лицензиями и с необходимыми метаданными, то редко когда это происходит. Правда, в науке всё немного иначе из-за необходимости обеспечивать воспроизводимость исследований и в этом случае центры финансирования выстраивают экосистему под себя. Так делает Европейский союз, так делает и NIH.

Ссылки:
[1] https://datascience.nih.gov/news/nih-office-of-data-science-strategy-announces-new-initiative-to-improve-data-access
[2] https://www.nlm.nih.gov/NIHbmic/domain_specific_repositories.html

#openscience #opendata #datarepositories
В рубрике очень больших наборов данных OpenAlex [1] крупнейший каталог всех научных работ, научных организаций, конференций и авторов работ. Похожий на Microsoft Academic Graph, другой очень крупный набор данных со схожим составом. OpenAlex распространяется в виде слепков на Amazon AWS и через API. А также обещают в феврале 2022 года запустить веб-сайт.

Всё распространяется под лицензией CC0, так что это true open data, можно использовать для любых целей и задач. Например, если кто-то задумает реконструировать карту российской науки или отслеживать публикации по какой-либо редкой теме, этот датасет хорошо подойдет для затравки.

Ссылки:
[1] https://docs.openalex.org/

#bigdata #datasets #data #academic #research
В блоге Uber Engineering полезная заметка об оптимизации формата Parquet [1] с точки зрения сжатия, хранения и скорости работы. Автор рассказывает как они используют Parquet в экосистеме Hadoop'а у себя внутри для обработки и хранения данных измеряемых петабайтами и том что хранение в таких объёмах обходится дорого и после многих экспериментов они остановились на формате Parquet со сжатием через ZSTD и что это значительно эффективнее чем Snappy/Gzip по балансу скорости обращения к данным и уровню сжатия.

Но что интереснее автор приводит ещё и трюк с сортировкой данных который позволяет значительно улучшить сжатие предварительно проведя сортировку данных в колонках. Причём очень многое зависит от порядка сортировки полей, в их случае при порядке начинающегося с поля uuid достигается наилучший результат. В основе этого эксперимента статья Reordering Rows for Better Compression: Beyond the Lexicographic Order [2].

Случай Uber'а с хранением таких объёмов, конечно, довольно редкий, такое есть только в крупнейших стартапах/корпорациях. Есть много задач сильно меньше, до терабайтов, где также надо работать с разными форматами данных и Parquet выглядит всё более привлекательным для хранение и распространения данных для аналитической работы.

Ссылки:
[1] https://eng.uber.com/cost-efficiency-big-data/
[2] https://arxiv.org/pdf/1207.2189.pdf

#parquet #data #reading #dataengineering
Forwarded from APICrafter
Телеграм бот по классификации данных @DataClassifierBot теперь умеет распознавать типы файлы, их кодировку и разделители, если файлы в CSV формате. Теперь не надо преобразовывать данные для загрузки в бот, он автоматически идентифицирует необходимое и проведет классификацию полей данных.

Напомню что @DataClassifierBot анализирует структуру файла и на основе данных определяет содержание поля возвращает информацию о том что там содержится. Бот умеет определять такие виды данных как:
- Ссылки
- Email адреса
- ФИО и по отдельности фамилии, имена и отчества
- названия организаций
- Коды организаций ИНН/КПП/ОГРН/ОКПО
- Дату и время в любом формате
- Коды ОКВЭД, ОКПД, ОКВ, ОКФС и другие
- Названия городов
- Названия стран
- Адреса

и многое другое, полный перечень выявляемых идентификаторов и видов полей на сайте DataCrafter https://data.apicrafter.ru/class

#datatools #data
Коммерсант пишет [1] что
Правительство поручило Минцифры к февралю разработать план по предоставлению бизнесу доступа к государственным обезличенным данным для обучения искусственного интеллекта (ИИ). На первом этапе откроют информацию Россельхознадзора, ФНС, Росстата, Минвостокразвития и Росреестра.

и что По данным Минцифры, в 2021 году сформировано 26 ведомственных дата-сетов: 4 (Россельхознадзор, ФНС России, Росстат, Минвостокразвития, Росреестр) — с возможностью использования сторонними разработчиками для бизнес-решений и 22 — для внутренних нужд ФОИВов в рамках цифровой трансформации.

Не могу не прокомментировать что открытие государственных данных для бизнеса - это хорошо, вопрос для какого бизнеса. Нет ответа на ключевой вопрос - кем могут быть эти разработчики систем ИИ? Вот у нас есть малый и средний бизнес, не имеющих отношения к крупным конгломератам, как такие компании могут получить доступ к этим наборам данных?

И, конечно, если данные обезличены, то ничто не должно мешать органам власти сделать такие данные полностью общедоступными под открытыми лицензиями и в форматах открытых данных. Это самый комфортный для бизнеса формат когда не надо просить индивидуального доступа к каждому набору данных.

Нет открытия данных - нет конкуренции. Нет конкуренции - идёт замыкание экономики на монополистов.

Ссылки:
[1] https://www.kommersant.ru/doc/5181417

#opendata #data #ai #datasets
Forwarded from Roskomsvoboda
☝️Запись трансляции Privacy Day 2022

В пятницу мы провели конференцию о приватности и персональных данных, где объединили экспертов из разных сфер, чтобы обсудить насущные проблемы и последние события: сбор биометрии в разных целях, шатдауны в Казахстане, использование шпионского ПО и громкие блокировки. А ещё взяли интервью у представителей The Tor Project.

Выражаем благодарность спикерам, информационным партнёрам, зрителям и участникам обсуждения.

Запись трансляции вместе с таймкодами сохранили на нашем YouTube-канале:
➡️ https://youtu.be/FixkV69x5yA
Для тех кто недавно подписался и в качестве многочисленных напоминания о том кто я, чем занимаюсь и о чём тут пишу.

Я больше 12 лет занимаюсь занимаюсь тематикой открытости государства и открытыми данными, возглавляю АНО "Инфокультура" (@infoculture) [1] внутри которого мы создавали и поддерживаем такие проекты как Госзатраты [2], Открытые НКО [3], Хаб открытых данных [4], Простой язык [4] и многие другие [5], а также День открытых данных в Москве [6].

Всё это время я занимался и занимаюсь экспертной работой в экспертных советах при Пр-ве и разных органах власти и за пределами государства.

С 2019 г. по май 2021 г. я был соавтором проекта Госрасходы [7], по мониторингу бюджетных средств. Этот проект был поддержан Алексеем Кудриным (главой Счетной палаты) и я работал над ним в Счетной палате, а сейчас этим проектом продолжает заниматься моя коллега Ольга Пархимович, в телеграме @ahminfin.

Уже более полугода я сделал фокус на коммерческие проекты, наша команда разрабатывает проекты в области сбора и анализа данных, инженерии данных и комплаенса. В частности мы делаем проект APICrafter [8] в виде высокопроизводительного API к ЕГРЮЛ, базе госконтрактов и другим сведениям о юр лицах с гибкой тарификацией, а также создаём продукт DataCrafter [9] в котором собираем крупнейший каталог данных в России, преимущественно открытых данных и преимущественно открытый каталог.

Параллельно я возглавляю Ассоциацию участников рынка данных АУРД (@AURData) [10] выступающую в интересах малого и среднего бизнеса, преимущественно и доступности данных для бизнеса.

А также я много пишу про данные, открытые данные, государственные данные и, в последнее время, всё больше пишу про технологии работы с данными у себя в телеграм канале @begtin, в блоге begtin.tech тексты среднего размера [11] и в рассылке на Substack лонгриды [12]. Раньше я писал больше про гостехнологии, госзакупки и государство в целом, сейчас тоже иногда, но уже реже. Поэтому если Вы подписались, то будьте готовы что про данные и технологии я буду писать много, про остальное реже.

Ах да, я совсем забыл, что веду ещё и проект Национального цифрового архива по архивации сайтов и иных digital-born объектов [13] с фокусом на сайты в зоне риска исчезновения. Самое главное дело, жаль времени на него уходит мало.

Cсылки:
[1] https://infoculture.ru
[2] https://clearspenging.ru
[3] https://openngo.ru
[4] https://plainrussian.ru
[5] https://infoculture.ru/projects
[6] https://opendataday.ru
[7] https://spending.gov.ru
[8] https://apicrafter.ru
[9] https://data.apicrafter.ru
[10] https://aurd.ru
[11] https://begtin.tech
[12] https://begtin.substack.com
[13] https://ruarxive.org

#data #reading #blogging
Кстати, для тех кто ищет познавательного чтения, могу порекомендовать блоги чиновников правительства Великобритании [1]. Если в России блоги остались только у какого-то небольшого числа топовых чиновников вроде глав регионов и скорее они инструменты "поддержания медийности", хотя до этого, в 2010-2014 годах был расцвет госблоггинга, быстро угасшего после увольнений, введения мониторинга того что люди государства пишут и тд.

А в Великобритании всё сделали иначе, создали платформу blog.gov.uk, где публикуются заметки сотрудников департаментов правительства, причём пишут, в основном, рядовые сотрудники, эксперты, специалисты, реже кто-то выше. Это только профессиональные блоги, пишут они о своей работе, о практиках и так далее.

Например, я там читаю Data in Government [2] о том как работают с данными внутри Civil Service, а также блог Companies House [3] которые ведут реестр юр. лиц, они регулярно выкладывают интересную аналитику и ещё многие другие, там много постов про data science, data modelling, data policy и чуть-чуть про data engineering.

Ссылки:
[1] https://www.blog.gov.uk/
[2] https://dataingovernment.blog.gov.uk/
[3] https://companieshouse.blog.gov.uk

#opendata #data #government #uk
У ORelly свежий отчет What Is Data Observability? [1] написанный Andy Petrella, основателем платформы Kensu.io, как раз по data observability. Отчёт, при этом, совершенно не рекламный, а как раз с разъяснением что такое наблюдаемость данных, кому это нужно и в каких ситуациях. Сравнений платформ, продуктов и решений нет, но есть аргументы, архитектура и описание DataOps без упоминания термина, вместо него, Applying DevOps Practices to Data, но смысл не меняется.

Если передать своими словами и как я понимаю, то Data Observability - это система/подход в мониторинге данных и всех происходящих с ними процессов: хранилищ, пайплайнов, дашбордов, преобразований, контроля качества, потоков и так далее. Остро актуально для больших корпораций со множеством команд работающих с данными и большим числом источников данных, продуктов на данных, хранилищ и так далее. Чуть менее актуально для средних компаний и совсем не так сильно актуально для небольших дата-команд и небольших стартапов потому и так всё на виду, процессов мало, хранилищ тоже.

Во многом продукты по Data Observability проистекает из нарастающей сложности систем из которых создаётся современный стек данных и позволяет эту сложность хотя бы переводить в управляемое состояние.


Ссылки:
[1] https://www.kensu.io/oreilly-report-what-is-data-observability

#data #moderndatastack
О том как организована работа с данными в разных средах, в научной среде одна из наиболее развитых экосистем работы с данными существует в биоинформатике. Проект Dockstore [1] - это некоммерческий академический проект со многими признаками стартапа, позиционируется как An app store for bioinformatics. В нём сейчас 44 научных организации регистрирует свой код рабочих процессов (workflows) с возможностью перепроверки на различных онлайн платформах: Galaxy, AnVIL, Terra, DNANexus, DNAStack и NHLBI BioData Catalyst. Всего более 1200 рабочих процессов (workflows) и более 250 инструментов (tools) с репозиториями, возможность запуска в Docker'е и тд.

Вообще экосистема для работы в биоинформатике мне чем-то напоминает Modern Data Stack и даже кое-где пересекается, в части использования Github, Docker, Google Cloud как хранилища и ряда других облачных инструментов.

Не знаю воспроизводимо ли подобное для других научных сред - экономистов, историков, инженеров-авиастроителей и так далее. Важное отличие биоинформатики в международных стандартах и воспроизводимости исследований [2].

Сам проект Docstore существует на гранты государственных научных грантодателей Канады и США, существует с открытым кодом [3] и активной командой разработчиков.

Ссылки:
[1] https://dockstore.org/
[2] https://www.ga4gh.org/
[3] https://github.com/dockstore/dockstore

#opensource #openprojects
Во Франции Государственный совет (Conseil d’État) открыл свой портал открытых данных [1]. Куда уже выложили его решения, к 31 марта 2022 года выложат решения апелляционных судов, а к 30 июня 2022 года решения административных судов. Объём данных обещает быть большим, всё опубликовано под французской свободной лицензией созданной Etalab [2]

Ссылки:
[1] https://opendata.conseil-etat.fr/
[2] https://www.etalab.gouv.fr/wp-content/uploads/2017/04/ETALAB-Licence-Ouverte-v2.0.pdf

#opendata #france
Языку SQL уже много, очень много лет, но он продолжает быть чуть-ли не основным для аналитиков данных, инженеров и иных специалистов по работе с данными. Разве что дата сайентисты в некоторых задачах могут избежать счастья работать с SQL и используют Python/Java/R и др.

У SQL много достоинств и не меньше недостатков, главным из которых я бы назвал отсутствие удобных способов работы с не-плоскими данными, такими как JSON и тд. Время от времени появляются альтернативы, которые редко выходят за пределы конкретного продукта, но могут быть очень интересными.
Итак:
- SpyQL [1] гибрид SQL и Python, утилита командной строки позволяет выполнять SQL-похожие запросы с выражениями на Python внутри. Умеет работать с CSV, JSON и текстовыми файлами
- LINQ [2] объектный родной для .NET язык запросов придуманный Microsoft. Не используется за пределами экосистемы .NET
- SPARQL [3] язык запросов родом из Sematic Web. Сложен для непосвящённых, так и не получил массового распространения как и сами СУБД которые его поддерживает, но имеет немало, в первую очередь научных внедрений и использования.
- GraphQL [4] изначально язык API, но есть немало СУБД для которых он уже стал нативным. Малопопулярен в среде обработки данных, но популярен для веб-продуктов, стыковки бэкэнда и фронтэнда.
- Pony [5] специальный маппер выражений из своего синтаксиса в синтаксис SQL. Изначально написан для Python для работы с объектами для задач ORM.
- LookML [6] язык запросов сервиса по визуализации Looker, свой формат, свой синтаксис. Пока мало где используемый за пределами Looker'а
- Malloy [7] ещё один язык от Looker, относительно свежий
- Prql [8] язык запросов ориентированный на преобразование данных.

И многие другие. Защитники SQL возразят что современные SQL базы давно уже поддерживают JSON объекты и функции по работе с ними, а для гибкости пользовательские функции (UDF) можно реализовывать хоть на Python, хоть через .NET, хоть на других языках в зависимости от движка СУБД.

Появится ли у SQL стандарта достойная признанная замена? Пока непонятно, но можно экспериментировать.

Ссылки:
[1] https://github.com/dcmoura/spyql
[2] https://en.wikipedia.org/wiki/Language_Integrated_Query
[3] https://www.w3.org/TR/rdf-sparql-query/
[4] https://graphql.org/
[5] https://github.com/ponyorm/pony/
[6] https://docs.looker.com/data-modeling/learning-lookml/what-is-lookml
[7] https://github.com/looker-open-source/malloy
[8] https://github.com/max-sixty/prql

#sql #nosql #queries #datatools
Я много критиковал и критикую российский федеральный портал открытых данных data.gov.ru [1], но как-то без цифр. Сейчас, когда наконец-то докачались все доступные данные 26490 наборов данных с этого портала я могу цифры привести и дать некоторую картину его текущего состояния:
1. 29 гигабайт - это общий объём данных в федеральном портале открытых данных data.gov.ru. Большая часть этих данных несжаты, после сжатия их объём составит около 15-20 гигабайт, а может быть и меньше, сжатие этого архива ещё не закончилось.
2. Из них 6.8 гигабайт - это однократный слепок данных в ZIP архиве из системы ФИАС не обновлявшийся с октября 2019 года [2]. Вернее ссылка на этот слепок на сайте ФНС [3].
3. Всего на 5 крупнейших наборов данных приходится 50% хранимого объёма. Это данные ФИАС, вакансий и юр. лиц Роструда и сведения о малом и среднем бизнесе с сайта ФНС.
4. 3839 наборов данных имеют размер менее 1 килобайта. Это 14.5% всех наборов данных, всех уровней власти. Федерального, регионального и муниципального.
5. На самом деле даже текущие цифры являются завышенными потому что многие ссылки указывают на внешние сайты и протухли из-за реформы органов власти. Наглядный пример, данные ФСТ РФ присоединённой к ФАС РФ. Набор данных "Информация об обращениях граждан" [4] указывает на сайт fstrf.ru которые редиректит на рекламу на meta.ru.
6. Аналогично наборы данных со многих сайтов были перенесены или удалены, метаданные на data.gov.ru не обновлялись. Так не работает ссылки на все наборы данных ФТС (Таможенной службы), например тут [5].

Для сравнения:
1. 950+ наборов данных из портала data.mos.ru - это 17 гигабайт несжатых данных. Частично эти наборы импортированы в data.gov.ru, но лишь частично.
2. Данные системы ЕМИСС (fedstat.ru) это 3.4 гигабайт несжатых XML файлов, данных неполными в выгрузке на сайте и проиндексированных в data.gov.ru. Если собрать их же в полных Excel файлах, экспортируя через веб интерфейс, то это около 24 ГБ
3. В системе budget.gov.ru данных по госфинансам 31 ГБ в сжатом виде. Если их распаковать то это около 200 ГБ и с оговоркой что это далеко не все данные, поскольку ряд крупнейших датасетов мы не скачивали, это слишком долго через их API.
4. 9200+ наборов данных из системы ЕСИМО (портал о мировом океане) - это 10 ГБ данных в несжатом виде. Их никогда не было на портале data.gov.ru

Это не полный список, только самое очевидное.

Все сравнения не в пользу федерального портала открытых данных. И это с оговоркой только количественного, не качественного сравнения. Если сравнивать федеральный портал по качеству документированности данных, удобства доступа, форматам и метаданным и тд. с другими порталами, то федеральный портал оказывается бесполезен. Он не выполняет функции поисковика по данным размещённых в других порталах, как минимум к особо крупным и ценным наборам данных. Технологически data.gov.ru также сильно отстал, и от того что делают зарубежом, и от лучших российских практик. Многие региональные и ведомственные порталы данных устроены куда лучше и профессиональнее.

Сейчас я изучаю можно ли хоть что-то из data.gov.ru автоматически загрузить в DataCrafter [6] или лучше работать только с первоисточниками.

Архив данных этого и других порталов данных мы также сохраняем в рамках Национального цифрового архива [7] и он будет сохранён и доступен для выгрузки.

Если есть желающие изучать все скачанные данные уже сейчас, я выложу слепок данных с портала для выгрузки и объясню как данные выгружались и как с ними можно работать. Напишите если он Вам нужен, я пришлю ссылки пока индивидуально, а как только поместим в архивное хранилище то будет доступно всем.

Ссылки:
[1] https://data.gov.ru
[2] https://data.gov.ru/opendata/7707329152-fias
[3] https://fias.nalog.ru
[4] https://data.gov.ru/opendata/7705513068-CitizensRequest
[5] https://data.gov.ru/opendata/7730176610-p5statimpvajneytov
[6] https://data.apicrafter.ru

#opendata #dataportals #russia #datasets #datagovru
Для тех кто думает про инструменты трансформации данных и не готов/не хочет/не может использовать Dbt и подход ELT есть немало инструментов с открытым кодом, как ручных, так и автоматизированных.

- Optimus [1] библиотека для универсализации преобразования данных через Python, интегрированная с Pandas, Dusk и другими инструментами. Для тех кто выстраивает цепочки изменений на Python может быть очень удобна. Ни разу не пробовал, но выглядит любопытно.
- Glom [2] библиотека и инструмент на Python по работе с вложенными структурами. Позволяет делать выборки по словарям в Python, что особенно удобно при работе с данными со вложенными структурами, например, JSON и JSON lines файлам. От себя скажу что я вот про Glom не знал и в утилитах вроде undatum и внутри сборщика данных DataCrafter'а те же функции и логику приходилось реализовывать самостоятельно.
- OpenRefine [3] продукт для ручного преобразования и чистки данных, удобный, один из лучших способов чистить данные не покупая тяжелые решения. Умеет применять скрипты на Python и паре других языков к колонкам файлов.
- Apache Nifi [4] активно развивающийся low-code ETL с возможностью визуального проектирования пути обработки файлов и потоков. Nifi можно сравнить с другим проектом Apache, Airflow, но Airflow именно про оркестрацию потоков данных, а Nifi более похоже на классический ETL инструмент.
- Streamsets Data Collector [5] тоже ETL инструмент, похожий на Apache Nifi, подвид коммерческого облачного продукта и неизвестно сколько проживёт его open source версия. Например, CloverDX раньше тоже давали версию Community Edition своего продукта, а потом просто удалили её и всем сказали "идите в наше облако с 45 дневным триалом", а все пошли на другие open source ETL инструменты (ну не все, но многие). Тоже поддерживает преобразование данных и low-code интерфейс.

Ну а в реальной жизни на относительно небольших проектах, где нет нескольких разных команд стыкующихся между собой, чаще всего для преобразования данных используют:
- скрипты на Python и др. языках
- ручные преобразования через Jupiter Notebook и другие тетрадки
- встроенные механизмы: Javascript внутри MongoDB, Spark и др.
- корпоративные коммерческие ETL инструменты, если они ранее были закуплены

и тому подобное. Из того что я вижу в существующей экосистеме, это нехватка инструментов вроде dbt, но для NoSQL. Для NoSQL такое создать куда сложнее, нет одного протокола, стандарта формата, но сейчас получается что массовая популяризация dbt, а она реально как-то уж очень быстро идёт, оставляет NoSQL базы за пределами Modern Data Stack. То есть ELT инструментов для NoSQL баз нет, использовать то же MongoDB в качестве основаного Data warehouse (хранилища данных) можно только разрабатывая многое самостоятельно.

Поэтому рынок именно трансформации данных далеко не заполнен, а вот рынок извлечения данных и оркестрации кажется уже сильно переполненным.

Ссылки:
[1] https://hi-optimus.com/
[2] https://github.com/mahmoud/glom
[3] https://openrefine.org/
[4] https://nifi.apache.org/
[5] https://github.com/streamsets/datacollector-oss

#datatools #datatransformation #opensource
Список сайтов с бесплатным доступом появился на Госуслугах [1].

Пока скромно, нет даже сайта Пр-ва РФ.

Я правда так и не понял как предполагается указывать все зависимости сайта от CDN и хранилищ кода и контента. У Госуслуг - это gu-st.ru, а у сайта Пр-та это static.kremlin.ru.
У других сайтов их куда больше и много там разного.

Как это будут решать, каждый раз ручками вносить в каталог сайтов, сообщать провайдерам и тд?
Какова процедура, в общем?


Ссылки:
[1] https://freeinternet.gosuslugi.ru/

#internet #digital
Я каждый год подсчитываю и обновляю полуавтоматически цифры по числу постановлений и распоряжений Правительства РФ, они измеряют legislative burden, нормативную нагрузку. Неприятный факт - она растёт и усложняется. Каждый год приходится читать всё больше, старое не отменяется, нового всё больше. Поскольку читаю законов и других НПА я много, объективно с каждым годом делать это всё тяжелее. Заметно тяжелее. Вот некоторые цифры и выводы

В 2014 году было принято 1610 Постановлений Правительства РФ из которых 1498 были несекретными, около 93% всех постановлений. Общий объём принятых постановлений составил 18503 страницы.
В 2021 году было принято 2610 Постановлений Правительства РФ из которых 2397 были несекретными, около 91,8% всех постановлений. Общий объем принятых постановлений составил 34440 страниц.
Резкий рост начался ещё при Правительстве Медведева в 2019 году когда число Постановлений Правительства РФ достигло 1960 и их объём достиг 24844 страниц, далее в 2020 году 2469 постановления и 27430 страниц и за 2021 год я уже приводил.

В виде таблицы по Постановлениям Правительства РФ:

год число стр. макс н. доля несекретных
——- —— ——-- —— ————
2014 1498 18503 1610 93.0435
2015 1398 13351 1538 90.8973
2016 1450 12660 1593 91.0232
2017 1570 20011 1729 90.8039
2018 1601 17165 1788 89.5414
2019 1807 24844 1960 92.1939
2020 2284 27430 2469 92.5071
2021 2397 34440 2610 91.8391

В случае распоряжений Правительства РФ, их число снижалось с 2015 по 2018 годы и выросло с 2019 по 2021 год. Распоряжения редко содержат много текста, чаще это 1-2 страницы, хотя есть и распоряжение на 522 страницы: Распоряжение Правительства Российской Федерации от 28.11.2020 № 3143-р в виде перечня современных технологий для специальных инвестиционных контрактов. А также, что характерно, в 2021 году рекорд по доле секретных распоряжение Пр-ва, их доля достигла 24.5% то есть почти каждое 4-е распоряжение Пр-ва РФ было засекречено, всего 981 распоряжение, против 683 в прошлом году.

Аналогичная таблица для Распоряжений Правительства РФ
год число стр. макс н. доля несекретных
——- —— ——-- —— ————
2014 2235 10900 2796 79.9356
2015 2223 9819 2794 79.5634
2016 2240 8291 2935 76.3203
2017 2293 8754 3009 76.2047
2018 2402 8534 3053 78.6767
2019 2535 9424 3273 77.4519
2020 3039 10916 3722 81.6497
2021 3027 12034 4008 75.524

Все эти подсчеты на данных собранных с портала официального опубликования Pravo.gov.ru [1] за период 2013-2022 годы и загружаемых в проект DataCrafter [2] и подготавливаемых к архивации в рамках Национального цифрового архива.

Нормативная аналитика - это интересная задача и для этого мы накапливает наборы данных и практики их анализа.
Напишите если Вы хотите работать с этими данными уже прямо сейчас, датасеты из метаданных и документов будут общедоступны.

Ссылки:
[1] https://pravo.gov.ru
[2] https://data.apicrafter.ru

#opendata #data #statistics #legislation #legistationburden
Один важный и очевидный продукт за отсутствие которого можно и нужно критиковать Минцифры России, как и вообще критиковать чаще за то что _не делается_ чем то что делается, это отсутствие портала api.gov.ru. Кто-то скажет что есть СМЭВ, что делается НСУД, а по факту СМЭВ и НСУД для государственного внутреннего потребления с некоторым доступом крупному бизнесу.

В то время есть огромное число API которое торчит из госсайтов и официальных государственных информационных систем, чаще всего API недокументированного. Это создаёт проблемы при архивации госсайтов, потому что API не архивируются веб-краулерами, но даёт возможности по выгрузке данных. Для архивации в нацархив я сделал когда-то утилиту APIBackuper которая помогает превращать данные из API в наборы данных.

А примеры такого API собраны в коллекции документации на Postman [1] где можно найти примеры API на сайте Пр-ва Москвы, статистики госзакупок, сайте Госуслуг, портала Электронный бюджет, портала bus.gov.ru, портала pravo.gov.ru и так далее. Это примеры, а в реальности документированных и недокументированных API десятки.

Собственно я не раз уже писал что большой объём данных в DataCrafter'е выгружен через такие открытые API. Причём API нужны чаще бизнесу чем рядовым гражданам, но как-то вот нет ощущения что с доступность данных для бизнеса в повестке государства. Так что приходится собираться информацию самостоятельно, а на появление api.gov.ru пока не рассчитывать.

А вот у французов на api.gouv.fr уже собрано 112 государственных API [2] и они даже документированы и протестировать можно прямо на месте. То есть можно, если захотеть?

Ссылки:
[1] https://www.postman.com/infoculture/workspace/infoculture-public/documentation/1428203-a769e0a6-0cc9-4de4-bdcc-5f8a0fa06e36
[2] https://api.gouv.fr/rechercher-api

#openapi #opendata #government #api
Интересный свежий стартап с открытым кодом Jitsu [1] создают открытую и облачную альтернативу Segment, продукту по отслеживанию любого действия пользователя, сбора маркетинговых данных и т.д. У Jitsu достоинство в первую очередь в том что можно развернуть у себя бесплатную и открытую версию. Внутри всё на Javascript и на Go, на удивление нет нигде Python и SQL, даже преобразование данных и то на Javascript [2] хотя в облачную версию добавили интеграцию с dbt [3]

Другая особенность - обещают реальное время при сборе данных, в отличие от Segment которые, как указывается в сравнении на сайте Jitsu, грузят данные 6 часовыми батчами.

При этом многие (большая часть) источников данных подключаются через Airbyte [4] или по стандарту Singer [5], а то есть источников много по умолчанию.

У проекта основатели с российскими корнями, недавно они привлекли $2M венчурного финансирования и есть надежда что проект получит интересное развитие.

Ссылки:
[1] https://jitsu.com
[2] https://jitsu.com/docs/configuration/javascript-transform
[3] https://jitsu.com/docs/other-features/dbt-cloud-integration
[4] https://jitsu.com/docs/sources-configuration/airbyte
[5] https://jitsu.com/docs/sources-configuration/singer-taps

#datacollection #statups #dataextraction