Ivan Begtin
7.99K subscribers
1.77K photos
3 videos
101 files
4.49K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]
Download Telegram
Новости проекта на 5 апреля 2022 г.

- открыт обновлённый сайт Ruarxive.org. Сайт разработан на движке Docusaurus, он с открытым кодом, можно направлять ошибки/предложения через механизм issues в Github и участвовать в подготовке материалов гайдов
- начата архивационная кампания сайтов комитетов и комиссий Государственной Думы РФ: основание, новость о переходе сайтов на единый дизайн.
- начата архивационная кампания сайтов относящихся к популяризации науки таких как сайт Фонда Эволюция, сайт Комитета по лженауке при Президиуме РАН (klnran.ru), Думай Казань и др. Основание: заброшенность сайтов их создателями, отсутствие обновлений несколько лет. Нужна помощь в поиске подобных цифровых ресурсов/сайтов
- закончена архивация медиа: Кабельщик (cableman.ru), Новая Газета (novayagazeta.ru). Файлы архивов закачиваются в хранилище.
- продолжается архивация медиа The Bell
- из архива сайта Эха Москвы в 173GB, создана копия сайта только из HTML страниц размеров в 911МБ в сжатом виде, около 5ГБ в распакованном виде. Полезно для извлечения списка всех программ, извлечения расшифровки передач, извлечению иных текстов из архива сайта радиостанции.
- идёт работа по объединению медиа файлов из архива Эха Москвы собранных с CDN сервера и извлеченных из архива сайта и других источников и загрузке в облачное хранилище.
- завершено создание специализированной коллекции Эха Москвы в Интернет архиве. Доступно по прямой ссылке https://archive.org/details/echo-of-moscow

#news #digitalpreservation #webarchives
Как Вы знаете, мы, Инфокультура, не стали проводить день открытых данных в Москве (opendataday.ru) в начале марта 2022 года поскольку сочли это неуместным в текущей ситуации. Что мы можем делать сейчас для сохранения открытости данных в России?
Anonymous Poll
14%
Провести ОДД летом/осенью
9%
Провести небольшие семинары/лекции весной/летом.
18%
Сделать мини-конференцию на тему "Что дальше?"
12%
Открытости государственных данных в России более нет, говорить об этом уже не с кем.
47%
Сфокусироваться на архивации открытых данных, планировать что они могут исчезать.
Пора подводить итоги голосования. Всего проголосовало 326 человек, чуть меньше половины, 47% голосуют за то что архивация сейчас открытых данных сейчас самое важное. Далее 18% проголосовавших за то что надо делать мини-конференцию/мероприятие на тему "Что дальше?".

Всё идет к тому что это наиболее реалистичные действия в ближайшие месяцы, а может быть и год.

Другие подходы к работе над открытостью актуальность теряют.

Например, делать сейчас оценку открытости по стране в целом, регионам или ФОИВам бессмысленно. Во первых методики оценки открытости сейчас все нерелевантны, российские НПА всегда давали возможность формальной оценки по тому что там расписано, но это почти полностью административные данные не имеющие отношения ни к качеству жизни граждан, ни к экономическому эффекту открытия, ни к противодействию коррупции. Но даже эти данные сейчас будут исчезать, как сейчас исчезают данные по субсидиям, госконтрактам, иным данным которые раскрывались в рамках антикоррупционной повестки. Причём происходить это будет под лозунгом защиты органов власти, корпораций, компаний, отдельных лиц от санкций или хакеров. Примеров много, вот скажем исчезновение реестра ИТ компаний с сайта Минцифры РФ из этой категории событий.

Ходят слухи что Минэкомразвития РФ собирается делать доклад по открытости госсайтов. Так вот я сразу могу сказать что это бессмысленная работа. Во первых потому что я уже писал ранее что это измерение открытости административных, никому ненужных данных, а во вторых любые измерения и оценки степени соблюдения федерального законодательства - это не про рейтинги, а про передачу результатов такой оценки в органы прокуратуры которые за соблюдением законов надзирают. И, в третьих, органы власти, и я в этом многократно убедился, не должны оценивать другие органы власти. В лучшем случае должна быть независимая оценка.

Очень надеюсь что мои коллеги оставшиеся в Счетной палате это тоже понимают и не станут заниматься подготовкой доклада по открытости за прошлый год. Потому что выглядеть такая работа будет, мягко скажу, очень некрасиво в текущей общественной ситуации, не говоря уже о том что открытости власти - это инструмент поддержания/расширения доверия к власти, а в текущей ситуации, также скажу мягко, этот кризис доверия открытостью не преодолеть.

В любом случае в ближайшее время мы начнём тотальную архивацию всех порталов открытых данных и разделов открытых данных на сайтах госорганов РФ. Начиная с крупнейших и продолжая всеми остальными. Частично такие архивы уже делались, просто будет этому процессу системная работа придана. Подробности я напишу и они будут также в канале @ruarxive.

#opendata #russia #policy
В рубрике особо интересных больших наборов данных 165 терабайт данных переписи США 1950 года выложено национальными архивами США [1]. Мне трудно подобрать аналоги по масштабам, такие события редкость и сделано это было сразу после того как закончились 72 года сохранения конфиденциальности переписи. После чего все микрофильмы были оцифрованы (а может быть и раньше) и в 2022 году выложены в виде подобного проекта.

Сайт позволяет искать по сканам заполненных карточек переписи и, что особенно важно, все данные опубликованы как открытые данные. Набор данных включает все метаданные и все отсканированные на микрофильмах карточки [2], каждый имеет возможность скачать эти данные и осуществлять самостоятельный анализ и проводить исследования.

Надо отдать должное, в США не только довольно уважительное отношение к архивам, но и организована работа гражданских архивистов (citizen archivists) на специальном портале HistoryHub [3]. Гражданские архивисты - это люди помогающие архивным службам, создающие собственные архивные проекты.

Ссылки:
[1] https://1950census.archives.gov/
[2] https://www.archives.gov/developer/1950-census
[3] https://historyhub.history.gov

#opendata #datasets #history #digitalpreservation #usa
Data.world, стартап в виде каталога данных, подняли инвестиций на $50M [1]. Кроме общедоступного каталога они предоставляют и в основном зарабатывают на семантически связанных данных корпоративных каталогов данных. Интересная идея в сторону большего понимания того какими данными ты управляешь, но, конечно недешёвое. Хотя и инвестиции не так уж велики, но вполне ощутимы чтобы усилить конкуренцию между уже десятком корпоративных каталогов данных и решений с открытым кодом.

Ссылки:
[1] https://techcrunch.com/2022/04/05/data-world-raises-50m-to-help-enterprises-organize-and-track-their-data/

#opendata #datacatalogs #data #startups
В США The Aspen Institute совместно с The Gov Lab разработали модель/концепцию платформы открытых данных некоммерческого сектора, 990 Data platform [1] с рекомендацией её создания для IRS, налоговой службы США. Основная идея в том чтобы превратить текущие отчеты НКО заполняемые по "форме 990" в платформу на которой можно наглядно увидеть данные и скачать наборы данных.

Идей в документе много, в том числе обогащение данных о НКО сведениями о господдержке, грантах и иными данными из других государственных систем.

В США есть несколько коммерческих платформ решающих похожие задачи, из наиболее известных - GuideStar и Charity Navigator. При этом, конечно, потребность в открытом общедоступном ресурсе и открытых данных существует.

Когда-то, много лет назад, мы создали похожий продукт OpenNGO [2] в котором свели все доступные сведения о некоммерческих организациях. Он и сейчас доступен и регулярно обновляется, с теми лишь ограничениями которые вводятся в последние годы. Например, исчезают данные о учредителях НКО из ЕГРЮЛ, закрыты данных о государственных субсидиях (многие получатели НКО), сокращается раскрытие сведений о госконтрактах и ещё многое другое. Но проект никуда не исчез, он работает, доступен, открытые данные все также доступны в виде наборов данных.

О некоторых особенностях российского "рынка НКО" я писал в нескольких колонках в РБК:
- Незачет по НКО: чем плох реестр социально ориентированных НКО [3]
- Некоммерческий бюджет: как чиновники стали использовать НКО в своих целях [4]

Стала ли эта тема менее актуальной последние годы? Нет, не стала. Большая часть публичной аналитики и исследований НКО в России которые мне приходится читать, либо крайне сужены до очень узких тем, либо двуличны.
НКО в России можно разделить на условные 4 типа:
- госНКО - созданные Пр-вом, ФОИВами, иными органами власти и "накачанные финансированием", из совокупный ежегодный доход превышает доход всего остального некоммерческого сектора. Сюда можно отнести крупнейшие GONGO (government oriented NGO) созданные, как бы физлицами, но приближенных к лицам принимающим решения и это НКО существующие почти на 100% за счёт госсубсидий или "невыплаченных налогов", финансирования от коммерческих или госкомпаний которое поступает от их политических обязательств, а не добровольных решений.
- коммерческие НКО - коммерческие организации, созданные в форме НКО из-за требований законодательства, как правило. Пример: коммерческие университеты или некоторые частные учреждения, туда же попадают адвокатские палаты и тд.
- регулируемые НКО - существующие в такой форме объединения, в силу их изначальной природы, и институционализированные в такой форме. Религиозные организации, политические партии и тд.
- инициативно созданные - это как раз те некоммерческие организации которые создают в форме некоммерческих именно потому что хотят вести некоммерческую деятельность.

Это основная классификация, остальное можно считать дополнением. Российская особенность в том что блок госНКО минимален по числу организаций и максимален по доходу. Но речь тут конечно не только о деньгах.

Ссылки:
[1] https://www.aspeninstitute.org/wp-content/uploads/files/content/docs/pubs/Information_for_Impact_Report_FINAL_REPORT_9-26-13.pdf
[2] https://openngo.ru
[3] https://www.rbc.ru/opinions/society/17/06/2020/5ee8ce139a79479edce77585
[4] https://www.rbc.ru/opinions/politics/13/03/2020/5e69e70a9a7947737fc79cf3

#ngo #opendata #data
В Nature статья Time to recognize authorship of open data [1], о сложностях сочетания научной работы и открытости данных по причине необходимости распространения данных под свободными лицензиями не предполагающими авторства.

Ответов статья не даёт, скорее задаёт правильный вопрос - как совместить необходимость упоминания вклада исследователей и открытость научных данных по принципам FAIR. По сути эта статья - это приглашение к дискуссии на эту тему.

Ссылки:
[1] https://www.nature.com/articles/d41586-022-00921-x

#opendata #openaccess #openscience #FAIR
В Science вышла статья о "фабрике публикаций" [1], компании International Publisher, предлагающей учёным становится соавторами научных публикаций за деньги. В статье упоминается также происхождение сайта, его руководителя и сам сайт с таким предложением. Исследователь, Анна Абалкина провелֆ детальный анализ связываясь с учёными, компанией, представителями научных журналов и, собственно, итоги этого исследования/расследования запечатлены в статье в Science.

Ранее другая команда проводила похожий анализ [2] в отношении этого же сайта и компании и собрала большой набор данных [3], как раз для тех кто интересуется темой paper mills, такой набор данных будет интересен.

Ссылки:
[1] https://www.science.org/content/article/russian-website-peddles-authorships-linked-reputable-journals
[2] https://retractionwatch.com/2021/12/20/revealed-the-inner-workings-of-a-paper-mill/
[3] https://data.world/beperron/international-publisher

#dataset #science #data #research #investigations
Мы, Инфокультура, запускаем кампанию по архивации сайтов порталов открытых данных, разделов с открытыми данными и иных источников официальных государственных открытых данных в России. Поскольку есть реальные риски снижения открытости гос-ва, уже происходящее исчезновение ряда информационных ресурсов и порталов открытых данных, например, в прошлом году был закрыт портал открытых данных Московской области, была попытка отказаться от портала открытых данных властями Санкт-Петербурга, а также исчезновение ряда значимых банков данных таких как реестр субсидий и многое другое.

Для архивации составлен список порталов открытых данных на основе каталога Datacatalogs.ru - https://airtable.com/shr1rzsajTM5SSyoI

А также репозиторий в Github https://github.com/ruarxive/rudatarchive

Слепки некоторых порталов были ранее сделаны:
- портал открытых данных data.gov.ru в феврале 2022 г. - https://cdn.ruarxive.org/public/dataportals/data.gov.ru/2022-02-02/datagovru_20220202.zip
- региональные порталы открытых данных 2017 года https://cdn.ruarxive.org/public/webcollect/opengov2017/

Архивация порталов открытых данных может быть сделана в виде сохранения WARC файлов, через выгрузку метаданных и данных в виде файлов, через выкачку API. Можно делать любым способом, главное обеспечить полное сохранение.

Код выгрузки из порталов data.gov.ru и data.mos.ru есть у нас в проекте DataCrafter, его и слепки, я опубликую для этой архивационной кампании. А вот для остальных порталов нужна помощь волонтеров. Поэтому если у Вас есть свободное время, берите на себя отдельные сайты, напишите скрипт/код под отдельные порталы, выкачивайте их и выкладывайте в какой-либо доступный источник, например, в Github или файловое хранилище. Мы перенесем архив в центральное хранилище на нашем сервере и в Интернет-архив.

Код можно опубликовать у себя в репозитории или сразу в https://github.com/ruarxive/rudatarchive/code в папку конкретного портала.

#opendata #data #archives #digitalpreservation
Неплохой обзор развёртывания ArangoDB [1], альтернативы MongoDB. Альтернативы, в целом, неплохой, но не то чтобы "вау, надо быстро всё заменять".

Как и MongoDB в ArangoDB есть поддержка JSON и загрузка JSON и JSON lines файлов, как и MongoDB в ArangoDB свой формат бинарной сериализации, VelocityPack (в MongoDB - это BSON). Но есть и куча нюансов, для меня лично одним из важнейших был то что в ArangoDB отсутствует тип данных "дата и время", вместо этого дата хранится как в JSON, в виде строки, а в языке запросов предусмотрены функции работы с ней. Лично по мне - это сомнительный подход, обойти это можно, но надо прикладывать лишние усилия. Хорошо бы упростить миграцию с MongoDB на ArangoDB.

С другой стороны, ArangoDB куда больше постепенно внедряется в data science и modern data stack. Там есть ArangoML [2], metadata store и многое другое. Плюс у них лицензия кода Apache 2.0, а не SSPL как у MongoDB.

Так что публикации про ArangoDB читать интересно и полезно, экспериментировать с ним стоит.

Ссылки:
[1] https://ericfossas.medium.com/the-best-nosql-database-for-kubernetes-fd920003e1ad
[2] https://www.arangodb.com/machine-learning/

#datatools #opensource #software #reading
Давно хочу поделиться наблюдением что практически у большинства тех кого я знаю из лиц принимающих решения и распоряжающиеся бюджетами, личными или государственными, есть какой-то устойчивый стыд современности. Не свежей, возникшей в этом году, а продолжающееся уже не одно десятилетие. У них практически полностью отсутствует ощущение что вокруг создаётся хоть что-то что должно быть сохранено для следующих поколений, столетий, общем, будущего.

Поэтому в течение этих лет мне, например, удавалось находить средства на проекты про "общественную ценность здесь и сейчас", но во всём что касалось сохранения современного культурного наследия, искусства, цифровых ресурсов всегда было полное непонимание кому и зачем это нужно.
Это касается и культурной сферы, публичная и финансируемая часть которая почти на 99% живёт прошлым, и архивной сферы которая живёт не просто прошлым, а это эдакий "концлагерь истории", выпускающий из своих недр по чуть-чуть исторической реальности.

Даже сейчас, когда на фоне первого, но не последнего цифрового цунами, из-за которого информационное пространство в России сильно сжимается, есть низовой запрос от реальных пострадавших от потери знаний и данных людей и отсутствует аналогичный запрос от тех кто принимает решения.
Почему так? Пока у меня ответ только через стыд. Большая часть элиты испытывает эпохальный стыд, не в смысле масштабов, а в смысле эпохи в которой, видимо, по их мнению не происходит ничего значимого.

#thoughts
Graphana Labs, разработчики продуктов с открытым кодом и облачного сервиса по мониторингу всякого, в основном связанного с DevOps привлекли $240 миллионов инвестиций [1]. Причём их хотя и можно отнести к DevOps, но у них в интеграциях заложено, например, подключение к Snowflake, и продукт позиционируется всё больше как observability platform, а тут естественное развитие в сторону интеграции в modern data stack.


Ссылки:
[1] https://grafana.com/about/press/2022/04/06/grafana-labs-announces-240-million-investment-round-led-by-gic-and-welcomes-new-investor-j.p.-morgan/

#data #startups #devops #moderndatastack
У Bena Stancil'а очередной замечательный текст про то как устроен рынок стартапов в областях data analytics и не только. В The end of Big Data [1] он пишет о том что Databricks в текущем виде - это раздутый пузырь и что главная ценность продуктов в области больших данных - это снимать головную боль у тех кто ими пользуется. У него в тексте хороший пример про "скучную" презентацию Snowflake которые без какого-либо глянца просто позиционировали свой продут как "Redshift только быстрее и лучше" и "Postgres только быстрее и лучше" и это работало и работает лучше чем лощёные слайды со стоковыми фотографиями.

Ben пишет ещё один важный момент что ключевые рыночные преимущества у онлайн хранилищ в том что они: а) Бесконечны б) Легко масштабируются. Если создаётся продукт не обладающий этими качествами, то на рынке ему уже места не найдётся.

Чтение интересное, всяческие рекомендую.

Ссылки:
[1] https://benn.substack.com/p/the-end-of-big-data

#data #startups #readings
Коротко по прогрессу архивации порталов открытых данных:
- систематизированы архивы data.gov.ru, data.mos.ru, opendata.mkrf.ru, раздел открытых данных Росстата (rosstat.gov.ru/opendata)
- готов архив fedstat.ru (спасибо Павлу Шувалову за помощь

Подробнее:
- репозиторий с с кодом https://github.com/ruarxive/rudatarchive
- список сохранённого и запланированного https://airtable.com/shr1rzsajTM5SSyoI

Для каких-то порталов есть готовый код который загружен в репозиторий, в нескольких случаях вроде data.mos.ru код у нас довольно глубоко закопан в APICrafter, думаю как его отделить потому что если опубликовать как есть, то без основного движка продукта его не запустить.

Как помочь? Выбрать портал открытых данных или соответствующий раздел из списка и написать скрипт который соберет все метаданные и все данные, насколько возможно полно. Например, по data.mos.ru пришлось сохранять метаданные из API, веб страницы, файлы и выгрузки дампов потому что там у них сложный движок с данными созданными в разных подходах. Но, чаще всего, выгружать данные проще, просто надо писать скрипты под каждый портал по отдельности или использовать только веб-архивацию.

Напомню что кампания по архивации порталов открытых данных начата для сохранения общедоступных открытых данных для всех пользователей. Все собираемые данные будут доступны на сайте проекта Ruarxive.org, ,а также будут дублироваться в Интернет архиве и подготовлены для долгосрочного сохранения.

Больше про архивационные кампании будет на канале @ruarxive.

#opendata #datasets #dataportals #russia #archives #digitalpreservation
В рубрике интересных продуктов для работы с данными Rising Wave [1] cloud-native streaming database that uses SQL as the interface. Иначе говоря свежая PostgreSQL совместимая СУБД заточенная под сбор данных из потоков данных создаваемых Apache Kafka, Redpanda, Pulsar, Kinesis, MySQL CDC, Postgres CDC. Главный плюс - открытый код. Разработчики - свежий стартап Singularity Data [2] явно ориентируются на развитие облачного продукта.

В общем и целом интересный продукт, стоит к нему присмотреться как он будет развиваться и насколько будет более продвинутым чем его аналоги.

Ссылки:
[1] https://www.risingwave.dev
[2] https://singularity-data.com/

#startups #datatools #streamingdata
Есть вопрос к залу (с) А знаете ли Вы решения с открытым кодом для создания личных кабинетов пользователей? Вот, к примеру, хочу я сделать приложение в котором есть несколько тарифов, бесплатный и несколько других, какие доп функции и тд. При этом это не мобильное приложение, а именно веб как основное. А может быть у меня таких приложений не одно, не два и не не три, а даже больше. Кажется странным каждый раз создавать личный кабинет под каждый, кажется логичным повторно использовать код или отделить интерфейс оплаты от функционального. Личный кабинет требует поддержки всех функций авторизации, регистрации, восстановления доступа. Поддержки нескольких вариантов тарифов (настраиваемо), API для взаимодействия с основным, функциональным приложением, может ещё что-то достаточно простое.

Ключевой вопрос - бывает ли такое с открытым кодом ? Может быть допиливаемое за деньги, может быть с чьим-то сопровождением, но именно не облачное, не enterprise вариант, а открытый код с возможностью его доработки. Мне вот оно что-то не встречалось и это несколько удивляет. Но может быть я не там и не правильно ищу?

#questions #apps #opensource
Инструменты для цифровых архивистов. Определение типа файлов

При цифровой архивации, особенно данных и материалов которым много лет, очень часто возникают задачи понимания тех файлов и форматов которые изначально использовались. Без этого невозможно понять как воспроизводить такие архивные файлы, нужно ли их преобразовывать, существуют ли ещё поддерживающие их программные продукты.

Цифровые архивисты используют и создают инструменты для решения этой задачи .

- PRONOM - база форматов файлов от Национальных архивов Великобритании. Распространяются как открытые данные, используются многими инструментами
- DROID (Digital Record and Object Identification) - также утилита от Национальных архивов Великобритании по идентификации типов файлов
- Apache Tika - утилита и библиотека кода на языке Java для определения типов файлов и извлечения данных из определяемых типов файлов, например, файлов MS Office.
- Siegfried - утилита командной строки идентифицирующая типы файлов на основании базы сигнатур PRONOM и других источников
- TrID - утилита идентификации форматов файлов, бесплатна для частного использования
- NARA File Analyzer and Metadata Harvester - утилита анализа форматов и сбора метаданных от Национальных архивов США. Не обновлялась уже 6 лет.

Существует множество других инструментов для цифровых архивов, мы будем делать регулярные обзоры инструментов разной сложности и под разные задачи.

#tools #digitalpreservation #fileidentification
Я только было хотел написать, но ребята с @roskomsvoboda опередили. Да, я считаю крайне ошибочно скрывать данные ради защиты от DDoS атак. Открытых данных должно быть больше, а не меньше
Forwarded from Roskomsvoboda
Сайт «Госзакупок» делают устойчивее к кибератакам

Центр по обеспечению деятельности Казначейства России выложил на портале госзакупок два тендера общей стоимостью более 1 млрд рублей.

В рамках одного из тендеров предпогалается оказание услуг по усилению защищенности портала госзакупок от DDoS-атак. При этом директор «Информационной культуры» Иван Бегтин @begtin считает, что для этого не обязательно тратить многомилионные суммы, а достаточно просто закрыть ресурс от зарубежных IP-адресов:

➡️ https://roskomsvoboda.org/post/goszakupki-mogut-zakryt/
В качестве небольшого оффтопика, не про ИТ, но про Минцифру.
Я долго думал какой комментарий подобрать этой новости.
Не придумал. Как прокомментировать коротко и ёмко?

https://digital.gov.ru/ru/documents/8187/

#digital #writers