Ivan Begtin
7.99K subscribers
1.77K photos
3 videos
101 files
4.49K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]
Download Telegram
В рубрике интересных наборов данных Github опубликовали их базу GitHub Advisory Database [1] уведомлений о проблемах в безопасности в open source продуктах. База невелика, зато полезна и открыта. Данные публикуются в Open Source Vulnerability format [2].

Ссылки:
[1] https://github.com/github/advisory-database
[2] https://ossf.github.io/osv-schema/

#opendata #opensource #security #datasets
В рубрике полезных инструментов для работы с данными несколько обновлений
- spcrawler [1] утилита командной строки для выгрузки данных и файлов из открытых сайтов Sharepoint к которой я наконец-то нашёл время дописать документацию и выложил как открытый код. Предистория: в открытом доступе много сайтов на Sharepoint, некоторые государственные системы/сайты тоже сделаны нём. Эта утилита выгружает все данные доступные через API "/_api/web" для тех случаев когда такое API есть. Похоже на другую утилиту wparc - по архивации данных через API Wordpress, которую я ранее выкладывал.
- у утилиты undatum появилась команда query использующая mistql как язык запросов. Удобно при необходимости потоковой фильтрации данных при работе с JSON lines. Пока в экспериментальном режиме, функции незавершённые. Одна из идей в том чтобы реализовать полноценную команду запросов на многих языках, не только mistql, но и dictquery и ещё нескольких вариантах.
- у меня в планах написать гайд по apibackuper, утилите по архивации данных внутри API. Очень много примеров API по России и оказывается мало по миру, не могу быстро найти зарубежные недокументированные API.
- добавлены новые общедоступные правила к утилите идентфикации типов данных metacrafter, добавлены правила: intcodes.yaml - международные коды, boolean.yaml - булевые значения, orgs.yaml - организации, science.yaml - научные идентификаторы, vehicles.yaml - автомобили. Все они в категории common в репозитории. Напомню, что утилита является открытой и общедоступной как и базовые правила, а у нас внутри проходит бета тестирование сервис с расширенными правилами. Желающие могут использовать открытый код и сами писать правила под свои данные или привлечь нашу команду и мы применим расширенный свод правил + напишем под Ваши данные.

В ближайших планах собрать вместе открытый код + наработки по APICrafter'у и Datacrafter՛у и собрать продукт + сервис на международную и русскоязычную аудитории.

Ссылки:
[1] https://github.com/ruarxive/spcrawler

#opensource #tools #data
Вот уже немало пересмотрев продуктов с открытым кодом для работы с данными и не только с данными могу сказать что два важнейших недооцениваемых компонента успеха у многих из них - это документация и сообщество. Недооцениваемых потому что многие из нас, людей из ИТ, любим технологическую красоту и преимущества создаваемых продуктов и не понимаем до конца тех кто продуктами пользуются.

В части документации хороший пример в виде The documentation system компании Divio. Это стандарт, которому можно придерживаться при создании любого проекта.

А в части сообщества хороший пример Dbt с сообществом в 25+ тысяч человек в Slack, у многих других продуктов похожие большие сообщества в Slack или в Discord. Чаще всего - это сотни и тысячи активных пользователей. Важная особенность - это пассионарность сообществ, потому что есть сообщества в том же Slack с большим числом участников и минимальной активностью, а в данном случае через сообщества идет бета тестирование, проверка фич и сбор ключевых идей.

Я склоняюсь к мысли что это такой подход правильный. Даже если ты делаешь продукт не сильно лучше чем у всех, хорошая документация и сообщество помогают его внедрение.

#opensource #datatools #thoughts
В блоге Data in government [1] Правительства Великобритании текст Using a federated model for API discovery in government [2] про их централизованный каталог API [3]. Я хотел написать об этом ещё в феврале, но вначале отложил, а потом просто подзабыл про это. Текст интересный, собственно о том как должна быть устроена система работы API современного государства.

В корне идея того что каталог API делается централизованным, но для того чтобы сделать его просто создается манифест, машиночитаемое описание, владельцами API которое агрегируется централизованно. В UK для этого сделали специальную схему агрегации [4]

Там же в Великобритании государственная система дизайна (GOV.UK Government design system) официально прошла приёмку и стала живой госуслугой [5]. Для тех кто не знает, в Великобритании, как и в США, как и Сингапуре, как и ещё в десятке стран есть утвержденный стандарт создания госсайтов. Он необязателен, но настоятельно рекомендуемый. Особенность всех дизайн систем в их полной открытости - это открытый код под свободными лицензиями, бесплатные и открытые шрифты и открытые графические элементы. О том почему этого нет в России в этот раз я писать не буду.

Там же в блогах Правительства UK о том как их Charity Commission собирает данные о благотворительных организациях [6], фактически предлагают организациям выступать в роли бета-тестеров и фокус групп.

В целом блоги gov.uk [7] - это такое уникальное явление в госуправлении когда от лица органов власти идёт постоянная коммуникация, ведут их госслужащие которым не запрещено, а наоборот поощряется писать о своей работе и вовлекать тех кто от их работы зависит в разные формы обратной связи.

Ссылки:
[1] https://dataingovernment.blog.gov.uk
[2] https://dataingovernment.blog.gov.uk/2022/02/18/using-a-federated-model-for-api-discovery-in-government/
[3] https://www.api.gov.uk/#uk-public-sector-apis
[4] https://github.com/co-cddo/federated-api-model/tree/main/schemas/v1alpha
[5] https://gds.blog.gov.uk/2022/03/31/the-gov-uk-design-system-is-now-live/
[6] https://charitycommission.blog.gov.uk/2022/04/05/help-us-gather-better-data-on-charities/
[7] https://blog.gov.uk

#blogs #uk #data #government #bestpractices
Тут прошла свежая новость что Минцифры прорабатывают создание типовых решений для ВУЗов, вот ТАСС цитирует Олега Качанова, зам. министра цифрового развития.

"Минцифры прорабатывает возможность создания облачного решения для вузов, которое обеспечит типовые сервисы" [1].
А также По словам замминистра, эта разработка будет продолжением, в частности, сервиса приема, ведения реестра студентов и электронной зачетки.

Олега я знаю много лет, он несомненно один из наиболее деятельных зам. министров по цифре которые у нас в стране есть, так что не могу о нём сказать ничего плохого. А вот он про меня, наверняка может, учитывая как часто я кидаю критику про разные министерствами всякое.

Но вот тут я не могу не прокомментировать, потому что надо понимать что происходит. В России в госуправлении вот уже лет 15 примерно был и остаётся тренд на рост ИТ расходов у ФОИВов и ограничения в ИТ расходах у регионов и подведов. Начиная с косвенных механизмов бюджетного регулирования, продолжая прямыми механизмами привязки субсидий регионам конкретными задачами и конкурсы на раздачу регионам денег из фед. бюджета. И заканчивая, это ключевое, созданием монструозных ФГИСов используемых всеми (ГИС Торги, ЕИС Закупки и ещё много чего).

В случае бюджетных учреждений такой тренд был в отношении больниц, постепенно нарастал в отношении школ, пока в виде централизованных региональных систем, а вот университеты обходил стороной во первых поскольку даже у госуниверситетов есть своя худо-бедно-плохая, но автономия, а во вторых обычно ВУЗы существовали только в парадигме ведомственной отчетности.

А всё началось с сервиса приёма в ВУЗы на госуслугах, а потом "коготок увяз", резкого сопротивления ВУЗы отказали, постепенно часть их инфраструктуры будет связана или находится внутри госуслуг. А это неизбежно приведет к реструктуризации их ИТ бюджетов. Подрядчик по этим работам типовых сервисов получит сильное влияние на ВУЗовскую информатизацию и, при настойчивости, может стать маркет-мейкером в этой области.

Хорошо это или плохо? А вот решайте сами.

Ссылки:
[1] https://tass.ru/ekonomika/14439457

#government #policy #digital #education
Кстати, очень серьезный вопрос.

Я вот всё не могу понять феномена Телеграма сейчас. Почему он и в России не забанен, и Дуров не под санкциями? Тут же всех видов пропаганды в достатке. А нейтральными сейчас не позволяют быть никому. А еще тут российские госорганы обжились словно навсегда, каналов и чатов насоздавали, перестали Телеграм импортозамещать.

Когда будет разоблачение и что в нем будет?

#telegram
В WSJ статья Russia Blocks Economic Data, Hiding Effect of Western Sanctions [1] собственно о тренде на закрытие экономических данных в России. О том же писали Reuters [2] и ряд других новостных агентств и изданий [3] [4].

Этот тренд будет усиливаться по мере появления новых публикаций о экономическом состоянии из непрямых источников, а они есть, их много, их, скорее всего, сейчас будут ограничивать и скрывать. Что именно ещё будут закрывать я прогнозировать/подсказывать совершенно точно не имею желания, но, конечно, всё это будет небезболезненно для всего российского информационного бизнеса сбора и предоставления данных.

Ссылки:
[1] https://www.wsj.com/articles/russia-blocks-economic-data-hiding-effect-of-western-sanctions-11650677765
[2] https://www.reuters.com/article/ukraine-crisis-russia-imports-idUSKCN2MD1T7
[3] https://thebarentsobserver.com/en/industry-and-energy/2022/04/russia-classifies-customs-data-sanctions-bite
[4] https://www.themoscowtimes.com/2022/04/22/russia-classifies-customs-data-as-sanctions-expected-to-bite-a77457

#opendata #economics #closedgovernment
РБК пишут про законопроект по "регулированию иностранных агентов" [1]. Не надо быть гадалкой чтобы понимать что под этот закон могут подпасть буквально все кто ведет хоть какую-то осмысленную публичную деятельность. Даже не обязательно теперь получение иностранных средств, может быть влияние в иной форме. Вот к примеру, входит кто-то в профессиональное глобальное объединение выступающие с мирных позиций, так что теперь его российские члены могут быть инагентами?

К примеру, вхожу я в сообщество Clarity International [2] посвящённое продвижению идей простоты языка в юридическом и государственном применении, плачу членские взносы, получаю ежеквартально их журнал с рассказами о том как развивается простота языка в разных странах. Можно сказать что она меня они оказывают влияние? Денег то я оттуда не получал и не получаю, наоборот свои плачу. Или вот я поучаствовал в конференции ООН по противодействию коррупции. Можно сказать что на меня оказывает влияние ООН ? Мой пример не единичный, как раз наоборот, очень распространённый.

Дело в том что всё будет как решит Минюст РФ и ещё ряд органов власти. Фактически будет ещё более избирательное, но массовое, применение закона против "неугодных и непослушных".

При этом, большинство тех кто ранее под это регулирование подпали уехали из страны, тех кого будут вносить сейчас поедут в след за ними. Начнут с неугодных, продолжат теми у кого будут деньги и возможность откупиться. Потому что не бывает регуляторной нормы без коррупции, особенно нормы столь нечёткой и расплывчатой в применении.

Я для себя лично давно решил что единственной причиной мне либо уезжать из страны и даже из Москвы надолго - это медицинские показания. Каждую весну жду с замиранием, вот уже апрель месяц, а аллергический сезон ещё не наступил. Некоторые цветущие деревья в средней полосе России меня лично тревожат куда больше чем новые законы, но, я ещё раз подчеркну, все усилия министерств вроде Минцифры РФ по удержанию ИТшников будут превращаться в тыкву общим ухудшением среды обитания. А такие законы вроде возможности признания инагентами когда угодно и кого угодно - это прямое ухудшение.

Ссылки:
[1] https://www.rbc.ru/politics/25/04/2022/6262eed69a79472666361d78
[2] https://www.clarity-international.org/

#foreignagents #government #idioten #russia
Полезное чтение про данные и не только:
- Windows 11 is officially a failure [1] о том что Windows 11 не так привлекательна как ожидалось. Честно говоря не удивительно, я лично до сих пор не могу понять зачем мигрировать с Windows 10 на Windows 11.
- 10 Books Every Senior Engineer Should Read [2] обзор книг по программной инженерии, ничего особенного, просто полезная подборка, одна из многих
- Kubit привлекли $18M [3] инвестиций, это решение по продуктовой аналитики поверх data warehouse
- JQ, Grep for JSON: Cookbook I [4] гайд по утилите JQ для работы с json файлами. Лично по мне очень неудобная утилита, но кому-то нравится

P.S. Я тут готовя одну из публичных лекций неожиданно столкнулся с тем что практически нет гайдов и сравнений по инструментам для data wrangling. Как минимум это - Excel, OpenRefine, pandas в Jupyter Notebook и коммерческие вроде Trifacta, но какого-то качественного анализа и сравнения нет.

P.S.S. А ещё удивительное дело, но никто не додумался до headless data wrangling, может потому что это нерационально, а может потому что такая комбинация кажется слишком странной.

Ссылки:
[1] https://medium.com/geekculture/windows-11-is-officially-a-failure-141c4027a308
[2] https://semaphoreci.medium.com/10-books-every-senior-engineer-should-read-a61c1917e2a7
[3] https://www.kubit.ai/
[4] https://medium.com/data-science-deep-dive/jq-grep-for-json-cookbook-i-4a1d78a227e5

#data #readings #texts
Одна из интересных ниш для стартапов сейчас - это использование ИИ для сокращения объёмов хранения данных и повышения эффективности хранилищ. Стартап Densify [1] позволяет провести такую оптимизацию с обещанием сокращения расходов на хранение в облаках до 80%. Другой стартап Cast AI [2] помогает оптимизировать облачную инфраструктуру на AWS, Azure или GCP.

Другой взгляд на эту же проблему и тоже через ИИ - это стартапы по созданию алгоритмов сжатия изображений, также, с ИИ. Vance AI [3] и Compression AI [4] декларируют сжатие изображение лучше всех остальных алгоритмов. Сжатие, конечно, всегда с потерями (lossy compression), но визуально это незаметно.

Есть похожие проекты для видео, также повышающие качество сжатия.

В ситуации когда, например, в России ожидается дефицит систем хранения и растёт цена за облачное хранение файлов такие алгоритмы и подходы будут как никогда кстати.

Ссылки:
[1] https://venturebeat.com/2018/03/06/densify-uses-ai-to-cut-businesses-cloud-spending-by-up-to-80/
[2] https://venturebeat.com/2021/10/12/cloud-optimization-startup-cast-ai-raises-10m/
[3] https://vanceai.com/image-compressor/
[4] https://compression.ai/

#ai #data #startups #compression
Около 5 лет назад мы с коллегой шутили придумывая реформы государственного управления.

Там было много прорывных идей, например:
- Государственная программа рытья особого пути России к центру Земли.
- Легализация института проституции (в том числе политической), включая создание нормативно-правовой и регулятор институциональной основы
- Переподчинение государственных ВУЗов Министерству обороны
- Переодеть всю полицию в оранжевую форму

И, конечно, там был такой пункт как Государственная программа поддержки церковных и тюремных малых инновационных компаний и стартапов.

К счастью, эти гениальные идеи не покидали предела специально отведенных документов.

Поэтому даже не могу описать свои чувства когда сейчас читаю что ФСИН намерена привлекать осужденных IT-специалистов к удаленной работе на бизнес [1] о чём нам пишет ТАСС.

Для полного счастья нехватает только квот по посадкам ИТшников, государственной программы "Шарашки 2.0" и тому подобного.

Как я уже говорил многие позитивные инициативы Минцифры РФ для ИТ отрасли могут превратиться в тыкву, потому что Минцифра не Правительство РФ, а в Правительстве РФ, видимо, считают такие инициативы ФСИН нормальными и допустимыми.

Ссылки:
[1] https://tass.ru/obschestvo/14489179

#russia #it #policy #regulation
Обратите внимание, на 19 мая мы планируем в России провести конференцию по цифровой архивации - веб-архивы, архивы соцсетей и так далее. Я писал об этом ранее и подробности в канале @ruarxive. Будет две дискуссии - по сохранению цифровой культуры и по сохранению цифровых СМИ. А также будет столько докладов по 20 минут сколько мы сможем вместить.

Во первых, приглашаю послушать, зарегистрируйтесь на сайте.
Во вторых, если Вам есть что сказать то предложите доклад. Тайминг 20 минут, из которых 15 минут доклад + 5 минут ответов на вопросы. Пишите мне или по контактам на сайте.

От Инфокультуры (@infoculture) мы расскажем про национальный цифровой архив и наши инициативы архивации. Также я расскажу про 1-2 инструмента архивации которые ранее выкладывал в открытый доступ.

Ещё мы очень хотели позвать иностранных спикеров, но, с этим есть сложности сейчас, поэтому если не получится, то обязательно сделаем это к следующему мероприятию.

Программа очень скоро будет доступна, следите за новостями!

#digitalpreservation #webarchives
Приглашаем вас на конференцию по вопросам цифрового сохранения и веб-архивирования (conference.ruarxive.org).

В программе:
— Дискуссии на темы сохранения культурного сохранения и медиа.
— Серия коротких докладов о технических аспектах цифровой архивации.

Мы собираем программу. Если вы хотите принять участие в конференции, предложить тему, доклад и себя в качестве спикера, пишите нам на эл. почту [email protected].

Для кого
— Конференция практико-ориентирована и будет интересна профессионалам из области архивации, сохранения и исследований культурного наследия.
— В то же время в программе предусмотрены технические доклады, которые будут интересны активистам, волонтерам и другим энтузиастам — создателям цифровых копий и слепков контента и данных, чье участие в сохранении цифрового контента крайне важно.

Формат
Конференция состоится в гибридном формате, то есть можно прийти на конференцию лично, посетив площадку в Москве, или подключиться к онлайн-трансляции.

➡️ Подробности и регистрация
Очень интересный инструмент, проект и подход Zed [1] как сами создатели его описывают это Zed offers a new approach to data that makes it easier to manipulate and manage your data. А по сути команда компании Brim Data [2] разработали собственную модель данных [3] и, в привязке к ней, форматы файлов ZNG, ZST, ZSON, ZJSON которые, как они обещают, дают лучше скорость обработки данных, лучше хранят данные и так далее.

Я, как удачно, прямо сейчас занимался систематизацией кода DataCrafter'а с выделением в открытый код сборщика и преобразователя данных. И вот тут Zed кажется инструментом чрезвычайно подходящим для применения, но вначале его надо тщательно протестировать.

Ссылки:
[1] https://zed.brimdata.io
[2] https://www.brimdata.io/
[3] https://zed.brimdata.io/docs/formats/zed/

#data #datatools #opensource
Интересное чтение про обработку 22GB CSV файла с транзакциями с помощью Pandas [1] и к нему же в дополнение аналогичная задача решаемая с помощью движка Deephaven [2], автор декларирует 60-кратное ускорение её выполнения через преобразование данных в формат Parquet.

Интересно было бы увидеть и сравнение с другими инструментами, например, с тем же Zed [3], но общая мысль такова что надо использовать правильные инструменты для разных задач.

По своему опыту могу сказать что для задач дата-инженерии Pandas так себе инструмент, скорее узнаваемый, но не самый быстрый и для задач обработки больших данных есть другие подходы.

Идеальный сценарий при неограниченных ресурсах - это ELT подход, когда вначале тот же CSV файл загружается в базу первичных данных и далее уже с данными внутри СУБД делаются все необходимые манипуляции, например, через dbt.

Сценарии при неограниченных ресурсах начинаются с ревизии того где находятся наибольшие ограничения: процессор, память, дисковое хранилище и тд.

Например, в задачах обработки данных где есть построчная изоляция преобразования, а то есть результат преобразования зависит только от содержания данных в одно записи, и не зависит от других записей, самым очевидным оказывается разделение набора данных на потоковые батчи и обработка в n-ное число потоков или процессов.

Другой путь в преобразовании изначальных данных из CSV в форматы более пригодные для обработки, такие как тот же Parquet, собственно об этом и пишут в блоге Deephaven. Есть и много других способов, подходов, трюков.

Что я могу сказать, так то что многие задачи решаются не теми инструментами которыми пользуются каждый день. Например, обработка CSV файлов с помощью Pandas может оказаться куда медленнее чем с помощью консольных утилит вроде csvkit [4], xsv [5] и аналогов. Я когда-то специально для себя делал инструментарий и выносил его в открытый код в утилиту undatum [4] который умел разрезать на куски JSONlines и BSON файлы и, в добавок, поддерживал CSV файлы тоже. Это тоже частая задача, которую пытаются решать инструментами вроде Pandas.

Чего не хватает в индустрии дата-инженерии - это большого числа соревнований по преобразованию данных по аналогии с Global Data Compression Competition 2021[7]. Когда есть типовые требования к окружению, компьютер с заранее определенными ресурсами, и набор [не]типовых задач по преобразованию данных. Потому что одну и ту же задачу можно решить десятками разных способов и инструментов.

Ссылки:
[1] https://towardsdatascience.com/batch-processing-22gb-of-transaction-data-with-pandas-c6267e65ff36
[2] https://medium.com/@deephavendatalabs/make-pandas-60x-faster-c064ed26d3c1
[3] https://t.iss.one/begtin/3807
[4] https://github.com/wireservice/csvkit
[5] https://github.com/BurntSushi/xsv
[6] https://github.com/datacoon/undatum
[7] https://www.gdcc.tech

#data #datatools #readings #dataengineering
Forwarded from addmeto (Grigory Bakunov 🧪)
Гугл теперь официально принимает запросы на удаление результатов поиска, содержащих персональную информацию (контакты, физический адрес, телефон, емейл, логин и тп). До этого причиной для удаления была только попытка украсть ваши деньги через использование вашего имени.

Вот список информации, которая может быть причиной для удаления:
- Номера, позволяющие вас идентифицировать (номер паспорта или SSN, наверное для некоторых СНИЛС)
- Номера банковских счетов
- Номера кредитных карт
- Фото рукописных подписей
- Фото других документов, удостоверяющих личность
- Очень личные данные, такие как медицинские записи
- Персональная контактная информация (физические адреса, номера телефонов и адреса электронной почты)
- Конфиденциальные учетные данные для входа (логины и пароли)

https://www.theverge.com/2022/4/27/23044951/google-search-results-personal-information-address-phone-number
Минцифры снова выложило реестр аккредитованных ИТ компаний, в формате ODS и пложенным к госуслуге "Отсрочка от армии"[1].

В реестре более 22 тысяч организаций, особенно стоит обратить внимание на:
- больницы
- университеты
- бюджетные учреждения

И ещё немало чего, особенно много изменений с начала марта 2022 года, догадайтесь сами почему.

Ссылки:
[1] https://www.gosuslugi.ru/armydelay

#government #registries #opendata