Ivan Begtin
7.99K subscribers
1.77K photos
3 videos
101 files
4.49K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]
Download Telegram
Свежая статья о том кто контрибьютит открытый код в мире [1]. Авторы изучили вклад 43 миллионов человек в 160 миллионов проектов включая репозитории кода с 1971 года. Собственно авторы Rossi и Zacchiroli одни из основателей и участников французского проекта по архивации исходного кода Software Heritage, где эти данные с кодом и собираются и накапливаются. Можно увидеть что большая часть контрибьторов происходят из США и Европы и значительная доля уже у Южной и Центральной Америки.

У России там что-то около 5%, малых стран по отдельности нет, они попадают в макро-группы.

И в том же контексте, исследование октября 2021 года про региональность OSS разработчиков [2], часто несвязанную с концентрацией ИТ компаний/специалистов. Там внутри есть и по странам, и по Европе отдельный фокус. Пропорциональность они считали по числу OSS разработчиков на 100 тысяч человек и использовали только данные Github.

Ссылки:
[1] https://dl.acm.org/doi/pdf/10.1145/3524842.3528471
[2] https://arxiv.org/pdf/2107.03200.pdf

#opensource #readings
В качестве регулярного напоминания, если Вы ищите данные по России и постсоветским странам, то в каталоге каталогов данных DataCatalogs.ru [1] они как раз собраны.

В проекте сейчас 322 каталога данных, из которых 294 по России, ещё 28 по Казахстану, Кыргызстану, Узбекистану, Армении и тд.

В данном случае открытые данные трактуются расширительно, исходя из того что в каталоге каталогов собраны и источники не только открытых данных в строгом определении, но и другие общедоступные источники данных которые что называется "недооткрыты", например, порталы открытого бюджета или геопорталы.

Этот проект был одним из источников для создаваемого сейчас Common Data Index [2] реестра каталогов данных по всему миру, где их уже более 2000+ тысяч и о котором я, также, регулярно пишу.

Ссылки:
[1] https://www.datacatalogs.ru/
[2] https://github.com/commondataio/dataportals-registry

#opendata #datacatalogs #dataportals #metadata
Среди малоизвестных продуктов для публикации открытых данных есть такой продукт как Open Data Cube [1]. Можно перевести его как "куб открытых данных", но скорее он является "Открытым кубом данных". Это ПО с открытым кодом [2] для создания каталогов спутниковых данных. Продукт достаточно давний и его первые версии распространялись CEOS [3] (The Committee on Earth Observation Satellites) и до сих пор развёрнуты во многих странах, но работают, в основном, в закрытом режиме.

Последняя версия Open Data Cube, именно про открытые данные. Причём помимо возможности работать с данными и скачивать данные привычным образом, эта версия ПО по умолчанию поддерживает протокол по спецификации STAC [4].

Уже есть некоторое число общедоступных инсталляций, часть из которых зарегистрирована в реестре STAC, а часть надо искать, впрочем я облегчу задачу и приведу примеры тут:
- Digital Earth Africa - https://explorer.digitalearth.africa
- Digital Earth Australia - https://explorer.nci.dea.ga.gov.au
- Common Sensing Ltd. - https://cubeexplorer.csopenportal.co.uk
- Maynooth University - https://tai-odc.terrainai.com
- Thai Geo and space agency - https://datacube.gistda.or.th

В Open Data Cube своя терминология которую важно учитывать. Например, термин dataset, который по сути является срезом наблюдения на определённую дату и время, поэтому, например, в каком-нибудь Digital Earth Africa может быть до 1 миллиона датасетов. А то что датасетом считают в других порталах тут называют product. Например, именно product является объектом лицензионных рассмотрений и публикуется под какой-то конкретной лицензией, например, CC-BY 4.0.

Ссылки:
[1] https://www.opendatacube.org
[2] https://github.com/opendatacube
[3] https://www.opendatacube.org/ceos
[4] https://stacspec.org/en

#opensource #opendata #geodata #dataportals
Читаю интересный лонгрид из выступления Брюса Шнайера на тему Rethinking democracy for the age of AI [1] на конференции RSA в Сан-Франциско 25 апреля 2023 г. Прочитать его рекомендую всем кто думает о ИИ не только с технико-прикладной стороны применения языковых моделей, но и социальных последствий. Серьёзный вопрос который есть в его выступлении в том могут ли существовать капитализм и демократия в текущей форме когда развитие ИИ может снова вернуть возможности централизованного планирования, без социальных перегибов, и, возможно, исправить наиболее неэффективные стороны капитализма.

Речь там, конечно, не только об этом, но и о переосмыслении демократий и парламентских систем возникших ещё в индустриальную эпоху. Размышления гораздо более актуальные чем могу показаться с первого взгляда.

И, взгляд с другой стороны, о других социальных последствиях. Развитие ИИ сейчас, в виде языковых моделей, идёт по пути их создания на доступных языковых корпусах. Поэтому они есть для наиболее популярных (коммерчески востребованных) языков и отсутствуют для тех по которым нет или слишком мало текстов, нет языковых корпусов для обучения и тд.
Важный вопрос - судьба "малых и средних языков". Что должны предпринимать правительства стран для сохранения своей языковой культуры? И должны ли вообще?
Есть пример Испании инвестирующей большие ресурсы в испаноязычные языковые модели на государственном уровне, есть похожее в ряде развитых стран и почти ничего про страны экономически и культурно уязвимые. Лично мне пока не попадались исследования и выступления на эту тему, но рано или поздно кто-то должен об этом начать говорить.

Возвращаясь к выступлению Брюса Шнайера, я склоняюсь к тому что регулирование ИИ будет стремительно ужесточаться по всему миру в ближайшие даже не годы, а месяцы.

Ссылки:
[1] https://readwise.io/reader/shared/01h0482q0hkka4hhyhd9qtq9j5/

#readings #ai #government
Forwarded from Ах, этот Минфин (Olya Parkhimovich)
Кратко об открытых данных в Санкт-Петербурге: 3 новых набора данных за 2022-2023 гг

Раз уж пришлось погрузиться в обдумывание идей «Цифровых сервисов» для Санкт-Петербурга, решила заодно посмотреть, что же стало с «Порталом открытых данных», который в марте 2021 года объединили с Системой классификаторов Санкт-Петербурга (до сих пор непонятно, почему Портал ОД является подмножеством Системы классификаторов, но там так интересно все устроено, что об этом будет отдельный пост).

На запрос об «упразднении Портала» Правительство Петербурга ответило: «публикация всех актуальных данных и доступ к уже опубликованным ранее теперь происходят на одном ресурсе». Кстати, спустя два года на сайте Комитета по информатизации нет упоминания о том, что ГИС «Открытые данные Санкт-Петербурга» упразднен, а посвященная ему страница есть.

Что изменилось за два года?

- «исторические» метаданные всех наборов, опубликованных до 2021 года утеряны. Все наборы перенесены с датой версии (первой публикации?) от марта 2021 года. Что было до - не восстановить;

- в паспорте набора нет ни одной даты: невозможно узнать дату актуализации, дату обновления набора данных, дату первой публикации набора данных. Для поиска всех наборов, опубликованных в первые в 2022-2023 году, мне пришлось вручную пройтись по внутренним вкладкам каждого набора данных;

- единственная доступная дата - «дата создания версии». Не нашла на портале, что имеется в виду: Дата выгрузки набора данных из информационной системы? Дата загрузки набора данных на Портал открытых данных? Дата актуальности?

- за 2022-2023 год опубликовано 3 новых набора данных: список светофорных объектов, торговый реестр, внутридворовые спортивные площадки Санкт-Петербурга. Все. В 2020 году на сайте было 194 набора данных, сейчас - 198.

- какие-то старые наборы данных обновляются, некоторые даже регулярно. Но без метаданных их использование затруднительно.
То есть формально Портал открытых данных объединен с Системой классификаторов СПб, но фактически работа над ним не ведется, новые данные не загружаются. Ожидаемо.

При этом в Петербурге есть уникальные и интересные системы, работа над которыми активно ведется: Портал API для разработчиков; Система классификаторов (не в части Портала ОД); Реестр ГИСов Санкт-Петербурга. Жаль, что Порталу открытых данных так «не повезло».

#открытыеданные #спб #системаклассификаторов #открытость
В рубрике открытых данных о которых почти никто не знает. Один из малоизвестных типов каталогов данных за пределами профессионального сообщества - это IPT: The Integrated Publishing Toolkit [1] специально ПО используемое ботаниками, биологами для публикации открытых наборов данных интегрированных в международный проект GBIF (Global Core Biodata Resource).

В России есть множество инсталляций IPT, например, от Зоологического института в СПб [2] и Югорского госуниверситета [3]. Его инсталляции есть даже в Иране [4], а все данные из IPT агрегируются в поиск GBIF где уже более 85 тысяч наборов данных

Некоторые инсталляции IPT по странам находятся в других странах. Например, IPT по Армении [5], поэтому поиск по наборам данных помогает найти данные даже по тем странам где инсталляции IPT формально отсутствуют.

Все данные публикуются под свободными лицензиями, как правило CC-BY

Всё это о том что значительная часть открытых данных в мире находится не на поверхности, неизвестна широкой публики и имеет, преимущественно, узкоотраслевое применение.

Но они есть и их очень много.

Ссылки:
[1] https://www.gbif.org/ipt
[2] https://ipt.zin.ru:8080/ipt/
[3] https://ipt.ugrasu.ru:8080/
[4] https://217.11.23.22/ipt/
[5] https://www.gbif.org/dataset/search
[6] https://armenia.ipt.gbif.no/

#opendata #openaccess #openscience #biology #plants
Я про российский ГосТех пишу мало не потому что за ним не слежу, а потому что "что тут писать когда всё понятно?". Надо понимать что срок переноса Госуслуг на ГосТех не временный, а единственный сценарий при котором Госуслуги будут на Гостехе - это если Ростелеком переподчинят Сбербанку или Сбербанк Ростелекому. Но как бы помягче, сценарий такой маловероятен.

Что я могу точно сказать, так после глобальной пиар акции Пр-ва по продвижению ГосТеха вывод можно сделать один продукт настолько говно несовершенен что нужны административные ресурсы на уровне главы Пр-ва чтобы продавить его использование что на федеральном уровне, что у субъектов федерации. Это очень и очень печально и на месте команды ГосТеха я бы крепко напрягся (хотя может они уже а я и не знаю?) потому что главные бенефициары тех или иных госинициатив вылезают на свет выходят на сцену только когда ситуация находится в серьёзном внутреннем кризисе.

Ещё много лет назад, мне знакомые прокуроры объясняли как всё работает. Топов никогда не привлекают к ответственности по иным причинам кроме политических, а вот средний менеджемент подписывающий документы прекрасно попадают под определение всё продолбали ввели руководство в заблуждение. Триггером будет когда хоть кто-то на высшем уровне заговорит о том какая же замечательная идея ГосТех, но в этот раз не получилась, но мы от неё не откажемся. После чего будут искать виноватых. А тут срабатывает правило любой авантюры, тот кто в команде не знает кто за это будет сидеть, тот и главный кандидат;)

Как мне в кулуарах говорили уважаемые люди на российском рынке, если тебя в ГосТех позовут работать и тебе деньги ну очень нужны, то стоит идти, только ничего не подписывай!.
Мне печально лишь наблюдать, не в первый раз, о том что вначале много лет учишь тому как госинформатизация происходит в мире, а потом она реинкарнирует в России в наиболее извращённой местной форме.

#government #regulation #it #russia #govtech
Forwarded from Об ЭП и УЦ
Развитие единой системы предоставления госуслуг на «платформе ГосТех» в срок до 1 июля 2023 года не представляется возможным, в связи с чем необходим перенос срока до 1 июля 2024 года.

Минцифры России разработан соответствующий проект постановления Правительства

Единственный ли это срок, который переносят на год🧐
Есть такой тип данных как референсные данные или, как их чаще называют в России, справочники и классификаторы. Одна из особенностей данных по России в том что какое-то количество референсных данных опубликовано на специальных порталах.
- ЕСНСИ Госуслуг https://esnsi.gosuslugi.ru
- НСИ ФОМС https://nsi.ffoms.ru
- НСИ Минздрава https://nsi.rosminzdrav.ru
- НСИ Москвы https://nsi-asur.mos.ru/List/ (вообще их система требует авторизации, но есть прямая ссылка на полный список)
- Система НСИ Санкт-Петербурга https://classif.gov.spb.ru
И ещё много других.

Эти порталы очень похожи на порталы открытых данных, также разные наборы данных, также возможность машиночитаемой выгрузки и есть API, разница в том лишь что нет отдельных лицензий и множества публикаторов. Условия использования, как правило, единые.

В мире таких порталов, на удивление, не так много или они порталы с открытыми данными не напоминают, и устроены несколько иначе. Чаще всего в виде сложных моделей данных и схем, также общедоступных. В России же многие справочники выведены в открытый доступ, это, особенность, в первую очередь создания очень крупных информационных систем с большим числом интегрируемых ИС, в том чтобы такие данные были доступны. В мире такие системы референсных данных могут быть в США, ЕС и ряде крупных стран, но, опять же, подчеркну что не на виду.

Лично я до сих пор не понимаю относить ли такие системы к порталам открытых данных, например, в Common Data Index сейчас включены:
- Порталы открытых данных
- Геопорталы
- Научные репозитории
- Порталы микроданных
- Порталы индикаторов
- Порталы данных для машинного обучения
- Системы поиска по данным
- Маркетплейсы данных
и Каталоги API

В общем каталогов референсных данных тут нет, а если добавить то будут только российские. Так что вопрос остаётся открытый в том числе и в том что польза от таких данных опосредованная.

#opendata #datasets #referencedata
По всему миру неприятные новости по стартапы и увольнения, помимо того что теперь стало значительно сложнее найти венчурные средства, так ещё и увольнения идут не только в и бигтехе, но и в, казалось бы, очень неплохо чувствующим себя стартапам. И вот оказывается в dbt Labs увольнения [1] и это при том что год назад они привлекли $222M инвестиций и, в принципе, обладают одним из наиболее востребованных продуктов интегрированным в большую часть инфраструктуры входящей в Modern Data Stack.

Но, теперь они сокращают 15% сотрудников, а то есть дела не так хороши как хотелось бы.
Несмотря на это надо оговориться что рынок ИТ и рынок данных по прежнему остаётся рынком соискателя, а не работодателя. Сокращения уменьшают число комфортных и особенно интересных мест работы, но работы много и даже очень много.

Ссылки:
[1] https://www.getdbt.com/blog/dbt-labs-update-a-message-from-ceo-tristan-handy/
[2] https://www.crunchbase.com/organization/dbt-labs/company_financials

#itmarket #it #moderndatastack #dbt
В рубрике как это работает у них IRDB (Institutional Repositories DataBase) [1] японский агрегатор результатов научной деятельности в котором собрано более 3.8 миллионов записей, большая часть которых - это научные публикации, но более 100 тысяч открытые наборы данных.

В агрегаторе собираются материалы из 486 японских исследовательских репозиториев, а для сбора данных используется JPCOAR [2], японский вариант стандарта публикации результатов научных работ.

Эту базу можно, в чём-то сравнить с китайским SciDB, однако последний сделан с акцентом только на данные, а здесь все научные результаты. Поэтому корректнее сравнивать его с европейским OpenAIRE, на который он по смыслу и идеологии весьма похож.

Ссылки:
[1] https://irdb.nii.ac.jp/en
[2] https://schema.irdb.nii.ac.jp/en
#opendata #openaccess #japan #openscience
Пришло время рассказать о том, чем я давно занимаюсь, а это, трам-парам-пам, ни много ни мало, а создание проекта по открытым данным в Республике Армения - Open Data Armenia, также посвященного армянской культуре, языку и истории по всему миру.

Признаюсь, идея начать делать проекты по открытости, связанные с Арменией, была у меня давно. Среди моих предков - амшенские армяне, в начале 20-го века бежавшие из Трапезунда в Турции от Геноцида армян. Планы были давно, и наконец-то удалось к ним приступить.

Любой проект по открытым данным начинается с портала открытых данных https://data.opendata.am, который пока существует в общественном статусе и наполняется нашей командой и волонтерами. Мы ищем интересные наборы данных, связанные с Арменией по всему миру, и вносим их раз за разом.

Что дальше? Конечно же, конкурсы, хакатоны, интересные проекты на открытых данных.. И хотя у нашей команды и был соблазн сразу делать что-то интересное на открытых данных, начали мы именно с каталога, поскольку, как оказалось, в Армении его до сих пор не было. Теперь этот каталог есть, и есть телеграм канал https://t.iss.one/opendataam и телеграм-чат, в котором мы будем формировать сообщество по открытым данным https://t.iss.one/opendataamchat.

Проекту можно помочь многими способами. Если Вы из ИТ-компании в Армении или связанной с Арменией, то можно помочь собрать призовой фонд для хакатонов и конкурсов. Если Вы программист, то можно помочь с преобразованием немашиночитаемых данных в форматы CSV/JSON/XML. Если просто интересуетесь, то подсказать где найти интересные данные, предложить идеи проектов на основе данных.

Идеи, предложения партнерства, готовность помочь и тд. - пишите на [email protected] или в личку в телеграм.

#opendata #armenia #opengov
Я давненько не писал про работу над моим пэт-проектом Common Data Index по созданию поисковой системы по всем общедоступным открытым данным который по мере развития получит институциализацию. Пока же о текущем состоянии. В каталоге сейчас 2027 каталогов данных из которых большая часть это порталы открытых данных. Ещё 824 каталога данных найдены, но ещё не включены в каталог, большая их часть - это геопорталы. После обновления, скорее всего, число геопорталов будет больше числа порталов открытых данных.

Реестр теперь можно увидеть наглядно на сайте registry.commondata.io и у каждого каталога есть отдельная страница, уникальный идентификатор с префиксом cdi, а также можно увидеть статистику реестра целиком и профили по странам и, конечно, скачать сам реестр целиком.

#opendata #datasets #dataportals #datacatalog
В The Verge очень подробное интервью Kevin Scott, CTO Microsoft о том что компания планирует поместить AI инструменты разработки практически во все свои инструменты [1]. В MS Office, в инструменты разработки, в терминал и всюду и всюду и всюду. Прям даже интересно, в ядро ОС они его тоже встроят или ещё рано?

Интервью интересное, не только разговорами про возвращение Sydney в Bing, но и стратегией компании в целом.

Я вот подозреваю что самое очевидное применение будет информационная безопасность и именно под этим соусом и соусом продуктивности ИИ появится в ядрах Windows, OSX, Linux и других.

Ссылки:
[1] https://www.theverge.com/23733388/microsoft-kevin-scott-open-ai-chat-gpt-bing-github-word-excel-outlook-copilots-sydney

#ai #readings #microsoft
Да-да, не могу не добавить, не без иронии, что в 2020 году активно начали (продолжали) закрывать в России данные, а теперь начинают (начали) закрывать людей?
Рубрика "Циничная нефтедобыча"
Сергей Плуготаренко, директор РАЭК, 2020 год: "Информация и данные — новая нефть экономики"
Сергей Плуготаренко, Генеральный директор АНО "Цифровая экономика", 2023 год: "Кадры — новая нефть цифровой экономики"
Похоже, назревает циничный опрос на тему следующих "новых нефтей".
А теперь о хорошем, прекрасная визуализация домохозяйств в США на от Nathan Yau на Flowing Data [1]

Кроме 100 наиболее распространённых типов домохозяйств по отношениям между входящими в него людьми и визуализация крупнейшего домохозяйства 19 человек.

Крупнейшего, конечно, с оговоркой что это не данные переписи, а данные опроса 2021 American Community Survey которые автор выгрузил из IPUMS [2] это такая хорошо известная социологам сеть баз данных опросов по США и другим странам. Главное в работе с ними понимать как они устроены поскольку для неподготовленного человека можно легко запутаться в выборе переменных и их сочетаниях.

И вдогонку очень рекомендую визуализацию 2016 года разницы между структурой домохозяйств в США между 1970 годом и 2014 [3] всё кажется очень очевидным, меньше пар с детьми, больше одиночек, и очень наглядным.

Ссылки:
[1] https://flowingdata.com/2023/05/23/all-the-household-types-in-the-u-s/
[2] https://www.ipums.org/
[3] https://flowingdata.com/2016/08/09/household-types-then-and-now/

#opendata #dataviz #infographics