Ivan Begtin
7.99K subscribers
1.77K photos
3 videos
101 files
4.49K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]
Download Telegram
Полезный материал для тех кто изучает ценность и стоимость данных, научная статья What is the value of data? A review of empirical methods [1] в первую очередь относится к данным общедоступным, создаваемым для предоставления другим и продаваемым на маркетплейсах и иначе монетизируемых. Полезно для разговоров с про обоснование стоимости данных и не только. Полезно для измерения ценности открытия данных.

Ссылки:
[1] https://onlinelibrary.wiley.com/doi/full/10.1111/joes.12585

#opendata #articles #readings
В копилку плохих новостей про открытые данные, более недоступен портал Госрасходы (spending.gov.ru) [1]. Откуда его не открывай, из Армении, Европы или из России, всегда выдаётся 403 ошибка.

По этому статусу не определить отключён ли проект полностью или недоступен для широкой публики, но важная часть моей работы в Счётной палаты теперь недоступна. При том что я покинул Счетную палату уже давно и проект развивался и после моего ухода, но увы, я действительно не знаю всех причин почему его закрыли. Думаю что не последней причиной был уход Кудрина из Счетной палаты и что вот уже очень долгое время новый председатель так и не назначен.

Конечно, ещё остаётся надежда что Госрасходы отключены из-за проблем в настройках сети или случайных действий админов, но больше похоже что нет, его больше нет.

Здесь я не могу не напомнить что у нас в АНО Инфокультура (@infoculture) остался общественный проект clearspending.ru [2] где не было такой продвинутой аналитики по национальным проектам и бюджету, зато всегда была доступна и остаётся база госконтрактов. Проект останется открытым и включает дампы всей внутренней базы контрактов.


Ссылки:
[1] https://spending.gov.ru
[2] https://clearspending.ru

#opendata #contracts #sprf #infoculture
В качестве регулярного напоминания, хотя я в последние годы делаю проекты не только в России, но и в Армении, а также некоторые глобальные, но АНО Инфокультура от лица которого наша команда создавала проекты по открытости в России всё ещё действует и, несмотря на все ограничения, действовать будет дальше, как я надеюсь, во всяком случае.

Мы продолжаем и поддерживаем такие проекты как:
- Госзатраты [1] агрегатор всех государственных и муниципальных контрактов по 44-ФЗ. 223-ФЗ, 94-ФЗ и ряда постановлений Пр-ва РФ. Все доступно для поиска, доступно как открытые данные. Мы продолжим развивать его и дальше
- Открытые НКО [2] портал прозрачности НКО в России. Хотя российское Пр-во начало скрывать данные по учредителям организаций НКО ещё с весны 2021 года, мы продолжаем обновлять данные, хотя и остальные возможности развития проекта ограничены.
- Простой язык [3] сервис определения простоты текстов на русском языке. Проект остаётся неизменным уже много лет, форма куда можно отправить текст и получить оценку его простоты в годах обучения. Мы думаем как его улучшать и развивать, регулярно приходят пользователи с разными запросами.
- Хаб открытых данных [4] негосударственный портал открытых данных. Из-за потоков спама нам пришлось отключить там свободную регистрацию, но сам хаб никуда не исчезает, думаем о его перезапуске. Может быть когда Минэкономразвития России опубликует обновлённый портал data.gov.ru на Гостехе мы специально обновим Хаб открытых данных чтобы показать всем какую хрень может сотворить министерство за 100500 денюх и насколько лучше можем мы сделать с минимальным бюджетом.
- Национальный цифровой архив России [5] наш проект по архивации сайтов, был более актуален когда шла совсем полная срань с ликвидацией сайтов многих российских "инагентов", менее критично сейчас, с одной стороны, с другой всё ещё актуально. Стало сложнее архивировать госсайты, они все обзавелись капчами и блокировкой любых не-российских IP адресов. Поэтому, в очередной раз, думаем о смене приоритетов и актуализации программы архивации. У проекта есть отдельный телеграм канал https://t.iss.one/ruarxive, не стесняйтесь, подписывайтесь на него.
- День открытых данных в России [6] мы не проводили его в 2022 году, всё же провели в 2023 году и планируем в том же формате в 2024 году, по большей части онлайн. Госполитика в области открытых данных в России давно уже сдувается, а сейчас ещё и сталкивается с военной цензурой и общей "разрухой в головах" , но существует всё ещё сильное русскоязычное сообщество по открытости и только ради него мы это проводим.

Хотелось бы делать больше, но существующая политическая повестка этого не позволяет. Хорошо что получается сохранять то что есть, хотя и с ощущением что в любой момент может возникнуть политическое давление и даже это будет сложно сохранить.

Из России всегда можно поддержать эти проекты на странице Инфокультуры https://www.infoculture.ru/donation/ если от физ лица или напишите мне если хотите сделать это от юридического лица.

Ссылки:
[1] https://clearspending.ru
[2] https://openngo.ru
[3] https://plainrussian.ru
[4] https://hubofdata.ru
[5] https://ruarxive.org
[6] https://opendataday.ru

#opendata #russia #infoculture #opengov
Хорошие ребята из проекта Если быть точным отделились в отдельный фонд и продолжают развивать свой проект с социальными показателями по России. Работа у них важная и непосредственно связанная с использованием и созданием открытых данных.
Привет! Это Арнольд Хачатуров, руководитель проекта «Если быть точным»‎. Сегодня важный день, к которому мы готовились последние несколько месяцев. С 1 сентября 2023 года «Если быть точным» — независимый проект.

Почему мы отделяемся. Это было совместное решение нашей команды и коллег из фонда. Мы остаемся партнерами и хорошими друзьями, но дальше каждый пойдет своей дорогой.

За последние годы «Если быть точным» вырос из первоначальных рамок. Когда-то мы концентрировались на том, чтобы помогать некоммерческим организациям принимать решения с опорой на данные: развивали крупнейший в России каталог НКО, оценивали динамику благотворительных пожертвований и измеряли эффективность помощи.

Всем этим продолжит заниматься фонд «Нужна помощь», а мы ставим перед собой другую цель — сохранение и развитие открытых данных в России. Мы продолжим рассказывать о социальных проблемах и продвигать экспертную дискуссию с опорой на данные, но будем делать это для более широкой аудитории.

Что будет дальше. Открытые данные тают на глазах — минимум 17 ведомств скрыли важные показатели. Официальный портал открытых данных России отправили «на доработку» на неопределенный срок. Социальных проблем при этом меньше не становится.

Даже в этих условиях мы находим способы, как сделать статистику более доступной. Например, недавно мы опубликовали данные о загрязнениях воздуха в российских населенных пунктах, которые скрыл Росприроднадзор, а еще сделали инструмент для выгрузки данных с 2,5 тысяч сайтов российских судов, которым может воспользоваться любой желающий.

Чтобы развиваться и достигать своих целей, нам нужна ваша помощь. Мы больше не проект фонда, а это значит, что теперь мы финансируем себя самостоятельно. Конечно, это волнительно, но мы знаем, что у нас есть вы.

Поддержите нас, оформив регулярное пожертвование на Boosty (рубли) или на Patreon (валюта). В будущем мы откроем больше возможностей для тех, кто хочет помочь. Но прямо сейчас нам нужно убедиться, что мы сможем работать дальше — за счет вашей поддержки.
Полезное чтение про данные, технологии и не только:
- Artwork Similarity Search: Exploring the Power of Vector Databases [1] технический, практический и весьма полезный обзор того как использовать векторную базу для поиска по подобиям для произведений художественного искусства. Полезно именно практичностью, буквально хоть бери Европеану или Госкаталог музейного фонда, натравливай модель и засовывай результаты в векторную БД.
- Dara Application Framework [2] очередной движок для генерации дашбордов, с открытым кодом и на Python. Выглядит неплохо, документация подробная
- Dataherald [3] преобразователь естественного языка в SQL, с открытым кодом, но требует ключа для OpenAI.
- DuckDB vs. The Titans: Spark, Elasticsearch, MongoDB — A Comparative Study in Performance and Cost [4] сравненеи DuckDB и всякого NoSQL. Сравнивается, конечно, фиолетовое с пупырчатым, но почему бы и нет.

Ссылки:
[1] https://www.otmaneboughaba.com/artwork-similarity-search
[2] https://github.com/causalens/dara
[3] https://github.com/Dataherald/dataherald
[4] https://medium.com/walmartglobaltech/duckdb-vs-the-titans-spark-elasticsearch-mongodb-a-comparative-study-in-performance-and-cost-5366b27d5aaa

#opensource #data #datatools
Не все знают что в Шотландии до сих пор действует закон 1491 года об общественном имуществе The Common Good Act 1491 [1]. Язык его ещё не современный английский, читать его непросто несмотря на краткость, важно знать что он определяет то что местные советы в Шотландии ведут учёт общественного имущества, движимого и недвижимого, отдельно от учёта всего остального. К общественному имуществу относятся многие земли, здания и, например, картины.

Шотландские общественники сделали сайт Commongood.scot [2] с единым реестром такого имущества.

Сейчас там всего 2960 объектов, доступных на карте, в поиске и в виде открытых данных в формате CSV.

Ссылки:
[1] https://www.legislation.gov.uk/aosp/1491/19/contents
[2] https://commongood.scot/

#opendata #uk #scotland
В рубрике интересных проектов с открытыми данными небольшой проект Govdirectory [1] по визуализации аккаунтов органов власти в соцсетях по странам. Внутри данные из Wikidata, импортируются на регулярной основе и автор отправляет желающих что-то поправить - править сразу в Wikidata. По некоторым странам вроде Норвегии [2] внесено много и подробно. По другим, вроде России [3] довольно мало, а по большинству стран просто ничего нет, поскольку в каталоге всего 28 стран. Впрочем это Википроект где каждый может добавить что-либо, включая страну, поскольку код открыт и контрибьюторы там активны [4].

Ссылки:
[1] https://www.govdirectory.org
[2] https://www.govdirectory.org/norway/
[3] https://www.govdirectory.org/russia/
[4] https://github.com/govdirectory

#opendata #datasets #wikipedia #wikidata
Forwarded from Open Data Armenia (Valeria Babayan)
Предпосылки для развитого сектора высоких технологий в Армении были всегда. К сожалению, удручающая экономическая ситуация 1990-х и утечка мозгов привели к растрате мощного потенциала, но, судя по темпам развития IT-сектора в Армении, инновационное мышление и профессиональные знания и навыки, передававшиеся из поколения в поколение, лишь ждали своего часа, чтобы проявиться снова.


Сегодня хотим поделиться с вами прекрасным проектом IT-музея DataArt – виртуальной выставкой «Математические машины Армении». Выставка повествует об армянских инженерах-электронщиках и вычислительной технике, созданной ими во второй половине XX века. Авторы проекта наглядно показывают важность разработок армянской столицы для технологического развития различных сфер жизни всей Восточной Европы. Ереванский научно-исследовательский институт математических машин разработал первую в СССР автоматизированную систему продажи ж/д билетов, самую сбалансированную машину международного проекта ЕС ЭВМ, вычислительные комплексы для стратегической авиации. Обо всём этом в переплетении с человеческими судьбами и культурой и атмосферой Еревана и Армении вы узнаете на онлайн-выставке.
В качестве регулярного напоминания, кроме всего прочего я за последние лет 15 занимался тем публиковал довольно много кода как открытый код. В основном с надеждой на вовлечение сообщества и, где-то, это получалось, а где-то не очень. Случаев когда получалось и появлялись контрибьюторы довольно много, так что почему бы и не напомнить, на случай если возникнуть желающие воспользоваться и помочь в разработке:

- newsworker - библиотека для Python для извлечения новостей из веб страниц. Один из моих экспериментов с автоматизацией парсинга HTML закончился написанием этой библиотеки которая умеет распознавать даты в любом написании, ссылки и заголовки и текст новости.
- docx2csv - библиотека для Python и утилита командной строки по извлечению таблиц внутри файлов Microsoft Word (.DOCX).
- qddate - библиотека для идентификации дат в любом написании для условно любых языков. Изначально писалась как часть newsworker, потом была отделена. Поддерживает более 300 шаблонов написания дат.
- lazyscraper - утилита командной строки для превращения массивов HTML тэгов и HTML таблиц в таблицы CSV
- russiannames - на удивление оказавшаяся востребованной библиотека для Python и база данных для имён на русском языке и распознаванию стилей их написания. Создавалась из многих открытых источников, полезна, например, для задач когда надо понять в каком формате написано ФИО и что в нём есть что
- undatum - утилита командной строки для работы с разными структурированными данными, в первую очередь JSON lines. Фактически делалось как аналог csvkit для JSON lines, лично я ей пользуюсь ежедневно хотя и её ещё надо и надо допиливать.
- govdomains - база российских госдоменов и ассоциированного с этим кода, да, да, это не только зона .gov.ru, но и многое другое. Делалось изначально для проекта Ruarxive для понимания того что надо архивировать. Список большой, но с 2022 года развиваемый в закрытую по объективным причинам, чтобы не помогать хакерам находить уязвимости.
- metacrafter - утилита и библиотека идентификации семантических типов данных. Поддерживает десятки типов данных собранных в специальном реестре, изначально это был один из внутренних инструментов в продукте Datacrafter
- apibackuper - тоже утилита которой я пользуюсь регулярно, она создавалась для того чтобы архивировать данные предоставляемые через API. Причём всё это делается через простой конфиг файл. До сих пор многие датасеты из API я генерирую с её помощью.
- wparc - утилита архивации содержания Wordpress сайтов через API Wordpress если оно не отключено.
- ydiskarc - утилита архивирования материалов на Яндекс Диске, использует, по большей части документированное официальное API, но не требует к нему токенов или авторизации
- pyiterable - попытка унифицировать работу с данными в разных форматах: CSV, JSON, JSON lines, BSON, в том числе внутри контейнеров архивов. Регулярно сам этим пользуюсь. Изначально был план переписать undatum с использованием этой библиотеки, но руки не доходят.
- datacrafter - облегчённая ETL на Python для работы с открытыми данными, используется в одноимённом проекте datacrafter.ru, аналогично я ей сам регулярно пользуюсь когда надо систематизировать извлечение данных из открытых источников. К ней множество примеров для работы с данными на российских госсайтах.

#opensource #tools #data #datatools
Хорошо иметь исторические данные за несколько столетий и пример их практического использования французский проект "История политического конфликта" (Une histoire du conflit politique) [1] в котором собраны данные показателей жизни и голосования во Франции начиная с 1789 года в виде индикаторов по всей стране, карт, отдельным муниципалитетам и политическим предпочтениям.

Все данные и их визуализации доступны для выгрузки в форматах CSV и DTA (Stata) [2]

Ссылки:
[1] https://unehistoireduconflitpolitique.fr
[2] https://unehistoireduconflitpolitique.fr/telecharger.html

#opendata #datasets #digitalhumanities #france #dataviz
Свежий список компаний [1] попадающих под регулирование Евросоюза Digital Markets Act включает:
Alphabet
Amazon
Apple
ByteDance
Meta
Microsoft

А также список их продуктов. Список интересен тем что охватывает не все продукты компаний, а лишь те что значимы. Например, поиск Google там есть, а поиска Bing там нет. Также интересно что компании Маска и Twitter'а там тоже нет.

Правда этот список на 6 сентября и явно будет расти постепенно.

Учитывая что многие смотрят на регуляторов в ЕС как на пример для подражания я бы не удивился появлению схожего регулирования в Китае, не идентичного, а именно схожего по смыслу регулирования крупнейших цифровых игроков. И, с какой-то вероятностью, в России, со схожей риторикой, но достаточно жёсткими обременениями произвольного применения.

Ссылки:
[1] https://ec.europa.eu/commission/presscorner/detail/en/qanda_20_2349

#regulation #eu #datamarket #digital
В качестве вот уже регулярного вынужденного отвлечения на российское регулирование, меня недавно несколько изданий расспрашивали про то на что повлияет инициатива НПА от Минцифры про запрет и блокировки публикаций о том как обходить блокировки. Это, несомненно, такая же вредная инициатива как и многочисленные законы и законопроекты расширяющие государственную цензуру, но одновременно оно же и весьма бессмысленное, на текущей стадии.

Во первых о том как обходить блокировки могут быть совершенно невинные тексты просто о том как устроены VPN и какие продукты существуют. Нет-нет, не призывая их использовать, просто рассказать о них.

Во вторых пишут о VPN сервисах достаточно часто на русском языке те кто в российской юрисдикции никогда не находился или не находится уже давно.

И, наконец, в третьих пока не заблокировали Google, нет шансов что этот запрет будет хоть как-то эффективен.

Я же хочу обратить внимание и ещё раз сделать ключевой акцент, на том что самое неприятное это гораздо менее активно обсуждаемое насаждение госприложений и приложений компаний находящихся под прямым или опосредованным государственным контролем. В частности это касается магазина приложений RuStore.

Почему это опасно? Потому что главный, ключевой и наиболее серьёзный барьер к тотальной слежке - это отсутствие контроля за конечными устройствами. Это то что есть у глобальных корпораций и то чего нет у большинства государств. Обязательные госприложения, с системными правами, например, для просмотра установленного ПО или доступа к сетевой активности, могут в любой момент быть использованы против пользователя, а на постоянной основе создавать дополнительный контур слежки. Я сознательно не хочу описывать сценарии как это можно делать, но исключать такие сценарии нельзя.

Это как с российским корневым сервером для выдачи сертификатов для доступа к сайтам. Очень и очень плохая затея для конечных пользователей.

#privacy #security #regulation
Команда Mozilla опубликовала очередное интересное исследование по приватности, на сей раз приватности при использовании автомобилей 25 брендов и о том как вендоры собирают информацию [1] из которого можно узнать что:
- все без исключения вендоры собирают персональные данные
- 84% вендоров закладывают право передавать или продавать эти данные
- 92% вендоров не дают контроля над своими персональными данными
- 56% вендоров закладывают право передавать данные по запросу госорганов, вне зависимости официальные ли это запросы или "неформальные"
- ни один из вендоров не соответствует минимальным стандартам безопасности которые Mozilla продвигала ранее.
- Nissan, кроме всего прочего, собирает данные о сексуальной активности, не шутка.

В исследовании есть развернутая информация по каждому вендору, а анализ проходил путем изучения их условий использования, политик приватности и иных связанных с техническим оснащением документов. Иначе говоря исследователи проводили бумажный анализ, а не полевой с выявлением куда и как передаются данные, но и юридический бумажный анализ рисует вот такую неприглядную картину.

Ссылки:
[1] https://foundation.mozilla.org/en/privacynotincluded/articles/its-official-cars-are-the-worst-product-category-we-have-ever-reviewed-for-privacy/

#privacy #data #mozilla #research
Свежий европейский доклад Mapping the landscape of data intermediaries [1] о таких посредниках в работе с данными как: системы управления персональной информацией (PIMS), информационные кооперативы, трасты данных, профсоюзы данных, рынки данных и пулы обмена данными.

Много примеров из европейской практики, включая разбор бизнес моделей каждого из 6 типов посредников.

Например, малоизвестные мне ранее, профсоюзы данных (data unions) объединяющие людей предоставляющих свои данные, их примеры: TheDataUnion [2] и Unbankx [3].

А также многое другое. Полезно всем кто хочет знать как изнутри устроены _некоторые_, не все, рынки данных.

Ссылки:
[1] https://publications.jrc.ec.europa.eu/repository/handle/JRC133988
[2] https://thedataunion.eu
[3] https://www.unbanx.me

#data #research #readings #eu