Ivan Begtin
7.98K subscribers
1.85K photos
3 videos
101 files
4.56K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]
Download Telegram
Полезное чтение про данные, технологии и не только:
- Artwork Similarity Search: Exploring the Power of Vector Databases [1] технический, практический и весьма полезный обзор того как использовать векторную базу для поиска по подобиям для произведений художественного искусства. Полезно именно практичностью, буквально хоть бери Европеану или Госкаталог музейного фонда, натравливай модель и засовывай результаты в векторную БД.
- Dara Application Framework [2] очередной движок для генерации дашбордов, с открытым кодом и на Python. Выглядит неплохо, документация подробная
- Dataherald [3] преобразователь естественного языка в SQL, с открытым кодом, но требует ключа для OpenAI.
- DuckDB vs. The Titans: Spark, Elasticsearch, MongoDB — A Comparative Study in Performance and Cost [4] сравненеи DuckDB и всякого NoSQL. Сравнивается, конечно, фиолетовое с пупырчатым, но почему бы и нет.

Ссылки:
[1] https://www.otmaneboughaba.com/artwork-similarity-search
[2] https://github.com/causalens/dara
[3] https://github.com/Dataherald/dataherald
[4] https://medium.com/walmartglobaltech/duckdb-vs-the-titans-spark-elasticsearch-mongodb-a-comparative-study-in-performance-and-cost-5366b27d5aaa

#opensource #data #datatools
Не все знают что в Шотландии до сих пор действует закон 1491 года об общественном имуществе The Common Good Act 1491 [1]. Язык его ещё не современный английский, читать его непросто несмотря на краткость, важно знать что он определяет то что местные советы в Шотландии ведут учёт общественного имущества, движимого и недвижимого, отдельно от учёта всего остального. К общественному имуществу относятся многие земли, здания и, например, картины.

Шотландские общественники сделали сайт Commongood.scot [2] с единым реестром такого имущества.

Сейчас там всего 2960 объектов, доступных на карте, в поиске и в виде открытых данных в формате CSV.

Ссылки:
[1] https://www.legislation.gov.uk/aosp/1491/19/contents
[2] https://commongood.scot/

#opendata #uk #scotland
В рубрике интересных проектов с открытыми данными небольшой проект Govdirectory [1] по визуализации аккаунтов органов власти в соцсетях по странам. Внутри данные из Wikidata, импортируются на регулярной основе и автор отправляет желающих что-то поправить - править сразу в Wikidata. По некоторым странам вроде Норвегии [2] внесено много и подробно. По другим, вроде России [3] довольно мало, а по большинству стран просто ничего нет, поскольку в каталоге всего 28 стран. Впрочем это Википроект где каждый может добавить что-либо, включая страну, поскольку код открыт и контрибьюторы там активны [4].

Ссылки:
[1] https://www.govdirectory.org
[2] https://www.govdirectory.org/norway/
[3] https://www.govdirectory.org/russia/
[4] https://github.com/govdirectory

#opendata #datasets #wikipedia #wikidata
Forwarded from Open Data Armenia (Valeria Babayan)
Предпосылки для развитого сектора высоких технологий в Армении были всегда. К сожалению, удручающая экономическая ситуация 1990-х и утечка мозгов привели к растрате мощного потенциала, но, судя по темпам развития IT-сектора в Армении, инновационное мышление и профессиональные знания и навыки, передававшиеся из поколения в поколение, лишь ждали своего часа, чтобы проявиться снова.


Сегодня хотим поделиться с вами прекрасным проектом IT-музея DataArt – виртуальной выставкой «Математические машины Армении». Выставка повествует об армянских инженерах-электронщиках и вычислительной технике, созданной ими во второй половине XX века. Авторы проекта наглядно показывают важность разработок армянской столицы для технологического развития различных сфер жизни всей Восточной Европы. Ереванский научно-исследовательский институт математических машин разработал первую в СССР автоматизированную систему продажи ж/д билетов, самую сбалансированную машину международного проекта ЕС ЭВМ, вычислительные комплексы для стратегической авиации. Обо всём этом в переплетении с человеческими судьбами и культурой и атмосферой Еревана и Армении вы узнаете на онлайн-выставке.
В качестве регулярного напоминания, кроме всего прочего я за последние лет 15 занимался тем публиковал довольно много кода как открытый код. В основном с надеждой на вовлечение сообщества и, где-то, это получалось, а где-то не очень. Случаев когда получалось и появлялись контрибьюторы довольно много, так что почему бы и не напомнить, на случай если возникнуть желающие воспользоваться и помочь в разработке:

- newsworker - библиотека для Python для извлечения новостей из веб страниц. Один из моих экспериментов с автоматизацией парсинга HTML закончился написанием этой библиотеки которая умеет распознавать даты в любом написании, ссылки и заголовки и текст новости.
- docx2csv - библиотека для Python и утилита командной строки по извлечению таблиц внутри файлов Microsoft Word (.DOCX).
- qddate - библиотека для идентификации дат в любом написании для условно любых языков. Изначально писалась как часть newsworker, потом была отделена. Поддерживает более 300 шаблонов написания дат.
- lazyscraper - утилита командной строки для превращения массивов HTML тэгов и HTML таблиц в таблицы CSV
- russiannames - на удивление оказавшаяся востребованной библиотека для Python и база данных для имён на русском языке и распознаванию стилей их написания. Создавалась из многих открытых источников, полезна, например, для задач когда надо понять в каком формате написано ФИО и что в нём есть что
- undatum - утилита командной строки для работы с разными структурированными данными, в первую очередь JSON lines. Фактически делалось как аналог csvkit для JSON lines, лично я ей пользуюсь ежедневно хотя и её ещё надо и надо допиливать.
- govdomains - база российских госдоменов и ассоциированного с этим кода, да, да, это не только зона .gov.ru, но и многое другое. Делалось изначально для проекта Ruarxive для понимания того что надо архивировать. Список большой, но с 2022 года развиваемый в закрытую по объективным причинам, чтобы не помогать хакерам находить уязвимости.
- metacrafter - утилита и библиотека идентификации семантических типов данных. Поддерживает десятки типов данных собранных в специальном реестре, изначально это был один из внутренних инструментов в продукте Datacrafter
- apibackuper - тоже утилита которой я пользуюсь регулярно, она создавалась для того чтобы архивировать данные предоставляемые через API. Причём всё это делается через простой конфиг файл. До сих пор многие датасеты из API я генерирую с её помощью.
- wparc - утилита архивации содержания Wordpress сайтов через API Wordpress если оно не отключено.
- ydiskarc - утилита архивирования материалов на Яндекс Диске, использует, по большей части документированное официальное API, но не требует к нему токенов или авторизации
- pyiterable - попытка унифицировать работу с данными в разных форматах: CSV, JSON, JSON lines, BSON, в том числе внутри контейнеров архивов. Регулярно сам этим пользуюсь. Изначально был план переписать undatum с использованием этой библиотеки, но руки не доходят.
- datacrafter - облегчённая ETL на Python для работы с открытыми данными, используется в одноимённом проекте datacrafter.ru, аналогично я ей сам регулярно пользуюсь когда надо систематизировать извлечение данных из открытых источников. К ней множество примеров для работы с данными на российских госсайтах.

#opensource #tools #data #datatools
Хорошо иметь исторические данные за несколько столетий и пример их практического использования французский проект "История политического конфликта" (Une histoire du conflit politique) [1] в котором собраны данные показателей жизни и голосования во Франции начиная с 1789 года в виде индикаторов по всей стране, карт, отдельным муниципалитетам и политическим предпочтениям.

Все данные и их визуализации доступны для выгрузки в форматах CSV и DTA (Stata) [2]

Ссылки:
[1] https://unehistoireduconflitpolitique.fr
[2] https://unehistoireduconflitpolitique.fr/telecharger.html

#opendata #datasets #digitalhumanities #france #dataviz
Свежий список компаний [1] попадающих под регулирование Евросоюза Digital Markets Act включает:
Alphabet
Amazon
Apple
ByteDance
Meta
Microsoft

А также список их продуктов. Список интересен тем что охватывает не все продукты компаний, а лишь те что значимы. Например, поиск Google там есть, а поиска Bing там нет. Также интересно что компании Маска и Twitter'а там тоже нет.

Правда этот список на 6 сентября и явно будет расти постепенно.

Учитывая что многие смотрят на регуляторов в ЕС как на пример для подражания я бы не удивился появлению схожего регулирования в Китае, не идентичного, а именно схожего по смыслу регулирования крупнейших цифровых игроков. И, с какой-то вероятностью, в России, со схожей риторикой, но достаточно жёсткими обременениями произвольного применения.

Ссылки:
[1] https://ec.europa.eu/commission/presscorner/detail/en/qanda_20_2349

#regulation #eu #datamarket #digital
В качестве вот уже регулярного вынужденного отвлечения на российское регулирование, меня недавно несколько изданий расспрашивали про то на что повлияет инициатива НПА от Минцифры про запрет и блокировки публикаций о том как обходить блокировки. Это, несомненно, такая же вредная инициатива как и многочисленные законы и законопроекты расширяющие государственную цензуру, но одновременно оно же и весьма бессмысленное, на текущей стадии.

Во первых о том как обходить блокировки могут быть совершенно невинные тексты просто о том как устроены VPN и какие продукты существуют. Нет-нет, не призывая их использовать, просто рассказать о них.

Во вторых пишут о VPN сервисах достаточно часто на русском языке те кто в российской юрисдикции никогда не находился или не находится уже давно.

И, наконец, в третьих пока не заблокировали Google, нет шансов что этот запрет будет хоть как-то эффективен.

Я же хочу обратить внимание и ещё раз сделать ключевой акцент, на том что самое неприятное это гораздо менее активно обсуждаемое насаждение госприложений и приложений компаний находящихся под прямым или опосредованным государственным контролем. В частности это касается магазина приложений RuStore.

Почему это опасно? Потому что главный, ключевой и наиболее серьёзный барьер к тотальной слежке - это отсутствие контроля за конечными устройствами. Это то что есть у глобальных корпораций и то чего нет у большинства государств. Обязательные госприложения, с системными правами, например, для просмотра установленного ПО или доступа к сетевой активности, могут в любой момент быть использованы против пользователя, а на постоянной основе создавать дополнительный контур слежки. Я сознательно не хочу описывать сценарии как это можно делать, но исключать такие сценарии нельзя.

Это как с российским корневым сервером для выдачи сертификатов для доступа к сайтам. Очень и очень плохая затея для конечных пользователей.

#privacy #security #regulation
Команда Mozilla опубликовала очередное интересное исследование по приватности, на сей раз приватности при использовании автомобилей 25 брендов и о том как вендоры собирают информацию [1] из которого можно узнать что:
- все без исключения вендоры собирают персональные данные
- 84% вендоров закладывают право передавать или продавать эти данные
- 92% вендоров не дают контроля над своими персональными данными
- 56% вендоров закладывают право передавать данные по запросу госорганов, вне зависимости официальные ли это запросы или "неформальные"
- ни один из вендоров не соответствует минимальным стандартам безопасности которые Mozilla продвигала ранее.
- Nissan, кроме всего прочего, собирает данные о сексуальной активности, не шутка.

В исследовании есть развернутая информация по каждому вендору, а анализ проходил путем изучения их условий использования, политик приватности и иных связанных с техническим оснащением документов. Иначе говоря исследователи проводили бумажный анализ, а не полевой с выявлением куда и как передаются данные, но и юридический бумажный анализ рисует вот такую неприглядную картину.

Ссылки:
[1] https://foundation.mozilla.org/en/privacynotincluded/articles/its-official-cars-are-the-worst-product-category-we-have-ever-reviewed-for-privacy/

#privacy #data #mozilla #research
Свежий европейский доклад Mapping the landscape of data intermediaries [1] о таких посредниках в работе с данными как: системы управления персональной информацией (PIMS), информационные кооперативы, трасты данных, профсоюзы данных, рынки данных и пулы обмена данными.

Много примеров из европейской практики, включая разбор бизнес моделей каждого из 6 типов посредников.

Например, малоизвестные мне ранее, профсоюзы данных (data unions) объединяющие людей предоставляющих свои данные, их примеры: TheDataUnion [2] и Unbankx [3].

А также многое другое. Полезно всем кто хочет знать как изнутри устроены _некоторые_, не все, рынки данных.

Ссылки:
[1] https://publications.jrc.ec.europa.eu/repository/handle/JRC133988
[2] https://thedataunion.eu
[3] https://www.unbanx.me

#data #research #readings #eu
Forwarded from Open Data Armenia (Ivan Begtin)
More Armenian open data available. We added list of all branches of Armenian post (Haypost) [1] in Armenian, English and Russian. Data collected from Haypost public but undocumented API.

Also we added lists of Armenia related keywords [2] in Russian and, in future, in English to collect Armenia-related data from Russian data sources like Goskatalog and National Electronic Library. These lists are still in development and include mostly geographic names related to Armenia and family names related to Armenians.

We keep working to collect more interesting datasets for our upcoming open data contest that we will announce soon!

LInks:
[1] https://data.opendata.am/dataset/armenian-post-branches
[2] https://github.com/opendataam/armenian-keywords

#opendata #armenia #datasets
В рубрике как это работает у них Национальная платформа общественных геопространственных сервисов Китая [1] включает:
- онлайн карты на сайте
- API для данных и геокодирования
- API по стандартам OGC: WMTS и другие
- API для встраивания в сайты
- каталог слоёв карт и данных
- подпорталы и каталоги геоданных для каждой из провинций Китая

Портал поддерживается National Geomatics Center of China находящемся в подчинении у Министерства природных ресурсов КНР.

Непонятно на каком движке сайт работает, скорее этой какой-то самописный/самостоятельный продукт.

В Китае довольно мало открытых стандартизированных API для геоданных, но есть общедоступный ArcGIS сервер компании Geoq [2] который упоминают китайские геоаналитики в своих обзорах.

Ссылки:
[1] https://www.tianditu.gov.cn
[2] https://map.geoq.cn/arcgis/rest/services

#opendata #geodata #china #datasets
Открытые данные в России о которых многие не знают,

- Открытые данные ГУАП [1] ГУАП - это Санкт-Петербургский государственный университет аэрокосмического приборостроения, а на сайте у них есть раздел с API с информацией о ВУЗе. Есть внятное API, для полной открытости нехватает условий использования.
- Открытые API для сервисов Санкт-Петербурга [2] категорически малоизвестный портал Санкт-Петербурга с их официальными API к городским информационным системам. Развивают они его, почему-то, параллельно порталу открытых данных, а не совместно. Как и во многих других случаях, "забывают" написать про условия использования, но сами данные есть.
- Геопортал СВКНИИ ДВО РАН [3] и другие их ГИС сервисы [4] с картами и слоями карт по Дальнему востоку. Включает доступ к данным через открытое API сервера ArcGIS

Ссылки:
[1] https://api.guap.ru/data/
[2] https://api.petersburg.ru
[3] https://hags.north-east.ru:8080/geoportal/catalog/main/home.page
[4] https://www2.neisri.ru/index.php/ru/%D0%B3%D0%B8%D1%81-%D1%81%D0%B5%D1%80%D0%B2%D0%B8%D1%81%D1%8B.html

#opendata #datasets #api #russia #geodata