Ivan Begtin
8.1K subscribers
2K photos
3 videos
102 files
4.72K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]
Download Telegram
Группа исследователей в области инфобеза выяснили что сервис аналитики компании Apple, так и называется Apple Analytics, собирает персонально идентифицирующую информацию о пользователях [1].

В передаваемых данных там есть параметр "dsId" который они проверили и подтвердили что он является "Directory Services Identifier”, уникальный идентификатор аккаунта iCloud, хотя в условиях использования Apple фигурирует что [2] None of the collected information identifies you personally.

Ждём опровержений, исков к Apple, расследований регуляторов в ЕС и США.

Ссылки:
[1] https://twitter.com/mysk_co/status/1594515229915979776
[2] https://www.apple.com/legal/privacy/data/en/device-analytics/

#privacy #security #apple #surveillance
ТикТок анонсировали API для доступа к их аналитике исследователям/учёным [1]. Сами ссылки на API и форма запроса доступа, видимо, появятся позже, а сейчас с ними работают представители их Content and Safety Advisory Councils (общественных советов по контенту).

Ссылки:
[1] https://newsroom.tiktok.com/en-us/an-update-on-our-platform-api-for-researchers

#api #tiktok #transparency #data
Забавный текст и термин уютные данные или cozy data [1] за авторством Zach Musgrave в блоге Dolthub. Идея очень проста, в том что cozy data это такой антоним big data. Это такие данные которыми ты занимаешься как хобби, вроде личной картотеки личной коллекции бабочек или результативности игроков в настольный теннис. Иначе говоря это небольшие по объёму, хорошо структурируемые и лично курируемые данные над которыми, как правило, работает один человек, реже больше.

Если не считать того что автор бесстыдно рекламирует Dolthub сама концепция весьма интересная. Cozy дата в этом смысле - это бесконечно число баз в Excel и Access созданное за десятки лет. Частично их создатели перебрались в Google Sheets и Airtable, но далеко не все.

Для тех кто живёт в мире уютных данных главным недостатком онлайн сервисов является подписочная модель оплаты. Я больше поверю в развитие продуктов вроде Strapi и Directus именно для таких пользователей.

Но, кто знает, быть может кто-то ещё сможет создать гармоничное сочетание гибридного клиент-серверного аналога Access'а когда от потери доступа к онлайн сервису доступ к своим данным потерян не будет.

Ссылки:
[1] https://www.dolthub.com/blog/2022-11-18-cozy-data/

#data #datatools
Инструмент того как можно / нужно и хорошо визуализировать статистику переписи и иную гиперлокальную статистику. Census Maps [1] от статистической службы Великобритании отображает данные максимально гиперлокальным образом, с подсветкой кварталов и с детализацией по региону происхождения, по числу членов семьи, по доле мигрантов и многое другое.

Пока проект в режиме бета, там только индикаторы связанные с населением, но даже так выглядит более чем интересно.

Всё это результаты переписи 2021 года. Также по ней есть публичный план публикации свежих данных [2]

Отдельно можно поговорить почему подобное невозможно или очень и очень сложно сделать для России. А прежде чем поговорить, сделаю ка я опрос. Он будет следующим постом.

Ссылки:
[1] https://www.ons.gov.uk/census/maps
[2] https://census.gov.uk/census-2021-results/phase-one-topic-summaries

#data #opendata #census #uk #statistics
Иногда поражает какие стартапы получают финансирование, например, стартап OneSchema [1] автоматизирует загрузку и проверку CSV файлов. Основатели позиционируют свой продукт как the embeddable CSV importer for developers и получили недавно $6.3 миллиона инвестиций от нескольких венчурных фондов.

Лично мне эта задача всегда казалась слишком маленькой чтобы её стоило или было бы важно автоматизировать. Но, нет, оказывается венчурные фонды думают иначе.

Это хороший пример небольшого, но очень точного продукта для работы с данными решающего очень узкую задачу и оказавшегося востребованным.

Ссылки:
[1] https://www.oneschema.co
[2] https://www.oneschema.co/blog/oneschema-announces-6m-fundraise

#datatools #startups #data #csv
В рубрике доступных открытых данных и инструментов работы с ними։
- Ensaio [1] инструмент с открытым кодом для работы с данными о геонауках․ Включает множество наборов наборов данных из проекта Fatiando a Terra [2]
- Corpus of Decisions: Permanent Court of International Justice (CD-PCIJ) [3] набор данных и научная статья о решениях Постоянной палаты международного правосудия Лиги Наций, действовавшей с 1920 года по 1940 год. Данных не так много, 259 документов на английском языке и 260 на французском, но они хорошо структурированы.
- Human and economic impacts of natural disasters: can we trust the global data? [4] статья в Nature о том что невозможно до конца доверять данным о природных катастрофах потому что они недостаточно качественно собираются.
- Redesign and new features for data.europa.eu [5] европейский портал открытых данных готовят к обновлению. Много изменений обещают, главное в том что владельцы данных смогут публиковать их на портале напрямую, а не на национальных порталах открытых данных. А также в том что европейский портал приближается к научным порталам данных и будет поддерживать принципы FAIR.

Ссылки։
[1] https://www.fatiando.org/ensaio/v0.5.0/index.html
[2] https://github.com/fatiando-data
[3] https://zenodo.org/record/7051934
[4] https://www.nature.com/articles/s41597-022-01667-x
[5] https://data.europa.eu/en/news-events/news/redesign-and-new-features-dataeuropaeu

#opendata #readings
Результаты опроса. В итоге видно что уровень доверия в России Росстату (и не только) весьма и весьма низок. Впрочем, ничего неожиданного.
Актуальное про приватность в мире։
- В Китае регулятор опубликовал черновик закона о регулировании кредитного скоринга Law on Establishing the Social Credit System [1]. По сути устанавливая требования комплаенса для компаний предоставляющих подобные сервисы. Но это ещё только черновик
- В Испании три организации создали Observatorio de Trabajo, Algoritmo y Sociedad (Обсерватория труда, алгоритмов и общества) предназначенную для исследования влияния алгоритмов на рынок труда. Первым их проектом является расследование в отношении сервиса доставки Glovo [2]. Они уже ведут карту судебных разбирательств доставщиков еды и сервисов Glovo, Deliveroo и др․ [3]
- В Испании министерство внутренних дел тестирует систему распознавания лиц на базе продукта французской компании Thales [4].
- Европейский центр алгоритмической прозрачности создан в Севилье (Испания) [5] в рамках DSA (Digital Services Act), свежего законодательства Евросоюза.

Ссылки։
[1] https://www.chinalawtranslate.com/en/franken-law-initial-thoughts-on-the-draft-social-credit-law/
[2] https://www.eldiario.es/catalunya/riders-taxistas-autonomos-unen-denunciar-glovo-cnmc-cartel-no-competir_1_9698511.html
[3] https://observa-tas.org/mapa-de-conflictos/
[4] https://www.eldiario.es/tecnologia/interior-prepara-sistema-reconocimiento-facial-identificar-sospechosos_1_9711509.html
[5] https://algorithmic-transparency.ec.europa.eu/index_en

#privacy #facerecognition #ai #algorithms #regulation
Как, возможно, многие обратили внимание я не размещаю рекламу в моём телеграм канале @begtin, а всем кто общается с подобным выставляю нереальный ценник.

Причина этого в том что я и сам редко вижу приличную рекламу и знаю насколько раздражают "нативные тексты" и то что я ценю аудиторию к которой обращаюсь. Этот телеграм канал я создавал, вначале, как каталог личных публичных заметок и сейчас его держу в той же форме, размечая, по возможности, каждый пост тегами.

Но если бы реклама была, то заработанные деньги пошли бы, всё равно, на деятельность АНО Инфокультура @infoculture которое я возглавляю и такие наши проекты как Простой русский язык, Госзатраты, Открытые НКО и Национальный цифровой архив. А также многие проекты по открытости "зависли" ещё в начале ковидных годов, но хочется надеяться к ним ещё вернуться.

Я лично стараюсь тратить на сохранение этих проектов хотя бы часть заработанного лично. И время от времени, не слишком часто, буду докучать предложениями этим проектам помочь․ Например, через сервис донатов в телеграм.

#fundraising #projects #blogging
Кстати, если Вы ещё не подписались на наш телеграм канал @ruarxive, то самое оно время. Не только новости про архивы и сам проект Национального цифрового архива, но и про другие проекты в цифровой гуманитаристики, архивации, сохранении современного культурного наследия
⚡️Новый сервис от Internet Archive: scholar.archive.org

Этот полнотекстовый поисковый индекс включает в себя более 25 миллионов научных статей и других научных документов, хранящихся в Архиве Интернета.

Метаданные поступают из fatcat.wiki — открытого каталога научных работ.

Подробнее о сервисе: https://scholar.archive.org/about.