Ivan Begtin
7.99K subscribers
1.87K photos
3 videos
101 files
4.58K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]
Download Telegram
В рубрике что читать регулярно, подборка рассылок для полезного чтения про данные и технологии.

Проектирование систем
- ByteByteGo [1] регулярная рассылка по системному дизайну с большим числом наглядных визуализаций от автора System Design Interview. Очень доходчиво, для начинающих - обязательно, для опытных в технологиях - полезно

Инженерия данных
- Data Engineering Weekly [2] известная рассылка по инженерии данных. Ничего сверх выдающегося, ничего лишнего. Минимальные комментарии составителя, много ссылок на корпоративные публикации про их стеки данных.

Data Science
- The Sequence [3] рассылка с материалами по ИИ в режиме weekly curated digest (еженедельная отбираемая подборка). Не слишком технично чтобы читать не только учёным, не слишком популярно чтобы был полной ерундой.

Открытые данные
- The Week in Data [4] рассылка от Open Data Institute (UK) про открытые данные и практики обмена данными (data sharing). Половина про их дела, половина про новости по миру.

Ссылки:
[1] https://blog.bytebytego.com
[2] https://www.dataengineeringweekly.com/
[3] https://thesequence.substack.com
[4] https://theodi.org/knowledge-opinion/the-week-in-data/

#readings #data #mailing
Может ли открытый код помочь построить открытое общество?

Одноимённая статья Can open-source technologies support open societies? [1] от The Brookings Institution о том что открытый код может помочь в построении открытых обществ и помочь в достижении целей устойчивого развития.

Всё это актуально в рамках "Дорожной карты цифровой кооперации" опубликованной в ООН в 2020 г. [2]

Общая идея в том что, да, открытый код и общественная цифровая инфраструктура (digital public infrastructure) способны создавать новые экосистемы, но важно помнить что происходит это только при целенаправленных шагах в этом направлении.

Статья полезная и отражает международную повестку продвигаемую ООН с практической точки зрения.

Ссылки:
[1] https://www.brookings.edu/research/can-open-source-technologies-support-open-societies/
[2] https://www.un.org/en/content/digital-cooperation-roadmap/

#opensource #un #readings
Если Вы используете <что угодно>, то за Вами следят

Скоро это будет универсальным заголовком, потому что экономика слежки, surveillance capitalism, также называемая надзорным капитализмом устроена так что даже если Вы ничего не имеете и никому не нужны за Вами всё равно следят, а если тратите и деньги у Вас есть, то следят гарантированно и повсеместно.

Свежая новость, ТикТок поймали на слежке через браузер встроенный приложение [1], собственно не только ТикТок, но и многие другие встраиватели браузеров в аппы стали внедрять в просматриваемый HTML код возможность отслеживания действий пользователей.

Но ТикТок пошёл дальше всех и начал отслеживать вообще ВСЕ действия который пользователь делал при открытии страницы: нажатые клавиши и тд. Поймали это с помощью сервиса InAppBrowser.com который можно открыть в одном из приложений на iPhone и убедиться в том что код внедрен в тело страницы. Таким же образом недавно поймали Meta [2] ровно на том же самом.

Для тех кто хочет технических подробностей, автор находок Felix Krause рассказывает о них у себя в блоге [3]

Ссылки:
[1] https://www.forbes.com/sites/richardnieva/2022/08/18/tiktok-in-app-browser-research/
[2] https://www.theguardian.com/technology/2022/aug/11/meta-injecting-code-into-websites-visited-by-its-users-to-track-them-research-says
[3] https://krausefx.com/blog/ios-privacy-instagram-and-facebook-can-track-anything-you-do-on-any-website-in-their-in-app-browser

#privacy #mobileapps #facebook #tiktok
Forwarded from Инфокультура
Инфокультура провела новое исследование приватности мобильных приложений. На этот раз в фокусе — новый магазин мобильных приложений для Android RuStore. Он рекомендован для предустановки на продаваемые смартфоны в России.

Мы изучили данные о 1014 мобильных приложениях и обнаружили 820 приложений (87,8%), которые имеют как минимум один отслеживающий трекер в коде. Для них характерно следующее:

1. По числу приложений, трекеры которых в них установлены, лидируют юрисдикции: США, Россия и Китай. В 93,8% таких приложений используются трекеры компаний США.
2. Российские трекеры, в основном от компаний «Яндекс» и VK, используются 3 477 (58%) приложениях.
4. Всего в 44 приложениях установлены чисто российские трекеры, без соседства с трекерами иных юрисдикций.
5. Только в 17 приложениях нет ни одного разрешения к функциям и данным устройства, а также нет ни одного установленного трекера.
6. Из потенциально опасных разрешений в приложениях чаще всего встречаются: доступ на чтение и запись в хранилище данных, доступ к камере, доступ к точному и приблизительному местоположению, получению информации об устройстве и записи аудио.
7. Из 29 приложений, в которых установлено 10 и более опасных разрешений, 10 приложений — принадлежат компании VK.
8. Больше всего таких разрешений запрашивают приложения «VK Звонки», «Одноклассники», «ICQ», которые принадлежат компании VK.

Подробнее о результатах анализа читайте: https://rustoreprivacy.infoculture.ru.
Результаты свежего исследования Инфокультуры с анализом приватности (читай - слежки) 1014 мобильных приложений для Android опубликованных в магазине приложений RuStore.

Мы работали над ним около месяца, анализируя все опубликованные приложения на предмет тех разрешений которые затребуют на устройствах пользователей и наличия в них кода специальных библиотек (трекеров) используемых для слежки за потребителями.

Почему RuStore и приложения оттуда? Потому что усилиями Минцифры РФ и Правительства РФ именно этот магазин приложений стал официальным, фактически, нормативно закреплённым. Можно говорить о том что компания ВК и Правительство РФ теперь несут совокупную ответственность за то как приложения оттуда следят за нами.

Выводы [не]удивительные:
- большая часть приложения включает трекеры, требуют больше разрешений чем им реально может быть нужно, а сам магазин приложений не имеет стандартов верификации.
- большая часть приложений передают данные компаниям в юрисдикциях которые Правительство РФ называет "недружественными"
- даже госприложения включают трекеры, например компании Google, передающие данные о гражданах в другие страны и в BigTech корпорации

44 госприложения мы анализировали в прошлом году, но в этот раз решили подойти масштабнее и проанализировали 1014 приложений всех категорий. Было это дольше, но не менее увлекательно.

С результатами исследования мы публикуем все данные в CSV и исходный код по их подготовке [2].

Если будут сложности самостоятельного анализа данных в CSV и если Вы журналист или исследователь, хотите сделать собственную визуализацию или материал, свяжитесь с нами на [email protected], мы поможем․

Ссылки:
[1] https://rustoreprivacy.infoculture.ru
[2] https://github.com/infoculture/rustore-privacy/

#privacy #infoculture #android #mobileapps
Из-за сделки Яндекса с ВК наша новость про результаты исследования приватности мобильных приложений [1] слегка утопла, пишут о ней куда меньше чем хотелось бы, но актуальность оно сохранит ещё долго.

Я дополню несколькими важными тезисами которые в основную часть исследования не попали:
1. То что мы проанализировали - это статический анализ, он показывает наличие кода который предполагает передачу данных. Не анализировалось то какие приложения сами собирают и что для себя. Такие методики есть, но это сильно-сильно дольше и дороже, называется динамический анализ, делается стартапами вроде AppCensus.
2. Почему RuStore? Потому что он стал официальным государственным магазином приложений. Это его принципиально отличает от всех остальных магазинов приложений в России.
3. Что не успели - не успели сопоставить те же приложения в Google Play, трудоёмкость избыточна и выборочные проверки показали что разработчики не заморачиваются разными версиями приложения для разных магазинов приложений.
4. Что важно? У RuStore отсутствуют очень важные данные по популярности и числу скачиваний по приложениям. В результате сложно измерить "уровень вреда" по влиянию (impact) приложений, как говорят.
5. Что не стали делать? Не стали сознательно делать списки приложений которыми лучше не пользоваться и которые лучше заменить.
6. Что ещё можно было бы сделать в будущем? Добавить юридический анализ, посмотреть в условия использования и их соответствие фактической ситуации наличия трекеров внутри приложения.

Ссылки:
[1] https://t.iss.one/begtin/4187

#android #mobileapps #privacy
В рубрике интересных продуктов для работы с данными SurrealDb [1] свежая документоориентированная СУБД категории NewSQL позиционируемая создателями как облачная без-серверная СУБД.

Облачная версия у них ещё в разработке, а открытый код уже общедоступен, можно установить и тестировать на собственных задачах.

Внутри язык запросов похожий на SQL, но не SQL, называется https://SurrealQL [2] не поддерживающий JOIN'ы по изначальному его дизайну.

Причём код стал открытым только летом прошлого года [3], а на сентябрь обещают версию 1.0, однако сейчас он стремительно набирает популярность, порядка 1500+ лайков за август 2022 года и далее популярность нарастает.

Среди клиентских библиотек основная NodeJS, по позиционированию СУБД скорее под Jamstack чем под MDS (Modern Data Stack), так что для тех кто программирует на JS она может быть полезной находкой.

Ссылки:
[1] https://surrealdb.com
[2] https://surrealdb.com/docs/surrealql
[3] https://surrealdb.com/roadmap

#opensource #rdbms #datatools
Если российские подсанкционные банки так хотят иметь приложения в аппсторе, то реально путь у них только один - разрабатыва́ть и публиковать открытые спецификации и API для доступа, так чтобы приложения были не для доступа к ним, а типа универсальные, для подключения к любому банку по этому стандарту. Примеры вроде OpenBanking в мире есть.

Но что-то мне подсказывает что ничего такого не будет.

#thoughts
В журнале IEEE Spectum вышел обзор Top Programming Languages 2022 [1] о самых популярных языках программирования по категориям сводного рейтинга (spectrum), вакансий и трендов.

Там же у них методика [2] на основе частотности упоминаемости на различных ресурсах и

Python на 3-м месте в вакансиях и на первом в остальных. Чему я лично рад, поскольку Python вот уже много лет мой любимый язык программирования, не удивительна популярность Java, а вот SQL резко выбился в лидеры востребованности у работодателей.

В том же журнале об этом отдельная статья The Rise of SQL [3], но там даже не упоминают Modern Data Stack, унификацию языка запросов, восхождение dbt и тд. В общем у меня нет ощущения значительной глубины понимания из той заметки, но, их взгляд на происходящее имеет право на существование.

Для сравнения в исследовании JetBrains за прошлый год на первом месте был Javascript [4] и мне лично, наоборот, это не нравится, JS вообще не вызывает у меня симпатии с самого его зарождения. И у JetBrains в исследованиях гораздо популярнее и востребованнее Go и Rust и другие молодые языки разработки.

Поэтому к публикации в IEEE Spectrum надо бы относится с долей осторожности, но изучать и преподавать Python никогда не поздно;)

Ссылки:
[1] https://spectrum.ieee.org/top-programming-languages-2022
[2] https://spectrum.ieee.org/top-programming-languages-methods
[3] https://spectrum.ieee.org/the-rise-of-sql
[4] https://www.jetbrains.com/lp/devecosystem-2021/

#python #languages #programming
Wir dokumentieren Deutschland

В рубрике как это работает у них проект bund.de [1] и его основательница Лилит Виттманн. Лилит с волонтерами занимается тем что находит недокументированные государственные API, документируют их и выкладывают документацию на сайт bund.de помогая повторному использованию данных. Фактически выполняют за правительство Германии ту работу которую они должны делать сами. Например, во Франции этим занимается государственная компания Etalab создавшая каталог api.gouv.fr

Из свежих работ Лилит и её команды - это превращение торгового реестра Германии (аналога российского ЕГРЮЛа) в машиночитаемую форму. С 1 августа в Германии он стал "открытым", но лишь частично, не в виде открытых данных. Она пишет у себя в блоге о том как они обрабатывают эти данные и собирают набор данных [2]. В общий доступ они его не выкладывают, но можно заполнить форму и получить их для исследовательских целей (это около 100ГБ).

То что делает Лилит и команда волонтеров - это то что волонтеры в Германии, Великобритании, России и т.д. делали ещё 10 лет назад. До появления национальных порталов открытых данных мы устраивали хакатоны и конкурсы по извлечению данных из открытых источников и превращению их в открытые данные.

Потом стали появлятся госинициативы, но не все из них были достаточно системы чтобы решить вопросы с доступом к данным, поэтому история ходит по кругу.

В прошлом году наша команда собрала более 100 открытых точек подключения к открытым недокументированным API информационных систем в России и сделать аналог bund.de или api.gouv.fr это несложно и быстро. Но время ещё, видимо, не пришло.

Кстати, Лилит Виттманн известна тем что когда-то вычислила секретное германское ведомство с помощью Airtag [3]. Так что боевая девушка, думаю что ещё станет депутатом Бундестага когда-нибудь или сделает политическую карьеру.

Ссылки:
[1] https://bund.de
[2] https://lilithwittmann.medium.com/bund-dev-wir-befreien-das-handelsregister-8168ad46b4e
[3] https://t.iss.one/begtin/3473
#opendata #germany #opengov #api
В рубрике о нас пишут, о нашем исследовании приватности мобильных приложений написали:
- Эксперты оценили долю американских трекеров в RuStore РБК
- «Инфокультура» исследовала приватность мобильных приложений в RuStore Роскомсвобода
- Почти 90% приложений в RuStore имеют встроенный иностранный трекер Runet.News
- В приложениях российского магазина RuStore нашли зарубежные модули слежки Ferra
а также ещё пара десятков СМИ и телеграм каналов.

Не менее важно кто ничего о нём не написал: CNews, Коммерсант, Ведомости и ещё ряд изданий. Как говорится, Бог простит, а я запишу (с) ;)

Это не последнее наше исследование, будут и другие и не только про мобильные приложения.

#research #privacy #mobileapps
В рубрике больших наборов данных, базы событий в Github.

Github - это крупнейшая в мире платформа по работу с открытым кодом, с открытым API и возможностью отслеживать собственные и чужие репозитории кода. Она часто является объектом работы исследователей и существует несколько крупных слепков данных по событиям на платформе.

GHTorrent [1] большой слепок данных за 2019-2020 годы, не обновлявшийся с июля 2020 года. Удобно что сразу можно скачать в формате MongoDB, неудобно неактуальностью

GHArchive [2] база из 20+ событий в Github, в виде файлов дампов для выгрузки и обработки․ Пишут правда что в данных есть существенные пробелы [3].

Копия базы из GHArchive есть в онлайн базе Clickhouse [4] на декабрь 2020 года. Доступ удобнее, но пробелы и устаревание присутствуют.

Альтернативные способы - это использовать открытое API проекта Software Heritage [5] или API самого Github [6]․

Ссылки:
[1] https://ghtorrent.org/
[2] https://www.gharchive.org/
[3] https://medium.com/@jennysahng/how-to-mine-github-data-in-2022-e9c70b3f61d3
[4] https://ghe.clickhouse.tech/
[5] https://archive.softwareheritage.org/api/
[6] https://docs.github.com/en/rest

#opendata #datasets #opensource
В рубрике как это работает у них Атлас биоразнообразия Австралии [1]

Это большой национальный исследовательский проект по консолидации всех исследовательских данных о флоре и фауне Австралии. Он объединяет данные десятков биобанков страны и на нём опубликовано более 11 тысяч наборов данных [2] большая часть которых - это списки/подборки видов животных и растений по типу и месту.

В атласе собрано уже более 113 миллионов записей и значительная их часть - это материалы собираемые проектами гражданских учёных (citizen scientists) и оцифрованные прямой грантовой поддержкой.

В Австралии существует 644 гражданских проекта сбора информации о животных [3], специальное мобильное приложение BioCollect App [4].

А также ежегодно по грантовой программе можно получить от 20 до 50 тысяч австралийских долларов на оцифровку существующих архивов в рамках Australian Biodiversity Data Mobilisation Program [5]. То есть, если какой-то музей или университет Австралии хочет оцифровать и выложить данные по своей коллекции фотографий кенгуру или записок полевых исследователей, то у них есть возможность претендовать на грант и компенсировать хотя бы часть расходов.

При достаточно простых условиях:
- эти данные уже должны существовать, оплачивается их оцифровка
- они должны быть связаны с национальными приоритетами
- в форме записей о встречаемости видов
- в виде открытых данных и с соблюдением стандарта Darwin Core

Ссылки:
[1] https://www.ala.org.au
[2] https://collections.ala.org.au/datasets
[3] https://biocollect.ala.org.au/acsa#isCitizenScience%3Dtrue%26max%3D30%26sort%3DdateCreatedSort
[4] https://www.ala.org.au/biocollect-mobile-apps/
[5] https://www.ala.org.au/blogs-news/the-ala-australian-biodiversity-data-mobilisation-program/

#opendata #datasets #australia
Для тех кто проектирует продукты на данных Data Product Canvas [1] нарисованный профессором Leandro Carvalho и доступный всем желающим.

Правда не он первый рисующий подобное. Например, похожий по смыслу и иной по стилю есть от команды Know-Center GmbH, Graz [2] в Австрии.

А если поискать то найдется и ещё. Такие штуки полезны при проектировании продуктов основанных на данных, возможно какие-то даже стоит перевести на русский язык.

Ссылки:
[1]https://medium.com/@leandroscarvalho/data-product-canvas-a-practical-framework-for-building-high-performance-data-products-7a1717f79f0
[2] https://aisel.aisnet.org/bled2020/8/

#itarchitecture #itdesign #data #dataproducts
У Postman вышел их ежегодный обзор 2022 State of the API Report [1] составленный через опрос разработчиков пользующихся их платформой и схожий с исследованиями JetBrains.

Исследование полезное, много графиков, большая выборка, много чего любопытного. Конечно, с оговоркой что они делают акценты там где их собственный продукт посильнее, а некоторые темы вроде предпочтений по корпоративной интеграции или языки разработки охватывают мало или недостаточно.

Полезно будет, в первую очередь, тем кто выбирает приоритеты в изучении новых технологий.

Ссылки:
[1] https://www.postman.com/state-of-api/how-to-share-the-report/

#api #studies #research #postman