Инфокультура
895 subscribers
249 photos
4 videos
4 files
814 links
Новости Информационной культуры. https://infoculture.ru
Download Telegram
Инфокультура провела новое исследование приватности мобильных приложений. На этот раз в фокусе — новый магазин мобильных приложений для Android RuStore. Он рекомендован для предустановки на продаваемые смартфоны в России.

Мы изучили данные о 1014 мобильных приложениях и обнаружили 820 приложений (87,8%), которые имеют как минимум один отслеживающий трекер в коде. Для них характерно следующее:

1. По числу приложений, трекеры которых в них установлены, лидируют юрисдикции: США, Россия и Китай. В 93,8% таких приложений используются трекеры компаний США.
2. Российские трекеры, в основном от компаний «Яндекс» и VK, используются 3 477 (58%) приложениях.
4. Всего в 44 приложениях установлены чисто российские трекеры, без соседства с трекерами иных юрисдикций.
5. Только в 17 приложениях нет ни одного разрешения к функциям и данным устройства, а также нет ни одного установленного трекера.
6. Из потенциально опасных разрешений в приложениях чаще всего встречаются: доступ на чтение и запись в хранилище данных, доступ к камере, доступ к точному и приблизительному местоположению, получению информации об устройстве и записи аудио.
7. Из 29 приложений, в которых установлено 10 и более опасных разрешений, 10 приложений — принадлежат компании VK.
8. Больше всего таких разрешений запрашивают приложения «VK Звонки», «Одноклассники», «ICQ», которые принадлежат компании VK.

Подробнее о результатах анализа читайте: https://rustoreprivacy.infoculture.ru.
👍7🔥2
Подробнее о результатах анализа читайте: https://rustoreprivacy.infoculture.ru.
Forwarded from Roskomsvoboda
Давайте вместе защищать приватность и создавать свободный интернет

«Роскомсвобода» продолжает приём заявок на онлайн-хакатон DemHack для IT-специалистов, активистов и цифровых художников.

Подайте заявку на участие, если вы уже разрабатываете или только планируете делать технологические или арт-проекты, связанные с темами:

🔹приватности;
🔹доступа к информации;
🔹свободного интернета.

В каждом из треков есть список задач, которые можно решить в рамках хакатона, например, визуализировать интернет-блокировки, создать решение для безопасной идентификации или разработать коллекцию NFT-иноагентов.

👉 Подать заявку можно до 19 сентября 2022 года включительно.

Хакатон пройдёт в онлайн-формате 24-25 сентября. Все подробности ищите здесь.
👍3
Forwarded from Ivan Begtin (Ivan Begtin)
В качестве регулярных напоминаний, хотя и разработка кода не основное моё занятие, я довольно много публикую открытого кода, более всего для обработки данных. В первую очередь для поддержания собственных навыков в Python и для того чтобы были инструменты для того что сам же делаешь.

Работа с данными
- datacrafter - ETL движок для NoSQL данных с обработкой их с помощью конфигурационных файлов написанных на YAML. Заход на аналог Meltano или Dagster, но для NoSQL. Используется в datacrafter.ru
- apicrafter - автоматизированная оболочка для генерации REST API для доступа к данным в базах MongoDB. Используется в datacrafter.ru
- metacrafter - утилита по автоматической идентификации семантических типов данных. Используется для идентификации персональных данных в наборах данных. Поддерживает базы данных с SQL, файлы JSON, CSV, JSON lines, BSON и MongoDB
- undatum - утилита для командной строки для обработки иерархических данных в JSON lines и BSON. Поддерживает также CSV, но это не основная возможность. Позволяет считать статистику, извлекать частоты значений, уникальные значения, преобразовывать данные
- mongorefine - экспериментальная библиотека для Python по обработке данных в MongoDB как если бы MongoDB была бы колоночной, а не документальной базой. Позволяет проводить операции над коллекциями данных на колоночном уровне: добавлять, удалять, преобразовывать. Функции похожи на функции OpenRefine, известного открытого инструмента для подготовки данных
- mongo2md - утилита и библиотека для Python по автоматическому документированию коллекций для MongoDB
- diffmongo - библиотека для Python по сравнению данных в коллекциях MongoDB

Парсинг и сбор данных
- newsworker - библиотека для Python по автоматическому извлечению текстов новостей из сайтов где нет RSS лент. Работает полностью автоматически, разбирает структуру страницы, идентифицирует картинки, даты, тексты и формирует новостную ленту. Использует библиотеку qddate
- qddate - библиотека для Python для автоматической идентификации дат в любом написании. Умеет распознавать более 300 форматов на многих языках. Используется во многих других репозиториях и проектах.
- russiannames - библиотека для Python по автоматическому парсингу имён на русском языке, идентификации гендера и немножко национальных признаков. Умеет идентифицировать ФИО в форматах "Иван Петров", "Сидоров Иван Петрович", "Иванов В.А.", "Иванова А." и тд. Включает большую базу фамилий, имен и отчеств.
- docx2csv - библиотека для Python и утилита извлечения таблиц из файлов docx. Очень удобна для генерации CSV файлов из разного рода корпоративных и госотчетов. Но только для docx
- lazyscraper - утилита командной строки по быстрому извлечению таблиц и иных данных из веб-страниц с минимальными усилиями кодирования. Фактически только через написание xpath запроса. Изначально хотелось сделать её ещё более умной, но и это оказалось полезным.

Работа с веб-архивами и цифровая архивация
- metawarc - утилита для автоматизации обработки WARC файлов. Изначально создавалась в целях расследований для автоматизации извлечения свойств файлов MS Office и PDF из веб-архивов. Когда ты вначале всё архивируешь, а потом уже из веб архива собираешь метаданные. Я с её помощью проводил исследования использования пиратского ПО в российских госорганах несколько лет назад.
- apibackuper - утилита по автоматизации выгрузки данных из общедоступных API. Используется в Национальном цифровом архиве и в datacrafter.ru для формирования наборов данных
- ydiskarc - утилита для архивации данных по публичным ссылкам на Яндекс диск. Используется в Национальном цифровом архиве для архивации папок с Яндекс Диска
- wparc - утилита по архивации контента сайтов на Wordpress и медиа файлов с этих сайтов посредством встроенного в Wordpress REST API. Используется в Национальном цифровом архиве
- spcrawler - утилита по выгрузке данных из сайтов на базе Sharepoint используя их общедоступное API. Не завершена, но в работе.

#opensource #datatools #data #commandline #python
👍42
Forwarded from Ivan Begtin (Ivan Begtin)
Ещё в 2018 году в Инфокультуре (@infoculture) мы делали множество карт данных, подсказок для хакатонов и тех кто делает продукты на открытых данных о том где открытые данные взять. С той поры у меня не доходили руки привести их все в порядок. Какие-то были более-менее систематизированы, какие-то ещё рассеяны по разным местам.

Наконец-то дошли руки привести их в порядок, сделать машиночитаемый формат и выложить онлайн в репозитории ru-datamaps [1].

Охватываются такие темы как:
- Авиация
- Экология
- Госфинансы
- Законотворчество
- Здравоохранение
- Нефтегазовый сектор
- Образование
- Некоммерческие организации
- Правоохранительная система

Карты в форматах Xmind, PNG, PDF и JSON.

По мере того как буду находить остальные карты, они появятся в этом же репозитории на Github.

Ссылки:
[1] https://github.com/infoculture/ru-datamaps

#opendata #opensource #datamaps #datadiscovery
👍43
Forwarded from Ivan Begtin (Ivan Begtin)
В рубрике регулярных напоминаний не могу не рассказать про сервис оценки простоты языка Простой язык (plainrussian.ru) [1] который я много лет назад сделал и передал в Инфокультуру при её создании.

Это очень простой сервис который на вход получает текст на русском языке и на выходе выдает его сложность в баллах где баллы - это число лет учёбы которые необходимо пройти чтобы понимать этот текст. Например, 11.97 баллов - это, примерно, 1-3 курс ВУЗа, а то есть около 12 лет учебы.

При том что анализ текстов - это, довольно сложная задача в общем понимании, но в данном случае было целью сделать как можно более доходчивый сервис для всех и каждого.

У сервиса есть API [2] и открытый код [3]. Код не обновлялся примерно лет 10, во всяком случае та его часть которая использовалась для расчета формул.

И вот в формулах и было самое сложное и интересное. Алгоритмы сервиса работают на тех же принципах что формулы читабельности текста созданные изначально для английского языка: Flesch-Kincaid, SMOG, Automatic Readability Index и другие. В их основе подсчет числа слов на предложение, среднее число слогов на слово, среднее число букв на слово, число редких слов и так далее.

Когда я задумал впервые сделать такой же алгоритм для русского языка, то столкнулся что для него формул нет. Их надо было, или придумать с нуля, или адаптировать коэффициенты английского языка для русского. В итоге я пошёл вторым путем, но составление собственного языкового корпуса с нужной мне статистикой тогда казалось длительной и неэффективной задачей, поэтому коэффициенты были подобраны грубым перебором за несколько недель-месяцев (?) нескольких десятков миллиардов вариантов коэффициентов на обучающей предразмеченной выборке из пары десятков текстов литературы для внеклассного чтения.

Сейчас всё это можно было бы решить гораздо быстрее, с современными ML инструментами расчеты были бы быстрее чем их проектирование.

Особенность итогового результата в том что тексты простые/бытовые он идентифицирует хорошо, а вот тексты юридические или нормативно-государственные оценивает всегда как особо сложные.

По прежнему сайт остаётся одним из тех проектов которым регулярно пользуются несмотря на его неизменность в последние годы.

Ссылки:
[1] https://plainrussian.ru/
[2] https://github.com/ivbeg/readability.io/wiki/API
[3] https://github.com/infoculture/plainrussian/tree/master/textmetric

#plainrussian #russian #language #api #tools
👍6
Forwarded from Ivan Begtin (Ivan Begtin)
Приватность_в_российских_мобильных_приложениях_Результаты_анализа.pdf
1.3 MB
Вчера прошёл Евразийский конгресс по защите данных [1] о котором я ранее писал. Я там выступал с презентацией Приватность в российских мобильных приложениях. Результаты анализа приложений в RuStore․ Можно посмотреть в записи [2] и я прилагаю презентацию.
Основные выводы:
- Несмотря на публичную риторику "нежелательных стран" российские приложения в рамках импортозамещения передают туда персональные данные
- VK, создатели RuStore, одновременно разрабатывают приложения наиболее насыщенные трекерами
- Импортозамещение не включает защиты интересов потребителей цифровых продуктов․

Подробнее на сайте исследования [3].

Ссылки:
[1] https://edpc.network/
[2] https://www.youtube.com/watch?v=YTfp5uWNkWk
[3] https://rustoreprivacy.infoculture.ru

#privacy #events
👍6
Forwarded from Ivan Begtin (Ivan Begtin)
Для тех кто недавно подписался и в качестве регулярных напоминаний о том кто я и о чем тут пишу.

Я много лет в занимаюсь темой открытых данных и возглавляю АНО Инфокультура НКО со специализацией на открытости данных, государства и, в последние годы, приватности. Наши проекты включают Госзатраты, Открытые НКО, Простым языком и многие другие, их можно найти на сайте. У Инфокультуры есть телеграм канал @infoculture․ Много лет мы организовывали ежегодное мероприятие Open Data Day в России, в этом годы мы не стали этого делать поскольку как диалог с гос-вом она более не работает, большинство людей активно действовавших в открытости гос-ва покинули Россию.

Также я являюсь основателем проекта Национальный цифровой архив (Ruarxive) в котором наша команда архивирует сайты и иной цифровой контент находящиеся под угрозой исчезновения. О нём можно узнать больше в телеграм канале @ruarxive.

Цифровой архив (Ruarxive) и исследования о приватности такие как Исследование приватности мобильных приложений в RuStore - это то на чём мы делали акцент последние пару лет, видя как ухудшается ситуация с открытостью в России.

Пока ещё всем этим удаётся заниматься, хотя и риски растут, а многие наши друзья и некоммерческие организации были признаны инагентами, покинули страну и подвергаются ничем не обоснованным гонениям. Но, безусловно, ресурсов на некоммерческую деятельность стало сильно меньше.

Сейчас значительная часть всей этой некоммерческой активности финансируется тем что она поддерживается нашей коммерческой ИТ компанией где наша ИТ команда делает коммерческие и некоммерческие ИТ проекты, часть из которых известны, часть гораздо меньше чем публичные некоммерческие проекты. Подробнее о нашей компании DataCoon и продаем сервисы через такие продукты как APICrafter.

В основе всех проектов лежит открытый код, значительная часть которого открыта нами и публикуется на нескольких аккаунта на Github.

Я лично финансирую деятельность Инфокультуры и некоммерческие проекты занимаясь консалтингом, консультациями и преподаванием по темам работы с данными и передавая полученные средства на некоммерческую деятельность.

Из России вы можете помочь нашим проектам пожертвовав на сайте Инфокультуры, а также при заказе нам технологических проектов и продуктов можете быть уверены что часть этих средств пойдет на поддержание некоммерческой деятельности.

Также, для проекта Цифрового архива можно пожертвовать сервера, компьютеры, диски, системы хранения и сетевое оборудование. Мы используем его для создания резервных копий и улучшения инфраструктуры проекта.

В этом телеграм канале (@begtin) я пишу по темам открытости данных, технологиях, работы с данными в принципе, инженерии данных, государственных технологиях (gov tech) и стартапах.
Значительно реже, я пишу о общетехнологических вопросах и проблемам с которыми все мы сталкиваемся.

Пожалуйста, имейте это в виду когда подписываетесь, вполне возможно что темы этого канала могут оказаться слишком техническими для кого-то и недостаточно глубоко техническими для других.

#opendata #opensource #opengov #infoculture
2🔥2
Forwarded from Ivan Begtin (Ivan Begtin)
Как, возможно, многие обратили внимание я не размещаю рекламу в моём телеграм канале @begtin, а всем кто общается с подобным выставляю нереальный ценник.

Причина этого в том что я и сам редко вижу приличную рекламу и знаю насколько раздражают "нативные тексты" и то что я ценю аудиторию к которой обращаюсь. Этот телеграм канал я создавал, вначале, как каталог личных публичных заметок и сейчас его держу в той же форме, размечая, по возможности, каждый пост тегами.

Но если бы реклама была, то заработанные деньги пошли бы, всё равно, на деятельность АНО Инфокультура @infoculture которое я возглавляю и такие наши проекты как Простой русский язык, Госзатраты, Открытые НКО и Национальный цифровой архив. А также многие проекты по открытости "зависли" ещё в начале ковидных годов, но хочется надеяться к ним ещё вернуться.

Я лично стараюсь тратить на сохранение этих проектов хотя бы часть заработанного лично. И время от времени, не слишком часто, буду докучать предложениями этим проектам помочь․ Например, через сервис донатов в телеграм.

#fundraising #projects #blogging
5
В каталог каталогов данных Datacatalogs.ru добавлено 18 каталогов данных в форме геопорталов, в большинстве случаев это геопорталы органов власти на базе ArcGIS, но не только.

Особенность геопорталов в том что часто разработчики не предусматривают отдельных разделов выгрузки данных, но данные доступны через документированное или недокументированное API. Часто геопорталы создаются региональными органами власти, например, в форме единых геопорталов региона или города. Существуют геопорталы коммерческих компаний и научных организаций.

Ссылки на добавленные геопорталы։
- https://lgtgis.aari.ru/arcgis/rest/
- https://geoportal.gcras.ru/arcgis/rest/services
- https://gis.gov-murman.ru/
- https://meteo-dv.ru/
- https://gisnao.ru/
- https://gis.rkomi.ru/
- https://agoracle.asutk.ru/arcgis/rest/services
- https://gis.toris.gov.spb.ru/
- https://karta.yanao.ru
- https://map.govvrn.ru
- https://gis.sgm.ru/server/rest/services
- https://maps29.ru/
- https://www.tver.ru/ArcGIS/rest/services
- https://map.novo-sibirsk.ru
- https://geo.govrb.ru
- https://map.samadm.ru
- https://geoportal.egov66.ru
- https://maps.crru.ru/smaps/cmViewer.php

Каталог каталогов данных создан как проект по обнаружению данных, data discovery, с целью упрощения поиска данных по нужным темам и территориям. На сегодняшний день в него включено 280 порталов открытых данных, систем научных репозиториев, геопорталов, реестров открытых данных и порталов открытости бюджетной системы всех регионов России, а также порталы данных о России или связанные с Россией в мире.

Дополнительная цель проекта в архивации порталов данных на случай их возможного исчезновения в будущем.

Мы продолжаем работать над наполнением и визуальным представлением данных в каталоге. В ближайшее время запланирована модернизация веб-интерфейса и публикация самого каталога в форме набора данных и/или API.

Если Вы знаете какие-либо порталы данных, геопорталы и другие каталоги данных не учтённые в datacatalogs.ru - присылайте нам через форму на сайте.

#opendata #datacatalogs #datasets #datadiscovery
👍7🔥1
Введение в анализ данных о культуре в Python

Это онлайн-учебник, который предлагает знакомство с языком программирования Python, специально разработанным для людей, интересующихся гуманитарными и социальными науками.

Учебник демонстрирует, как можно использовать Python для изучения культурных материалов, таких как тексты песен, рассказы, газетные статьи, твиты, сообщения на Reddit и сценарии фильмов. Она также знакомит с такими вычислительными методами, как веб-скрейпинг, API, тематическое моделирование, распознавание именованных сущностей (NER), анализ сетей и картирование.

https://melaniewalsh.github.io/Intro-Cultural-Analytics/welcome.html
5👍2
Forwarded from Roskomsvoboda
«Сбер» предложил бизнесу открыть данные для обмена клиентской информацией

Компания предложила финрынку, маркетплейсам и телекому открыть друг другу данные для обмена клиентской информацией. Зампред правления «Сбера» Александра Ведяхина заявил, что выступает за внедрение открытых интерфейсов в виде модели открытых данных.

Директор НКО «Информационная культура» Иван Бегтин в комментарии «Роскомсвободе» напомнил, что открытые данные – это другое:

💬«В Сбере, конечно, путают. Обмен данными о пользователях — это вообще ни разу не открытые данные. Это данные которыми компании обмениваются между собой. Называются такие инициативы data sharing. В данном контексте она плохая, она усиливает сильных и ослабляет слабых».

➡️ https://roskomsvoboda.org/post/sber-data-sharing/
👍6
Forwarded from Ivan Begtin (Ivan Begtin)
В прошлом году мы командой Инфокультуры не проводили ежегодно проводившийся ранее День открытых данных в Москве (opendataday.ru) поскольку проводить его в марте 2022 года было совершенно неуместно. В течение всего этого года были большие сомнения проводить ли его в 2023 году, потому что значительная часть тех кто с кем ранее мы его организовывали теперь признаны инагентами, многие не признанные уехали и теперь формируют русскоязычную диаспору за пределами РФ, а госорганы в России сильно отходят от тематики открытости. Иначе говоря сомнений было и есть много.

Но День открытых данных не всегда был большой конференцией, в мире он проходит в разных форматах, от митапов и отдельных встреч и семинаров до недельных конференций. Главное - тематика открытости, открытых данных и открытости гос-ва/корпораций. Поэтому, возможно и никогда не поздно провести его хотя бы в сокращённом формате и по тем темам которые остаются актуальными.

Для того чтобы понять проводить ли мероприятие в этом году и если проводить то как мы сделали опрос https://forms.gle/p1EH8fSNTH6LsVEf7

Цель опроса понять актуален ли ещё День открытых данных, о чём хочется на нем услышать и есть ли достаточное число докладчиков. Чем больше заинтересованных в открытых данных его заполнит, тем больше вероятность проведения. Так что заполняйте и распространяйте;)

#opendata #opendataday
7
Forwarded from Ivan Begtin (Ivan Begtin)
Как я обещал публикую результаты опроса по поводу организации Дня открытых данных в Москве в 2023 году. Всего опрошенных 100 человек, из опроса можно узнать что։
- большинство за его проведения
- 11 потенциальных докладчиков, плюс ещё несколько приглашённых, в итоге до 14-15
- большинство интересуют лекции и разборы кейсов
- ждут доклады средней сложности
- большинство специалисты по работе с данными и исследователи
- ключевые темы которые большинству интересны։
— где искать данные
— открытые государственные данные
— open source инструменты на данных

Результаты очень хорошие, видно что многим не хватало дня открытых данных в прошлом году.

Итого։ мы начинаем планировать ОДД, предварительный ориентир 4 марта, пока склоняемся к формату того чтобы сделать онлайн конференцию + митап вживую на следующий день. Докладчиков не так много поэтому пока непонятно нужен ли программный комитет, но если есть кого в него порекомендовать напишите мне в личку. Рекомендовать можно кого-то кроме самого себя.

Напомню что День открытых данных (ODD) - это ежегодные мероприятия происходящие одновременно по всему миру в форматах митапов, конференций, хакатонов и других мероприятий. Последний раз в России он проходил в 2021 году. Ранее на эти мероприятия мы активно приглашали российских чиновников и представителей бизнеса, сейчас мы возвращаемся к изначальному формату проведения сообществом ради сообщества.

И, конечно, если Вы захотите организовать локальный митап/хакатон/другое событие в своём городе в России, то напишите нам на [email protected] или мне в личку о том какая нужна помощь, если она нужна.

#opendataday #opendata #events
👍8🔥2