Ivan Begtin
7.99K subscribers
1.86K photos
3 videos
101 files
4.57K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]
Download Telegram
Уже почти год Австралийская комиссия по делам конкуренции и потребителей ведет расследование платформ цифровой рекламы и 28 января опубликовали промежуточный отчет [1] с анализом устройства рынка рекламы, какие компании и в каком объёме на нём представлены, как реально устроены процессы размещения и управления рекламой на платформах, у потребителей, в системах подготовки рекламных кампаний и так далее. Это огромный содержательный и подробный отчет на 222 страницы с акцентом австралийский цифровой рынок, но актуально и для других стран, во многих случаях картина идентичная.

Это исследование закончится к августу 2021 года и можно ожидать нового регулирования AdTech индустрии не только в Австралии, но и в мире, поскольку законодатели по всему миру смотрят друг на друга и на то у кого же получится регулировать цифровые корпорации и каким образом.

Ссылки:
[1] https://www.accc.gov.au/system/files/Digital%20Advertising%20Services%20Inquiry%20-%20Interim%20report.pdf

#privacy #dmp #adtech #australia
Solving public problems [1] свежий открытый бесплатный онлайн курс от The Govlab в NYU Tandon School of Engineering. Курс нацелен, в первую очередь, на государственных служащих целью которых является решение общественных проблем современными методами - использованием данных и вовлечением граждан.

Курс основан на свежей книге Solving Public Problems: A Practical Guide to Fix Government and Change the World [2] за авторством Beth Noveck, также посвященной вопросам решения общественных проблем.

Я могу порекомендовать, и курс, и книгу, с тем что тут важно помнить что этот курс и книга про технологии и их применение, созданы без учёта национальных особенностей или законодательных ограничений в разных странах, таких как Россия.

Ссылки:
[1] https://engineering.nyu.edu/news/governance-lab-launches-online-course-innovation-social-good
[2] https://solvingpublicproblems.org/book.html

#governance #thegovlab #courses
Digital Services Act [1] [2] законопроект внесённый в Европарламент 15 декабря 2020 года по новому регулирует отношения стран Евросоюза и цифрового рынка. Прочитать его стоит всем кто оказывает онлайн услуги для жителей Евросоюза или оказывается в юрисдикции Евросоюза.

Для тех у кого нет времени читать документ целиком, сейчас доступна презентация с семинара который Еврокомиссия проводила для балканских стран [3]

Ключевое в нем:
1. Платформы обязаны сообщать правоохранителям о нелегальной активности пользователей, нелегальность регулируется национальным законодательством стран ЕС.
2. У каждой организации регулируемой DSA должен быть юридический представитель в ЕС (не путайте с представительством компании). Регулирование как и GDPR становится экстерриториальным
3. Объём регулирования пропорционален размеру компании
4. Вводится понятие "очень больших платформ" и большой объём отчетности и требований по прозрачности который эти платформы должны соблюдать.
5. При нарушении наказание может составить штраф до 6% оборота.

Бизнес активно против, например, можно почитать позицию Developers Alliance, ассоциации разработчиков ПО [3] где они против регулирования как DSA, так и другого законопроекта, DMA, даже сильнее регулирующего цифровой бизнес.

Я бы обратил особое внимание на определение "очень больших платформ" подвергающихся особому регулированию
‘Value set at 10% of the EU population (45 mil.), as a proxy value for the significant, systemic role and potential impact of such services.

Речь, конечно же, в первую очередь про Google, Facebook, Apple, Twitter и др.

Если говорить про компании значимые в России то вопрос в том подпадут ли под это регулирование Яндекс и Mail.ru как "очень большие платформы" или только как "онлайн платформы" (тогда поменьше отчетности, но тоже есть)?

В любом случае после принятия DSA российские платформы где есть пользователи из Евросоюза должны будут соответствовать этому регулированию и возникнет ситуация неравенства когда граждане евросоюза в "российских платформах" будут иметь больше прав чем граждане России.

Ссылки:
[1] https://en.wikipedia.org/wiki/Digital_Services_Act
[2] https://ec.europa.eu/digital-single-market/en/digital-services-act-package
[3] https://www.euractiv.com/wp-content/uploads/sites/2/2021/02/05_TAIEX-DSA.pdf
[4] https://static1.squarespace.com/static/53864718e4b07a1635424cdd/t/5f9c392507d2aa5b3e812459/1604073766050/Developers+Alliance+Standpoints+On+The+Digital+Services+Act+And+The+Digital+Markets+Act+Next.pdf

#privacy #eu #regulation #digitalmarket
Net Zero Challenge [1] конкурс питчей проектов и идей по использованию открытых данных в борьбе с изменением климата от Open Knowledge Foundation [2].

Поддержку конкурсу оказывают Microsoft и МИД Великобритании (UK Foreign, Commonwealth & Development Office)

Призы до $1000, то есть, проект явно нацелен на отдельных разработчиков и активистов, а не на организации. Правда, сумма, прямо скажем, совсем не велика и скорее он нацелен на активистов в развивающихся странах. И на тех кто хочет добавить международного признания и ещё немного денег для своих уже созданных проектов.

Ссылки:
[1] https://www.netzerochallenge.info/
[2] https://blog.okfn.org/2021/01/28/launching-the-net-zero-challenge-a-global-pitch-competition-about-using-open-data-for-climate-action/

#opendata #climate
State of ... / Состояние в области ... - это большой жанр отчетов/докладов/обзоров состояний в отраслях который стал довольно популярен у исследовательских и коммерческих компаний в последние несколько лет. Я регулярно пишу со ссылками на подобные обзоры за 2020 годи собрал их в одну публикацию:

- State of CSS - состояние CSS фреймворков за 2020 год
- State of JS - состояние движков для Javascript за 2020 год
- State of devops - состояние технологий development operations от Puppet
- State of remote work - состояние дистанционной работы от Buffer
- State of AI 2020 - состояние технологий искусственного интеллекта
- State of profession - состояние профессий от GreenBiz
- State of work - состояние труда от Workfront
- State of European Tech - состояние технологий в Евросоюзе
- State of Application Service - состояние рынка приложений от F5
- State of Enterprise open source - состояние корпоративного рынка открытого кода от Redhat
- State of software supply chain - состояние рынка цепочки поставок ПО от Sonatype
- State of API - состояние рынка API от Postman

Не привожу примеры State of data science, их ежегодно публикуют пара десятков организаций

Все эти обзоры разного качества, но примерно одного жанра. Хотя они и составляются с оглядкой на рыночное позиционирование компаний, но имеют ценность в отличие от большей части маркетинговых материалов. Лично я отслеживаю пару десятков источников таких отчетов поскольку часто в них проскакивают тренды которые по другому не найдешь и не заметишь.

В принципе же такого жанра не хватает во многих отраслях в России.

#reports #data #tech
У DuckDuckGo (УткаУткаИди) [1] есть проект Tracker Radar в котором они собирают сведения о наиболее часто встречающихся скриптах и трекерах третьих сторон и используют эту информацию для последующего составления блок-листов.

На днях они опубликовали и актуализировали базу трекеров и выложили её на Github [2].

Сразу забегу вперед - российские домены не анализировались, но российские трекеры находились в доменах других стран/зон. И много можно узнать про международные сервисы, например, можно посмотреть на профиль ajax.googleapis.com [3] и про то как некоторые российские сервисы вроде yandex.ru [4] там определяются (по яндексу почему-то сплошные порносайты в примерах).

Данные интересные, на них можно построить немало исследовательского и полезного.

Ссылки:
[1] https://spreadprivacy.com/duckduckgo-tracker-radar/
[2] https://github.com/duckduckgo/tracker-radar
[3] https://github.com/duckduckgo/tracker-radar/blob/main/domains/NO/ajax.googleapis.com.json
[4] https://github.com/duckduckgo/tracker-radar/blob/9c5fe6a619b6ad9fb13f3fd7ddd6710c5cdbe98e/domains/DE/yandex.ru.json

#opendata #privacy
В свежем Democracy Index 2020 Россия на 124 месте с оценкой 3.31 - между Эфиопией и Нигером. Казахстан на 128 месте и Беларусь на 148 месте [1].

Я всегда обращаю внимание на то что у России очень низкие оценки по блоку "Functioning of the government".

Ссылки:
[1] https://www.eiu.com/public/topical_report.aspx?campaignid=democracy2020

#ratings #rankings
Amazon получили на 800% больше запросов от государств на раскрытие данных пользователей за 2-й кварта 2020 года [1] в безусловных лидерах запрашивающих Германия - власти страны сделали 42% всех запросов. И тут важно помнить что Amazon - это давно уже не только интернет-магазин, это огромное количество продуктов интернета-вещей собирающих данные в централизованное хранилище компании: Echo, Fire и Ring примеры таких устройств.

В каком-то смысле это неизбежное событие, но в каком-то и пугающее потому что полной и достоверной картины то какие данные собирают эти устройства и какие дополнительные знания собираются из собранного / как данные обогащаются - мы просто не знаем.

Ссылки:
[1] https://techcrunch.com/2021/02/01/amazon-government-demands-spiked/

#amazon #privacy
РБК пишут [1] что Минцифры России разрабатывают законопроект который позволит правоохранительным органам получать данные о координатах абонентов сотовой связи без судебного решения.

Многие уже написали и прокомментировали, я добавлю то о чём, по моему, ещё никто не написал:
1. Самое главное - отказ от необходимости получения решения суда меняет статус режима доступа к информации и открывает возможность к её потоковой машинной обработке об условно неограниченном числе людей. Вернее ограниченно лишь в части стоимости инфраструктуры и её готовности к такому режиму работы. Появляется возможность создавать панели мониторинга тысяч людей в реальном времени, отслеживать и устанавливать уведомления при их появлении в определенных местах или нахождении совместно и так далее.
2. Правоохранительные органы не только разыскивают других людей, и не только следят за относительно небольшим числом оппозиционеров и митингующих, сбор данных без решения суда позволит следить за сотрудниками госорганов, предпринимателями и тд. Иначе говоря получать информацию которую потом они же, правоохранители, могут эффективно "монетизировать".
3. Нерегулируемый доступ МВД к этим данным может создать черный рынок пробива по конкретным лицам, в первую очередь, в рамках тех же журналистских расследований. Примеры этого уже были когда журналисты имеют возможность "пробить сведения" о сотрудниках спецслужб, самих правоохранителях, чиновниках и олигархах. Но даже если предположить что доступ журналистов к этим сведениям - это не так плохо для общества, этот же доступ будет у преступников, мошенников, иных групп людей с далеко не благими намерениями.


Ссылки:
[1] https://www.rbc.ru/technology_and_media/03/02/2021/601ad28e9a7947bef8ef1f2b?from=newsfeed

#privacy
Вдогонку к предыдущей публикации о том что Минцифра меняет закон о тайне связи для обеспечения доступа к данных о местонахождении абонента, всегда найдутся те кто скажет "А как людей спасать? Как же главный аргумент про пропавших людей?" и мне есть об этом рассказать.

Российское регулирование, как хорошее, так и всё чаще плохое, имеет одну кардинально неприятную черту - отсутствие диалога и непомерная скорость его введения. Любое профессиональное регулирование решает некую общественную проблему, на эту тему я недавно давал ссылку на курс Solving Public Problems [1] и есть книги, исследования, публикации и много международной практики. Оно начинается с определения проблемы. Вот есть проблема - пропадают люди в стране, предположим есть граждане и НКО которые об этом пишут. Что необходимо сделать чтобы её решить?
1. Понять масштабы и природу явления. Как люди пропадают? Где? В каких ситуациях? Как это выясняют? Какими способами их находят и как ищут? Понимание масштаба и природы идет или через исследования, или через дискуссии и разговоры с теми кто делает это каждый день, или через это всё и иные формы формирования знаний.
2. Когда проблема идентифицирована ищутся решения. Каждое из них должно пройти оценку по множеству критериев: насколько оно эффективно, сколько оно стоит, каковы шансы/возможность на достижение результата, как это меняет и в какую сторону сложившуюся ситуацию, наносит ли это решение вред и если да то не превосходит ли этот вред достигаемый результат.
3. Навскидку я бы назвал несколько решений которые никогда даже не озвучивались:
- Можно было бы сделать так чтобы сотовые операторы отдавали без суда данные только тех граждан кто дал на это явное согласие. Мы знаем что есть люди верящие государству, они могут явным образом указать это в своем личном кабинете сотового оператора или в его мобильном приложении
- Можно было бы сделать то же самое как госуслугу на портале госуслуг. Тем более что госуслуги для Минцифры родной проект
- Можно было бы разработать специальное государственное приложение которое _добровольно_ и только добровольно могли бы поставить себе граждане опасающиеся что они пропадут или родители детей которые могут пропасть
- Можно было выдать субсидии отечественным ИТ компаниям которые бы разработали спектр таких приложений и существовали бы в конкурентной среде, заодно стало бы понятно насколько это надо самим гражданами
- Можно было бы выдать гранты НКО специализирующихся на поиске людей на разработку их приложений для помощи пропавшим без вести
4. Этот список не исчерпывающий и будь такая публичная дискуссия или проработка решения подобной проблемы - у неё нашлось бы эффективное и обоснованное решение. И я очень сомневаюсь что этим решением было бы предоставить силовым органам доступ к данным о геолокации неограниченного числа граждан без решения суда и в любое время.

Поэтому прежде чем декларировать решение социальных проблем через регуляторные изменения надо убедиться что эти изменения нацелены на их решение, а не прикрываются социальными проблемами которые, на самом деле, не решают.


Ссылки:
[1] https://course.solvingpublicproblems.org/

#regulation
Data Journalism Handbook [1] книга о журналистике данных за авторством Liliana Bounegru и Jonathan Gray выйдет в конце марта 2021 года, а пока доступна для предзаказа.

Значительная её часть и ранее была доступна онлайн [2] на DataJournalism.com вместе с другими курсами и руководствами созданными в European Journalism Centre при поддержке Google News Initiative

Ссылки:
[1] https://www.aup.nl/en/book/9789462989511/the-data-journalism-handbook
[2] https://datajournalism.com/read/handbook/two

#datajournalism #data
Для тех кто работает с данными и хочет разнообразить свой опыт, среди многих инструментов для работы с данными применяют не только Python и, например, для Jupyter Notebook существует множество ядер на других языках, позволяющих делать исполняемые публикации с помощью любимых, а не общепринятых языков программирования.

- IJulia - ядро для языка Julia
- IRKernel - ядро для языка R
- Wolfram Language for Jupiter - ядро для языка Wolfram Script
- Almond - ядро для языка Scala
- Xeus Cling - ядро для языка C++
- Jupiter NodeJS - ядро для языка Javascript (NodeJS)
- Kotlin kernel for Jupiter - ядро для языка Kotlin

существуют также ядра для PHP, C#, Go, OCaml, Powershell и десятков других

На мой взгляд, правда, мало что сравнится с Python по гибкости и доступности инструментов и готового кода, но многое обгонит по скорости. Для команд которым Python не является основным языком использование готовых ядер для Jyupiter может помочь в аналитической работе.

#datascience #jupiter #tools #overview
Forwarded from Ах, этот Минфин (Olya Parkhimovich)
Проекту «Госзатраты» исполнилось 7 лет!

Все эти годы наша команда работает над повышением прозрачности и доступности данных о госфинансах.

Мы продолжаем развиваться и в этом году готовим к запуску исторический спецпроект: собираем архив документов о госфинансах — от бюджетов, отчетов и перечней цен до статистических сводок и учебников. Материалы архива планируем оцифровать и опубликовать в свободном доступе. Приглашаем принять участие в формировании цифрового архива по госфинансам. Будем признательны всем, кто сможет предоставить материалы для оцифровки или пришлет сканы, веб-ссылки на архивы или наборы данных с исторической ретроспективой.

Несколько полезных ссылок:

Телеграм-канал проекта: @clearspending

Телеграм-бот для получения статистики госзаказа организации по ИНН: @csParticipantStatsBot

Расширение для браузера: bit.ly/clearspending_ext

И, конечно, большое спасибо команде проекта, которая вопреки качеству открытых финансовых данных и их регулярному закрытию продолжает развивать проект! ^_^
National Resources Revenue Data [1] портал Офиса доходов от природных ресурсов США с данными и аналитикой доходов бюджета от сдачи в аренду земельных участков для добычи полезных ископаемых, а также о том как эти доходы распределяются по отдельным штатам и территориям США.

Неплохая региональная аналитика, актуальная для любой большой страны с существенной долей доходов от добычи полезных ископаемых таких как нефть и газ, например, такой как Россия.

Данные обновляются ежемесячно, доступны через API и для выгрузки как набор данных.

При этом объёмно их не так много, но это тот случай когда значение имеет не объём данных, а их содержание.

Ссылки:
[1] https://revenuedata.doi.gov/

#govfinances #budgets #usa #spending
Приложение от МВД будет включать запрос на доступ к контактам. Хорошо ещё что оно пока ещё не обязательно к предустановке гражданам России. Пока ещё. А я не могу не напомнить про наше исследование https://privacygosmobapps.infoculture.ru/ и про инструменты государственной слежки их прокачку и развитие.
Forwarded from DRC LAW: IT-юристы
В мобильном приложении МВД, которое позволяет экстренно вызвать полицию, появится сервис для борьбы с мошенническими звонками. Чтобы воспользоваться сервисом, пользователю придется дать приложению доступ к своей телефонной книге.

Инициатива правоохранителей может усложнить работу телефонных мошенников, но несет риски и для пользователей: их контакты будут полностью открыты полиции и могут оказаться в свободном доступе в случае утечки.
Обзор топ 5 трендов работы с данными в 2021 году [1] в Towards Data Science. Автор сооснователь продукта Atlan по ведению каталогов данных поэтому, конечно, тренды с большим акцентом на его рынок и бизнес интересы, тем не менее обратить на них внимание стоит.

1. Конвергенция хранилищ данных и озер данных
2. Современный стек технологий работы с данными
3. Новые роли - лидер цифровой платформы и инженер аналитики
4. Перерождение управления метаданными (metadata 3.0)
5. Инструменты контроля качества данных на подъёме

По каждой из тем можно писать и говорить долго, в области корпоративного управления данными да эти 5 трендов присутствуют. Являются ли они единственными? Возможно нет

Ссылки:
[1] https://towardsdatascience.com/the-top-5-data-trends-for-cdos-to-watch-out-for-in-2021-e230817bcb16

#data #trends
Алексей Лукацкий пишет [1] про наше исследование о том что государственные мобильные приложения передают данные в другие юрисдикции [2].

Он делает акцент на том что эта практика, вообще-то, нарушает отечественные законы и эти данные подпадают под персональные данные.

А тем временем за последние 3 дня у меня было несколько разговоров на тему: "А можете ли Вы привести примеры когда реально данные передавались и какие?". Я обращаю внимание всех что цель нашего исследования была не обвинить Минцифру или ДИТ Москвы, они творят немало плохого, хорошего или странного, а в, в первую очередь, обратить внимание на нарастающий тренд появления госприложений и последствия этого в виде:
- формирования новой экосистемы государственной слежки
- передачу данных из госприложений в экосистемы AdTech
- полное отсутствие регуляторной политики в этой области.

Но реакции Минцифры или Роскомнадзора или ФСТЭК или даже депутатов именно как регуляторов не последовали, а цель была именно в этом.

Ну а если бы у меня были факты, вернее если я и коллеги, хотели бы сделать акцент на фактах передачи персональных данных, а не на регуляторных проблемах, то прежде чем публиковать доклад эти факты следовало бы направлять в Роскомнадзор, Генпрокуратуру и ФСТЭК так как я ранее делал это с докладом по утечкам общедоступных данных из государственных информационных систем.

А пока давайте я обозначу - с 1 апреля 2021 года станет обязательной предустановка приложений на мобильные устройства.
С этого момента не только компании разработчики этих приложений, но и регулятор утвердивший их список - Минцифры России, Правительство РФ и далее по цепочке берут на себя ответственность за передачу данных в них сторонним компаниям, включая передачу данных в другие юрисдикции.

Выпустим ли мы по ним исследование к 1 апреля? Может быть. А может быть это сделает кто-то ещё, а мы сделаем исследование на другую тему.


Ссылки:
[1] https://lukatsky.blogspot.com/2021/02/google-analytics.html
[2] https://privacygosmobapps.infoculture.ru/

#privacy #regulation #mobile #research
Большая практическая статья [1] о методах измерения открытости объектов научных данных (RDA, Research Data Objects). Она несколько далека от российских реалий поскольку начинается со слов Funders and policy makers have strongly recommended the uptake of the FAIR principles in scientific data management. Чего в России сейчас и в помине нет, ни регулятор(-ы), ни органы финансирующие научные разработки не проповедуют принципы открытости и качества работы с данными FAIR для исследований и не требуют обязательной публикации данных полученных в результате исследований [2]

В странах же где соблюдение этих принципов для исследователей стало частью их работы, теперь переходят к оценке соответствия, не одним, но множеством способов.

Ссылки:
[1] https://datascience.codata.org/articles/10.5334/dsj-2021-004/
[2] https://www.go-fair.org/fair-principles/

#opendata #openaccess #FAIR