Ivan Begtin
7.99K subscribers
1.77K photos
3 videos
101 files
4.49K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]
Download Telegram
Что я могу сказать про электронное голосование? Которое нам уже обещают и эксперимент запланирован.

Положительное:
- электронное голосование долгосрочно дешевле бумажного
- больше возможностей охватить избирателей (не нужно никуда идти или ехать)
- подсчет голосов значительно упрощается

Отрицательное
- разработка, сопровождение и контроль над системой у органов исполнительной власти
- исходный код врядли будет открыт
- постоянные сомнения в легитимности голосования (правящая партия всегда под подозрением)
- утечки персональных данных могут быть фатальными
- процедуры общественного контроля непонятны, экзит полы должны меняться

Неизвестное
- полное внедрение электронных голосований должно также резко сократить стоимость референдумов. Но будет ли их больше?
- станет ли бумажный паспорт вторичным документом?
- станет ли похищение мобильного телефона другим уголовным преступлением?
- будут ли прописывать прописку в цифровом профиле


#elections #digital
Максут Шадаев на днях объявил что данные о цифровых пропусках в региональных системах будут удалены [1] и надо сказать что Максут выступает как человек весьма неглупый и видел уже решение Татарстана по удалению их базы цифровых пропусков.

Ключевых вопросов тут два:
1. У Минкомсвязи, на практике, не так много механизмов воздействия на региональные власти.
2. Чтобы удаление было гарантировано нужен нормативно правовой документ. Постановление Правительства или закон. Готовят ли его внутри Минкомсвязи?

Удалят ли в итоге данные жителей ответственные за это в Мэрии Москвы или желание рассылать гражданам рекламу ближайшие 10 лет для них несопоставимо важнее ? [2]

Ссылки:
[1] https://tass.ru/obschestvo/8563413
[2] https://habr.com/ru/company/analogbytes/blog/503552/

#privacy #moskva #shadaev #digital
Для тех кто интересуется качеством данных пост в блоге Uber Engineering о том как управление качеством данных организовано в Uber [1]. Особенность их работы в том что данные поступают непрерывно, в реальном времени, данные большого объёма и метрики для понимания общей ситуации также нужны максимально оперативно. Для чего они разработали собственную систему управления качеством данных, Argos [2].

В отличие от других ИТ продуктов Uber'а их платформа Argos не публиковалась никогда с открытым кодом и всё что мы можем узнать о ней, это посты в их блоге.

Однако Argos - это лишь одно из решений в том что называется data quality management (DQM) или управление качеством данных. В инженерии данных - это процесс (пайплайн) по анализу, очистке и корректировке данных. DQM продукты есть у IBM, SAP, Oracle и многих других крупных игроков в области хранилищ данных (data warehouse), но чаще DQM - это часть процессов DataOps.

Ссылки:
[1] https://eng.uber.com/monitoring-data-quality-at-scale/
[2] https://eng.uber.com/argos-real-time-alerts/

#dqm #dataops #uber #argos
Для того чтобы понять распространённость заболевания в популяции не обязательно проводить массовое тестирование. Альтернативные данные получаются при анализе проб из канализации и стартап Biobot Analytics [1] предоставляющий услуги анализа проб из канализационных систем на наличие в нём вируса COVID-19. Стартап изначально создавался для анализа уровня использования опиодов и успел поднять $6.7 миллионов долларов США.

Сейчас они анализируют 100 объектов в 30 штатах США [2] и расширяют число компаний операторов канализации как партнёров и клиентов.

В Европе аналогичную работу ведёт голландский KWR Water Institute уже много лет осуществляющий анализ фекалий в европейских канализациях и теперь исследующий их на наличие COVID-19 [3]

А 21 мая прошли слушания конгресса организованные The Water Research Foundation по организации повсеместного мониторинга окружающей среды на наличие COVID-19 [4] в канализации. Можно увидеть слайды с подробностями внедрения технологий [5] и проведённых исследований.


Ссылки:
[1] https://www.biobot.io/covid19
[2] https://www.theverge.com/2020/4/20/21227995/sewage-wastewater-poop-coronavirus-survellience-biobot
[3] https://www.forbes.com/sites/rachelsandler/2020/04/01/poop-provides-an-early-sign-coronavirus-cases-will-rise-study-says/
[4] https://www.waterrf.org/event/virtual-congressional-briefing-environmental-surveillance-genetic-fingerprint-covid-19
[5] https://www.waterrf.org/sites/default/files/file/2020-05/Congressional%20COVID-19%20Briefing_FINAL.pdf

#sewers #data #sensors
Как я писал ранее, одно из направлений развития в инженерии данных и DataOps - это упаковка и доставка данных в виде контейнеров [1]. Наиболее активно развивающейся спецификацией для открытых данных является Frictionless Data [2], однако история про контейнеры с данными имеет куда более глубокие корни и направление "упаковки данных" давно существуют в научной среде.

ResearchObject [3] - это проект и набор спецификаций по описанию и упаковке данных в научной среде с ориентацией на воспроизведение результатов исследований. Наиболее актуальная спецификация RO-Crate [4] использует описание метаданных в формате связанных данных для описания как происхождения данных так и описания каждого включённого файла.

Одна из областей в которой давно уже активно идёт и используется стандартизация - это биоинформатика. Набор стандартов COMBINE (COmputational Modeling in BIology NEtwork) [5] включает как их моделирование, так и контейнеры для обмена данными и их преобразование, например, в контейнеры ResearchObject.

К другим спецификациям можно отнести Big data bag [6] объединяющие ResearchObject и спецификацию архивации данных BagIt [7].

У этой же инициативы есть ещё одно отражение, репозитории кода являются также результатами исследований и Mozilla Science Lab запустили инициативу Code as Research Object [8]

Другой заметный стандарт - это ReproZip [9], стандарт контейнер по упаковке данных и спецификации по воспроизведению исследований. Разрабатывается в инженерном подразделении New York University и основная его цель в том чтобы избежать замыкания в экосистеме одного вендора (да, в науке это повсеместно).

Применение подобных решений пока гораздо больше заточено под научные данные в биоинформатике, социологии, инженерных науках. Их внедрение требует, в первую очередь, готовность исследователей работать с техническими инструментами, наличия архивов и репозиториев поддерживающих подобные стандарты.

Ссылки:
[1] https://t.iss.one/begtin/1925
[2] https://frictionlessdata.io
[3] https://www.researchobject.org/
[4] https://researchobject.github.io/ro-crate/1.0/
[5] https://co.mbine.org/
[6] https://github.com/fair-research/bdbag
[7] https://datatracker.ietf.org/doc/rfc8493/
[8] https://mozillascience.github.io/code-research-object/
[9] https://www.reprozip.org/

#opendata #data #standards
Тем временем мы запланировали серию вебинаров по приватности. Самый ближайший 3 июня. Регистрируйтесь и участвуйте!
Forwarded from Инфокультура
Инфокультура запускает серию вебинаров о приватности данных.

3 июня в 15:00 приглашаем вас на первый вебинар «Цифровой профиль россиянина: право на приватность». В программе: обсуждение принципов разработки платформы «Цифровой профиль», государственных супераппов и сервисов, созданных на основе личных данных граждан.

Эксперты обсудят режимы владения данными и право распоряжаться ими, а также кибербезопасность и риски централизации данных.

Спикеры:
- Иван Бегтин (@begtin), директор АНО «Инфокультура»;
- Светалана Белова, генеральный директор компании «Датамания»;
- Саркис Дарбинян, партнер Центра цифровых прав, адвокат в сфере киберправа;
- Василий Буров, соучредитель АНО «Инфокультура»;
- Олег Качанов, заместитель министра цифрового развития, связи и массовых коммуникаций Российской Федерации.

Для участия необходимо зарегистрироваться: https://infoculture.timepad.ru/event/1324757.

Всем зарегистрированным участникам придет ссылка для подключения в Zoom.
Медуза [1], Известия [2], РИА Новости [3] и другие издания пишут о экспертах МВД предлагающих создать мобильное приложение "Мигрант" и включить в него "рейтинг социального доверия". Иначе говоря, наработки приложений "Социальный мониторинг" и "Стопкоронавирус.РФ" МВД явно понравились и решили применить их на трудовых мигрантах.

К сожалению, за всеми этими публикациями нет ни фамилий экспертов, ни первоисточника, ни этого самого прогноза. Мне лично очень интересно как это приложение будут ставить тем у кого нет сотового телефона на Android или iPhone и как будут обязывать устанавливать приложения многочисленных топ-менеджеров европейских и американских компаний в России.

Всё таки они тоже "трудовые мигранты", но они же и граждане других стран. Вступятся ли за их права их правительства и посольства?

[1] https://meduza.io/news/2020/05/29/mvd-predlozhilo-sozdat-prilozhenie-migrant-ustanavlivat-kotoroe-obyazhut-vseh-priehavshih-na-rabotu-v-rossiyu
[2] https://iz.ru/1017094/2020-05-29/mvd-rossii-mozhet-sozdat-spetcialnoe-prilozhenie-dlia-migrantov
[3] https://ria.ru/20200529/1572150359.html

#mobile #apps #privacy
Буквально вдогонку материалам по методике анализа госполитики, вышла экспертная записка "Применение теории изменений для стратегического аудита и стратегического планирования в России" [1] подготовленная коллегами из Центра перспективных управленческих решений и Счетной палаты.

Записка похожа на то что делают исследователи в Великобритании, также воспроизводит последовательность и инструменты реализации госполитики. Всячески рекомендую к прочтению с акцентом на дискуссию. Как и все экспертные записки - эта записка является концентрированным мнением группы исследователей, комментарии, критика, дополнения в таком формате всегда уместны.


Ссылки:
[1] https://ach.gov.ru/upload/pdf/AuditInsights.pdf

#sprf #policy #methods
В "кавычках" прекрасная новость, в законопроект об обеспечении устойчивого развития экономики и предотвращении последствий короновируса [1] во втором чтении впихнули поправку, которая обязывает удостоверяющие центры бесплатно перевыпустить на 3 месяца все сертификаты, которые кончаются до 1 августа.

Фактически это убивает все коммерческие удостоверяющие центры, потому что все сейчас живут на старых клиентах - новым особо неоткуда браться, а теперь выручка от старых отложится на 4-5 месяцев.

Всех спасают за счёт кого-то. Граждан за счёт бизнеса, бизнес чуть-чуть за счёт УЦ. Раз пошла такая пьянка, то может быть бизнес спасать за счёт банков? Отменить ставки по существующим кредитам, например.

Чувствую что в ближайшие дни много придётся писать и говорить про масштаб проблем с нормативными документами и не только.

Ссылки:
[1] https://sozd.duma.gov.ru/bill/953580-7
#policy #laws #government
То что мы наблюдаем сейчас с государственными мобильными приложениями вроде "Стопкоронавирус" или "Социальный мониторинг" - это, очень запоздалый, с задержкой более чем в 5 лет, но неизбежный приход государства в экосистему смартфонов. Также как когда-то с большим запозданием, крайне неумело и до сих пор не осознав до конца, государство приходило Интернет, так и сейчас мобильная экосистема переживает последствия осознания государством его осознания. Под "государством" здесь можно принимать разное, от метафизического Государства с большой буквы как ментальную модель в головах политической элиты, до руководства институционализированных и фактических структур власти.
...

Текст получился слишком большой чтобы целиком публиковать его в телеграм, полный текст у меня в блоге https://begtin.tech/govmobile/

#government #mobile #policy
Классика не стареет, я несколько таких комитетов и рабочих групп знаю и даже приходится в них участвовать.
Рубрика «Циничная мерфология»
С.Н.Паркинсон о жизненном цикле комитетов.
Жизненный цикл комитета состоит из нескольких стадий:
1. Идеальное число членов — пять человек. При таком численном составе комитет непременно приживётся. Два его члена смогут всегда отсутствовать по болезни или по иной причине. Пятерых легко собрать, а собравшись, они способны действовать быстро, умело и тихо. Четверым из них можно поручить финансы, иностранные дела, оборону и правосудие. Пятый, не сведущий в этих предметах, станет председателем или премьером.
2. Как ни удобно число пять, нередко в комитет входит семь, а то и девять человек. Так бывает почти везде и объясняется это тем, что областей управления не четыре, а больше. На самом деле есть и другая причина. В комитете из девяти человек трое вершат политику, двое поставляют сведения, один напоминает о финансах. Со свободным от дела председателем получается семь человек. Остальные двое, по-видимому, нужны для красоты. Мы практически ничего не знаем о назначении двух молчаливых членов, но у нас есть основания полагать, что на этой, второй, стадии комитет без них работать не может.
3. На третьей стадии в комитеты входят новые члены, иногда они вроде бы знают ещё что-то нужное, но чаще просто очень вредят, если их в комитет не ввести. Чтобы их утихомирить, приходится непрестанно с ними советоваться. По мере их включения число членов ползёт от десяти к двадцати. На этой третьей стадии дела идут много хуже.
o Прежде всего, очень трудно собрать столько народу.
o Лишь немногие из членов отбирались с расчётом на то, что они будут или могут приносить пользу. Большую часть скорее ввели, чтобы угодить какой-нибудь внешней группировке, и задача их — сообщать своим, как идут дела. С секретностью покончено.
o Чем крепче утверждаются ненужные члены, тем громче требуют обойдённые группы, чтобы ввели их представителей. Число членов переползает в третий десяток. И комитет вступает в четвёртую, последнюю стадию.
4. Четвёртая стадия. Когда в комитете от 20 до 22 членов, он внезапно претерпевает особое химическое или органическое превращение, природу которого нетрудно понять и описать. Пять полезных членов встречаются отдельно и что-то решают. Комитету практически делать нечего, тем самым в него можно ввести сколько угодно народу. Лишним членам не понадобится лишнее время, ибо все заседания теперь — пустая трата времени. Внешние группы довольны, их ставленников принимают всех беспрепятственно, и не скоро поймут они, что победа их призрачна. Двери открыты, число членов приближается к 40, растёт дальше. Может оно дорасти и до тысячи. Это уже не важно. Комитет больше не комитет, и прежние его функции выполняет другое, малое сообщество.
Новость ближе к хорошей - ДИТ Москвы в лице Эдуарда Лысенко начал диалог с гражданами, на хабре анонс [1] что завтра на YouTube в 17:30 [2] он будет отвечать на вопросы.

Вопросы можно направлять в ДИТ по адресу [email protected] или комментариями на Хабре.

Я могу много ругать ДИТ Москвы, но поговорить - это всегда правильно и лучше поздно чем никогда. Поэтому не стесняйтесь, направьте Ваши вопросы и я тоже свои напишу.

А также напоминаю про нашу серию вебинаров по приватности. Ближайший 3-го июня в 15:00 по Москве [3]. На следующие вебинары мы будем звать, в том числе, и коллег из ДИТа Москвы, общественных и коммерческих компаний и экспертов в этой теме.

Ссылки:
[1] https://habr.com/ru/company/dit/blog/504482/
[2] https://youtu.be/kXd40iEUFrY
[3] https://www.facebook.com/events/634421640480973/?notif_t=event_aggregate&notif_id=1590985039690850

#privacy #data
Команда из 30 исследователей в OpenAI опубликовали статью о GPT-3 [1] языковой модели позволяющий решать не только задачи перевода, но и создания статей и отвечать на вопросы уровня экзамена SAT (это сложные вопросы).

В этой модели используется 175 миллиардов параметров, для сравнения в GPT-2 было 1.5 миллиардов параметров [2], а в наиболее сопоставимой модели от Microsoft всего 17 миллиардов параметров [3]

Что немаловажно, GPT-3 обучено на базе CommonCrawl, Википедии и других открытых данных с текстами, в общей сложности в триллион слов [4].

OpenAI создаёт не только возможности, но и масштабные страхи. После выпуска предыдущей модели GPT-2 были опасения что с помощью этой технологии можно завалить интернет фэйками которые бы звучали логично и разумно, а на практике создавалась бы ботами в бесконечном количестве [5].

Ссылки:
[1] https://arxiv.org/abs/2005.14165
[2] https://venturebeat.com/2019/08/20/openai-releases-curtailed-version-of-gpt-2-language-model/
[3] https://venturebeat.com/2020/05/19/microsofts-zero-2-with-deepspeed-trains-neural-networks-with-up-to-170-billion-parameters/
[4] https://venturebeat.com/2020/05/29/openai-debuts-gigantic-gpt-3-language-model-with-175-billion-parameters/
[5] https://www.theverge.com/2019/2/14/18224704/ai-machine-learning-language-models-read-write-openai-gpt2

#data #opendata #ai
18-21 октября 2020 года в Швейцарии пройдет виртуальный форум ООН про данные (UN Data Forum) [1]. Основные темы - данные и статистика, много выступление будет про госполитику в области данных, партнерства и многое другое. От России там никого нет, но будет интересно и послушать других участников, таких форумы хорошая возможность узнать о примерах других стран которые ранее не переводились на английский язык.

А тем временем организаторы опрашивают до 15 июня потенциальных участников о том как виртуальный форум лучше организовать [2].

Ссылки:
[1] https://unstats.un.org/unsd/undataforum/index.html
[2] https://efm.dfs.un.org/EFM/se/6C6639C01C303C60

#opendata #data #un
В ТАСС вышло интервью Сергея Собянина где, в том числе, о том что данные пропусков и социального мониторинга будут удалены [1].
Напрашиваются только два вопроса:
1. Почему с таким значительным запозданием? Можно было это сказать/пообещать с самого начала
2. Когда будет принят нормативно-правовой документ регламентирующий процедуру уничтожения данных и вывода систем из эксплуатации которые данные собирают?

Я ещё раз хочу сделать акцент что обещания политиков не закреплённые в нормативно-правовой базе имеют очень небольшие шансы на то что они будут исполнены.

P.S. Я в будущем постараюсь писать по этой теме поменьше, чтобы было больше писать про другие темы. Честно говоря про "качество" работы московских властей писать можно бесконечно, потому что я есть явные провалы и коммуникационные, и технические и этические. А самое главное глубокое непонимание что перенимать корейские или китайские инструменты воздействия на общество в России некорректно из-за значительно меньшего доверия граждан к государству чем в этих странах.

Ссылки:
[1] https://tass.ru/interviews/8641165

#covid19 #privacy #moscow
Slack, сервис корпоративных сообщений вступил в долгосрочное партнерство с Amazon [1] и будет улучшать свои возможности голосовой и видеосвязи с помощью Amazon Chime [2]. В первую очередь это связано с конкуренцией с Microsoft Teams.

На фоне этого всего у меня самый назревший вопрос - это почему Павел Дуров в Telegram до сих пор был занято исключительно массово потребительским продуктом. При наличии партнёрства или приобретения технологий на базе Telegram получился бы почти идеальный корпоративный мессенжер, механизмы его интеграции лишь немного уступают Slack'у (а может и превосходят) и это то за что компании реально были бы готовы платить.

При наличии у телеграма нормальной структуры управления, публичного юр. лица и так далее, конечно же.

Ссылки:
[1] https://www.theverge.com/2020/6/4/21280829/slack-amazon-aws-partnership-amazon-chime-voice-video-calls
[2] https://aws.amazon.com/ru/chime/

#messengers #slack #amazon #telegram