Ivan Begtin
8.09K subscribers
1.97K photos
3 videos
102 files
4.68K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]
Download Telegram
Media is too big
VIEW IN TELEGRAM
Рубрика "Циничный пиар"
"Россия - родина слонов великих технологий!"
Я не знаю, кто писал текст для этого ролика, которым, судя по всему, открывалась вчерашняя стратсессия в "Бункере" по закрытию цифровой экономики формированию нового нацпроекта "Экономика данных". Но я точно знаю, без чьей визы на этом тексте не обошлось. И все постоянные читатели канала тоже это знают. Поэтому сейчас и здесь я это имя называть не буду.
Я представляю, как этот сборник лозунгов о светлом будущем одной отдельно взятой экономики данных (тм) смотрелся на "бункерном" мега-экране с высококачественным звуком в формате вражеской системы Dolby TrueHD. После такого вдохновляющего перформанса хочется вскочить, схватить лопату и отбойный молоток, пешком пойти в сибирскую тайгу и заполярную тундру, валить лес, прокладывать новый БАМ, вручную тащить суверенный интернет в самые глухие селения - в общем, делать всё, что, по мысли пиарщиков, должны делать зрители, проникшиеся грандиозностью концепции этой рекламы.

PS. Прокрутил ролик 10 раз. Всё хотел разглядеть в нем великие российские технологии (тм). Увидел ноутубуки Apple со стыдливо заклеенным яблоком на крышке, китайский клон робособаки от Boston Dynamics, видеостену на РИФе, собранную из корейских мониторов Samsung, какую-то картинку с инфографикой почему-то на вражеском языке, пиарщицу в лабутенах, с задумчивым видом и макбуком бродящую между стойками в ЦОДе, набитыми отнюдь не импортозамещенным "железом"... Была пара кадров с взлетающим "Протоном" - но это не великая российская, а великая советская технология, которой через пару лет исполнится 60
В рубрике как это устроено у них в открытых данных:
- в Евросоюзе активно развивается проект Open Maps For Europe 2 (OME2) [1] по созданию единых продуктов геоданных и на геоданных покрывающих все страны ЕС и стран входящих в партнерства со странами ЕС. В основе проекта директива о публикации особо ценных наборов данных и ранее созданный проект Maps For Europe [2]. Можно обратить внимание что занимается проектом Eurogeographic, ассоциация из 60 организаций из 46 стран. Большая часть организаций - это государственные кадастровые комитеты. Среди них есть, например, кадастровые службы Армении, Белоруссии, Турции и Азебайджана. И, ожидаемо, нет российской кадастровой службы
- в США в MIT раздают награды учёным публикующим открытые научные данные [3] всего 11 победителей из 80 номинантов, с призами в $2500. Поощряются исследователи опубликовавшие востребованные исследовательские данные как часть своих научных работ, а также создателей инструментов с открытым кодом по удобной работе с этими данными. Среди работ много интересного, например, ITU Compliance Assessment Monitor [4] инструмент и наборы данных мониторинга того как операторы геостационарных спутников отчитываются перед Международным союзом электросвязи (ITU), спойлер: чаще всего игнорируют необходимость предоставления информации. А вот другой пример, база данных WormWideWeb [5] собранная из общедоступных баз нейронов нематод C. Elegans.
- Open Government Partnership, партнерство открытых правительств, активно расширяется на уровне городов, в OGP Local [6] уже участвует около 100 городов и в течение 2024 года собираются принять около 50 [7], в том числе из стран не входящих в партнерство. Эдакое погружение в суб-национальный уровень и, похоже, набирающее обороты. Среди постсоветских городов там присутствуют: Армавир, Гюмри, Ереван и Ванадзор в Армении, 6 городов в Грузии, Бишкек из Киргизии, 3 города Украины. В общем-то не так мало. Но более всего мексиканских и индонезийских городов. Частично вся эта инициатива пересекается с Open Data Charter [8] (Хартия открытых данных) которую подписали власти многих городов.
- во Франции трекер публикации открытых данных на портале data.gouv.fr [9] можно убедиться что кроме того что данные опубликованы, они продолжают регулярно раскрываться по запросу пользователей, многое запланировано к публикации и многие запросы ещё анализируются. В целом французский портал открытых данных наиболее системно развивается, они достаточно давно переходят от публикации файлов наборов данных, к публикации их согласно схемам данных которые ведутся в отдельном реестре.

Ссылки:
[1] https://eurogeographics.org/open-maps-for-europe/ome2-progress/
[2] https://www.mapsforeurope.org
[3] https://news.mit.edu/2023/rewarding-excellence-in-open-data-1116
[4] https://github.com/ThomasGRoberts/ITU-Compliance-Assessment-Monitor
[5] https://wormwideweb.org/
[6] https://www.opengovpartnership.org/ogp-local/
[7] https://www.opengovpartnership.org/ogp-local/join-ogp-local-call-for-expressions-of-interest-2023/
[8] https://opendatacharter.net/
[9] https://ouverture.data.gouv.fr/?status=Planifi%C3%A9

#opendata #readings
Про работу с данными в госуправлении, проект Open Audit [1] команды исследователей из MIT которые собрали и распознали 17 тысяч отчётов государственных аудиторов в Филлипинах с 1998 по 2022 годы. Особенность публикации таких документов в Филлипинах заключается в том что на сайте их Комиссии по аудиту [2] публикуются отчёты контрольных органов всех уровней, включая муниципальные, соответственно и анализ проводился всех этих отчетов, а не только центрального Пр-ва и о самом проекте подробнее в MIT Gov/Lab [3].

У меня когда-то были мысли о схожем проекте, ещё когда я собирал архив старых отчётов Счетной палаты РФ и они до сих пор выложены в разделе на сайте госоргана. Но, имеют то ограничение что это только федеральные отчеты, а отчеты региональных и муниципальных палат всегда были рассеяны по десяткам, сотням сайтов. Поэтому большой-красивый набор данных создать было бы сложно, без специальных усилий конечно.

Ссылки:
[1] https://github.com/jerikdcruz/OpenAudit
[2] https://www.coa.gov.ph
[3] https://mitgovlab.org/news/unearthing-the-hidden-stories-of-budgets-and-audit-reports/

#opendata #government #audit
Китайская компания HKVision выиграла тендер в Китае на систему "Умный кампус" умеющую отслеживать что представители национальных меньшинств соблюдают пост в Рамадан [1].

Даже не знаю как это прокомментировать. Подозреваю лишь что Китаем такие внедрения не ограничатся.

Только в Китае следят за мусульманами, а за кем будут следить в России ? Правильно, за социальной жизнью студентов ЛГБТ. Научат камеры распознавать то что девушки или юноши ходят по коридорам и двору за ручку и сразу будут камеры стучать в профильный Департамент социального позора Министерства раздувания национального достояния.

Думаете фантастический сценарий?

Ссылки:
[1] https://ipvm.com/reports/hikvision-fasting

#privacy #china #algorithms #ai
Я тут хотел было прокомментировать проходивший недавно AI Journey, и ещё слайд который, по слухам, Максут Шадаев показывал в "Бункере" про структуру нацпроекта "Экономика данных", но вместо этого покажу вам 2 скриншота сайта ai.gov.ru.
1-й от 9-го сентября 2022 года
2-й сегодняшнего дня

Можно увидеть как сайт где был какой-то но контент, с регуляторикой, стратегией и тд. превратили в пиарный одностраничник. И раньше то было куцо, а теперь просто выжжено, только новостной мониторинг.

Это всё к вопросу о том почему надо архивировать госсайты, да всё по тому же. Уж больно любят российские чиновники удалять да прятать несделанное и недоделанное.

#ai #russia #government
Кстати, у меня вот тут накопилось какое-то количество вопросов к залу применительно к регулированию ИИ в России. Может кто-то знает ответы? Спрашиваю, без иронии на предмет "всё у них плохо", скорее интересуюсь с лёгким удивлением, потому что сам такого не наблюдаю.

Такие вот вопросы:
1. Есть ли примеры отчётов по оценке воздействия внедрения ИИ ? Корпоративных или государственных, не так важно, важнее публичных отчётов. Например, в Москве уже несколько лет идёт эксперимент по применению ИИ, при этом нигде отчётов/докладов/протоколов работы вовлечённых сторон об этом не наблюдается. Есть ли что-то подобное?
2. Остались ли ещё какие-либо организации гражданского общества с публично заявленной позицией по внедрению и рискам создания и применения ИИ? Как я понимаю правозащитных организаций настоящих которые, а не GONGO, почти не осталось. Но может я кого-то упустил или пропустил?
3. Есть ли примеры внедрения ИИ с независимым человеческим контролем/надзором за ним?
4. Есть ли какие-либо стандарты/руководства/критерии проверки соответствия компаний/продуктов/внедрений согласно российскому этическому ИИ кодексу?
5. Являются ли обязательными технические стандарты ИИ при внедрении в государственном секторе? в корпоративном секторе?
6. Можно ли считать российский кодекс ИИ всё ещё частной инициативой после присоединения к нему государственных агентств и промоутирования его на государственном уровне?

#ai #questions
Forwarded from Privacy Advocates
В Краснодаре родители учеников взбунтовались против массового сбора персональных данных детей в школах под различными поводами. Многие отказываются регистрироваться на различных платформах, где требуют данные детей. Большое негодование вызвала привязка «Сетевого города» к порталу Госуслуг.
Симпатичная инициатива от Яндекса с программой грантов на открытый код и открытые данные [1]. Обещают распределить гранты Яндекс.Облака до 600 тысяч рублей на 15 проектов (итого 9 миллионов рублей) на проекты с открытым кодом по трекам:
- Обработка и хранение данных
- Разработка
- Машинное обучение

Правда призы даются не деньгами, а ресурсами Яндекс.Облака, но для состоявшихся проектов и это полезный ресурс. Особенно я бы обратил внимание на создание наборов данных. Потому что если получать приз на другие проекты, то эти 600 тысяч довольно быстро закончатся если использовать облако просто как хостинг. А если использовать для создания/оценки качества наборов данных то это более похоже на проектное использование. Например податься на эту грантовую программу Яндекса с небольшим датасетом, выиграть грант и податься на грантовую программу Фонда содействия инноваций (Фонд Бортника) также с датасетом, но расширенный и обогащённый через использование ресурсов Яндекс.Облака в рамках гранта Яндекса.

P.S. Не реклама, и жаль, конечно, что инициатива маленькая и явно спрятанная внутри маркетингового бюджета Яндекс.Облака, но сама идея правильная когда грантовые программы развивают и поощряют открытый код и открытые данные.

Ссылки:
[1] https://opensource.yandex/grants/

#opensource #opendata #yandex
В рубрике интересных проектов на данных, о данных, публикующих данные Open Terms Archive [1] архив условий использования в виде коллекций условий использования, API, наборов данных и метаданных.

Включает такие коллекции как:
- Generative AI
- Platform Governance Archive
- P2B Compliance
- France Élections
- Dating
- France
- Contrib

Все коллекции хранятся на Github'е с автоматическим отслеживанием изменений и хранением всех версий в Git.

Проект отмеченный на многих международных площадках и даже зарегистрированный как Digital Public Good

Ссылки:
[1] https://opentermsarchive.org
[2] https://github.com/OpenTermsArchive

#datasets #opendata #opensource #terms #privacy #bigtech
В рубрике как это работает у них о том как публикация данных для обучения ИИ и медицинских исследований в США. На портале CDC Data Platform от National Cancer Institute опубликовано более миллиона изображений объёмом более чем 6.7 Петабайт [1] их которых 20 Терабайт (около 30% по числу файлов) являются полностью открытыми, а остальные в режиме регламентированного доступа, предоставляются по запросу после авторизации. Для доступа используется специальное ПО для выгрузки данных. У портала с данными есть открытое API и открытый код [2].

В целом это один из наиболее крупных порталов научных данных, из его особенностей это то что он имеет предметную, а не общетематическую природу и набором данных на нём называется "коллекция" (collection) случаев (case) включающая множество файлов изображений. Это особенность научных порталов в том что для превращения в порталы открытых данных или просто порталы данных в нём имеющиеся тематические понятия приводятся к понятиям набора данных.

Ссылки:
[1] https://portal.gdc.cancer.gov/repository?facetTab=files&files_sort=%5B%7B%22field%22%3A%22file_size%22%2C%22order%22%3A%22desc%22%7D%5D&searchTableTab=files
[2] https://github.com/NCI-GDC/gdc-docs

#opendata #datasets #genomics #cancer #openaccess #data #usa
- Вами съеден исторический документ...
- Папа всегда говорил, уничтожай архивы
Шварц, пьеса "Дракон"

С российского портала государственных программ исчезла сведения:
- Ход реализации госпрограммы
- Сведения о показателях госпрограммы
- Сведения о показателях в разрезе субъектов РФ
- Значения показателей и финансирование программы
- Перечень основных мероприятий
- Сведения о мерах правового регулирования
- Ресурсное обеспечение реализации госпрограммы
- Дополнительные и обосновывающие материалы
- План реализации
- Инфографика
- Результаты инициативного согласования

Можно посмотреть на примере ГП "Информационное общество" [1] и сравнить с версией на начало 2022 г. [2]

Раньше я писал несколько раз о том что госпрограммы были не в пример прозрачнее нац/ проектов или других "свежих" правительственных инициатив [3]. Но, российское пр-во "исправилось", но не в том смысле что стало публиковать больше информации про нац проекты. Нет, нет, всё ровно наоборот, теперь с портала госпрограмм удалено почти всё что касалось их реализации.

Очень удобно, не правда ли? В самом деле, зачем, ну зачем, российским гражданам и уж тем более не российским знать о том как расходуются деньги федерального бюджета.

Ссылки:
[1] https://programs.gov.ru/Portal/programs/passport/23
[2] https://web.archive.org/web/20220303192829/https://programs.gov.ru/Portal/programs/passport/23
[3] https://begtin.tech/natsional-nye-proekty-ili-beg-po-krugu/

#government #budget #closeddata #data #russia
В качестве регулярного напоминания одна из моих любимых технологических тем - это понимание данных. Я на эту тему ежемесячно читаю 3-4 научных статьи и смотрю как меняются подходы, а также сделал практическую утилиту metacrafter [1] с открытым кодом и реестр семантических типов данных [2].

Если Вы её ещё не пробовали, но хотите поискать, например, нет ли у Вас в базах персональных данных о которых Вы не знаете, то рекомендую попробовать. Она поддерживает и файлы в форматах CSV, XML, JSONL и SQL СУБД и MongoDB.

А читаю я сейчас о том что современные подходы заключаются в умении идентифицировать незнакомые типы данных, а это непростая задача. Частично решаемая через исследование признаков инкрементальности значений, значений фиксированной длины, наличие и размер общего префикса и ещё много другое. Если бы у меня было побольше времени и возможностями занимать только исследованиями, я бы с удовольствием занимался именно этим. Но возможности мало, поэтому обновляю этот инструмент по мере практической необходимости.

А вот одна задача имеет очень большой научный и практический потенциал, возможно здесь какой-то легкий ИИ алгоритм мог бы помочь. Эта задача в реконструкции регулярных выражений. Это когда у Вас есть перечень каких-либо значений и нужно получить максимально компактное регулярное выражение которое все значения охватит. Давно я не встречал научных работ на эту тему, но сама тема просто таки очень интересная и очень близка к общей теме "понимание данных".

Ссылки:
[1] https://github.com/apicrafter/metacrafter
[2] https://registry.commondata.io

#opensource #data #datatools