Ivan Begtin
7.99K subscribers
1.88K photos
3 videos
101 files
4.58K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]
Download Telegram
В продолжение предыдущего я ранее писал что разные части наших продуктов APICrafter и Datacrafter мы выложили с открытый доступ [1]

Сейчас они используются для сборки нескольких дата-продуктов и появилась возможность выложить несколько новых примеров и актуализировать код открытых репозиториев.

В репозитории datacrafter-examples [2] появились 3 новых примера:
- itbenef - реестр ИТ компаний получателей налоговых субсидий
- itregistry - реестр аккредитованных ИТ компаний
- softreg - реестр отечественного ПО

Вместо того чтобы размещать сами наборы данных, публикую код с помощью которого они создаются. Потому что первоисточники акцента на данных не делают, данные обычно в Excel форматах или не них нет прямой ссылки. Ну и, конечно, никакие новые полезные данные на госпорталах с открытыми данными вроде data.gov.ru не появляются.

Они все используют в качестве источников данные с сайта Минцифры РФ и их информационных систем.

Для запуска достаточно установить datacrafter [3] и выполнить команду 'datacrafter run' в директориях с файлами проектов "datacrafter.yml"

Причём надо использовать последний код из репозитория поскольку в нем как раз исправлены ошибки обработки Excel файлов.

datacrafter - это пока упрощённая, а далее усложняемая NoSQL утилита для задач ETL, по извлечению обработке и загрузке данных.

По умолчанию все данные там рассматриваются как JSON/JSON lines и сама утилита включает возможности преобразования плоских файлов в эти форматы.

Если найдете ошибки, пишите их в issues репозиториев.

Ссылки:
[1] https://github.com/apicrafter
[2] https://github.com/apicrafter/datacrafter-examples
[3] https://github.com/apicrafter/datacrafter

#opensource #datatools
Нынешние российские цензурные ограничения - это очень неприятное явление с плохими долгосрочными последствиями.

Многие включили самоцензуру и, кстати, тоже. Например, я почти перестал писать по теме госинфраструктуры и госдоменов, базу которых я продолжаю вести, но публиковать некоторые находки оттуда уже никак невозможно. Посыпятся обвинения в том что "помогаю хакерам" или, наоборот, "помогаю чиновникам, и мешаю хакерам".

Аналогично в отношении государственных информационных систем. Много можно знать, да не о многом теперь можно говорить.

#security #privacy #censorship
image_2022-07-07_20-43-04.png
249.7 KB
В связи с жизненными обстоятельствами публикации в канале "Клуб любителей КИИ", блог "Рупор бумажной безопасности" и телеграм-канале прекращаются.

Спасибо всем моим читателям и подписчикам, особенно за комментарии и предложения.

Опубликованные материалы удалятся не будут. При их использовании в работе необходимо учитывать, что законодательство страны меняется и предложенные действия могут не соответствовать актуальным требованиям.

Здоровья вам и благополучия, берегите себя.
Познавательная статья в Wired [1] о том что системы предсказаний преступлений не работают так как этого ожидают, поскольку объекты их измерений, люди и территории, меняются, а системы обучают на данных прошлого. В результате отдельные территории могут отмечаться как рискованные, а отдельные люди как склонные к преступной жизни, даже если социальные условия уже изменились.

Ответов в статье нет, впрочем у меня тоже нет. Более развитые алгоритмы могут нарушать приватность настолько насколько мы найдем это запредельным. Прекрасно поданные миры отражённые в Черном зеркале или Мире дикого запада - это примеры ИИ собирающих данные о всех в непрерывном режиме. К чему сейчас нет никакой социальной готовности, хотя всех и пугает готовность технологическая.

Ссылки:
[1] https://www.wired.com/story/crime-prediction-racist-history/

#privacy #crime #crimeprediction
Статья How China uses search engines to spread propaganda [1] и отчет Brookings Institution [2] о том как китайские власти манипулируют поисковой выдачей по теме Синцзяня и COVID-19.

Россию там тоже упоминают в контексте того что Google демонетизировал российские гос-СМИ.

Но важнее что авторы пишут о том что поисковые системы уже начали размечать контент от госСМИ Китая и не только и то что исследователи рекомендуют поисковым системам (технологическим кампаниями их создающим) поменять правила ранжирования и деприоритизировать "низкокачественный государственный контент".

Поэтому неприятная новость в том что "демократическая цензура" поисковых систем весьма вероятна и обсуждается․ Сейчас в контексте Китая, далее может и в контексте России.

Политический нейтралитет для big tech скоро станет уже абсолютно невозможен.

Ссылки:
[1] https://www.brookings.edu/techstream/how-china-uses-search-engines-to-spread-propaganda/
[2] https://www.brookings.edu/research/winning-the-web-how-beijing-exploits-search-results-to-shape-views-of-xinjiang-and-covid-19/

#search #censorship #china #russia #usa #microsoft #google
Я знаю много источников данных о России, внутри России, за пределами Росси и не только. Большая часть того что я знаю является госданными, но есть и альтернативные источники данных, негосударственные.

Сейчас многие официальные источники исчезают или "превращаются в тыквы" (теряют детализацию или оперативность). Я подозреваю что все соцопросы сейчас превратятся именно что в тыквы, они уже то не очень, а теперь будут ещё хуже.

Вопрос к читателям, есть ли альтернативные данные по тому что происходит с российской экономикой и обществом сейчас? В идеале, на гиперлокальном уровне, до городов, но региональный и страновой уровни тоже важно.

Например, есть ли источники данных для ежедневного мониторинга цен на потребительскую корзину? Или уровень ожиданий у предпринимателей? Причём неважно, источники этих данных бесплатные или платные, главное чтобы достоверные и не на госданных.

Обсудим в чате @begtinchat

#opendata #data #indicators
Актуальная аналитика по реестру аккредитованных ИТ компаний на 9 июля

• всего у 2946 организаций из реестра аккредитованных ИТ компаний есть зарегистрированное ПО в реестре отечественного ПО
• у 1143 организаций есть хотя бы один зарубежный учредитель
• 1665 организаций имеют статус ликвидированных и из них 207 отмечены в реестре как имеющие действующую аккредитацию
• всего 457 организаций государственные в той или иной форме
• найдено 48 крупных холдингов, в них в совокупности входит 867 организации
• крупнейший холдинг (на текущий момент) это 1С. 109 аккредитованных ИТ организаций из которых у 75 есть налоговые льготы
• 10 организаций находятся в подчинении Минцифры РФ
• 51 учреждений высшего образования. Возможно больше, это оценка снизу
• 102 некоммерческие организации
• 42 медицинских учреждения (госпитали и больницы)

#analytics #itmarket
Полезное чтение про данные и не только:
- о том что языковые модели для ИИ позволяют делать гораздо больше чем представляли их создатели [1]
- новый способ визуализации SQL JOIN'ов. Полезно для образовательных целей [2]
- отчет Open Data Institute о практиках повторного использования данных о здоровье в Европе [3]
- дроны управляемые ИИ с распознаванием образом уже летают лучше чем управляемые лучшими мировыми пилотами [4]
- о том как рисовать хорошие и понятные схемы [5]
- декомпозиция интервью с инженерами данных [6]
- полезный гайд по инженерии данных [7]

Ссылки:
[1] https://www.economist.com/interactive/briefing/2022/06/11/huge-foundation-models-are-turbo-charging-ai-progress
[2] https://towardsdatascience.com/you-should-use-this-to-visualize-sql-joins-instead-of-venn-diagrams-ede15f9583fc
[3] https://secondary-use-health-data.theodi.org/
[4] https://spectrum.ieee.org/zurich-autonomous-drone-race
[5] https://towardsdatascience.com/how-to-make-great-schemas-4940e4951a44
[6] https://afroinfotech.medium.com/cracking-the-data-engineering-interview-part-1-structure-28dd05705d4a
[7] https://www.blef.fr/learn-data-engineering/

#data #readings
Продолжаю делиться цифрами и аналитикой по реестру аккредитованных ИТ компаний.

В приложенном файле разбивка по аккредитованным ИТ компаниям из реестра аккредитованных их лицензированная деятельность.

Важно помнить что у одной компании может быть больше одной лицензии и внутри лицензии может быть более одной деятельности.

Из более чем 27+ тысяч компаний лицензии в ЕГРЮЛ есть, на сегодняшний день, у примерно 3644.

Поэтому надо исходить из того что эта таблица охватывает многое, но не всё, информация не из всех реестров есть у ФНС, есть виды деятельности не подлежащие лицензированию, есть и другие реестры и тд.

Но журналистам которые ищут экзотические юридические лица каким-то непонятным (на самом деле понятным) образом получившие аккредитацию, такие данные будут полезны.

Disclaimer: Эта таблица основана на открытых и общедоступных данных раскрываемых Минцифрой РФ, ФНС России и иными органами власти РФ.

Как я говорил база данных по ним готова, а делать ли интерфейс над ней и как, я ещё думаю. Команда занята другими проектами, а это пока живёт в режиме пэт проджекта.

#opendata #data #itmarket #datassets
В качестве примера раскрытия кода алгоритмических систем, в Великобритании команда портала GOV.UK опубликовали код рекомендационной системы [1], той, которая на портале, выдаёт список страниц которые ещё могут быть интересны пользователю. На сайте это выглядит как Related content об этом команда пишет в блоге [2] и про раскрытие информации по стандарту алгоритмической открытости [3].

Конечно, рекомендательная система имеет не такое значение как скоринговые системы или системы распознавания образов или системы отслеживания поведения граждан и тд. Они всего лишь рекомендуют, но добровольное раскрытие кода даже таких систем - это важный шаг в постепенной открытости алгоритмов и работы ИИ в будущем.

А в данном случае ещё и интересно почитать технические подробности реализации [4]

Ссылки:
[1] https://github.com/alphagov/govuk-related-links-recommender
[2] https://insidegovuk.blog.gov.uk/2022/07/04/opening-up-our-code-and-logic-for-algorithmic-decision-making/
[3] https://www.gov.uk/government/collections/algorithmic-transparency-standard
[4] https://apolitical.co/solution-articles/en/machine-learning-government-algorithm

#opensource #ai #transparency #government #uk
Полезное чтение про приватность, открытость, и госполитику в цифре
- в Китае власти расширяют наблюдение за гражданами [1] статья в NYT по результатам анализа тысяч документов о госзакупках. Читать лучше без VPN из России открывается без пэйвола.
- об использовании открытых данных для понимания политики [2] текст на европейском портале открытых данных о том как изучать и наблюдать за политикой через открытые данные. Много ссылок на общественные проекты. Невозможно представить аналогичный текст в России на госпортале.
- проект Manifesto [3] большая научная база с открытыми данными и исследованиями манифестов политических партий с 1945 г. по нынешнее время. Охватывает более 1000 политических партий.
- свежая статья в CODATA [4] о том как отраслевые данные агрокультуры должны соответствовать практике работы с научными данными FAIR.
- несколько победителей EUDataThon 2022 сфокусировались на исследовании и анализе рисков при госзакупках [5]․ Ссылки на результаты организаторы не публикуют, только названия проектов и победителей и участников, но найти сами проекты не так уж сложно. Жаль из России невозможно было поучаствовать

Ссылки:
[1] https://www.nytimes.com/2022/06/21/world/asia/china-surveillance-investigation.html
[2] https://data.europa.eu/en/datastories/using-open-data-understand-politics
[3] https://manifesto-project.wzb.eu/
[4] https://datascience.codata.org/articles/10.5334/dsj-2022-013/
[5] https://op.europa.eu/en/web/eudatathon

#opendata #policy #privacy #china #eu #readings
Наглядная иллюстрация будущего ИИ которое нас ждёт, нас это в смысле, программистов, инженеров и всех остальных кто с ИТ работает - это ИИ способный читать код.

Саймон Вилсон применил GPT-3 к участкам кода [1]. На скриншотах примеры кода, вопросы и полученные ответы.

Помимо того что это забавно, это ещё и серьёзный шаг вперед. ИИ способный читать код может контролировать качество кода, идентифицировать ошибки, отслеживать прогресс разработки.

Иначе говоря быть эдаким супервайзером кода. Это примерно как со строительством. Роботы сами пока ещё не умеют строить дома (почти), но алгоритмические системы могут определять когда строители работают, а когда курят и расслабляются.

То же самое может ожидать и индустрию разработки. Даже если ИИ не будет писать код сам, следить за твоим кодом он сможет.

Ссылки:
[1] https://simonwillison.net/2022/Jul/9/gpt-3-explain-code/

#ai #ethics
Полезное чтение про данные и не только
- "Потому что ИИ на 100% прав и безопасен" научная статья о том что 79% индусов доверяют решениям автоматических алгоритмов больше чем людям и о том что с этим делать [1]
- подборка 5 инструментов с открытым кодом по прослеживаемости данных. Не нашёл там чего-то радикально нового, но всё разумно и кратко-сжато изложено [2]
- каталог данных Tokern [3] автор делает примерно то же что и я, headless data catalog, и тоже через автоматическое определение типов данных с акцентом на чувствительные данные. Конкуренция это хорошо, есть на что посмотреть.
- очень неплохая научная статья про текущее состояние MLOps [4]

Ссылки:
[1] https://research.google/pubs/pub51146/
[2] https://blog.devgenius.io/5-best-open-source-data-lineage-tools-in-2022-f8ef39a7d5f6
[3] https://tokern.io/
[4] https://arxiv.org/pdf/2205.02302.pdf

#ai #readings #datatools #data
Я несколько дней комментировал СМИ по поводу нового законопроекта (почти закона) вводящего оборотные штрафы за утечки персональных данных и, вроде бы, ещё не писал здесь.

Сформулирую несколько ключевых тезисов:
1. Утечки персональных и иных конфиденциальных данных - это, безусловно, серьёзная проблема. Она стала серьёзнее с того момента как российские компании потеряли возможность на диалог с зарубежными регуляторами и теперь не могут получить содействия в удалении утекших данных с зарубежных хостингов.
2. К предыдущим проблемам утечек связанных с работой коммерческих хакеров сейчас добавилась идеологизированная ситуация с тем что утечки не только происходят, но и на их основе создаются интерактивные продукты ориентированные уже не на хакеров, а на обывателей, чем обывателей довольно сильно пугают.
3. Декларируемый законопроект призван, как может показаться из выступлений инициаторов, защитить гражданина от утечек, а ещё точнее "ввести драконовские меры" напугать цифровые компании чтобы те вложили больше ресурсов в безопасность пользовательских данных
4. Все основные меры законопроекта - карательно контрольные. Мол получите штраф, подключитесь к ГосСопке и получите ещё штраф если не уведомили пользователей.
5. Главное чего нет в законопроекте - это интересов гражданина и пользователя. Штрафы идут в федеральный бюджет а гражданин не получает компенсации, ни материальной, ни моральной. Он вообще ничего не получает кроме того что узнает что вот этой компании сделали больно.
6. В то же время последние выступления о том чтобы ввести 3-х уровневое наказание для компаний и за первую утечку только пожурить вызывают только смех. У большинства крупных цифровых холдингов и не было больше одной утечки за последние 10 лет. Вот утечет вся база Госуслуг, чтоже, за первую утечку только пожурят? Очень смешно
7. Поэтому я не могу назвать эту меру ни то что системной, но и даже осмысленной. А самое главное, будущий закон не предлагает пути минимизации утечек как явления.
8. Что для этого нужно? Во первых, как минимум, введения требований по страхованию компаний от утечек и требований по обязательному полугодовому/годовому техническому аудиту. Это очень не понравится цифровым компаниям, потому что страховки будут дорогими, а в свою инфраструктуру никто пускать не любит, но ответственность за утечку должны нести, и компания, и аудитор.
9. Во вторых, и это важно, страховые выплаты в случаях утечек должны идти на покрытие судебных издержек и выплаты пользователям.
10. И, в третьи, и это тоже важно, если и вводить оборотные штрафы, то они также должны идти не в федеральный бюджет, а в специальный фонд по аналогии агентства страхования вкладов для выплат потерпевшим. А оборотные штрафы накладывать надо с учётом холдинговой структуры ИТ бизнеса, иначе у многих компаний сейчас будет ох[р]ененный соблазн вешать свои информационные системы на свои расходные, а не доходные дочерние компании, а потом штрафы платить именно с них.

#thoughts #regulations #dataleaks
Много лет назад, когда в России только-только появился термин вначале "Большое Правительство", а потом "Открытое Правительство" - это были форматы которые декларировались властью, тогда это был Дмитрий Медведев, как форма коммуникации и открытости с гражданами. Я тогда состоял в экспертном совете при Пр-ве и ещё в какой-то дюжине разных экспертных и общественных советов, везде продвигая одну и ту же мысль что открытость данных - это неотъемлимая часть современного гос-ва.

Но эта открытость и коммуникация была, как бы, публичной стороной этих структур. Непубличным, но более очевидным был даже не лоббизм, а расширенная форма вовлечения в государства без государственной службы.

Для тех кто не знает, государственная служба несёт очень много формальных ограничений, не только в виде сдачи деклараций о доходах, но и с формальной невозможностью совмещения, например, с руководством какими-либо коммерческими юридическими лицами. Понятно что для верхней касты номенклатуры эти ограничения хоть и формально есть, а по факту... Многочисленные расследования общеизвестны.

Эти ограничения порождали большой запрос у части "лиц приближённых" на статус, с одной стороны государственный, а с другой госслужбой не обременённый. Отсюда все эти многочисленные гос-НКО, отсюда многочисленные правительственные комиссии, советы, рабочие группы и иные формализованные консультативные объединения. С одной стороны они не обладают юридическим статусом, а с другой их вес в выстроенных отношениях с аппаратами Пр-ва и другими органами власти.

Так вот, когда я читаю о том что Пр-во организует стратегическую сессию по обсуждению кандидатов на роль глав индустриальных центров компетенций по замещению зарубежных продуктов в ключевых отраслях экономики [1] у меня стойкое дежавю.

Если вчитаться в список кандидатов, то очевидно что все они, либо главы госхолдингов, либо крупного связанном с гос-вом бизнеса. Понятно что эти центры компетенций это инструмент влияния на рынки их присутствия и то что за импортозамещение отвечают представители крупнейших олигопольных структур (за редким исключением) - это как раз модель делегирования власти и ответственности из Пр-ва, в эти индустриальные центры.

Экономисты назвали бы это продолжением чеболизации экономики, а я назову это размыванием власти. Впрочем сложно придумать более эффективный способ хоронить какие-то инициативы чем создавать центр компетенций. Хотя, ещё вариант, создавать межведомственные рабочие группы. Звучит не так красиво, конечно, но масштаб трагедии будет сопоставим.

Ссылки:
[1] https://www.rbc.ru/economics/11/07/2022/62cbf3d89a79472e7830a3a7

#government #russia
Иногда полезно перечитывать отложенные ещё в прошлом году материалы и там есть интересные идеи.

Например, возможно, мало кто слышал про подход к разработке информационный систем Documentation-first или Docs First.

Это идея когда всё делается наоборот, а не как в привычном цикле. Вначале пишут документацию, потом по ней проектируют спецификации (API) и только потом пишут код.

То есть цикл не: код -> спецификация -> документация, а документация -> спецификация -> код

Об этом выступал Rahul Dighe на конференции ASC 2021 [1] с аргументами что разработчики - это тоже пользователи и заботится о них нужно ещё начиная со стадии проектирования.

Подход хоть и спорный, но интересный с точки зрения практики. Очень хочется какой-то живой пример где такой пример бы сработал.

А ещё он интересен с точки зрения самого подхода. Перевернуть цикл разработки с, казалось бы, привычной последовательности. А какие ещё процессы можно рассмотреть в той же модели? Так чтобы их можно было перевернуть ?

Ссылки:
[1] https://events.linuxfoundation.org/archive/2021/openapi-asc/program/schedule/

#API #ideas #documentation #docsfirst