Ivan Begtin
7.99K subscribers
1.77K photos
3 videos
101 files
4.49K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]
Download Telegram
Как я ранее обещал буду понемногу выкладывать выборки из аналитической базы по российскому ИТ рынку.

Здесь два Excel файла.
В одном список ИТ компаний принадлежащих на 100% зарубежным юридическим лицам и одновременно имеющие ИТ льготы в России, а не просто аккредитацию Минцифры.

Во втором список госпредприятий и госучреждений имеющих налоговые льготы. Второй список, скорее всего, неполон, но основные точно отмечены.

А я скажу что сейчас аналитическая база уже готова. Она является сводом примерно 5 реестров и туда осталось только добавить данные по программным продуктам из реестра отечественного ПО. Дальше уже долгий процесс обогащения данных другими источниками и краудсорсингом.

#opendata #data #dataprojects
В продолжение предыдущего я ранее писал что разные части наших продуктов APICrafter и Datacrafter мы выложили с открытый доступ [1]

Сейчас они используются для сборки нескольких дата-продуктов и появилась возможность выложить несколько новых примеров и актуализировать код открытых репозиториев.

В репозитории datacrafter-examples [2] появились 3 новых примера:
- itbenef - реестр ИТ компаний получателей налоговых субсидий
- itregistry - реестр аккредитованных ИТ компаний
- softreg - реестр отечественного ПО

Вместо того чтобы размещать сами наборы данных, публикую код с помощью которого они создаются. Потому что первоисточники акцента на данных не делают, данные обычно в Excel форматах или не них нет прямой ссылки. Ну и, конечно, никакие новые полезные данные на госпорталах с открытыми данными вроде data.gov.ru не появляются.

Они все используют в качестве источников данные с сайта Минцифры РФ и их информационных систем.

Для запуска достаточно установить datacrafter [3] и выполнить команду 'datacrafter run' в директориях с файлами проектов "datacrafter.yml"

Причём надо использовать последний код из репозитория поскольку в нем как раз исправлены ошибки обработки Excel файлов.

datacrafter - это пока упрощённая, а далее усложняемая NoSQL утилита для задач ETL, по извлечению обработке и загрузке данных.

По умолчанию все данные там рассматриваются как JSON/JSON lines и сама утилита включает возможности преобразования плоских файлов в эти форматы.

Если найдете ошибки, пишите их в issues репозиториев.

Ссылки:
[1] https://github.com/apicrafter
[2] https://github.com/apicrafter/datacrafter-examples
[3] https://github.com/apicrafter/datacrafter

#opensource #datatools
Нынешние российские цензурные ограничения - это очень неприятное явление с плохими долгосрочными последствиями.

Многие включили самоцензуру и, кстати, тоже. Например, я почти перестал писать по теме госинфраструктуры и госдоменов, базу которых я продолжаю вести, но публиковать некоторые находки оттуда уже никак невозможно. Посыпятся обвинения в том что "помогаю хакерам" или, наоборот, "помогаю чиновникам, и мешаю хакерам".

Аналогично в отношении государственных информационных систем. Много можно знать, да не о многом теперь можно говорить.

#security #privacy #censorship
image_2022-07-07_20-43-04.png
249.7 KB
В связи с жизненными обстоятельствами публикации в канале "Клуб любителей КИИ", блог "Рупор бумажной безопасности" и телеграм-канале прекращаются.

Спасибо всем моим читателям и подписчикам, особенно за комментарии и предложения.

Опубликованные материалы удалятся не будут. При их использовании в работе необходимо учитывать, что законодательство страны меняется и предложенные действия могут не соответствовать актуальным требованиям.

Здоровья вам и благополучия, берегите себя.
Познавательная статья в Wired [1] о том что системы предсказаний преступлений не работают так как этого ожидают, поскольку объекты их измерений, люди и территории, меняются, а системы обучают на данных прошлого. В результате отдельные территории могут отмечаться как рискованные, а отдельные люди как склонные к преступной жизни, даже если социальные условия уже изменились.

Ответов в статье нет, впрочем у меня тоже нет. Более развитые алгоритмы могут нарушать приватность настолько насколько мы найдем это запредельным. Прекрасно поданные миры отражённые в Черном зеркале или Мире дикого запада - это примеры ИИ собирающих данные о всех в непрерывном режиме. К чему сейчас нет никакой социальной готовности, хотя всех и пугает готовность технологическая.

Ссылки:
[1] https://www.wired.com/story/crime-prediction-racist-history/

#privacy #crime #crimeprediction
Статья How China uses search engines to spread propaganda [1] и отчет Brookings Institution [2] о том как китайские власти манипулируют поисковой выдачей по теме Синцзяня и COVID-19.

Россию там тоже упоминают в контексте того что Google демонетизировал российские гос-СМИ.

Но важнее что авторы пишут о том что поисковые системы уже начали размечать контент от госСМИ Китая и не только и то что исследователи рекомендуют поисковым системам (технологическим кампаниями их создающим) поменять правила ранжирования и деприоритизировать "низкокачественный государственный контент".

Поэтому неприятная новость в том что "демократическая цензура" поисковых систем весьма вероятна и обсуждается․ Сейчас в контексте Китая, далее может и в контексте России.

Политический нейтралитет для big tech скоро станет уже абсолютно невозможен.

Ссылки:
[1] https://www.brookings.edu/techstream/how-china-uses-search-engines-to-spread-propaganda/
[2] https://www.brookings.edu/research/winning-the-web-how-beijing-exploits-search-results-to-shape-views-of-xinjiang-and-covid-19/

#search #censorship #china #russia #usa #microsoft #google
Я знаю много источников данных о России, внутри России, за пределами Росси и не только. Большая часть того что я знаю является госданными, но есть и альтернативные источники данных, негосударственные.

Сейчас многие официальные источники исчезают или "превращаются в тыквы" (теряют детализацию или оперативность). Я подозреваю что все соцопросы сейчас превратятся именно что в тыквы, они уже то не очень, а теперь будут ещё хуже.

Вопрос к читателям, есть ли альтернативные данные по тому что происходит с российской экономикой и обществом сейчас? В идеале, на гиперлокальном уровне, до городов, но региональный и страновой уровни тоже важно.

Например, есть ли источники данных для ежедневного мониторинга цен на потребительскую корзину? Или уровень ожиданий у предпринимателей? Причём неважно, источники этих данных бесплатные или платные, главное чтобы достоверные и не на госданных.

Обсудим в чате @begtinchat

#opendata #data #indicators
Актуальная аналитика по реестру аккредитованных ИТ компаний на 9 июля

• всего у 2946 организаций из реестра аккредитованных ИТ компаний есть зарегистрированное ПО в реестре отечественного ПО
• у 1143 организаций есть хотя бы один зарубежный учредитель
• 1665 организаций имеют статус ликвидированных и из них 207 отмечены в реестре как имеющие действующую аккредитацию
• всего 457 организаций государственные в той или иной форме
• найдено 48 крупных холдингов, в них в совокупности входит 867 организации
• крупнейший холдинг (на текущий момент) это 1С. 109 аккредитованных ИТ организаций из которых у 75 есть налоговые льготы
• 10 организаций находятся в подчинении Минцифры РФ
• 51 учреждений высшего образования. Возможно больше, это оценка снизу
• 102 некоммерческие организации
• 42 медицинских учреждения (госпитали и больницы)

#analytics #itmarket
Полезное чтение про данные и не только:
- о том что языковые модели для ИИ позволяют делать гораздо больше чем представляли их создатели [1]
- новый способ визуализации SQL JOIN'ов. Полезно для образовательных целей [2]
- отчет Open Data Institute о практиках повторного использования данных о здоровье в Европе [3]
- дроны управляемые ИИ с распознаванием образом уже летают лучше чем управляемые лучшими мировыми пилотами [4]
- о том как рисовать хорошие и понятные схемы [5]
- декомпозиция интервью с инженерами данных [6]
- полезный гайд по инженерии данных [7]

Ссылки:
[1] https://www.economist.com/interactive/briefing/2022/06/11/huge-foundation-models-are-turbo-charging-ai-progress
[2] https://towardsdatascience.com/you-should-use-this-to-visualize-sql-joins-instead-of-venn-diagrams-ede15f9583fc
[3] https://secondary-use-health-data.theodi.org/
[4] https://spectrum.ieee.org/zurich-autonomous-drone-race
[5] https://towardsdatascience.com/how-to-make-great-schemas-4940e4951a44
[6] https://afroinfotech.medium.com/cracking-the-data-engineering-interview-part-1-structure-28dd05705d4a
[7] https://www.blef.fr/learn-data-engineering/

#data #readings
Продолжаю делиться цифрами и аналитикой по реестру аккредитованных ИТ компаний.

В приложенном файле разбивка по аккредитованным ИТ компаниям из реестра аккредитованных их лицензированная деятельность.

Важно помнить что у одной компании может быть больше одной лицензии и внутри лицензии может быть более одной деятельности.

Из более чем 27+ тысяч компаний лицензии в ЕГРЮЛ есть, на сегодняшний день, у примерно 3644.

Поэтому надо исходить из того что эта таблица охватывает многое, но не всё, информация не из всех реестров есть у ФНС, есть виды деятельности не подлежащие лицензированию, есть и другие реестры и тд.

Но журналистам которые ищут экзотические юридические лица каким-то непонятным (на самом деле понятным) образом получившие аккредитацию, такие данные будут полезны.

Disclaimer: Эта таблица основана на открытых и общедоступных данных раскрываемых Минцифрой РФ, ФНС России и иными органами власти РФ.

Как я говорил база данных по ним готова, а делать ли интерфейс над ней и как, я ещё думаю. Команда занята другими проектами, а это пока живёт в режиме пэт проджекта.

#opendata #data #itmarket #datassets
В качестве примера раскрытия кода алгоритмических систем, в Великобритании команда портала GOV.UK опубликовали код рекомендационной системы [1], той, которая на портале, выдаёт список страниц которые ещё могут быть интересны пользователю. На сайте это выглядит как Related content об этом команда пишет в блоге [2] и про раскрытие информации по стандарту алгоритмической открытости [3].

Конечно, рекомендательная система имеет не такое значение как скоринговые системы или системы распознавания образов или системы отслеживания поведения граждан и тд. Они всего лишь рекомендуют, но добровольное раскрытие кода даже таких систем - это важный шаг в постепенной открытости алгоритмов и работы ИИ в будущем.

А в данном случае ещё и интересно почитать технические подробности реализации [4]

Ссылки:
[1] https://github.com/alphagov/govuk-related-links-recommender
[2] https://insidegovuk.blog.gov.uk/2022/07/04/opening-up-our-code-and-logic-for-algorithmic-decision-making/
[3] https://www.gov.uk/government/collections/algorithmic-transparency-standard
[4] https://apolitical.co/solution-articles/en/machine-learning-government-algorithm

#opensource #ai #transparency #government #uk
Полезное чтение про приватность, открытость, и госполитику в цифре
- в Китае власти расширяют наблюдение за гражданами [1] статья в NYT по результатам анализа тысяч документов о госзакупках. Читать лучше без VPN из России открывается без пэйвола.
- об использовании открытых данных для понимания политики [2] текст на европейском портале открытых данных о том как изучать и наблюдать за политикой через открытые данные. Много ссылок на общественные проекты. Невозможно представить аналогичный текст в России на госпортале.
- проект Manifesto [3] большая научная база с открытыми данными и исследованиями манифестов политических партий с 1945 г. по нынешнее время. Охватывает более 1000 политических партий.
- свежая статья в CODATA [4] о том как отраслевые данные агрокультуры должны соответствовать практике работы с научными данными FAIR.
- несколько победителей EUDataThon 2022 сфокусировались на исследовании и анализе рисков при госзакупках [5]․ Ссылки на результаты организаторы не публикуют, только названия проектов и победителей и участников, но найти сами проекты не так уж сложно. Жаль из России невозможно было поучаствовать

Ссылки:
[1] https://www.nytimes.com/2022/06/21/world/asia/china-surveillance-investigation.html
[2] https://data.europa.eu/en/datastories/using-open-data-understand-politics
[3] https://manifesto-project.wzb.eu/
[4] https://datascience.codata.org/articles/10.5334/dsj-2022-013/
[5] https://op.europa.eu/en/web/eudatathon

#opendata #policy #privacy #china #eu #readings
Наглядная иллюстрация будущего ИИ которое нас ждёт, нас это в смысле, программистов, инженеров и всех остальных кто с ИТ работает - это ИИ способный читать код.

Саймон Вилсон применил GPT-3 к участкам кода [1]. На скриншотах примеры кода, вопросы и полученные ответы.

Помимо того что это забавно, это ещё и серьёзный шаг вперед. ИИ способный читать код может контролировать качество кода, идентифицировать ошибки, отслеживать прогресс разработки.

Иначе говоря быть эдаким супервайзером кода. Это примерно как со строительством. Роботы сами пока ещё не умеют строить дома (почти), но алгоритмические системы могут определять когда строители работают, а когда курят и расслабляются.

То же самое может ожидать и индустрию разработки. Даже если ИИ не будет писать код сам, следить за твоим кодом он сможет.

Ссылки:
[1] https://simonwillison.net/2022/Jul/9/gpt-3-explain-code/

#ai #ethics
Полезное чтение про данные и не только
- "Потому что ИИ на 100% прав и безопасен" научная статья о том что 79% индусов доверяют решениям автоматических алгоритмов больше чем людям и о том что с этим делать [1]
- подборка 5 инструментов с открытым кодом по прослеживаемости данных. Не нашёл там чего-то радикально нового, но всё разумно и кратко-сжато изложено [2]
- каталог данных Tokern [3] автор делает примерно то же что и я, headless data catalog, и тоже через автоматическое определение типов данных с акцентом на чувствительные данные. Конкуренция это хорошо, есть на что посмотреть.
- очень неплохая научная статья про текущее состояние MLOps [4]

Ссылки:
[1] https://research.google/pubs/pub51146/
[2] https://blog.devgenius.io/5-best-open-source-data-lineage-tools-in-2022-f8ef39a7d5f6
[3] https://tokern.io/
[4] https://arxiv.org/pdf/2205.02302.pdf

#ai #readings #datatools #data