Ivan Begtin
8.06K subscribers
1.97K photos
3 videos
102 files
4.68K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]
Download Telegram
Один из вопросов на которые пока лично у меня нет ответа - это какие некоммерческие проекты ещё возможно создавать в России. Почти все проекты Инфокультуры в последние годы были вокруг данных. Это и Госзатраты и Открытые НКО и многие другие проекты [1]. Они всё ещё доступны, но неизвестно когда, скорее скоро, до них доберутся российские цензоры и выбор будет, или их закрывать, или перестать делать их внутри России.

Проект который развивать можно и нужно безо всех сомнений, хотя и также с рисками - это Национальный цифровой архив, из его телеграм канала я регулярно делаю репосты.

Что ещё полезного и реально актуального можно делать в России? Особенно с учётом полного отсутствия финансирования на технологичные некоммерческие проекты. Я вижу явную тему опрозрачивания рынка ИТ, и даже понимаю что можно делать в этом направлении, не понимаю правда где на это взять финансирование, но что-то можно и без него.

Вижу явную тему мониторинга [падения] качества жизни вот только все реальные данные по этой теме могут сейчас оказаться зацензурированы, уже цензурируются по факту.

Любое опрозрачивание объективного состояния экономики будет предметом манипуляции и давления со всех сторон, в общем, тоже мимо.

Открытые данные - это то что находится внутри любой подобной инициативы, по умолчанию.

Давайте обсудим какие технологические общественные проекты актуальны в России. И напишите, если Вы какие-то проекты на данных делаете или планируете делать.

Ссылки:
[1] https://infoculture.ru/projects

#opendata #opengov #projects
Очень частый вопрос о том какая возникает экономическая эффективность от открытия данных государством. Частый, чаще всего, от непонимания как раскрытия ключевых данных влияет на общество. Особенность ответа в том что отдельный маленький набор данных может ни на что не влиять, но целенаправленная политика раскрытия по определенной теме может влиять очень сильно. Пример, качество жизни. По отдельности наборы данных о состоянии воздуха, воды, качестве образования, уровне преступности и тд., важны, но вместе из них можно собрать цельный продукт.

Другой пример из совершенно иной области. Открытые данные - это бесплатное топливо для многочисленных сервисов по работе с данными таких как SplitGraph, data.world, bit.io, DoltHub, Amazon AWS, Azure Open Datasets, Google Big Query.

Основная идея в том что пользователи не готовы платить за открытые данные, но готовы платить за инфраструктуру работы с ними и обработки, особенно когда открытые данные находятся в том же контуре куда они могут загрузить свои - это основная модель работы с открытыми данными в BigQuery, Azure, AWS. Данные являются мультипликатором удобства сервиса. Когда ты используешь инфраструктуру облачного провайдера для того чтобы работать с собственными данными, а открытые данные для тебя лежат тут же, рядом, пригодные для быстрого подключения.

Такое использование открытых данных далеко не единственное, но поддающееся измерению, в отличии от попыток измерить их косвенный экономический эффект от исследований или аналитических сервисов, которые, чаще основаны не на общедоступной информации.

#opendata
В рубрике продуктов на данных с открытым кодом OpenBB [1] аналог торгового терминала Bloomberg с открытым кодом. Ранее он был известен как Gamestonk Terminal. О нем много где писали, например, на Reddit'е большой тред [2].

Как и у всех продуктов для инвесторов он интегрирован с десятками источников данных, частью полностью открытых, частью доступных по подписке, за деньги. Я предполагаю что бизнес модель команды сделавшей этот терминал как раз в том чтобы зная как устроен код оперативно добавлять новые источники данных и сервисы которые уже взимают деньги с пользователей.

Важная и интересная особенность - это терминал командной строки, с кучей команд, достаточно большим числом возможностей и тд. Эдакий полноценный shell (программная оболочка) для работы.

Главная особенность в гибкости и в возможности загрузки и анализа практически любых наборов данных с временными рядами.

Ссылки:
[1] https://openbb.co
[2] https://www.reddit.com/r/Python/comments/m515yk/gamestonk_terminal_the_equivalent_to_an/

#opensource #opendata #data
Инструменты для работы и исследования веб-архивов

metawarc
— инструмент командной строки для извлечения метаданных из изображений, документов и других файлов внутри архивов WARC (Web ARChive). С помощью команды analyze возвращает список типов mime со статистикой в виде количества файлов и общего размера файлов. Ссылка: https://github.com/datacoon/metawarc.

CDX Summary — инструмент для обобщения коллекции WARC. CDX Summary позволяет пользователям понять, что находится в CDX файле, содержащем большую коллекцию WARC файлов, предоставляя человекочитаемое резюме. Сводка включает в себя временной разброс, типы mime, ведущие хосты и примеры URI из коллекции. Ссылка: https://github.com/internetarchive/cdx-summary.

SolrWayback — интерфейс, позволяющий исследователям изучать файлы ARC и WARC, аналогичное Internet Archive Wayback Machine. SolrWayback позволяет осуществлять типичный полнотекстовый поиск и исследовательские способы просмотра архива, включая создание графов гиперссылок. Ссылка:
https://github.com/netarchivesuite/Solrwayback.

Рекомендуем также использовать список инструментов Awesome digital preservation: https://github.com/ruarxive/awesome-digital-preservation.
Для тех кто готов помогать с архивацией сайтов, мы начали собирать задачи в которых нужна помощь. Большая часть задач являются техническими, например, по сбору сайтов порталов и разделов с открытыми данными в России [1] и по развитию инструментов архивации данных из API [2]․

Общий список задач оформлен в виде проекта на Github [3], новые задачи по остальным проектам будут собраны там же.

Сейчас у нас больше задач технических, но если Вы видите какие-то пробелы или необходимость в инструментах/проектах/работах по архивации, то пишите в чате к этому каналу, обязательно их учтём.

Ссылки:
[1] https://github.com/ruarxive/rudatarchive/issues
[2] https://github.com/ruarxive/apibackuper/issues
[3] https://github.com/orgs/ruarxive/projects/1/views/1

#digitalpreservation #opensource #ruarxive
Большой экспертный доклад группы экспертов Евростата [1] с основной идеей изменения подхода к официальной статистики через управление данными и построению статистических показателей, в том числе, за счёт данных частных компаний. Что характерно, в докладе участвовала большая группа экспертов почти со всех стран ЕС и почти все они из частного сектора компаний работающих с данными.

В целом ничего радикально нового, но чётко систематизировано и про то как будет происходить эволюция официальной статистики. Включая участие граждан в её формировании.

Важнейший аспект документа - в отражении того что статистика формируется не только под заказ органов власти, а для бизнеса и граждан.


Ссылки:
[1] https://ec.europa.eu/eurostat/documents/7870049/14803739/KS-FT-22-004-EN-N.pdf/052b4357-bf8e-9ce4-c063-7e806c045dac

#opendata #statistics #europe #eurostat
Хороший текст “Semantic-free” is the future of Business Intelligence [1] о семантически-свободных BI продуктах и то что headless BI - это тоже семантически-свободный BI. Расшифровывается это как то что все BI инструменты должны соблюдать общие стандарты в результате применения которых можно использовать комбинации BI инструментов. Звучит здорово, но вообще безвендорный мир или мир с ослаблением вендоров сложен без административного или мощного рыночного давления.

Текст же весьма полезный для понимания некоторых проблем с BI которые после прочтения текста кажутся очевидными.

Ссылки:
[1] https://towardsdatascience.com/semantic-free-is-the-future-of-business-intelligence-27aae1d11563

#bi #datastandards
Интересный тренд, инвестиции в стартапы по анализу и обработки защищённых и зашифрованных данных. Opaque [1] получли $22M в серии A на платформу для конфиденциальных вычислений.

Из корп сайта будет неовчевиден потенциал команды, а они, в то же время, создатели опенсорс платформы MC2 [2] для безопасной аналитики.

Ссылки:
[1] https://opaque.co
[2] https://github.com/mc2-project/mc2

#data #startups #security
В качестве небольшого, но регулярного отвлечения от основных тем моего канала.

Можно сказать что в последние месяцы и, на самом деле, уже несколько лет мои интересы сильно сместились в сторону технологий, продуктов на данных и создание стартапов в этой области.

Но, конечно, я помню чем я занимался многие годы - а это были темы государственного управления через данные, анализ госзакупок, публичные и непубличные расследования на данных и не только.

Что я хочу сказать так то что система госзаказа и субсидирования у нас в стране (в России) выстроена таким образом что арестовать можно практически любого участника, даже если он жуть как добросовестный. Это не баг, а фича выстроенной модели госуправления, именно процедурный контроль и токсичность государственных денег уже много лет - основа любых рисков в работе с государством. Автоматизированный и ручной анализ госконтрактов, субсидий и много чего другого даёт возможность проводить хоть массовые аресты. Было бы желание, а его, не странно ли, нет.

К примеру, арест ректора РАНХиГС Владимира Мау, по делу на 21 млн. рублей где присутствуют ещё Сергей Зуев и Марина Ракова. На секундочку бюджет РАНХиГС годовой около 21 млрд рублей. В 1000 раз больше, бюджеты которыми распоряжалась Ракова, тоже куда больше 21 млн. руб. Это вообще небольшие деньги, но, так почему же вокруг этого сыр бор?

Те кто знает как распределение госсредств в России устроено знают что за любыми крупными финансовыми потоками стоят крупные интересанты. Строительные компании, системные интеграторы, иные поставщики, а за ними их реальные бенефициары на привлечение к ответственности которых у следователей нет команды разрешения. Многих арестовывают за незначительные контракты не потому что нельзя найти что-то другое, а потому что в этом случае есть гарантия что чьи-то интересы затронуты не будут.

И то что совершенно несправедливо под арестом держат Сергея Зуева, Марину Ракову, многих других и, теперь, ещё и под домашним арестом держат Владимира Мау, не говорит о их виновности. Говорит лишь о неадекватности предпринимаемых мер предписанным преступлениям. Впрочем, об этом уже много писали СМИ, которые теперь признали инагентами.

Всё это важно для понимания текущей институциональной среды. Это то что не могут исправить меры правительства, разбрасывание денег с вертолёта и тд., в том числе в ИТ отрасли.

Потому что, я напомню, с государственными деньгами есть проблема. За их использование можно привлечь ответственным любого кто являлся их получателем. Когда закончится период экстремальной перестройки экономики и сменится правительство, первое что будут делать правоохранители - это смотреть кого можно взять в разработку.
Вокруг ИИ помощника по написанию кода Github Copilot разгораются нешуточные баталии [1], НКО Software Freedom Conservancy призывают всех разработчиков покинуть Github [2].

Причём корень проблемы в том что открытый код не делает ограничений на его использование автоматизированными системами, а ко всему ещё и при разработке Copilot не учли все нюансы повторного использования кода и смешения лицензий в итоге. Эту проблему частично пытается решить Amazon с похожим продуктом CodeWhisperer [3], может быть комбинация факторов конкурирующего продукта и волнений разработчиков повлияет на Copilot и продукт будет серьёзно обновлён.

А я на фоне Copilot и тому подобных продуктов не могу не выразить личное мнение что возможна ситуация когда написание простого кода не потребует полноценного интеллекта и следующие шаги в индустрии будут уже не в создании умных помощников, а в полноценных алгоритмах со разработчиках. Уже есть эксперименты продуктов умеющих делать продукты в no-code и low-code системах из текстового или голосового описания.

Вопрос, когда появятся умные оптимизаторы кода способные переписывать его существенные части и находить существенные ошибки и исправлять их?

А самое главное как будут меняться профессиональные и общественные отношения в связи с этими изменениями. Например, появятся ли лицензии кода запрещающие любое его использование ИИ и автоматизированными системами? Но и этого может оказаться недостаточно.

Ссылки:
[1] https://techcrunch.com/2022/07/01/open-source-developers-urged-to-ditch-github-following-copilot-launch/
[2] https://sfconservancy.org/blog/2022/jun/30/give-up-github-launch/
[3] https://techcrunch.com/2022/06/23/amazon-launches-codewhisperer-its-ai-pair-programming-tool/

#opensource
В рубрике полезных инструментов работы с данными CSVFiddle [1] сервис по разбору CSV файлов из проекта DucksDb. Он построен на базе DucksDB-Wasm [2] для аналитики прямо в браузере и использует функцию read_csv_auto [3] полезную фичу DucksDb по разбору CSV файлов практически любого типа. Что особенно актуально для разбора CSV файлов экспортированных из Excel когда до колонок с данными есть всякие другие записи. Довольно частая ситуация.

CSVFiddle умеет разбирать такие данные и позволяет прямо в браузере работать с ними с помощью SQL запросов.

Я, кстати, кажется ничего не писал про DuckDB [4], а это такая весьма интересная OLAP СУБД как замена SQLite для аналитической работы. Задач для применения масса, а ещё умеет импортировать Parquet файлы.

Делает его команда исследователей из Centrum Wiskunde & Informatica в Амстердаме, год назад они создали DuckDb Labs [5], коммерческую компанию. Меня удивляет что они до сих пор не привлекли никакого венчурного финансирования, впрочем, может ещё привлекут.

Ссылки:
[1] https://csvfiddle.io
[2] https://duckdb.org/2021/10/29/duckdb-wasm.html
[3] https://duckdb.org/docs/data/csv#read_csv_auto-function
[4] https://duckdb.org/
[5] https://duckdblabs.com/news/spin-off-company-DuckDB-Labs/

#opensource #datatools #csv #dbms
Как многие наверняка уже слышали и читали в США Верховный суд отменил решение запрещающие отдельным штатам вводить запреты абортов на поздней стадии. Это обычно упоминают в СМИ как "Верховный суд запретил аборты", но суть не меняется, во многих штатах США уже сейчас такие аборты оказались под запретом.

И здесь немедленно возник вопрос приватности тех кто ходит в клиники абортов, уже известно что Google начал скрывать информацию о посещении клиник пользователями устройств с Андроид [1].

Но всё не ограничивается только сервисами Google. Очень многие женщины в США пользуются мобильными приложениями для отслеживания менструальных циклов и беременности и, внимание, оказалось что данные в этих приложениях не подпадают под Health Insurance Portability and Accountability Act (HIPAA) [2] закон о защите данных о здоровье граждан.

Сейчас многие эти приложения удаляют опасаясь что информация из них может быть истребована полицией или судьями.

У этой истории есть много отражений о которых стоит подумать.
1. Технологические компании живут по критериям собственного понимания морали, а не помощи полиции/судьям. Решение Google - это ровно о том чтобы избежать возможности помощи правоохранителям которые могли бы заказать такие данные.
2. Приватность приложений (сбор данных) сейчас во многом определяется магазинами приложений. К вопросу о российском магазине приложений который вот-вот должен запуститься. А что там с приватностью? А что будет если российские законодатели пойдут, также, по пути запрета абортов?

Ссылки:
[1] https://www.washingtonpost.com/technology/2022/05/04/abortion-digital-privacy/
[2] https://www.washingtonpost.com/technology/2022/05/07/period-tracking-privacy/

#privacy #mobileapps
Для тех кто интересуется пониманием содержания данных, data understanding, держу в курсе проекта metacrafter [1]. В него добавилось ещё несколько десятков правил идентификации типов данных. Теперь там присутствуют многие типы данных из анлоязычных датасетов связанных с датой и временем, геоданными итд. Всего 109 правил для более чем 60 типов данных.

А также обновился реестр семантических типов данных metacrafter-registry [2], туда были добавлены типы данных хэшей используемых при анализе ПО и других задачах таких как telhash, imphash, rich pe header и ещё многое другое. А также актуализирована связь типов данных со свойствами Wikidata.

Я напомню что metacrafter - это օpen-source продукт для анализа СУБД и наборов данных и разметки смысла данных в отдельных полях/колонках. С его помощью можно, например, выявлять персональные данные. В продукте используются правила написанные регулярными выражениями и функциями на Python, но так чтобы без существенной потери производительности.

Наша команда, также, разрабатывает правила за пределами open source продукта, позволяющие идентифицировать отраслевые и иные специфичные данные. Например, это ещё более 100 правил используемых для анализа данных на русском и французском языках.

Ссылки:
[1] https://github.com/apicrafter/metacrafter
[2] https://github.com/apicrafter/metacrafter-registry

#opensource #datatools #data
На всякий случай напомню что в телеграм канале @ministryofpoems вы всегда можете найти мою едкую поэззию и прозу. Веду я его как хобби, выражения там не экономлю, плохими словами ругаюсь редко, но прицельно.
Forwarded from ministryofpoems
Выступающий:
Здравствуйте, спасибо за возможность выступить. Я представляю не раз тут упоминавшуюся госкорпорацию Росстрах и сегодня расскажу о том чем мы на самом деле занимаемся, не то из-за чего нас боятся (смех в зале).

Но вначале немного интерактива (раздаётся журчание). Что такое страх? Страх - он как вода. Без него общество не может выжить, когда его слишком много, то в нем как в воде можно захлебнуться.

Росстрах сегодня — это интегрированный холдинг из 10 государственных информационных агентств, 5 социологических служб, 3х исследовательских институтов и пока один кинопроизводственный концерн.
Можно сказать Росстрах — это корпорация гармоничного страха.
Расскажу больше о наших проектах
Система "Гераклит"
С момента принятия 1931-ФЗ по квотированию страхов для СМИ головной болью редакторов была проверка, которую необходимо было проходить для каждой публикации. Не секрет что у Администрации хтонического ужаса и Министерства лёгкого попугивания просто не хватало людей и проверки затягивались на часы.

Система Гераклит - это универсальное решение с искусственным интеллектом. Система не только определяет степень "пугательности" текста, но и определяет тип побуждаемого им страха, определяет аудиторию этого страха и сопоставляет его с квотой выделенному данному СМИ.

Некоторые показатели. Скорость обработки текстов не более 5 минут, только 1,2% текстов передаются на ручную проверку операторам, в день проверяет до 100 тысяч публикаций.

Из зала: Можно вопрос по ходу?
Выступающий: Я хотел вопросы на конец отложить, но давайте по
Из зала: А что делать СМИ которые не превышали квоту и вообще не имели "страховых" публикаций? Вот у нас виртуальный фотоканал про котиков, как нам быть?
Выступающий: Вот тут я хочу напомнить про постановление Правительства 3164-ПП где установлены обязательные диапазоны. Если Вы малый медиаканал до 10 тысяч подписчиков, то Вам надо зарегистрироваться в спец реестре недо-сми
Из зала: А если больше 10 тысяч?
Выступающий: Тогда увы, надо менять формат. Но тут лучше ответят коллеги из Министерства лёгкого попугивания.
Выступающий: Если позволите, я продолжу. Уникальность системы не только в том что она способна выявлять превышения, но и она же может помочь когда доля обязательного страха в медиа недостаточна. Вам достаточно направить текст специальному AI помощнику и он добавит в него немного нужного страха.
Вот пример, на экране. Текст про пользу выращивания васильков в домашних условиях, без изменений. А вот текст который AI помощник создал на базе предыдущего. Обратите внимание на то как аккуратно расставлены акценты на важности участия в государственной программе всеобщего донорства. Этот страх проходит у нас по классификации - страх быть не как все, страх публичного порицания.
Из зала: Но, ведь смысл текста меняется!
Выступающий: Только в нюансах…
Forwarded from Об ЭП и УЦ
Пост навеян тематикой Министерства поэм от Ивана Бегтина:
Министерство аккредитации УЦ -
Ведомство трансформации ЭЦП
Захотело 63-тий закон поправить
И ошибки явные исправить.

Начали с темы сокращения,
Чтобы не было порабощения.
Сократили УЦ на порядок
Думали, что навели порядок

Внесли норму об МЧД,
Не понимая, что это и где.
Создали классификатор полномочий
Только эффективность его не очень.
В рубрике стартапы на данных и про данные
- LightBits получили $42M инвестиций [2] на их корпоративный продукт хранилища данных для виртуальных машин на ими же придуманном стандарте NVMe/TCP [3]. Вообще в этом рынке огромная и ожесточенная конкуренция, а значит и продукт заслуживает внимания раз создателям удаётся привлекать на него инвестиции.

- ZingData [4] подняли посевной раунд на $2.4M [5], они создают mobile-first BI инструмент. Лично я пока не чувствую в этом перспективной темы, но может они какую-то важную нишу найдут.

- SnowPlow [6] привлекли ещё $40M [7] инвестиций на свой продукт по потребительской аналитике. Начинали они с веб-аналитики, а теперь это весьма продвинутая дата-платформа.

Ссылки:
[1] https://www.lightbitslabs.com
[2] https://www.lightbitslabs.com/press-releases/lightbits-raised-42-million-in-growth-capital/
[3] https://www.lightbitslabs.com/nvme-over-tcp/
[4] https://getzingdata.com/blog
[5] https://getzingdata.com/blog/zing_data_seed_raise/
[6] https://snowplowanalytics.com
[7] https://snowplowanalytics.com/blog/2022/06/30/snowplow-announces-series-b/

#startups #data
В Евросоюзе опубликовали черновик закона (регуляторного документа) по раскрытию особо ценных наборов данных для бизнеса и исследователей [1].

Опубликовали черновик ещё в конце мая и до 21 июня собирали обратную связь, которую, тоже будет полезно почитать чтобы знать позицию организаций в ЕС [2].

Также стоит обратить внимание на то какие данные определяются сейчас как особо ценные:
1) geospatial;
2) earth observation and environment;
3) meteorological;
4) statistics;
5) companies and company ownership;
6) mobility.

В обратной связи многие пишут что список неполон и нужны данные относящиеся к качеству жизни, например, статистика преступности.

А вот раскрытие данных о компаниях и их владельцах может повлиять на рынок проверки контрагентов и усилить конкуренцию.

Ссылки:
[1] https://ec.europa.eu/info/law/better-regulation/have-your-say/initiatives/12111-Open-data-availability-of-public-datasets_en
[2] https://ec.europa.eu/info/law/better-regulation/have-your-say/initiatives/12111-Open-data-availability-of-public-datasets/feedback_en?p_id=30829659

#opendata #eu #regulation #laws
На один из наших проектов связанных с работой с большими открытыми данными есть потребность в бэкенд разработчике на Python, работа в России, в Москве.

Работа не для джунов, нужен опыт с чистым Python, Postgres и MongoDB. Проект интересный и сложный. Если готовы работать сами или можете порекомендовать, то сделать это можно вот тут https://hh.ru/vacancy/66696558

#vacancies #projects
В качестве примера утилиты metacrafter [1] по распознаванию типов данных две очень разные базы данных , в одной копия данных по сетевой инфраструктуры в РФ собранная из bgpview, а в другой база федеральных госконтрактов заключенных с 2007 по 2011 годы.

Обе базы содержат вложенные объекты и хранятся в MongoDB, поэтому анализ данных происходит ещё и вглубь объектов.

И распознаются уже более половины значащих полей с данными, распознаются с привязкой к зарегистрированным семантическим типам данных.

Но ещё есть многое что нужно дорабатывать и добавлять. Например, ещё не распознаются и не определяются коды ASN, в реестре типов уже есть, а в правила они ещё не добавлены. Или старые коды продукции в России - ОКП, тоже не определяются как и ряд редко используемых справочников.

Есть доля ложных срабатываний по кодам стран, которые определяются как language tag, потому что значения код ISO 3166 Alpha2 почти полностью входят в коды RFC 5646 и так далее. Но это всё решает усложнением правил.

Уже сейчас почти в каждой базе данных есть хотя бы несколько идентифицируемых семантических типов данных.

Куда более сложная задача, о которой я писал ранее, это выявление / понимание типов данных без предобучения, на основе повторяющихся шаблонов и связывание наборов данных, в том числе, через подобные типы данных

Ссылки:
[1] https://github.ccom/apicrafter/metacrafter

#opensource #dataunderstanding