Ivan Begtin
7.99K subscribers
1.77K photos
3 videos
101 files
4.49K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]
Download Telegram
Многим не нравится то как пишутся законы и другие регулирующие документы, немногие готовы это принципиально, иногда радикально, менять.

В Великобритании команда Policy Lab выпустила серию из 12 карт [1] экспериментальных подходов к разработке госполитики. Там есть, например:
- сверхпредсказания
- серьёзные игры
- нормативный театр
- вовлечение через метаверс
- цифровые двойники
- бодисторминг
- моральные представления
- децентрализованные автономные системы
- искусство в госполитике
- гражданские собрания
- регенеративный дизайн

Там же у них разные интересные примеры того как это применяется на практике. В чистом виде цифровых инструментов там немного, а вот многие подходы действительно весьма необычны.

Ссылки:
[1] https://openpolicy.blog.gov.uk/2022/05/18/launching-our-experimental-policy-design-methods/

#government #policymaking #policy
Написал большой текст на английском про спектр каталогов данных и отличия между научными репозиториями данных, порталами открытых данных и корпоративными каталогами [1]

Ссылки:
[1] https://medium.com/@ibegtin/data-catalogs-part-1-spectrum-of-data-catalogues-ba75d1dd06c9

#opendata #datacatalogs #datascience #openaccess
Ранее было ФНС России, а теперь пишут что ещё и администрация Улан-Удэ блокирует письма не с российских доменов .ru

Как бы по этому поводу поприличнее выразится:
1. Домены .com, .org, .net - не иностранные, а универсальные. Они не относятся к национальным доменным зонам.
2. У многих российских компаний, организаций и граждан есть домены в этих зонах, а также в зонах вроде .io очень популярных в ИТ среде.
3. Напомню что домены .by, .kz, .uz, .am, .kg, .tj тоже иностранные и со странами Евразэс у России, казалось бы, конфликта нет

Правильный вопрос который журналисты могут задать властям города Улан-Удэ (и ФНС России тоже, кстати) - это почему они решили дискриминировать армян, казахов и другие народы близлежащих стран,а заодно и граждан России не проживающих в России.

#security #email #russia #idioten
Написал очередной большой текст на английском Data catalogs. Part 2. Data and metadata standards [1] на Medium о том какие стандарты работы с данными и метаданными используются в каталогах данных.

Ссылки:
[1] https://medium.com/@ibegtin/data-catalogs-part-2-data-and-metadata-standards-940dc575a787

#datastandards #datacatalogs
Что-то вдруг рефлексия напала и написал пост про этику в ИБ, которая сейчас, после 24-го февраля, раскрывается с новых, ранее неведанных сторон. Культура отмены, признание хакеров, похвальба взломами… Нам всем еще аукнется то, что сейчас происходит
В рубрике интересных наборов данных портал CanWin [1] созданный на базе системы управления данными с открытым кодом CKAN и на котором опубликовано 64 набора данных по 17 проектам относящимся к наблюдению за водными поверхностями осуществляемыми Центром наук наблюдения за Землёй Университета Манитоба, Канада.

От классического портала данных его отличает значительно более развитая система метаданных связанными с каждым набором данных, наличие ссылки для научного цитирования, включая присвоение DOI, вырузка данных единым пакетом данных и экспорт метаданных во многих форматах.

Похоже CKAN как продукт активно развивается в сторону применения его в задачах открытого доступа и научных порталов данных.

Ссылки:
[1] https://canwin-datahub.ad.umanitoba.ca/

#opendata #ckan #openaccess
Тем временем в Японии специалисты NICT разработали и создали технологию передачи данных со скоростью в 1.02 Петабита в секунду [1] по кабелю длиной 51.7 километра.

Авторы исследования и ранее немало добились в экспериментах по передаче данных, даже интересно когда такие скорости доберутся до потребителей.

Ссылки:
[1] https://www.sciencealert.com/researchers-just-set-a-new-record-for-data-transmission-speed

#tech
Для тех кто интересуется тем что такое Modern Data Stack [1] у вики сервиса дата каталога Castor собрана большая подборка технологий / стека данных используемых многими компаниями и стартапами такими как Coca-Cola, Airbnb, Amazon, Canva, Uber и другие. Стартапы чаще рассказывают о своих технологиях чтобы привлечь инженеров к решению интересных задач используя современные технологии, так что стартапов там будет больше.

Другой интересный источник того чтобы понимать какие технологии в компаниях используются - это сервис StackShare [2] где разработчики/команды делятся впечатлениями от использования сервисов и программных продуктов и там же описаны многие технологические стеки стартапов, компаний, проектов и не только в части данных. Например, стек образовательного сервиса Udemy [3]․

И, наконец, сайт Modern Data Stack [4] с каталогом именно современных стеков данных разных компаний. Здесь всё расписано по группам продуктов и сфокусировано только на данных. Стеков описано меньше, зато фокус чётче. К примеру, стек данных LinkedIn [5]

Конечно, воспроизводить один в один чужой стек данных - занятие довольно бессмысленное, у большинства нетиповых компаний нетиповые потребности и свой технический долг под который собирает стек данных. Но регулярно изучать что делают компании на рынке схожего с Вашей бизнес моделью и размером - всегда полезно.

Ссылки:
[1] https://castordoc.notion.site/15b14f305db6416f9e6d4772ffaeef07?v=c9fd105e248c4feca587b0462e066b4d
[2] https://stackshare.io
[3] https://stackshare.io/udemy/udemy
[4] https://www.moderndatastack.xyz
[5] https://www.moderndatastack.xyz/stacks/linkedin

#moderndatastack #datatools
Forwarded from DRC LAW: IT-юристы
​​Лето в цифре: чем Школа киберправа снова готова привлечь бизнес?

Бизнесу в нынешней ситуации приходится тяжело: санкции, постоянно меняющееся законодательство, риск попасть под блокировку сайта и потерять на этом деньги, вопросы защиты товарных знаков и брендов и многое, многое другое. А если ваш бизнес связан с IT, криптой или авторскими правами — то без знания юридических тонкостей современной “цифры” и вовсе не обойтись. Даже в том случае, если у вас есть юридическое образование или профессия.

Приглашаем всех предпринимателей, IT-стартаперов и юристов, так или иначе связанных с цифровым миром, высокими технологиями и новыми финансовыми активами, на новый запуск Школы киберправа — с 20 по 24 июня в Москве. Посетив его, вы сможете избежать многих подводных камней по организации и ведению бизнеса “с цифровым лицом”, а также увеличить свою прибыль, невзирая на непростые времена!

На протяжении пяти дней наши опытные практикующие эксперты и тренеры в онлайн- и оффлайн режиме разберут действующее законодательство и лучшие бизнес-кейсы в рамках семи специализированных модулей:

1.Big Data & AI
2.Digital assets & crypto/blockchain
3.Tax & Ad
4.Intermediaries & ISP
5.Forensic & Digital evidence
6.IP & Copyright & Domains
7. Privacy & Security

Хотите попасть в число счастливых слушателей? Тогда успевайте зарегистрироваться — ведь старт Школы намечен уже на 20 июня, а количество мест ограничено!

Регистрируйтесь по ссылке:
https://clck.ru/arSfJ
Если Вам кажется что всё плохо в России и то что "дно ещё не нащупано", всегда полезно оглядываться на тех кто глубже. В UN OCHA (Управлениտ ООН по правам человека) заметка с критикой экспертами ООН в адрес цифровой диктатуры в Мьянме где не только заблокировали соцсети, но и 31 городе отключали интернет и 23городах сильно его замедляли. В основном в городах с особо сильной критикой военной хунты. А сейчас там рассматривают законопроект о кибербезопасности по которому можно блокировать любой сайт без суда, а за использование VPN дают до 3 лет тюрьмы.

Ссылки:
[1] https://www.ohchr.org/en/press-releases/2022/06/myanmar-un-experts-condemn-militarys-digital-dictatorship

#internet #privacy #freedom
Многие научные журналы в мире требуют от учёных публиковать вместе со статьями так называемый DAS (Data availability statement), заявление о доступности данных. Оно включает, или ссылку на открытые опубликованные данные, или объявление о доступности данных по запросу.

Группа исследователей провела анализ того как такие заявления публиковались в ряде медицинских журналов и написали статью о том что DAS, фактически, не работает Many researchers were not compliant with their published data sharing statement: mixed-methods study[1]

Они запрашивали данные у тех кто размещал DAS с объявление о доступности данных по запросу и тех кто это не делал и в обоих случаях на их запросы получить данные реагировало не более 7% учёных. Фактически можно говорить о том что многие ученые к подходят к заявлениям о готовности предоставить данные очень формально, не будучи к этому фактически готовыми.

У Sergio Uribe [2] из Балтийского биомедицинского центра в большой серии твитов подборка примеров декларируемой доступности и фактической недоступности данных и как один из сценариев решения - чтобы журналы требовали обязательного раскрытия информации и осуществляли за этим контроль, не принимая статьи без FAIR Data.

Ссылки:
[1] https://www.jclinepi.com/article/S0895-4356(22)00141-X/fulltext
[2] https://twitter.com/sergiouribe

#opendata #openaccess
В рубрике интересных наборов данных инициатива Microsoft Data for Society [1] по публикации открытых данных необходимых для решения наиболее значимых проблем общества.

Данных там много, какие-то создаются компанией и раскрываются на Github, например, Solar farms mapping in India [2], другие создаются в партнерских лабораториях, например, HKH glacier mapping [3], но все вместе их можно рассматривать одновременно и как научную инициативу по открытому доступу и как модель корпоративной социальной ответственности.

Там же много ссылок на другие их инициативы в области развития общества через данные и ИИ. Сейчас это крупнейшая подобная корпоративная инициатива в мире, по масштабам она превосходит раскрытие данных многими городами и странами.

Ссылки:
[1] https://www.microsoft.com/en-us/ai/data-for-society
[2] https://github.com/microsoft/solar-farms-mapping
[3] https://lila.science/datasets/hkh-glacier-mapping

#opendata #ai #datasets #microsoft #corporateresponsibility
На Cnews феноменальная по кликбейтовости и отсутствию проработки очередная публикация про то что Ростех ещё в марте писал в Минцифру идеи по расширению ИТ льгот и компенсации ИТ-шникам половины аренды, с общим завершением статьи что мол неизвестно чем всё это закончилось. Ссылку на Cnews я давать не буду.

Так вот, чем это закончилось вполне известно, со 2 марта по 20 апреля 2022 года в реестр аккредитованных ИТ компаний было включено 17 юридических лиц относящихся к ГК Ростех.

АО "РТ-ПРОЕКТНЫЕ ТЕХНОЛОГИИ"
АКЦИОНЕРНОЕ ОБЩЕСТВО "ЦЕНТР СУПЕРКОМПЬЮТЕРНОГО МОДЕЛИРОВАНИЯ"
АО "НИИ "РУБИН"
ООО "МАСТЕРСКАЯ СИСТЕМ"
ООО "РТ-ИНФОРМ"
ООО "СПЕКТР"
АО "СИП РС"
АО "ИНФОРМАКУСТИКА"
АО "ПО "ЭЛЕКТРОПРИБОР"
АО "КОНЦЕРН "АВТОМАТИКА"
ООО "НТ"
АО "ПНИЭИ"
АО "ЦНИИАГ"
ООО "РТ-ЦТ"
АО "КНИРТИ"
АО "РАДИОЗАВОД"
АО "НИИМА "ПРОГРЕСС"
АО "КОМПАНИЯ "СУХОЙ"

Источник - Cписок аккредитованных организаций։ https://digital.gov.ru/ru/activity/govservices/1/

Всё это общедоступные сведения и журналисты CNews, даже при небольшом желании, могли бы и сами это узнать.

И, конечно же, большая часть этих компаний, конечно, же никакого отношения к ИТ отрасли не имеют.

#russia #datasets #registry #it
Не могу не повторить что очень хотелось бы комментировать что-то более позитивное, но приходится комментировать СМИ разное. Например, Forbes [1] про оценку уехавших ИТшников и РБК про инициативу цифровых платформ получить ИТ льготы [2].

Но в целом я хочу повторить два важных тезиса:
1. Токсичный оптимизм - не только раздражает, но и ощущение что "правительство на другой планете живёт, родной" (с) Кин-дза-дза
2. После того как закончится острый период кризиса, я напомню что правоохранители и налоговики 100% начнут рыть под всех кто получил льготы и с хоть малейшей вероятностью им не соответствует.

Ссылки:
[1] https://www.forbes.ru/tekhnologii/468055-cto-mozno-uznat-ob-abonente-po-sim-karte-i-pri-cem-tut-vozvrasenie-ajtisnikov
[2] https://www.rbc.ru/technology_and_media/08/06/2022/629f7a099a7947322474d15d

#it #russia
Сейчас в разных, в основном в помоечных, телеграм каналах пишут о том что часть физ. лиц инагентов были признаными такими из-за работы с Republic и Эхо Москвы.

Я не могу не вспомнить и напомнить что кроме того что я тут пишу про технологии и, всё таки, первично ИТшник, но я довольно много чего писал и пишу публицистического про технологии.

Мои колонки есть в РБК [1], российском Forbes [2], Ведомостях [3], Полит.ру [4] и ещё много где, включая Republic [5]․

Так что если и меня надумают включать в инагенты, то далеко ходить не надо, вот оно.

Ссылки:
[1] https://www.rbc.ru/persons/begtin.shtml
[2] https://www.forbes.ru/person/327221-begtin-ivan
[3] https://www.vedomosti.ru/authors/ivan-begtin
[4] https://polit.ru/author/289686/
[5] https://republic.ru/authors/100519

#russia
Свежее чтение про данные:
- Make a data engineer cry with just 4 words [1] очень смешной тред в твиттере, многое напоминает истории с открытыми данными. А варианты вроде Dataset stored in PowerPoint прекрасны и это тоже из жизни
- The Death of Data Modeling - Pt. 1 [2] о том что процесс моделирования данных требует перезапуска
- Data Mesh: Topologies and domain granularity [3] о гранулярности в проектах Data Mesh. Взгляд скорее сверху, чем от живых примеров, но для общего понимания полезно
- We should phase the "SQL Interview" out [4] о том почему интервью разработчиков с тестированием знания SQL бессмысленны и надо чтобы они понимали природу данных и умели бы работать разными инструментами
- Duo, the Push, and the Bandits [5] о том как устроена мотивационная система в Duolingo и о их технической архитектуре
- HTREC 2022 [6] конкурс по распознаванию греческих и византийских текстов на папирусе. Приз скромный - трэвел грант поездки в Венецию, но сама задача сложная и интересная. Участвовать можно почти из любой страны

Ссылки:
[1] https://twitter.com/AdiPolak/status/1533490998562660352
[2] https://dataproducts.substack.com/p/the-death-of-data-modeling-pt-1
[3] https://towardsdatascience.com/data-mesh-topologies-and-domain-granularity-65290a4ebb90
[4] https://counting.substack.com/p/we-should-phase-the-sql-interview
[5] https://vicki.substack.com/p/duo-the-push-and-the-bandits
[6] https://www.aicrowd.com/challenges/htrec-2022

#reading #news #data #ai
Я выложил в открытый код очередной компонент нашей платформы по публикации данных APICrafter с таким же названием apicrafter это инструмент/утилита/библиотека кода по автоматическому созданию API поверх NoSQL СУБД, сейчас это MongoDB. Внутри используется REST API фреймворк Python Eve, а сам движок предполагает создание только read-only API, для публикации и раскрытия данных.

Его особенности:
- автоматическое обнаружение таблиц и генерация схем данных для MongoDB
- все настройки через файлы YAML
- управление API в проектном режиме, для каждого проекта создаётся отдельный проект.

Основной сценарий использования - это когда Вы не хотите детально моделировать данные которые у Вас есть в наличии, но Вам необходимо кому-то их предоставить или использовать для интеграции систем. Тогда данные закидываются в MongoDB как есть и с помощью этой утилиты создаётся API.

Скажу сразу сейчас это упрощённая утилита, не отрабатывающая сложных сценариев, без уникальных урлов каждого объекта и тд., необходимая именно для того чтобы быстро выставить наружу API к какой-либо базе данных

Всё это отдельные внутренние части каталога данных DataCrafter (datacrafter.ru). Изначально она была сделана по монолитному режиму и в последний год я её разбирал и выкладывал по компонентам:
- metacrafter - идентификация семантических типов данных
- datacrafter - ETL для работы с большими батчами (как правило в открытых данных)
- apicrafter - фреймворк для создания API поверх MongoDB

Следующая версия каталога уже будет иметь какое-то другое название и собираться из этих компонентов почти по новой.


#opendata #data #opensource #datatools #apicrafter #datacrafter
IBM ушёл из России, но сервера и ПО IBM госзаказчики покупать не перестали. Свежий контракт на 800 млн. руб. подведа Федерального Казначейства (ФКУ ЦОКР) с ООО "Интегрейтед Сервисес Групп" [1] на поставку серверов и комплектующих. Сервера, вроде как, декларируются как российские сервера Аквариус, а в списке аппаратного обеспечения сплошняком оборудование и программное обеспечение IBM, вроде IBM AIX Enterprise Edition.

Так может IBM ещё не ушёл из России или ушёл только номинально?

Ссылки:
[1] https://zakupki.gov.ru/epz/contract/contractCard/common-info.html?reestrNumber=1770989550922002235&contractInfoId=73395724

#government #procurement
В рубрике интересных наборов данных база стоимости услуг госпиталей в США [1] размещённая на платформе Dolthub. Особенность в том что Dolthub организуют регулярные конкурсы краудсорсингового сбора данных и эта база данных также собирается волонтерами которым за это ещё и существенно платят, нельзя сказать что копейки, общий бюджет на создание такого набора данных - $15 тысяч и в списке лидеров есть те кто заработал уже более $5 тысяч.

Dolthub позиционируют себя как Git для данных и у них, действительно, хороший продукт с интересными возможностями.

Но вот свой потенциал в части организации таких конкурсов они недооценивают.

По моему скромному мнению рано или поздно их купит один из крупных международных big tech холдингов вроде MS, IBM, Oracle, Google, Amazon или кто-то вроде и поставят такие конкурсы на поток совместно с инициативами Data4Good и другими гуманитарными проектами связанными с работой с данными.

Ссылки:
[1] https://www.dolthub.com/repositories/dolthub/hospital-price-transparency-v3

#opendata #dolthub #dataplatforms #datasets
В рубрике интересных инструментов с открытым кодом для работы с данными:
- sowego [1] утилита и библиотека для Python по линковке больших каталогов данных с Wikidata
- vector [2] ETL от Datadog по созданию труб данных для работы с логами и метриками.
- RecordLinkage [3] библиотека для Python по связыванию похожих структур
- Inception [4] инструмент/платформа для семантического аннотирования текстов
- Dedupe [5] ещё один инструмент для избавления дубликатов в Python
- Streamlit [6] платформа по быстрому развертыванию дата приложений на Python.
- Bdbag [7] инструмент работы со стандартом научных данных BagIT и большими данными
- schema.data.gouv.fr [8] исходный код французского правительственного репозитория схем [9]․ Все схемы в JSON, с документацией, отслеживанием изменений и тд. Очень редкий для гос-ва системный подход
- NoProto [10] ещё один стандарт сериализации данных, с поддержкой схем, сортировкой и другими фичами. К нему же референсные реализации на JS и Rust
- Confluent Schema Registry [11] реестр схем данных для Kafka, на базе JSON Schema
- Records [12] библиотека для Python для удобной работы с SQL, поддерживает только SQL СУБД.
- Miraql [13] удобный визуализатор API и схем Graphql

Ссылки:
[1] https://github.com/Wikidata/soweego
[2] https://github.com/vectordotdev/vector
[3] https://github.com/J535D165/recordlinkage
[4] https://github.com/inception-project/inception
[5] https://github.com/dedupeio/dedupe
[6] https://github.com/streamlit/streamlit
[7] https://github.com/fair-research/bdbag
[8] https://github.com/etalab/schema.data.gouv.fr
[9] https://schema.data.gouv.fr
[10] https://github.com/only-cliches/NoProto
[11] https://github.com/confluentinc/schema-registry
[12] https://github.com/kennethreitz/records
[13] https://github.com/oslabs-beta/miraql

#datatools #data #opensource