Ivan Begtin

Сайт «Госзакупок» делают устойчивее к кибератакам

Центр по обеспечению деятельности Казначейства России выложил на портале госзакупок два тендера общей стоимостью более 1 млрд рублей.

В рамках одного из тендеров предпогалается оказание услуг по усилению защищенности портала госзакупок от DDoS-атак. При этом директор «Информационной культуры» Иван Бегтин @begtin считает, что для этого не обязательно тратить многомилионные суммы, а достаточно просто закрыть ресурс от зарубежных IP-адресов:

➡️ https://roskomsvoboda.org/post/goszakupki-mogut-zakryt/

Роскомсвобода

Сайт «Госзакупок» делают устойчивее к кибератакам

В рамках такой защиты допускается возможность оставить доступ к порталу только для поставщиков и заказчиков.

2.1K viewsIvan Begtin, 11:51

Ivan Begtin

В качестве небольшого оффтопика, не про ИТ, но про Минцифру.
Я долго думал какой комментарий подобрать этой новости.
Не придумал. Как прокомментировать коротко и ёмко?

https://digital.gov.ru/ru/documents/8187/

#digital #writers

2.8K viewsIvan Begtin, 13:17

Ivan Begtin

В рубрике полезных инструментов для работы с документацией и воспроизводимостью исследований и работы с данными

Quatro [1] система с открытым кодом для подготовки научной и технической документации. Поддерживает интеграцию с Jupyter Notebook и создание dynamic documents, интерактивных публикаций, полезных в представлении многих научных результатов. Внутри Pandoc [2], умеет работать с Observable, Python, R, Julia и ещё много чего. Для полного счастья не хватает только web UI/GUI и удивительно что нет стартапа который бы подобное поверх Quatro не запилил, потому что движок также умеет делать книжки в ePub, PDF, MS Word.
В целом выглядит как удобная надстройка над Pandoc.

Курс Reproducible and Trustworthy Workflows for Data Science [3] о том как делать проекты для data science воспроизводимыми. Актуально для любых проектов на данных и аналитика без data science тоже, но тут всё подробно и конкретно. Курс полезный, стоит его пройти.

Ссылки:
[1] https://quarto.org/
[2] https://pandoc.org/
[3] https://ubc-dsci.github.io/reproducible-and-trustworthy-workflows-for-data-science/README.html

#openscience #opensource #documentation #datascience

2.3K viewsIvan Begtin, 06:15

Ivan Begtin

По поводу свежей новости о том что Минцифры представили список лиц ИТ отрасли ответственных за импортозамещение [1], мне много что есть что сказать. Я бы даже сказал что очень много что есть сказать, но ограничусь очень краткими тезисами. У меня остаётся ощущение что это какие-то очевидные вещи, но видимо их надо явно проговаривать.

1. У почти всех экспертов почти всегда есть конфликты интересов. Решается это наличием нескольких экспертов в теме и неучастием в обсуждении тех у кого такой конфликт интересов есть. В ситуации когда "один эксперт - одна тема" - конфликты интересов неразрешимы.
2. У нас в стране есть достаточно давняя девальвация понятия "эксперт" и смешение понятий эксперт/лоббист/говорящая голова. Вот и в этом списке есть те кто реально имеет 20+ опыт в том что делает, и те кто представляет GR и маркетинг. Зато GR специалисты - это "все узнаваемые лица", иначе говоря остаётся ощущение что выбирают их по критерию представления конкретной группы интересов конкретной компании, а не по факту объективного отраслевого опыта.
3. Позиции общественных советников - это лоббистские позиции. Лоббизм - это не хорошо, не плохо, это жизнь, главное чтобы эта жизнь не препятствовала остальной жизни и, да, в России нет закона о лоббизме, но все всё понимают (с)
4. Формулировка "ответственные за направления" коварна тем что ответственность без власти не работает. А власть - это выпуск нормативных документов и право распоряжаться бюджетом. Текущие позиции - это не ответственные, это назначение "координаторами групп на общественных началах". Возвращаемся к проблеме конфликтов интересов и GR специалистов, вместо экспертов по многим направлениям.
5. При этом есть понятная проблема. Дефицит (отсутствие) кадров в самом министерстве, почти экстремальная ситуация на ИТ рынке и тд. Но действия при этом непонятные, вернее понятные со стороны участвующих ассоциаций, но непонятные с точки зрения видения результата.

Вот ключевой вопрос тут - а что результатом то будет? Эффективность мер по каким критериям будут измерять?

И, наконец, самое главное, то, что, к сожалению, понимают пока ещё не все. Релокация личная/бизнеса возможна для ИТ и для ряда предпринимателей, а подавляющее большинство сотрудников правоохраны никуда из России не уехали и уехать не могут. А у них тоже жёны, дети, и резкое падение доходов. А ИТ отрасль не стройка, она куда больше на виду чем кажется. Любые конфликты интересов могут выйти боком уже буквально через 1.5-2 года, потому что мотивации у следователей будет больше (потому что "кормовой базы" меньше).

Поэтому я не понимаю всей этой конструкции, если честно. Но совершенно искренне желаю успеха тем кто понимает и знает что делает и сможет хоть что-то.

Ссылки:
[1] https://habr.com/ru/news/t/660579/

#government #policy #lobbying

Хабр

Минцифры представило ответственных лиц от IT-отрасли за разделы и направления ПО для импортозамещения

12 апреля 2022 года Минцифры представило список лиц от российской IT-отрасли, ответственных за разделы и направления ПО для импортозамещения. Они будут заниматься консолидацией мнений компаний,...

2.9K viewsIvan Begtin, 07:00

Ivan Begtin

В законопроекте № 101234-8 [1] по регулированию персональных данных теперь нужно будет разрешение собственников если Вы хотите получить сведения о владельцах недвижимости и много разных других новаций.

Эти данные и раньше открытыми до конца не были, а теперь будут совсем закрыты.

Больше всех должны быть рады все те кто оказался объектами журналистских расследований. Но спрос никуда не денется, просто сместится в черный рынок.

Ссылки:
[1] https://sozd.duma.gov.ru/bill/101234-8
[2] https://www.cian.ru/stati-vydachu-dannyh-iz-egrn-hotjat-ogranichit-povysitsja-bezopasnost-ili-risk-moshennichestva-324570/

#opendata #data #egrn #policy

2.5K viewsIvan Begtin, 10:17

Ivan Begtin

Для тех кто любит работать (с данными) в командной строке хорошая подборка новых инструментов [1], как просто для работы, так и для работы с данными.
Мой личный список значительно шире, какие-то инструменты я писал сам, для наиболее частых задач, например, undatum утилита работы с JSON lines и BSON и другими форматами данных или lazyscraper для быстрого сбора данных с веб-страниц через командную строку.

Чувствую что надо составить собственный список, а в представленном списке выше есть немало того что стоит попробовать.

Ссылки:
[1] https://jvns.ca/blog/2022/04/12/a-list-of-new-ish--command-line-tools/

#opensource #tools #data #datatools

Julia Evans

A list of new(ish) command line tools

2.7K viewsIvan Begtin, 11:03

Ivan Begtin

Свежий обзор The Modern Data Stack Ecosystem: Spring 2022 Edition [1] от Continual.ai, Конечно, как и все, они описывают Modern Data Stack с точки зрения их места в экосистеме, но, собственно и сам термин так активно используется стартапами именно для того чтобы показать позиционирование своего продукта. Удивительно что для MDS ещё нет холста в популярных системах проектирования вроде Miro и т.д.

Обзор полезный, например, автор отмечает отход от SQL-only подхода в преобразовании данных и в dbt рассматривают вариант включить поддержку non-SQL [2] и Snowflake рассматривают добавление Python-in-DB через Snowpark [3]

Главный недостаток именно этого обзора с слабом покрытии инструментов с открытым кодом, их там совсем немного упомянуто. Зато роли и применение продуктов стартапов довольно много.

Ссылки:
[1] https://continual.ai/post/the-modern-data-stack-ecosystem-spring-2022-edition
[2] https://roundup.getdbt.com/p/disjointed-lineage
[3] https://www.snowflake.com/blog/snowpark-is-now-generally-available/

#data #reading #tools #moderndatastack

continual.ai

The Modern Data Stack Ecosystem: Spring 2022 Edition

In this article, we take a peek at what is developing in the modern data stack ecosystem and summarize the main tools and vendors to consider when reaching for new functionality.

2.7K viewsIvan Begtin, 04:35

Ivan Begtin

Я, кстати, тем кто думает над развитием IT продуктов не могу не порекомендовать видео "Смерть российской IT-разработки - правда или ложь? Будет ли мир покупать российские IT-продукты?" [1] Александра Горного (@startupoftheday). Он довольно точно описывает ситуацию что и раньше то большая часть "российских" ИТ продуктов переставали быть российскими как только выходили на мировые рынки. Их создатели создавали юр лица в штате Дэлавер, Гонконге и других юрисдикциях и уже так продавали на мировом рынке.

Значительная часть уехавших ИТ специалистов из России - это как раз те кто жили в глобальном рынке, вероятность что они вернутся весьма туманна. С чего бы, если в Россию невозможно переводить деньги? А то есть существуют объективные экономические причины.

В целом тема большая о том что остаётся в стране и в какой форме, что будет дальше с ИТ рынком, где границы рынка, каковы перспективы работы только внутри страны и другими подсанкционными территориями и тд.

Мои мысли примерно таковы.
Для всех кто хочет делать продукты на весь мир кроме как уезжать и запускать их за пределами России других вариантов, похоже, не будет. И наоборот, если амбиций мало, а на "хлеб с маслом" (буквально) чтобы хватало, можно создавать ИТ продукты и сервисы в России.

Есть ещё один важный фактор - это общая социальная и политическая атмосфера. Если перестать подшучивать над Минцифрой и поражаться их "гаремным отношениям" с профильными ассоциациями (я про необычный пул экспертов по импортозамещению ПО), то меры по поддержки ИТ отрасли это то что министерство делает хорошо, насколько это возможно.
Но... есть очень неотраслевые вещи про внутреннюю политику. Например, последние публикации политиков призывающие к охоте на ведьм на пятую колонну. Помимо того что вся эта кровожадность - это психически нездоровое явление, это все создаёт атмосферу при которой те кто могут уезжать, продолжат уезжать. На это Минцифры никак повлиять не может и экономические меры поддержки не помогут.

Ссылки:
[1] https://www.youtube.com/watch?v=1NZESfO5HLo

#thoughts #it

YouTube

Смерть российской IT-разработки - правда или ложь? Будет ли мир покупать российские IT-продукты?

Разбираемся, что случится с российским IT из-за санкций и закрытия рынков.

Еженедельные выпуски новостей: https://www.youtube.com/playlist?list=PLvl-IZkfjYai7IWZzIMxShQlNH9XKTi6p
Телеграм-канал с авторскими обзорами стартапов: https://t.iss.one/startupoftheday…

4.6K viewsIvan Begtin, edited 07:49

Ivan Begtin

Для тех кто интересуется анализом и обработкой данных, большое обновление реестра семантических типов данных который я создавал когда-то для инструментов определения типов данных. Реестр называется metacrafter registry и его репозиторий доступен на github [1].

Обновления:
- 158 семантических типов данных
- 38 дополнительных шаблона записи данных
- 18 категорий, 6 стран и 6 языков. Поддерживаются некоторые типы данных специфичные для США, Великобритании, Франции и Испании и, конечно, России. Например. идентификаторы организаций.

Все семантические типы описаны теперь как индивидуальные YAML файлы [2], это значительно упрощает их развитие и обновление.

По сути над базой не хватает только веб интерфейса для постоянных ссылок (пермалинков).

Зачем это нужно? Этот реестр развитие утилиты metacrafter [3] написанной как универсальный инструмент определения смысловых полей данных в базах данных, вне зависимости от их названия. Утилита умеет работать с SQL, MongoDB, файлами CSV, JSON, JSON lines и BSON․ Определяет десятки типов полей, а самое главное, она расширяема и можно писать свои правила. В опубликованной версии присутствует пара десятков готовых правил, а в нашей внутренней версии в DataCrafter'е, их несколько сотен. Все они сейчас обновляются для привязки к реестру семантических типов.

Ссылки:
[1] https://github.com/apicrafter/metacrafter-registry
[2] https://github.com/apicrafter/metacrafter-registry/tree/main/data/datatypes
[3] https://github.com/apicrafter/metacrafter

#datatools #opensource #datacrafter #apicrafter

GitHub

GitHub - apicrafter/metacrafter-registry: Registry of metadata identifier entities like UUID, GUID, person fullname, address and…

Registry of metadata identifier entities like UUID, GUID, person fullname, address and so on. Linked with other sources - apicrafter/metacrafter-registry

2.7K viewsIvan Begtin, 14:30

Ivan Begtin

Forwarded from Национальный цифровой архив

Задача: обогащение метаданных архива Эха Москвы

Продолжаем настраивать понятный пользовательский интерфейс для просмотра и поиска по архиву радиостанции «Эхо Москвы» (Echo of Moscow) от Ruarxive на сайте Internet Archive.

Для этого нам нужно обогатить метаданные архива, что настроить фильтры и использование расширенного поиска по архиву (информация о программах, ведущих и др. на русском и английском языках).

Просим помощи у волонтеров! Выполнение задачи не требует навыков программирования.

Подробное описание задачи: https://ruarxive.org/kb/volunteers/metadata-echo-moscow-archive

2.1K viewsIvan Begtin, 15:57

Ivan Begtin

Текущее состояние с порталами открытых данных в России
❗️Недоступен портал открытых данных Воронежской области opendata.govvrn.ru
❗️Не работает уже давно портал открытых данных Кабардино-Балкарии od.kbr.ru, ссылка на него есть на сайте kbr.ru
❗️На сайте Правительства Тверской области тверскаяобласть.рф больше нет ссылки на раздел открытые данные. Сам раздел ещё доступен, но 2 года не обновляется и там всего 4 набора данных.
❗️Недоступен портал открытых данных Вологодской области data.gov35.ru
🔨 Снова работает портал открытых данных РФ data.gov.ru, работает в том смысле что открывается, а не в смысле возможности найти там что-то полезное

Каталог всех порталов и репозиториев в России и о России datacatalogs.ru

#opendata #data #russia #datacatalogs

2.1K viewsIvan Begtin, 06:08

Ivan Begtin

Нужны ли интернет-провайдеры? Приемлема ли интернет цензура частных компаний? Почему мы вообще обязаны платить за интернет когда он становится обязательным? Это всё немаловажные вопросы о том как интернет и связь развивались все эти годы и как они должны.

В Евросоюзе эти вопросы разобраны в докладе Towards Public Digital Infrastructure посвящённому тому что цифровая инфраструктура должна быть приравнена к общественной инфраструктуре.

В докладе акценты расставлены в сторону контроля данных пользователями, то что называется Democratic Data Spaces, но я бы трактовал его сразу расширенно, на цифрую инфраструктуру как явление.

Тут важно помнить что доклад готовился на грант ЕС в рамках проекта Next Generation Internet и стоит предполагать появление этих идей в Европейском законодательстве в ближайшие годы.

P.S. Тем временем в России Ростех хочет получить контроль над Ростелекомом. А это, уж простите, но вхождение Ростелекома в состав военно-промышленного комплекса.

#data #policy #regulation #eu #digital

2.2K viewsIvan Begtin, 10:55

Ivan Begtin

О зарплатах в ИТ [1] в США в 2022 г. в журнале IEEE Spectrum в 5 графиках. Можно обратить внимание на востребованность специалистов со знанием Go, Python и, как ни странно, Ruby on Rails.

А также стоит обратить внимание что многим в ИТ интересно решать проблемы связанные с системой здравоохранения, образованием и будущим системы труда. А космос и не только на втором плане.

Всё это про рынок труда в США, конечно.

А что же будет с российским рынком в ближайшее время? Какие специалисты будут наиболее востребованы?

Ссылки:
[1] https://spectrum.ieee.org/software-engineer-salary-2657117801

#it #jobs #salaries #usa

2.4K viewsIvan Begtin, 16:21

Ivan Begtin

Я вернулся к написанию технических текстов на английском языке, в этот раз заметка Semantic data types. Systematic approach and types registry [1] в Medium о инструментах о которых я регулярно пишу тут и на других площадках. Это инструмент metacrafter [2] по определению типов данных и наконец-то завершенный реестр Semantic data types [3] в котором собираются смысловые типы данных которые поддерживаются утилитой metacrafter или будут поддерживаться в будущем.

Зачем это нужно я уже писал, это необходимо для задач:
- выявления персональных и чувствительных данных автоматически
- упрощения интеграции данных
- автоматического документирования баз данных
- контроля качества данных, в том числе автоматического

Об этом и другом про данные и про практическую работу с данными я, постепенно, буду писать больше.

Ссылки:
[1] https://medium.com/@ibegtin/semantic-data-types-systematic-approach-and-types-registry-a2c2a60a467b
[2] https://github.com/apicrafter/metacrafter
[3] https://registry.apicrafter.io/

#opendata #data #datatools #opensource #metadata

Medium

Semantic data types. Systematic approach and types registry

What is semantic data types?

2.1K viewsIvan Begtin, 08:09

Ivan Begtin

Полезное чтение про данные
- Union.ai [1] стартап с облачным управлением data workflows от создателей Flyte, продукта с аналогичными функциями с открытым кодом. Привлекли $10M инвестиций [2]
- The “Datadogs” of tomorrow. [3] интересные размышления о инструментах data observability и будущих возможностях в этой области
- Data Discovery Tool: why you absolutely need one! [4] обзор практического внедрения Amundsen, корпоративного каталога [мета]данных и data discovery tool. Полезное как практические обзор
- Feathr [5] LinkedIn выложили в открытый код свой feature store
- Data Engineering Best Practices [6] лучшие практики по дата инженерии, почти все написаны про облака. Нужен аналогичный обзор по лучшим практикам по не облачным инструментам с открытым кодом.
- Guidance Data engineer [7] описание профессии data engineer на сайте gov.uk. Текст из 2020 года, сейчас он также актуален. Хорошо структурировано для понимания того что это за профессия и какими навыками надо обладать. (После такого, конечно, читать российские "профстандарты" совершенно невозможно).
- Hudi, Iceberg and Delta Lake: Data Lake Table Formats Compared [8] сравнение инструментов создания озер данных от создателей Lakefs.

Ссылки:
[1] https://www.union.ai/
[2] https://techcrunch.com/2022/04/12/union-ai-raises-10m-to-simplify-ai-and-ml-workflow-orchestration/
[3] https://itnext.io/the-mlops-engineer-the-datadogs-of-tomorrow-614a88a374e0
[4] https://medium.com/hipay-tech/setting-up-a-data-discovery-tool-why-and-which-solution-to-choose-5e03fcbed458
[5] https://engineering.linkedin.com/blog/2022/open-sourcing-feathr---linkedin-s-feature-store-for-productive-m
[6] https://medium.com/@matt_weingarten/data-engineering-best-practices-2a02949b99c4
[7] https://www.gov.uk/guidance/data-engineer
[8] https://lakefs.io/hudi-iceberg-and-delta-lake-data-lake-table-formats-compared/

#data #readings

www.union.ai

Union: Unify Your AI Development On A Single, End-to-End Platform

Our AI workflow and inference platform unifies data, models and compute with the workflows of execution on a single pane of glass.

2.1K viewsIvan Begtin, 05:04

About

Blog

Apps

Platform