Я ранее писал про реестр семантических типов данных registry.apicrafter.io [1], сегодня добавил к нему расширение схемы описания каждого такого типа.
Напомню, это реестр смысловых значений полей данных полезный для задач:
- идентификации персональных данных
- улучшения навигации по каталогам данных
- автоматическое документирование данных
- автоматические тестирование данных
Во первых - это связь типа данных со свойством из Wikidata [2], хотя в Wikidata далеко не всё, а только то что соотносится с данными Википедии, поэтому большая подборка идентификаторов библиографии, и не так много идентификаторов из физического мира или продуктов. Тем не менее одно из важнейших достоинств Wikidata - это хорошо систематизированные данные связываемые онтологическим образом. А для свойств присутствующих там также включены правила проверки и иные метаданные.
Например, код РНБ [3], для которого есть примеры и есть регулярное выражение для проверки [1-9]\d{3,8} и так ещё многие коды, в большей степени не российские, но некоторые российские тоже есть.
Когда смотришь на Wikidata кажется что казалось бы вот он идеальный источник осмысления данных, но устроен он так что это скорее его надо пополнять в будущем.
А во вторых - это примеры данных по каждому семантическому типу данных, чтобы было понятно как выглядят именно эти данные.
При этом многие не понимают до конца зачем нужно осмысление хранимых данных и, соответственно, автоматическая идентфикация их типов. Здесь явно нужна референсная реализация каталога данных или надстройки/расширение имеющегося, вроде CKAN. Потому что основное - это повышение качества data discovery.
Ссылки:
[1] https://registry.apicrafter.io
[2] https://wikidata.org
[3] https://www.wikidata.org/wiki/Property:P7029
#data #opendata #metadata #opensource
Напомню, это реестр смысловых значений полей данных полезный для задач:
- идентификации персональных данных
- улучшения навигации по каталогам данных
- автоматическое документирование данных
- автоматические тестирование данных
Во первых - это связь типа данных со свойством из Wikidata [2], хотя в Wikidata далеко не всё, а только то что соотносится с данными Википедии, поэтому большая подборка идентификаторов библиографии, и не так много идентификаторов из физического мира или продуктов. Тем не менее одно из важнейших достоинств Wikidata - это хорошо систематизированные данные связываемые онтологическим образом. А для свойств присутствующих там также включены правила проверки и иные метаданные.
Например, код РНБ [3], для которого есть примеры и есть регулярное выражение для проверки [1-9]\d{3,8} и так ещё многие коды, в большей степени не российские, но некоторые российские тоже есть.
Когда смотришь на Wikidata кажется что казалось бы вот он идеальный источник осмысления данных, но устроен он так что это скорее его надо пополнять в будущем.
А во вторых - это примеры данных по каждому семантическому типу данных, чтобы было понятно как выглядят именно эти данные.
При этом многие не понимают до конца зачем нужно осмысление хранимых данных и, соответственно, автоматическая идентфикация их типов. Здесь явно нужна референсная реализация каталога данных или надстройки/расширение имеющегося, вроде CKAN. Потому что основное - это повышение качества data discovery.
Ссылки:
[1] https://registry.apicrafter.io
[2] https://wikidata.org
[3] https://www.wikidata.org/wiki/Property:P7029
#data #opendata #metadata #opensource
www.wikidata.org
National Library of Russia ID
identifier for authority control used by the National Library of Russia, Saint-Petersburg
Forwarded from Пост Лукацкого
Президент подписал еще один Указ - на этот раз про ответные санкции, который запрещает любые сделки между российскими юрлицами и физлицами и иностранными лицами, список которых в течение 10 дней должен быть утвержден Постановлением Правительства. Согласно ст.153 ГК РФ "Сделками признаются действия граждан и юридических лиц, направленные на установление, изменение или прекращение гражданских прав и обязанностей". Иными словами, будет запрещено любое взаимодействие с санкционными лицами (абсолютно зеркальная американцам мера).
И теперь все зависит от того, что Правительство включит в список. Включить конкретные названия компаний и госорганов из недружественных стран? Будет чуть проще. Напишет про "любое лицо, поддержавшее санкции недружественных государств" и будет совсем нехорошо, так как под такое определение попадет, например, наличие учетки на Github или в Facebook, использование Threat Intelligence (даже в обход американских санкций), закидывание денег на Apple, участие в иностранной конференции онлайн (я вот RSAC хотел оплатить) и т.п. А еще под это определение попадает любой российский ИТ-специалист, который решил переждать неспокойные времена за пределами РФ и поработать на иностранные компании. То есть Минцифры вроде и говорит, что они не поддерживают запрет на отъезд айтишников из России, а Президент своим указом делает такой отъезд противозаконным, заставляя просить айтишников политического убежища (шутка... или нет?).
Так что ждем Постановления Правительства. К концу майских праздников, думаю, все решится. В интересные времена живем, граждане и товарищи 😊
И теперь все зависит от того, что Правительство включит в список. Включить конкретные названия компаний и госорганов из недружественных стран? Будет чуть проще. Напишет про "любое лицо, поддержавшее санкции недружественных государств" и будет совсем нехорошо, так как под такое определение попадет, например, наличие учетки на Github или в Facebook, использование Threat Intelligence (даже в обход американских санкций), закидывание денег на Apple, участие в иностранной конференции онлайн (я вот RSAC хотел оплатить) и т.п. А еще под это определение попадает любой российский ИТ-специалист, который решил переждать неспокойные времена за пределами РФ и поработать на иностранные компании. То есть Минцифры вроде и говорит, что они не поддерживают запрет на отъезд айтишников из России, а Президент своим указом делает такой отъезд противозаконным, заставляя просить айтишников политического убежища (шутка... или нет?).
Так что ждем Постановления Правительства. К концу майских праздников, думаю, все решится. В интересные времена живем, граждане и товарищи 😊
publication.pravo.gov.ru
Указ Президента Российской Федерации от 03.05.2022 № 252 ∙ Официальное опубликование правовых актов ∙ Официальный интернет-портал…
Указ Президента Российской Федерации от 03.05.2022 № 252
"О применении ответных специальных экономических мер в связи с недружественными действиями некоторых иностранных государств и международных организаций"
"О применении ответных специальных экономических мер в связи с недружественными действиями некоторых иностранных государств и международных организаций"
Я еще напишу об этом, но по сути для зарубежных компаний это означает невозможность осуществления комплаенс процедур, им будет проще вообще не работать с российским рынком, чем рисковать невозможностью проверки контрагентов.
Forwarded from Shumanov
Хроники закрытия России. Подготовлен проект постановления Правительства РФ об исключении сведений об отдельных компаниях из Единого государственного реестра юридических лиц.
В случае принятия проекта постановления и засекречивания информации в ЕГРЮЛ о десятках тысяч российских компаний, экономика страны превратится в минное поле для любого добросовестного контрагента как из России, так и из-за рубежа. Уже многие иностранные банки для выполнения операций с любыми российскими компаниями и физлицами требуют справки об отсутствии связи с лицами, внесенными в санкционные списки. В случае, если этот проект постановления Правительства все-таки примут, то законным способом проверить, что в собственниках конкретной компании нет лиц, находящихся под санкциями просто будет невозможно. Если такие сведения будут нужны рынку, хотя даже российский рынок в таких сведениях остро нуждается, то должна появится теневая услуга проверки такой информации. Это прямой путь к коррупции.
В случае принятия проекта постановления и засекречивания информации в ЕГРЮЛ о десятках тысяч российских компаний, экономика страны превратится в минное поле для любого добросовестного контрагента как из России, так и из-за рубежа. Уже многие иностранные банки для выполнения операций с любыми российскими компаниями и физлицами требуют справки об отсутствии связи с лицами, внесенными в санкционные списки. В случае, если этот проект постановления Правительства все-таки примут, то законным способом проверить, что в собственниках конкретной компании нет лиц, находящихся под санкциями просто будет невозможно. Если такие сведения будут нужны рынку, хотя даже российский рынок в таких сведениях остро нуждается, то должна появится теневая услуга проверки такой информации. Это прямой путь к коррупции.
Интересные продукты для работы с данными и не только
- PostgresML [1] реализация системы машинного обучения внутри Postgres, только через SQL. Для настоящих фанатов Postgres
- PyScript [2] реализация языка Python на Javascript
- HARI - The First Annotation And Dataset Analytics Platform [3] - интересный коммерческий продукт для визуализации и анализа алгоритмов распознвания видео. К сожалению описания маловато
- tinypandas [4] для тех кто привык к pandas, но хочет инструмент попроще. Не знаю кому такое может пригодится, но вдруг
- Metabase 0.43 [5] новая версия Metabase, самое интересное, на мой взгляд, поддержка JSON записей в Postgres, но много чего другого тоже есть
- Reconcilation [6] инструмент для создания сервисов обогащения данных для OpenRefine, написан на Python + Flask. Нужен для тех кто пользуется OpenRefine и хочет его расширять
- Squirel [7] свежая ETL на базе Python позиционируемая как инструмент для ML.
Ссылки:
[1] https://postgresml.org/
[2] https://pyscript.net/
[3] https://www.quality-match.com/hari
[4] https://talegari.github.io/tidypandas/_build/html/index.html
[5] https://github.com/metabase/metabase/releases/tag/v0.43.0
[6] https://github.com/preftech/reconciliation
[7] https://squirrel-core.readthedocs.io/en/latest/
#opensource #tools #datatools
- PostgresML [1] реализация системы машинного обучения внутри Postgres, только через SQL. Для настоящих фанатов Postgres
- PyScript [2] реализация языка Python на Javascript
- HARI - The First Annotation And Dataset Analytics Platform [3] - интересный коммерческий продукт для визуализации и анализа алгоритмов распознвания видео. К сожалению описания маловато
- tinypandas [4] для тех кто привык к pandas, но хочет инструмент попроще. Не знаю кому такое может пригодится, но вдруг
- Metabase 0.43 [5] новая версия Metabase, самое интересное, на мой взгляд, поддержка JSON записей в Postgres, но много чего другого тоже есть
- Reconcilation [6] инструмент для создания сервисов обогащения данных для OpenRefine, написан на Python + Flask. Нужен для тех кто пользуется OpenRefine и хочет его расширять
- Squirel [7] свежая ETL на базе Python позиционируемая как инструмент для ML.
Ссылки:
[1] https://postgresml.org/
[2] https://pyscript.net/
[3] https://www.quality-match.com/hari
[4] https://talegari.github.io/tidypandas/_build/html/index.html
[5] https://github.com/metabase/metabase/releases/tag/v0.43.0
[6] https://github.com/preftech/reconciliation
[7] https://squirrel-core.readthedocs.io/en/latest/
#opensource #tools #datatools
PostgresML
PostgresML | You know Postgres. Now you know machine learning – PostgresML
Build AI apps in minutes with a GPU-powered Postgres database
Я обещал написать подробнее по поводу проекта постановления Правительства Российской Федерации о сокрытии сведений из ЕГРЮЛ и бух. балансов [1]
Если коротко - это плохое решение в плохой ситуации. Проверка контрагентов в России и в мире - это часть задач по обеспечению должной осмотрительности и процедур KYC (Know-your-customer) и антикоррупционных проверок и ещё много чего. Даже если из 3.2 миллионов юр лиц будут удалены сведения лишь о 10к (а скорее больше), то надо помнить что это наиболее экономически активные юридические лица.
Сокрытие информации приведет к следующему:
1. Зарубежные компании будут отказываться от работы с российскими юр. лицами поскольку не могут проверить контрагентов.
2. Отсутствие сведений об учредителях будет пометкой что компанией владеет подсанкционное юр лицо или это подсанкционное юрлицо. "Спасибо" (на самом деле нет) Минфину за такое.
Поэтому это плохое решение.
Ссылки:
[1] https://regulation.gov.ru/projects#npa=127206
#opendata #data #government #egrul
Если коротко - это плохое решение в плохой ситуации. Проверка контрагентов в России и в мире - это часть задач по обеспечению должной осмотрительности и процедур KYC (Know-your-customer) и антикоррупционных проверок и ещё много чего. Даже если из 3.2 миллионов юр лиц будут удалены сведения лишь о 10к (а скорее больше), то надо помнить что это наиболее экономически активные юридические лица.
Сокрытие информации приведет к следующему:
1. Зарубежные компании будут отказываться от работы с российскими юр. лицами поскольку не могут проверить контрагентов.
2. Отсутствие сведений об учредителях будет пометкой что компанией владеет подсанкционное юр лицо или это подсанкционное юрлицо. "Спасибо" (на самом деле нет) Минфину за такое.
Поэтому это плохое решение.
Ссылки:
[1] https://regulation.gov.ru/projects#npa=127206
#opendata #data #government #egrul
В MIT Technology Review статья о том что Meta (ранее - Facebook) создали новую языковую модель для того чтобы обойти недостатки GPT-3 [1]․ Она называется OPT-175B и уже есть некоторые подробности о её содержании[2]. 175 в названии - это 175 миллиардов параметров, а раскрытие модели - это интересный шаг. Meta, как критикуют, так и ставят в пример. Действительно вокруг их работы есть много этических аспектов, но сам шаг публикации такой модели крайне интересен.
Ссылки:
[1] https://www.technologyreview.com/2022/05/03/1051691/meta-ai-large-language-model-gpt3-ethics-huggingface-transparency/
[2] https://ai.facebook.com/blog/democratizing-access-to-large-scale-language-models-with-opt-175b/
#opendata #ai #ml #languagemodels
Ссылки:
[1] https://www.technologyreview.com/2022/05/03/1051691/meta-ai-large-language-model-gpt3-ethics-huggingface-transparency/
[2] https://ai.facebook.com/blog/democratizing-access-to-large-scale-language-models-with-opt-175b/
#opendata #ai #ml #languagemodels
MIT Technology Review
Meta has built a massive new language AI—and it’s giving it away for free
Facebook’s parent company is inviting researchers to pore over and pick apart the flaws in its version of GPT-3
Mozilla опубликовали результаты анализа десятков мобильных приложений используемых для поддержания душевного здоровья [1], результаты неутешительные, большая их часть нарушает приватность, следит и продаёт данные. Многие, также, используют ИИ и не рассказывают делается ли это этично или нет․ Например, популярное в России приложение Calm совсем не безвредно [2].
Ну и методология анализ вцелом вполне полезная, но трудоёмкая.
Ссылки:
[1] https://foundation.mozilla.org/en/privacynotincluded/categories/mental-health-apps/
[2] https://foundation.mozilla.org/en/privacynotincluded/calm/
#privacy #mobileapps
Ну и методология анализ вцелом вполне полезная, но трудоёмкая.
Ссылки:
[1] https://foundation.mozilla.org/en/privacynotincluded/categories/mental-health-apps/
[2] https://foundation.mozilla.org/en/privacynotincluded/calm/
#privacy #mobileapps
Mozilla Foundation
*Privacy Not Included | Shop smart and safe | Mozilla Foundation
Review of mental health and prayer apps
Для тех кто интересуется инструментами работы с данными в командной строке, ещё один полезный инструмент trdsql [1]. Утилита написанная на Go позволяет делать SQL запросы к файлам в формате CSV, LTSV, JSON иTBLN. Удивительно что в этом списке нет JSON lines, но в целом утилита выглядит весьма неплохо и полезна для всех кто постоянно работает с файлами и не грузит их в одну из SQL СУБД, но синтаксис SQL любит и знает.
Из интересного - утилита умеет анализировать данные и выдавать рекомендации по запросам.
Ссылки:
[1] https://github.com/noborus/trdsql
#datatools #commandline
Из интересного - утилита умеет анализировать данные и выдавать рекомендации по запросам.
Ссылки:
[1] https://github.com/noborus/trdsql
#datatools #commandline
GitHub
GitHub - noborus/trdsql: CLI tool that can execute SQL queries on CSV, LTSV, JSON, YAML and TBLN. Can output to various formats.
CLI tool that can execute SQL queries on CSV, LTSV, JSON, YAML and TBLN. Can output to various formats. - noborus/trdsql
Всё тот же федеральный портал открытых данных работает, по прежнему, нестабильно. Страницы наборов данных открываются довольно медленно, но дело не только в этом. Куда-то начисто исчезла вся статистика посещения [1] и не только.
Ссылки:
[1] https://data.gov.ru/site-usage
#opendata #russia #economygovru
Ссылки:
[1] https://data.gov.ru/site-usage
#opendata #russia #economygovru
Я как-то уже писал что в планах есть выложить ETL движок используемый в datacrafter'е. Это подзатянулось поскольку не так много людей сейчас у нас в команде заняты именно этим проектом, ETL движок я могу отнести к собственным pet проектам.
Его основная идея - это реализация ETL в связке с наиболее используемыми в России форматами открытых (и иных) данных. Это XML, CSV, JSON, JSONlines, в том числе случаи когда они в архивах, условно любого размера и с поддержкой NoSQL из коробки. Из-за этого NoSQL из коробки этот движок невозможно было реализовать на базе чего-то ещё вроде Meltano или Dagster․ Но готовность к отчуждаемости я, конечно, переоценил, доведение внутреннего кода до открытой промышленной платформы требует времени.
А вот так выглядит пример конфигурационного файла обработки одного из наборов данных ФНС РФ.
В первоисточнике данные лежат в XML файлах внутри ZIP и обработчик умеет делает непрерывную итерацию по записям с переключением файлов внутри архива.
#opensource #opendata
Его основная идея - это реализация ETL в связке с наиболее используемыми в России форматами открытых (и иных) данных. Это XML, CSV, JSON, JSONlines, в том числе случаи когда они в архивах, условно любого размера и с поддержкой NoSQL из коробки. Из-за этого NoSQL из коробки этот движок невозможно было реализовать на базе чего-то ещё вроде Meltano или Dagster․ Но готовность к отчуждаемости я, конечно, переоценил, доведение внутреннего кода до открытой промышленной платформы требует времени.
А вот так выглядит пример конфигурационного файла обработки одного из наборов данных ФНС РФ.
В первоисточнике данные лежат в XML файлах внутри ZIP и обработчик умеет делает непрерывную итерацию по записям с переключением файлов внутри архива.
#opensource #opendata
Нужен ли ETL движок для обработки больших открытых данных? Что самое главное?
Anonymous Poll
29%
Обработка файлов любого размера
48%
Подробная документация и примеры
40%
Лёгкая расширяемость (плагины)
19%
Поддержка максимально возможно числа форматов файлов
34%
Максимальная автоматизация при обработке данных
13%
Интеграция с dbt и другими инструментами
15%
Встроенное обогащение данных
9%
Встроенное автодокументирование
19%
Никаких новых ETL движков не нужно
По поводу Указа Президента РФ N250 от 1 мая [1] с перечнем мер по информационной безопасности мне, конечно, тоже есть что сказать.
Во первых рынок инфобеза сейчас будет самый быстро растущий во всём ИТ секторе, даже маленькие ИТ компании в этой области будут иметь свой большой кусок хлеба. В этой отрасли сейчас, конечно, праздник без ярких положительных эмоций.
Во вторых, конечно, ИТ специалистов в этой области, ожидаемо, будет острый дефицит. Я даже не представляю себе (конечно представляю в каком органе власти) где наберут, например, замов руководителя по информационной безопасности. Более вероятный сценарий массового обучения текущих замов по чему-то там курсам по инфобезу. Будет как в анекдоте - "ещё и на голову фонарь повесят чтобы ночью косить (c)". Так и здесь, был зам по хоз части, а будет ещё и с функциями зама по инфобезу. К крупнейшим, конечно, будут прикомандированные сотрудники.
В третьих стоит ожидать перестройки всех бюджетов всех уровней начиная с федерального с расширением расходов на инфобез. За счёт бюджетов информатизации/автоматизации/цифровизации, конечно же. Поскольку расходы на цифровизацию были и с ощущением распила в некоторых случаях, но всё же бюджетом развития, то расходы на инфобез к развитию никакого отношения иметь не будут, только к ограничениям.
В четвертых я лично предсказываю в этом году начало тотальной инвентаризации государственных и муниципальных информационных систем именно с точки зрения инфобеза. Проблема в том что делать это некому, ни ФСТЭК, ни ФСБ, ни их подведы сами по себе это не потянут. Более вероятен сценарий поручения Пр-ва или Пр-та, на фед уровне Минцифра с розыгрышем крупного контракта, а на рег. уровне областные и республиканские администрации. Скорость этого будет напрямую зависеть от числа публичных взломов госинформсистем. Пока их было сильно меньше чем могло бы быть, либо мы о них не знаем, а они были, либо мы о них знаем, но всё равно публично все говорят что не знаем, не было, даже если было. В любом случае пока ярко светились только утечки и взломы только нескольких коммерческих провайдеров.
В пятых, явно будет какая-то большая административная реорганизация в этой области. Будут ли это новые полномочия у Минцифры, или новое супер-крупное-министерство информационной безопасности или ещё что-то и как-то, но это та область где критическая масса запроса на внутригосударственную реформу назревает. Я бы осторожно предположил появление в России новой спецслужбы по аналогии с NSA в которую перейдут многие полномочия. Но именно что осторожно, потому что не все ещё события предшествующие этому произошли и, в принципе, назрела новая адм. реформа Пр-ва.
В шестых, что-то мало новостей про Гостех. Живо оно ещё? Если да, то в нормативке почти не всплывает, хотя в нормативке по инфобезу оно должно было бы быть, а если нет, то хоть похороните официально и с почестями. Больше похоже что Гостех локализуют в виде нескольких информационных систем.
Ссылки:
[1] https://publication.pravo.gov.ru/Document/View/0001202205010023
#policy #russia #it #security #regulation
Во первых рынок инфобеза сейчас будет самый быстро растущий во всём ИТ секторе, даже маленькие ИТ компании в этой области будут иметь свой большой кусок хлеба. В этой отрасли сейчас, конечно, праздник без ярких положительных эмоций.
Во вторых, конечно, ИТ специалистов в этой области, ожидаемо, будет острый дефицит. Я даже не представляю себе (конечно представляю в каком органе власти) где наберут, например, замов руководителя по информационной безопасности. Более вероятный сценарий массового обучения текущих замов по чему-то там курсам по инфобезу. Будет как в анекдоте - "ещё и на голову фонарь повесят чтобы ночью косить (c)". Так и здесь, был зам по хоз части, а будет ещё и с функциями зама по инфобезу. К крупнейшим, конечно, будут прикомандированные сотрудники.
В третьих стоит ожидать перестройки всех бюджетов всех уровней начиная с федерального с расширением расходов на инфобез. За счёт бюджетов информатизации/автоматизации/цифровизации, конечно же. Поскольку расходы на цифровизацию были и с ощущением распила в некоторых случаях, но всё же бюджетом развития, то расходы на инфобез к развитию никакого отношения иметь не будут, только к ограничениям.
В четвертых я лично предсказываю в этом году начало тотальной инвентаризации государственных и муниципальных информационных систем именно с точки зрения инфобеза. Проблема в том что делать это некому, ни ФСТЭК, ни ФСБ, ни их подведы сами по себе это не потянут. Более вероятен сценарий поручения Пр-ва или Пр-та, на фед уровне Минцифра с розыгрышем крупного контракта, а на рег. уровне областные и республиканские администрации. Скорость этого будет напрямую зависеть от числа публичных взломов госинформсистем. Пока их было сильно меньше чем могло бы быть, либо мы о них не знаем, а они были, либо мы о них знаем, но всё равно публично все говорят что не знаем, не было, даже если было. В любом случае пока ярко светились только утечки и взломы только нескольких коммерческих провайдеров.
В пятых, явно будет какая-то большая административная реорганизация в этой области. Будут ли это новые полномочия у Минцифры, или новое супер-крупное-министерство информационной безопасности или ещё что-то и как-то, но это та область где критическая масса запроса на внутригосударственную реформу назревает. Я бы осторожно предположил появление в России новой спецслужбы по аналогии с NSA в которую перейдут многие полномочия. Но именно что осторожно, потому что не все ещё события предшествующие этому произошли и, в принципе, назрела новая адм. реформа Пр-ва.
В шестых, что-то мало новостей про Гостех. Живо оно ещё? Если да, то в нормативке почти не всплывает, хотя в нормативке по инфобезу оно должно было бы быть, а если нет, то хоть похороните официально и с почестями. Больше похоже что Гостех локализуют в виде нескольких информационных систем.
Ссылки:
[1] https://publication.pravo.gov.ru/Document/View/0001202205010023
#policy #russia #it #security #regulation
publication.pravo.gov.ru
Указ Президента Российской Федерации от 01.05.2022 № 250 ∙ Официальное опубликование правовых актов
Указ Президента Российской Федерации от 01.05.2022 № 250
"О дополнительных мерах по обеспечению информационной безопасности Российской Федерации"
"О дополнительных мерах по обеспечению информационной безопасности Российской Федерации"
indicator_38480.xls
1.3 MB
Специально для тех кто читает СМИ и телеграм каналы с цифрами уехавших из России, не читайте, считайте сами. В файле indicator_38480.xls статистика выезда поквартально с 1кв 2013 года по 1кв 2022 г. включительно.
Первоисточник ЕМИСС, индикатор Выезд граждан России [1]. Также многим будет интересен индикатор Въезд иностранных граждан в РФ [2]
Обратите внимание на формулировки, эти индикаторы не охватывают выезд иностранных граждан и въезд граждан РФ соответственно. Вот такие искажения в российской статистике.
Сопоставлять и визуализировать, я уверен, все умеют сами.
Ссылки:
[1] https://www.fedstat.ru/indicator/38480
[2] https://www.fedstat.ru/indicator/38479
#opendata #data #statistics
Первоисточник ЕМИСС, индикатор Выезд граждан России [1]. Также многим будет интересен индикатор Въезд иностранных граждан в РФ [2]
Обратите внимание на формулировки, эти индикаторы не охватывают выезд иностранных граждан и въезд граждан РФ соответственно. Вот такие искажения в российской статистике.
Сопоставлять и визуализировать, я уверен, все умеют сами.
Ссылки:
[1] https://www.fedstat.ru/indicator/38480
[2] https://www.fedstat.ru/indicator/38479
#opendata #data #statistics
Официальные цифры по выезду россиян по странам по всем целям поездки. Предпоследняя колонка сравнение выезда 1кв 2019 года (последнего допандемийного) и 1кв 2022 года, это по март включительно.
Куда резкий всплеск поездок:
- Сейшелы 15994% (7564 в 1кв2022г. и 47 в 1кв2019г.).
- Саудовская Аравия
- Египет
Можно обратить внимание что цифры отъезда в Армению только на 28% более чем в 1кв 2019 г.
И так далее, каждый может найти нужные цифры самостоятельно из файла что я ранее публиковал на канале.
Напомню что это официальная статистика, она достоверна настолько насколько Вы доверяете тем кто её публикует.
#opendata #data #dataviz
Куда резкий всплеск поездок:
- Сейшелы 15994% (7564 в 1кв2022г. и 47 в 1кв2019г.).
- Саудовская Аравия
- Египет
Можно обратить внимание что цифры отъезда в Армению только на 28% более чем в 1кв 2019 г.
И так далее, каждый может найти нужные цифры самостоятельно из файла что я ранее публиковал на канале.
Напомню что это официальная статистика, она достоверна настолько насколько Вы доверяете тем кто её публикует.
#opendata #data #dataviz
Полезное чтение про работу с данными:
- Введение в NoSQL базы данных [1], в основном графовые базы
- Have you tried rubbing a database on it? [2] выступления о том как решать знакомые задачи через данные, некоторые идеи могут показаться странными и дикими, а кое что очень интересно.
- Beyond ELT: What Is a DataOps OS? [3] про DataOps от команды Meltano, вводный текст для незнакомых с понятием
- Review of Prefect for Data Engineers [4] сравнение Prefect и Dagster для обработки данных, автор отдает предпочтение Prefect.
- MLOps in 10 Minutes [5] для тех кто хочет погрузится в тему подготовки данных для data science. Подойдет дата-инженерам и дата-сайентистам и специалистам по ML
Ссылки:
[1] https://towardsdatascience.com/introduction-to-nosql-graph-databases-fb2feac7a36
[2] https://www.hytradboi.com/?42
[3] https://thenewstack.io/beyond-elt-what-is-a-dataops-os/
[4] https://www.confessionsofadataguy.com/review-of-prefect-for-data-engineers/
[5] https://datatalks.club/blog/mlops-10-minutes.html
#data #readings
- Введение в NoSQL базы данных [1], в основном графовые базы
- Have you tried rubbing a database on it? [2] выступления о том как решать знакомые задачи через данные, некоторые идеи могут показаться странными и дикими, а кое что очень интересно.
- Beyond ELT: What Is a DataOps OS? [3] про DataOps от команды Meltano, вводный текст для незнакомых с понятием
- Review of Prefect for Data Engineers [4] сравнение Prefect и Dagster для обработки данных, автор отдает предпочтение Prefect.
- MLOps in 10 Minutes [5] для тех кто хочет погрузится в тему подготовки данных для data science. Подойдет дата-инженерам и дата-сайентистам и специалистам по ML
Ссылки:
[1] https://towardsdatascience.com/introduction-to-nosql-graph-databases-fb2feac7a36
[2] https://www.hytradboi.com/?42
[3] https://thenewstack.io/beyond-elt-what-is-a-dataops-os/
[4] https://www.confessionsofadataguy.com/review-of-prefect-for-data-engineers/
[5] https://datatalks.club/blog/mlops-10-minutes.html
#data #readings
Medium
Introduction to NoSQL Graph Databases
An overview of graph database types, structures, and properties
Я всё хотел написать про ГИС "Экономика" которую Минэкономразвития РФ заказывает за 269 млн руб., конкурс объявлен ещё в апреле, сейчас сопоставляются заявки [1].
Кому-то может показаться что большие деньги, большая система, интересная задача. Кому-то что деньги потрачены ни на что и всё заранее поделено или заранее бессмысленно.
Я же отмечу те "нюансы" которые я вижу из чтения ТЗ и не только.
1. Это ТЗ на разработку аналитической системы, по сути и по описанию ближе всего к BI системе с особенностями восприятия и специфики понимания таких систем органами власти.
2. Есть как минимум две, а реально больше крупные ГИС с пересекающимися функциями. Это ГАС Управление и ЦАП (Цифровая аналитическая платформа) Росстата. Первая система существует давно и как раз проектировалась примерно в тех же целях что сейчас создаётся ГИС Экономика. Вторая всё ещё не запущено, публичных результатов пока нет. Почему не развивается одна из этих систем и создаётся новая - вот в чём вопрос.
3. Разработка систем подобного уровня должно, вначале, предварятся разработкой технического задания. ТЗ приложенное к конкурсу не выглядит как разработанное, в принципе, из ТЗ не ясно кто его автор, не ясна практика использования и тд.
4. В ГИС Экономика хотят перенести внутренние системы Минэкономразвития РФ, используется термин "инфраструктура системы". Например, туда собираются перенести систему управления проектами Минэкономразвития.
5. В ТЗ есть ссылки на документы которые невозможно найти в открытом доступе. Например, из текста "Подсистема управления корпоративной шиной обмена данными создана при исполнении государственного контракта от 09.10.2020 №ГК-105-АМ/Д34."․ Это внутренний номер госконтракта у Минэка, по нему невозможно найти его на сайте госзакупок, а в эту дату такого контракта точно у Минэка не было. Секретный контракт? Сумма меньше сумму запроса котировок? Недостоверная информация в ТЗ? Вопросов много
Если внимательно изучать ТЗ, то там есть много такого к чему будет много вопросов.
Но ключевое другое, ключевое то что работы по созданию таких систем состоят из довольно понятных крупных задач:
1. Разработка методологии - проведение одного или более НИР, определение задач, источников данных, типов показателей и тд., а по результатам разработка ТЗ.
2. Создание/выбор платформы - платформы для аналитики более универсальны или недостаточно готовы, но в любом случае почти никогда не делаются с нуля.
3. Сбор/приобретение данных - это, на самом деле, одна из сложнейших задач, как сформировать показатели на доступных данных и как получить данные которых сейчас может не быть
4. Построение аналитических панелей на основе методологии, платформы и данных.
Важно то что при разумном планировании каждая из этих задач - отчуждаема и задачи эти делают разные люди в параллельно или последовательно.
Ситуация с этим ТЗ такова что методологии за ним нет, приобретение данных описано невероятно скромно, только данные Роспатента, ФНС и Казначейства. Аналитические панели описаны без какого-либо пользовательского опыта, наборами функций.
Выводы у меня удручающие. Даже если там нет коррупции, то качество проектирования такое что смысл и назначение этой системы совершенно непонятны и, самое главное, к пониманию состояния экономики страны никого из нас не приблизит. Скорее станет именем нарицательным.
- Как там у нас с экономикой, также как с ГИС "Экономика", никак. (с)
- Какая Экономика такая экономика (с)
Ссылки:
[1] https://zakupki.gov.ru/epz/order/notice/ok20/view/common-info.html?regNumber=0173100008622000005
#government #russia #economy #it
Кому-то может показаться что большие деньги, большая система, интересная задача. Кому-то что деньги потрачены ни на что и всё заранее поделено или заранее бессмысленно.
Я же отмечу те "нюансы" которые я вижу из чтения ТЗ и не только.
1. Это ТЗ на разработку аналитической системы, по сути и по описанию ближе всего к BI системе с особенностями восприятия и специфики понимания таких систем органами власти.
2. Есть как минимум две, а реально больше крупные ГИС с пересекающимися функциями. Это ГАС Управление и ЦАП (Цифровая аналитическая платформа) Росстата. Первая система существует давно и как раз проектировалась примерно в тех же целях что сейчас создаётся ГИС Экономика. Вторая всё ещё не запущено, публичных результатов пока нет. Почему не развивается одна из этих систем и создаётся новая - вот в чём вопрос.
3. Разработка систем подобного уровня должно, вначале, предварятся разработкой технического задания. ТЗ приложенное к конкурсу не выглядит как разработанное, в принципе, из ТЗ не ясно кто его автор, не ясна практика использования и тд.
4. В ГИС Экономика хотят перенести внутренние системы Минэкономразвития РФ, используется термин "инфраструктура системы". Например, туда собираются перенести систему управления проектами Минэкономразвития.
5. В ТЗ есть ссылки на документы которые невозможно найти в открытом доступе. Например, из текста "Подсистема управления корпоративной шиной обмена данными создана при исполнении государственного контракта от 09.10.2020 №ГК-105-АМ/Д34."․ Это внутренний номер госконтракта у Минэка, по нему невозможно найти его на сайте госзакупок, а в эту дату такого контракта точно у Минэка не было. Секретный контракт? Сумма меньше сумму запроса котировок? Недостоверная информация в ТЗ? Вопросов много
Если внимательно изучать ТЗ, то там есть много такого к чему будет много вопросов.
Но ключевое другое, ключевое то что работы по созданию таких систем состоят из довольно понятных крупных задач:
1. Разработка методологии - проведение одного или более НИР, определение задач, источников данных, типов показателей и тд., а по результатам разработка ТЗ.
2. Создание/выбор платформы - платформы для аналитики более универсальны или недостаточно готовы, но в любом случае почти никогда не делаются с нуля.
3. Сбор/приобретение данных - это, на самом деле, одна из сложнейших задач, как сформировать показатели на доступных данных и как получить данные которых сейчас может не быть
4. Построение аналитических панелей на основе методологии, платформы и данных.
Важно то что при разумном планировании каждая из этих задач - отчуждаема и задачи эти делают разные люди в параллельно или последовательно.
Ситуация с этим ТЗ такова что методологии за ним нет, приобретение данных описано невероятно скромно, только данные Роспатента, ФНС и Казначейства. Аналитические панели описаны без какого-либо пользовательского опыта, наборами функций.
Выводы у меня удручающие. Даже если там нет коррупции, то качество проектирования такое что смысл и назначение этой системы совершенно непонятны и, самое главное, к пониманию состояния экономики страны никого из нас не приблизит. Скорее станет именем нарицательным.
- Как там у нас с экономикой, также как с ГИС "Экономика", никак. (с)
- Какая Экономика такая экономика (с)
Ссылки:
[1] https://zakupki.gov.ru/epz/order/notice/ok20/view/common-info.html?regNumber=0173100008622000005
#government #russia #economy #it
Короткий обзор о том какие каталоги данных использовать в корпоративной среде Choosing a Data Catalog [1]. Неполный, не все решения и не все ситуации охватывает, не все кейсы применения, но полезный обозначая разницу между открытыми, закрытыми и иными решениями.
В ту же тему Open Data Discovery Specification: A Universal Standard for Metadata Collection [2] обзор стандарта описания метаданных в базах данных.
Ссылки:
[1] https://sarahsnewsletter.substack.com/p/choosing-a-data-catalog
[2] https://medium.com/opendatadiscovery/open-data-discovery-specification-a-universal-standard-for-metadata-collection-60425061112c
#opendata #data #datatools #readings
В ту же тему Open Data Discovery Specification: A Universal Standard for Metadata Collection [2] обзор стандарта описания метаданных в базах данных.
Ссылки:
[1] https://sarahsnewsletter.substack.com/p/choosing-a-data-catalog
[2] https://medium.com/opendatadiscovery/open-data-discovery-specification-a-universal-standard-for-metadata-collection-60425061112c
#opendata #data #datatools #readings
Sarah's Newsletter
Choosing a Data Catalog
The term data catalog doesn't do the category justice.
Полезное чтение про данные и не только
- GLaM: Efficient Scaling of Language Models with Mixture-of-Experts [1] статья о языковой модели GLaM от Google. 1.2 триллиона параметров, в 7 раз больше чем GPT-3, потребовало 456 мегават в час для расчёта. внутри несколько экспертных моделей. В открытом доступе, вроде бы, пока ещё её нет.
- STEGO [2] новый алгоритм умеющий распознавать изображения без предварительной разметки человеком. Звучит просто, а в реальности это очень важный шаг в развитии компьютерного зрения. Близок час когда изображения размеченные компьютером будут использовать для тестирования людей, а не наоборот
- How AltStore is building a haven for forbidden iPhone apps [3] про AltStore, альтернативу Apple Store для тех приложений которые оттуда выгнали. В статье рассуждается о том что Apple будет сложно убрать функции позволяющие AltStore существовать и рассказывается как AltStore обходит ограничения необходимости подписывать приложения. Но приложениям компаний под санкциями это врядли поможет.
- The 2022 state of [software] engineering time [4] исследование того на что тратят время программисты. Про открытый код, на что уходит время при разработке, про выбор между офисом и удалёнкой и многое другое.
Ссылки:
[1] https://arxiv.org/abs/2112.06905
[2] https://news.mit.edu/2022/new-unsupervised-computer-vision-algorithm-stego-0421
[3] https://www.fastcompany.com/90749170/altstore-riley-testut-iphone-sideloading-app-store
[4] https://retool.com/reports/state-of-engineering-time-2022/
#data #readings #engineering #apple #ai
- GLaM: Efficient Scaling of Language Models with Mixture-of-Experts [1] статья о языковой модели GLaM от Google. 1.2 триллиона параметров, в 7 раз больше чем GPT-3, потребовало 456 мегават в час для расчёта. внутри несколько экспертных моделей. В открытом доступе, вроде бы, пока ещё её нет.
- STEGO [2] новый алгоритм умеющий распознавать изображения без предварительной разметки человеком. Звучит просто, а в реальности это очень важный шаг в развитии компьютерного зрения. Близок час когда изображения размеченные компьютером будут использовать для тестирования людей, а не наоборот
- How AltStore is building a haven for forbidden iPhone apps [3] про AltStore, альтернативу Apple Store для тех приложений которые оттуда выгнали. В статье рассуждается о том что Apple будет сложно убрать функции позволяющие AltStore существовать и рассказывается как AltStore обходит ограничения необходимости подписывать приложения. Но приложениям компаний под санкциями это врядли поможет.
- The 2022 state of [software] engineering time [4] исследование того на что тратят время программисты. Про открытый код, на что уходит время при разработке, про выбор между офисом и удалёнкой и многое другое.
Ссылки:
[1] https://arxiv.org/abs/2112.06905
[2] https://news.mit.edu/2022/new-unsupervised-computer-vision-algorithm-stego-0421
[3] https://www.fastcompany.com/90749170/altstore-riley-testut-iphone-sideloading-app-store
[4] https://retool.com/reports/state-of-engineering-time-2022/
#data #readings #engineering #apple #ai
MIT News
A new state of the art for unsupervised computer vision
MIT CSAIL scientists created an algorithm called STEGO to solve one of the hardest tasks in computer vision: assigning every pixel in the world a label without any human supervision.