Продолжая тему недокументированных государственных API приведу ещё один живой пример с некоторыми техническими подробностями.
Вот, в Санкт-Петербурге есть портал бюджетных инициатив граждан [1]. В целом неплохой, современно выглядящий и с примерно 29 тысячами опубликованных инициатив. Когда я в целях архивации региональных сайтов бюджетов пытался его заархивировать то столкнулся с тем что у него нет веб-страниц в нормальном понимании. Вместо этого даннные отдаются через API по вполне легко находимой ссылке /api/v2/budget/initiatives [2] в коде страницы, в HTML коде сайта видно что что API передаётся параметр offset для перехода к следующей порции данных и limit для ограничений числа получаемых данных. В результате все инициативы можно выкачать простым перебором. Запросы к API возвращают в JSON формате общее число объектов в поле total_count и список объектов в поле objects в каждом ответе.
Особенность в том что это типовая задача. Не только на этом сайте и не только в этом API данные публикуются именно таким образом. В принципе вариации мышления и логики разработчиков очень невелики, всего 5-6 базовых сценария. Поэтому когда-то давно, 2 года назад я сделал ручную утилиту apibackuper [3] которую считаю личным вкладом в дело цифровой архивации;)
Утилита создана чтобы автоматизировать именно выгрузку данны из API, так чтобы всё можно было описать простыми параметрами в конфигурационном файле и запустить выгрузку. Не открою большого секрета в том что по объёму около 75% данных в Датакрафере [4] скачано именно с помощью apibackuper, фактически над этой утилитой просто возведена надстройка по автогенерации из API в процессе обнаружения данных.
В отличие от HTML парсеров утилита умеет проходить по всем страницам API, выгружать индивидуальные объекты при необходимости и складывать файлы в локальное хранилище или в S3 совместимое, а также экспортировать данные в JSONL формат. Для простоты все промежуточные файлы хранятся в ZIP контейнере и экспортируются по запросу. Всё описыается в .cfg файле
Пример который я озвучивал выше, с инициативами на портале инициативного бюджетирования СПб один из самых простых. Я специально его выложил онлайн как открытый код [4] хотя именно кода там мало, собственно .cfg файл необходимый для выполнения команд и набор этих команд прост.
- apibackuper estimage - оценить длительность и число запросов по выгрузке данных
- apibackuper run - запустить выгрузку данных
- apibackuper export data.jsonl - экспортировать данные в формат jsonl в файл data.jsonl
- apibackuper getfiles - выгрузить все изображения по ссылкам images.image.url
Когда-то я делал эту утилиту для архивации материалов с сайта Мэрии Москвы, там почти весь контент через API, и портала электронного бюджета. Сейчас, как я говорил, эта маленькая программа помогает собирать и большого числа документированных и недокументированных государственных API для архивации и для каталога данных.
Ссылки:
[1] https://tvoybudget.spb.ru
[2] https://tvoybudget.spb.ru/api/v2/budget/initiatives
[3] https://github.com/ruarxive/apibackuper
[4] https://data.apicrafter.ru
[5] https://github.com/ruarxive/apibackuper-example-spbbudget
[6] https://github.com/ruarxive/apibackuper-example-spbbudget/blob/main/apibackuper.cfg
#opendata #datatools #opensource
Вот, в Санкт-Петербурге есть портал бюджетных инициатив граждан [1]. В целом неплохой, современно выглядящий и с примерно 29 тысячами опубликованных инициатив. Когда я в целях архивации региональных сайтов бюджетов пытался его заархивировать то столкнулся с тем что у него нет веб-страниц в нормальном понимании. Вместо этого даннные отдаются через API по вполне легко находимой ссылке /api/v2/budget/initiatives [2] в коде страницы, в HTML коде сайта видно что что API передаётся параметр offset для перехода к следующей порции данных и limit для ограничений числа получаемых данных. В результате все инициативы можно выкачать простым перебором. Запросы к API возвращают в JSON формате общее число объектов в поле total_count и список объектов в поле objects в каждом ответе.
Особенность в том что это типовая задача. Не только на этом сайте и не только в этом API данные публикуются именно таким образом. В принципе вариации мышления и логики разработчиков очень невелики, всего 5-6 базовых сценария. Поэтому когда-то давно, 2 года назад я сделал ручную утилиту apibackuper [3] которую считаю личным вкладом в дело цифровой архивации;)
Утилита создана чтобы автоматизировать именно выгрузку данны из API, так чтобы всё можно было описать простыми параметрами в конфигурационном файле и запустить выгрузку. Не открою большого секрета в том что по объёму около 75% данных в Датакрафере [4] скачано именно с помощью apibackuper, фактически над этой утилитой просто возведена надстройка по автогенерации из API в процессе обнаружения данных.
В отличие от HTML парсеров утилита умеет проходить по всем страницам API, выгружать индивидуальные объекты при необходимости и складывать файлы в локальное хранилище или в S3 совместимое, а также экспортировать данные в JSONL формат. Для простоты все промежуточные файлы хранятся в ZIP контейнере и экспортируются по запросу. Всё описыается в .cfg файле
Пример который я озвучивал выше, с инициативами на портале инициативного бюджетирования СПб один из самых простых. Я специально его выложил онлайн как открытый код [4] хотя именно кода там мало, собственно .cfg файл необходимый для выполнения команд и набор этих команд прост.
- apibackuper estimage - оценить длительность и число запросов по выгрузке данных
- apibackuper run - запустить выгрузку данных
- apibackuper export data.jsonl - экспортировать данные в формат jsonl в файл data.jsonl
- apibackuper getfiles - выгрузить все изображения по ссылкам images.image.url
Когда-то я делал эту утилиту для архивации материалов с сайта Мэрии Москвы, там почти весь контент через API, и портала электронного бюджета. Сейчас, как я говорил, эта маленькая программа помогает собирать и большого числа документированных и недокументированных государственных API для архивации и для каталога данных.
Ссылки:
[1] https://tvoybudget.spb.ru
[2] https://tvoybudget.spb.ru/api/v2/budget/initiatives
[3] https://github.com/ruarxive/apibackuper
[4] https://data.apicrafter.ru
[5] https://github.com/ruarxive/apibackuper-example-spbbudget
[6] https://github.com/ruarxive/apibackuper-example-spbbudget/blob/main/apibackuper.cfg
#opendata #datatools #opensource
tvoybudget.spb.ru
Официальный cайт проекта «Твой Бюджет»
Проект инициативного бюджетирования при поддержке правительства Санкт-Петербурга
Один из важнейших этических вопросов к экосистемам и крупнейшим платформам - это саморегулирование и самоцензура. Отчасти он проистекает от скорости развития платформ, значительно опережающей работу регуляторов и законодателей. А отчасти природа этого вопроса в сильной зависимости крупных и, особенно публичных, компаний от общественного мнения.
Вот к примеру на Amazon началось давление по поводу того что через него закупают некоторые пищевые консерванты которые потом используют для суицидов [1], теперь компания использует алгоритмы для идентификации таких продуктов и предлагает тем кто их покупает воспользоваться альтернативами.
Можно ли говорить о том что это самоцензура и саморегулирование? В каких случае это допустимо и в каких нет?
Вопрос очень непростой потому что нет какого-то общечеловеческого каталога ценностей определяющих допустимые границы самоограничений для технологических компаний да и бизнеса в принципе. Как правило компании разрабатывают свои принципы самостоятельно, некоторые даже публикуют их в открытом доступе. К примеру, Google на странице "Беспрепятственный доступ к информации" [2], по сути, декларируют свою ценностную модель (частично декларируют на самом деле).
Но в отличие от вопросов научной этики или международных документов по защите прав человека - эти правила не универсальны.
Случай с Amazon - это тоже некая форма цензуры и таких будет только больше.
Ссылки:
[1] https://www.nytimes.com/2022/02/04/technology/amazon-suicide-poison-preservative.html
[2] https://www.google.com/intl/ru/search/howsearchworks/mission/open-web/
#policy #amazon #censorship
Вот к примеру на Amazon началось давление по поводу того что через него закупают некоторые пищевые консерванты которые потом используют для суицидов [1], теперь компания использует алгоритмы для идентификации таких продуктов и предлагает тем кто их покупает воспользоваться альтернативами.
Можно ли говорить о том что это самоцензура и саморегулирование? В каких случае это допустимо и в каких нет?
Вопрос очень непростой потому что нет какого-то общечеловеческого каталога ценностей определяющих допустимые границы самоограничений для технологических компаний да и бизнеса в принципе. Как правило компании разрабатывают свои принципы самостоятельно, некоторые даже публикуют их в открытом доступе. К примеру, Google на странице "Беспрепятственный доступ к информации" [2], по сути, декларируют свою ценностную модель (частично декларируют на самом деле).
Но в отличие от вопросов научной этики или международных документов по защите прав человека - эти правила не универсальны.
Случай с Amazon - это тоже некая форма цензуры и таких будет только больше.
Ссылки:
[1] https://www.nytimes.com/2022/02/04/technology/amazon-suicide-poison-preservative.html
[2] https://www.google.com/intl/ru/search/howsearchworks/mission/open-web/
#policy #amazon #censorship
NY Times
Lawmakers Press Amazon on Sales of Chemical Used in Suicides
Even as grieving families tried to warn Amazon and other e-commerce sites of the danger, there were more purchases and more deaths.
Напомню что 4-5 марта мы, Инфокультура и АУРД, организуем в Москве Open Data Day 2022 [1] он пройдет паралеллельно с сотнями других мероприятий по всему миру [2]. ODD начинался по инициативе Open Knowledge Foundation, большая часть мероприятий были простыми митапами и хакатонами, но несколько больших мероприятий были в формате конференций, например, неделя открытых данных в Нью-Йорке.
В Москве мы проводим мероприятие в формате конференции в которой будут дискусии по актуальным вопросам открытых данных и открытости в целом (открытый код, открытые сообщества, открытое железо и тд.), а также практические мастер классы. Мы скоро разместим программу где будут подробности!
А когда-то мы проводили ODD в формате большой оффлайновой [не]конференции, но пандемия все сильно поменяла и в этом году почти всё будет онлайн с оффлайновым присутствием для спикера и тех кто захочет прийти во ФРИИ и послушать вживую.
Как принять участие/помочь/сделать доброе дело?
1. Сделать репост этого поста и рассказать другим о мероприятии.
2. Ещё есть время предложить спикеров для дискуссий/актуальные темы/проведения мастер классов. Главный критерий - знание предметной области и хорошая подача материала!
3. Подключиться к трансляции в сам День открытых данных, задавать вопросы и комментировать.
4. [При желании] прийти вживую в оффлайн и поговорить на актуальные темы в оффлайне. Чай/кофе/печеньки обеспечим;)
И, конечно, и это важно, что мероприятий в день открытых данных много. В России кроме мероприятия в Москве, анонсировано мероприятие в Кирове и надеюсь оно также будет интересным. Я ещё напишу о нём когда узнаю все подробности от организаторов.
Формат полу-онлайн конференции может подойти не всем, кто-то хочет больше общения вживую. Не стесняйтесь организовать своё мероприятие в своём городе. Создавайте для него лендинг или сообщество в соц сети, регистрируйте на opendataday.org и присылайте мне, я и мои коллеги постараемся привлечь к нему побольше внимания.
ODD в Москве проводится при поддержке членов ассоциации АУРД и наших многолетних партнеров: Фонда Развития Интернет Инициатив, Интерфакса, Департамента медиаи коммуникации Высшей школы экономики и Центра цифровых прав, Роскомсвободы и многих других! Присоединяйтесь к списку партнеров и вступайте к нам в ассоциацию, конечно же;)
Вы также можете поддержать Инфокультуру по мере своих возможностей.
Ссылки:
[1] https://opendataday.ru/msk
[2] https://opendataday.org
#opendataday #odd #деньоткрытыхданных #opendata #events #data
В Москве мы проводим мероприятие в формате конференции в которой будут дискусии по актуальным вопросам открытых данных и открытости в целом (открытый код, открытые сообщества, открытое железо и тд.), а также практические мастер классы. Мы скоро разместим программу где будут подробности!
А когда-то мы проводили ODD в формате большой оффлайновой [не]конференции, но пандемия все сильно поменяла и в этом году почти всё будет онлайн с оффлайновым присутствием для спикера и тех кто захочет прийти во ФРИИ и послушать вживую.
Как принять участие/помочь/сделать доброе дело?
1. Сделать репост этого поста и рассказать другим о мероприятии.
2. Ещё есть время предложить спикеров для дискуссий/актуальные темы/проведения мастер классов. Главный критерий - знание предметной области и хорошая подача материала!
3. Подключиться к трансляции в сам День открытых данных, задавать вопросы и комментировать.
4. [При желании] прийти вживую в оффлайн и поговорить на актуальные темы в оффлайне. Чай/кофе/печеньки обеспечим;)
И, конечно, и это важно, что мероприятий в день открытых данных много. В России кроме мероприятия в Москве, анонсировано мероприятие в Кирове и надеюсь оно также будет интересным. Я ещё напишу о нём когда узнаю все подробности от организаторов.
Формат полу-онлайн конференции может подойти не всем, кто-то хочет больше общения вживую. Не стесняйтесь организовать своё мероприятие в своём городе. Создавайте для него лендинг или сообщество в соц сети, регистрируйте на opendataday.org и присылайте мне, я и мои коллеги постараемся привлечь к нему побольше внимания.
ODD в Москве проводится при поддержке членов ассоциации АУРД и наших многолетних партнеров: Фонда Развития Интернет Инициатив, Интерфакса, Департамента медиаи коммуникации Высшей школы экономики и Центра цифровых прав, Роскомсвободы и многих других! Присоединяйтесь к списку партнеров и вступайте к нам в ассоциацию, конечно же;)
Вы также можете поддержать Инфокультуру по мере своих возможностей.
Ссылки:
[1] https://opendataday.ru/msk
[2] https://opendataday.org
#opendataday #odd #деньоткрытыхданных #opendata #events #data
Telegram
Инфокультура
Новости Информационной культуры. https://infoculture.ru
В Италии выяснили что местные автостраховщики делают разные оценки процентной ставки в зависимости от того где Вы родились [1]. Для жителей Рима тариф будет одним, для жителей Неаполя другим. Всё это в статье Algorithmic Audit of Italian Car Insurance: Evidence of Unfairness in Access and Pricing от команды исследователей из 3-х итальянских университетов [2].
Дискриминация по национальности и по месту рождения одна из наиболее жёстких. Большинство из нас не имеет возможности выбрать расу, нацию и, особенно, место рождения.
В статье упоминается что эта практика существовала и раньше, а с применением автоматизированных алгоритмов она лишь стала изощрённее.
Ссылки:
[1] https://algorithmwatch.org/en/discriminating-insurance/
[2] https://www.dei.unipd.it/~silvello/papers/2021_aies2021.pdf
#privacy #ai #ethics
Дискриминация по национальности и по месту рождения одна из наиболее жёстких. Большинство из нас не имеет возможности выбрать расу, нацию и, особенно, место рождения.
В статье упоминается что эта практика существовала и раньше, а с применением автоматизированных алгоритмов она лишь стала изощрённее.
Ссылки:
[1] https://algorithmwatch.org/en/discriminating-insurance/
[2] https://www.dei.unipd.it/~silvello/papers/2021_aies2021.pdf
#privacy #ai #ethics
AlgorithmWatch
Costly birthplace: discriminating insurance practice - AlgorithmWatch
Two residents in Rome with exactly the same driving history, car, age, profession, and number of years owning a driving license may be charged a different price when purchasing car insurance. Why? Because of their place of birth, according to a recent study.
Существует совсем не нулевая вероятность что Google Analytics в Европейском союзе может быть запрещён или ограничен или Google сами перестанут предоставлять этот продукт европейским пользователям. Simpleanalytics [1] сделали обзор с упоминанием регуляторов Австрии и Голландии которые уже сформулировали свои претензии к этому продукту, в части нарушения GDPR.
Но тут важно помнить что Google просто самый большой из таких сервисов. Кто следующий и чем это закончится?
Ссылки:
[1] https://blog.simpleanalytics.com/will-google-analytics-be-banned-in-the-eu
#privacy #eu #google
Но тут важно помнить что Google просто самый большой из таких сервисов. Кто следующий и чем это закончится?
Ссылки:
[1] https://blog.simpleanalytics.com/will-google-analytics-be-banned-in-the-eu
#privacy #eu #google
Simpleanalytics
Will Google Analytics be banned in the EU?
The Dutch Data Protection Authority (AP) questioned the legal use of Google Analytics in The Netherlands. Will it be banned?
В Forbes вышла моя колонка [1] по регулировании Метавселенных в России
Вначале я хотел добавить юмора, описать будущее чего-то вроде Росметаконтроля или Федеральной службы виртуального патриотизма или Министерства внутривиртуальных дел, но в какой-то момент юмор засбоил и получился серьёзный текст про усиление госконтроля.
Ссылки:
[1] https://www.forbes.ru/mneniya/455185-metavselennye-pod-kontrolem-pocemu-novye-tehnologii-v-rossii-vosprinimaut-kak-ugrozu
#privacy #vr #ar #metauniverses #reading
Вначале я хотел добавить юмора, описать будущее чего-то вроде Росметаконтроля или Федеральной службы виртуального патриотизма или Министерства внутривиртуальных дел, но в какой-то момент юмор засбоил и получился серьёзный текст про усиление госконтроля.
Ссылки:
[1] https://www.forbes.ru/mneniya/455185-metavselennye-pod-kontrolem-pocemu-novye-tehnologii-v-rossii-vosprinimaut-kak-ugrozu
#privacy #vr #ar #metauniverses #reading
Forbes.ru
Метавселенные под контролем: почему новые технологии в России воспринимают как угрозу
Российские власти задумались о том, как регулировать метавселенные и виртуальную реальность. Чиновники видят риски не столько в технологиях, как таковых, сколько в распространении информации. Метавселенные дадут гражданам дополнительные возможности д
В блоге Open Ownership пишут о том что на декабрьской конференции UNDC (Управлении ООН по противодействии коррупции) приняли резолюцию [1] о развитии в сторону раскрытия сведений о конечных владельцах компаний. Обратите внимание что именно о конечных владельцах (beneficial owners), а не учредителям юр. лиц. Сведения об учредителях не везде, но много где доступны за деньги или бесплатно, а вот сведения о конечных владельцах публикуются лишь единицами стран.
Напомню что в России сведения о конечных владельцах публикуются только кредитными организациями и то, в виде схем, в немашиночитаемом виде.
Ссылки:
[1] https://www.unodc.org/unodc/en/corruption/COSP/session9-resolutions.html#Res.9-7
#opendata #un #anticorruption
Напомню что в России сведения о конечных владельцах публикуются только кредитными организациями и то, в виде схем, в немашиночитаемом виде.
Ссылки:
[1] https://www.unodc.org/unodc/en/corruption/COSP/session9-resolutions.html#Res.9-7
#opendata #un #anticorruption
Команда Superconductive стоящая за Great Expecations open source продуктом по контролю качества данных подняла $40M инвестиций на создание облачного продукта [1]
Можно сказать что у инструментов работы с данными просто заметнейший тренд на то что вначале команды создают востребованное open source ПО, а потом берут инвестиции на облачную версию.
Главное, я напомню, не забывать судьбу CloverETL которые начинали с open source продукта, а потом убили его ради корпоративной версии и таких примеров в настольном и сервером ПО немало, а у open source + облачного другие особенности, главная из которых в том что авторы часто потом добавляют в open source решение зависимость от своей облачной инфраструктуры.
Ссылки:
[1] https://techcrunch.com/2022/02/10/superconductive-creators-of-great-expectations-raises-40m-to-launch-a-commercial-version-of-its-open-source-data-quality-tool/
#opensource #dataquality #startups #investments
Можно сказать что у инструментов работы с данными просто заметнейший тренд на то что вначале команды создают востребованное open source ПО, а потом берут инвестиции на облачную версию.
Главное, я напомню, не забывать судьбу CloverETL которые начинали с open source продукта, а потом убили его ради корпоративной версии и таких примеров в настольном и сервером ПО немало, а у open source + облачного другие особенности, главная из которых в том что авторы часто потом добавляют в open source решение зависимость от своей облачной инфраструктуры.
Ссылки:
[1] https://techcrunch.com/2022/02/10/superconductive-creators-of-great-expectations-raises-40m-to-launch-a-commercial-version-of-its-open-source-data-quality-tool/
#opensource #dataquality #startups #investments
TechCrunch
Superconductive, creators of Great Expectations, raises $40M to launch a commercial version of its open source data quality tool…
Data quality — the practice of testing and ensuring that the data and data sets you are using are what you expect them to be — has become a key component in the world of data science. Data may be the “new oil”; but if it’s too crude, you may not be able to…
Полезное чтение про разное
- How often do people actually copy and paste from Stack Overflow? Now we know. [1] о том как часто программисты копируют тексты со Stack Overflow. Мини-исследование от команды проекта собиравших данные о копировании с помощью отслеживания фактов копирования в JavaScript коде. Если кратко - копируют много и посты/ответы с хорошей репутацией.
- The next billion programmers [2] рассуждения всё того же Benn Stancil из стартапа Mode о том что самый главный продукт для переделки или пересоздания - это Excel. У Бена хорошие рассуждения практически во всех его текстах, он уходит куда дальше чем просто продвижение Mode и дискуссий вокруг хайпов вокруг данных, а рассуждает по общеотраслевые проблемы. Excel - это, действительно, с одной стороны гениальное, а с другой тяжкое наследие.
- Six Reasons Why the Wolfram Language Is (Like) Open Source [3] ноябрьский текст от Jon McLoone, директора по коммуникациям и стратегии в Wolfram, о том почему модель открытого кода не подходит для ключевых технологий Wolfram. Для тех кто не знает, Wolfram Mathematica один из лучших продуктов для технических вычислений, а Wolfram Alpha один из лучших продуктов поиска ответов на вопросы со способностью давать ответы в технических дисциплинах. Но все эти продукты с закрытым кодом, включая их Wolfram Language и многие не используют именно из-за закрытости и замкнутости экосистемы Wolfram. Стоит почитать чтобы понимать позицию тех кто делает хорошие продукты и не может поменять бизнес модель в сторону открытости и поговорить о том к чему это приведет.
- Tableau Data Catalog: Let’s do the jigsaw puzzle! [4] команда разработчиков пытаются построить каталог данных на базе Tableau. На мой взгляд это не самый правильный путь, но активным пользователям Tableau может оказаться полезным.
- Understanding of metrics store [5] полезный обзорный текст про хранилища метрик, как лучше их организовать, зачем и кому они нужны. Лично у меня metrics store четко ассоциируется с Headless BI, и разделением аналитических показателей на подсчет, хранение и интерфейс.
- Snowflake Data Classification Now Available in Public Preview [6] в Snowflake анонсировали технологии классификации данных для данных загружаемых пользователями, но потом почему-то статью убрали и осталась она только в гугл кеше. Технология практически та же что у нас в DataCrafter'е [7] и то что я недавно анонсировал в виде утилиты metacrafter [8] с открытым кодом. Разница в том что у Snowflake это встроено в систему SQL запросов и находится прямо внутри их движка.
Ссылки:
[1] https://stackoverflow.blog/2021/12/30/how-often-do-people-actually-copy-and-paste-from-stack-overflow-now-we-know/
[2] https://benn.substack.com/p/the-next-billion-programmers
[3] https://blog.wolfram.com/2021/11/30/six-reasons-why-the-wolfram-language-is-like-open-source/
[4] https://medium.com/iadvize-engineering/tableau-data-catalog-lets-do-the-jigsaw-puzzle-cef93e674622
[5] https://medium.com/kyligence/understanding-the-metrics-store-c213341e4c25
[6] https://webcache.googleusercontent.com/search?q=cache:61aCFi3onBwJ:https://www.snowflake.com/blog/data-classification-now-available-in-public-preview/+&cd=1&hl=fr&ct=clnk&gl=de&client=firefox-b-d
[7] https://data.apicrafter.ru/class
[8] https://github.com/apicrafter/metacrafter/
#reading #data #tech
- How often do people actually copy and paste from Stack Overflow? Now we know. [1] о том как часто программисты копируют тексты со Stack Overflow. Мини-исследование от команды проекта собиравших данные о копировании с помощью отслеживания фактов копирования в JavaScript коде. Если кратко - копируют много и посты/ответы с хорошей репутацией.
- The next billion programmers [2] рассуждения всё того же Benn Stancil из стартапа Mode о том что самый главный продукт для переделки или пересоздания - это Excel. У Бена хорошие рассуждения практически во всех его текстах, он уходит куда дальше чем просто продвижение Mode и дискуссий вокруг хайпов вокруг данных, а рассуждает по общеотраслевые проблемы. Excel - это, действительно, с одной стороны гениальное, а с другой тяжкое наследие.
- Six Reasons Why the Wolfram Language Is (Like) Open Source [3] ноябрьский текст от Jon McLoone, директора по коммуникациям и стратегии в Wolfram, о том почему модель открытого кода не подходит для ключевых технологий Wolfram. Для тех кто не знает, Wolfram Mathematica один из лучших продуктов для технических вычислений, а Wolfram Alpha один из лучших продуктов поиска ответов на вопросы со способностью давать ответы в технических дисциплинах. Но все эти продукты с закрытым кодом, включая их Wolfram Language и многие не используют именно из-за закрытости и замкнутости экосистемы Wolfram. Стоит почитать чтобы понимать позицию тех кто делает хорошие продукты и не может поменять бизнес модель в сторону открытости и поговорить о том к чему это приведет.
- Tableau Data Catalog: Let’s do the jigsaw puzzle! [4] команда разработчиков пытаются построить каталог данных на базе Tableau. На мой взгляд это не самый правильный путь, но активным пользователям Tableau может оказаться полезным.
- Understanding of metrics store [5] полезный обзорный текст про хранилища метрик, как лучше их организовать, зачем и кому они нужны. Лично у меня metrics store четко ассоциируется с Headless BI, и разделением аналитических показателей на подсчет, хранение и интерфейс.
- Snowflake Data Classification Now Available in Public Preview [6] в Snowflake анонсировали технологии классификации данных для данных загружаемых пользователями, но потом почему-то статью убрали и осталась она только в гугл кеше. Технология практически та же что у нас в DataCrafter'е [7] и то что я недавно анонсировал в виде утилиты metacrafter [8] с открытым кодом. Разница в том что у Snowflake это встроено в систему SQL запросов и находится прямо внутри их движка.
Ссылки:
[1] https://stackoverflow.blog/2021/12/30/how-often-do-people-actually-copy-and-paste-from-stack-overflow-now-we-know/
[2] https://benn.substack.com/p/the-next-billion-programmers
[3] https://blog.wolfram.com/2021/11/30/six-reasons-why-the-wolfram-language-is-like-open-source/
[4] https://medium.com/iadvize-engineering/tableau-data-catalog-lets-do-the-jigsaw-puzzle-cef93e674622
[5] https://medium.com/kyligence/understanding-the-metrics-store-c213341e4c25
[6] https://webcache.googleusercontent.com/search?q=cache:61aCFi3onBwJ:https://www.snowflake.com/blog/data-classification-now-available-in-public-preview/+&cd=1&hl=fr&ct=clnk&gl=de&client=firefox-b-d
[7] https://data.apicrafter.ru/class
[8] https://github.com/apicrafter/metacrafter/
#reading #data #tech
stackoverflow.blog
How often do people actually copy and paste from Stack Overflow? Now we know. - Stack Overflow
В качестве регулярного напоминания о том где искать данные и какие каталоги данных существуют:
- Хаб открытых данных (hubofdata.ru) создан на базе системы каталогов данных CKAN нами (@infoculture) ещё до появления государственных порталов данных. Можно использовать для загрузки данных, а нами используется как хранилище метаданных к архивам, причём не только данных, но и веб-сайтов.
- Данные НКО (ngodata.ru) портал созданный нами для того чтобы НКО могли бы публиковать данные по результатам своей работы. Задумка была хорошая, но заинтересованность НКО в распространении своих данных мы явно
переоценили. В то же время немало данных Инфокультуры опубликовано и там тоже.
- Каталог каталогов данных (datacatalogs.ru) - создан как агрегатор метаданных о каталогах данных. Охватывает,
наверное, почти все каталоги данных в России и о России, а также некоторые цифровые репозитории где должны быть данные (в том числе), например, репозитории научных публикаций.
- DataCrafter (data.apicrafter.ru) - каталог данных созданный в рамках нашего коммерческого проекта APICrafter. Значительная часть данных открыта и общедоступна. Всё ещё в бета режиме и пока используется для технологических экспериментов в основном. Вроде того что я постоянно рассказываю о классификации данных и разметки типов полей данных по их смыслу (кодам ИНН, ФИО, персональным данным, справочникам и тд)
Всё это то что находится в открытом доступе, а также много данных которые мы постоянно собираем и до которых _не доходят руки_, потому что собрать данные != документировать данные != привести данные удобный вид.
#opendata #dataportals #datasets #datadiscovery
- Хаб открытых данных (hubofdata.ru) создан на базе системы каталогов данных CKAN нами (@infoculture) ещё до появления государственных порталов данных. Можно использовать для загрузки данных, а нами используется как хранилище метаданных к архивам, причём не только данных, но и веб-сайтов.
- Данные НКО (ngodata.ru) портал созданный нами для того чтобы НКО могли бы публиковать данные по результатам своей работы. Задумка была хорошая, но заинтересованность НКО в распространении своих данных мы явно
переоценили. В то же время немало данных Инфокультуры опубликовано и там тоже.
- Каталог каталогов данных (datacatalogs.ru) - создан как агрегатор метаданных о каталогах данных. Охватывает,
наверное, почти все каталоги данных в России и о России, а также некоторые цифровые репозитории где должны быть данные (в том числе), например, репозитории научных публикаций.
- DataCrafter (data.apicrafter.ru) - каталог данных созданный в рамках нашего коммерческого проекта APICrafter. Значительная часть данных открыта и общедоступна. Всё ещё в бета режиме и пока используется для технологических экспериментов в основном. Вроде того что я постоянно рассказываю о классификации данных и разметки типов полей данных по их смыслу (кодам ИНН, ФИО, персональным данным, справочникам и тд)
Всё это то что находится в открытом доступе, а также много данных которые мы постоянно собираем и до которых _не доходят руки_, потому что собрать данные != документировать данные != привести данные удобный вид.
#opendata #dataportals #datasets #datadiscovery
datacatalogs.ru/
Каталог каталогов открытых данных
Поиск и фильтрация каталогов открытых данных
Любопытный продукт про работу с данными с открытым кодом JuiceFS [1], облачная файловая система с поддержкой многих облачных провайдеров и предоставляющая S3 совместимый интерфейс. Базовая архитектура продукта в том что все метаданные хранятся в Redis или в другом key-value хранилище, а файлы в S3 совместимом хранилище файлов. Никакой магии, но полезный рабочий инструмент. Авторы пошли тем же путём что я уже часто описываю - сделать популярный open source продукт и привлекать венчурные инвестиции на облачное решение [2].
Другой интересный продукт схожего типа Seaweedfs [3] также создающий онлайн хранилище с поддержкой десятка если не больше хранилищ метаданных собственным хранилищем файлов. Что интересно, как и другие продукты по распределённому хранению файлов, он развивается в сторону объектного хранения. Фактически key-value хранилища для блобов (кусков данных по которым не осуществляется поиск, например бинарных файлов).
А один из самых известных и успешных проект среди распределённых хранилищ - это MinIO [4], они подняли $126M инвестиций на S3 совместимое ПО и это не облачный продукт, а именно серверное ПО, покупатели, в основном, хостеры и корпорации создающие публичные и приватные файловые хранилища. В основе их же продукт с открытым кодом по AGPL3 лицензией.
Файловые хранилища - это "нижняя" часть инфраструктуры работы с данными. Иногда можно полностью обойтись облачными решениями, а иногда надо разворачивать собственное хранение первичных и промежуточных файлов.
Ссылки:
[1] https://github.com/juicedata/juicefs
[2] https://juicefs.com/
[3] https://github.com/chrislusf/seaweedfs
[4] https://www.min.io
[5] https://www.crunchbase.com/organization/minio-inc
#data #datainfrastructure #storage #startups
Другой интересный продукт схожего типа Seaweedfs [3] также создающий онлайн хранилище с поддержкой десятка если не больше хранилищ метаданных собственным хранилищем файлов. Что интересно, как и другие продукты по распределённому хранению файлов, он развивается в сторону объектного хранения. Фактически key-value хранилища для блобов (кусков данных по которым не осуществляется поиск, например бинарных файлов).
А один из самых известных и успешных проект среди распределённых хранилищ - это MinIO [4], они подняли $126M инвестиций на S3 совместимое ПО и это не облачный продукт, а именно серверное ПО, покупатели, в основном, хостеры и корпорации создающие публичные и приватные файловые хранилища. В основе их же продукт с открытым кодом по AGPL3 лицензией.
Файловые хранилища - это "нижняя" часть инфраструктуры работы с данными. Иногда можно полностью обойтись облачными решениями, а иногда надо разворачивать собственное хранение первичных и промежуточных файлов.
Ссылки:
[1] https://github.com/juicedata/juicefs
[2] https://juicefs.com/
[3] https://github.com/chrislusf/seaweedfs
[4] https://www.min.io
[5] https://www.crunchbase.com/organization/minio-inc
#data #datainfrastructure #storage #startups
GitHub
GitHub - juicedata/juicefs: JuiceFS is a distributed POSIX file system built on top of Redis and S3.
JuiceFS is a distributed POSIX file system built on top of Redis and S3. - juicedata/juicefs
В рубрике интересных наборов данных, Google Mobility Report, данные о передвижении жителей стран во время COVID-19. Компания опубликовала и обновляет файлы в виде CSV файла по всему миру, CSV файлов по странам и в виде PDF отчетов по каждой стране [1]. Всего данных на 844 МБ в распакованном виде, данные по России тоже есть.
Одно ограничение в том что условия использования указанные там - это условия использования Google [2], а это, конечно, не свободная лицензия.
Тем не менее практическое применение этим данным вполне возможно найти.
Ссылки:
[1] https://www.google.com/covid19/mobility/
[2] https://policies.google.com/terms?hl=ru
#opendata #data #covid19
Одно ограничение в том что условия использования указанные там - это условия использования Google [2], а это, конечно, не свободная лицензия.
Тем не менее практическое применение этим данным вполне возможно найти.
Ссылки:
[1] https://www.google.com/covid19/mobility/
[2] https://policies.google.com/terms?hl=ru
#opendata #data #covid19
COVID-19 Community Mobility Report
See how your community moved differently due to COVID-19
Несомненно полезная визуализация онтологии инициатив Data and AI for Good [1]. Автор Jake Porway, сооснователь проекта DataKind просистематизировал несколько десятков инициатив по неплохой методологии [2] собрал вот такую визуальную картину.
Если кратко, то у инициатив "за всё хорошее" в данных и в ИИ есть два вектора:
- уменьшить ущерб
- увеличить пользу
Думают об этом, создают проекты, сообщества, инициативы, регулирование и кодексы очень многие. С разными подходами и этическими базисами. Ещё до рисования этой картинки и текста, летом 2021 года автор собирал кластеры участников процесса и получилось неплохо.
Ссылки:
[1] https://data.org/news/a-taxonomy-for-ai-data-for-good/
[2] https://data.org/wp-content/uploads/2022/02/Landscape-Methodology_FINAL.pdf
[3] https://docs.google.com/document/d/1WoIQUJHFSMG-biaB5pNPdrPauK2Sn920VAvP68dyQ1I/edit
#data4good #ai4good #data #policies
Если кратко, то у инициатив "за всё хорошее" в данных и в ИИ есть два вектора:
- уменьшить ущерб
- увеличить пользу
Думают об этом, создают проекты, сообщества, инициативы, регулирование и кодексы очень многие. С разными подходами и этическими базисами. Ещё до рисования этой картинки и текста, летом 2021 года автор собирал кластеры участников процесса и получилось неплохо.
Ссылки:
[1] https://data.org/news/a-taxonomy-for-ai-data-for-good/
[2] https://data.org/wp-content/uploads/2022/02/Landscape-Methodology_FINAL.pdf
[3] https://docs.google.com/document/d/1WoIQUJHFSMG-biaB5pNPdrPauK2Sn920VAvP68dyQ1I/edit
#data4good #ai4good #data #policies
Я уже писал про содержание российского портала data.gov.ru [1] и выкладывал его дамп для тех кто хочет его исследовать [2].
Чтобы дополнительно объяснить что с ним не так нужны были сравнимые по уровню и масштабу каталоги данных и такие каталоги есть.
В каталоге Humanitarian Data Exchange data.humdata.org опубликовано около 31 тысячи наборов данных, а в каталоге-агрегаторе OpenDataSoft data.opendatasoft.com размещено около 25,6 тысяч наборов данных. Очень близкие цифры с data.gov.ru где опубликовано 26 тысяч наборов данных и вполне можно сравнивать.
Поскольку я непрерывно скачиваю каталоги данных, могу приводить цифры, не всегда финальные, но уже показательные
Так вот, предварительные и уже показательные цифры:
- data.gov.ru - 100% наборов данных, 26 тысяч наборов, всё вместе 29GB
- data.humdata.org - 205GB объём уже скачанных 21% наборов данных (6600), ожидаемый итоговый объём 950-1000ГБ
- data.opendatasoft.com - 145 GB объём 40% уже скачанных данных, ожидаемый итоговый объём около 300-350GB
Откуда такая разница и почему на российском национальном портале данных их так мало?
Есть 3 основные причины:
1. Низкая интеграция портала с государственными информационными системами, только на портале электронного бюджета размещаются сотни гигабайт данных.
2. Полное отсутствие геоданных, в то время как значительная часть данных на других порталах - это Shape-файлы, используемые в геопродуктах.
3. Формальное раскрытие данных "из под палки" и по белому списку. Когда есть обязательный перечень бессмысленных требований по публикации в форматах открытых данных вакансий или списков подведов и, как результат, в виде открытых данных публикуются CSV файлы в 1-2 строки или и вовсе пустые.
И ещё для сравнения, на портале открытых данных Великобритании, data.gov.uk, только CSV файлов без сжатия опубликовано 222ГБ. Остальных скачанных данных у меня нет на руках, но я бы оценил объём остальных данных как примерно столько же. А самые большие данные там по госзакупкам и анонимизированные цифры статистики по выписке рецептурных лекарств по районам. Уникальные данные, мало где в мире публикуемые.
Какой вывод можно из всего этого сделать? К сожалению всё те же, довольно бессмысленно пользоваться российским федеральным порталом открытых данных, проще извлекать данные из первоисточников, сайтов органов власти и региональных порталов данных.
Ссылки:
[1] https://t.iss.one/begtin/3508
[2] https://hubofdata.ru/dataset/datagovru-20220202
#opendata #dataportals #data
Чтобы дополнительно объяснить что с ним не так нужны были сравнимые по уровню и масштабу каталоги данных и такие каталоги есть.
В каталоге Humanitarian Data Exchange data.humdata.org опубликовано около 31 тысячи наборов данных, а в каталоге-агрегаторе OpenDataSoft data.opendatasoft.com размещено около 25,6 тысяч наборов данных. Очень близкие цифры с data.gov.ru где опубликовано 26 тысяч наборов данных и вполне можно сравнивать.
Поскольку я непрерывно скачиваю каталоги данных, могу приводить цифры, не всегда финальные, но уже показательные
Так вот, предварительные и уже показательные цифры:
- data.gov.ru - 100% наборов данных, 26 тысяч наборов, всё вместе 29GB
- data.humdata.org - 205GB объём уже скачанных 21% наборов данных (6600), ожидаемый итоговый объём 950-1000ГБ
- data.opendatasoft.com - 145 GB объём 40% уже скачанных данных, ожидаемый итоговый объём около 300-350GB
Откуда такая разница и почему на российском национальном портале данных их так мало?
Есть 3 основные причины:
1. Низкая интеграция портала с государственными информационными системами, только на портале электронного бюджета размещаются сотни гигабайт данных.
2. Полное отсутствие геоданных, в то время как значительная часть данных на других порталах - это Shape-файлы, используемые в геопродуктах.
3. Формальное раскрытие данных "из под палки" и по белому списку. Когда есть обязательный перечень бессмысленных требований по публикации в форматах открытых данных вакансий или списков подведов и, как результат, в виде открытых данных публикуются CSV файлы в 1-2 строки или и вовсе пустые.
И ещё для сравнения, на портале открытых данных Великобритании, data.gov.uk, только CSV файлов без сжатия опубликовано 222ГБ. Остальных скачанных данных у меня нет на руках, но я бы оценил объём остальных данных как примерно столько же. А самые большие данные там по госзакупкам и анонимизированные цифры статистики по выписке рецептурных лекарств по районам. Уникальные данные, мало где в мире публикуемые.
Какой вывод можно из всего этого сделать? К сожалению всё те же, довольно бессмысленно пользоваться российским федеральным порталом открытых данных, проще извлекать данные из первоисточников, сайтов органов власти и региональных порталов данных.
Ссылки:
[1] https://t.iss.one/begtin/3508
[2] https://hubofdata.ru/dataset/datagovru-20220202
#opendata #dataportals #data
Telegram
Ivan Begtin
Я много критиковал и критикую российский федеральный портал открытых данных data.gov.ru [1], но как-то без цифр. Сейчас, когда наконец-то докачались все доступные данные 26490 наборов данных с этого портала я могу цифры привести и дать некоторую картину его…
О ГосТехе в канале Координация профанации вышло аж 3 публикации [1] [2] [3] где автор весьма дотошно разбирает историю ГосТеха в России. Что не значит что ГосТех совершенно бесмысленная история, но что означает что то как он запускается и публичные коммуникации вокруг вызывают очень много вопросов.
Я скажу от себя лично, вне зависимости от того насколько в итоге архитектура Гостеха будет грамотной, а технические решения полезны, публичные коммуникации по нему проваливаются. Материалов в открытом доступе минимум, архитектурных сведений минимум, ответы на вопросы шаблонные и так далее. Публично вся эта инициатива подаётся _очень плохо_, как я писал ранее после их мероприятия в РАНХиГС, выглядело всё это демотивирующе и антихаризматично, даже не нейтрально уныло, а просто плохо.
Ссылки:
[1] https://telegra.ph/GosTeh-SHryodingera-02-10
[2] https://telegra.ph/GosTeh-SHryodingera-02-11
[3] https://telegra.ph/GosTeh-SHryodingera-02-13
#govtech #government #it
Я скажу от себя лично, вне зависимости от того насколько в итоге архитектура Гостеха будет грамотной, а технические решения полезны, публичные коммуникации по нему проваливаются. Материалов в открытом доступе минимум, архитектурных сведений минимум, ответы на вопросы шаблонные и так далее. Публично вся эта инициатива подаётся _очень плохо_, как я писал ранее после их мероприятия в РАНХиГС, выглядело всё это демотивирующе и антихаризматично, даже не нейтрально уныло, а просто плохо.
Ссылки:
[1] https://telegra.ph/GosTeh-SHryodingera-02-10
[2] https://telegra.ph/GosTeh-SHryodingera-02-11
[3] https://telegra.ph/GosTeh-SHryodingera-02-13
#govtech #government #it
Telegram
Координация профанации
Нелицеприятно и невзирая на лица - о госинформатизации, цифровой трансформации и профанах.
Практически "Короли и капуста" - только с уклоном в госИТ
Вопросы, критику, инсайды отправляйте в
ТГ: @CynicAdmin, @ExEx_IT
Рекламы на канале нет и не будет
Практически "Короли и капуста" - только с уклоном в госИТ
Вопросы, критику, инсайды отправляйте в
ТГ: @CynicAdmin, @ExEx_IT
Рекламы на канале нет и не будет
В рубрике полезных инструментов работы с данными, low code инструменты с открытым кодом по превращению данных в приложения.
- Budibase [1] позволяет строить простые приложения, поддерживает PostgreSQL, MySQL, MSSQL, MongoDB, Rest API и др. Кроме открытого кода есть облачная версия [2]. В примерах разного рода формы для заполнения. Написан на Javascript.
- Tooljet [3] также позволяет делать простые приложения и также поддерживает много разных баз данных PostgreSQL, MongoDB, Elasticsearch и др., написан на Javascript. Также представлен открытым кодом и облачной версией [4]
- N8N [5] автоматизация потоков задач и данных, с открытым кодом и удобным интерфейсом. Имеет много интеграций и не только с базами данных.
Таких продуктов ещё десятки, low code платформы это одна из наиболее "горячих тем" в последние пару лет. Всё чаще они позиционируются как "постройте внутреннее приложение за минуты".
Ссылки:
[1] https://github.com/Budibase/budibase
[2] https://budibase.com/pricing
[3] https://github.com/ToolJet/ToolJet
[4] https://tooljet.com/pricing
[5] https://github.com/n8n-io/n8n
#nocode #lowcode #platforms #tools
- Budibase [1] позволяет строить простые приложения, поддерживает PostgreSQL, MySQL, MSSQL, MongoDB, Rest API и др. Кроме открытого кода есть облачная версия [2]. В примерах разного рода формы для заполнения. Написан на Javascript.
- Tooljet [3] также позволяет делать простые приложения и также поддерживает много разных баз данных PostgreSQL, MongoDB, Elasticsearch и др., написан на Javascript. Также представлен открытым кодом и облачной версией [4]
- N8N [5] автоматизация потоков задач и данных, с открытым кодом и удобным интерфейсом. Имеет много интеграций и не только с базами данных.
Таких продуктов ещё десятки, low code платформы это одна из наиболее "горячих тем" в последние пару лет. Всё чаще они позиционируются как "постройте внутреннее приложение за минуты".
Ссылки:
[1] https://github.com/Budibase/budibase
[2] https://budibase.com/pricing
[3] https://github.com/ToolJet/ToolJet
[4] https://tooljet.com/pricing
[5] https://github.com/n8n-io/n8n
#nocode #lowcode #platforms #tools
GitHub
GitHub - Budibase/budibase: Create business apps and automate workflows in minutes. Supports PostgreSQL, MySQL, MariaDB, MSSQL…
Create business apps and automate workflows in minutes. Supports PostgreSQL, MySQL, MariaDB, MSSQL, MongoDB, Rest API, Docker, K8s, and more 🚀 No code / Low code platform.. - Budibase/budibase
В рубрике полезного регулярного чтения, Руководство по цифровому участию [1] от People Powered о том как выбирать платформу и как организовывать процесс участия граждан в принятии решений - как собирать обратную связь, как обеспечивать онлайн голосование и многое другое. Руководство есть и на русском языке в том числе.
Авторы также составили матрицу из 50 платформ, с открытым кодом и коммерческих, из которых можно выбирать решение под свои задачи [2].
Я тут могу лишь вспомнить что с в России в 2010-2013 было несколько экспериментов соучастия граждан в цифровых моделях управления. Были сайты петиций (РОИ), систем обсуждения/публичной экспертизы нормативно-правовых документов, партисипаторной демократии и так далее. Но большая часть из них выродились или погибли.
Прижились только:
- системы жалоб (gorod.spb.gov.ru, gorod.mos.ru и аналогичные проекты)
- систем комментариев без гарантии обратной связи (regulation.gov.ru)
- инициативное бюджетирование (несколько региональных проектов)
А вот в мире проекты общественного соучастия на взлёте уже несколько лет, их всё больше и они получают инвестиции и развиваются как общественные проекты.
Ссылки:
[1] https://ru.peoplepowered.org/digital-guide-home
[2] https://airtable.com/shrxxpcHHnMc1xZSx/tblELFP9tGX07UZDo
#opengovernment #participation #opensource
Авторы также составили матрицу из 50 платформ, с открытым кодом и коммерческих, из которых можно выбирать решение под свои задачи [2].
Я тут могу лишь вспомнить что с в России в 2010-2013 было несколько экспериментов соучастия граждан в цифровых моделях управления. Были сайты петиций (РОИ), систем обсуждения/публичной экспертизы нормативно-правовых документов, партисипаторной демократии и так далее. Но большая часть из них выродились или погибли.
Прижились только:
- системы жалоб (gorod.spb.gov.ru, gorod.mos.ru и аналогичные проекты)
- систем комментариев без гарантии обратной связи (regulation.gov.ru)
- инициативное бюджетирование (несколько региональных проектов)
А вот в мире проекты общественного соучастия на взлёте уже несколько лет, их всё больше и они получают инвестиции и развиваются как общественные проекты.
Ссылки:
[1] https://ru.peoplepowered.org/digital-guide-home
[2] https://airtable.com/shrxxpcHHnMc1xZSx/tblELFP9tGX07UZDo
#opengovernment #participation #opensource
People Powered
Введение в Руководство по платформам цифрового участия - People Powered
Если вы хотите привлечь свое сообщество к работе с помощью цифровой платформы, это руководство для вас. Оно объясняет, что это такое, и показывает, как их выбрать, настроить и запустить.
... Дмитрий Данилов сообщил, что в дальнейшем планируется расширить функции нового подразделения, поручив ему надзор за исполнением законодательства о защите персональных данных граждан и информации ограниченного доступа, в том числе хранящейся в автоматизированных информационных системах государственных органов, корпораций с госучастием, а также научных учреждений и организаций. Соответствующие возможности прокурорам открывает внесенный в Госдуму законопроект, позволяющий в рамках надзора получать персональные данные. Его уже одобрил думский комитет по безопасности и противодействию коррупции.
В статье Коммерсанта [1] о появлении Отдела по надзору за исполнением законов в сфере информационных технологий и защиты информации внутри Генеральной прокуратуры РФ. Я бы ожидал в 2022 году больше уголовных дел в отношении системных интеграторов и появления аналогичных отделов в прокуратурах субъектов федерации, с фокусом на региональные ИТ.
Ссылки:
[1] https://www.kommersant.ru/doc/5216010
#digital #russia
В статье Коммерсанта [1] о появлении Отдела по надзору за исполнением законов в сфере информационных технологий и защиты информации внутри Генеральной прокуратуры РФ. Я бы ожидал в 2022 году больше уголовных дел в отношении системных интеграторов и появления аналогичных отделов в прокуратурах субъектов федерации, с фокусом на региональные ИТ.
Ссылки:
[1] https://www.kommersant.ru/doc/5216010
#digital #russia
Коммерсантъ
Искусственный интеллект попал под надзор
Генпрокуратура взяла под контроль развитие «Цифровой экономики»
Есть и другие новости, Налоговая служба США (IRS) законтрактовалась с компанием ID.me на работы по идентификации и распознаванию по лицам тех кто сдаёт личную налоговую отчетность онлайн. Об этом статья в Scientific American [1] со ссылкой на сайт IRS [2]. Главная причина - резкий всплеск мошенничества и преступлений связанных с подменой личности. Об этом в США был большой госдоклад за 2020 год [3] систематизирующий такие преступления.
Отдельная тема упоминаемая в статье, о том что частная компания обеспечивает идентификацию людей для госоргана и опасения что нельзя отдавать такие критичные функции бизнесу.
По моим наблюдениям, в России противоположная ситуация. Многих тревожит требование по биометрии именно потому что это делается как государственная система и сразу возникают страхи всеобъемлющей слежки.
Ссылки:
[1] https://www.scientificamerican.com/article/facial-recognition-plan-from-irs-raises-big-concerns/
[2] https://www.irs.gov/newsroom/irs-unveils-new-online-identity-verification-process-for-accessing-self-help-tools
[3] https://www.ftc.gov/system/files/documents/reports/consumer-sentinel-network-data-book-2020/csn_annual_data_book_2020.pdf
#privacy #facialrecognition #biometrics #usa #irs
Отдельная тема упоминаемая в статье, о том что частная компания обеспечивает идентификацию людей для госоргана и опасения что нельзя отдавать такие критичные функции бизнесу.
По моим наблюдениям, в России противоположная ситуация. Многих тревожит требование по биометрии именно потому что это делается как государственная система и сразу возникают страхи всеобъемлющей слежки.
Ссылки:
[1] https://www.scientificamerican.com/article/facial-recognition-plan-from-irs-raises-big-concerns/
[2] https://www.irs.gov/newsroom/irs-unveils-new-online-identity-verification-process-for-accessing-self-help-tools
[3] https://www.ftc.gov/system/files/documents/reports/consumer-sentinel-network-data-book-2020/csn_annual_data_book_2020.pdf
#privacy #facialrecognition #biometrics #usa #irs
Scientific American
Facial Recognition Plan from IRS Raises Big Concerns
Government agencies are tapping a facial recognition company to prove you’re you
Не так давно я писал про распознавание классов данных в DataCrafter'е и про небольшой движок с открытым кодом metacrafter [1], но не все и не всегда понимают зачем это нужно и для чего вообще используются подобные инструменты и нужно понимание того что содержится в таблицах с данными. Я постараюсь об этом рассказать в подробностях.
То что я ранее упоминал как классы данных, иногда называют метки данных (data labels), но самое распространённое название - это semantic type (семантический тип данных). В отличие от простых типов данных таких как числа, числа с плавающей запятой, строки, даты, бинарные блоки и так далее, семантические типы определяют смысл и предназначение именно этих данных. Смысл и предназначение как в содержании, так и в последующих вариантах применения.
Например, типом поля может быть строка, а семантическим типом может быть: адрес, номер телефона, название организации или ФИО человека. Каждый из этих семантических типов имеет разный смысл и разные модели использования. Где-то это ссылка на справочные значения, где-то данные требующие расшифровки и декомпозиции, а где-то и метрики для последующего анализа и отображения.
Многие инструменты умеют определять семантические типы весьма неплохо. Например, Talend ETL поддерживает несколько десятков семантических типов данных [2] что используется в преобразованиях данных. Некоторые семантические типы понимает и распознает Google DataStudio [3] что позволяет сразу размечать данные в наборе для разных видов визуализации. А в таком инструменте как Dataprep [4] семантические типы данных используются в задачах очистки наборов данных. И таких применений ещё много.
Поэтому отвечая на вопрос: зачем это нужно, перечислю наиболе очевидные области применения:
1. Идентификации персональных данных в целях комплаенса и соответствия требованиям.
2. Автоматизация обработки данных включая (сопоставление схем, обогащение данных, автоматизация преобразований)
3. Обеспечение качества данных: автоматизация проверки на соответствие данных шаблонам и подсказки для инженеров QA.
4. Автоматизация документирования данных автоописанием полей данных на основе их смысла
5. Улучшение визуализации в BI системах за счёт того что система начинает понимать природу данных и предлагать разные способы их визуализации
6. Повышение находимости данных (data discoverability) через доп фильтры для поиска и через дополнительный способ навигации по данным.
Наиболее остроактуальные темы - это повышение качества данных и идентификация персональных данных. Многие онлайн платформы, вроде Snowflake, автоматизируют идентификацию семантических типов.
Ссылки:
[1] https://github.com/apicrafter/metacrafter
[2] https://help.talend.com/r/en-US/Cloud/data-preparation-user-guide/predefined-semantic-types
[3] https://developers.google.com/datastudio/connector/semantics
[4] https://docs.dataprep.ai/user_guide/clean/clean_df.html
#data #datatools #dataconcepts
То что я ранее упоминал как классы данных, иногда называют метки данных (data labels), но самое распространённое название - это semantic type (семантический тип данных). В отличие от простых типов данных таких как числа, числа с плавающей запятой, строки, даты, бинарные блоки и так далее, семантические типы определяют смысл и предназначение именно этих данных. Смысл и предназначение как в содержании, так и в последующих вариантах применения.
Например, типом поля может быть строка, а семантическим типом может быть: адрес, номер телефона, название организации или ФИО человека. Каждый из этих семантических типов имеет разный смысл и разные модели использования. Где-то это ссылка на справочные значения, где-то данные требующие расшифровки и декомпозиции, а где-то и метрики для последующего анализа и отображения.
Многие инструменты умеют определять семантические типы весьма неплохо. Например, Talend ETL поддерживает несколько десятков семантических типов данных [2] что используется в преобразованиях данных. Некоторые семантические типы понимает и распознает Google DataStudio [3] что позволяет сразу размечать данные в наборе для разных видов визуализации. А в таком инструменте как Dataprep [4] семантические типы данных используются в задачах очистки наборов данных. И таких применений ещё много.
Поэтому отвечая на вопрос: зачем это нужно, перечислю наиболе очевидные области применения:
1. Идентификации персональных данных в целях комплаенса и соответствия требованиям.
2. Автоматизация обработки данных включая (сопоставление схем, обогащение данных, автоматизация преобразований)
3. Обеспечение качества данных: автоматизация проверки на соответствие данных шаблонам и подсказки для инженеров QA.
4. Автоматизация документирования данных автоописанием полей данных на основе их смысла
5. Улучшение визуализации в BI системах за счёт того что система начинает понимать природу данных и предлагать разные способы их визуализации
6. Повышение находимости данных (data discoverability) через доп фильтры для поиска и через дополнительный способ навигации по данным.
Наиболее остроактуальные темы - это повышение качества данных и идентификация персональных данных. Многие онлайн платформы, вроде Snowflake, автоматизируют идентификацию семантических типов.
Ссылки:
[1] https://github.com/apicrafter/metacrafter
[2] https://help.talend.com/r/en-US/Cloud/data-preparation-user-guide/predefined-semantic-types
[3] https://developers.google.com/datastudio/connector/semantics
[4] https://docs.dataprep.ai/user_guide/clean/clean_df.html
#data #datatools #dataconcepts
GitHub
GitHub - apicrafter/metacrafter: Metadata and data identification tool and Python library. Identifies PII, common identifiers,…
Metadata and data identification tool and Python library. Identifies PII, common identifiers, language specific identifiers. Fully customizable and flexible rules - apicrafter/metacrafter