Новости по проекту Metacrafter по распознаванию семантических типов данных, напомню, это небольшой pet-проект по идентификации типов данных в наборах данных и в СУБД, необходимо, например, для идентификации чувствительных данных вроде персональных данных, лучшей навигации по данным, поиска и интеграции данных. Я писал об этом большой текст на английском [1] и регулярно пишу тут.
1. Я выложил извлечённые метаданные из каталогов данных data.gov.ru, socrata.com, data.opendatasoft.com и data.gov.ru в репозиторий на Github [2]. Каталоги разного качества, поэтому метаданные не лучше данных, но могут быть полезны тем кто интересуется этой темой.
2. Значительно обновился реестр, всего 168 типов данных и 43 дополнительных шаблона. У 55% есть ссылки на дополнительное описание, у 28% регулярное выражение, у 21% ссылки на свойства в Wikidata, у 32% примеры данного семантического типа.
3. Для того чтобы всё это вносить была создана схема для валидации YAML файлов шаблонов и добавлена команда validate к скрипту сборки реестра которая использует библиотеку Cerberus в Python для валидации. Всё это в репозитории metacrafter-registry [3]
4. В какой-то момент накопилась уже критическая масса в более чем 24 задачи [4] большая часть которых - это материалы для изучения по метаданным. Например, есть много идентификаторов в экосистеме GS1 [5], а персональные данные неплохо идентифицируются IBM Default Guardium Analyzer [6] и ещё многие другие. Это ещё раз подталкивает меня к мысли о том что почему-то никто не занимался этой темой серьёзно, в основном очень точечные решения. Даже исследований крайне мало.
5. Главная проблема с семантическими типами в том что при автоматическом распознавании очень много ошибочных срабатываний. Слишком многие справочные значения укладываются в 2-х или 3-х буквенные или численные коды которые пересекаются. Коды валют и коды стран, численные коды стран и численные коды единиц измерения и так далее. Поэтому реестр типов составить куда проще чем реализовать алгоритм понимающий контекст и выбирающий правильный семантический тип в этом контексте.
Ссылки:
[1] https://medium.com/@ibegtin/semantic-data-types-systematic-approach-and-types-registry-a2c2a60a467b
[2] https://github.com/apicrafter/metacrafter-datacatalogs-raw
[3] https://github.com/apicrafter/metacrafter-registry
[4] https://github.com/apicrafter/metacrafter-registry/issues
[5] https://www.gs1.org/standards/barcodes/application-identifiers
[6] https://www.ibm.com/docs/en/sga?topic=sources-default-guardium-analyzer-patterns
#opendata #datatools #metadata
1. Я выложил извлечённые метаданные из каталогов данных data.gov.ru, socrata.com, data.opendatasoft.com и data.gov.ru в репозиторий на Github [2]. Каталоги разного качества, поэтому метаданные не лучше данных, но могут быть полезны тем кто интересуется этой темой.
2. Значительно обновился реестр, всего 168 типов данных и 43 дополнительных шаблона. У 55% есть ссылки на дополнительное описание, у 28% регулярное выражение, у 21% ссылки на свойства в Wikidata, у 32% примеры данного семантического типа.
3. Для того чтобы всё это вносить была создана схема для валидации YAML файлов шаблонов и добавлена команда validate к скрипту сборки реестра которая использует библиотеку Cerberus в Python для валидации. Всё это в репозитории metacrafter-registry [3]
4. В какой-то момент накопилась уже критическая масса в более чем 24 задачи [4] большая часть которых - это материалы для изучения по метаданным. Например, есть много идентификаторов в экосистеме GS1 [5], а персональные данные неплохо идентифицируются IBM Default Guardium Analyzer [6] и ещё многие другие. Это ещё раз подталкивает меня к мысли о том что почему-то никто не занимался этой темой серьёзно, в основном очень точечные решения. Даже исследований крайне мало.
5. Главная проблема с семантическими типами в том что при автоматическом распознавании очень много ошибочных срабатываний. Слишком многие справочные значения укладываются в 2-х или 3-х буквенные или численные коды которые пересекаются. Коды валют и коды стран, численные коды стран и численные коды единиц измерения и так далее. Поэтому реестр типов составить куда проще чем реализовать алгоритм понимающий контекст и выбирающий правильный семантический тип в этом контексте.
Ссылки:
[1] https://medium.com/@ibegtin/semantic-data-types-systematic-approach-and-types-registry-a2c2a60a467b
[2] https://github.com/apicrafter/metacrafter-datacatalogs-raw
[3] https://github.com/apicrafter/metacrafter-registry
[4] https://github.com/apicrafter/metacrafter-registry/issues
[5] https://www.gs1.org/standards/barcodes/application-identifiers
[6] https://www.ibm.com/docs/en/sga?topic=sources-default-guardium-analyzer-patterns
#opendata #datatools #metadata
Medium
Semantic data types. Systematic approach and types registry
What is semantic data types?
Тем временем в Китае армия роботов без участия человека построит дамбу [1], 180 метровая дамба будет построена с помощью экскаваторов, бульдозеров и другой строительной техники управляемой ИИ. Работа которая пока ещё остаётся людям - это добыча камня для строительства, эта работа пока ещё слишком сложна для автоматической работы.
Ссылки:
[1] https://www.asiaone.com/digital/army-robots-and-zero-human-workers-will-build-dam-china
#ai #construction #china
Ссылки:
[1] https://www.asiaone.com/digital/army-robots-and-zero-human-workers-will-build-dam-china
#ai #construction #china
AsiaOne
'An army of robots' and zero human workers will build a dam in China
AsiaOne - China is using artificial intelligence (AI) to effectively turn a dam project on the Tibetan Plateau into the world's largest 3D printer, according to scientists involved in the project.The 180 metre (590 feet) high Yangqu hydropower plant will....…
В каждой профессии есть большие вызовы, иногда кажущиеся смешными, иногда невозможными. Например, в генетике восстановление вымерших видов может показаться невозможным или чертовски сложным, но, тем не менее учёные всё ближе к этому подступают. В статье Why ‘De-Extinction’ Is Impossible (But Could Work Anyway) [1] о том почему "воскрешение" уже несуществующих видов возможно если доступен генетический материал, а иногда и другими способами.
Очень скоро спасение вымирающих животных может заключаться в в ускоренном создании банков генетических данных чтобы будущие поколения могли бы восстановить их популяции в будущем.
Ссылки:
[1] https://www.quantamagazine.org/why-de-extinction-is-impossible-but-could-work-anyway-20220509/
#data #genetics
Очень скоро спасение вымирающих животных может заключаться в в ускоренном создании банков генетических данных чтобы будущие поколения могли бы восстановить их популяции в будущем.
Ссылки:
[1] https://www.quantamagazine.org/why-de-extinction-is-impossible-but-could-work-anyway-20220509/
#data #genetics
Quanta Magazine
Why ‘De-Extinction’ Is Impossible (But Could Work Anyway)
Several projects are aiming to bring back mammoths and other species that have vanished from the planet. Whether that’s technically possible is beside the point.
Для тех кто любит сжатие данных также как это люблю я, подборка полезных ссылок:
- про сжатие CSV файла в 22 ГБ в 1.5 ГБ файла Parquet [1] включает преобразование структур данных, сжатие zstd внутри файла parquet и тд. Для сравнения оригинальный сжатый файл был около 12GB. Для работы на ноутбуках и десктопах может быть значимо.
- Bzip3 [2] автор позиционирует как замену Bzip2. Сжимает существенно лучше чем Bzip2, немного лучше чем Xz и 7Zip (LZMA2), при этом не существенно теряет в скорости. В общем надо измерять.
- PLZip [3] и LZTurbo [4] два особо быстрых декомпрессора для lzip и lz77 соответственно, важно когда скорость сжатия некритична, а скорость распаковки важна
Ссылки:
[1] https://medium.com/@deephavendatalabs/the-r-place-dataset-bf4b0d70ce72
[2] https://github.com/kspalaiologos/bzip3
[3] https://www.nongnu.org/lzip/plzip.html
[4] https://sites.google.com/site/powturbo/home
#compression #tools #opensource
- про сжатие CSV файла в 22 ГБ в 1.5 ГБ файла Parquet [1] включает преобразование структур данных, сжатие zstd внутри файла parquet и тд. Для сравнения оригинальный сжатый файл был около 12GB. Для работы на ноутбуках и десктопах может быть значимо.
- Bzip3 [2] автор позиционирует как замену Bzip2. Сжимает существенно лучше чем Bzip2, немного лучше чем Xz и 7Zip (LZMA2), при этом не существенно теряет в скорости. В общем надо измерять.
- PLZip [3] и LZTurbo [4] два особо быстрых декомпрессора для lzip и lz77 соответственно, важно когда скорость сжатия некритична, а скорость распаковки важна
Ссылки:
[1] https://medium.com/@deephavendatalabs/the-r-place-dataset-bf4b0d70ce72
[2] https://github.com/kspalaiologos/bzip3
[3] https://www.nongnu.org/lzip/plzip.html
[4] https://sites.google.com/site/powturbo/home
#compression #tools #opensource
Medium
The r/place dataset
22GB CSV -> 1.5GB Parquet
Проекты по открытости в России стали редкостью, честно говоря и наша команда довольно давно не запускала новых, но всегда есть возможность рассказать о таких проектах в мире.
ParlTrack [1] европейский проект мониторинга избранных представителей (депутатов) Европарламента - это база из 4166 депутатов (705 действующих), 20,3 тысяч рассмотрений, 33,7 тысяч фактов голосования, и более 958+ тысяч поправок.
Все данные доступны как открытые данные под лицензией ODbL [2], весь исходный код доступен на github [3].
Проект не развивается активно уже примерно два года, но концептуально он таков каким должны быть все подобные проекты:
- интерфейс для пользователя
- открытые данные
- открытый код
- свободные лицензии
А наиболее интересный и живой сейчас проект мониторинга парламентов - это OpenParliament.tv [4] с аннотированными видео выступлений депутатов Бундестага.
В России последний раз попытки создать подобные проекты были с 2009 по 2013 годы.
Ссылки:
[1] https://parltrack.org/
[2] https://parltrack.org/dumps
[3] https://github.com/parltrack/parltrack/
[4] https://de.openparliament.tv/
#opendata
ParlTrack [1] европейский проект мониторинга избранных представителей (депутатов) Европарламента - это база из 4166 депутатов (705 действующих), 20,3 тысяч рассмотрений, 33,7 тысяч фактов голосования, и более 958+ тысяч поправок.
Все данные доступны как открытые данные под лицензией ODbL [2], весь исходный код доступен на github [3].
Проект не развивается активно уже примерно два года, но концептуально он таков каким должны быть все подобные проекты:
- интерфейс для пользователя
- открытые данные
- открытый код
- свободные лицензии
А наиболее интересный и живой сейчас проект мониторинга парламентов - это OpenParliament.tv [4] с аннотированными видео выступлений депутатов Бундестага.
В России последний раз попытки создать подобные проекты были с 2009 по 2013 годы.
Ссылки:
[1] https://parltrack.org/
[2] https://parltrack.org/dumps
[3] https://github.com/parltrack/parltrack/
[4] https://de.openparliament.tv/
#opendata
GitHub
GitHub - parltrack/parltrack: Parliamentary Tracker Application
Parliamentary Tracker Application. Contribute to parltrack/parltrack development by creating an account on GitHub.
Forwarded from Национальный цифровой архив
📌 Хакатон Роскомсвободы Demhack 4
Роскомсвобода и Privacy Accelerator приглашают к участию в хакатоне DemHack 4.
Хакатон пройдет 21- 22 мая 2022 года в формате онлайн и объединит русскоязычных специалистов из России и любой другой точки планеты для решения задач в сфере приватности и доступа к информации.
Уже третий год команды на хакатоне находят технические решения, которые помогают гражданам защитить цифровые права и расширить цифровые возможности.
На хакатоне DemHack 4 будет представлено несколько треков задач. Участники можете выбрать для реализации одну из сформированных задач или предложить свой проект, релевантный теме трека: приватность, доступ к информации, доступ россиян к технологиям и др.
🔗Подробности и прием заявок на хакатон открыты до 16 мая включительно: https://demhack.ru.
Роскомсвобода и Privacy Accelerator приглашают к участию в хакатоне DemHack 4.
Хакатон пройдет 21- 22 мая 2022 года в формате онлайн и объединит русскоязычных специалистов из России и любой другой точки планеты для решения задач в сфере приватности и доступа к информации.
Уже третий год команды на хакатоне находят технические решения, которые помогают гражданам защитить цифровые права и расширить цифровые возможности.
На хакатоне DemHack 4 будет представлено несколько треков задач. Участники можете выбрать для реализации одну из сформированных задач или предложить свой проект, релевантный теме трека: приватность, доступ к информации, доступ россиян к технологиям и др.
🔗Подробности и прием заявок на хакатон открыты до 16 мая включительно: https://demhack.ru.
9.demhack.org
Demhack 9
Онлайн-хакатон
В качестве небольшого преданонса, я доделываю анализ организаций входящих в реестр аккредитованных ИТ компаний, это займёт ещё какое-то время, может быть пару дней, может быть неделю, но много чего интересного там находится уже сейчас.
Думаю насколько публичными делать эти "находки" - максимально подробно и передать журналистам или только самое "странное". Для этого сейчас размещу опрос и попрошу в нём проголосовать.
Проголосовать вот тут 👉 https://t.iss.one/begtin/3845
#thoughts
Думаю насколько публичными делать эти "находки" - максимально подробно и передать журналистам или только самое "странное". Для этого сейчас размещу опрос и попрошу в нём проголосовать.
Проголосовать вот тут 👉 https://t.iss.one/begtin/3845
#thoughts
Telegram
Ivan Begtin
В качестве небольшого преданонса, я доделываю анализ организаций входящих в реестр аккредитованных ИТ компаний, это займёт ещё какое-то время, может быть пару дней, может быть неделю, но много чего интересного там находится уже сейчас.
Думаю насколько публичными…
Думаю насколько публичными…
Как лучше публиковать данные, находки и результаты анализа реестра аккредитованных ИТ компаний?
Anonymous Poll
54%
Максимально подробно, с данными, аналитикой и выявленными странностями
6%
Опубликовать аналитику, отправить находки в Минцифру
4%
Опубликовать только данные, пусть журналисты сами анализируют и визуализируют
8%
Передать эксклюзивом одному из ещё живых СМИ
7%
Лучше подольше поработать и сделать большой публичный проект по прозрачности ИТ отрасли в РФ
4%
Не публиковать ничего, как бы хуже всей ИТ отрасли не было
17%
Мнения не имею, хочу посмотреть ответы
Forwarded from Ах, этот Минфин (Olya Parkhimovich)
Уже сегодня в 17 ч. будут объявлены и опубликованы результаты первого Global Data Barometer, в рамках которого проводилась оценка наличия и доступности данных в разных странах мира.
Мне удалось уже второй раз выступить в роли Researcher for Russia (предыдущий опыт был в рамках последнего издания Open Data Barometer), а Иван Бегтин (@begtin) выступил в роли регионального координатора.
По моему мнению, Open Data Barometer, а затем и Global Data Barometer, - наиболее продуманный и аргументированный международный рейтинг открытости из всех существующих (хотя даже в его методике есть те моменты, над которыми можно было бы еще подумать). С нетерпением жду результатов.
Регистрация на онлайн-мероприятие доступна по ссылке: https://us02web.zoom.us/webinar/register/WN_ekQ916ehSE6eK2Bh5CuWuA?_x_zm_rtaid=2L-izqTjQo2KX-Fmfo6i3g.1652270487891.30704ad0b6fcc8ae84f621f2356db628&_x_zm_rhtaid=86
Мне удалось уже второй раз выступить в роли Researcher for Russia (предыдущий опыт был в рамках последнего издания Open Data Barometer), а Иван Бегтин (@begtin) выступил в роли регионального координатора.
По моему мнению, Open Data Barometer, а затем и Global Data Barometer, - наиболее продуманный и аргументированный международный рейтинг открытости из всех существующих (хотя даже в его методике есть те моменты, над которыми можно было бы еще подумать). С нетерпением жду результатов.
Регистрация на онлайн-мероприятие доступна по ссылке: https://us02web.zoom.us/webinar/register/WN_ekQ916ehSE6eK2Bh5CuWuA?_x_zm_rtaid=2L-izqTjQo2KX-Fmfo6i3g.1652270487891.30704ad0b6fcc8ae84f621f2356db628&_x_zm_rhtaid=86
Forwarded from Ах, этот Минфин (Olya Parkhimovich)
Результаты России в Global Data Barometer (https://globaldatabarometer.org/country/russian-federation/)
На сайте Минцифры России новость про создание госДатаХаба [1]. Пока кратко, я к этому проекту никакого отношения не имею, но подозреваю кто его делает и за него отвечает.
Пока лишь обращу внимание на фразу Государство будет мотивировать бизнес предоставлять обезличенные данные по отдельным направлениям, которые критически важны для системы госуправления.
Это именно то что делает этот проект плохим. Потому что вначале придумают позитивную мотивацию, потом окажется что она не работает, перейдут к негативной мотивации и заставят сдавать данные, а вместо открытия новых данных, начнут переводить имеющиеся в платный режим.
Чуть позже я напишу об этом подробнее.
Ссылки:
[1] https://digital.gov.ru/ru/events/41556/
#data #government
Пока лишь обращу внимание на фразу Государство будет мотивировать бизнес предоставлять обезличенные данные по отдельным направлениям, которые критически важны для системы госуправления.
Это именно то что делает этот проект плохим. Потому что вначале придумают позитивную мотивацию, потом окажется что она не работает, перейдут к негативной мотивации и заставят сдавать данные, а вместо открытия новых данных, начнут переводить имеющиеся в платный режим.
Чуть позже я напишу об этом подробнее.
Ссылки:
[1] https://digital.gov.ru/ru/events/41556/
#data #government
Министерство цифрового развития, связи и массовых коммуникаций Российской Федерации
В России приступили к реализации проекта по созданию национального озера данных
Если у Вас есть что рассказать про цифровую архивацию, пишите нам - есть слоты для докладов! Я бы лично хотел послушать доклады про архивации данных, а не только про них говорить самому. Найдутся желающие?
Forwarded from Национальный цифровой архив
Серия докладов в программу конференции по цифровым архивам: принимаем заявки
Продолжается прием заявок на участие в секции коротких докладов по теме цифровой архивации. Это могут быть презентации:
— кейсов веб-архивирования и сохранения какого-либо ресурса;
— о разработанных инструментах с открытым исходным кодом по сохранению веб-контента;
— технических обзоров и гайдов по работе с какими-либо инструментами веб-архивирования.
Не обязательно на момент выступления иметь готовый и успешно завершенный проект — не менее интересны живые проекты, находящиеся в разработке, для реализации которых вы сможете запросить помощи у сообщества.
Формат участия: очно или онлайн.
Если вы хотите принять участие в секции, напишите нам подробнее о вашем докладе на эл. почту [email protected].
Подробнее о конференции и регистрация: https://conference.ruarxive.org.
Продолжается прием заявок на участие в секции коротких докладов по теме цифровой архивации. Это могут быть презентации:
— кейсов веб-архивирования и сохранения какого-либо ресурса;
— о разработанных инструментах с открытым исходным кодом по сохранению веб-контента;
— технических обзоров и гайдов по работе с какими-либо инструментами веб-архивирования.
Не обязательно на момент выступления иметь готовый и успешно завершенный проект — не менее интересны живые проекты, находящиеся в разработке, для реализации которых вы сможете запросить помощи у сообщества.
Формат участия: очно или онлайн.
Если вы хотите принять участие в секции, напишите нам подробнее о вашем докладе на эл. почту [email protected].
Подробнее о конференции и регистрация: https://conference.ruarxive.org.
По результатам голосования https://t.iss.one/begtin/3846 с отрывом лидирует сделать результаты анализа реестра аккредитованных ИТ компаний общедоступными с данными, аналитикой (и лунным модулем).
А пока, чтобы поддержать интригу, предлагаю назвать единственные два органа власти органа власти в России зарегистрированные как аккредитованные ИТ компании (сотрудники тоже хотят льготную ипотеку, отнесемся с пониманием).
Ваши варианты в комментариях, подсказка, это не Минцифра РФ.
#it #questions
А пока, чтобы поддержать интригу, предлагаю назвать единственные два органа власти органа власти в России зарегистрированные как аккредитованные ИТ компании (сотрудники тоже хотят льготную ипотеку, отнесемся с пониманием).
Ваши варианты в комментариях, подсказка, это не Минцифра РФ.
#it #questions
Telegram
Ivan Begtin
Как лучше публиковать данные, находки и результаты анализа реестра аккредитованных ИТ компаний?
Максимально подробно, с данными, аналитикой и выявленными странностями / Опубликовать аналитику, отправить находки в Минцифру / Опубликовать только данные, пусть…
Максимально подробно, с данными, аналитикой и выявленными странностями / Опубликовать аналитику, отправить находки в Минцифру / Опубликовать только данные, пусть…
Какие два органа власти зарегистированы как аккредитованные ИТ компании? (надо выбрать два ответа)
Anonymous Poll
21%
ФНС России
7%
Минобороны России
61%
ДИТ Москвы
35%
Минцифры Республики Татарстан
14%
Минцифры Оренбургской области
2%
Минприроды РФ
8%
Счетная палата РФ
16%
ФСТЭК России
26%
Роскомнадзор
9%
Управление делами Президента РФ