Инфокультура – Telegram

Инфокультура

898 subscribers

249 photos

4 videos

4 files

814 links

Новости Информационной культуры. https://infoculture.ru

Download Telegram

About

Blog

Apps

Platform

Инфокультура

898 subscribers

Инфокультура

Forwarded from Ivan Begtin (Ivan Begtin)

Для тех кто интересуется данными не только с точки зрения Data Science, но и в более прикладных задачах работы с данными относящимися к дата инженерии.

Несколько полезных ресурсов:
- Data Engineering Cookbook [1] - поваренная книга по инженерии данных, много о том как системы работы с данными разворачиваются и используются
- Awesome Data Engineering - неплохой список ссылок на проекты по инженерии данных на Github
- Data Engineering How-to [3] - подборка ссылок на курсы и иные ресурсы по инжинерии данных
- What is Data Engineer [4] - ответ на вопрос кто такой инженер данных (для тех кто ещё об этом не знает)
- Who Is a Data Engineer & How to Become a Data Engineer? - подробно о том кто такие инженеры данных

В России вот уже много лет ажиотажный спрос на data science, но подготовка дата инженеров ушла на 2-й и 3-й план и это особенно чувствуется когда вопросы о том где взять данные и как настроить инфраструктуру звучат всё чаще.

То чем занимаюсь я лично - это чистая дата инженерия, с очень и очень небольшой долей науки о данных. Найти данные, создать инфраструктуру их обработки и очистки - всё это должен уметь дата инженер. Если Вы знаете хорошие курсы по этой теме на русском языке, поделитесь ими, например в чате.

Ссылки:
[1] https://github.com/andkret/Cookbook
[2] https://github.com/igorbarinov/awesome-data-engineering
[3] https://github.com/adilkhash/Data-Engineering-HowTo
[4] https://towardsdatascience.com/who-is-a-data-engineer-how-to-become-a-data-engineer-1167ddc12811

#data #opendata #dataengineering #dataengineer

GitHub - andkret/Cookbook: The Data Engineering Cookbook

The Data Engineering Cookbook. Contribute to andkret/Cookbook development by creating an account on GitHub.

7 viewsKsenija V. Orlova, 14:04

Инфокультура

Forwarded from Ivan Begtin (Ivan Begtin)

В РБК вышла статья про правительственный законопроект по запрету перепродажи данных Росреестра [1] и отрицательной реакции бизнеса на него. В статье есть выдержки из письма и нашей Ассоциации участников рынка данных (АУРД) и моя позиция и всех кто хоть как-то работает с данными Росреестра на коммерческой основе, в том что положения в законе приведут лишь к ухудшению сервисов для граждан, а Росреестр и Правительство вместо того чтобы запрещать работу с данными, вполне могли бы выступить с инициативой "оцивилизовывания" рынка данных. Но вот это вот дихотомичное воспрятие мира: либо всем пофиг, либо всё запретить, уж очень часто всплывает в новых регуляторных инициативах.

Ссылки:
[1] https://www.rbc.ru/economics/04/09/2020/5f4fb1259a794707a992ca09

#data #aurd

Бизнес выступил против запрета на перепродажу данных из Росреестра

Бизнес раскритиковал инициативу правительства о запрете перепродавать сведения из госреестра недвижимости — это уничтожит целый сегмент услуг и нанесет ущерб потребителям. Росреестр считает такие

165 views06:54

Инфокультура

Forwarded from Ivan Begtin (Ivan Begtin)

В Коммерсанте вышла статья [1] "Фабрика-цифра"
Там есть и мой краткий комментарий, но на самом деле он был не краткий и я написал много тезисов, но журналисты сократили их и значительно.

Вот что я думаю про это:
1. На многие данные и механизмы взаимодействия с гражданами у государства есть безусловная монополия. Например, это данные о юридических лиц, или данные цифрового профиля гражданина или данные о платежах граждан в бюджет (ГИС ГМП) и ещё много другого. Бизнес ищет возможности как доступа к данным, так и возможности интеграции с сервисами государства для расширения возможностей их продуктов. Например, банки хотят оказывать госуслуги, а многие хотят пользоваться авторизацией в ЕСИА (Госуслуги) и так далее

2. Проблем довольно много и не последняя из них в отсутствии чётко сформулированной, последовательной и подкрепленной реальными полномочиями и инструментами их применения государственной политики в области данных. Единственная более-менее крупная инициатива в этой области о которой можно упомянуть - это НСУД (Национальная система управления данными) которая из большой регуляторной инициативы выродилась в модель для точечного применения корпоративных принципов управления данных к ограниченному число систем, относительно контролируемых правительством. При этом в остальном в России остаётся ситуация которую в западной прессе называют digital mandarins (цифровые "мандарины"), а в русской традиции правильнее называть "цифровыми царьками". Большинство органов власти существуют в своих полу-замкнутых отраслевых колодцев, а Минцифры было и остаётся лишь одним из органов власти с весьма куцыми полномочиями. В итоге в регуляторике очень много ограничений, у нас реально десятки "тайн" такие как: гостайна, служебная тайна, тайна следствия, адвокатская тайна, врачебная тайна, налоговая тайна, персональные данные и ещё много всего что ограничивает раскрытие и/или передачу данных из ГИС третьим лицам.

3. Я бы сказал что очень многое зависит от этих возможностей и проработанности предложений Ассоциации больших данных. Не видя их текста трудно сейчас сказать насколько они проходимы, но я как руководитель другой ассоциации АУРД, состоящей из игроков среднего и малого бизнеса считаю что здесь важно чтобы реакция государства учитывала что в стране существуют не только ~~монополисты~~ крупный цифровой бизнес, но и развитый средний и малый бизнес также желающий работать с ГИС и с данными государства.

И, конечно, больше открытых данных нужно всем.

Ссылки:
[1] https://www.kommersant.ru/doc/4539873

#data #opendata

186 views06:34

Инфокультура

Forwarded from Ivan Begtin (Ivan Begtin)

Сегодня в 17:00 будут дата-дебаты на форуме "Сильные идеи нового времени" [1] и я там буду и приму участие.

Заявляли туда ещё Максута Шадаева, нынешнего главы Минцифры, но у Максута сегодня день рождения, так что ожидаемо что он сегодня там быть не сможе.

Поэтому Максута поздравляю с днем рождения, искренне желаю больше хорошего регулирования про данные и меньше плохого.

А всех приглашаю смотреть дата-дебаты сегодня на сайте форума.

Ссылки:
[1] https://ideas-forum.ru/

#data`

162 views12:21

Инфокультура

Forwarded from Ivan Begtin (Ivan Begtin)

28 мая в 19:00 пройдут публичные дебаты "Тотальные данные: контроль или удобство" организованные Политехом [1]. Дебатировать буду я и исполнительный директор по исследованию данных Sber AI Михаил Степнов.

Мою позицию про приватность большинство давно знают, я её в каком-то более концентрированном виде подготовлю к дебатам.
Дебаты будут, также, транслировать на канале Политеха [2]. Не проходите мимо, приходите и смотрите.

Ссылки:
[1] https://polymus.ru/ru/museum/news/total-data/
[2] https://www.youtube.com/user/polytechnicum

#data #privacy #debates

199 views18:42

Инфокультура

Forwarded from Ivan Begtin (Ivan Begtin)

В последнее время реже пишу в канал поскольку был занят к подготовкой к нескольким мероприятиям.

Сегодня в 10 утра доклад на экспертной площадке "Государство как платформа", всё онлайн (происходит в Москве).

А далее с 13 часов по московскому времени (15 по местному) в течение 4 часов в Ханты-Мансийске на ИТ форуме Югра на Форсайт-сессии "Сохранение документально-исторического наследия в эпоху цифровой трансформации" где буду рассказывать про проекты в рамках Национального цифрового архива [1].

Трансляция должна быть на сайте форума [2].

Презентацию я обязательно опубликую онлайн чуть позже пока же скажу что веб-архивация в частности и цифровая архивация - это моё давнее хобби которое стало частью работы в @infoculture. У неё есть историко-культурное применение, но есть и практическое, когда вопрос стоит об архивации, например, порталов открытых данных и иных баз данных.

Ссылки:
[1] https://ruarxive.org
[2] https://itforum.admhmao.ru/2021/

#events #data #government #archives #webarchives

Russian national digital archive (ruarxive.org) | Russian national digital archive (ruarxive.org)

Archive of digital-born websites, data, images, video and other objects

137 views06:56

Инфокультура

Forwarded from Ivan Begtin (Ivan Begtin)

На следующей и через неделю мы от Ассоциации участников рынка данных и Инфокультуры проводим две экспертные сессии о том как бизнес предоставляет данные НКО, исследователям и госорганам для решения социальных проблем (пандемии, катастрофы, преступность, экология, длительность жизни, бедность) и так далее. И как исследователи, НКО, государственные органы используют эти данные или могли бы использовать.

Состав уже довольно представительный и содержательный, будет речь о том как это происходит в мире, какую пользу приносит и какова мотивация всех участнков.

Ещё есть время в программе, поэтому если есть те готовы не просто послушать, а ещё и рассказать о своём опыте с любой из этих сторон, пишите мне на [email protected] или в телеграм @ibegtin. Нужны подробности: какую организацию представляете, ФИО и краткие тезисы на 10-15 минут.

Мероприятия пройдут 25-го и 29-го июня. Их результаты пойдут в разработку модели коммуникации бизнеса и исследователей, НКО и государства.

В течение года мы ещё вернёмся к этой теме на более широко, открыто, с большими панелями на больших конференциях, а сейчас это именно экспертные встречи на 2-3 часа.

Также предварительный анонс - от АУРД мы будем проводить серию мероприятий до конца года. По тематикам: - государственные данные в региональном/муниципальном разрезе
- персональные данные и рынок обмена
- открытые данные по отраслям/территориям
- доступ к государственным информационным системам

и ещё по ряду направлений.

Что-то будет только онлайн, что-то в гибридном формате.

Если у Вас есть предложения по мероприятиям, готовность выступить с интересной историей и тд. пишите мне также на [email protected]

И напоминаю что АУРД - это ассоциация участников рынка данных, в ассоциацию входят представители бизнеса, НКО и университетов. Для некоммерческих организаций и университетов/образовательных организаций членство в ассоциации бесплатно, для бизнеса оно настолько велико что можно вступать без зазрения совести.

#data #opendata #events

185 views11:36

Инфокультура

Forwarded from Ivan Begtin (Ivan Begtin)

Статистика по заболеваемости COVID-19 — одна из самых злободневных тем в России. Граждане не доверяют государственным органам, активисты и СМИ проводят расследования, где утверждается, что число переболевших уже перевалило за 29 миллионов. Не буду сейчас утверждать, правдивы ли официальные данные или надо верить альтернативным оценкам. Однако факт в том, что за последние десятилетия наше государство, в особенности социальный блок правительства, не сделало ничего, чтобы этого доверия стало больше. Данные о качестве жизни скрываются столь же тщательно, как, например, статистика преступлений...

В Forbes вышла моя колонка " Нездоровая закрытость: почему государство не спешит делиться данными с гражданами" [1]

Ссылки:
[1] https://www.forbes.ru/obshchestvo/435565-nezdorovaya-zakrytost-pochemu-gosudarstvo-ne-speshit-delitsya-dannymi-s

#opendata #covid19 #data

Нездоровая закрытость: почему государство не спешит делиться данными с гражданами

Недоверие к официальной статистике заболевших COVID-19 можно понять, считает директор АНО «Информационная культура» Иван Бегтин. По разным причинам — от нежелания сеять панику до боязни раскрыть собственную неэффективность — российские чиновники препятствуют…

214 views13:09

Инфокультура

В каталог каталогов открытых данных DataCatalogs.ru добавлены новые источники данных:
- Базы данных компании LabelMe 17 наборов данных для исследователей машинного обучения и data science. Ссылка https://labelme.ru/datasets-catalog
- Телеграм канал RU Dataset телеграм канал с большим числом ссылок на открытые и иные общедоступные данные Ссылка https://t.iss.one/dataset_ru
- Портал данных о вечной мерзлоте и климате (permafrost.su) Ссылка https://permafrost.su

Вы можете предложить новый источник данных в каталог направив его через форму. Важно что в каталог каталогов принимаются ссылки не на отдельные наборы данных, а на источники в виде каталогов/репозиториев данных.

#opendata #datacatalogs #datasets #data

👍1

1.74K views08:59

Инфокультура

Forwarded from Ivan Begtin (Ivan Begtin)

Я каждый год подсчитываю и обновляю полуавтоматически цифры по числу постановлений и распоряжений Правительства РФ, они измеряют legislative burden, нормативную нагрузку. Неприятный факт - она растёт и усложняется. Каждый год приходится читать всё больше, старое не отменяется, нового всё больше. Поскольку читаю законов и других НПА я много, объективно с каждым годом делать это всё тяжелее. Заметно тяжелее. Вот некоторые цифры и выводы

В 2014 году было принято 1610 Постановлений Правительства РФ из которых 1498 были несекретными, около 93% всех постановлений. Общий объём принятых постановлений составил 18503 страницы.
В 2021 году было принято 2610 Постановлений Правительства РФ из которых 2397 были несекретными, около 91,8% всех постановлений. Общий объем принятых постановлений составил 34440 страниц.
Резкий рост начался ещё при Правительстве Медведева в 2019 году когда число Постановлений Правительства РФ достигло 1960 и их объём достиг 24844 страниц, далее в 2020 году 2469 постановления и 27430 страниц и за 2021 год я уже приводил.

В виде таблицы по Постановлениям Правительства РФ:

год число стр. макс н. доля несекретных
——- —— ——-- —— ————
2014 1498 18503 1610 93.0435
2015 1398 13351 1538 90.8973
2016 1450 12660 1593 91.0232
2017 1570 20011 1729 90.8039
2018 1601 17165 1788 89.5414
2019 1807 24844 1960 92.1939
2020 2284 27430 2469 92.5071
2021 2397 34440 2610 91.8391

В случае распоряжений Правительства РФ, их число снижалось с 2015 по 2018 годы и выросло с 2019 по 2021 год. Распоряжения редко содержат много текста, чаще это 1-2 страницы, хотя есть и распоряжение на 522 страницы: Распоряжение Правительства Российской Федерации от 28.11.2020 № 3143-р в виде перечня современных технологий для специальных инвестиционных контрактов. А также, что характерно, в 2021 году рекорд по доле секретных распоряжение Пр-ва, их доля достигла 24.5% то есть почти каждое 4-е распоряжение Пр-ва РФ было засекречено, всего 981 распоряжение, против 683 в прошлом году.

Аналогичная таблица для Распоряжений Правительства РФ
год число стр. макс н. доля несекретных
——- —— ——-- —— ————
2014 2235 10900 2796 79.9356
2015 2223 9819 2794 79.5634
2016 2240 8291 2935 76.3203
2017 2293 8754 3009 76.2047
2018 2402 8534 3053 78.6767
2019 2535 9424 3273 77.4519
2020 3039 10916 3722 81.6497
2021 3027 12034 4008 75.524

Все эти подсчеты на данных собранных с портала официального опубликования Pravo.gov.ru [1] за период 2013-2022 годы и загружаемых в проект DataCrafter [2] и подготавливаемых к архивации в рамках Национального цифрового архива.

Нормативная аналитика - это интересная задача и для этого мы накапливает наборы данных и практики их анализа.
Напишите если Вы хотите работать с этими данными уже прямо сейчас, датасеты из метаданных и документов будут общедоступны.

Ссылки:
[1] https://pravo.gov.ru
[2] https://data.apicrafter.ru

#opendata #data #statistics #legislation #legistationburden

👍2

427 views17:23

Инфокультура

Forwarded from Ivan Begtin (Ivan Begtin)

Мы, Инфокультура, запускаем кампанию по архивации сайтов порталов открытых данных, разделов с открытыми данными и иных источников официальных государственных открытых данных в России. Поскольку есть реальные риски снижения открытости гос-ва, уже происходящее исчезновение ряда информационных ресурсов и порталов открытых данных, например, в прошлом году был закрыт портал открытых данных Московской области, была попытка отказаться от портала открытых данных властями Санкт-Петербурга, а также исчезновение ряда значимых банков данных таких как реестр субсидий и многое другое.

Для архивации составлен список порталов открытых данных на основе каталога Datacatalogs.ru - https://airtable.com/shr1rzsajTM5SSyoI

А также репозиторий в Github https://github.com/ruarxive/rudatarchive

Слепки некоторых порталов были ранее сделаны:
- портал открытых данных data.gov.ru в феврале 2022 г. - https://cdn.ruarxive.org/public/dataportals/data.gov.ru/2022-02-02/datagovru_20220202.zip
- региональные порталы открытых данных 2017 года https://cdn.ruarxive.org/public/webcollect/opengov2017/

Архивация порталов открытых данных может быть сделана в виде сохранения WARC файлов, через выгрузку метаданных и данных в виде файлов, через выкачку API. Можно делать любым способом, главное обеспечить полное сохранение.

Код выгрузки из порталов data.gov.ru и data.mos.ru есть у нас в проекте DataCrafter, его и слепки, я опубликую для этой архивационной кампании. А вот для остальных порталов нужна помощь волонтеров. Поэтому если у Вас есть свободное время, берите на себя отдельные сайты, напишите скрипт/код под отдельные порталы, выкачивайте их и выкладывайте в какой-либо доступный источник, например, в Github или файловое хранилище. Мы перенесем архив в центральное хранилище на нашем сервере и в Интернет-архив.

Код можно опубликовать у себя в репозитории или сразу в https://github.com/ruarxive/rudatarchive/code в папку конкретного портала.

#opendata #data #archives #digitalpreservation

Инфокультура

Новости Информационной культуры. https://infoculture.ru

482 views06:25

Инфокультура

Forwarded from Ivan Begtin (Ivan Begtin)

Для тех кто интересуется, напомню что много лет Инфокультура поддерживает проект Открытые НКО [1] с базой и открытыми данными по всем некоммерческим организациям в России. В общей сложности. В какой-то момент нам пришлось переносить их с одного хостинга на другой и миграция затянулась и оказалось сложной, но сейчас сайт снова доступен.

Проект, к сожалению, вот уже много лет почти не развивается. Его финансирование закончено, мы поддерживаем его за счёт собственных ресурсов, но закрывать не планируем.

Ссылки:
[1] https://openngo.ru

#openngo #opendata #data #ngo #infoculture

Инфокультура

Новости Информационной культуры. https://infoculture.ru

359 views09:05

Инфокультура

Forwarded from Ivan Begtin (Ivan Begtin)

В рубрике интересных инструментов с открытым кодом для работы с данными:
- sowego [1] утилита и библиотека для Python по линковке больших каталогов данных с Wikidata
- vector [2] ETL от Datadog по созданию труб данных для работы с логами и метриками.
- RecordLinkage [3] библиотека для Python по связыванию похожих структур
- Inception [4] инструмент/платформа для семантического аннотирования текстов
- Dedupe [5] ещё один инструмент для избавления дубликатов в Python
- Streamlit [6] платформа по быстрому развертыванию дата приложений на Python.
- Bdbag [7] инструмент работы со стандартом научных данных BagIT и большими данными
- schema.data.gouv.fr [8] исходный код французского правительственного репозитория схем [9]․ Все схемы в JSON, с документацией, отслеживанием изменений и тд. Очень редкий для гос-ва системный подход
- NoProto [10] ещё один стандарт сериализации данных, с поддержкой схем, сортировкой и другими фичами. К нему же референсные реализации на JS и Rust
- Confluent Schema Registry [11] реестр схем данных для Kafka, на базе JSON Schema
- Records [12] библиотека для Python для удобной работы с SQL, поддерживает только SQL СУБД.
- Miraql [13] удобный визуализатор API и схем Graphql

Ссылки:
[1] https://github.com/Wikidata/soweego
[2] https://github.com/vectordotdev/vector
[3] https://github.com/J535D165/recordlinkage
[4] https://github.com/inception-project/inception
[5] https://github.com/dedupeio/dedupe
[6] https://github.com/streamlit/streamlit
[7] https://github.com/fair-research/bdbag
[8] https://github.com/etalab/schema.data.gouv.fr
[9] https://schema.data.gouv.fr
[10] https://github.com/only-cliches/NoProto
[11] https://github.com/confluentinc/schema-registry
[12] https://github.com/kennethreitz/records
[13] https://github.com/oslabs-beta/miraql

#datatools #data #opensource

GitHub - Wikidata/soweego: Link Wikidata items to large catalogs

Link Wikidata items to large catalogs. Contribute to Wikidata/soweego development by creating an account on GitHub.

👍1

347 views07:20

Инфокультура

Forwarded from Ivan Begtin (Ivan Begtin)

В качестве регулярных напоминаний, хотя и разработка кода не основное моё занятие, я довольно много публикую открытого кода, более всего для обработки данных. В первую очередь для поддержания собственных навыков в Python и для того чтобы были инструменты для того что сам же делаешь.

Работа с данными
- datacrafter - ETL движок для NoSQL данных с обработкой их с помощью конфигурационных файлов написанных на YAML. Заход на аналог Meltano или Dagster, но для NoSQL. Используется в datacrafter.ru
- apicrafter - автоматизированная оболочка для генерации REST API для доступа к данным в базах MongoDB. Используется в datacrafter.ru
- metacrafter - утилита по автоматической идентификации семантических типов данных. Используется для идентификации персональных данных в наборах данных. Поддерживает базы данных с SQL, файлы JSON, CSV, JSON lines, BSON и MongoDB
- undatum - утилита для командной строки для обработки иерархических данных в JSON lines и BSON. Поддерживает также CSV, но это не основная возможность. Позволяет считать статистику, извлекать частоты значений, уникальные значения, преобразовывать данные
- mongorefine - экспериментальная библиотека для Python по обработке данных в MongoDB как если бы MongoDB была бы колоночной, а не документальной базой. Позволяет проводить операции над коллекциями данных на колоночном уровне: добавлять, удалять, преобразовывать. Функции похожи на функции OpenRefine, известного открытого инструмента для подготовки данных
- mongo2md - утилита и библиотека для Python по автоматическому документированию коллекций для MongoDB
- diffmongo - библиотека для Python по сравнению данных в коллекциях MongoDB

Парсинг и сбор данных
- newsworker - библиотека для Python по автоматическому извлечению текстов новостей из сайтов где нет RSS лент. Работает полностью автоматически, разбирает структуру страницы, идентифицирует картинки, даты, тексты и формирует новостную ленту. Использует библиотеку qddate
- qddate - библиотека для Python для автоматической идентификации дат в любом написании. Умеет распознавать более 300 форматов на многих языках. Используется во многих других репозиториях и проектах.
- russiannames - библиотека для Python по автоматическому парсингу имён на русском языке, идентификации гендера и немножко национальных признаков. Умеет идентифицировать ФИО в форматах "Иван Петров", "Сидоров Иван Петрович", "Иванов В.А.", "Иванова А." и тд. Включает большую базу фамилий, имен и отчеств.
- docx2csv - библиотека для Python и утилита извлечения таблиц из файлов docx. Очень удобна для генерации CSV файлов из разного рода корпоративных и госотчетов. Но только для docx
- lazyscraper - утилита командной строки по быстрому извлечению таблиц и иных данных из веб-страниц с минимальными усилиями кодирования. Фактически только через написание xpath запроса. Изначально хотелось сделать её ещё более умной, но и это оказалось полезным.

Работа с веб-архивами и цифровая архивация
- metawarc - утилита для автоматизации обработки WARC файлов. Изначально создавалась в целях расследований для автоматизации извлечения свойств файлов MS Office и PDF из веб-архивов. Когда ты вначале всё архивируешь, а потом уже из веб архива собираешь метаданные. Я с её помощью проводил исследования использования пиратского ПО в российских госорганах несколько лет назад.
- apibackuper - утилита по автоматизации выгрузки данных из общедоступных API. Используется в Национальном цифровом архиве и в datacrafter.ru для формирования наборов данных
- ydiskarc - утилита для архивации данных по публичным ссылкам на Яндекс диск. Используется в Национальном цифровом архиве для архивации папок с Яндекс Диска
- wparc - утилита по архивации контента сайтов на Wordpress и медиа файлов с этих сайтов посредством встроенного в Wordpress REST API. Используется в Национальном цифровом архиве
- spcrawler - утилита по выгрузке данных из сайтов на базе Sharepoint используя их общедоступное API. Не завершена, но в работе.

#opensource #datatools #data #commandline #python

👍4❤2

442 views06:59

Инфокультура

В каталог каталогов открытых данных Datacatalogs.ru добавлен BI портал Росстата https://bi.gks.ru где публикуются ряд показателей с возможностью их получения в машиночитаемом виде. А также планируется к удалению Витрина статистических данных (https://showdata.gks.ru), поскольку данный сайт более недоступен, при том что Росстат не уведомлял и предупреждал закрытии этой информационной системы.

В дальнейшем планируется добавить в каталог больше общедоступных BI систем органов власти в которых присутствует возможность получения данных в машиночитаемых форматах. Если Вы знаете такие порталы/сайты, пишите нам, мы их обязательно добавим в каталог․

#opendata #data #datacatalog #statistics

👍2

2.12K views14:57

Инфокультура

Глеб Свечников, фронтенд-разработчик Инфокультуры, поделился подробностями разработки новой версии проекта https://datacatalogs.ru.

Вот, что Глеб рассказывает об обновлении фронтенд-части:

«Предыдущая версия этого проекта была сделана Softr и Airtable, но нам стало нужно больше возможностей и кастомизации, которые Softr не мог предоставить. Поэтому я решил использовать 11ty для обновления.

Задачи — добавить фасетный поиск и улучшить SEO для этого проекта. Пакет Airtable npm работает с экосистемой 11ty, поэтому интеграция с текущим источником данных была очень простой.
Следующим шагом я разработал фасетный поиск на чистом javascript, чтобы пользователь мог фильтровать и искать по нашей коллекции ресурсов и делиться конкретными результатами поиска (каждый объект имеет уникальную ссылку с параметрами URL).

Следующим шагом было добавление отдельной страницы для каждого ресурса, это очень простая задача для 11ty, которая может быть выполнена с pagination и permalink в кратчайшие сроки. Первоначальная генерация 200+ страниц заняла около 14 секунд (на Macbook Air M1). С помощью eleventyComputed вся необходимая информация была представлена в мета-тегах для каждой страницы.

Меня попросили пойти немного дальше и создать OG изображения. С помощью @11ty/eleventy-img и text-to-svg-path это было сделано. Первоначальная идея была довольно проста:
- взять текст, преобразовать его в svg;
- объединить текст svg с логотипом и фоном;
- затем конвертировать svg в статичное изображение jpg.

Проблема возникла с длинными названиями ресурсов и именами владельцев. Поэтому я написал набор правил, которые разделяют такие длинные строки. Не очень масштабируемый, но быстрый и легко расширяемый. В итоге результат получился неплохим.

Должен отметить, что генерация изображений OG занимает некоторое время сборки и оперативную память. Пока я пишу этот пост, нам нужно сгенерировать более 300 страниц, и процесс сборки занимает около 37 секунд (около 100 мс для каждой страницы). Агент сборки занимает около 4 ГБ оперативной памяти».

Источник: https://lnkd.in/eTwqxXyt

#opendata #datacatalogs #data #frontend #airtable #11ty #seo

datacatalogs.ru/

Каталог каталогов открытых данных

Поиск и фильтрация каталогов открытых данных

❤3👍1

783 views07:26

Инфокультура

Forwarded from Ivan Begtin (Ivan Begtin)

Отличный открытый курс по анализу данных от Яндекса и Европейского университета в СПб Прикладной анализ данных в социальных науках на русском языке.
Для тех кто только начинает работать с данными или переключается в эту область из другой профессии, рекомендую. Особенно это полезно для тех кто работает с данными в академической среде.

У Яндекса, в принципе, хороший набор русскоязычных хэндбуков. Лично мне нехватает хэндбуков про данные, например, про data discovery. С другой стороны я подозреваю если подходить к делу серьёзно, то мне же самому такой хэндбук надо делать.

#education #studies #learning #dataanalysis #data

education.yandex.ru

Прикладной анализ данных в социальных науках — Хендбук от Яндекс Образования

Учебник составлен так, чтобы любой человек без навыков в области анализа данных или программирования, мог за короткий срок понять общую логику и техническую сторону процесса, провести самостоятельное исследование и научиться программировать на Python.

🔥7👍5❤2

874 views08:04

Инфокультура

Forwarded from Ivan Begtin (Ivan Begtin)

В качестве регулярных напоминаний, с 1 по 7 марта 2025 года по всему миру пройдут мероприятия Дней открытых данных (Open Data Days, ODD) [1]. Это множество выступлений, лекций, семинаров и встреч по всему миру. Кто то слушает выступления других, кто-то проводит самостоятельно.

Ежегодно в России в Москве его проводит Инфокультура (@infoculture), с 2020 года в дистанционном формате. О прошлом ODD можно узнать на его сайте [2]. В 2025 году он, также, будет проходить дистанционно. Традиционно ключевая тема ODD - это открытые данные, мы также делаем акцент на данных связанных с культурой и историческим наследием, а также данными используемыми в исследовательских целях. В этот мероприятие также планируем и если у Вас есть желание выступить, то можно заранее писать мне.

В Армении мы также проводим день открытых данных, но вживую, организуя его от Open Data Armenia (@opendataam) и акцент делаем не только культурном наследии, но и на журналистике и практическом применении данных. Можно посмотреть программу прошлого ODD [3]. Если Вы в Армении и у Вас есть интересный доклад про данные и открытые данные, тоже обязательно напишите.

И, конечно, напишите, если Вы готовы выступить спонсором или иначе поддержать эти мероприятия. Наших скромных ресурсов хватает чтобы их организовать, но никогда не хватает чтобы сделать это идеально 😉

И, наконец, Open Data Day - это не только большие мероприятия, это ещё и сотни небольших митапов по всему миру, хороший повод собраться и поговорить о важном. Можно не только смотреть и участвовать в наших мероприятиях, но и организовать своё, в своём городе, университете или по какой-то своей специальной теме. О таких мероприятиях мы обязательно пишем на наших ресурсах и помогаем привлечь к ним внимание.

Ссылки:
[1] https://opendataday.org
[2] https://opendataday.ru/msk
[3] https://odd.opendata.am

#opendata #opendataday #data #events

👍6🔥4

476 views11:46

Инфокультура

Forwarded from Ivan Begtin (Ivan Begtin)

Для тех кто любит работать с открытыми данными свежий хакатон Data -> Sense от СберИндекса где прам-парам-парам будут муниципальные данные которые команда СберИндекса обещает дать на хакатон, а в будущем, очень надеюсь и предоставить как открытые данные.

Но, конечно, одними данными Сбербанка здесь можно и нужно не ограничиваться и это самая что не на есть супер возможность потренировать навыки аналитики, визуализации и работа с региональной экономической статистикой.

В том числе попробовать сделать AI помощника экономгеографа по российским данным.

К задачам которые есть на сайте я бы дополнительно добавил что-то вроде создания аналога DataCommons.org или DataUSA.io по российским региональным и муниципальным данным. Это посложнее на хакатон, но сложная и интересная задача.

#opendata #contests #ai #hackathons #data #economics #russia

🔥8🎉4👍2

276 views10:00