Ivan Begtin
8.09K subscribers
2.03K photos
3 videos
102 files
4.76K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech
Download Telegram
CNews сегодня написали про сайт Роснано и исчезновение материалов с их сайта, они на меня ссылку не дают, так что я на них тоже ссылку не дам. Важнее то что им прокомментировали представители компании о том что плановая замена сайта Роснано была в августе-сентябре 2021 года и что "информация об активах «Роснано» присутствует непосредственно на сайтах портфельных компаний".

Я всё думаю как это прокомментировать, ну начну с того что перечень портфельных компаний Роснано тоже исчез с их сайта;) А то есть найти информацию об их активах стало ещё сложнее. Это, как бы раз.

С нового сайта Роснано начисто исчезли сведения об органах управления и управляющей компании ООО "УК Роснано", при том что эти сведения были ещё в июне на их предыдущем сайте [1], да и проекты ещё были доступны в июне [2]. А Это два.

Я всё это к тому что у Роснано всегда было достаточно ресурсов чтобы сохранить старый сайт под доменом типа old.rusnano.com, но вместо этого его просто снесли так что даже информации о руководстве нет. Странно что инвесторы на Мосбирже всполошились только вот-вот.

Ссылки:
[1] https://web.archive.org/web/20210613155819/https://www.rusnano.com/about/structure
[2] https://web.archive.org/web/20210506045809/https://www.rusnano.com/projects/portfolio

#webarchives #archives #digitalpreservation
November 22, 2021
В рубрике полезные инструменты для работы с данными:
- OpenRefine версии 3.5.0 вышел совсем недавно, один из лучших инструментов для data wrangling, точно лучший из бесплатных. Много разных улучшений, для поддержки Wikibase/Wikidata, для работы в UI и ещё многое другое.
- Autoscraper не совсем обычный инструмент автоматического скрейпинга данных на основе примеров. Вместо сложных конструкций по парсингу HTML скрейперу передаётся пример данных, а дальше он сам додумывается. Хорошая штука, я когда-то думал в этом же направлении, но шёл от понимания структуры данных, а тут от содержания.
- Developing AI-Based Solution for Web Scraping: Lessons Learned - полезная статья на ту же тему автоматизации скрейпинга данных. То что авторы используют термин AI - это, конечно, совсем неправда. Просто адаптивные алгоритмы, но и они это уже хороший прогресс.
- QuestDb - открытая СУБД с обещаниями очень хорошей скорости для хранения и обработки временных рядов. По их собственным бенчмаркам обгоняет ClickHouse
- NADA (National Data Archive) - проект Мирового Банка по публикации микроданных опросов, переписей и так далее. С открытым кодом и с поддержкой стандарта раскрытия данных DDI (Data Documentation Initiative). Используется самим Мировым банком в их базе микроданных и ещё в нескольких странах национальными службами статистики.

А также не совсем про данные:
- PubPub для тех кто интересуется новыми моделями публикации научных текстов, у проекта PubPub.org есть открытый код которым можно воспользоваться. Это не совсем про данные, но близко к открытости науки и открытости знания.

#data #tools #tech
November 22, 2021
November 23, 2021
Forwarded from TAdviser
November 23, 2021
November 23, 2021
По поводу "реестра токсичного контента" [1] который продвигает г-н Ашманов многие уже написали, а я добавлю что, конечно, жаль что в России нет закона о лоббизме потому что у Игоря Ашманова в данном случае есть прямой конфликт интересов поскольку правильно указывать аффиляцию Игоря Ашманова как бенефициара компании Крибрум (он её основатель), а общественные позиции не более чем инструмент повышения капитализации активов.

Крибрум не то чтобы лидер отрасли мониторинга контента. У них минимум заказов [2] по 44-ФЗ, но может быть по 223-ФЗ есть, нельзя сказать точно потому что данные не раскрываются. А с другой стороны резкий рост выручки за 2019-2020 годы, например, за 2020 год она составила 379 млн руб [3], что не так уж мало, но существенно меньше чем выручка Медиалогии в 1.7 млрд руб и сравнимо Брэнд Аналитикс (ООО Палитрумлаб) в 323 млн руб.

Почему вся эта инициатива выглядит сомнительно? Потому что мир идёт по пути регулирования платформ. Зачем мониторить и составлять реестр токсичного контента когда уже принято решение о приземлении платформ на российскую юрисдикцию? Контент или соответствуют российскому законодательству, или удаляется/блокируется модераторами платформу. Нельзя быть "чуть-чуть токсичным", тут либо налево, либо направо, третьего не дано.

Ссылки:
[1] https://habr.com/ru/news/t/590589/
[2] https://clearspending.ru/supplier/inn=7731661104&kpp=773101001
[3] https://bo.nalog.ru/organizations-card/378398#balance

#registries #ashmanov
November 23, 2021
November 23, 2021
Forwarded from Трансперенси
Можно ли в России сделать госзакупки такими же прозрачными, как в Европе? (Да)

В Европейском союзе коррупция в секторе государственных закупок долгое время наносила ущерб в размере 5 млрд евро ежегодно. Чтобы снизить этот ущерб, в 2015 году секретариат Transparency International запустил проект Integrity Pacts (по-русски мы называем их Соглашениями о гражданском участии). Integrity Pact — это юридически обязывающее соглашение трех сторон: государственного заказчика, подрядчика и представителей гражданского общества (в Европейском союзе — это представители Transparency International). 

С тех пор Integrity Pacts нашли применение в 11 странах Европейского союза на 18 крупных инфраструктурных проектах. 

По оценке Счетной палаты, в России общий объем нарушений на госзакупках в 2020 году составил 108,7 млрд рублей (сюда включены не только коррупционные преступления, но и менее серьезные нарушения). При этом потери бюджета — не единственный вид вреда, который наносит обществу непрозрачность при госзакупках. Изолированность решений о распределении госконтрактов от общества часто становится триггером для массового недовольства.

Чтобы сделать государственные закупки прозрачнее а, значит, снизить потери общества от коррупции, мы запускаем проект Integrity Pacts в России. На первом этапе мы будем концентрироваться на закупках, связанных с благоустройством городских территорий. 

Начинаем с Екатеринбурга — именно там в последние годы происходили наиболее острые конфликты по поводу благоустройства (чего стоит только история с строительством храма на месте сквера в центре города). Пилотным проектом для Соглашений может стать реконструкция Дендрологического парка-выставки в Екатеринбурге. 

Самое главное: вы тоже можете принять участие в проекте, став арбитром между государственным заказчиком и частным подрядчиком.

➡️ Присоединяйтесь: https://transparency.org.ru/special/integritypacts/
November 23, 2021
В рубрике интересное чтение в свободное время, Commonplace [1] проект от НКО Knowledge Futures посвящённый устойчивости воспроизведения знания в современном мире. Онлайн издание о таких темах как открытый доступ (open access), устойчивости открытых библиотек, реорганизации научных публикаций. Тексты все про размышления, очень оторванные от российской действительности, но хорошо задающие направления размышления именно про знания в нашем мире. Те же авторы являются создателями платформы PubPub [2] для осовременивания публикации научных работ.

В их контексте интересный проект IOI (Invest in Open Infrastructure) [3] в виде исследовательской НКО с фокусом на исследование принципов создания открытой инфраструктуры работы исследователей. Что это на практике? Это замена инфраструктуры коммерческих провайдеров, таких как Clarivate и им подобных, вначале собирающих статьи/данные/материалы от учёных, а потом предоставляющих подписку им же и за деньги. Например, IOI рассматривают существующие 10 проектов создания такой инфраструктуры [4] и многое другое.

Ещё одно интересное чтение, вернее смотрение, это большая мини-конференция Funding The Commons [5] от Protocol Labs о поиске источников финансирования для проектов имеющих общественную ценность. Protocol Labs - это ребята про криптовалюту, NFT и тому подобное. Соответственно и здесь видео в том числе о таких моделях развития общественных проектов и сборе пожертвований. Я бы предпочёл не слушать и не смотреть, а прочитать хорошую подборку статей об этом, но пока вижу мало публикаций и интересно движение мыслей. Если поиск идей в направлениях криптовалют и NFT помогут устойчивому существованию крупных общественных проектов таких как Wikipedia или Internet Archive, а также многих других, значит в этой идее есть здравое зерно.

Ссылки:
[1] https://commonplace.knowledgefutures.org/
[2] https://www.pubpub.org/
[3] https://investinopen.org
[4] https://investinopen.org/blog/costs-characteristics-oi-providers/#more-on-the-projects-and-how-we-selected-them
[5] https://www.youtube.com/watch?v=Axj8NJXnCN0

#thoughts #reading
November 23, 2021
November 23, 2021
November 23, 2021
November 24, 2021
November 24, 2021
Библиотеки данных - это, в первую очередь, не библиотеки кода, а специальные каталоги данных, которые, однако, называют data libraries. Отличить их от классических каталогов данных сложно, так что можно рассматривать их как подвид каталога данных.

Например, существует библиотека климатических данных [1], а также библиотеки данных в инсталляциях платформы Galaxy [2] используемой для биоинформатики. Каталог данных Азиатского банка развития тоже, почему-то, называют ADB Data Library [3], а также библиотека данных в проекте Clue [4] (тоже биоинформатика).

Лично мне не удалось найти описания дающее термину data library какое-то особое значение, а вот у data librarian такое определение есть, через вакансию [5] с описанием профессии как expert on research data management, description, archiving and dissemination.

Всё становится немного яснее data library рассматривается как каталог, в первую очередь, научных данных. Но термин, как и многие другие в этой области, неустойчивый.

А теперь моё небольшое предсказание в том что по мере роста объемов данных в компаниях и, когда-нибудь, и в органах данных появятся вакансии таких библиотекарей данных, сейчас их функции выполняют, могут выполнять, дата кураторы, смешивая их роль отраслевых специалистов и тех кто каталогизирует данные. А я говорю что рано или поздно критическая масса данных внутри будет достигать такой отметки что понадобится как минимум один человек занимающийся только каталогизацией. Пока подобные роли есть только в крупных агрегаторах исследовательских данных где собираются разные данные разного качества и пока рынок данных разбалансирован ещё больше чем рынок ИТ. Все хотят быть дата саентистами, но не все могут достигнуть нужных навыков.

А спектр задач работы с данными велик, каждый может найти роль под себя.

Ссылки:
[1] https://iridl.ldeo.columbia.edu/index.html?Set-Language=ru
[2] https://galaxyproject.org/data-libraries/
[3] https://data.adb.org/
[4] https://clue.io/data
[5] https://libereurope.eu/job/summary-working-in-close-collaboration-with-the-director-of-the-libraries-research-coordination-and-the-it-department-you-will-be-responsible-for-the-library-support-towards-rdm-to-researchers-and/

#data #datalibrians #datamanagement
November 25, 2021
Я напоминаю про проект Каталога каталогов данных datacatalogs.ru [1] недавно запущенный Инфокультурой.

Мы ведем этот каталог в Airtable где размечаем каждый каталог по режиму доступа, темам, ПО, стране, региону, владельцу, типу владельца и ещё многим другим критериям. По каждому репозиторию заполняется более 20 атрибутов и пока они не все выводятся в веб интерфейсе, отчасти чтобы не потерять наглядность, отчасти потому что изначально каталог мы делали для других задач, а этот каталог каталогов лишь одна из форм его представления.

Если Вы знаете портал открытых данных или иной важный репозиторий данных - не стесняйтесь и добавляйте его в каталог.

Ссылки:
[1] https://datacatalogs.ru

#opendata #datacatalogs #catalogs #data #datasets
November 26, 2021
November 26, 2021
Я регулярно пишу о том что у многих информационных систем и иных публичных ресурсов государства есть много недокументированных API. Причём эти API имеют, как правило, две истории происхождения:
a) API сделанные разработчиками для работы каких-то компонентов и ни разу не документированные, например, если сайт сделан с использованим Ajax технологии.
б) API предусмотренное изначально создателем платформы выбранной разработчиками. Например, API использованной CMS.

Приведу примеры того в какой форме такое API бывает.

Сайт Финансового университета fa.ru сделан на Sharepoint, CMS от Microsoft чаще используемой для внутри-корпоративных сайтов и реже для сайтов в Интернете. У последних версий Sharepoint доступ к данным осуществляется через API по ссылке "/_api". Для Финуниверситета это www.fa.ru/_api/ и по этой ссылке можно далее, особенно если почитать документацию на Sharepoint, осуществлять навигацию по сайту. Обычно это начинается со ссылки www.fa.ru/_api/web где по расширенному протоколу Atom отдаётся описание хранящихся в списках сайта материалов.

Сайт Рособрнадзора obrnadzor.gov.ru сделан на CMS Wordpress. Wordpress - это одна из наиболее популярных CMS в мире, скорее всего наиболее популярная. Вот уже несколько версий в этой CMS есть специальная ссылка "/wp-json/" позволяющая получать данные содержимого сайта (не вёрстки, а контента!) в машиночитаемом виде. Поэтому и содержание сайта Рособрнадзора можно выкачать специальным краулером по адресу obrnadzor.gov.ru/wp-json/ . Кроме Рособрнадзора на Wordpress созданы сайты ещё многих сайтов.

У Санкт-Петербургского государствнного университета есть система Архива публичного доступа dspace.spbu.ru как кто-то уже догадался, сделанный на платформе DSPace используемой тысячами научных и иных организаций по всему миру. У DSPace есть API, вполне документированное, но не выносимое на главные страницы инсталляции платформы, доступное по ссылке "/rest/". В случае СПбГУ это ссылка на API dspace.spbu.ru/rest/.

DSPace используется не только ВУЗами, но и межгосударственными организациями такими как Всемирная организация здравоохранения. ВОЗ публикует свои материалы в системе IRIS, Институциональное хранилище для обмена информацией. IRIS, также, создано на базе DSPace и открыто его API apps.who.int/iris/rest/

Недокументированные API оставленные разработчиками присутствуют, например, на сайтах Мэра и Правительства Москвы www.mos.ru и портала Электронный бюджет budget.gov.ru из-за чего они плохо индексируются поисковыми системами. Сами API можно выявить просматривая запросы браузера к страницам сайтов.

Федеральная пробирная палата отдаёт все страницы на своём официальном сайте probpalata.ru из-за использования в качестве CMS движка для документооборота. Об этом я писал отдельно https://t.iss.one/begtin/3283, до сих пор удивляюсь этой истории.

Конечно есть редкие примеры документированных госAPI. Конечно многие из примеров API из CMS относятся и к корпоративному сектору и всем остальным и, конечно, далеко не все примеры я сейчас привел, на практике их значительно больше.

Из всего этого я обращаю внимание на следующее:
1) Фактическая доступность данных часто выше чем наблюдаемая (документированная) доступность.
2) Системной работы над доступностью данных и програмнных интерфейсов из госсистем у нас в стране всё ещё нет. Нет аналогов платформ API как в других странах.
3) Конечно, API, не заменяет возможно массовой выгрузки (bulk download) данных. Иногда, даже при доступности такого API, чтобы выгрузить данные надо делать миллионы запросов к системе, что может занимать долгое время при медленном отклике от системы.

#openapi #api #data #govwebsites
November 28, 2021
Forwarded from Инфокультура
В каталог откртыых данных Инфокультуры (datacatalogs.ru) добавлены новые каталоги данных и репозитории:
Мировой центр данных - Б «Океанография»
Мировой центр данных Б Океанография действует на базе Национального центра океанографических данных ФГБУ «ВНИИГМИ-МЦД» и обеспечивает хранение и обслуживание пользователей данными о физических, химических и динамических параметрах Мирового океана

Мировой центр радиационных данных
Мировой Центр Радиационных Данных (МЦРД) - один из признанных мировых
центров данных, спонсируемых Всемирной Метеорогической Организацией (ВМО).
МЦРД является лабораторией Главной геофизической обсерватории им.А.И.Воейкова,
Федеральной Службы России по Гидрометеорологии и Мониторингу Окружающей Среды, бывшего Государственного Комитета по Гидрометеорологии СССР, и
расположена в Санкт-Петербурге.

Университетская информационная система Россия
Университетская информационная система РОССИЯ (УИС РОССИЯ) создана и целенаправленно развивается как тематическая электронная библиотека и база для исследований и учебных курсов в области экономики, управления, социологии, лингвистики, философии, филологии, международных отношений и других гуманитарных наук.


Все 3 новых источника являются научными каталогами данных, а мировые центры данных входят в систему ISC World Data System (ISC-WDS)

Если Вы знаете какой-либо каталог данных отсутствующий в репозитории, напишите нам о нём. Это может быть государственный, общественный, частный, научный каталог данных по которому доступно хотя бы описание метаданных того что в нём содержится, а ещё лучше если это каталог открытых данных.

#opendata #datasets #datacatalogs
November 29, 2021