Ivan Begtin

CNews сегодня написали про сайт Роснано и исчезновение материалов с их сайта, они на меня ссылку не дают, так что я на них тоже ссылку не дам. Важнее то что им прокомментировали представители компании о том что плановая замена сайта Роснано была в августе-сентябре 2021 года и что "информация об активах «Роснано» присутствует непосредственно на сайтах портфельных компаний".

Я всё думаю как это прокомментировать, ну начну с того что перечень портфельных компаний Роснано тоже исчез с их сайта;) А то есть найти информацию об их активах стало ещё сложнее. Это, как бы раз.

С нового сайта Роснано начисто исчезли сведения об органах управления и управляющей компании ООО "УК Роснано", при том что эти сведения были ещё в июне на их предыдущем сайте [1], да и проекты ещё были доступны в июне [2]. А Это два.

Я всё это к тому что у Роснано всегда было достаточно ресурсов чтобы сохранить старый сайт под доменом типа old.rusnano.com, но вместо этого его просто снесли так что даже информации о руководстве нет. Странно что инвесторы на Мосбирже всполошились только вот-вот.

Ссылки:
[1] https://web.archive.org/web/20210613155819/https://www.rusnano.com/about/structure
[2] https://web.archive.org/web/20210506045809/https://www.rusnano.com/projects/portfolio

#webarchives #archives #digitalpreservation

web.archive.org

Структура РОСНАНО и органы управления

Деятельность компании Группы РОСНАНО - инвестирование в нанотехнологии и нанопроизводство, развитие наноиндустрии в России, инфраструктурная поддержка.

1.6K viewsIvan Begtin, 15:11

November 22, 2021

Ivan Begtin

В рубрике полезные инструменты для работы с данными:
- OpenRefine версии 3.5.0 вышел совсем недавно, один из лучших инструментов для data wrangling, точно лучший из бесплатных. Много разных улучшений, для поддержки Wikibase/Wikidata, для работы в UI и ещё многое другое.
- Autoscraper не совсем обычный инструмент автоматического скрейпинга данных на основе примеров. Вместо сложных конструкций по парсингу HTML скрейперу передаётся пример данных, а дальше он сам додумывается. Хорошая штука, я когда-то думал в этом же направлении, но шёл от понимания структуры данных, а тут от содержания.
- Developing AI-Based Solution for Web Scraping: Lessons Learned - полезная статья на ту же тему автоматизации скрейпинга данных. То что авторы используют термин AI - это, конечно, совсем неправда. Просто адаптивные алгоритмы, но и они это уже хороший прогресс.
- QuestDb - открытая СУБД с обещаниями очень хорошей скорости для хранения и обработки временных рядов. По их собственным бенчмаркам обгоняет ClickHouse
- NADA (National Data Archive) - проект Мирового Банка по публикации микроданных опросов, переписей и так далее. С открытым кодом и с поддержкой стандарта раскрытия данных DDI (Data Documentation Initiative). Используется самим Мировым банком в их базе микроданных и ещё в нескольких странах национальными службами статистики.

А также не совсем про данные:
- PubPub для тех кто интересуется новыми моделями публикации научных текстов, у проекта PubPub.org есть открытый код которым можно воспользоваться. Это не совсем про данные, но близко к открытости науки и открытости знания.

#data #tools #tech

GitHub

Release OpenRefine v3.5.0 · OpenRefine/OpenRefine

This is the first stable release of the 3.5 series. Please backup your workspace directory before installing and report any problems that you encounter.
New features

Wikidata support has been gene...

1.5K viewsIvan Begtin, 18:51

November 22, 2021

Ivan Begtin

Я, к сожалению, в это время буду читать лекцию про управление основанное на данных и большие данные в госуправлении, но свои вопросы Максуту Шадаеву передал. И хотя я и склонен кидаться в адрес Минцифры окаменелостями, но, если смотреть объективно, есть как хорошее в деятельности Министерства так и не очень.

Из хорошего:
+ поддержка open source (давно пора)
+ худо/бедно работающие госуслуги
+ Гостех как идеология (идёт криво и косо и странно иногда, но сама идея имеет долгосрочное разумное зерно)
+ начало инвентаризации государственного ИТ бардака

Из плохого
- слабая регуляторная позиция (много ляпов в законопроектах)
- усиление регулирования в части госслежки (как минимум непрепятствование усиления)
- отсутствие вопросов открытости данных и приватности в рабочей повестке не только Минцифры, но и Пр-ва в целом.

Поэтому будет интересно потом послушать ответы, ну и Тадвайзер молодцы, конечно.

#events #comments #questions

1.3K viewsIvan Begtin, 06:13

November 23, 2021

Ivan Begtin

Forwarded from TAdviser

Сегодня в 11.30 на TAdviser Summit главный редактор TAdviser Александр Левашов беседует с главой Минцифры РФ Максутом Шадаевым от лица ИТ-отрасли. Смотреть трансляцию можно после регистрации по ссылке https://summit.tadviser.ru/ Спасибо всем, кто задавал вопросы. Основные темы: гостех, open source, импортозамещение, данные, кадры, образование, льготы, а также специфические вопросы фоивов и регионов.

1.2K viewsIvan Begtin, 06:13

November 23, 2021

Ivan Begtin

В качестве напоминания новым подписчикам о том кто я и чем занимаюсь.

Я возглавляю Ассоциацию участников рынка данных АУРД (если Ваша компаниях занимается данными, то, кстати, вступайте) и АНО Инфокультура. Развиваю стартап APICrafter по доступу к API для проверки контргагентов и сейчас в рамках него создаю наибольший каталог данных в России DataCrafter.

Я много пишу онлайн про технологии в госсекторе, :
- в канале в телеграм https://t.iss.one/begtin
- на странице в Facebook https://facebook.com/ivanbegtin
- во Вконтакте https://vk.com/begtin
- и даже в Viber (в качестве эксперимента)

Лонгриды я пишу у себя в блоге https://begtin.tech (редко) и в рассылке https://begtin.substack.com (чаще).

Темы о которых я пишу включают технологии в госсекторе, открытые данные, большие данные, этика работы с данными и ИИ, открытость государства, цифровая архивация, простой язык, понятность государства, алгоритмы и инструменты работы с данными и анализ данных.

Кроме того наша команда ведёт многие общественные проекты связанные с открытость и понятностью данных, государства, общества.

Это такие проекты как:
- Госзатраты (clearspending.ru) - открытая база госконтрактов
- Открытые НКО (openngo.ru) - база прозрачности некоммерческих организаций
- Понятный язык (plainrussian.ru) - открытый сервис оценки понятности текстов на русском языке
- Национальный цифровой архив (ruarxive.org) - проект по цифровой архивации сайтов и иных цифровых ресурсов.

До этого я состоял в нескольких общественных советах, возглавял экспертный совет при Генпрокуратуре и так далее. Вышел из них всех когда чуть более чем 2 года назад пошёл работать в подвед Счетной палаты создавая проект Госрасходы (spending.gov.ru) так что я 2 года был почти госслужащим, пока не вернулся к общественной и коммерческой деятельности с мая 2021 г.

А также веду для души в телеграм небольшой канал стихов ministryofpoems (иногда резких) специально для тех кто регулярно сталкивается с нашим государством и не знает как это описать.

#blog

1.3K viewsIvan Begtin, edited 09:07

November 23, 2021

Ivan Begtin

По поводу "реестра токсичного контента" [1] который продвигает г-н Ашманов многие уже написали, а я добавлю что, конечно, жаль что в России нет закона о лоббизме потому что у Игоря Ашманова в данном случае есть прямой конфликт интересов поскольку правильно указывать аффиляцию Игоря Ашманова как бенефициара компании Крибрум (он её основатель), а общественные позиции не более чем инструмент повышения капитализации активов.

Крибрум не то чтобы лидер отрасли мониторинга контента. У них минимум заказов [2] по 44-ФЗ, но может быть по 223-ФЗ есть, нельзя сказать точно потому что данные не раскрываются. А с другой стороны резкий рост выручки за 2019-2020 годы, например, за 2020 год она составила 379 млн руб [3], что не так уж мало, но существенно меньше чем выручка Медиалогии в 1.7 млрд руб и сравнимо Брэнд Аналитикс (ООО Палитрумлаб) в 323 млн руб.

Почему вся эта инициатива выглядит сомнительно? Потому что мир идёт по пути регулирования платформ. Зачем мониторить и составлять реестр токсичного контента когда уже принято решение о приземлении платформ на российскую юрисдикцию? Контент или соответствуют российскому законодательству, или удаляется/блокируется модераторами платформу. Нельзя быть "чуть-чуть токсичным", тут либо налево, либо направо, третьего не дано.

Ссылки:
[1] https://habr.com/ru/news/t/590589/
[2] https://clearspending.ru/supplier/inn=7731661104&kpp=773101001
[3] https://bo.nalog.ru/organizations-card/378398#balance

#registries #ashmanov

Хабр

Ашманов предложил создать реестр токсичного контента

По информации издания «Ведомости», член Совета при президенте России по развитию гражданского общества и правам человека Игорь Ашманов, а также представители общественных организаций, связанных с...

1.7K viewsIvan Begtin, 09:31

November 23, 2021

Ivan Begtin

Трансперенси Рус (признано НКО-«иностранным агентом») одни из немногих оставшихся российских НКО занимающихся прозрачностью государства и госзакупок на практике пишут про европейскую модель Integrity Pacts, когда у госконтракта появляется третья сторона, некоммерческого арбитра, отслеживающая соблюдение общественных интересов. Я знаю про эту практику, она не только в европе существует, она есть в Мексике по моделе "гражданского свидетеля", представителя общества участвующего в мониторинге исполнения госконтракта.

Она есть во многих других странах в других формах, но тут надо оговорится и что ключевое в таких моделях взаимодействия - это наличие независимых НКО и СМИ. В Евросоюзе снизили коррупцию не просто через Integrity Acts, а через то что там много НКО имеющих финансирование из независимых от правительств источников или же имеющих независимость даже при госфинансировании. В России сейчас прессинг на НКО и СМИ очень велик, настолько что общественный контроль очень сильно ограничен, в первую очередь, самоцензурой. Без снятия этого давления Integrity Pacts не заработают. Что не отменяет того что это, в целом, вполне здравая идея.

И начинаться она должна и может через включение общественников в приёмку результатов работ. Чем безжалостно сопротивляются почти все госзаказчики и исполнители по госконтрактам.

#procurement #government

1.3K viewsIvan Begtin, 11:10

November 23, 2021

Ivan Begtin

Forwarded from Трансперенси

Можно ли в России сделать госзакупки такими же прозрачными, как в Европе? (Да)

В Европейском союзе коррупция в секторе государственных закупок долгое время наносила ущерб в размере 5 млрд евро ежегодно. Чтобы снизить этот ущерб, в 2015 году секретариат Transparency International запустил проект Integrity Pacts (по-русски мы называем их Соглашениями о гражданском участии). Integrity Pact — это юридически обязывающее соглашение трех сторон: государственного заказчика, подрядчика и представителей гражданского общества (в Европейском союзе — это представители Transparency International).

С тех пор Integrity Pacts нашли применение в 11 странах Европейского союза на 18 крупных инфраструктурных проектах.

По оценке Счетной палаты, в России общий объем нарушений на госзакупках в 2020 году составил 108,7 млрд рублей (сюда включены не только коррупционные преступления, но и менее серьезные нарушения). При этом потери бюджета — не единственный вид вреда, который наносит обществу непрозрачность при госзакупках. Изолированность решений о распределении госконтрактов от общества часто становится триггером для массового недовольства.

Чтобы сделать государственные закупки прозрачнее а, значит, снизить потери общества от коррупции, мы запускаем проект Integrity Pacts в России. На первом этапе мы будем концентрироваться на закупках, связанных с благоустройством городских территорий.

Начинаем с Екатеринбурга — именно там в последние годы происходили наиболее острые конфликты по поводу благоустройства (чего стоит только история с строительством храма на месте сквера в центре города). Пилотным проектом для Соглашений может стать реконструкция Дендрологического парка-выставки в Екатеринбурге.

Самое главное: вы тоже можете принять участие в проекте, став арбитром между государственным заказчиком и частным подрядчиком.

➡️ Присоединяйтесь: https://transparency.org.ru/special/integritypacts/

transparency.org.ru

Соглашение о гражданском участии

Инструмент для снижения коррупции в инфраструктурных проектах.

1.2K viewsIvan Begtin, 11:10

November 23, 2021

Ivan Begtin

В рубрике интересное чтение в свободное время, Commonplace [1] проект от НКО Knowledge Futures посвящённый устойчивости воспроизведения знания в современном мире. Онлайн издание о таких темах как открытый доступ (open access), устойчивости открытых библиотек, реорганизации научных публикаций. Тексты все про размышления, очень оторванные от российской действительности, но хорошо задающие направления размышления именно про знания в нашем мире. Те же авторы являются создателями платформы PubPub [2] для осовременивания публикации научных работ.

В их контексте интересный проект IOI (Invest in Open Infrastructure) [3] в виде исследовательской НКО с фокусом на исследование принципов создания открытой инфраструктуры работы исследователей. Что это на практике? Это замена инфраструктуры коммерческих провайдеров, таких как Clarivate и им подобных, вначале собирающих статьи/данные/материалы от учёных, а потом предоставляющих подписку им же и за деньги. Например, IOI рассматривают существующие 10 проектов создания такой инфраструктуры [4] и многое другое.

Ещё одно интересное чтение, вернее смотрение, это большая мини-конференция Funding The Commons [5] от Protocol Labs о поиске источников финансирования для проектов имеющих общественную ценность. Protocol Labs - это ребята про криптовалюту, NFT и тому подобное. Соответственно и здесь видео в том числе о таких моделях развития общественных проектов и сборе пожертвований. Я бы предпочёл не слушать и не смотреть, а прочитать хорошую подборку статей об этом, но пока вижу мало публикаций и интересно движение мыслей. Если поиск идей в направлениях криптовалют и NFT помогут устойчивому существованию крупных общественных проектов таких как Wikipedia или Internet Archive, а также многих других, значит в этой идее есть здравое зерно.

Ссылки:
[1] https://commonplace.knowledgefutures.org/
[2] https://www.pubpub.org/
[3] https://investinopen.org
[4] https://investinopen.org/blog/costs-characteristics-oi-providers/#more-on-the-projects-and-how-we-selected-them
[5] https://www.youtube.com/watch?v=Axj8NJXnCN0

#thoughts #reading

PubPub

PubPub · Community Publishing

Collaborative Community Publishing

1.4K viewsIvan Begtin, 13:16

November 23, 2021

Ivan Begtin via @vote

Есть ли у Игоря Ашманова конфликт интересов при лоббирования "реестра токсичного контента" ?
anonymous poll

Есть, конечно, он же бизнесмен – 99
👍👍👍👍👍👍👍 79%

Я просто посмотреть ответы! – 24
👍👍 19%

Нет, конечно, он же член СПЧ – 2
▫️ 2%

👥 125 people voted so far.

1.3K viewsIvan Begtin, 13:26

Есть, конечно, он же бизнесмен – 79%

Нет, конечно, он же член СПЧ – 2%

Я просто посмотреть ответы! – 19%

November 23, 2021

Ivan Begtin

Специально для тех кто обладает цифровыми навыками и немного свободным временем, есть задачи для программистов которые можно сделать как волонтеры, можно за деньги, как захочется. Я описал их на бирже фриланса [1] и в списке задач на Github [2].

Если кратко, у нас есть общественный проект Национальный цифровой архив (ruarxive.org) [3], не очень наглядный по виду, но по смыслу - это регулярная архивация веб сайтов и иного современного цифрового контента. Обычно кампаниями по сохранению чего-то в период риска.

В последние годы есть много контента который надо, или сохранять иначе, или специальными инструментами потому что веб-краулеры это не поддерживают. Например, это социальные сети и сайты с Ajax/API. Для некоторых появляются инструменты такие как instaloader для Instagram, twarc для Twitter, apibackuper для REST API и ещё много чего.

Но есть то для чего таких инструментов нет, например:
- сообщества и чаты в телеграм (можно сохранять с десктопного клиента только)
- сообщества в VK
- файлы с Яндекс.Диска, Облака Mail.ru и других онлайн дисков
- сайты Wordpress (у них есть такая опция с API)
- сайты Sharepoint (у них тоже есть такая опция с API)

Есть желание повысить качество архивации, в первую очередь по Telegram, VK и Яндекс.Диску, как самому критичному.

Для этого нужны утилиты командной строки которые можно регулярно запускать на сервере. Если у Вас есть опыт написания таких инструментов, Вам близка открытая разработка и есть немного времени, то помощь будет неоценима. А если хочется помочь, но нет возможности сделать это бесплатно - оцените сколько такая задача (любая из перечисленных) может стоить и возможно я смогу найти на это деньги.

Хочу попробовать найти разработчиков под такие инструменты таким анонсом, ну а если не получится, то устроим хакатон по цифровой архивации и наберем на него таких задачек;)

Ссылки:
[1] https://freelance.habr.com/tasks/402049
[2] https://github.com/ruarxive/ruarxive-research/issues
[3] https://ruarxive.org

#opendata #digitalpreservation #tools

2.3K viewsIvan Begtin, edited 15:02

November 23, 2021

Ivan Begtin

За начало границы муниципального района Волжский Самарской области принята точка, расположенная в юго-западном углу лесного квартала 21 Советского лесничества Кинельского лесхоза на развилке лесных дорог (точка 1 – пересечение границ муниципальных районов Волжский, Красноярский и Кинельский Самарской области), далее граница проходит смежно границе муниципального района Кинельский Самарской области в восточном направлении по южным границам лесных кварталов 21, 22 Советского лесничества Кинельского лесхоза до юго-восточного угла квартала 22 Советского лесничества Кинельского лесхоза (точка 12), в южном направлении на расстоянии 360 м, пересекая автодорогу, идущую от поселка городского типа Новосемейкино муниципального района Красноярский Самарской области до кольца автодороги, идущей от города Самары до города Отрадного, далее в западном направлении по северной границе лесного квартала 99 Советского лесничества Кинельского лесхоза...
—
Именно так начинается самое длинное предложение современного русского языка в 9377 слов и 61 064 знака без пробелов и является это предложение приложением "Картографическое описание границ муниципального района Волжский Самарской области" к закону Самарской области №58-ГД от 25.02.2005 "Об установлении границ муниципального района Волжский Самарской области" [1].

Я писал о нём много лет назад, в декабре 2013 года и всё искал есть ли пример превосходящий этот по масштабам насилия над русским языком. Напишите, если такой знаете. Ищу новые и актуальные примеры наиболее закрученного замороченного и усложненного написания русскоязычных юридических и нормативных текстов.

Ссылки:
[1] https://www.samregion.ru/documents/laws/58-gd-ot-25-02-2005/

#plainrussian #language #russian

3.6K viewsIvan Begtin, edited 07:40

November 24, 2021

Ivan Begtin

В России, почему-то, непринято хвалить проекты соседей по СНГ/постсоветскому пространству, а зря, не только им, но и нам есть чему поучиться.

Приведу в пример три проекта.

1. Карта преступности Казахстана
Ссылка: https://infopublic.pravstat.kz/crime/

Когда в Казахстане власти передали полномочия по регистрации преступлений прокуратуре республики то в скором времени в стране появился портал с криминальной статистикой и публикация сведения о преступлениях на карте. Сведения до конкретной точки, со всеми подробностями, по дате преступления, тяжести, улице, регистрационном номере и тд.

2. Портал PEP (Politically Exposed Persons) - политических персон Украины
Ссылка: https://pep.org.ua/en/

На Украине есть очень даже неплохо сделанный портал pep.org.ua с базой "PEP" лиц влияющих на политику, чиновников и лоббистов. Публичных персон одним словом. Не мне судить снижает ли это коррупцию в стране, это виднее самим её жителям, но то что открытость повышает это точно. В России только проект Декларатор Трансперенси Рус близок к такому проекту, но сейчас создать базу PEPов в России скорее будет сложно потому что для этого надо сводить очень много разных и больших источников данных.

3. Реестр конечных собственников в Армении
Ссылка: https://www.e-register.am/en/companies/1340197/declaration/c51e08a7-6fdb-4ab7-a55c-c74a68a8f54c

В Армении правительство начало публиковать сведений о конечных собственниках (Real Owners Declaration). Это расширение сведений в реестре юридических лиц сведениями о конечных бенефициарах компаний по стандарту Open Ownership.

#opendata #opengov

1.7K viewsIvan Begtin, 13:59

November 24, 2021

Ivan Begtin

Библиотеки данных - это, в первую очередь, не библиотеки кода, а специальные каталоги данных, которые, однако, называют data libraries. Отличить их от классических каталогов данных сложно, так что можно рассматривать их как подвид каталога данных.

Например, существует библиотека климатических данных [1], а также библиотеки данных в инсталляциях платформы Galaxy [2] используемой для биоинформатики. Каталог данных Азиатского банка развития тоже, почему-то, называют ADB Data Library [3], а также библиотека данных в проекте Clue [4] (тоже биоинформатика).

Лично мне не удалось найти описания дающее термину data library какое-то особое значение, а вот у data librarian такое определение есть, через вакансию [5] с описанием профессии как expert on research data management, description, archiving and dissemination.

Всё становится немного яснее data library рассматривается как каталог, в первую очередь, научных данных. Но термин, как и многие другие в этой области, неустойчивый.

А теперь моё небольшое предсказание в том что по мере роста объемов данных в компаниях и, когда-нибудь, и в органах данных появятся вакансии таких библиотекарей данных, сейчас их функции выполняют, могут выполнять, дата кураторы, смешивая их роль отраслевых специалистов и тех кто каталогизирует данные. А я говорю что рано или поздно критическая масса данных внутри будет достигать такой отметки что понадобится как минимум один человек занимающийся только каталогизацией. Пока подобные роли есть только в крупных агрегаторах исследовательских данных где собираются разные данные разного качества и пока рынок данных разбалансирован ещё больше чем рынок ИТ. Все хотят быть дата саентистами, но не все могут достигнуть нужных навыков.

А спектр задач работы с данными велик, каждый может найти роль под себя.

Ссылки:
[1] https://iridl.ldeo.columbia.edu/index.html?Set-Language=ru
[2] https://galaxyproject.org/data-libraries/
[3] https://data.adb.org/
[4] https://clue.io/data
[5] https://libereurope.eu/job/summary-working-in-close-collaboration-with-the-director-of-the-libraries-research-coordination-and-the-it-department-you-will-be-responsible-for-the-library-support-towards-rdm-to-researchers-and/

#data #datalibrians #datamanagement

iridl.ldeo.columbia.edu

IRI/LDEO Climate Data Library

The IRI Data Library is a powerful and freely accessible online data repository and analysis tool that allows a user to view, analyze, and download hundreds of terabytes of climate-related data through a standard web browser.

1.6K viewsIvan Begtin, 18:42

November 25, 2021

Ivan Begtin

Я напоминаю про проект Каталога каталогов данных datacatalogs.ru [1] недавно запущенный Инфокультурой.

Мы ведем этот каталог в Airtable где размечаем каждый каталог по режиму доступа, темам, ПО, стране, региону, владельцу, типу владельца и ещё многим другим критериям. По каждому репозиторию заполняется более 20 атрибутов и пока они не все выводятся в веб интерфейсе, отчасти чтобы не потерять наглядность, отчасти потому что изначально каталог мы делали для других задач, а этот каталог каталогов лишь одна из форм его представления.

Если Вы знаете портал открытых данных или иной важный репозиторий данных - не стесняйтесь и добавляйте его в каталог.

Ссылки:
[1] https://datacatalogs.ru

#opendata #datacatalogs #catalogs #data #datasets

datacatalogs.ru/

Каталог каталогов открытых данных

Поиск и фильтрация каталогов открытых данных

1.5K viewsIvan Begtin, 12:33

November 26, 2021

Ivan Begtin

image_2021-11-26_15-33-41.png

81.5 KB

image_2021-11-26_15-33-41.png

45.3 KB

image_2021-11-26_15-33-42.png

232 KB

1.4K viewsIvan Begtin, 12:33

November 26, 2021

Ivan Begtin

Для тех кто ищет особо крупные наборы данных для работы так чтобы побольше и посложнее напомню крупные источники общедоступных данных большого объёма.

- коллекция Datasets [1] в Интернет архиве - много дампов общедоступных публичных архивов
- дампы проектов фонда Wikimedia (Wikipedia и др.) [2] - большие данные в XML, SQL и других формах.
- реестр открытых данных на платформе AWS [3] - более 305 наборов данных
- Common Crawl [4] - общедоступный огромный поисковый индекс, часто используется в задачах OSINT
- Microsoft Academic Knowledge Graph (MAKG) [5] огромный граф по научным статьям и их авторам скомпилированный исследовательским подразделением Microsoft из многих источников

О некоторых из этих наборов данных я писал ранее и о многих напишу ещё не раз в рубрике #datasets

Ссылки:
[1] https://archive.org/details/datasets
[2] https://dumps.wikimedia.org/
[3] https://registry.opendata.aws/
[4] https://commoncrawl.org/
[5] https://makg.org/

#datasets #opendata

1.5K viewsIvan Begtin, 13:39

November 26, 2021

Ivan Begtin

Я регулярно пишу о том что у многих информационных систем и иных публичных ресурсов государства есть много недокументированных API. Причём эти API имеют, как правило, две истории происхождения:
a) API сделанные разработчиками для работы каких-то компонентов и ни разу не документированные, например, если сайт сделан с использованим Ajax технологии.
б) API предусмотренное изначально создателем платформы выбранной разработчиками. Например, API использованной CMS.

Приведу примеры того в какой форме такое API бывает.

Сайт Финансового университета fa.ru сделан на Sharepoint, CMS от Microsoft чаще используемой для внутри-корпоративных сайтов и реже для сайтов в Интернете. У последних версий Sharepoint доступ к данным осуществляется через API по ссылке "/_api". Для Финуниверситета это www.fa.ru/_api/ и по этой ссылке можно далее, особенно если почитать документацию на Sharepoint, осуществлять навигацию по сайту. Обычно это начинается со ссылки www.fa.ru/_api/web где по расширенному протоколу Atom отдаётся описание хранящихся в списках сайта материалов.

Сайт Рособрнадзора obrnadzor.gov.ru сделан на CMS Wordpress. Wordpress - это одна из наиболее популярных CMS в мире, скорее всего наиболее популярная. Вот уже несколько версий в этой CMS есть специальная ссылка "/wp-json/" позволяющая получать данные содержимого сайта (не вёрстки, а контента!) в машиночитаемом виде. Поэтому и содержание сайта Рособрнадзора можно выкачать специальным краулером по адресу obrnadzor.gov.ru/wp-json/ . Кроме Рособрнадзора на Wordpress созданы сайты ещё многих сайтов.

У Санкт-Петербургского государствнного университета есть система Архива публичного доступа dspace.spbu.ru как кто-то уже догадался, сделанный на платформе DSPace используемой тысячами научных и иных организаций по всему миру. У DSPace есть API, вполне документированное, но не выносимое на главные страницы инсталляции платформы, доступное по ссылке "/rest/". В случае СПбГУ это ссылка на API dspace.spbu.ru/rest/.

DSPace используется не только ВУЗами, но и межгосударственными организациями такими как Всемирная организация здравоохранения. ВОЗ публикует свои материалы в системе IRIS, Институциональное хранилище для обмена информацией. IRIS, также, создано на базе DSPace и открыто его API apps.who.int/iris/rest/

Недокументированные API оставленные разработчиками присутствуют, например, на сайтах Мэра и Правительства Москвы www.mos.ru и портала Электронный бюджет budget.gov.ru из-за чего они плохо индексируются поисковыми системами. Сами API можно выявить просматривая запросы браузера к страницам сайтов.

Федеральная пробирная палата отдаёт все страницы на своём официальном сайте probpalata.ru из-за использования в качестве CMS движка для документооборота. Об этом я писал отдельно https://t.iss.one/begtin/3283, до сих пор удивляюсь этой истории.

Конечно есть редкие примеры документированных госAPI. Конечно многие из примеров API из CMS относятся и к корпоративному сектору и всем остальным и, конечно, далеко не все примеры я сейчас привел, на практике их значительно больше.

Из всего этого я обращаю внимание на следующее:
1) Фактическая доступность данных часто выше чем наблюдаемая (документированная) доступность.
2) Системной работы над доступностью данных и програмнных интерфейсов из госсистем у нас в стране всё ещё нет. Нет аналогов платформ API как в других странах.
3) Конечно, API, не заменяет возможно массовой выгрузки (bulk download) данных. Иногда, даже при доступности такого API, чтобы выгрузить данные надо делать миллионы запросов к системе, что может занимать долгое время при медленном отклике от системы.

#openapi #api #data #govwebsites

www.fa.ru

Финансовый университет при Правительстве РФ | Главная

«Один из старейших российских вузов, готовящих экономистов, финансистов, юристов по финансовому праву, математиков, ИТ-специалистов, социологов и политологов»

1.4K viewsIvan Begtin, 08:54

November 28, 2021

Ivan Begtin

Forwarded from Инфокультура

В каталог откртыых данных Инфокультуры (datacatalogs.ru) добавлены новые каталоги данных и репозитории:
Мировой центр данных - Б «Океанография»
Мировой центр данных Б Океанография действует на базе Национального центра океанографических данных ФГБУ «ВНИИГМИ-МЦД» и обеспечивает хранение и обслуживание пользователей данными о физических, химических и динамических параметрах Мирового океана

Мировой центр радиационных данных
Мировой Центр Радиационных Данных (МЦРД) - один из признанных мировых
центров данных, спонсируемых Всемирной Метеорогической Организацией (ВМО).
МЦРД является лабораторией Главной геофизической обсерватории им.А.И.Воейкова,
Федеральной Службы России по Гидрометеорологии и Мониторингу Окружающей Среды, бывшего Государственного Комитета по Гидрометеорологии СССР, и
расположена в Санкт-Петербурге.

Университетская информационная система Россия
Университетская информационная система РОССИЯ (УИС РОССИЯ) создана и целенаправленно развивается как тематическая электронная библиотека и база для исследований и учебных курсов в области экономики, управления, социологии, лингвистики, философии, филологии, международных отношений и других гуманитарных наук.
—

Все 3 новых источника являются научными каталогами данных, а мировые центры данных входят в систему ISC World Data System (ISC-WDS)

Если Вы знаете какой-либо каталог данных отсутствующий в репозитории, напишите нам о нём. Это может быть государственный, общественный, частный, научный каталог данных по которому доступно хотя бы описание метаданных того что в нём содержится, а ещё лучше если это каталог открытых данных.

#opendata #datasets #datacatalogs

datacatalogs.ru/

Каталог каталогов открытых данных

Поиск и фильтрация каталогов открытых данных

1.3K viewsIvan Begtin, 07:56

November 29, 2021

About

Blog

Apps

Platform