Ivan Begtin
7.99K subscribers
1.77K photos
3 videos
101 files
4.49K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]
Download Telegram
Я регулярно пишу про доступные в России/о России открытые данные [1] и можно много чего найти по тегу #datasets здесь в телеграм канале. К этой рубрике не могу не добавить что главная сложность в поиске данных не в том что их нет, а в том что они фрагментированы до невозможности, не систематизированы и рассеяны по множеству внешних сервисов. Часть региональных властей создают собственные ГИС системы, другие используют корпоративные инсталляции ArcGIS Server, а довольно многие используют облачные услуги ArcGIS, а то есть если не покопаться в коде сайта или если не знать то данные и не найти.

Вот наглядный пример, карта экотуризма Татарстана [2], внутри ArcGIS сервер в облачной версии [3]. Не знаю как они находят способ оплачивать его, но факт остаётся фактом, загружают данные и в 2023 году и загружали ранее и я лично их никоим образом не осуждаю.

Ссылки:
[1] https://t.iss.one/begtin/5078
[2] https://ecotourism-map.tatar
[3] https://services-eu1.arcgis.com/g4SaReSjB9tCbuDt/ArcGIS/rest/services

#datasets #opendata #geodata #tatarstan
Теперь уже 7055 каталогов данных в реестре каталогов данных registry.commondata.io из которых как минимум 5393 потенциально индексируемых в поиск. Много это или мало? Много. В dataportals.org всего 598 порталов, в Datashades.info 530 инсталляций CKAN, в re3data.org 3125 порталов научных данных.

Самое сложное - это собирать описания всех записей, а для этого нужны метрики качества. Для любого дата проекта нужны метрики качества и автоматизация их улучшения.

Вот в данном случае это референсная база данных, не транзакционная, а справочная для любых других проектов по систематизации данных. Полнота метаданных имеет значение и поэтому метрики именно про эту полноту: есть ли какое-то поле, ненулевое ли оно и так далее.

Вот чего не хватает так это простой системы метрик которую можно было бы пристыковать к базе данных в виде СУБД или в виде CSV/NDJSON файла.

Существующие движки оценки и мониторинга качества данных не подходят. Какие существуют альтернативы кроме как изобретать свой велосипед?

#opendata #datatools #metadata #datacatalogs #commondataindex
Ещё один интересный каталог с глобальными данными Awesome GEE Community catalog [1] создаваемый сообществом пользователей Google Earth Engine, я писал о нём год назад [2] и с тех пор каталог обрёл новый сайт и много больше данных.

Теперь он включает более 322 терабайт данных, около 1 миллиарда объектов и чуть менее 1 миллиона изображений.

Особенность этого каталога в том что это, по сути, коллекция страниц где могут быть или не быть ссылки на выгрузку данных, но всегда есть код для подключения выбранного слоя/данных к Google Earth Engine.

Ссылки:
[1] https://gee-community-catalog.org
[2] https://t.iss.one/begtin/4287

#datacatalogs #opendata #datasets #geodata #google
В рубрике как это устроено у них большая часть переписей населения в Южной Америке работает на ПО Redatam [1], оно же используется во многих странах Африки и Юго-Восточной Азии. Это продукт разработанный в Экономической комиссии для Латинской Америки и Карибского бассейна (ECLAC), специализированном подразделении ООН. На сайте продукта собраны и ссылки все опубликованные переписи населения и иные опросы в 24 странах [2], а также примеры микроданных [3].


Ссылки:
[1] https://www.redatam.org/en
[2] https://www.redatam.org/en/online-process
[3] https://www.redatam.org/en/microdata

#opendata #census #datasets #datacatalogs
Forwarded from Ах, этот Минфин (Olya Parkhimovich)
Госзатраты. Перезапуск

К десятилетию проекта (которое состоится в начале 2024 года) мы планируем перезапуск общественного проекта «Госзатраты» (clearspending.ru) и будем рады фидбеку, пожеланиям и критике. Если вы давно пользуетесь сайтом, API или открытыми данными проекта, нам будут полезны ваши пожелания как по сайту, так и по содержанию баз данных и API. А если еще не пользуетесь, но интересуетесь финансовыми данными или мониторите госзакупки, можете написать о том, каких функций вам не хватает в сторонних проектах. Писать можно в комментарии или в лс (@k0shk), кому как удобнее.

За последний год аудитория нашего проекта составила почти 2 млн уникальных пользователей, надеемся, что с новой версией сайта и базы данных она продолжит расти.
Python внутри MS Excel [1] - это признание востребованности языка для дата-анализа и тем что Python уже стал стандартом де-факто для всех кто данные обрабатывает. Но то что только в облаке Microsoft Cloud сильно ограничивает корпоративное его применение для всех кто в облаке работать не готов.

Для тех кто использовал/использует MS Excel для очистки и обогащения данных не могу не напомнить про OpenRefine [2], продукт в котором Python (Jython) был встроен с самого начала. Когда надо полуавтоматически/полувручную проверять табличные данные - это незаменимый инструмент.

Ссылки:
[1] https://techcommunity.microsoft.com/t5/microsoft-365-blog/introducing-python-in-excel-the-best-of-both-worlds-for-data/ba-p/3905482
[2] https://openrefine.org

#microsoft #excel #datatools
Хорошая статья на Хабре про девушку которая в виду отсутствия данных о качестве воздуха в Ереване самостоятельно начала собирать датчики [1] и сделала сайт для публикации данных. Лучший способ побуждать любое государство публиковать данные - это создавать данные. Иногда, правда, у государств просто нет ресурсов. Например, Армения не самая богатая страна и данных о качестве жизни не так уж много.

Тут и сайт есть, и данные и сообщество будет формироваться. Просто отличная инициатива!

А мы обязательно добавим эти данные в каталог данных Open Data Armenia [2]

Ссылки:
[1] https://habr.com/ru/articles/755586/
[2] https://data.opendata.am

#armenia #opendata #lifequality #airquality #sensors
It is Web Archive Wednesday My Dudes

В Twitter среди веб-архивистов популярен тег #WebArchiveWednesday — что значит, как можно догадаться, день публикации контента, связанного с цифровыми архивами.

Сделали подборку новостей и находок по теме.

● The New York Times блокирует веб-краулер от Open AI, чтобы запретить сбор контента для использования в обучении алгоритмов искусственного интеллекта. Теперь официально в условиях использования контента появился запрет на использование «robots, spiders, scripts, service, software or any manual or automatic device, tool, or process designed to data mine or scrape».

● Веб-архивы — это беспорядок. Статья, опубликованная в открытом доступе, о том, как организовать хранение наборов данных и кода в notebooks, произведенных в процессе веб-архивирования.

● Awesome Web Archiving list. Ссылка на гитхаб репозиторий с набором полезных ссылок на ресурсы, инструменты, гайды и людей.

● Librarypunk: Web Archiving and Social Media. Если вы понимаете речь на английском или знаете, как организовать перевод, то рекомендуем послушать выпуск подкаста о веб-архивировании и социальных сетях. Или заглянуть в описание, где вы найдете полезные ссылки на материалы.

Enjoy! 🤓

#WebArchiveWednesday #opendata #digitalculture
Please open Telegram to view this post
VIEW IN TELEGRAM
Действительно несколько лет назад я делал такое исследование и его несложно повторить. В одном российском госоргане это привело к большим внутренним проверкам, но это было давно.
Forwarded from Ах, этот Минфин (Olya Parkhimovich)
Интеллектуальная собственность: охрана или …?

Роспатент объявил закупку на развитие ГИС «Омниканальное взаимодействие Роспатеннта с заинтересованными лицами в ходе предоставления госуслуг, услуг в рамках международных соглашений и договоров, публикации общедоступной информации о деятельности в сфере регистрации и охраны объектов интеллектуальной собственности в формате открытых данных».

НМЦК составляет 59 млн руб., поэтому ожидала найти в контракте что-то интересное о публикации открытых данных Роспатента. К сожалению, функции подсистемы «открытые данные» в данном случае сводятся к:

- публикации и просмотру расписания коллегий ППС;
- реализации реестра возражений и заявлений и поиска по нему
- возможности получения информации по делопроизводству и статусов по всем ОИС для включения в раздел «Открытые реестры».

Но в данной закупке зацепило другое. Свойства файла «Проект государственного контракта» говорят нам о том, что документ подготовлен Вероникой Ч. из организации «SPecialiST RePack». А именно такое наименование организации может говорить о пиратском происхождении софта, о чем в 2021 году писал Иван Бегтин (@begtin) и CNews.

С учетом функций Роспатента и закупки на развитие ГИС «для взаимодействия в сфере охраны объектов интеллектуальной собственности» получается весьма иронично.
Во второй раз за пару дней репощу @ahminfin, на сей раз про культуру "открытости" коммуникации ЦБ РФ. Хотелось бы сказать, они же публикуют данные и не всё так плохо, но... на деле то у ЦБ данных очень много и они рассеяны по всему их сайту и никогда не сводились в каталог для доступа. Максимум, что было - это что-то доступно через API, но далеко, далеко не всё. Учитывая что Пр-во РФ давно уже сползает от открытости данных к "открытости коммуникаций" с заведением аккаунтов в соцсетях госорганов, то можно пронаблюдать как такие коммуникации происходят. ЦБ, конечно, не орган власти, но всё очень и очень показательно;)

#opengov #russia #bankofrussia
Forwarded from Ах, этот Минфин (Olya Parkhimovich)
«А с чего вы взяли, что мы обиделись?», «Молчать придется вам», «У вас какой-то особенный канал связи с реальностью?» - Банк России завел телеграм-чат и теперь общается с гражданами

Банк России добавил к телеграм-каналу @centralbank_russia чат и активно взаимодействует с гражданами.

Приведу несколько цитат админов чата (см. скрины):

- "Знаете, если вы чего-то не видели, это не значит, что этого нет"

- "Если вы будете придерживаться такого тона, то молчать придется вам"

- "Простите, но это просто чушь"

- "А как по-вашему формировать статистические данные? Может быть, у вас есть какой-то супер лайфхак?"

- "У вас какой-то особый канал связи с реальностью, где инфляция 70%? Не нужно тут писать ерунду, здесь рады только конструктивным диалогам и интеллигентному юмору (иногда)"

- "Стоит думать, прежде чем воспользоваться любым советом, и не дважды, а постоянно"

- "Если вы знаете наш ответ, то зачем продолжаете спрашивать? Думаете, повторение одного и того же действия может дать иной результат?"

- "Просьба только обойтись без сарказма вроде тезиса об уборке помещений, это грубо. Мы ведь и ответить можем )"

- "Может быть у вас есть аргументы сильнее, чем "бред сивой кобылы"?"

- "Не нужно тут ставить никому оценок, тем более админам. За хамство - бан"

- "Вы о чем вообще?". "У кого "у нас" не работают переводы? И с чего вы взяли что мы пользуемся swift?"

- "А с чего вы взяли, что мы обиделись? Мы просто следим тут за порядком"

- "То есть вы считаете, что мы все сложили в одну кучу? А с чего вы это взяли? Вернитесь к текстам по ссылкам еще раз, там указано, какие другие были кучи и каких активов"

- "Разозлившийся комментатор, пишущий саркастический комментарий - это не оскорбление. Злиться нормально, писать комментарии - тоже. Не обижайтесь )"

- "Оскорбления (и постановка диагнозов по интернету) в комментариях запрещены"

Кстати, меня в этом чате забанили после вопроса о том, как записаться на экскурсию в Музей ЦБ, но на таком фоне это и не удивляет - наверно, не вписалась в корпоративную стилистику :D
Давно откладываю и всё никак не завершу обещанный обзор корпоративных каталогов данных и больше лонгридов, но пока длинные тексты даются мне с трудом. Кстати, до сих пор это как одно из последствий ковида, просто чувствую как на способность много-много-много писать он повлиял.

А вот что касается публикации открытых данных, то я на днях обновил список на Awesome Open Data software [1] и там большая подборка открытого и коммерческого ПО для публикации открытых данных, геоданных, научных данных и ещё ссылки на инструменты их подготовки и многочисленные стандарты.

Если думаете как и на чём публиковать данные, список будет полезен. Я постоянно нахожу что-то новое при создание каталога-каталогов данных и всё записываю в этот список, так что он растёт и развивается.

Ссылки:
[1] https://github.com/commondataio/awesome-opendata-software

#opendata #opensource #datacatalogs
Forwarded from Innovation & Research
Корейский поисковик Naver выпустил языковую модель

Разработка называется HyperCLOVA X. На её базе действует похожий на ChatGTP чат-бот CLOVA X и генеративный поисковый сервис Clue, аналогичный Bing от Microsoft.

Число параметров не раскрывается, но известно, что предыдущая версия модели, HyperCLOVA, разработанная в 2021 году, имела 204 млрд параметров.

Над моделью работала команда из 500 экспертов в области ИИ и Naver теперь входит в пятёрку компаний, имеющих собственную большую языковую модель с более чем 100 млрд параметров.

Также компания разрабатывает мультимодальную языковую модель, которая могла бы генерировать помимо текста ещё и графику, видео и аудио.

Naver фокусирует продукты на национальных языках региона и стремится распространить своё покрытие на Корею, Японию, страны Юго-Восточной Азии и Ближнего Востока, для которых международные гиганты типа Microsoft и Google пока не открыли свои флагманские ИИ-сервисы.

#LLM #чатботы

https://techcrunch.com/2023/08/24/koreas-internet-giant-naver-unveils-generative-ai-services/
Полезный материал для тех кто изучает ценность и стоимость данных, научная статья What is the value of data? A review of empirical methods [1] в первую очередь относится к данным общедоступным, создаваемым для предоставления другим и продаваемым на маркетплейсах и иначе монетизируемых. Полезно для разговоров с про обоснование стоимости данных и не только. Полезно для измерения ценности открытия данных.

Ссылки:
[1] https://onlinelibrary.wiley.com/doi/full/10.1111/joes.12585

#opendata #articles #readings
В копилку плохих новостей про открытые данные, более недоступен портал Госрасходы (spending.gov.ru) [1]. Откуда его не открывай, из Армении, Европы или из России, всегда выдаётся 403 ошибка.

По этому статусу не определить отключён ли проект полностью или недоступен для широкой публики, но важная часть моей работы в Счётной палаты теперь недоступна. При том что я покинул Счетную палату уже давно и проект развивался и после моего ухода, но увы, я действительно не знаю всех причин почему его закрыли. Думаю что не последней причиной был уход Кудрина из Счетной палаты и что вот уже очень долгое время новый председатель так и не назначен.

Конечно, ещё остаётся надежда что Госрасходы отключены из-за проблем в настройках сети или случайных действий админов, но больше похоже что нет, его больше нет.

Здесь я не могу не напомнить что у нас в АНО Инфокультура (@infoculture) остался общественный проект clearspending.ru [2] где не было такой продвинутой аналитики по национальным проектам и бюджету, зато всегда была доступна и остаётся база госконтрактов. Проект останется открытым и включает дампы всей внутренней базы контрактов.


Ссылки:
[1] https://spending.gov.ru
[2] https://clearspending.ru

#opendata #contracts #sprf #infoculture
В качестве регулярного напоминания, хотя я в последние годы делаю проекты не только в России, но и в Армении, а также некоторые глобальные, но АНО Инфокультура от лица которого наша команда создавала проекты по открытости в России всё ещё действует и, несмотря на все ограничения, действовать будет дальше, как я надеюсь, во всяком случае.

Мы продолжаем и поддерживаем такие проекты как:
- Госзатраты [1] агрегатор всех государственных и муниципальных контрактов по 44-ФЗ. 223-ФЗ, 94-ФЗ и ряда постановлений Пр-ва РФ. Все доступно для поиска, доступно как открытые данные. Мы продолжим развивать его и дальше
- Открытые НКО [2] портал прозрачности НКО в России. Хотя российское Пр-во начало скрывать данные по учредителям организаций НКО ещё с весны 2021 года, мы продолжаем обновлять данные, хотя и остальные возможности развития проекта ограничены.
- Простой язык [3] сервис определения простоты текстов на русском языке. Проект остаётся неизменным уже много лет, форма куда можно отправить текст и получить оценку его простоты в годах обучения. Мы думаем как его улучшать и развивать, регулярно приходят пользователи с разными запросами.
- Хаб открытых данных [4] негосударственный портал открытых данных. Из-за потоков спама нам пришлось отключить там свободную регистрацию, но сам хаб никуда не исчезает, думаем о его перезапуске. Может быть когда Минэкономразвития России опубликует обновлённый портал data.gov.ru на Гостехе мы специально обновим Хаб открытых данных чтобы показать всем какую хрень может сотворить министерство за 100500 денюх и насколько лучше можем мы сделать с минимальным бюджетом.
- Национальный цифровой архив России [5] наш проект по архивации сайтов, был более актуален когда шла совсем полная срань с ликвидацией сайтов многих российских "инагентов", менее критично сейчас, с одной стороны, с другой всё ещё актуально. Стало сложнее архивировать госсайты, они все обзавелись капчами и блокировкой любых не-российских IP адресов. Поэтому, в очередной раз, думаем о смене приоритетов и актуализации программы архивации. У проекта есть отдельный телеграм канал https://t.iss.one/ruarxive, не стесняйтесь, подписывайтесь на него.
- День открытых данных в России [6] мы не проводили его в 2022 году, всё же провели в 2023 году и планируем в том же формате в 2024 году, по большей части онлайн. Госполитика в области открытых данных в России давно уже сдувается, а сейчас ещё и сталкивается с военной цензурой и общей "разрухой в головах" , но существует всё ещё сильное русскоязычное сообщество по открытости и только ради него мы это проводим.

Хотелось бы делать больше, но существующая политическая повестка этого не позволяет. Хорошо что получается сохранять то что есть, хотя и с ощущением что в любой момент может возникнуть политическое давление и даже это будет сложно сохранить.

Из России всегда можно поддержать эти проекты на странице Инфокультуры https://www.infoculture.ru/donation/ если от физ лица или напишите мне если хотите сделать это от юридического лица.

Ссылки:
[1] https://clearspending.ru
[2] https://openngo.ru
[3] https://plainrussian.ru
[4] https://hubofdata.ru
[5] https://ruarxive.org
[6] https://opendataday.ru

#opendata #russia #infoculture #opengov
Хорошие ребята из проекта Если быть точным отделились в отдельный фонд и продолжают развивать свой проект с социальными показателями по России. Работа у них важная и непосредственно связанная с использованием и созданием открытых данных.