Ivan Begtin
8K subscribers
1.9K photos
3 videos
101 files
4.6K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]
Download Telegram
Многочисленные напоминания
За эти годы многие ресурсы, полезные инструменты и материалы были созданы мной и нашей командой. Я периодически напоминаю что они есть и их можно использовать.

Телеграм теперь вновь легализован в России и нет никаких оснований не подписаться на мой телеграм канал я пишу про технологии, про данные, про открытость, реже про госзакупки, чаще про мировые и российские новости
https://t.iss.one/begtin

Канал Инфокультуры содержит видеозаписи не только последних 3-х вебинаров по приватности, но и множество лекций про открытые данные и не только со дней открытых данных. Не проходите мимо, смотрите и подписывайтесь
https://www.youtube.com/channel/UCve6269kQEJ1LW52HXKtTng

Открытое API для данных проекта Счетной палаты Spending.gov.ru и там же открытые данные. Включая данные по нацпроектам
https://spending.gov.ru/pages/devs_api/
https://spending.gov.ru/devs/opendata/

Открытый код Инфокультуры, мой собственный код
https://github.com/infoculture
https://github.com/ivbeg
https://github.com/datacoon
а также открытый код частей проекта Госрасходы (Счетная палата) и иного открытого кода
https://code.ach.gov.ru/public

Подписка на рассылку Инфокультуры
https://infoculture.us7.list-manage.com/subscribe?u=2e38b8af0d8a547b51427dc9b&id=dadb533f05

Множество моих презентаций разной степени актуальности
https://www.slideshare.net/ivbeg/presentations

Мой личный сайт и блог, там же можно подписаться. Пишу туда сильно реже, и в основном то где есть текст побольше и картинки
https://begtin.tech

Данные опубликованные на Data.world в профиле Инфокультуры, немного, но удобно структурированы
https://data.world/infoculture

Полезные репозитории ссылок
Реестр госдоменов
https://github.com/infoculture/govdomains

Awesome список по журналистике данных
https://github.com/infoculture/awesome-datajournalism

Awesome список по открытым данным в России
https://github.com/infoculture/awesome-opendata-rus

Awesome список по Data Ops
https://github.com/datacoon/awesome-dataops

Undatum утилита обработки больших BSON/JSON/CSV файлов
https://github.com/datacoon/undatum

Russian Names библиотека автоматической идентификация пола по ФИО для русского языка
https://github.com/datacoon/russiannames

Awesome список по цифровой форенсике (цифровому дознанию) сбору данных с помощью онлайн инструментов
https://github.com/ivbeg/awesome-forensicstools

И ещё много всего, в следующей порции регулярных напоминаний расскажу о проектах которые не упомянул сейчас.

#opendata #data #projects #opengov #opensource
Яндекс закрыл социальную сеть Яндекс.Район, об этом можно прочитать в официальном анонсе [1] и в заметке на Roem [2]. Можно было предположить что закрытие, во многом, связано с ужесточением регулирования медиа, контента, а может быть, действительно, то что касается краудсорсинга контента и социальных сетей а даётся Яндексу с трудом. Та же соцсеть Аура также не взлетела и была закрыта, как и многие другие проекты Яндекса в этой области.

При этом, безусловно, жаль закрытия. Яндекс.Район - это один из немногих гиперлокальных проектов в России действующих на уровне конкретного района, города, поселения. И он, конечно, был бы куда полезнее, простите, довольно бессмысленного Яндекс.Кью и, несомненно прибыльного, но весьма неприятного Дзен.

Успешных гиперлокальных проектов в мире немного, из наиболее известных можно вспомнить Patch [3] в США, купленный AOL в 2009 году за неназванную сумму, но к концу 2018-2019 года он оценивался как [4] вполне прибыльный и приносящий до $20 дохода, в его сеть входило 1200 локальных сайтов, 150 сотрудников и 110 журналистов, включая журналистов национальных медиа.

Можно ли создать гиперлокальный проект не создавая полноценное медиа? Я не очень в это верю, а в России - это превращается из коммерческого проекта в проект управления рисками. Но что можно было бы сказать это то что Яндекс.Район мог бы быть совсем другим если бы не был соцсетью. У Яндекса много сервисов локального уровня, собрать их вместе на гиперлокальном уровне, партнёрство с муниципальными органами, интеграция открытых данных могли бы сделать проект/продукт куда более востребованным.

Ссылки:
[1] https://local.yandex.ru/moscow/top?event_id=4422133
[2] https://roem.ru/30-12-2020/284517/yandex-local-closed/
[3] https://patch.com
[4] https://en.wikipedia.org/wiki/Patch_(website)

#opendata #yandex #projects #hyperlocal
Замечательный свежий проект "Достоевский" [1] на открытых данных и с открытыми данными оформлен как удобный интерфейс над судебной статистикой [2] Судебного департамента РФ.

Данные, относительно, небольшого объёма, но собраны, обработаны, представлены в виде удобного набора данных и наглядной аналитики.

Авторы проекта ОВД Инфо [3] и Data for society [4] соблюли все все правила открытости для таких проектов: сделали аналитику (рассказали историю), опубликовали набор данных и всё под открытой лицензией Creative Commons.

Для полного счастья нехватает разьве что открытого кода, который, также опубликован [5]. Так что проект хороший со всех сторон. А для тех кто работает с правоохранительной системой постоянно это ещё и замечательный источник пищи для размышлений и продумывания действий.

Ссылки:
[1] https://beta.dostoevsky.io/ru/
[2] https://cdep.ru/index.php?id=79
[3] https://ovdinfo.org/
[4] https://d4s.io/
[5] https://github.com/goooseman/dostoevsky-website/

#opendata #projects #courts
Я тут начал было только перечислять то какие проекты мы планировали делать до вот-этого-всего, но список получался очень грустный, и для поиска финансирования общественных проектов сложности в России уже давно. Но какие то планы можно вспомнить:
- День открытых данных - вели активную подготовку, всё было готово, отменили в последний момент потому что теперь всё это кажется малоцелесообразным. Хотя нам и надо как-то поддерживать сообщество и не терять связи с миром, но абсолютно непонятно теперь что будет дальше с открытостью государства. Вернее понятно что будет хуже.
- Прозрачный нефтегаз - проект который я проектировал ещё 3 года назад и к которому были планы вернутся, по систематизации того как добывающие компании платят налоги, поддерживают социальную инфраструктуру и тд. В мире есть несколько таких проектов, было желание сделать его и в России. Будет ли он актуален? Сомневаюсь
- Государственные НКО - у меня на руках уже с полгода лежит доклад дописанный на 80% о том как из госбюджета государство раздаёт средства госНКО для выполнения государственных функций. Важная была тема в мирное время, сейчас уже кажется неактуальным. Как бы вообще траты бюджета не закрыли.

Это не полный список. Ещё остались система мониторинга законотворчества, база муниципальных показателей, переделка нашего портала Открытые НКО (openngo.ru) с наполнением новыми данными и многое другое.

Но теперь всё это кажется проектами из другого мира. Что можно будет делать в нашей новой реальности? Самое главное мне представляется архивацией данных, сайтов, цифрового наследия которое сейчас исчезает. На всё это никогда не было финансирования в России и сейчас тоже это проблема его найти. Но в плане исторической ценности - это важнейшее направление.

По крайней мере в том что касается некоммерческих проектов.

#thoughts #projects #infoculture
Один из вопросов на которые пока лично у меня нет ответа - это какие некоммерческие проекты ещё возможно создавать в России. Почти все проекты Инфокультуры в последние годы были вокруг данных. Это и Госзатраты и Открытые НКО и многие другие проекты [1]. Они всё ещё доступны, но неизвестно когда, скорее скоро, до них доберутся российские цензоры и выбор будет, или их закрывать, или перестать делать их внутри России.

Проект который развивать можно и нужно безо всех сомнений, хотя и также с рисками - это Национальный цифровой архив, из его телеграм канала я регулярно делаю репосты.

Что ещё полезного и реально актуального можно делать в России? Особенно с учётом полного отсутствия финансирования на технологичные некоммерческие проекты. Я вижу явную тему опрозрачивания рынка ИТ, и даже понимаю что можно делать в этом направлении, не понимаю правда где на это взять финансирование, но что-то можно и без него.

Вижу явную тему мониторинга [падения] качества жизни вот только все реальные данные по этой теме могут сейчас оказаться зацензурированы, уже цензурируются по факту.

Любое опрозрачивание объективного состояния экономики будет предметом манипуляции и давления со всех сторон, в общем, тоже мимо.

Открытые данные - это то что находится внутри любой подобной инициативы, по умолчанию.

Давайте обсудим какие технологические общественные проекты актуальны в России. И напишите, если Вы какие-то проекты на данных делаете или планируете делать.

Ссылки:
[1] https://infoculture.ru/projects

#opendata #opengov #projects
На один из наших проектов связанных с работой с большими открытыми данными есть потребность в бэкенд разработчике на Python, работа в России, в Москве.

Работа не для джунов, нужен опыт с чистым Python, Postgres и MongoDB. Проект интересный и сложный. Если готовы работать сами или можете порекомендовать, то сделать это можно вот тут https://hh.ru/vacancy/66696558

#vacancies #projects
Как, возможно, многие обратили внимание я не размещаю рекламу в моём телеграм канале @begtin, а всем кто общается с подобным выставляю нереальный ценник.

Причина этого в том что я и сам редко вижу приличную рекламу и знаю насколько раздражают "нативные тексты" и то что я ценю аудиторию к которой обращаюсь. Этот телеграм канал я создавал, вначале, как каталог личных публичных заметок и сейчас его держу в той же форме, размечая, по возможности, каждый пост тегами.

Но если бы реклама была, то заработанные деньги пошли бы, всё равно, на деятельность АНО Инфокультура @infoculture которое я возглавляю и такие наши проекты как Простой русский язык, Госзатраты, Открытые НКО и Национальный цифровой архив. А также многие проекты по открытости "зависли" ещё в начале ковидных годов, но хочется надеяться к ним ещё вернуться.

Я лично стараюсь тратить на сохранение этих проектов хотя бы часть заработанного лично. И время от времени, не слишком часто, буду докучать предложениями этим проектам помочь․ Например, через сервис донатов в телеграм.

#fundraising #projects #blogging
Я регулярно пишу тут в канале про порталы открытых данных , научные каталоги и другие каталоги данных, а за всем этим стоит пока небольшой проект создания общедоступного поискового индекса по всем доступным данным, открытый аналог Google Search. Он так и называется Common Data Index.
Причём этот проект 4-х этапный, где каждый этап отдельный под проект.

Чтобы создать поисковую систему нужно:
1. Создать реестр большинства каталогов данных
2. Собрать описания наборов данных в первичные индексы
3. Создать единый поисковый индекс и веб интерфейс над ним
4. Создать систему архивации ключевых данных и обогащение поискового индекса информацией из сохранённых наборов данных

Вот так это выглядит в майндмапе.

А вот так выглядит первая часть этого проекта, каталог каталогов данных [1] пока в виде репозитория где каждому каталогу соответствует отдельный YAML файл с метаданными и единый набор данных каталога каталогов собирается в JSONL файл.

Сейчас в этом каталоге каталогов 1736 записей, часть из них надо вычищать как уже недоступные, а многие просто ещё не найдены. потенциально их около 2500-3000. Чем-то проект похож на datacatalogs.ru который мы в @infoculture делали в прошлые годы и тоже как потенциальную основу для поисковика по данным в России.

Сейчас есть понимание что делать поисковик только по российским данным - это недостаточные амбиции, если делать то сразу глобально.

Пока об этом проекте я пишу только тут в телеграм канале, он в стадии проектирования и я его только начал выводить из собственного pet проекта в активную фазу, но что могу сказать сразу так это то что есть большое желание сделать поисковую систему по данным используя технологии о которых я ранее писал - идентификацию семантических типов данных, а также инструменты автоматизации data discovery.

Ссылки:
[1] https://github.com/commondataio/dataportals-registry

#opendata #opensource #projects
В качестве регулярных напоминаний о том какие некоммерческие проекты делают наши команды в Open Data Center (Армения) и в Инфокультура (Россия):

В Армении
- Мы запустили портал открытых данных data.opendata.am на котором уже 809 наборов данных. В ближайших планах организация конкурса на открытых данных и подготовка Open Data Day в Ереване в марте 2024 г. Изначально планировали конкурс ещё в сентябре, но гуманитарный кризис вокруг Арцаха сейчас создаёт совсем другие приоритеты у общества в стране. Тем не менее наши планы не изменились, лишь сдвинулись. Подробности будут регулярно в телеграм канале https://t.iss.one/opendataam
- Любая помощь в поиске, сборе данных, финансовая поддержка, партнерство в конкурсе и в подготовке Дня открытых данных всячески приветствуется. Пишите мне (на русском, армянском или английском) если готовы помочь и в чате https://t.iss.one/opendataamchat
- И, конечно, не могу не напомнить про наш негосударственный портал открытых данных https://data.opendata.am

В России
- Мы продолжаем, как минимум поддерживать, как максимум развивать где это возможно проекты созданные в России связанные с открытыми данными, открытостью госфинансов, НКО, цифровым сохранением и так далее. Это такие проекты как:
— Госзатраты https://clearspending.ru продолжает обновляться, база госконтрактов и открытые данные.
— Открытые НКО https://openngo.ru база и открытые данные по российским некоммерческим организациям. Полузаморожен, но актуализируется насколько возможно. Многие данные более не публикуется госорганами, например, сведения об учредителях НКО.
— Простой русский язык https://plainrussian.ru не столько про открытость, сколько про понятность документов на русском языке
— Национальный цифровой архив https://ruarxive.org про архивацию цифрового исчезающего контента
- Есть и другие проекты, о которых можно будет говорить когда они будут готовы. В любом случае много усилий сейчас про то как сохранить и не потерять сделанное ранее.

Глобальное
- Продолжается проект каталога порталов открытых данных https://registry.commondata.io и поисковой системы поверх него. Проект продолжается, каталогов всё больше, метаданные с их описанием всё лучше, но самое главное будет поисковой системы поверх них.

Если Вы видите возможности и идеи для кооперации и партнерства, пишите мне.

#opendata #russia #armenia #projects #digitalpreservation
Моя презентация с сегодняшнего дня открытых данных , а также можно уже посмотреть работающую версию поисковика Dateno.

Он пока ещё в режиме работающей беты, а то есть ошибок много, дубликатов много, метаданные в оригинальных источниках часто кривые и ещё много чего, лучше посмотреть презентацию чтобы понять.

Но... им уже можно пользоваться. Можно задавать вопросы, можно присылать мне фидбек, можно зарегистрироваться в Discord'е чтобы задавать вопросы разработчикам. Главное помнить что в дискорде проекта рабочий язык английский.

Всего в Dateno сейчас 10M наборов данных из 4.9 тысяч каталогов. До когда 2024 года планы достигнуть 30M наборов данных, значительно улучшить веб интерфейс, добавить ещё много интересных возможностей.

У проекта есть API, оно скоро будет открытым также. Много доступно как открытый код тут. А в основе проекта реестр каталогов данных о котором я писал весь прошлый и этот годы.

#opendata #datasets #projects #datasearch #data