Ivan Begtin

Несмотря на то что я много пишу тут в телеграме, тексты в СМИ и ещё веду много разной консультационной работы, программирование я почти никогда не бросал и хотя бы несколько часов в неделю всегда стараюсь найти, как минимум для того чтобы поддерживать навыки ну и просто потому что это же страшно интересно. Но если лет 15 назад моя работа состояла из программирования и проектирования ПО, а то как устроено государство и данные было хобби, то последние лет 8-9 скорее она состоит из всего остального, а программирование почти превратилось в хобби.

Для тех кто интересуется открытым кодом работы с данными напоминаю что и я и мои коллеги публикуем открытый код как минимум здесь:
- https://github.com/ivbeg
- https://github.com/infoculture
- https://github.com/ruarxive
- https://github.com/datacoon
- https://code.ach.gov.ru/public

Это такие инструменты для работы с данными:
- https://github.com/datacoon/undatum - Undatum, инструмент командной строки для обработки файлов JSON Lines, преобразованию форматов и тд. Создан под обработку особенно больших jsonl файлов, таких как дампы из проекта Госрасходы.
- https://github.com/datacoon/russiannames - парсер русскоязычных ФИО с идентификацией пола и идентификацией того как ФИО написаны
- https://github.com/datacoon/datadifflib - библиотека создания diff'ов, дельт изменений между разными версиями одного набора данных в CSV или JSON
- https://github.com/ruarxive/apibackuper - утилита по архивации данных публикуемых через API
- https://github.com/datacoon/apiready - давний инструмент командной строки по быстрому созданию API из CSV или JSON файла

Инструменты извлечения данных:
- https://github.com/ivbeg/newsworker - продвинутая библиотека извлечения новостей из веб-сайтов у которых нет экспорта новостей в RSS/ATOM.
- https://github.com/ivbeg/lazyscraper - утилита командной строки для скрейпинга данных для ленивых. Полезно когда совсем лень писать код
- https://github.com/ivbeg/docx2csv - утилита извлечения таблиц из файлов DOCX и сохранения их в CSV формат. Оказывается нужно чаще чем хотелось бы
- https://github.com/ivbeg/qddate - библиотека идентификации и разбора дат написанных на любом языке и в любом стиле, без знания об этом стиле и языке заранее

Репозитории по созданию датасетов:
- https://github.com/infoculture/govdomains - реестр всех госдоменов (сейчас мигрирует в Airtable, а в репозиторий выкладываю слепки)
- https://github.com/infoculture/ruregions - реестр метаданных по российским регионам

Наверное есть ещё что-то на чём можно сделать акцент, но я и сам уже всё не припомню. Открытость кода - это хорошо, многое не получается выложить только от того что не хватает времени всё документировать.

#opensource

1.9K viewsIvan Begtin, 16:11