Инфокультура
889 subscribers
243 photos
4 videos
4 files
809 links
Новости Информационной культуры. https://infoculture.ru
Download Telegram
“Госзатратам” 10 лет!

4 февраля 2014, ровно 10 лет назад, был запущен проект “Госзатраты” (clearspending.ru) - один из первых в России информационно-аналитических проектов, направленных на повышение осведомленности граждан о состоянии, тенденциях, проблемах и рисках в сфере планирования и исполнения государственных расходов.

10 лет “Госзатрат” - это 10 тысяч уникальных посетителей в сутки (а за 10 лет - уже 16 миллионов), 53 миллиона просмотренных страниц и данные о 55 миллионах контрактов.

Вот уже 10 лет мы непрерывно скачиваем портала Госзакупок данные о госконтрактах, преобразовываем их и предоставляем разработчикам в формате API.

С 2014 по 2019 год мы активно проводили онлайн и офлайн-мероприятия – хакатоны и семинары по тематике госфинансов, команда проекта принимала участие в «Днях открытых данных».

С 2019 года по июль 2023 года наша команда разрабатывала проект СП РФ “Госрасходы” (spendging.gov.ru), поэтому “Госзатраты” оставались в режиме поддержки. Но, с учетом регулярно обновляющейся схемы данных портала госзакупок, работы нам и в этот период хватало :).

В конце 2023 года мы вернулись к активной разработке проекта и скоро представим вам новую базу данных и обновленный альфа-версию обновленного сайта проекта. Мы будем вести разработку в “открытом режиме”, поэтому у всех пользователей будет возможность протестировать и привыкнуть к новому интерфейсу, оставить обратную связь и предложения по новому функционалу. Предложения и комментарии можно будет оставлять в комментариях к этому посту или на почту [email protected].

Также мы заранее анонсируем необходимость авторизации для использования API проекта, но у вас будет достаточно времени для регистрации и перехода на новую схему данных.

Благодарим всех наших пользователей, разработчиков, использующих API и открытые данные, поставщиков данных (Минфин России и Казначейство России, надеемся, что данные останутся доступными) и, конечно, команду проекта.
Forwarded from Ах, этот Минфин (Olya Parkhimovich)
Изостатистика - одна из первых книг по инфографике

Так как мы решаем большую задачу «собрать бюджеты России за 100 лет», приходится часто искать новые источники исторических книг и документов. Одной из самых интересных находок стала книга И.П. Иваницкого «Изостатистика. Изобразительная статистика и венский метод», изданная в «Москве-Ленинграде» в 1932 году.

Изостатистика, как оказалось, примерно то же самое, что в современном мире называют «инфографикой», и что в книге зовется «количественной системой диаграммирования».

Книга описывает базовые принципы создания диаграмм, приводит большое количество примеров исторических инфографик и разбирает каждую из них.

К сожалению, книга черно-белая, но все равно уникальная.

Скачать книгу можно с сайта НЭБ (уникальный источник исторических книг): https://rusneb.ru/catalog/000199_000009_005073846/

#открытыеданные #инфографика #диаграммы
Программа Дня открытых данных 2024: открытые данные для науки, статистика внешней торговли, госфинансы и многое другое

🗓 Дата и время: 6 марта, 11:00-14:30
💻 Формат: онлайн-трансляция

Опубликована программа российского Дня открытых данных. Темы выступлений:

1. Открытые данные для управления российской наукой: проблемы и возможности. Спикер Иван Стерлигов, советник проректора по науке НИУ ВШЭ.
2. Открыть нельзя закрыть: особенности работы со статистикой внешней торговли России. Спикер Алина Владимирова, руководитель направления сетевого анализа, Институт востоковедения РАН.
3. Презентация проекта Dateno — поисковика по открытым и общедоступным данным по всему миру. Спикер Иван Бегтин, директор АНО «Инфокультура».
4. Открытость госфинансов: вчера, сегодня, завтра. Спикер Ольга Пархимович, руководитель проекта «Госзатраты».
5. Презентация проекта ДумаБинго: Что мы можем сказать о работе Государственной думы, используя открытые данные. Спикер Александр Верещагин, аналитик проекта.
6. Тендерскоп: инструмент общественного контроля публичных закупок. Спикер Ирина Чарикова, руководитель проекта.

📍Регистрируйтесь на мероприятие и добавляйте его себе в календарь. Подробности на сайте: https://opendataday.ru/msk

Организатором Дня открытых данных в России выступает АНО «Информационная культура».
Forwarded from Ах, этот Минфин (Olya Parkhimovich)
День открытых данных: 6 марта с 11:00

6 марта с 11:00 в онлайн-формате пройдет ежегодный День открытых данных. В этом году будут представлены выступления об открытых данных в российской науке, об особенностях работы со статистикой внешней торговли, презентация нового проекта Dateno и многое другое.

В 12:45 расскажу о том, что происходит в области открытых госфинансов: повышается ли уровень финансовой открытости, доступ к каким наборам данных мы потеряли, что ожидать в ближайшее время и над какими проектами мы сейчас работаем.

Заспойлерю несколько скриншотов обновленной версии сайта проекта «Госзатраты», расскажу как мы собираем 5 тысяч исторических документов о госфинансах и как мы победили в конкурсе СПб «Твой Бюджет 2.0», по результатам которого Петербургские госорганы опубликуют в открытом доступе 150 тысяч страниц о финансах Петербурга за 100 лет.

Регистрация по ссылке: https://opendataday.ru/msk
К Дню архивов запускаем проект «Цифровой архив госфинансов и госуправления»

Фонд «Институт экономической политики имени Е.Т. Гайдара» и АНО «Информационная культура» запускают новый общественный проект «Цифровой архив госфинансов и госуправления», доступный по адресу finlibrary.ru.

Основная цель проекта — сохранить исторические источники о государственных финансах и госуправлении и сделать их доступными для экономистов, историков, исследователей, разработчиков и всех заинтересованных.

Портал «Цифровой архив госфинансов» создан для публикации электронных копий исторических документов и машиночитаемых данных, сгенерированных на их основе. Веб-интерфейс портала предоставляет доступ к первичным и систематизированным историческим источникам для обычных пользователей и наборам открытых данных и API для исследователей и разработчиков.

Источниками для проекта являются архивные документы, книги, визуализации и статистические сборники, размещенные на сторонних ресурсах или отсканированные силами команды проекта. Среди собранных документов можно найти Государственные бюджеты СССР и РСФСР, выпуски журнала “Проблемы экономики” и бюллетени Счетной Палаты РФ, документы департаментов Минфина XIX века, книги по истории Минфина России, бюджеты городов и многое другое.

Самый ранний государственный бюджет, доступный в базе данных проекта, датирован 1866 годом, а всего на данный момент собраны государственные бюджеты за 81 год.

Уже сейчас на портале доступно более 1000 электронных копий редких и уникальных материалов, а также несколько десятков машиночитаемых наборов данных, сформированных на основе оцифрованных и верифицированных сведений из таблиц, содержащихся в материалах-первоисточниках.

К концу 2024 года мы планируем расширить базу данных до 3 тысяч документов за счет поиска новых источников.

Будем рады пожеланиям и предложениям. Пишите на почту [email protected] (Ольге Пархимович) или в телеграм @k0shk. Более подробную информацию о проекте можно найти в анонсе: https://finlibrary.ru/s/finarchive/page/news.
Мастерская дата-журналистики на Летней школе

Инфокультура примет участие в мастерской по дата-журналистике на «Летней школе» с лекциями про открытые данные. Мастерская организована изданием Системного Блока.

🙂 Для кого мастерская?

Для журналистов, студентов и выпускников медийных и других гуманитарных специальностей, а также программистов, аналитиков данных и дизайнеров, готовых попробовать себя в новой сфере.

📕 Что нужно будет делать?

Сначала учиться, а потом применять знания на практике. Программа состоит из образовательного и проектного блоков.

В образовательном блоке мастерской участники узнают, каким данным можно верить и какими источниками пользоваться, что можно делать с данными, как их визуализировать и собирать истории.

В проектном блоке участников ждет хакатон. Будет сформировано 10 редакций, которые пройдут полный цикл создания медиаматериала на основе подготовленных датасетов. Каждая команда получит возможность завершить мастерскую публикацией своего исследования на сайте партнеров мастерской.

📌 Когда и где?

Даты проведения: с 21 июля по 5 августа 2024 года в палаточном лагере на Волге недалеко от Дубны.

Будут все необходимые условия для работы: учебные комнаты, столы-стулья-пуфики, электричество, интернет, термопоты для чая ☕️

Из неочевидных бонусов: сосновый лес, красивые закаты и вечерние костры 📸

👇 Как попасть на мастерскую?

Подать заявку на участие можно на странице мастерской до 20 мая.

Обучение бесплатное, на питание и проживание участников «Летняя школа» собирает добровольные взносы. Более подробно вы можете прочитать в FAQ.
Please open Telegram to view this post
VIEW IN TELEGRAM
Для тех кто работает с файлами в WARC формате (большая часть сайтов в ruarxive хранятся в нём) ещё одна утилита по работе с ними. Warchaeology [1]. Утилита создана в Национальной библиотеке Норвегии и позволяет:
- конвертировать форматы ARC, WARC и Nedlib
- листать WARC файлы
- удалять дубликаты файлов
- валидировать содержание WARC файлов
- предоставлять оболочку по работе с WARC файлами

Инструмент полезный, может пригодится тем кто любит работать в командной строке. Я также напомню про библиотеку и утилиту командной строки WarcIO [2] с функциями извлечения и пересжатия содержимого WARC файлов и разработанную мной когда-то утилиту MetaWARC [3] которая тоже умеет извлекать контент из WARC файлов и ещё индексировать их в sqlite и считать статистику и даже извлекать метаданные из вложенных файлов.

Больше инструментов полезных и разных! Если Вы знаете хорошие инструменты с открытым кодом для цифровой архивации, пишите нам, будем делать их обзоры.

Ссылки:
[1] https://github.com/nlnwa/warchaeology
[2] https://github.com/webrecorder/warcio
[3] https://github.com/datacoon/metawarc

#tools #opensource #digitalpreservation #webarchives #WARC #software
Forwarded from Ах, этот Минфин (Olya Parkhimovich)
«Первое и важнейшее условие существования всякой благоустроенной системы госфинансов заключается в полнейшей гласности и отчетности расходов каждого фартинга казенных денег», 1870 г.

Удивительно, но все обоснования открытости и подотчетности государства, звучавшие при создании Открытого Правительства, разработке концепции открытых данных и развитии открытости не только в России, но и в других странах, были сформулированы еще 150 лет назад в издании Ливерпульской ассоциации финансовых реформ «Как англичане критикуют свои государственные расходы» (1870 год).

Авторы описывают необходимость открытости и подотчетности госорганов, работу государства за счет налогов граждан, необходимость бережного отношения к деньгам граждан, необходимость еще большей открытости Великобритании, а также высказывают сомнения в точности и добросовестности раскрываемой информации.

Второе издание 1908 года, пополнившее библиотеку Инфокультуры благодаря Максиму Осовскому, мы оцифровываем для проекта Цифрового архива госфинансов (@finlibraryru, подписывайтесь, будем делиться новостями проекта и находками).

Оригинал текста на скриншоте, но для удобства цитирую ниже:

«Первое и важнейшее условие существования всякой благоустроенной системы госфинансов заключается в полнейшей гласности и отчетности расходов каждого фартинга казенных денег. Государственные люди не должны забывать, что большинство доходов казны собирается в форме налогов. т.е. принудительным образом и без вознаграждения подданного каким-нибудь личным эквивалентом. Расход каждого фартинга казенных денег, поэтому, имеет особое, чуть ли не священное значение и должен совершаться с соблюдением величайшей бережливости, осторожности и гласности. … Таким образом, по мысли ливерпульского общества, власть должна производить расходы так, чтобы не только представители народа, но и всякий частный человек имел возможность проследить и проверить, куда и каким путем ушел из рук правительства каждый фартинг денег, ежегодно ассигнуемых народом на нужды государства».
«Современная историческая информатика: аналитика данных в исторических исследованиях»

🗓 Завтра в 17:45 (мск) в рамках конференции о роли данных и технологиях в изучении истории пройдет панельная дискуссия «Историческая информатика и вызов машинного обучения: каково будущее исторической науки в мире искусственного интеллекта?» 🤖

В мероприятии примет участие Иван Бегтин. Присоединяйтесь!

📍 Онлайн-участие: https://my.mts-link.ru/j/Ranepa/2126423875

📌Сайт конференции: https://aik2024.tilda.ws
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Ivan Begtin (Ivan Begtin)
Для тех кто хочет поработать с данными из OS Places по России, на Хаб открытых данных выложен датасет в формате parquet на 3 096 012 точек [1] и общим объёмом 309 мегабайт.

Ожидаемо, у тех точек где есть привязка к региону, более всего точек у Москвы и Санкт-Петербурга. А вообще датасет можно использовать и для проверки алгоритмов повышения качества данных потому что у более чем половины точек, к примеру, нет указания региона, города и адреса, только координаты.

Датасет большой, идей по его применению может быть очень много

Ссылки:
[1] https://hubofdata.ru/dataset/ru-os-places

#opendata #russia #geodata #datasets
Forwarded from Ivan Begtin (Ivan Begtin)
В качестве регулярных напоминаний, с 1 по 7 марта 2025 года по всему миру пройдут мероприятия Дней открытых данных (Open Data Days, ODD) [1]. Это множество выступлений, лекций, семинаров и встреч по всему миру. Кто то слушает выступления других, кто-то проводит самостоятельно.

Ежегодно в России в Москве его проводит Инфокультура (@infoculture), с 2020 года в дистанционном формате. О прошлом ODD можно узнать на его сайте [2]. В 2025 году он, также, будет проходить дистанционно. Традиционно ключевая тема ODD - это открытые данные, мы также делаем акцент на данных связанных с культурой и историческим наследием, а также данными используемыми в исследовательских целях. В этот мероприятие также планируем и если у Вас есть желание выступить, то можно заранее писать мне.

В Армении мы также проводим день открытых данных, но вживую, организуя его от Open Data Armenia (@opendataam) и акцент делаем не только культурном наследии, но и на журналистике и практическом применении данных. Можно посмотреть программу прошлого ODD [3]. Если Вы в Армении и у Вас есть интересный доклад про данные и открытые данные, тоже обязательно напишите.

И, конечно, напишите, если Вы готовы выступить спонсором или иначе поддержать эти мероприятия. Наших скромных ресурсов хватает чтобы их организовать, но никогда не хватает чтобы сделать это идеально 😉

И, наконец, Open Data Day - это не только большие мероприятия, это ещё и сотни небольших митапов по всему миру, хороший повод собраться и поговорить о важном. Можно не только смотреть и участвовать в наших мероприятиях, но и организовать своё, в своём городе, университете или по какой-то своей специальной теме. О таких мероприятиях мы обязательно пишем на наших ресурсах и помогаем привлечь к ним внимание.

Ссылки:
[1] https://opendataday.org
[2] https://opendataday.ru/msk
[3] https://odd.opendata.am

#opendata #opendataday #data #events
Forwarded from Ivan Begtin (Ivan Begtin)
В ближайшие дни я в Москве и довольно неожиданно, а на самом деле давно были планы, читаю лекцию про работу с большими исследовательскими датасетами и об использовании DuckDB и Parquet в этих целях. Будет и в части теории и рассказа про современный инструменты и в части демонстрации на живых данных. Для тех исследователей кто хотя бы немного владеет Python, R и/ли SQL всё будет довольно понятно.

А вот и сам анонс;)

Приглашаем поучаствовать в семинаре на тему особенностей работы с современными форматами больших данных.

Поговорим о ключевых преимуществах формата Parquet для оптимизации хранения и обработки данных, а также о возможностях аналитической СУБД DuckDB.

Семинар может быть интересен тем, кто занимается обработкой и анализом больших данных, а также тем, кто ищет эффективные и производительные решения для работы с массивами данных в современных аналитических экосистемах.

Дата проведения: 21 января 2025 г. (вторник), с 16:30 до 18:00
Формат: гибридный
Место проведения: Институт востоковедения РАН (г. Москва, ул. Рождественка, 12), аудитория 222

Регистрация: https://ivran.ru/registraciya-na-seminar

#opendata #opensource #lectures #teaching
Присоединяйтесь ко Дню открытых данных 2025 — #ODD2025

01.03.2025, 11:00-16:00 (GMT +3), День открытых данных 2025 (https://opendataday.ru/msk) — это ежегодное международное мероприятие, которое помогает продвигать концепцию открытых данных среди органов государственной власти, бизнес-корпораций, некоммерческих организаций и гражданского общества.

Мероприятие пройдет в онлайн формате.

Мы подготовили для аудитории сессии докладов, презентации кейсов и мастер-классы по актуальным вопросам различных направлений открытости и отдельных проектов.
Приглашаем исследователей, дата инженеров, аналитиков, урбанистов, разработчиков, ИТ-специалистов, дата-журналистов и других участников российского движения открытости и любителей данных во всех их формах.

#opendata #russia #events