Ivan Begtin
7.99K subscribers
1.78K photos
3 videos
101 files
4.49K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]
Download Telegram
Сейчас мы в Инфокультуре проводим опрос/сбор/исследование всех небольших технологических проектов ориентированный на общественное благо и социальный эффект. Это когда пользу принести хочется другим, а сам проект может быть и не про заработок. Очень много их возникло в результате конкурсов и хакатонов за последние годы, а также самостоятельно. Если Вы такие знаете - поделитесь ими с нами: https://docs.google.com/forms/d/e/1FAIpQLSfCu4nzHg8m5zhRpYVK1UO5XC08DTkLJHG3pDE-5yYU3Yw-lQ/viewform

Цель сбора их не секретна - мы опубликуем обзор подобных проектов ищем тех кто может рассказывать о своём опыте и в далёком дне открытом данных через год и в других мероприятиях этого года

Результаты опроса мы опубликуем обязательно

#opendata #openprojects
Проекты по открытости в России о которых часто забывают и не грех напомнить ещё раз.

- Научный агрегатор открытых репозиториев openrepository.ru - создан НЭИКОН за счёт гранта от Фонда президентских грантов. Включает данные агрегированные из научных репозиториев статей российских университетов.
- Открытый корпус opencorpora.org для русского языка, большой краудсорсинговый проект, морфологически, синтаксически и семантически размеченный корпус текстов на русском языке. Полностью открытый, с возможностью скачать собранные в нём данные
- Firststat firststat.ru большая некоммерческая база доменов в зонах .ru, .su, .рф. Несмотря на отсутствие дампов открытых данных, у проекта есть открытый код и недокументированное API которое, например, помогает в сборе всех госдоменов для проекта govdomains
- Открытые данные и API Госдумы api.duma.gov.ru документация не обновлялась около 8 лет, последние наборы данных деклараций депутатов публиковались в 2012 году. Но генератор токенов для API и само API всё ещё работает. Кроме данных по голосованию - это источник стенограмм, выступлений депутатов и ещё многих других данных Госдумы.

Если Вы знаете какие-либо интересные общественные или редко упоминаемые, но интересные госпроекты по открытости данных, напишите о них.

#opendata #opengov #openprojects
О том как организована работа с данными в разных средах, в научной среде одна из наиболее развитых экосистем работы с данными существует в биоинформатике. Проект Dockstore [1] - это некоммерческий академический проект со многими признаками стартапа, позиционируется как An app store for bioinformatics. В нём сейчас 44 научных организации регистрирует свой код рабочих процессов (workflows) с возможностью перепроверки на различных онлайн платформах: Galaxy, AnVIL, Terra, DNANexus, DNAStack и NHLBI BioData Catalyst. Всего более 1200 рабочих процессов (workflows) и более 250 инструментов (tools) с репозиториями, возможность запуска в Docker'е и тд.

Вообще экосистема для работы в биоинформатике мне чем-то напоминает Modern Data Stack и даже кое-где пересекается, в части использования Github, Docker, Google Cloud как хранилища и ряда других облачных инструментов.

Не знаю воспроизводимо ли подобное для других научных сред - экономистов, историков, инженеров-авиастроителей и так далее. Важное отличие биоинформатики в международных стандартах и воспроизводимости исследований [2].

Сам проект Docstore существует на гранты государственных научных грантодателей Канады и США, существует с открытым кодом [3] и активной командой разработчиков.

Ссылки:
[1] https://dockstore.org/
[2] https://www.ga4gh.org/
[3] https://github.com/dockstore/dockstore

#opensource #openprojects