Ivan Begtin
7.98K subscribers
1.85K photos
3 videos
101 files
4.56K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]
Download Telegram
Открытые данные часто и даже чаще раскрываются не государством, а научными центрами. Примеров этому много, я регулярно их привожу и вот ещё один.

Allen Institute for Artificial Intelligence [1] разместили в открытом доступе базу SUPP.AI [2], научно подтвержденных взаимодействий разного рода лекарственных препаратов и иных веществ. Так называемых supplementals (вспомогательные вещества). Вся база собрана на основе публикаций которые в институте Аллена собирают в другом их проекте Semantic Scholar [3] где собраны практически все научные статьи, разобранные и проанализированные.

Тем временем в SUPP.AI можно найти информацию о взаимодействию:
- кофеина [4]
- никотина [5]
- витамин C [6]
и многое другое

А также все данные общедоступны, хотя и не под открытой лицензией [7]

Ссылки:
[1] https://allenai.org/
[2] https://supp.ai/
[3] https://www.semanticscholar.org/
[4] https://supp.ai/a/caffeine/C0006644?q=Caffeine
[5] https://supp.ai/a/nicotine/C0028040?q=Nikotine
[6] https://supp.ai/a/vitamin-c/C2349136?q=Vitamin
[7] https://api.semanticscholar.org/supp/legal/

#opendata #openscience #healthcare
Почему открытые данные - это всегда культура и далее технологии на примере данных о COVID-19 в России. Если кто-то не знает, в России за 2.5 года ковида Пр-во и Минздрав РФ в частности не публиковали наборы данных по эпидемии. Вместо этого они создали портал стопкоронавирус.рф имеющий скорее PR функцию и некоторые графики с отображением цифр. Да, были те энтузиасты кто эти графики преобразовывал в данные (используя парсинг), но в целом официальной публикации данных не было. А с декабря 2022 года, ещё и этот портал перестали обновлять.

Однако всё это время публиковался и продолжает публиковаться Еженедельный бюллетень по гриппу [1] в котором, в том числе, есть информация по заболеваемости COVID-19, но сам бюллетень публикуется в формате "не сказать бы лишнего". Там есть слова и графики и нет таблиц, нет разбивки заболеваемости по регионам и по городам, хотя такие сведения совершенно точно собираются и есть у составителей бюллетеня из ФГБУ «НИИ гриппа им. А.А. Смородинцева». Эти данные совершенно точно есть у сотрудников Минздрава РФ и знаете что самое удивительное? Что даже этот бюллетень доступен.

Минздрав РФ чуть ли не худшее ведомство в России по уровню открытости, я очень рекомендую послушать и посмотреть выступление Ксении Бабихиной из проекта Если быть точным [2] об опыте взаимодействия, отрицательном опыте, к сожалению.

А возвращаясь к данным о COVID-19, то, казалось бы, что мешает НИИ Гриппа публиковать развернутую статистику, что мешает Минздраву РФ размещать эти данные на портале открытых данных РФ, что мешало АНО "Диалог" или кто там вёл проект стопкоронавирус.рф предоставлять данные в машиночитаемом формате. Тем более что все они действовали и действуют на деньги налогоплательщиков.
Можно было бы посмотреть на пример Швейцарии и их опыта раскрытия не просто статистики, а всех случаях заболевания в обезличенном виде [3].

Вопрос о том "что мешает?" риторический.

Ссылки։
[1] https://www.influenza.spb.ru/system/epidemic_situation/laboratory_diagnostics/
[2] https://www.youtube.com/live/zYSr8gYJd4c?feature=share&t=3141
[3] https://t.iss.one/begtin/4662

#opendata #healthcare #covid19
К вопросу о публикации данных, госполитике в этой области и тд. В прошлом году страховые компании в США начали публиковать данные о ценах на услуги в рамках требований так называемого Health Plan Transparency in Coverage Rule [1] регулирования в США обязывающего страховые компании раскрывать сведения о стоимости медицинских услуг.

Согласно этому регулированию ряд страховые компании начали выкладывать данные размером ... до 50 терабайт в сжатом виде! Пример, компании Humana [2] и United Healthcare [3]. В общей сложности там более 100ТБ в сжатом виде и более 600ТБ в распакованном и ещё и с ежемесячным обновлением, об этом писали ребята из DoltHub ещё в сентябре 2022 г. [4]

Очень много данных тоже может быть проблемой, потому что нужно ну очень много ресурсов чтобы такое не только хранить и скачать, но и обработать.

А сейчас эти же ребята из Dolthub их дообработали и начали публиковать расхождения между ценами страховщиков и ценами которые госпитали указывают на сайтах [5].

Очень интересно, хотя и Dolthub не правозащитники, а просто стартап создателей одноимённой платформы а ля Git-для-данных, с хранением данных довольно большого объёма.

Но ведь интересен масштаб, не правда ли? Всё таки 600ТБ - это очень много данных, причём по социально значимой теме.

Роль государства в этом - роль регулятора, государство имеет все необходимые механизмы принуждения к открытости естественные монополии и социально значимые компании олигопольных рынков к раскрытию данных в машиночитаемых форматах. Такие действия усиливают не госконтроль, а влияние граждан. Открытость данных и информации - это всегда, в принципе, про усиление граждан .

Ссылки:
[1] https://www.cms.gov/healthplan-price-transparency
[2] https://developers.humana.com/syntheticdata/healthplan-price-transparency
[3] https://transparency-in-coverage.uhc.com/
[4] https://www.dolthub.com/blog/2022-09-02-a-trillion-prices/
[5] https://www.dolthub.com/blog/2023-03-23-illusion-of-transparency/

#opendata #usa #healthcare #datasets
В рубрике как это устроено у них, поисковик по биомедицинским датасетам DataMed [1], создан в Университете Калифорнии, Сан Диего, на грант 10 миллионов USD [2] от Национального института здравоохранения США и других грантодающих организаций.

С одной стороны, это действительно поисковик, с 49 проиндексированными репозиториями, 4-мя фасетами и 1.2 миллионами датасетов, а с другой стороны...

Из этих репозиториев топ 4 содержат 1 миллион датасетов, более 83% и, в целом, если пройтись по сайтам этих топ 4 репозиториев: ClinicalTrials, Gene Expression Omnibus, NeuroMorpho, Zenodo то их поиск содержит гораздо больше возможностей.

Кроме того сами особенности индексируемых данных учитываются, как бы сказать, никак.

Не выглядит, конечно, как продукт за 10 миллиона долларов, но даже в таком виде любопытен и потенциально полезен.

И конечно, это не поисковик, а по сути агрегатор репозиториев. Главное отличие поисковика по данным и агрегатора, в том что агрегатор создан быть проиндексированным поисковыми системами и у каждого датасета есть отдельная индексируемая страница. А поисковик не предполагает что его будут индексировать другие поисковики.

Ссылки:
[1] https://datamed.org
[2] https://reporter.nih.gov/project-details/1U24AI117966-01

#opendata #datasets #datasearch #datacatalogs #healthcare #bioinformatics
Полезное чтение про данные, технологии и не только:
- Unlocking AI for All: The Case for Public Data Banks [1] о том что для развития экосистемы ИИ нужны public AI data banks (PAIDs), каталоги данных доступных для исследователей и среднего/малого бизнеса. Мысли здравые и даже примеры близкие, но автор явно далёк от некоторых областей работы с данными иначе знал бы более релевантные примеры. В любом случае идея актуальная ещё надолго.
- China: Autocracy 2.0 [2] структуризация экономической и политической политики Китая с оглядкой на его автократическую модель. Что-то кажется очевидным, что-то не так очевидным, но всё вместе неплохо описано.
- Climate and Health Outcomes Research Data Systems (CHORDS) [3] проект и каталог данных о влиянии окружающей среды на здоровье человека. Каталог данных скорее выглядит как агрегатор ссылок на академические репозитории, но всё неплохо организовано. Подробный рассказ про инициативу [4] и, что любопытно, внутри него ранее не встречавшийся мне продукт каталога данных Gen3 Data Commons [5]
- Need for Co-creating Urban Data Collaborative [6] про инициативы по открытости данных в Индии на уровне городов и вовлечение граждан в создание данных. Много интересного о том что там происходит, из любопытного, у них есть DMAF (Data Maturity Assessment Framework) [7] для оценки зрелости работы с данными в индийских городах и результаты оценки и дашборд по 100 городам [8]
- Report – Improving Governance Outcomes Through AI Documentation: Bridging Theory and Practice [9] доклад о необходимости и влиянии документированности AI моделей на их управляемость


Ссылки:
[1] https://www.lawfaremedia.org/article/unlocking-ai-for-all--the-case-for-public-data-banks
[2] https://www.nber.org/papers/w32993
[3] https://niehs.github.io/chords_landing/index.html
[4] https://factor.niehs.nih.gov/2024/8/science-highlights/climate-health-data
[5] https://gen3.org/products/data-commons/
[6] https://medium.com/civicdatalab/need-for-co-creating-urban-data-collaboratives-1ab9bc2c0776
[7] https://dmaf.mohua.gov.in/
[8] https://amplifi.mohua.gov.in/dmaf-dashboard
[9] https://cdt.org/insights/report-improving-governance-outcomes-through-ai-documentation-bridging-theory-and-practice/

#data #opendata #ai #india #china #healthcare #openaccess #datapolicy