Forwarded from Ivan Begtin (Ivan Begtin)
В недавно вышедшем исследовании Open is not forever: a study of vanished open access journals [1] от Mikael Laakso, Lisa Matthias, Najko Jahn выяснилось что журналы открытого доступа умирают также как и все остальные и их содержание теряется безвозвратно. Так с 2000 по 2019 год пропало более 176 журналов.
Что с этим делать? Одно из решений сейчас запускает Интернет архив под названием Fatcat [2], о нем подробнее в статье в Vice [3]. Фактически это каталог 151 тысячи научных журналов с более чем 110 миллионам публикаций из которых 26 миллионов публикаций доступны с полным текстом. На момент когда я писал этот текст каталог нормально ещё не работал и выдавал ошибки на любые попытки поиска.
Здесь трудно не вспомнить про такие проекты как Semantic Scholar [4] или Microsoft Academic Knowledge Graph [5] и многие другие в которых собираются базы метаданных по всем опубликованным научным работам (до которых авторам проектов удаётся добраться) и не хватает лишь включить архивацию этих работ.
Ссылки:
[1] https://arxiv.org/abs/2008.11933
[2] https://fatcat.wiki
[3] https://www.vice.com/en_us/article/g5p7pj/the-internet-archive-has-a-new-tool-to-save-research-papers-from-vanishing
[4] https://www.semanticscholar.org/
[5] https://ma-graph.org/
#opendata #openaccess
Что с этим делать? Одно из решений сейчас запускает Интернет архив под названием Fatcat [2], о нем подробнее в статье в Vice [3]. Фактически это каталог 151 тысячи научных журналов с более чем 110 миллионам публикаций из которых 26 миллионов публикаций доступны с полным текстом. На момент когда я писал этот текст каталог нормально ещё не работал и выдавал ошибки на любые попытки поиска.
Здесь трудно не вспомнить про такие проекты как Semantic Scholar [4] или Microsoft Academic Knowledge Graph [5] и многие другие в которых собираются базы метаданных по всем опубликованным научным работам (до которых авторам проектов удаётся добраться) и не хватает лишь включить архивацию этих работ.
Ссылки:
[1] https://arxiv.org/abs/2008.11933
[2] https://fatcat.wiki
[3] https://www.vice.com/en_us/article/g5p7pj/the-internet-archive-has-a-new-tool-to-save-research-papers-from-vanishing
[4] https://www.semanticscholar.org/
[5] https://ma-graph.org/
#opendata #openaccess
Vice
The Internet Archive Has a New Tool to Save Research Papers From Vanishing
Following a shocking report that hundreds of journals have been lost online, the Internet Archive Scholar lets users search open-access works and add their own to a catalog.
Forwarded from Ivan Begtin (Ivan Begtin)
У поиска Google большое обновление [1], в том числе появление визуального представления результатов которые являются на вопросы завязанные на статистику, демографию и тд. что система может автоматически понять и визуализировать.
Это результат, и их работ по искусственному интеллекту, и практическое применение данных проекта Data Commons Project [2]. Data Commons - это исследовательский проект Google по интеграции официальных открытых данных и создании общедоступного портала статистики по странам и муниципалитетам (США) и многим другим данным, с акцентом на их геопривязку.
Второй важный анонс связанный с данными - это появление Journalist Studio [3] с большим числом разных сервисов для журналистов, часть этих сервисов давно были в бета-стадии, а теперь объединены в одну коллекцию инструментов.
Ссылки:
[1] https://blog.google/products/search/search-on/
[2] https://www.datacommons.org/
[3] https://blog.google/outreach-initiatives/google-news-initiative/journalist-studio/
#opendata #data #search #google
Это результат, и их работ по искусственному интеллекту, и практическое применение данных проекта Data Commons Project [2]. Data Commons - это исследовательский проект Google по интеграции официальных открытых данных и создании общедоступного портала статистики по странам и муниципалитетам (США) и многим другим данным, с акцентом на их геопривязку.
Второй важный анонс связанный с данными - это появление Journalist Studio [3] с большим числом разных сервисов для журналистов, часть этих сервисов давно были в бета-стадии, а теперь объединены в одну коллекцию инструментов.
Ссылки:
[1] https://blog.google/products/search/search-on/
[2] https://www.datacommons.org/
[3] https://blog.google/outreach-initiatives/google-news-initiative/journalist-studio/
#opendata #data #search #google
Не все знают, Интернет-архив, archive.org, помимо возможности найти архивную копию страницы также вот уже какое-то время в режиме бета предоставляет возможность:
- сравнить архивные копии одной страницы, в сравнении синим цветом подкрашивается удалённое и жёлным измененное/добавленное
- увидеть в каких коллекциях есть выбранная веб-страница (да, одну и ту же страницу могут проинтексировать десятки роботов, и она будет в разных коллекциях)
Для журналистов расследователей это может быть просто находка, например можно посмотреть изменения в составе экспертного совета Фонда Кино [1] за этот год.
Ссылки:
[1] https://web.archive.org/web/diff/20200427153240/20200201180534/https://www.fond-kino.ru/about/expert-council/
#opendata #archives #digitalpreservation #archives
_______
Источник: https://t.iss.one/begtin/2356
- сравнить архивные копии одной страницы, в сравнении синим цветом подкрашивается удалённое и жёлным измененное/добавленное
- увидеть в каких коллекциях есть выбранная веб-страница (да, одну и ту же страницу могут проинтексировать десятки роботов, и она будет в разных коллекциях)
Для журналистов расследователей это может быть просто находка, например можно посмотреть изменения в составе экспертного совета Фонда Кино [1] за этот год.
Ссылки:
[1] https://web.archive.org/web/diff/20200427153240/20200201180534/https://www.fond-kino.ru/about/expert-council/
#opendata #archives #digitalpreservation #archives
_______
Источник: https://t.iss.one/begtin/2356
Короткое, 15-страничное, исследование о децентрализованной модели публикации данных вышло в декабре прошлого года от Open Data Institute [1]. Исследование о том как устроена публикация данных в рамках "инициатив по децентрализованной публикации данных" которые расшифровываются как соответствующие следующим критериям:
- данные публикуются децентрализованным образом: провайдеры данных делают данные доступными через их собственную инфраструктуру
- провайдеры данных публикуют данные об одинаковых типах данных, например, данных о расходах
- данные можно использовать или они открытые
- есть единый общий стандарт используемый всеми организациями с помощью которого данные публикуются схожим образом;
- инициатива предоставляет инструкции, инструменты и технологии для помощи в публикации данных, например, центральный реестр для помощи в их обнаружении
Таких инициатив немало, в данном случае в основном, были международные инициативы и инициативы в UK, такие как Open Contracting и Open Banking.
Обзор, хотя и сжатый и без деталей анализа каждого кейса, не бесполезный.
Ссылки:
[1] https://theodi.org/article/comparing-decentralised-data-publishing-initiatives-report/
#opendata
_______
Источник: https://t.iss.one/begtin/2416
- данные публикуются децентрализованным образом: провайдеры данных делают данные доступными через их собственную инфраструктуру
- провайдеры данных публикуют данные об одинаковых типах данных, например, данных о расходах
- данные можно использовать или они открытые
- есть единый общий стандарт используемый всеми организациями с помощью которого данные публикуются схожим образом;
- инициатива предоставляет инструкции, инструменты и технологии для помощи в публикации данных, например, центральный реестр для помощи в их обнаружении
Таких инициатив немало, в данном случае в основном, были международные инициативы и инициативы в UK, такие как Open Contracting и Open Banking.
Обзор, хотя и сжатый и без деталей анализа каждого кейса, не бесполезный.
Ссылки:
[1] https://theodi.org/article/comparing-decentralised-data-publishing-initiatives-report/
#opendata
_______
Источник: https://t.iss.one/begtin/2416
theodi.org
Comparing decentralised data publishing initiatives [report] – The ODI
Global Wind Atlas [1] веб-проект, карта и большая база данных ветров на планете. В первую очередь с точки зрения потенциала для ветроэнергетики и с большим объёмом открытых данных [2]
Проект может быть полезен всем кто ищет данные о ветрах в своих странах.
Ссылки:
[1] https://globalwindatlas.info/
[2] https://globalwindatlas.info/downloads/gis-files
#opendata #winds
_______
Source: https://t.iss.one/begtin/2463
Проект может быть полезен всем кто ищет данные о ветрах в своих странах.
Ссылки:
[1] https://globalwindatlas.info/
[2] https://globalwindatlas.info/downloads/gis-files
#opendata #winds
_______
Source: https://t.iss.one/begtin/2463
globalwindatlas.info
Global Wind Atlas
The Global Wind Atlas is a free, web-based application developed to help policymakers, planners, and investors identify high-wind areas for wind power generation virtually anywhere in the world, and then perform preliminary calculations.
Алгоритмы во благо это, например, предсказание поломок у жестких дисков с помощью машинного обучения в блоге Datto Engineering [1]. Хороший технический текст, с пониманием возможностей и ограничений.
В нём же ссылка на ещё один важный, но очень специальный набор открытых данных. С 2013 года компания Backblaze публикует очень подробные данные по своим жестким дискам [2]. несколько гигабайт в сжатом виде - это данные собираемые по показателям SMART по каждому диску, бесценны для их производителей и эксплуатантов этих дисков.
Ссылки:
[1] https://datto.engineering/post/predicting-hard-drive-failure-with-machine-learning
[2] https://www.backblaze.com/b2/hard-drive-test-data.html#helpful-hints-and-caveats
#opendata #data #ml
_______
Source: https://t.iss.one/begtin/2473
В нём же ссылка на ещё один важный, но очень специальный набор открытых данных. С 2013 года компания Backblaze публикует очень подробные данные по своим жестким дискам [2]. несколько гигабайт в сжатом виде - это данные собираемые по показателям SMART по каждому диску, бесценны для их производителей и эксплуатантов этих дисков.
Ссылки:
[1] https://datto.engineering/post/predicting-hard-drive-failure-with-machine-learning
[2] https://www.backblaze.com/b2/hard-drive-test-data.html#helpful-hints-and-caveats
#opendata #data #ml
_______
Source: https://t.iss.one/begtin/2473
Backblaze
Hard Drive Test Data
Hard Drive test data from the Backblaze data center. Backblaze is affordable, easy-to-use cloud storage.
Twitter открыли их новое API для исследователей [1]. Теперь для академических целей оно бесплатно и необходимо иметь академическую аффиляцию и чёткий запрос направленный компании через специальную форму [2]
С одной стороны это хорошо, а с другой стороны, на самом деле, с каждым годом Twitter всё более закрывает своё API и облегчает доступ лишь для узких интересов таких как исследования без коммерческого применения.
Аналогично поступают и другие социальные сети, замыкая пользователей данных на их платные API.
Ссылки:
[1] https://blog.twitter.com/developer/en_us/topics/tips/2021/enabling-the-future-of-academic-research-with-the-twitter-api.html
[2] https://developer.twitter.com/en/portal/petition/academic/is-it-right-for-you
#twitter #data #opendata
_______
Источник: https://t.iss.one/begtin/2500
С одной стороны это хорошо, а с другой стороны, на самом деле, с каждым годом Twitter всё более закрывает своё API и облегчает доступ лишь для узких интересов таких как исследования без коммерческого применения.
Аналогично поступают и другие социальные сети, замыкая пользователей данных на их платные API.
Ссылки:
[1] https://blog.twitter.com/developer/en_us/topics/tips/2021/enabling-the-future-of-academic-research-with-the-twitter-api.html
[2] https://developer.twitter.com/en/portal/petition/academic/is-it-right-for-you
#twitter #data #opendata
_______
Источник: https://t.iss.one/begtin/2500
Twitter
Enabling the future of academic research with the Twitter API
Today we’re excited to launch the Academic Research product track on the new Twitter API.
У DuckDuckGo (УткаУткаИди) [1] есть проект Tracker Radar в котором они собирают сведения о наиболее часто встречающихся скриптах и трекерах третьих сторон и используют эту информацию для последующего составления блок-листов.
На днях они опубликовали и актуализировали базу трекеров и выложили её на Github [2].
Сразу забегу вперед - российские домены не анализировались, но российские трекеры находились в доменах других стран/зон. И много можно узнать про международные сервисы, например, можно посмотреть на профиль ajax.googleapis.com [3] и про то как некоторые российские сервисы вроде yandex.ru [4] там определяются (по яндексу почему-то сплошные порносайты в примерах).
Данные интересные, на них можно построить немало исследовательского и полезного.
Ссылки:
[1] https://spreadprivacy.com/duckduckgo-tracker-radar/
[2] https://github.com/duckduckgo/tracker-radar
[3] https://github.com/duckduckgo/tracker-radar/blob/main/domains/NO/ajax.googleapis.com.json
[4] https://github.com/duckduckgo/tracker-radar/blob/9c5fe6a619b6ad9fb13f3fd7ddd6710c5cdbe98e/domains/DE/yandex.ru.json
#opendata #privacy
_______
Источник: https://t.iss.one/begtin/2537
На днях они опубликовали и актуализировали базу трекеров и выложили её на Github [2].
Сразу забегу вперед - российские домены не анализировались, но российские трекеры находились в доменах других стран/зон. И много можно узнать про международные сервисы, например, можно посмотреть на профиль ajax.googleapis.com [3] и про то как некоторые российские сервисы вроде yandex.ru [4] там определяются (по яндексу почему-то сплошные порносайты в примерах).
Данные интересные, на них можно построить немало исследовательского и полезного.
Ссылки:
[1] https://spreadprivacy.com/duckduckgo-tracker-radar/
[2] https://github.com/duckduckgo/tracker-radar
[3] https://github.com/duckduckgo/tracker-radar/blob/main/domains/NO/ajax.googleapis.com.json
[4] https://github.com/duckduckgo/tracker-radar/blob/9c5fe6a619b6ad9fb13f3fd7ddd6710c5cdbe98e/domains/DE/yandex.ru.json
#opendata #privacy
_______
Источник: https://t.iss.one/begtin/2537
Spread Privacy
DuckDuckGo Tracker Radar Exposes Hidden Tracking
DuckDuckGo Tracker Radar is a best-in-class, automatically-generated data set about trackers that we've made available for research and generating block lists.
Китайские экономисты проанализировали публикации в 37 экономических журналах Китая с 2001 по 2019 годы и выяснили что публикация открытых данных дала значительный эффект к росту цитирования статей. Об этом в "Does open data boost journal impact: evidence from Chinese economics" [1]
Некоторые журналы, например, China Industrial Economics, с 2016 года требуют обязательной открытой публикации исследовательских данных.
Ссылки:
[1] https://link.springer.com/article/10.1007/s11192-021-03897-z
#opendata #openaccess
_______
Source: https://t.iss.one/begtin/2591
Некоторые журналы, например, China Industrial Economics, с 2016 года требуют обязательной открытой публикации исследовательских данных.
Ссылки:
[1] https://link.springer.com/article/10.1007/s11192-021-03897-z
#opendata #openaccess
_______
Source: https://t.iss.one/begtin/2591
SpringerLink
Does open data boost journal impact: evidence from Chinese economics
Scientometrics - To encourage research transparency and replication, more and more journals have been requiring authors to share original datasets and analytic procedures supporting their...
В рубрике интересные наборы данных слепок всех отчетов кредитных организаций в России о их бенефициарах собранный с сайта Банка России [1]. Формально эти документы называются "Список лиц, под контролем либо значительным влиянием которых находится кредитная организация", их публикует ЦБ РФ на страницах кредитных организаций. Например, на странице Сбербанка на сайте ЦБ [2], но там опубликован только последний файл со схемой, а в этом архиве все изменения за всё время с начала подобной отчетности. Например, код Сбербанка в ЦБ 1481 и в архиве есть документы о структуре бенефициаров с 2015 года.
Вот такой список файлов:
- RB1481_20150814.pdf
- RB1481_20180416.pdf
- RB1481_20190826.pdf
- RB1481_20200413.pdf
- RB1481_20200508.pdf
- RB1481_20200907.pdf
и так по всем кредитным организациям.
Формат наименования документов: RB[кодбанка]_[YYYddmm].pdf , пример RB3535_20200904.pdf
В виду того что данные не являются машиночитаемыми, в первую очередь они могут быть применимы для ручной обработки и для тренировки алгоритмов распознавания именованных сущностей.
Получить список кодов банков можно на сайте ЦБ РФ по ссылке [3].
Не стесняйтесь обратной связи и идей как можно превращать эти PDF документы в машиночитаемые наборы данных.
А мы тем временем начинаем восстанавливать и ре-активировать Хаб открытых данных [4], это один из самых первых порталов открытых данных в России который я когда создавал под брендом OpenGovData (ещё в 2010-2011 годах). В последние годы мы больше усилий положили на общественный портал данных для НКО NGOData [5], но есть много данных которые в тематику НКО не укладываются и они будут появляться на хабе.
Ссылки:
[1] hubofdata.ru
[2] www.cbr.ru
[3] www.cbr.ru
[4] hubofdata.ru
[5] ngodata.ru
#data #opendata #cbr #banking #ownership
_______
Source: https://t.iss.one/begtin/2764
Вот такой список файлов:
- RB1481_20150814.pdf
- RB1481_20180416.pdf
- RB1481_20190826.pdf
- RB1481_20200413.pdf
- RB1481_20200508.pdf
- RB1481_20200907.pdf
и так по всем кредитным организациям.
Формат наименования документов: RB[кодбанка]_[YYYddmm].pdf , пример RB3535_20200904.pdf
В виду того что данные не являются машиночитаемыми, в первую очередь они могут быть применимы для ручной обработки и для тренировки алгоритмов распознавания именованных сущностей.
Получить список кодов банков можно на сайте ЦБ РФ по ссылке [3].
Не стесняйтесь обратной связи и идей как можно превращать эти PDF документы в машиночитаемые наборы данных.
А мы тем временем начинаем восстанавливать и ре-активировать Хаб открытых данных [4], это один из самых первых порталов открытых данных в России который я когда создавал под брендом OpenGovData (ещё в 2010-2011 годах). В последние годы мы больше усилий положили на общественный портал данных для НКО NGOData [5], но есть много данных которые в тематику НКО не укладываются и они будут появляться на хабе.
Ссылки:
[1] hubofdata.ru
[2] www.cbr.ru
[3] www.cbr.ru
[4] hubofdata.ru
[5] ngodata.ru
#data #opendata #cbr #banking #ownership
_______
Source: https://t.iss.one/begtin/2764
hubofdata.ru
Сведения о бенефициарных владельцах кредитных организаций - Хаб открытых данных
Архив сведений о бенефициарных владельцах кредитных организаций опубликованных на сайте Центрального банка РФ (www.cbr.ru). Представляет собой архив в котором собраны PDF файлы со сведениями...