FSCP
18.3K subscribers
30.1K photos
3.44K videos
859 files
77K links
another filter bubble канал изначально созданный несколькими друзьями чтобы делиться копипастой, иногда оценочным суждением

технологии, деньги, социум

редакция @id9QGq_bot
реклама @johneditor
в будущее возьмут не всех
выводы самостоятельно

мир меняется
Download Telegram
Forwarded from Ivan Begtin (Ivan Begtin)
В недавно вышедшем исследовании Open is not forever: a study of vanished open access journals [1] от Mikael Laakso, Lisa Matthias, Najko Jahn выяснилось что журналы открытого доступа умирают также как и все остальные и их содержание теряется безвозвратно. Так с 2000 по 2019 год пропало более 176 журналов.

Что с этим делать? Одно из решений сейчас запускает Интернет архив под названием Fatcat [2], о нем подробнее в статье в Vice [3]. Фактически это каталог 151 тысячи научных журналов с более чем 110 миллионам публикаций из которых 26 миллионов публикаций доступны с полным текстом. На момент когда я писал этот текст каталог нормально ещё не работал и выдавал ошибки на любые попытки поиска.

Здесь трудно не вспомнить про такие проекты как Semantic Scholar [4] или Microsoft Academic Knowledge Graph [5] и многие другие в которых собираются базы метаданных по всем опубликованным научным работам (до которых авторам проектов удаётся добраться) и не хватает лишь включить архивацию этих работ.

Ссылки:
[1] https://arxiv.org/abs/2008.11933
[2] https://fatcat.wiki
[3] https://www.vice.com/en_us/article/g5p7pj/the-internet-archive-has-a-new-tool-to-save-research-papers-from-vanishing
[4] https://www.semanticscholar.org/
[5] https://ma-graph.org/

#opendata #openaccess
Forwarded from Ivan Begtin (Ivan Begtin)
У поиска Google большое обновление [1], в том числе появление визуального представления результатов которые являются на вопросы завязанные на статистику, демографию и тд. что система может автоматически понять и визуализировать.

Это результат, и их работ по искусственному интеллекту, и практическое применение данных проекта Data Commons Project [2]. Data Commons - это исследовательский проект Google по интеграции официальных открытых данных и создании общедоступного портала статистики по странам и муниципалитетам (США) и многим другим данным, с акцентом на их геопривязку.

Второй важный анонс связанный с данными - это появление Journalist Studio [3] с большим числом разных сервисов для журналистов, часть этих сервисов давно были в бета-стадии, а теперь объединены в одну коллекцию инструментов.



Ссылки:
[1] https://blog.google/products/search/search-on/
[2] https://www.datacommons.org/
[3] https://blog.google/outreach-initiatives/google-news-initiative/journalist-studio/

#opendata #data #search #google
Не все знают, Интернет-архив, archive.org, помимо возможности найти архивную копию страницы также вот уже какое-то время в режиме бета предоставляет возможность:
- сравнить архивные копии одной страницы, в сравнении синим цветом подкрашивается удалённое и жёлным измененное/добавленное
- увидеть в каких коллекциях есть выбранная веб-страница (да, одну и ту же страницу могут проинтексировать десятки роботов, и она будет в разных коллекциях)

Для журналистов расследователей это может быть просто находка, например можно посмотреть изменения в составе экспертного совета Фонда Кино [1] за этот год.

Ссылки:
[1] https://web.archive.org/web/diff/20200427153240/20200201180534/https://www.fond-kino.ru/about/expert-council/

#opendata #archives #digitalpreservation #archives
_______
Источник: https://t.iss.one/begtin/2356
Короткое, 15-страничное, исследование о децентрализованной модели публикации данных вышло в декабре прошлого года от Open Data Institute [1]. Исследование о том как устроена публикация данных в рамках "инициатив по децентрализованной публикации данных" которые расшифровываются как соответствующие следующим критериям:
- данные публикуются децентрализованным образом: провайдеры данных делают данные доступными через их собственную инфраструктуру
- провайдеры данных публикуют данные об одинаковых типах данных, например, данных о расходах
- данные можно использовать или они открытые
- есть единый общий стандарт используемый всеми организациями с помощью которого данные публикуются схожим образом;
- инициатива предоставляет инструкции, инструменты и технологии для помощи в публикации данных, например, центральный реестр для помощи в их обнаружении

Таких инициатив немало, в данном случае в основном, были международные инициативы и инициативы в UK, такие как Open Contracting и Open Banking.

Обзор, хотя и сжатый и без деталей анализа каждого кейса, не бесполезный.

Ссылки:
[1] https://theodi.org/article/comparing-decentralised-data-publishing-initiatives-report/

#opendata
_______
Источник: https://t.iss.one/begtin/2416
Global Wind Atlas [1] веб-проект, карта и большая база данных ветров на планете. В первую очередь с точки зрения потенциала для ветроэнергетики и с большим объёмом открытых данных [2]

Проект может быть полезен всем кто ищет данные о ветрах в своих странах.

Ссылки:
[1] https://globalwindatlas.info/
[2] https://globalwindatlas.info/downloads/gis-files

#opendata #winds
_______
Source: https://t.iss.one/begtin/2463
Алгоритмы во благо это, например, предсказание поломок у жестких дисков с помощью машинного обучения в блоге Datto Engineering [1]. Хороший технический текст, с пониманием возможностей и ограничений.

В нём же ссылка на ещё один важный, но очень специальный набор открытых данных. С 2013 года компания Backblaze публикует очень подробные данные по своим жестким дискам [2]. несколько гигабайт в сжатом виде - это данные собираемые по показателям SMART по каждому диску, бесценны для их производителей и эксплуатантов этих дисков.

Ссылки:
[1] https://datto.engineering/post/predicting-hard-drive-failure-with-machine-learning
[2] https://www.backblaze.com/b2/hard-drive-test-data.html#helpful-hints-and-caveats

#opendata #data #ml
_______
Source: https://t.iss.one/begtin/2473
Twitter открыли их новое API для исследователей [1]. Теперь для академических целей оно бесплатно и необходимо иметь академическую аффиляцию и чёткий запрос направленный компании через специальную форму [2]

С одной стороны это хорошо, а с другой стороны, на самом деле, с каждым годом Twitter всё более закрывает своё API и облегчает доступ лишь для узких интересов таких как исследования без коммерческого применения.

Аналогично поступают и другие социальные сети, замыкая пользователей данных на их платные API.

Ссылки:
[1] https://blog.twitter.com/developer/en_us/topics/tips/2021/enabling-the-future-of-academic-research-with-the-twitter-api.html
[2] https://developer.twitter.com/en/portal/petition/academic/is-it-right-for-you

#twitter #data #opendata
_______
Источник: https://t.iss.one/begtin/2500
У DuckDuckGo (УткаУткаИди) [1] есть проект Tracker Radar в котором они собирают сведения о наиболее часто встречающихся скриптах и трекерах третьих сторон и используют эту информацию для последующего составления блок-листов.

На днях они опубликовали и актуализировали базу трекеров и выложили её на Github [2].

Сразу забегу вперед - российские домены не анализировались, но российские трекеры находились в доменах других стран/зон. И много можно узнать про международные сервисы, например, можно посмотреть на профиль ajax.googleapis.com [3] и про то как некоторые российские сервисы вроде yandex.ru [4] там определяются (по яндексу почему-то сплошные порносайты в примерах).

Данные интересные, на них можно построить немало исследовательского и полезного.

Ссылки:
[1] https://spreadprivacy.com/duckduckgo-tracker-radar/
[2] https://github.com/duckduckgo/tracker-radar
[3] https://github.com/duckduckgo/tracker-radar/blob/main/domains/NO/ajax.googleapis.com.json
[4] https://github.com/duckduckgo/tracker-radar/blob/9c5fe6a619b6ad9fb13f3fd7ddd6710c5cdbe98e/domains/DE/yandex.ru.json

#opendata #privacy
_______
Источник: https://t.iss.one/begtin/2537