FSCP
17.1K subscribers
30.6K photos
3.57K videos
863 files
78.1K links
another filter bubble канал изначально созданный несколькими друзьями чтобы делиться копипастой, иногда оценочным суждением

технологии, деньги, социум

редакция @id9QGq_bot
реклама @johneditor
в будущее возьмут не всех
выводы самостоятельно

мир меняется
Download Telegram
Forwarded from Ivan Begtin (Ivan Begtin)
У поиска Google большое обновление [1], в том числе появление визуального представления результатов которые являются на вопросы завязанные на статистику, демографию и тд. что система может автоматически понять и визуализировать.

Это результат, и их работ по искусственному интеллекту, и практическое применение данных проекта Data Commons Project [2]. Data Commons - это исследовательский проект Google по интеграции официальных открытых данных и создании общедоступного портала статистики по странам и муниципалитетам (США) и многим другим данным, с акцентом на их геопривязку.

Второй важный анонс связанный с данными - это появление Journalist Studio [3] с большим числом разных сервисов для журналистов, часть этих сервисов давно были в бета-стадии, а теперь объединены в одну коллекцию инструментов.



Ссылки:
[1] https://blog.google/products/search/search-on/
[2] https://www.datacommons.org/
[3] https://blog.google/outreach-initiatives/google-news-initiative/journalist-studio/

#opendata #data #search #google
Не все знают, Интернет-архив, archive.org, помимо возможности найти архивную копию страницы также вот уже какое-то время в режиме бета предоставляет возможность:
- сравнить архивные копии одной страницы, в сравнении синим цветом подкрашивается удалённое и жёлным измененное/добавленное
- увидеть в каких коллекциях есть выбранная веб-страница (да, одну и ту же страницу могут проинтексировать десятки роботов, и она будет в разных коллекциях)

Для журналистов расследователей это может быть просто находка, например можно посмотреть изменения в составе экспертного совета Фонда Кино [1] за этот год.

Ссылки:
[1] https://web.archive.org/web/diff/20200427153240/20200201180534/https://www.fond-kino.ru/about/expert-council/

#opendata #archives #digitalpreservation #archives
_______
Источник: https://t.iss.one/begtin/2356
Короткое, 15-страничное, исследование о децентрализованной модели публикации данных вышло в декабре прошлого года от Open Data Institute [1]. Исследование о том как устроена публикация данных в рамках "инициатив по децентрализованной публикации данных" которые расшифровываются как соответствующие следующим критериям:
- данные публикуются децентрализованным образом: провайдеры данных делают данные доступными через их собственную инфраструктуру
- провайдеры данных публикуют данные об одинаковых типах данных, например, данных о расходах
- данные можно использовать или они открытые
- есть единый общий стандарт используемый всеми организациями с помощью которого данные публикуются схожим образом;
- инициатива предоставляет инструкции, инструменты и технологии для помощи в публикации данных, например, центральный реестр для помощи в их обнаружении

Таких инициатив немало, в данном случае в основном, были международные инициативы и инициативы в UK, такие как Open Contracting и Open Banking.

Обзор, хотя и сжатый и без деталей анализа каждого кейса, не бесполезный.

Ссылки:
[1] https://theodi.org/article/comparing-decentralised-data-publishing-initiatives-report/

#opendata
_______
Источник: https://t.iss.one/begtin/2416
Global Wind Atlas [1] веб-проект, карта и большая база данных ветров на планете. В первую очередь с точки зрения потенциала для ветроэнергетики и с большим объёмом открытых данных [2]

Проект может быть полезен всем кто ищет данные о ветрах в своих странах.

Ссылки:
[1] https://globalwindatlas.info/
[2] https://globalwindatlas.info/downloads/gis-files

#opendata #winds
_______
Source: https://t.iss.one/begtin/2463
Алгоритмы во благо это, например, предсказание поломок у жестких дисков с помощью машинного обучения в блоге Datto Engineering [1]. Хороший технический текст, с пониманием возможностей и ограничений.

В нём же ссылка на ещё один важный, но очень специальный набор открытых данных. С 2013 года компания Backblaze публикует очень подробные данные по своим жестким дискам [2]. несколько гигабайт в сжатом виде - это данные собираемые по показателям SMART по каждому диску, бесценны для их производителей и эксплуатантов этих дисков.

Ссылки:
[1] https://datto.engineering/post/predicting-hard-drive-failure-with-machine-learning
[2] https://www.backblaze.com/b2/hard-drive-test-data.html#helpful-hints-and-caveats

#opendata #data #ml
_______
Source: https://t.iss.one/begtin/2473
Twitter открыли их новое API для исследователей [1]. Теперь для академических целей оно бесплатно и необходимо иметь академическую аффиляцию и чёткий запрос направленный компании через специальную форму [2]

С одной стороны это хорошо, а с другой стороны, на самом деле, с каждым годом Twitter всё более закрывает своё API и облегчает доступ лишь для узких интересов таких как исследования без коммерческого применения.

Аналогично поступают и другие социальные сети, замыкая пользователей данных на их платные API.

Ссылки:
[1] https://blog.twitter.com/developer/en_us/topics/tips/2021/enabling-the-future-of-academic-research-with-the-twitter-api.html
[2] https://developer.twitter.com/en/portal/petition/academic/is-it-right-for-you

#twitter #data #opendata
_______
Источник: https://t.iss.one/begtin/2500
У DuckDuckGo (УткаУткаИди) [1] есть проект Tracker Radar в котором они собирают сведения о наиболее часто встречающихся скриптах и трекерах третьих сторон и используют эту информацию для последующего составления блок-листов.

На днях они опубликовали и актуализировали базу трекеров и выложили её на Github [2].

Сразу забегу вперед - российские домены не анализировались, но российские трекеры находились в доменах других стран/зон. И много можно узнать про международные сервисы, например, можно посмотреть на профиль ajax.googleapis.com [3] и про то как некоторые российские сервисы вроде yandex.ru [4] там определяются (по яндексу почему-то сплошные порносайты в примерах).

Данные интересные, на них можно построить немало исследовательского и полезного.

Ссылки:
[1] https://spreadprivacy.com/duckduckgo-tracker-radar/
[2] https://github.com/duckduckgo/tracker-radar
[3] https://github.com/duckduckgo/tracker-radar/blob/main/domains/NO/ajax.googleapis.com.json
[4] https://github.com/duckduckgo/tracker-radar/blob/9c5fe6a619b6ad9fb13f3fd7ddd6710c5cdbe98e/domains/DE/yandex.ru.json

#opendata #privacy
_______
Источник: https://t.iss.one/begtin/2537
Китайские экономисты проанализировали публикации в 37 экономических журналах Китая с 2001 по 2019 годы и выяснили что публикация открытых данных дала значительный эффект к росту цитирования статей. Об этом в "Does open data boost journal impact: evidence from Chinese economics" [1]

Некоторые журналы, например, China Industrial Economics, с 2016 года требуют обязательной открытой публикации исследовательских данных.


Ссылки:
[1] https://link.springer.com/article/10.1007/s11192-021-03897-z

#opendata #openaccess
_______
Source: https://t.iss.one/begtin/2591
В рубрике интересные наборы данных слепок всех отчетов кредитных организаций в России о их бенефициарах собранный с сайта Банка России [1]. Формально эти документы называются "Список лиц, под контролем либо значительным влиянием которых находится кредитная организация", их публикует ЦБ РФ на страницах кредитных организаций. Например, на странице Сбербанка на сайте ЦБ [2], но там опубликован только последний файл со схемой, а в этом архиве все изменения за всё время с начала подобной отчетности. Например, код Сбербанка в ЦБ 1481 и в архиве есть документы о структуре бенефициаров с 2015 года.

Вот такой список файлов:
- RB1481_20150814.pdf
- RB1481_20180416.pdf
- RB1481_20190826.pdf
- RB1481_20200413.pdf
- RB1481_20200508.pdf
- RB1481_20200907.pdf
и так по всем кредитным организациям.

Формат наименования документов: RB[кодбанка]_[YYYddmm].pdf , пример RB3535_20200904.pdf

В виду того что данные не являются машиночитаемыми, в первую очередь они могут быть применимы для ручной обработки и для тренировки алгоритмов распознавания именованных сущностей.

Получить список кодов банков можно на сайте ЦБ РФ по ссылке [3].

Не стесняйтесь обратной связи и идей как можно превращать эти PDF документы в машиночитаемые наборы данных.

А мы тем временем начинаем восстанавливать и ре-активировать Хаб открытых данных [4], это один из самых первых порталов открытых данных в России который я когда создавал под брендом OpenGovData (ещё в 2010-2011 годах). В последние годы мы больше усилий положили на общественный портал данных для НКО NGOData [5], но есть много данных которые в тематику НКО не укладываются и они будут появляться на хабе.

Ссылки:
[1] hubofdata.ru
[2] www.cbr.ru
[3] www.cbr.ru
[4] hubofdata.ru
[5] ngodata.ru

#data #opendata #cbr #banking #ownership
_______
Source: https://t.iss.one/begtin/2764