Ivan Begtin
7.99K subscribers
1.88K photos
3 videos
101 files
4.58K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]
Download Telegram
Я напоминаю что завтра Форум перспективных технологий https://tceh.com/events/forum-perspektivnyh-tehnologij/ с двумя площадками Ассоциациb участников рынка данных

Приходите, поговорим про данные, госрегулирование, стандарты и тд.

#data #opendata #bigdata
В качестве регулярного напоминания и ответов на вопросы. Подборка ссылок на материалы о том где узнавать о том что такое открытые данные и не только. Мой список рекомендаций.
- The Living Library [1] - библиотека от The GovLab по открытости, прозрачности и цифровизации. Много научных и популярных публикаций
- Surveillance capitalism [2] книга от Shoshana Zuboff о том как устроен современный капитализм слежки, основанный на коммодизации персональных данных.
- Open Data Impact [3] подборка примеров того как открытые данные оказывают влияние на рынки и отрасли
- The Week in Data [4] рассылка ссылок по работе с данными от The Open Data Institute в Великобритании
- Data Elixir [5] еженедельная рассылка про работу с данными. Куча подписчиков, не спамят.
- Рассылка Инфокультуры [6] регулярная рассылка материалов Инфокультуры, про открытые данные, данные и не только
- Scoop.it Big Data [7] поток новостей через сервис Scoop.it по теме Big Data
- Awesome Public Datasets [8] огромная подборка ссылок на общедоступные наборы данных большого объёма
- Re3data [9] реестр открытых научных репозиториев данных по всему миру

Ссылки:
[1] https://thelivinglib.org/
[2] https://en.wikipedia.org/wiki/Surveillance_capitalism
[3] https://odimpact.org/
[4] https://theodi.org/knowledge-opinion/the-week-in-data/
[5] https://dataelixir.com/
[6] https://infoculture.us7.list-manage.com/subscribe?u=2e38b8af0d8a547b51427dc9b&id=dadb533f05
[7] https://www.scoop.it/i/big-data
[8] https://github.com/awesomedata/awesome-public-datasets
[9] https://www.re3data.org/

#data #opendata #bigdata
Для тех кому хочется поработать с действительно-большими-данными, не обязательно структурированными в гомогенный датасет, но так чтобы объём был огромен, вот несколько ключевых источников таких открытых данных:

CommonCrawl (https://commoncrawl.org/)
Результаты индексирования интернета краулером, база если не сравнивая с Яндекс, Google и Bing'ом, но наиболее к ним приближенная. Это миллиарды ссылок, страниц, документов в петабайтах данных

Internet Archive (https://archive.org)
Крупнейший в мире архив веб-страниц ещё и крупнейший в мире архив всего что только возможно оцифрованного и загруженного пользователями. Огромные объёмы документов, баз данных и иных данных хранится именно здесь

AWS Open Data (https://registry.opendata.aws/)

Огромные по объёмы наборы данных собранные и раздаваемые Amazon'ом в их инфраструктуре AWS. Удивительно что ещё ни один российский интернет провайдер до такого не додумался;)

Wikipedia (https://en.wikipedia.org/wiki/Wikipedia:Database_download)

А ещё вернее все данные фонда Викимедиа. Их много, они активно используются, но с ними надо уметь работать, знать как они структурированы и что с этим можно делать.

#opendata #data #bigdata
О работе с данными в академической среде на примере компьютерной лингвистики. Многие знают что компьютерная лингвистика - это область науки где, с одной стороны много данных, включая открытые, создается исследователями, а с другой стороны часто востребованы и коммерческими компаниями, в самых разных задачах обработки естественного языка. Это приводит к появлению гибридных бизнес моделей которые можно рассматривать, и как социально ответственный бизнеc, и как возможность самофинансирования некоммерческой деятельности - смотря как взглянуть.

Пример подобного коммерческого Sketch Engine [1], британо-чешского стартапа Lexical Computing [2] в котором собраны корпусы десятков языков всего мира. Корпуса созданы как на базе текстов в Википедии, так и на базе других крупных баз корпусов языков, таких как Aranea [3].

Важная особенность корпусов языков в их значительном объёме. С ними очень сложно работать без достаточных технических ресурсов памяти, процессора и хранения, поэтому поэтому коммерческий сервис даёт возможность работать с корпусами текстов несмотря на эти ограничения и предоставляет большой набор инструментов специально для исследователей в области компьютерной лингвистики.

При этом так же команда публикует сокращённую версию продукта под лицензией GPL - NoSketchEngine [4] который можно установить у себя локально и также с ним работать.

В это важная особенность сервисов создаваемых на базе академических/исследовательских данных. Практически во всех областях где есть вовлечение бизнеса и исследователей продукты построены по схожим принципам:
- бизнес модель основана на университетской подписке и подписке коммерческих компаний
- очень сильно заточены под предметную область и создают множество инструментов и интерфейсов под потребности именно исследователей
- значительно упрощают работу с данными очень большого объёма
- есть возможность указывать точные ссылки для библиографии
- есть или бесплатный доступ для исследователей, или какая-то часть кода/данных общедоступны

Таких примеров ещё много в разных областях. Такой продукт как Wolfram Alpha [5] создан не только для математиков, но и для всех кто исследует в сотнях отраслях и предоставляет, опять же, не данные, а инструменты на них основанные. Проект Censys [6] создавался как результаты академических работ по сканированию интернета на уязвимости, а сейчас является заметным коммерческим продуктом в области сетевой безопасности, с потребителями как из академической, так и коммерческой сред. А предоставление первичных больших данных стало в нём одним из продуктов Bulk Data [7]

Как и во всех продуктах основанных на данных, в данном случае важнейшим является то какую добавленную стоимость этот продукт создаёт.

Ссылки:
[1] https://www.sketchengine.eu
[2] https://www.lexicalcomputing.com/
[3] https://ucts.uniba.sk/aranea_about/index.html
[4] https://nlp.fi.muni.cz/trac/noske
[5] https://www.wolframalpha.com
[6] https://censys.io
[7] https://censys.io/product/product-data

#data #science #opendata #bigdata