Давно хочу написать о проекте OpenFoodFacts [1] - это открытая база данных по продуктам питания собираемая через краудсорсинг. Ведется она французской НКО с аналогичным названием Open Food Facts [2], публикует все данные в форматах CSV, RDF, JSON API и дампы MongoDB [3] и включают в базу записи по 117581 продуктам по всему миру [4].
Глядя на этот проект я понимаю что, в каком-то смысле, его автор, Stéphane Gigandet, проделал большую работу над тем чтобы помочь тысячам людей любящим не просто еду, но хорошую еду. А в Вики проекта можно узнать подробности по тому как он организован, как работать с его данными и API [5]
Конечно же, открытый исходный код всего проекта и под проектов [6] позволяет использовать его API для Python, Ruby или любого другого языка, для многих из которых уже готовы библиотеки для легкого подключения.
По России в проекте собрано 1196 продуктов [7], но ничто не ограничивает нас с вами добавлять туда новые описания.
Сейчас авторы запустили еще один проект "Open Beauty Facts" [8] где собирают базу космететических товаров и их ингредиентов.
Все это - пример успешного краудсорсингового проекта по созданию баз данных силами тысяч добровольцев. Они много меньше чем Википедия или OpenStreetMap, но может стать сравнимым с ними по значимости.
Глядя именно на эти проекты я и утверждаю что открытые данные не связаны и не зависят от государства. Однако именно таких проектов нам в России и не хватает, тех которые создают данные, а не только потребляют. Те которые формируют сообщество и существуют вне зависимости от чьей-то политической воли или ее отсутствия.
Ссылки:
[1] https://www.openfoodfacts.org/
[2] https://ru.openfoodfacts.org/legal
[3] https://ru.openfoodfacts.org/data
[4] https://world.openfoodfacts.org/
[5] https://en.wiki.openfoodfacts.org/Main_Page
[6] https://github.com/openfoodfacts/
[7] https://ru.openfoodfacts.org/
[8] https://world.openbeautyfacts.org/
#opendata #crowdsourcing
Глядя на этот проект я понимаю что, в каком-то смысле, его автор, Stéphane Gigandet, проделал большую работу над тем чтобы помочь тысячам людей любящим не просто еду, но хорошую еду. А в Вики проекта можно узнать подробности по тому как он организован, как работать с его данными и API [5]
Конечно же, открытый исходный код всего проекта и под проектов [6] позволяет использовать его API для Python, Ruby или любого другого языка, для многих из которых уже готовы библиотеки для легкого подключения.
По России в проекте собрано 1196 продуктов [7], но ничто не ограничивает нас с вами добавлять туда новые описания.
Сейчас авторы запустили еще один проект "Open Beauty Facts" [8] где собирают базу космететических товаров и их ингредиентов.
Все это - пример успешного краудсорсингового проекта по созданию баз данных силами тысяч добровольцев. Они много меньше чем Википедия или OpenStreetMap, но может стать сравнимым с ними по значимости.
Глядя именно на эти проекты я и утверждаю что открытые данные не связаны и не зависят от государства. Однако именно таких проектов нам в России и не хватает, тех которые создают данные, а не только потребляют. Те которые формируют сообщество и существуют вне зависимости от чьей-то политической воли или ее отсутствия.
Ссылки:
[1] https://www.openfoodfacts.org/
[2] https://ru.openfoodfacts.org/legal
[3] https://ru.openfoodfacts.org/data
[4] https://world.openfoodfacts.org/
[5] https://en.wiki.openfoodfacts.org/Main_Page
[6] https://github.com/openfoodfacts/
[7] https://ru.openfoodfacts.org/
[8] https://world.openbeautyfacts.org/
#opendata #crowdsourcing
Если каких-то данных нет, то это не значит что они не могут появиться благодаря нашим усилиям. Живой пример таких данных - это данные создаваемые волонтёрами через краудсорсинг. Проект с открытым кодом PyBossa [1] с момента своего появления в 2011 году вырос и обзавёлся полноценной компанией которая его внедряет и постоянно действующей онлайн площадкой Croudcrafting [2].
Краудсорсинг хорошо работает когда есть много несложных задач и текст или изображения которые можно выдать массовой аудитории для ответов на простые вопросы.
Примеры:
- Gender and Tech Magazines [3] - исследование частоты упоминания женщин в технических журналах. Надо смотреть на картинки сканов журналов и отвечать на простые вопросы.
- Вики любят памятники [4] - проект российских википедистов, почему-то совершенно непопулярный
- Science photography [5] - поиск изображений и фотографий на страницах исторических журналов Scientific American
Конечно, далеко не все проекты по краудсорсингу успешны. Всё зависит от способности привлечь внимание волонтёров со стороны организаторов и того насколько точно сформулированы задачи, как подобран первичный материал и тд.
В этом и состоит бизнес Scifabric [6] , создателей Croudcrafting и Pybossa. Они консультируют и сопровождают проекты обеспечивая им постоянную поддержку.
В России к подобному data краудсорсингу можно отнести проект OpenCorpora [7] создающему открытый корпус русского языка усилиями волонтёров. Это проект с открытым кодом [8] и устойчивым сообществом существующий с 2009 года с впечатляющими результатами. В отличие от национального корпуса русского языка [9], в нём публикуются открытые данные со всем содержанием корпуса.
Эти примеры - это иллюстрация общего принципа работы с данными заключающегося в том что часто чтобы получить нужны данные - их нужно создать, своими руками и руками волонтёров. Чем бы Вы не занимались - исследованиями в молекулярной биологии, лингвистике или гендерными исследованиями, во всех случаях Вы можете создавать краудсорсинговые проекты которые, совмещённые с анализом данных, и позволяют получать очень интересные исследования и продукты как результат.
Ссылки:
[1] https://pybossa.com/
[2] https://crowdcrafting.org/
[3] https://crowdcrafting.org/project/genderandtechmagazines/
[4] https://crowdcrafting.org/project/WLMRussia/
[5] https://crowdcrafting.org/project/sciencephotography/
[6] https://scifabric.com/
[7] https://opencorpora.org/
[8] https://github.com/OpenCorpora
[9] https://ruscorpora.ru/
#opendata #crowdsourcing
Краудсорсинг хорошо работает когда есть много несложных задач и текст или изображения которые можно выдать массовой аудитории для ответов на простые вопросы.
Примеры:
- Gender and Tech Magazines [3] - исследование частоты упоминания женщин в технических журналах. Надо смотреть на картинки сканов журналов и отвечать на простые вопросы.
- Вики любят памятники [4] - проект российских википедистов, почему-то совершенно непопулярный
- Science photography [5] - поиск изображений и фотографий на страницах исторических журналов Scientific American
Конечно, далеко не все проекты по краудсорсингу успешны. Всё зависит от способности привлечь внимание волонтёров со стороны организаторов и того насколько точно сформулированы задачи, как подобран первичный материал и тд.
В этом и состоит бизнес Scifabric [6] , создателей Croudcrafting и Pybossa. Они консультируют и сопровождают проекты обеспечивая им постоянную поддержку.
В России к подобному data краудсорсингу можно отнести проект OpenCorpora [7] создающему открытый корпус русского языка усилиями волонтёров. Это проект с открытым кодом [8] и устойчивым сообществом существующий с 2009 года с впечатляющими результатами. В отличие от национального корпуса русского языка [9], в нём публикуются открытые данные со всем содержанием корпуса.
Эти примеры - это иллюстрация общего принципа работы с данными заключающегося в том что часто чтобы получить нужны данные - их нужно создать, своими руками и руками волонтёров. Чем бы Вы не занимались - исследованиями в молекулярной биологии, лингвистике или гендерными исследованиями, во всех случаях Вы можете создавать краудсорсинговые проекты которые, совмещённые с анализом данных, и позволяют получать очень интересные исследования и продукты как результат.
Ссылки:
[1] https://pybossa.com/
[2] https://crowdcrafting.org/
[3] https://crowdcrafting.org/project/genderandtechmagazines/
[4] https://crowdcrafting.org/project/WLMRussia/
[5] https://crowdcrafting.org/project/sciencephotography/
[6] https://scifabric.com/
[7] https://opencorpora.org/
[8] https://github.com/OpenCorpora
[9] https://ruscorpora.ru/
#opendata #crowdsourcing
Pybossa
The ultimate crowdsourcing framework - PYBOSSA by Scifabric
The ultimate crowdsourcing framework to analyze or enrich data that can't be processed by machines alone
Forwarded from Национальный цифровой архив
Google анонсировали закрытие сервиса сокращения ссылок goo.gl [1] после того как уже более 5 лет с его помощью нельзя было создавать ссылки, а также были отключены функции аналитики и управления.
Окончательно сервис будет закрыт 25 августа 2025 когда перестанут работать ссылки, а с 23 августа 2024 года будет выводится предупреждение при их открытии.
Чтобы будет с этими ссылками? Команда Archive Team ведёт архивацию всех коротких ссылок в проекте URLTeam [2]. Уже просканировано 38.6 миллиардов ссылок и обнаружены активными 7 миллиардов ссылок.
P.S. ArchiveTeam это крупнейший глобальный краудсорсинговый проект по веб архивации, поучаствовать в нём можно с помощью ПО Warrior которое выполняет задачи по сбору контента синхронизируясь с трекером задач [3].
Ссылки:
[1] https://9to5google.com/2024/07/18/googl-links/
[2] https://tracker.archiveteam.org:1338/status
[3] https://wiki.archiveteam.org/index.php/ArchiveTeam_Warrior
#digitalpreservation #webarchive #google #crowdsourcing #urlshortener
Окончательно сервис будет закрыт 25 августа 2025 когда перестанут работать ссылки, а с 23 августа 2024 года будет выводится предупреждение при их открытии.
Чтобы будет с этими ссылками? Команда Archive Team ведёт архивацию всех коротких ссылок в проекте URLTeam [2]. Уже просканировано 38.6 миллиардов ссылок и обнаружены активными 7 миллиардов ссылок.
P.S. ArchiveTeam это крупнейший глобальный краудсорсинговый проект по веб архивации, поучаствовать в нём можно с помощью ПО Warrior которое выполняет задачи по сбору контента синхронизируясь с трекером задач [3].
Ссылки:
[1] https://9to5google.com/2024/07/18/googl-links/
[2] https://tracker.archiveteam.org:1338/status
[3] https://wiki.archiveteam.org/index.php/ArchiveTeam_Warrior
#digitalpreservation #webarchive #google #crowdsourcing #urlshortener