А как же правильно? А что же делать? А то критиковать могут многие, а ты предложи (c)
А я и предлагаю (с):
1. Большую Российскую энкциклопедию необходимо "закрыть со всем уважением" (c) так скоро сколь только возможно. Помещение превратить в музей Большой советской энциклопедии, субсидию вернуть, далее выпуск бумажных/электронных/любых иных томов энциклопедии не финансировать. БРЭ не сумело выйти на самоокупаемость, как энциклопедия Британника, не способно существовать без господдержки и просто не соответствует нынешним реалиям востребованности.
2. Раз у федерального правительства есть столь много свободных средств на развитие качественного контента, то решение в том чтобы устроить непрерывно идующий конкурс в котором выделять ежемесячно до 10 миллионов рублей на премирование за написание с нуля статей в Википедии. Лучшим 50 авторам по 50 тысяч, следующим 100 авторам по 25 тысяч, следующим 500 авторам по 5 тысяч и ещё 1000 авторов по 2.5 тысячи. Каждый месяц. Непрерывно. Обойдётся это бюджету не более чем в 120 миллионов рублей в год или 360 миллионов рублей за 3 года. Да тут ещё и экономия возникнет немалая.
3. Создать Фонд поддержки знаний по аналогии с Фондом кино и финансировать на конкурсно-грантовой основе проекты по преумножению знаний. Материальная поддержка может помочь жить многим вики-проектам альтернативным Википедии [8], а они тоже имеют право на жизнь и они куда как более полны чем БРЭ, даже если не столь энциклопедичны. Не говоря уже о бесконечном множестве более узких вики-проектов не имеющих возможности находить финансирование у Фонда президентских грантов или иных источников финансирования.
В качестве послесловия тезисами:
- конкуренция и гранты - это хорошо, отсутствие конкуренции и субсидии - это плохо;
- БРЭ необходимо превратить в музей. Виртуальный и реальный, а все накопленные статьи опубликовать под Creative Commons;
- конкурс на статьи в Википедии резко повысит и качество статей, и заинтересованность участников и даст возможность гражданам России больше узнать о истории родины и многих других знаниях о которых напишут авторы;
- проекты альтернативные википедии существуют и заслуживают хотя бы небольшой, но поддержки;
Как видите позитивная повестка и вполне конкретное решение у меня тоже есть.
Ссылки:
[1] https://ru.wikipedia.org/wiki/Википедия:Текст_лицензии_Creative_Commons_Attribution-ShareAlike_3.0_Unported
[2] https://dumps.wikimedia.org/
[3] https://www.similarweb.com/website/ru.wikipedia.org#search
[4] https://www.wired.co.uk/article/wikipedia-google-youtube-facebook-support
[5] https://sub.clearspending.ru/subsidy/13519PH6000/
[6] https://www.tadviser.ru/index.php/Компания:Спутник_Поисковый_портал
[8] https://wikireality.ru/wiki/Альтернативные_Википедии_википроекты
#opendata #openknowledge #wikipedia
А я и предлагаю (с):
1. Большую Российскую энкциклопедию необходимо "закрыть со всем уважением" (c) так скоро сколь только возможно. Помещение превратить в музей Большой советской энциклопедии, субсидию вернуть, далее выпуск бумажных/электронных/любых иных томов энциклопедии не финансировать. БРЭ не сумело выйти на самоокупаемость, как энциклопедия Британника, не способно существовать без господдержки и просто не соответствует нынешним реалиям востребованности.
2. Раз у федерального правительства есть столь много свободных средств на развитие качественного контента, то решение в том чтобы устроить непрерывно идующий конкурс в котором выделять ежемесячно до 10 миллионов рублей на премирование за написание с нуля статей в Википедии. Лучшим 50 авторам по 50 тысяч, следующим 100 авторам по 25 тысяч, следующим 500 авторам по 5 тысяч и ещё 1000 авторов по 2.5 тысячи. Каждый месяц. Непрерывно. Обойдётся это бюджету не более чем в 120 миллионов рублей в год или 360 миллионов рублей за 3 года. Да тут ещё и экономия возникнет немалая.
3. Создать Фонд поддержки знаний по аналогии с Фондом кино и финансировать на конкурсно-грантовой основе проекты по преумножению знаний. Материальная поддержка может помочь жить многим вики-проектам альтернативным Википедии [8], а они тоже имеют право на жизнь и они куда как более полны чем БРЭ, даже если не столь энциклопедичны. Не говоря уже о бесконечном множестве более узких вики-проектов не имеющих возможности находить финансирование у Фонда президентских грантов или иных источников финансирования.
В качестве послесловия тезисами:
- конкуренция и гранты - это хорошо, отсутствие конкуренции и субсидии - это плохо;
- БРЭ необходимо превратить в музей. Виртуальный и реальный, а все накопленные статьи опубликовать под Creative Commons;
- конкурс на статьи в Википедии резко повысит и качество статей, и заинтересованность участников и даст возможность гражданам России больше узнать о истории родины и многих других знаниях о которых напишут авторы;
- проекты альтернативные википедии существуют и заслуживают хотя бы небольшой, но поддержки;
Как видите позитивная повестка и вполне конкретное решение у меня тоже есть.
Ссылки:
[1] https://ru.wikipedia.org/wiki/Википедия:Текст_лицензии_Creative_Commons_Attribution-ShareAlike_3.0_Unported
[2] https://dumps.wikimedia.org/
[3] https://www.similarweb.com/website/ru.wikipedia.org#search
[4] https://www.wired.co.uk/article/wikipedia-google-youtube-facebook-support
[5] https://sub.clearspending.ru/subsidy/13519PH6000/
[6] https://www.tadviser.ru/index.php/Компания:Спутник_Поисковый_портал
[8] https://wikireality.ru/wiki/Альтернативные_Википедии_википроекты
#opendata #openknowledge #wikipedia
Команда Википедии анонсировала Wikipedia Enterprise API [1], продукта для крупных корпораций по использованию данных Википедии.
Технически, к маю/июню 2021 года будут запущены расширенные (enterprise) варианты [2]:
- Enterprise Activity "Firehose" API
- Enterprise Structured Content API
- Enterprise Bulk Content API
В которых будет добавлено обновление данных в реальном времени как основная (главная) фишка для корпоративных потребителей. Пока всё выглядит как то что это SLA для корпоратов [3].
Что тут можно сказать. Есть большая вероятность что обновление данных в реальном времени - это не самая главная функция которая нужна от Википедии. Это же не твиттер и не другие соцсети у которых "Firehose" (пожарный шланг) с высокой пропускной способностью и реальным временем реально востребованы. У большинства потребителей данных Википедии уже давно отлажены процессы работы с ежедневными дампами. А если окажется что команда Википедии начнёт ухудшать открытые сервисы в угоду корпоративным, то это будет конец Википедии как общественного проекта.
Ссылки:
[1] https://diff.wikimedia.org/2021/03/16/introducing-the-wikimedia-enterprise-api/
[2] https://meta.wikimedia.org/wiki/Wikimedia_Enterprise
[3] https://meta.wikimedia.org/wiki/Wikimedia_Enterprise/FAQ#Legal
#opendata #enterpise #wikipedia #API
Технически, к маю/июню 2021 года будут запущены расширенные (enterprise) варианты [2]:
- Enterprise Activity "Firehose" API
- Enterprise Structured Content API
- Enterprise Bulk Content API
В которых будет добавлено обновление данных в реальном времени как основная (главная) фишка для корпоративных потребителей. Пока всё выглядит как то что это SLA для корпоратов [3].
Что тут можно сказать. Есть большая вероятность что обновление данных в реальном времени - это не самая главная функция которая нужна от Википедии. Это же не твиттер и не другие соцсети у которых "Firehose" (пожарный шланг) с высокой пропускной способностью и реальным временем реально востребованы. У большинства потребителей данных Википедии уже давно отлажены процессы работы с ежедневными дампами. А если окажется что команда Википедии начнёт ухудшать открытые сервисы в угоду корпоративным, то это будет конец Википедии как общественного проекта.
Ссылки:
[1] https://diff.wikimedia.org/2021/03/16/introducing-the-wikimedia-enterprise-api/
[2] https://meta.wikimedia.org/wiki/Wikimedia_Enterprise
[3] https://meta.wikimedia.org/wiki/Wikimedia_Enterprise/FAQ#Legal
#opendata #enterpise #wikipedia #API
Diff
Introducing the Wikimedia Enterprise API
Over the last 20 years the Wikimedia projects have grown into essential knowledge resources that are not just used by billions of people, but also by many commercial organizations that incorporate …
Отвлекаясь от темы данных, не могу не написать что всё идёт к тому что до конца года Википедию в России заблокируют. Ничего хорошего в этом, разумеется, нет, а главный признак этого события в том что как на дрожжах появилось несколько альтернатив:
1) Большая российская энциклопедия в какой-то момент обновили свой сайт [1], приглашают авторов и сам ресурс стал выглядеть, относительно, приличнее, но общий объём статей, скажем так, несущественнен по мировым меркам. Энциклопедия существовала и раньше, в неё было "вбухано" много денег и я писал про них много раз, в последний раз в 2021 году, 2 года назад [2].
2) Знание.Вики [3] относительно новый проект Общества Знание, похоже что активно запущенный совсем недавно. Внутри его движок MediaWiki и они активно зазывают авторов, позиционируя проект как авторский и экспертный. По ощущениям, многое берётся из Википедии, но это не полный импорт, потому что нет страниц даже каких-то базовых понятий, например, не все страны.
3) RUWIKI [4], по сути, это клон русскоязычной Википедии с цензурированием всех тех страниц которые Роскомнадзор хотел бы чтобы цензурировались в самой Википедии. Поскольку это клон то объёмы сильно превосходят Знание.Вики и БРС, но в целом это вторичный продукт по отношению к Википедии поскольку никаких новаций в нём нет, только отцензурированная версия Википедии. Внутри движок Mediawiki
—
Я бы сказал что всё это сигналы что Википедию заблокируют до конца года, а в школах начнут продвигать использование одного из этих проектов или всех трёх, не берусь судить заранее, думаю что и сами инициаторы не знают до конца как это будет. Почему в школах? Потому что уже в университетах выше потребность в специализированных знаниях и если ищут в русскоязычной Википедии то только чтобы потом переключиться на другой язык или чтобы найти первоисточники и их изучить.
Впрочем речь не только об этом. Википедию неправильно рассматривать только как энциклопедию, это огромная свободно распространяемая база данных используемая Google, Bing, Yandex и другими для поисковых индексов и используемая почти всеми генеративными ИИ и ещё много кем. Собственно классические поисковые системы "отжирают" у Википедии больше трафика чем все вот эти потенциальные альтернативы или аналогичные альтернативы в других странах (Китай, Baidu).
Всё это российские "альтернативы" заменить не могут при всём желании, особенно Большая российская энциклопедия, где даже нет и не было условий использования материалов и возможности их распространения.
В любом случае я не перестаю повторять именно блокировка популярных ресурсов вроде Порнхаба или Википедии более всего вносит вклад в массовое обучение рядовых россиян для использования VPN сервисов для обхода блокировок.
Так что лично я предсказываю блокировку Википедии Роскомнадзором до конца года, со всеми вытекающими последствиями.
UPDATE:
Туда же в список альтернатив Википедиии:
- Энциклопедия Руниверсалис [5], также полный клон русской википедии
- Энциклопедия Кирилла и Мефодия [6] не вики проект и достаточно давний, по размерам меньше БРЭ, но под свободной лицензией
А также большая подборка ссылок на русскоязычные Вики проекты и инструменты работы с проектами фонда Wikimedia [7]
Ссылки:
[1] https://bigenc.ru
[2] https://t.iss.one/begtin/3236
[3] https://znanierussia.ru/articles/Заглавная_страница
[4] https://ru.ruwiki.ru
[5] https://руни.рф
[6] https://megabook.ru
[7] https://github.com/alexeilutay/wiki4journals
#russia #wikipedia #censorship
1) Большая российская энциклопедия в какой-то момент обновили свой сайт [1], приглашают авторов и сам ресурс стал выглядеть, относительно, приличнее, но общий объём статей, скажем так, несущественнен по мировым меркам. Энциклопедия существовала и раньше, в неё было "вбухано" много денег и я писал про них много раз, в последний раз в 2021 году, 2 года назад [2].
2) Знание.Вики [3] относительно новый проект Общества Знание, похоже что активно запущенный совсем недавно. Внутри его движок MediaWiki и они активно зазывают авторов, позиционируя проект как авторский и экспертный. По ощущениям, многое берётся из Википедии, но это не полный импорт, потому что нет страниц даже каких-то базовых понятий, например, не все страны.
3) RUWIKI [4], по сути, это клон русскоязычной Википедии с цензурированием всех тех страниц которые Роскомнадзор хотел бы чтобы цензурировались в самой Википедии. Поскольку это клон то объёмы сильно превосходят Знание.Вики и БРС, но в целом это вторичный продукт по отношению к Википедии поскольку никаких новаций в нём нет, только отцензурированная версия Википедии. Внутри движок Mediawiki
—
Я бы сказал что всё это сигналы что Википедию заблокируют до конца года, а в школах начнут продвигать использование одного из этих проектов или всех трёх, не берусь судить заранее, думаю что и сами инициаторы не знают до конца как это будет. Почему в школах? Потому что уже в университетах выше потребность в специализированных знаниях и если ищут в русскоязычной Википедии то только чтобы потом переключиться на другой язык или чтобы найти первоисточники и их изучить.
Впрочем речь не только об этом. Википедию неправильно рассматривать только как энциклопедию, это огромная свободно распространяемая база данных используемая Google, Bing, Yandex и другими для поисковых индексов и используемая почти всеми генеративными ИИ и ещё много кем. Собственно классические поисковые системы "отжирают" у Википедии больше трафика чем все вот эти потенциальные альтернативы или аналогичные альтернативы в других странах (Китай, Baidu).
Всё это российские "альтернативы" заменить не могут при всём желании, особенно Большая российская энциклопедия, где даже нет и не было условий использования материалов и возможности их распространения.
В любом случае я не перестаю повторять именно блокировка популярных ресурсов вроде Порнхаба или Википедии более всего вносит вклад в массовое обучение рядовых россиян для использования VPN сервисов для обхода блокировок.
Так что лично я предсказываю блокировку Википедии Роскомнадзором до конца года, со всеми вытекающими последствиями.
UPDATE:
Туда же в список альтернатив Википедиии:
- Энциклопедия Руниверсалис [5], также полный клон русской википедии
- Энциклопедия Кирилла и Мефодия [6] не вики проект и достаточно давний, по размерам меньше БРЭ, но под свободной лицензией
А также большая подборка ссылок на русскоязычные Вики проекты и инструменты работы с проектами фонда Wikimedia [7]
Ссылки:
[1] https://bigenc.ru
[2] https://t.iss.one/begtin/3236
[3] https://znanierussia.ru/articles/Заглавная_страница
[4] https://ru.ruwiki.ru
[5] https://руни.рф
[6] https://megabook.ru
[7] https://github.com/alexeilutay/wiki4journals
#russia #wikipedia #censorship
bigenc.ru
Портал. Большая российская энциклопедия
Научно-образовательный энциклопедический портал. Совокупность энциклопедических статей и мультимедийных материалов, которые проходят проверку...
В рубрике интересных проектов с открытыми данными небольшой проект Govdirectory [1] по визуализации аккаунтов органов власти в соцсетях по странам. Внутри данные из Wikidata, импортируются на регулярной основе и автор отправляет желающих что-то поправить - править сразу в Wikidata. По некоторым странам вроде Норвегии [2] внесено много и подробно. По другим, вроде России [3] довольно мало, а по большинству стран просто ничего нет, поскольку в каталоге всего 28 стран. Впрочем это Википроект где каждый может добавить что-либо, включая страну, поскольку код открыт и контрибьюторы там активны [4].
Ссылки:
[1] https://www.govdirectory.org
[2] https://www.govdirectory.org/norway/
[3] https://www.govdirectory.org/russia/
[4] https://github.com/govdirectory
#opendata #datasets #wikipedia #wikidata
Ссылки:
[1] https://www.govdirectory.org
[2] https://www.govdirectory.org/norway/
[3] https://www.govdirectory.org/russia/
[4] https://github.com/govdirectory
#opendata #datasets #wikipedia #wikidata
На фоне весьма вероятной блокировки Википедии в РФ в этом году не могу не напомнить что есть такой проект как Kiwix по оффлайновому доступу к Википедии и множеству других вики и онлайн ресурсов [1].
Его особенность в том что это open source продукт со множеством приложений под разные платформы [2], которые однозначно стоит скачать под свою, а также с библиотекой из 1006 книг [3], хотя правильнее сказать слепков веб ресурсов.
Kiwix работает на данных в формате ZIM [4] и кроме Kiwix есть много других читалок этого формата под любые платформы. А я не могу не напомнить что ещё есть такая утилита как warc2zim [5] позволяющая преобразовать WARC файлы создаваемые при архивации сайтов в файлы ZIM для оффлайн просмотра.
Ссылки:
[1] https://kiwix.org/en/
[2] https://kiwix.org/en/applications/
[3] https://library.kiwix.org
[4] https://wiki.openzim.org/wiki/ZIM_file_format
[5] https://github.com/openzim/warc2zim
#opendata #digitalpreservation #webarchives #wikipedia #zim #kiwix
Его особенность в том что это open source продукт со множеством приложений под разные платформы [2], которые однозначно стоит скачать под свою, а также с библиотекой из 1006 книг [3], хотя правильнее сказать слепков веб ресурсов.
Kiwix работает на данных в формате ZIM [4] и кроме Kiwix есть много других читалок этого формата под любые платформы. А я не могу не напомнить что ещё есть такая утилита как warc2zim [5] позволяющая преобразовать WARC файлы создаваемые при архивации сайтов в файлы ZIM для оффлайн просмотра.
Ссылки:
[1] https://kiwix.org/en/
[2] https://kiwix.org/en/applications/
[3] https://library.kiwix.org
[4] https://wiki.openzim.org/wiki/ZIM_file_format
[5] https://github.com/openzim/warc2zim
#opendata #digitalpreservation #webarchives #wikipedia #zim #kiwix
Похоже что Большая российская энциклопедия на грани закрытия, не могу сказать что мне она когда-либо вызывала симпатию, но, похоже, сотрудников даже не предупреждали что финансирования больше нет. В комментариях к посту очень много критики в адрес руководства.
Похоже что сайт bigenc.ru придётся архивировать.
С одной стороны такова судьба всех классических энциклопедий ибо создавать контент очень дорого.
А с другой стороны, а зачем вообще на неё тратили средства?
Впрочем вангую что судьба всех остальных российских википедиезаменителей будет аналогична.
Любые энциклопедические проекты должны быть открытыми, с открытыми данными, открытым кодом, API, краудсорсингом и _без любой идеологии_.
Людей жалко, конечно.
#wikipedia #bigenc #closeddata #russia
Похоже что сайт bigenc.ru придётся архивировать.
С одной стороны такова судьба всех классических энциклопедий ибо создавать контент очень дорого.
А с другой стороны, а зачем вообще на неё тратили средства?
Впрочем вангую что судьба всех остальных российских википедиезаменителей будет аналогична.
Любые энциклопедические проекты должны быть открытыми, с открытыми данными, открытым кодом, API, краудсорсингом и _без любой идеологии_.
Людей жалко, конечно.
#wikipedia #bigenc #closeddata #russia
К вопросу об обработке данных с минимальным футпринтом (потреблением памяти оперативной и при хранении). Я добавил к библиотеке iterable пример по обработке дампов Википедии [1].
Для тех кто не сталкивался ранее, Фонд Викимедия обеспечивает открытость всех вариантов Википедии на сайте дампов [2] где они доступны в виде файлов SQL для загрузки в MySQL совместимые СУБД сжатых GZip и в виде дампов XML сжатых Bzip2. Если хочется поработать с этими данными локально, то надо или воссоздавать SQL базу данных из SQL файлов или работать с большими XML документами внутри которых страницы и другие объекты. Размер этих XML документов может быть весьма велик, до десятков гигабайт и обрабатывать их DOM парсерами весьма накладно.
Для некоторых задач Dateno мне нужны дампы Википедии, так чтобы к ним можно было строить запросы, но без желания воспроизводства инфраструктуры с MySQL и, в целом, хочется обрабатывать их оптимизировано.
Поэтому в примере выше использование библиотеки iterable для преобразования одной из маленьких Wiki (simplewiki) с дампом в 308MB в формате xml.bz2.
Идея в том чтобы:
1. Превратить его в формат для работы с помощью DuckDB
2. Сохранить минимально возможный объем для локального хранения, обработки и анализа.
3. Иметь возможность проделывать вме это на десктопе и с минимальным потреблением оперативной памяти.
В итоге пример можно посмотреть в репозитории. Два скрипта.
- convert.py преобразует xml.bz2 файл в jsonl.zst.
- enrich.py добавляет в полученный файл дополнительные метаданные по категориям вики страниц.
Почему jsonl и zst ? Потому что DuckDB умеет этот формат. После преобразования можно работать с ним напрямую без доп. преобразований.
Итог:
1. Сжатый XML дамп в 308MB преобразуется в сжатый JSONl файл в 325 MB
2. Время преобразования на простом десктопе порядка 2 минут.
3. С итоговым результатом можно работать как с базой данных DuckDB и делать запросы.
Еще лучше было бы будь возможность преобразовать в parquet, но и такой вариант пригоден к дальнейшей работе. К тому же parquet наиболее эффективен на хорошо сжимаемых колонках, а тут много викитекста для которого колоночное сжатие того же эффекта не несёт.
Пример на то и пример чтобы продемонстрировать саму идею. Simplewiki небольшая вики и на русскоязычной или испаноязычной википедиях процесс займёт дольше времени, но всё это демонстрация того что с этими данными можно работать локально и с удобными инструментами.
P.S. Если кто-то знает хорошие движки и примеры быстрого преобразования викидампов в компактные локальные базы данных, поделитесь плз.
Ссылки:
[1] https://github.com/apicrafter/pyiterable/tree/main/examples/simplewiki
[2] https://dumps.wikimedia.org
#dataengineering #datatools #opendata #wikipedia
Для тех кто не сталкивался ранее, Фонд Викимедия обеспечивает открытость всех вариантов Википедии на сайте дампов [2] где они доступны в виде файлов SQL для загрузки в MySQL совместимые СУБД сжатых GZip и в виде дампов XML сжатых Bzip2. Если хочется поработать с этими данными локально, то надо или воссоздавать SQL базу данных из SQL файлов или работать с большими XML документами внутри которых страницы и другие объекты. Размер этих XML документов может быть весьма велик, до десятков гигабайт и обрабатывать их DOM парсерами весьма накладно.
Для некоторых задач Dateno мне нужны дампы Википедии, так чтобы к ним можно было строить запросы, но без желания воспроизводства инфраструктуры с MySQL и, в целом, хочется обрабатывать их оптимизировано.
Поэтому в примере выше использование библиотеки iterable для преобразования одной из маленьких Wiki (simplewiki) с дампом в 308MB в формате xml.bz2.
Идея в том чтобы:
1. Превратить его в формат для работы с помощью DuckDB
2. Сохранить минимально возможный объем для локального хранения, обработки и анализа.
3. Иметь возможность проделывать вме это на десктопе и с минимальным потреблением оперативной памяти.
В итоге пример можно посмотреть в репозитории. Два скрипта.
- convert.py преобразует xml.bz2 файл в jsonl.zst.
- enrich.py добавляет в полученный файл дополнительные метаданные по категориям вики страниц.
Почему jsonl и zst ? Потому что DuckDB умеет этот формат. После преобразования можно работать с ним напрямую без доп. преобразований.
Итог:
1. Сжатый XML дамп в 308MB преобразуется в сжатый JSONl файл в 325 MB
2. Время преобразования на простом десктопе порядка 2 минут.
3. С итоговым результатом можно работать как с базой данных DuckDB и делать запросы.
Еще лучше было бы будь возможность преобразовать в parquet, но и такой вариант пригоден к дальнейшей работе. К тому же parquet наиболее эффективен на хорошо сжимаемых колонках, а тут много викитекста для которого колоночное сжатие того же эффекта не несёт.
Пример на то и пример чтобы продемонстрировать саму идею. Simplewiki небольшая вики и на русскоязычной или испаноязычной википедиях процесс займёт дольше времени, но всё это демонстрация того что с этими данными можно работать локально и с удобными инструментами.
P.S. Если кто-то знает хорошие движки и примеры быстрого преобразования викидампов в компактные локальные базы данных, поделитесь плз.
Ссылки:
[1] https://github.com/apicrafter/pyiterable/tree/main/examples/simplewiki
[2] https://dumps.wikimedia.org
#dataengineering #datatools #opendata #wikipedia