Forwarded from Ivan Begtin (Ivan Begtin)
На фоне весьма вероятной блокировки Википедии в РФ в этом году не могу не напомнить что есть такой проект как Kiwix по оффлайновому доступу к Википедии и множеству других вики и онлайн ресурсов [1].
Его особенность в том что это open source продукт со множеством приложений под разные платформы [2], которые однозначно стоит скачать под свою, а также с библиотекой из 1006 книг [3], хотя правильнее сказать слепков веб ресурсов.
Kiwix работает на данных в формате ZIM [4] и кроме Kiwix есть много других читалок этого формата под любые платформы. А я не могу не напомнить что ещё есть такая утилита как warc2zim [5] позволяющая преобразовать WARC файлы создаваемые при архивации сайтов в файлы ZIM для оффлайн просмотра.
Ссылки:
[1] https://kiwix.org/en/
[2] https://kiwix.org/en/applications/
[3] https://library.kiwix.org
[4] https://wiki.openzim.org/wiki/ZIM_file_format
[5] https://github.com/openzim/warc2zim
#opendata #digitalpreservation #webarchives #wikipedia #zim #kiwix
Его особенность в том что это open source продукт со множеством приложений под разные платформы [2], которые однозначно стоит скачать под свою, а также с библиотекой из 1006 книг [3], хотя правильнее сказать слепков веб ресурсов.
Kiwix работает на данных в формате ZIM [4] и кроме Kiwix есть много других читалок этого формата под любые платформы. А я не могу не напомнить что ещё есть такая утилита как warc2zim [5] позволяющая преобразовать WARC файлы создаваемые при архивации сайтов в файлы ZIM для оффлайн просмотра.
Ссылки:
[1] https://kiwix.org/en/
[2] https://kiwix.org/en/applications/
[3] https://library.kiwix.org
[4] https://wiki.openzim.org/wiki/ZIM_file_format
[5] https://github.com/openzim/warc2zim
#opendata #digitalpreservation #webarchives #wikipedia #zim #kiwix
Роскомнадзор в прошлую пятницу заблокировал онлайн издание polit.ru Мы ведём его архивацию на случай если последуют действия по исчезновению контента/разделегированию домена и иным действиям после которых сайт может стать полностью недоступен не только в РФ, но и в других странах.
Если у Вас сохранились копии материалов или если Вы ранее делали слепок/архив материалов polit.ru - напишите в чате @ruarxivechat или по нашим контактам. Все архивные материалы мы разместим в нашем и в Интернет-архиве (archive.org).
#digitalpreservation #deathwatch #webarchives #politru
Если у Вас сохранились копии материалов или если Вы ранее делали слепок/архив материалов polit.ru - напишите в чате @ruarxivechat или по нашим контактам. Все архивные материалы мы разместим в нашем и в Интернет-архиве (archive.org).
#digitalpreservation #deathwatch #webarchives #politru
Для тех кто работает с файлами в WARC формате (большая часть сайтов в ruarxive хранятся в нём) ещё одна утилита по работе с ними. Warchaeology [1]. Утилита создана в Национальной библиотеке Норвегии и позволяет:
- конвертировать форматы ARC, WARC и Nedlib
- листать WARC файлы
- удалять дубликаты файлов
- валидировать содержание WARC файлов
- предоставлять оболочку по работе с WARC файлами
Инструмент полезный, может пригодится тем кто любит работать в командной строке. Я также напомню про библиотеку и утилиту командной строки WarcIO [2] с функциями извлечения и пересжатия содержимого WARC файлов и разработанную мной когда-то утилиту MetaWARC [3] которая тоже умеет извлекать контент из WARC файлов и ещё индексировать их в sqlite и считать статистику и даже извлекать метаданные из вложенных файлов.
Больше инструментов полезных и разных! Если Вы знаете хорошие инструменты с открытым кодом для цифровой архивации, пишите нам, будем делать их обзоры.
Ссылки:
[1] https://github.com/nlnwa/warchaeology
[2] https://github.com/webrecorder/warcio
[3] https://github.com/datacoon/metawarc
#tools #opensource #digitalpreservation #webarchives #WARC #software
- конвертировать форматы ARC, WARC и Nedlib
- листать WARC файлы
- удалять дубликаты файлов
- валидировать содержание WARC файлов
- предоставлять оболочку по работе с WARC файлами
Инструмент полезный, может пригодится тем кто любит работать в командной строке. Я также напомню про библиотеку и утилиту командной строки WarcIO [2] с функциями извлечения и пересжатия содержимого WARC файлов и разработанную мной когда-то утилиту MetaWARC [3] которая тоже умеет извлекать контент из WARC файлов и ещё индексировать их в sqlite и считать статистику и даже извлекать метаданные из вложенных файлов.
Больше инструментов полезных и разных! Если Вы знаете хорошие инструменты с открытым кодом для цифровой архивации, пишите нам, будем делать их обзоры.
Ссылки:
[1] https://github.com/nlnwa/warchaeology
[2] https://github.com/webrecorder/warcio
[3] https://github.com/datacoon/metawarc
#tools #opensource #digitalpreservation #webarchives #WARC #software
GitHub
GitHub - nlnwa/warchaeology: Command line tool for digging into WARC files
Command line tool for digging into WARC files. Contribute to nlnwa/warchaeology development by creating an account on GitHub.
Forwarded from Ах, этот Минфин (Olya Parkhimovich)
«Первое и важнейшее условие существования всякой благоустроенной системы госфинансов заключается в полнейшей гласности и отчетности расходов каждого фартинга казенных денег», 1870 г.
Удивительно, но все обоснования открытости и подотчетности государства, звучавшие при создании Открытого Правительства, разработке концепции открытых данных и развитии открытости не только в России, но и в других странах, были сформулированы еще 150 лет назад в издании Ливерпульской ассоциации финансовых реформ «Как англичане критикуют свои государственные расходы» (1870 год).
Авторы описывают необходимость открытости и подотчетности госорганов, работу государства за счет налогов граждан, необходимость бережного отношения к деньгам граждан, необходимость еще большей открытости Великобритании, а также высказывают сомнения в точности и добросовестности раскрываемой информации.
Второе издание 1908 года, пополнившее библиотеку Инфокультуры благодаря Максиму Осовскому, мы оцифровываем для проекта Цифрового архива госфинансов (@finlibraryru, подписывайтесь, будем делиться новостями проекта и находками).
Оригинал текста на скриншоте, но для удобства цитирую ниже:
«Первое и важнейшее условие существования всякой благоустроенной системы госфинансов заключается в полнейшей гласности и отчетности расходов каждого фартинга казенных денег. Государственные люди не должны забывать, что большинство доходов казны собирается в форме налогов. т.е. принудительным образом и без вознаграждения подданного каким-нибудь личным эквивалентом. Расход каждого фартинга казенных денег, поэтому, имеет особое, чуть ли не священное значение и должен совершаться с соблюдением величайшей бережливости, осторожности и гласности. … Таким образом, по мысли ливерпульского общества, власть должна производить расходы так, чтобы не только представители народа, но и всякий частный человек имел возможность проследить и проверить, куда и каким путем ушел из рук правительства каждый фартинг денег, ежегодно ассигнуемых народом на нужды государства».
Удивительно, но все обоснования открытости и подотчетности государства, звучавшие при создании Открытого Правительства, разработке концепции открытых данных и развитии открытости не только в России, но и в других странах, были сформулированы еще 150 лет назад в издании Ливерпульской ассоциации финансовых реформ «Как англичане критикуют свои государственные расходы» (1870 год).
Авторы описывают необходимость открытости и подотчетности госорганов, работу государства за счет налогов граждан, необходимость бережного отношения к деньгам граждан, необходимость еще большей открытости Великобритании, а также высказывают сомнения в точности и добросовестности раскрываемой информации.
Второе издание 1908 года, пополнившее библиотеку Инфокультуры благодаря Максиму Осовскому, мы оцифровываем для проекта Цифрового архива госфинансов (@finlibraryru, подписывайтесь, будем делиться новостями проекта и находками).
Оригинал текста на скриншоте, но для удобства цитирую ниже:
«Первое и важнейшее условие существования всякой благоустроенной системы госфинансов заключается в полнейшей гласности и отчетности расходов каждого фартинга казенных денег. Государственные люди не должны забывать, что большинство доходов казны собирается в форме налогов. т.е. принудительным образом и без вознаграждения подданного каким-нибудь личным эквивалентом. Расход каждого фартинга казенных денег, поэтому, имеет особое, чуть ли не священное значение и должен совершаться с соблюдением величайшей бережливости, осторожности и гласности. … Таким образом, по мысли ливерпульского общества, власть должна производить расходы так, чтобы не только представители народа, но и всякий частный человек имел возможность проследить и проверить, куда и каким путем ушел из рук правительства каждый фартинг денег, ежегодно ассигнуемых народом на нужды государства».
Велика вероятность закрытия сайта Большой российской энциклопедии (bigenc.ru) 17 июня. Руководство проекта написало об этом сегодня. Наша команда постарается сделать архивную копию на этих выходных. Если у Вас есть копии контента и Вы готовы их передать, мы обязательно добавим их в архив и сделаем материалы общедоступными.
P.S. В который раз приходится сталкиваться с ситуацией необходимости экстренной архивации государственных проектов. Очень печалит что о происходящем ранее не было известно.
#deathwatch #webarchive #bigenc
P.S. В который раз приходится сталкиваться с ситуацией необходимости экстренной архивации государственных проектов. Очень печалит что о происходящем ранее не было известно.
#deathwatch #webarchive #bigenc
Telegram
Большая российская энциклопедия
Обращение редакций портала «Большая российская энциклопедия» к авторам, экспертам и читателям
Уважаемые авторы, рецензенты и читатели портала «Большая российская энциклопедия». Дорогие друзья и коллеги!
Два года назад нашими общими усилиями в сети Интернет…
Уважаемые авторы, рецензенты и читатели портала «Большая российская энциклопедия». Дорогие друзья и коллеги!
Два года назад нашими общими усилиями в сети Интернет…
Текущий статус сохранения материалов Большой российской энциклопедии (БРЭ):
- сохранены 82 228 статей портала old.bigenc.ru, всего 1.4 GB в сжатом виде в виде коллекции HTML файлов
- сохранены 224 556 статей портала bigenc.ru всего 6.9GB в сжатом виде в виде коллекции HTML файлов
- идёт сохранение сайта в формат веб архивации WARC, всего сохранено 425 тысяч файлов (HTML, изображения и видео).
На текущий момент это 35 GB в сжатом виде, ожидаемый итоговый размер архива составит порядка 100-150 GB.
Несмотря на то что судя по последним новостям БРЭ останется в открытом доступе до сентября, архивация продолжится насколько это возможно.
Поскольку архивация контента не является её воспроизведением, все архивные копии материалов будут общедоступны (также как архивы страниц доступны в Интернет Архиве и в проекте Common Crawl).
#webarchival #digitalpreservation #bigenc
- сохранены 82 228 статей портала old.bigenc.ru, всего 1.4 GB в сжатом виде в виде коллекции HTML файлов
- сохранены 224 556 статей портала bigenc.ru всего 6.9GB в сжатом виде в виде коллекции HTML файлов
- идёт сохранение сайта в формат веб архивации WARC, всего сохранено 425 тысяч файлов (HTML, изображения и видео).
На текущий момент это 35 GB в сжатом виде, ожидаемый итоговый размер архива составит порядка 100-150 GB.
Несмотря на то что судя по последним новостям БРЭ останется в открытом доступе до сентября, архивация продолжится насколько это возможно.
Поскольку архивация контента не является её воспроизведением, все архивные копии материалов будут общедоступны (также как архивы страниц доступны в Интернет Архиве и в проекте Common Crawl).
#webarchival #digitalpreservation #bigenc
Telegram
Большая российская энциклопедия
Уважаемые коллеги, пользователи портала!
Компания, обеспечивающая размещение портала «Большая российская энциклопедия» и работу редакционного комплекса в сети Интернет, продлила срок предоставления хостинга до сентября текущего года с учётом обращения Минцифры…
Компания, обеспечивающая размещение портала «Большая российская энциклопедия» и работу редакционного комплекса в сети Интернет, продлила срок предоставления хостинга до сентября текущего года с учётом обращения Минцифры…
Для всех кто искал архив статей Большой Российской энциклопедии доступны два архива в рамках идущей архивной кампании
- bigenc.ru[1], архив статей основного сайта в 7GB в сжатом виде в ZIP архиве
- old.bigenc.ru [2], архив статей старой версии сайта в 1GB в сжатом виде в ZIP архиве
Эти архивы размещаются не как воспроизведение, а для задач связанных с общественным интересом к материалам БРЭ.
Продолжается архивация статей и медиа материалов в формате WARC, размеры этого архива будут значительно больше и включать практически все общедоступные материалы материалы.
Ссылки:
[1] https://hubofdata.ru/dataset/bigenc-filedump
[2] https://hubofdata.ru/dataset/oldbigenc-filedump
#opendata #webarchives #archives #bigenc
- bigenc.ru[1], архив статей основного сайта в 7GB в сжатом виде в ZIP архиве
- old.bigenc.ru [2], архив статей старой версии сайта в 1GB в сжатом виде в ZIP архиве
Эти архивы размещаются не как воспроизведение, а для задач связанных с общественным интересом к материалам БРЭ.
Продолжается архивация статей и медиа материалов в формате WARC, размеры этого архива будут значительно больше и включать практически все общедоступные материалы материалы.
Ссылки:
[1] https://hubofdata.ru/dataset/bigenc-filedump
[2] https://hubofdata.ru/dataset/oldbigenc-filedump
#opendata #webarchives #archives #bigenc
hubofdata.ru
Архив файла основного сайта Большой российской энциклопедии (bigenc.ru). - Хаб открытых данных
Архив на всех статей сайта bigenc.ru на 2024-06-16 в HTML формате в виде ZIP архива. При использовании материалов необходимо соблюдение условий использования и воспроизведения, приведены на сайте...
Google анонсировали закрытие сервиса сокращения ссылок goo.gl [1] после того как уже более 5 лет с его помощью нельзя было создавать ссылки, а также были отключены функции аналитики и управления.
Окончательно сервис будет закрыт 25 августа 2025 когда перестанут работать ссылки, а с 23 августа 2024 года будет выводится предупреждение при их открытии.
Чтобы будет с этими ссылками? Команда Archive Team ведёт архивацию всех коротких ссылок в проекте URLTeam [2]. Уже просканировано 38.6 миллиардов ссылок и обнаружены активными 7 миллиардов ссылок.
P.S. ArchiveTeam это крупнейший глобальный краудсорсинговый проект по веб архивации, поучаствовать в нём можно с помощью ПО Warrior которое выполняет задачи по сбору контента синхронизируясь с трекером задач [3].
Ссылки:
[1] https://9to5google.com/2024/07/18/googl-links/
[2] https://tracker.archiveteam.org:1338/status
[3] https://wiki.archiveteam.org/index.php/ArchiveTeam_Warrior
#digitalpreservation #webarchive #google #crowdsourcing #urlshortener
Окончательно сервис будет закрыт 25 августа 2025 когда перестанут работать ссылки, а с 23 августа 2024 года будет выводится предупреждение при их открытии.
Чтобы будет с этими ссылками? Команда Archive Team ведёт архивацию всех коротких ссылок в проекте URLTeam [2]. Уже просканировано 38.6 миллиардов ссылок и обнаружены активными 7 миллиардов ссылок.
P.S. ArchiveTeam это крупнейший глобальный краудсорсинговый проект по веб архивации, поучаствовать в нём можно с помощью ПО Warrior которое выполняет задачи по сбору контента синхронизируясь с трекером задач [3].
Ссылки:
[1] https://9to5google.com/2024/07/18/googl-links/
[2] https://tracker.archiveteam.org:1338/status
[3] https://wiki.archiveteam.org/index.php/ArchiveTeam_Warrior
#digitalpreservation #webarchive #google #crowdsourcing #urlshortener
Несколько часов назад Фонд "Нужна помощь" объявил о том что начинает процедуру ликвидации в связи с признанием его иноагентом и невозможностью продолжать деятельность.
Это был довольно большой и заметный некоммерческий фонд в РФ и им было создано множество цифровых ресурсов.
В ближайшее время мы начнём архивацию цифровых ресурсов Фонда и надеемся что успеем сохранить их в насколько возможно полном объёме.
Задачи в которых можно помочь:
1. Составить список ресурсов (сайты и социальные сети) созданных Фондом, желательно оформить их в виде списка: название, ссылка, тип (соцсеть, сайт и т.д.)
2. Если у Вас есть прямой выход, связаться с сотрудниками Фонда и узнать готовы ли они передать слепки их цифровых ресурсов для долгосрочной архивации. А возможно фонд сохранит самостоятельно хотя бы их часть в Интернет архиве
3. Заархивировать и выложить куда-то видеоматериалы фонда, если они есть и доступны. Это самый тяжёлый контент, он публиковался точно на Youtube, но может где-то ещё.
4. Мы начнём веб архивацию сайтов завтра с утра, 8 августа. Хочется надеяться что тут не будет как во многих подобных случаях и материалы не начнут исчезать моментально после анонса.
5. Напишите если будут ещё какие-то идеи что и как можно сохранить
Если готовы как-то помочь по списку выше, пожалуйста, напишите в чат @ruarxivechat
#webarchives #archives
Это был довольно большой и заметный некоммерческий фонд в РФ и им было создано множество цифровых ресурсов.
В ближайшее время мы начнём архивацию цифровых ресурсов Фонда и надеемся что успеем сохранить их в насколько возможно полном объёме.
Задачи в которых можно помочь:
1. Составить список ресурсов (сайты и социальные сети) созданных Фондом, желательно оформить их в виде списка: название, ссылка, тип (соцсеть, сайт и т.д.)
2. Если у Вас есть прямой выход, связаться с сотрудниками Фонда и узнать готовы ли они передать слепки их цифровых ресурсов для долгосрочной архивации. А возможно фонд сохранит самостоятельно хотя бы их часть в Интернет архиве
3. Заархивировать и выложить куда-то видеоматериалы фонда, если они есть и доступны. Это самый тяжёлый контент, он публиковался точно на Youtube, но может где-то ещё.
4. Мы начнём веб архивацию сайтов завтра с утра, 8 августа. Хочется надеяться что тут не будет как во многих подобных случаях и материалы не начнут исчезать моментально после анонса.
5. Напишите если будут ещё какие-то идеи что и как можно сохранить
Если готовы как-то помочь по списку выше, пожалуйста, напишите в чат @ruarxivechat
#webarchives #archives
Пишут сервис Wix начнёт блокировать аккаунты связанные с Россией начиная с 12 сентября. У многих Wix сайты уже перестали работать ещё в 2022 году после невозможности платежей из России. Но судя по всему у кого-то сайты на Wix остались.
Если Вы знаете сайты на Wix владельцы которых могли получить подобное сообщение и чьи сайты исчезнут 12 сентября, напишите в чате к этому каналу и мы постараемся заархивировать всё что успеем.
#wix #webarchives
Если Вы знаете сайты на Wix владельцы которых могли получить подобное сообщение и чьи сайты исчезнут 12 сентября, напишите в чате к этому каналу и мы постараемся заархивировать всё что успеем.
#wix #webarchives
Как оцифровать домашний архив?
Лекция и мастер-класс в Музее криптографии (Москва, оффлайн)
24 сентября в 19:00
Участие бесплатное, по регистрации
Что делать с домашним архивом? Как его оцифровать? Что такое общественная архивистика? Об этом пойдет речь на лекции Центра «Прожито» Европейского университета, открывшего новый сервис «Цифровой архив». После лекции состоится мастер-класс по работе с домашними архивами.
Вы можете принести документы из своего архива и получить рекомендации по их исследованию, хранению и оцифровке.
Эксперты и ведущие:
Михаил Мельниченко, историк, директор центра «Прожито» ЕУСПб.
Георгий Шерстнев, историк искусства, архивист центра «Прожито».
Анастасия Павловская, историк, архивист центра «Прожито».
Лекция и мастер-класс в Музее криптографии (Москва, оффлайн)
24 сентября в 19:00
Участие бесплатное, по регистрации
Что делать с домашним архивом? Как его оцифровать? Что такое общественная архивистика? Об этом пойдет речь на лекции Центра «Прожито» Европейского университета, открывшего новый сервис «Цифровой архив». После лекции состоится мастер-класс по работе с домашними архивами.
Вы можете принести документы из своего архива и получить рекомендации по их исследованию, хранению и оцифровке.
Эксперты и ведущие:
Михаил Мельниченко, историк, директор центра «Прожито» ЕУСПб.
Георгий Шерстнев, историк искусства, архивист центра «Прожито».
Анастасия Павловская, историк, архивист центра «Прожито».
Закрывается Flibusta [1], независимый библиотечный ресурс, через несколько недель может прекратить свое существование. Причина - рак у его создателя и администратора.
Совершенно точно у книг Flibusta есть множество архивных копий на торрентах, но эти архивные копии не включают обсуждений, материалов форумов, иных текстов с сайтов, не относящихся к книгам.
Кроме того в торрент трекерах книги, или обновлениями за период, или полным дампом, что усложнит чтение тем кому нужна не библиотека целиком, а собственный список для чтения. Имеет смысл сохранить книги которые Вы читаете заранее.
Ссылки:
[1] https://flibusta.is/node/681117
#digitalpreservation #books #flibusta
Совершенно точно у книг Flibusta есть множество архивных копий на торрентах, но эти архивные копии не включают обсуждений, материалов форумов, иных текстов с сайтов, не относящихся к книгам.
Кроме того в торрент трекерах книги, или обновлениями за период, или полным дампом, что усложнит чтение тем кому нужна не библиотека целиком, а собственный список для чтения. Имеет смысл сохранить книги которые Вы читаете заранее.
Ссылки:
[1] https://flibusta.is/node/681117
#digitalpreservation #books #flibusta
Судя по тому что пишут в СМИ Правительство определилось с будущим Большой российской энциклопедии [1], её материалы собираются передать в проект РуВики.
Если это действительно так то единственным плюсом может перевод материалов БРЭ под лицензию Creative Commons 4.0. В остальном про РуВики пока невозможно сказать что-либо хорошее кроме того что она клонирует русскоязычную Википедию и цензурирует статьи под российское законодательство.
В любом случае этот сценарий, похоже, ведёт к тому что сайт bigenc.ru будет закрыт и архивация материалов была небесполезна, поскольку то в каком виде материалы БРЭ будут в РуВики непонятно.
Ссылки:
[1] https://www.rbc.ru/politics/04/10/2024/6620c8f79a7947fd050a0da0
#bigenc #webarchives #encycplopedies
Если это действительно так то единственным плюсом может перевод материалов БРЭ под лицензию Creative Commons 4.0. В остальном про РуВики пока невозможно сказать что-либо хорошее кроме того что она клонирует русскоязычную Википедию и цензурирует статьи под российское законодательство.
В любом случае этот сценарий, похоже, ведёт к тому что сайт bigenc.ru будет закрыт и архивация материалов была небесполезна, поскольку то в каком виде материалы БРЭ будут в РуВики непонятно.
Ссылки:
[1] https://www.rbc.ru/politics/04/10/2024/6620c8f79a7947fd050a0da0
#bigenc #webarchives #encycplopedies
У Интернет-архива (archive.org) произошла крупнейшая утечка данных базы из 31 миллиона их пользователей [1]. Пока неизвестно украдены ли ещё какие-либо данные. Известно только что долгое время Интернет-архив был под DDoS атакой и регулярно был недоступен.
В любом случае если если у Вас есть аккаунт в Интернет-архиве, то имеет смысл сменить в нём пароль, а также если предыдущий пароль Вы использовали где-либо ещё, то сменить его в этих сервисах.
Ссылки:
[1] https://www.bleepingcomputer.com/news/security/internet-archive-hacked-data-breach-impacts-31-million-users/
#security #internetarchive #databreach
В любом случае если если у Вас есть аккаунт в Интернет-архиве, то имеет смысл сменить в нём пароль, а также если предыдущий пароль Вы использовали где-либо ещё, то сменить его в этих сервисах.
Ссылки:
[1] https://www.bleepingcomputer.com/news/security/internet-archive-hacked-data-breach-impacts-31-million-users/
#security #internetarchive #databreach
BleepingComputer
Internet Archive hacked, data breach impacts 31 million users
Internet Archive's "The Wayback Machine" has suffered a data breach after a threat actor compromised the website and stole a user authentication database containing 31 million unique records.
Для тех кто работает с архивами сайтов в формате WARC свежий инструмент WARC-GPT [1] по исследованию содержимого WARC файлов с использованием большой языковой модели (ИИ).
С открытым кодом [2] и примерами. Для проверки можно взять их тестовый датасет, скачать из Руархива (ruarxive.org) или создать самостоятельно с помощью wget или wpull.
Ссылки:
[1] https://lil.law.harvard.edu/blog/2024/02/12/warc-gpt-an-open-source-tool-for-exploring-web-archives-with-ai/
[2] https://github.com/harvard-lil/warc-gpt
#opensource #digitalpreservation #ai #webarchives
С открытым кодом [2] и примерами. Для проверки можно взять их тестовый датасет, скачать из Руархива (ruarxive.org) или создать самостоятельно с помощью wget или wpull.
Ссылки:
[1] https://lil.law.harvard.edu/blog/2024/02/12/warc-gpt-an-open-source-tool-for-exploring-web-archives-with-ai/
[2] https://github.com/harvard-lil/warc-gpt
#opensource #digitalpreservation #ai #webarchives
Forwarded from Ivan Begtin (Ivan Begtin)
В качестве регулярных напоминаний, с 1 по 7 марта 2025 года по всему миру пройдут мероприятия Дней открытых данных (Open Data Days, ODD) [1]. Это множество выступлений, лекций, семинаров и встреч по всему миру. Кто то слушает выступления других, кто-то проводит самостоятельно.
Ежегодно в России в Москве его проводит Инфокультура (@infoculture), с 2020 года в дистанционном формате. О прошлом ODD можно узнать на его сайте [2]. В 2025 году он, также, будет проходить дистанционно. Традиционно ключевая тема ODD - это открытые данные, мы также делаем акцент на данных связанных с культурой и историческим наследием, а также данными используемыми в исследовательских целях. В этот мероприятие также планируем и если у Вас есть желание выступить, то можно заранее писать мне.
В Армении мы также проводим день открытых данных, но вживую, организуя его от Open Data Armenia (@opendataam) и акцент делаем не только культурном наследии, но и на журналистике и практическом применении данных. Можно посмотреть программу прошлого ODD [3]. Если Вы в Армении и у Вас есть интересный доклад про данные и открытые данные, тоже обязательно напишите.
И, конечно, напишите, если Вы готовы выступить спонсором или иначе поддержать эти мероприятия. Наших скромных ресурсов хватает чтобы их организовать, но никогда не хватает чтобы сделать это идеально 😉
И, наконец, Open Data Day - это не только большие мероприятия, это ещё и сотни небольших митапов по всему миру, хороший повод собраться и поговорить о важном. Можно не только смотреть и участвовать в наших мероприятиях, но и организовать своё, в своём городе, университете или по какой-то своей специальной теме. О таких мероприятиях мы обязательно пишем на наших ресурсах и помогаем привлечь к ним внимание.
Ссылки:
[1] https://opendataday.org
[2] https://opendataday.ru/msk
[3] https://odd.opendata.am
#opendata #opendataday #data #events
Ежегодно в России в Москве его проводит Инфокультура (@infoculture), с 2020 года в дистанционном формате. О прошлом ODD можно узнать на его сайте [2]. В 2025 году он, также, будет проходить дистанционно. Традиционно ключевая тема ODD - это открытые данные, мы также делаем акцент на данных связанных с культурой и историческим наследием, а также данными используемыми в исследовательских целях. В этот мероприятие также планируем и если у Вас есть желание выступить, то можно заранее писать мне.
В Армении мы также проводим день открытых данных, но вживую, организуя его от Open Data Armenia (@opendataam) и акцент делаем не только культурном наследии, но и на журналистике и практическом применении данных. Можно посмотреть программу прошлого ODD [3]. Если Вы в Армении и у Вас есть интересный доклад про данные и открытые данные, тоже обязательно напишите.
И, конечно, напишите, если Вы готовы выступить спонсором или иначе поддержать эти мероприятия. Наших скромных ресурсов хватает чтобы их организовать, но никогда не хватает чтобы сделать это идеально 😉
И, наконец, Open Data Day - это не только большие мероприятия, это ещё и сотни небольших митапов по всему миру, хороший повод собраться и поговорить о важном. Можно не только смотреть и участвовать в наших мероприятиях, но и организовать своё, в своём городе, университете или по какой-то своей специальной теме. О таких мероприятиях мы обязательно пишем на наших ресурсах и помогаем привлечь к ним внимание.
Ссылки:
[1] https://opendataday.org
[2] https://opendataday.ru/msk
[3] https://odd.opendata.am
#opendata #opendataday #data #events
Пишут что генеалогический сервис MyHeritage 31 декабря предупредил пользователей из России об удалении их учётных записей с 1 февраля 2025 года [1]. Весьма вероятно что это связано со штрафом в 6 млн рублей в отношении MyHeritage за отказ от локализации данных российских пользователей [2].
Сервис постепенно уходил из России начиная с 2020 года, в 2020 году из-за ограничений на пересылку генетических материалов MyHeritage перестали присылать в Россию наборы для взятия генетических проб [3].
К сожалению, невозможно автоматизировано сохранить все удаляемые данные пользователей и, к тому же, они являются персональными данными, но если Вы пользователь MyHeritage и находитесь в России, на всякий случай стоит воспользоваться инструкцией и сделать резервную копию геномных данных, данных генеалогического дерева и всего остального что может исчезнуть.
Ссылки:
[1] https://habr.com/ru/news/871058/
[2] https://www.forbes.ru/tekhnologii/498511-sud-ostrafoval-myheritage-na-6-mln-rublej-za-povtornyj-otkaz-lokalizovat-dannye
[3] https://www.myheritage.com/help-center?a=Why-isn%27t-MyHeritage-sending-DNA-kits-to-Russia-anymore---id--B2WZDFjXR9CRdvZqGR86eQ
#genealogy #genetics #myheritage
Сервис постепенно уходил из России начиная с 2020 года, в 2020 году из-за ограничений на пересылку генетических материалов MyHeritage перестали присылать в Россию наборы для взятия генетических проб [3].
К сожалению, невозможно автоматизировано сохранить все удаляемые данные пользователей и, к тому же, они являются персональными данными, но если Вы пользователь MyHeritage и находитесь в России, на всякий случай стоит воспользоваться инструкцией и сделать резервную копию геномных данных, данных генеалогического дерева и всего остального что может исчезнуть.
Ссылки:
[1] https://habr.com/ru/news/871058/
[2] https://www.forbes.ru/tekhnologii/498511-sud-ostrafoval-myheritage-na-6-mln-rublej-za-povtornyj-otkaz-lokalizovat-dannye
[3] https://www.myheritage.com/help-center?a=Why-isn%27t-MyHeritage-sending-DNA-kits-to-Russia-anymore---id--B2WZDFjXR9CRdvZqGR86eQ
#genealogy #genetics #myheritage