Save The Web Project
1.44K subscribers
113 photos
4 videos
1 file
242 links
This channel can’t be displayed because it violated Telegram's Terms of Service.
Download Telegram
Save The Web Project
Video
另外,在载盘前需确认打开写保护。以防误操作导致软盘文件系统中的数据或元数据被修改。
挂载镜像的时候也要使用只读模式。

FAT 12 文件系统的日期是从1980年开始算起,而文件的“访问时间”是后来的新版本 DOS 利用 FAT 12 文件目录项的预留的10个保留位实现的。所以如果是老 DOS 系统,该区应该会以全0填充。这样会导致我们看到的访问时间为 1980-01-01 。
1
#新闻
https://jikipedia.com/ 因不可抗力因素从即日起暂停服务
😢16
Save The Web Project
搞定!总计 576041 篇文章已存档。 元数据可见: https://github.com/saveweb/sci-blog-archive
为什么选择推送到 IA 呢?

以这篇于 2009-2-16 发布的《阳宗海砷污染事件的反思》为例。文章中的外链图片早已坏链。推送到 IA 后,IA 自动把坏链图片替换成了 2013 年的快照。
👍182
大家好,经过两个月的摸鱼开发(特别感谢 @MistyNya 😂),我们将开始存档 MediaWiki 以及 DokuWiki 站点。
如果您知道一些 wiki 站点,请在评论区扔链接。中文站优先。

存档工具是在前人的基础上改进/开发的,以GPLv3开源,分别为:

MediaWiki: https://github.com/mediawiki-client-tools/mediawiki-scraper/ (又名 wikiteam3 )
https://github.com/saveweb/wikiteam3
DokuWiki: https://github.com/saveweb/dokuwiki-scraper (之后不一定叫这个名字,我想改成 dokuwiki-dumper )

存档可重新导入 MediaWiki/DokuWiki 。

(其他wiki系统也可以推荐我们开发🌚
9👍1
问大家个尴尬的问题,软盘的第零面到底是哪一面?😂

update: 通过观察一面表面划伤导致坏块的软盘,得到答案:连接软驱主轴的那一面是第零面。
👍8
Forwarded from yzqzss|一座桥在打工 log (yzqzss |一座桥在水上)
今天测试了 https://github.com/saveweb/review-2021 的 197 篇文章,统计出了中文博客的“文章URL腐烂率”,以下是结果:

总计:196篇

404:13
托管服务未续费:1
域名无解析/域名过期/ping不通:10
ssl过期:1

其中,有约一半的404是博客换了永久链接,但没做重定向。这仍然属于链接腐烂。

计算得,中文独立博客的文章链接年度腐烂率为:10~12%。半衰期为6年左右。
🤯7👍31
Forwarded from 瞎玩菌资讯
与时间赛跑,国外团队买下3DS与WiiU所有数字版游戏

任天堂已经宣布,将于 2023 年 3 月 27 日关停 WiiU 与 3DS 的 eShop 网络商城。商城关停时,会有约 1000 款纯数字版游戏被永久删除。面对这些情况,某个国外团队采取了行动。日前,国外频道「The Completionist」发布了一支新视频。主持人 Jirard Khalil 宣称,自家团队已经提前购买了 WiiU 与 3DS 网络商城的所有游戏。为了达成目标,该团队花费了 382 天时间进行准备。现在,团队成员们已经购买了 866 款 WiiU 游戏和 1547 款 3DS 游戏,其中包括 DSiWare 、 Virtual Console 和其它 DLC 内容。购买完成后,WiiU 游戏数据总量达到了 1.2 TB,而 3DS 游戏数据总量达到了 267 GB 。视频团队为此花费了超 460 张 eShop 兑换卡,总花费额为 22791 美元,约合人民币 15 万 6300 元。在视频中,主持人提到了团队碰到的各种困难,也感谢了玩家社群的支持。最后,「The Completionist」宣布将所得游戏全部捐赠给公益组织「电子游戏历史基金会」。来源:The Completionist/Kotaku

https://www.vgtime.com/topic/1188062.jhtml
👍28🎉21
为了 STWP 不长期咕咕咕🌚,我们将每周发布项目进展简讯。

---

第 14 周项目摘要。

20230401 ~ 20230403:
@jsun969 在尝试给 uglysearch.othing.xyz 写前端:https://github.com/saveweb/saveweb-search-frontend

20230405:
saveweb/review-2022 收录 +1

20230403 ~ 20230406:
* 播客存档项目开工,写存档工具:https://github.com/saveweb/preserve-those-podcasts

20230408:
* 播客存档工具GA了,试着存档了 30 个播客,占用 140GiB。(之后会扩大存档规模)
* 把某国内应用市场的存档计划对应的存档服务器的数据库拉回本地,做分库。
* 抓包,探索了国内知名播客应用「小宇宙」的API。

20230409:
* wikiapiary.com 上的 wikiteam bot 机器人已经宕机 8 年了。这 8 年 wikiapiary、IA、pywikibot、MediaWiki、WikiTeam 等软件或服务的 API 都有变化, wikiteam/wikiteam repo 里原来的那个bot脚本已经用不了了。
于是写了个新 bot ,尝试复活它。
https://github.com/saveweb/wikiapiary-wikiteam-bot
正在尝试联系原 wikiteam bot 的账号持有人,如果联系不到,咱们就联系 wikiapiary 申请个机器人账号自己跑。🌚

---

近日讨论摘要:

1. https://github.com/saveweb/see-agreement/ 这个项目一直搁置……
2. 日经讨论:吐槽网络、哀嚎缺存储空间、吐槽SSD寿命。
3. https://www.podcastrepublic.net/ 可以作为博客存档项目的爬取源。
4. Mac 软件:Little Snitch Network Monitor 的流量可视化有点酷。
5. xuite.net 「Xuite 隨意窩」 博客平台要关站了。

---

接下来的工作/待办事项:

1. 需要继续维护 rss-list ,缺人。
2. 软盘存档项目,写具体的存档流程和方法(写手册,也可能录视频)。
3. mediawiki 存档相关:
3.1 优化 wikiteam3 的 launcher.py ,只把 history.xml 打进一个压缩包。
3.2 弃用 wikiteam3 给每个媒体文件下载 .desc 文件的“特性”。
3.3 流式解析 wikiteam3 生成的 wikidump xml,做 xml 校验器。
3.4 写个保存 fandom wiki 的 comments 的小脚本。(wikiteam#456)
4. 做 DokuWiki 存档。小目标:完成 100 个 DokuWiki 的存档(目前存了20多个)。最好能吸引“国际友人”参与(目前只有一个)。
5. @jsun969 写博客搜索引擎的前端。
6. 将 FreshRSS 的 MariaDB 与 MeiliSearch 对接,使博客搜索引擎全文索引能实时更新。(目前是手动全库导入)
7. @oveRidea_China 开发 BiliBili 每日 Top 100 视频存档。
8. 继续探索:播客存档的方法。

---
咕咕咕(停摆)的项目:

1. see-agreement (收集各网站/软件的用户协议,隐私协议等) 2. 互联网公墓 wiki (记录关站的网站和服务) 3. 天涯论坛存档(元数据爬取都还没做好,元数据通过 web 爬取行不通,得走API) 4. Git 博客仓库存档(需要人维护,停摆) 5. 语雀公开知识库存档(语雀现在能开公开知识库的都是付费用户,给付费用户做存档,感觉有点……提不起兴趣)
👍4
## 起因

WikiTeamwikiapiary.com 上的 WikiTeam Bot 自从 2016 年来就不工作了,此后上传到 IA 的 wikidump (MediaWiki 站点备份) 都没有很好地链接到 wikiapiary 中。再加上 wikiapiary 在 {{website}} 模板里提醒用户“wikidump 相关信息是由 wikiteam bot 自动维护的,手动编辑会被覆盖”,更是打消了很多编者手动维护相关信息的想法。

此后 wikiapiary 上除了 fandom.com 的 wikidump 信息有个 [[User:Shufflertoxin]] bot 在少量维护外,基本就停滞了。

## 所以

我们写了个新 bot [[User:Savewebbot]],然后把它部署到 wikiapiary 上了,它正在把 8 年来上传到 IA 的 wikidump 重新和 wikiapiary 链接起来

## 作用

这个 bot 可以帮助我们(以及其他人)从 wikiapiary 中筛选出还没被存档的 MediaWiki 站点,然后……存存存存存。

## 源代码

https://github.com/saveweb/wikiapiary-wikiteam-bot (修改自 wikiteam/wikiteam 的旧代码)

* wikiapiary 此前宕机了几个月,它的 bot 积压了大量队列任务,再加上刚升级到 MediaWIki 1.39.2 ,他们还在调查数据库性能问题,所以现在不是很稳定,打开要多等一会儿,刷新几下。
👍21
Save The Web Project
您有兴趣参与 STWP 的各类存档项目吗?(多选,不分点)
我们搞个活动吧:存档马拉松。

既然有 20~30 人都有意向和条件,并且愿意参与一些项目。
那……第一次马拉松的项目就选 DokuWiki 存档吧,这个相对简单,不需要你写任何代码,用我们现成的工具即可。

我会在近期拉个 DokoWiki 待存档的站点列表出来,然后做个“如何做 DokuWiki 存档”的教程。然后在某一时刻我放出站点列表,大家一起比赛存档。奖品待定。
有点怪异的比赛,但是应该会很有趣。🙈🙈

要求:Linux 环境优先(WSL可以。纯 Windows 环境跑的话,如果没出问题也可以),Python>=3.8

如果您有兴趣参与,请在评论区回复“1”登记。
Save The Web Project
我们搞个活动吧:存档马拉松。 既然有 20~30 人都有意向和条件,并且愿意参与一些项目。 那……第一次马拉松的项目就选 DokuWiki 存档吧,这个相对简单,不需要你写任何代码,用我们现成的工具即可。 我会在近期拉个 DokoWiki 待存档的站点列表出来,然后做个“如何做 DokuWiki 存档”的教程。然后在某一时刻我放出站点列表,大家一起比赛存档。奖品待定。 有点怪异的比赛,但是应该会很有趣。🙈🙈 要求:Linux 环境优先(WSL可以。纯 Windows 环境跑的话,如果没出问题也可以),Python>=3.8…
DokuWiki 存档讨论群已开,欢迎加入:https://t.iss.one/saveweb_projects/120

教程还在写。

与此同时,有兴趣的可以先 看看/安装/试试 一下 DokuWiki 存档工具: https://github.com/saveweb/dokuwiki-dumper

另外请注意,如果你选择的目标/练手站点已经在 https://github.com/orgs/saveweb/projects/4 已存档列表里,就不要重复存了。但你可以在里面挑个几十页的小型 wiki 练手。

(不 要 拿 DokuWiki 官 网 练 手!!不 然 把 你 手 打 断
---
另,对 MediaWiki 存档感兴趣的可加入: https://t.iss.one/saveweb_projects/118
Save The Web Project
为了 STWP 不长期咕咕咕🌚,我们将每周发布项目进展简讯。 --- 第 14 周项目摘要。 20230401 ~ 20230403: @jsun969 在尝试给 uglysearch.othing.xyz 写前端:https://github.com/saveweb/saveweb-search-frontend 20230405: saveweb/review-2022 收录 +1 20230403 ~ 20230406: * 播客存档项目开工,写存档工具:https://github.co…
# 第 15 周项目摘要

* 尝试联系 wikiteam bot 的原所有者无果,于是在 wikiapiary 上部署了我们的 savewebbot
* 准备/宣传 第一届存档马拉松活动(主题是 DokuWiki 存档)。
* 给 savewebbot 开了 10 线程,wikiapiary 管理员说 bot 编辑页面频率太猛。于是加上1分钟编辑一次的限制。
* 原来的 wikiteam bot 用很灵车的正则来改 wikitext 。弃用,改成“更科学”的方法。
* 继续 写/修 播客存档工具。
* 应 wikiteam IRC 中 @JAA 的请求,存档了 https://wiki.bash-hackers.org/ 这个 DokuWiki 站点。 (IA iteam)

———
完整周报见博客
5