Save The Web Project
1.44K subscribers
113 photos
4 videos
1 file
242 links
This channel can’t be displayed because it violated Telegram's Terms of Service.
Download Telegram
Please open Telegram to view this post
VIEW IN TELEGRAM
Save The Web Project
现在我们可为画吧的画师提供备份导出。 流程见: https://wiki.saveweb.org/画吧:takeout
画吧的域名 haowanlab.com 过期了,被阿里云拿去竞拍,最终成交价拍出了 5210 元。

这域名有这么值钱吗。我不理解,震撼。
有没有域名玩家给大家解释一下?
今天(6月9日)是国际存档日(International Archives Day)
22
Save The Web Project
STWP 2025 第 19 周周报 本周的产量同样稀少,记一点流水账吧。 - 用 Go 重写了两年前写的 https://github.com/saveweb/fdroidswh 小玩意,用于跟踪 F-Droid Repo 的应用更新,将源代码仓库推送到 SWH 存档。 https://service-fdroidswh.saveweb.org/ - 响应了 6 个画吧备份导出请求。 - dokuwiki dumper 小重构 WIP: https://github.com/saveweb/dokuwiki…
STWP 2025 20 至 25 周,合并周报。

过去一个月是期末,没时间。现在好久没发周报了,快速过一下最近5周做了啥。主要做的事是 Zeno,没有开其它存档项目。

week 20-21 https://github.com/internetarchive/Zeno/pull/281 稍微重构 Zeno 处理对象存储的代码,添加解析 Azure Blob 的能力。 https://github.com/internetarchive/Zeno/pull/295 让 Zeno 终端输出的日志变彩色。

week 23
https://github.com/internetarchive/Zeno/pull/324 小小地引入标准 css 解析器,替换掉原本简陋的容易产生误报的正则提取方式。 (CSS 1/3)

week 24
None

week 25
- https://github.com/Crossbell-Box/xLog/pull/2230 前几周惊人地发现 xLog 上的一半的新文章是 spam,于是打标然后跑了个简单的 TF-IDF 分类器来识别 spam 账号。这周把识别结果人工检查了一下,把 spam 账号列表发给 xLog。
- https://github.com/internetarchive/Zeno/pull/339 支持提取 CSS 的 @import 链接。(CSS 2/3)
- https://github.com/internetarchive/Zeno/pull/345 完整支持解析 html 嵌入和引用的 css 资源。同时,发现上游的 css parser 不支持 CSS Nesting 和未适配“现代” css 语法。由于没有精力给上游修bug,因此写了个更鲁棒的正则来作为 parser 失败时的 fallback parser 当作 workaround。 (CSS 3/3)
- https://github.com/microsoft/vscode-css/pull/43 在 debug CSS 的过程中发现 VSC 自带的 CSS 高亮也没适配11年前的“新”语法标准。@overflowcat 得知后刷了一个 PR 。
- https://github.com/internetarchive/Zeno/pull/353 改善了对 GitHub Issue 页面的存档效果。
- 向 Zeno 添加 Headless/Headfull 存档功能(进行中)

这几周看 w3c 和 whatwg 都要看吐了,之后会发点关于 CSS、浏览器、URL、HTML、编码 之类的小故事。
8🥰2
Save The Web Project
STWP 2025 20 至 25 周,合并周报。 过去一个月是期末,没时间。现在好久没发周报了,快速过一下最近5周做了啥。主要做的事是 Zeno,没有开其它存档项目。 week 20-21 https://github.com/internetarchive/Zeno/pull/281 稍微重构 Zeno 处理对象存储的代码,添加解析 Azure Blob 的能力。 https://github.com/internetarchive/Zeno/pull/295 让 Zeno 终端输出的日志变彩色。…
STWP 2025 26 周周报

还是全是 Zeno 。

- https://github.com/internetarchive/Zeno/pull/356 Headless/Headfull 存档 PR 发了,PR 仍在 WIP。(测试可以存档知乎专栏!)
- https://github.com/internetarchive/Zeno/pull/370 解析非 UTF-8 的 HTML,PR 仍在 WIP 。
- https://github.com/internetarchive/Zeno/pull/369 加了丢弃超过指定 payload 大小的响应的功能。
- https://github.com/internetarchive/gowarc/pull/115 主要是修了 gowarc 在上层的 HTTP TCP Conn 出现异常关闭时 (early EOF, io timeout, conn closed/reset),由于没有向下 .CloseWithError(),而是调用常规的 .Close(),导致下层的 MITM 套娃 HTTP TCP Conn 以为是正常 EOF,最终导致,对于没有 Content-Length 头的流式响应,这类 early EOF 的响应被当成正常响应而被写入了 WARC 存档中。(而对于更常见的非流式响应,由于存在 Content-Length,即使 early EOF 仍然被当成了正常 EOF,但是由于 go 的 http 标准库的 http.ReadRespon() 会用 io.LimitReader 来组装 Response.Body ,这样的 Response.Body 会自己做一次额外的 EOF 位置与 Content-Length 位置的匹配检查,如果不匹配会返回 early EOF。换句话说,这 BUG 在大部分情况下被标准库缓解了导致我们没发现。)。然后还修了 Conn.SetReadDeadline() 木有生效、临时文件泄漏的问题。
👍2
STWP 2025 27 周周报

这周啥也没干,给大家看看猫猫吧/
🥰156🤪1
Forwarded from Programmer Jokes
18
Save The Web Project
Photo
STWP 2025 28 至 30 周,合并周报

- https://github.com/internetarchive/Zeno/pull/356 Headless/Headful 终于做好了。
- https://github.com/internetarchive/Zeno/pull/370 解析非 UTF-8 的 HTML+URL 也做好了。
- 修了两个小 bug
- https://github.com/internetarchive/Zeno/pull/403 加上了第一个 e2e 测试。
- https://github.com/internetarchive/Zeno/pull/376 加了 Window 二进制构建,但实际上并不能用。用来忽悠 Windows 用户。
- https://github.com/internetarchive/Zeno/pull/374 纯 Go 崛起失败。
3🥰3🤬21
Save The Web Project
F**K YOU GOOGLE
Google 改主意了,计划只删“非活跃”的 goo.gl 链接,其它保留。

https://blog.google/technology/developers/googl-link-shortening-update/

但还保留多久呢?肯定不会一直保留下去吧?
总之,所有短链服务都是**。
16
不要乱说,V8 和 SpiderMonkey 一直是这个速度,🌐🌐🌐很难的,有时候找找自己原因,这么多年了换没换硬件,有没有跟上🕸革命的脚步?

点我👀⬅️💻🌄💪
Please open Telegram to view this post
VIEW IN TELEGRAM
20
https://css-loop.saveweb.org/

凡最终加载此网页者,奖一块华为手表。
8
晚上好,感谢Google感谢IA感谢WBM感谢群友感谢猫

现在我购得了新玩具:磁带库(4U,可装48盘)。目前装有一个L6的磁带机。

磁带库真好玩。
13🆒5😭3