Save The Web Project
1.44K subscribers
113 photos
4 videos
1 file
242 links
This channel can’t be displayed because it violated Telegram's Terms of Service.
Download Telegram
群友们谁的网站内容丰富多且带宽大?我跑跑 benchmark ,测爬虫(
静态网站优先。

(内容丰富指有 html、css、js 以及其它多样的媒体资源。不关心里面到底是什么)
Save The Web Project
开始存档 AcFun 视频! 回顾一些经典老物.jpg: https://archive.org/details/AcFun-1984_p1 https://archive.org/details/AcFun-1411_p1 https://archive.org/details/AcFun-3784_p1 https://archive.org/details/AcFun-7579_p1 https://archive.org/details/AcFun-2123_p1 ...... (目前还存在的早期…
有熟悉数据处理的好心人吗?

我们现在有 AcFun 全站的视频元数据信息,以及全站弹幕,以及 acwiki 的存档(可以用 acwiki 中出现过的 aid 号作为“好视频”的参考集)。现在的目标是从目前的 9,295,558 个有效视频中,自动打标(啥鬼畜、东方、vocaloid 啊)并筛选出值得存的视频。(降序排序)

有没有好心人喵?🐱

好心人请点这里:https://t.iss.one/saveweb_projects/2961
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5
Save The Web Project
IPFS 上的图片附件已经没了大半了
https://archive.org/details/XLOGIPFS-crawling

xlog 上面总计 38148 个 ipfs 链接(剔除了绝大部分 spam 内容后)。其中 34644 仍然可以获取到的 ipfs 已经存档了。
如果有博主以后需要图片存档,可以联系我们,或者自行提取 warc。


哎呀,发现正则写错了,忘了 ipfs cid 有大写形式。实际总量应该是 87396 个 ipfs。多出来的这些看起来基本没救了。
🎉5🥰21
STWP 2026 第 10 周周报

- c2025-4 转长期项目 @Ovler
- 响应几个画吧备份请求,改进提取脚本 @Ovler
- c2026-3 魅族论坛存档前置任务: 解析 SPA 网页 JS import() 链式导入;网页存档代码

STWP 2026 第 11 周周报

- 存 xlog 的 ipfs 链接。(IA item + AB)
- AcFun ”值得存“打标筛选:一些 AcFun 数据可视化; 基于 word2vec 的扩词与视频分类器; 视频打分器。非常感谢 @reonokiy
- c2026-3 列出了全部帖子的id,总计接近百万。
- 将我们的全部 DNS 迁移到了 DNSControl。(真好用)
4
STWP 02026 第 13 周周报

无事。
This message can’t be displayed because it violated Telegram's Terms of Service.
😭10
This message can’t be displayed because it violated Telegram's Terms of Service.
🤬51