Save The Web Project
1.44K subscribers
113 photos
4 videos
1 file
242 links
This channel can’t be displayed because it violated Telegram's Terms of Service.
Download Telegram
Forwarded from tacwolfrevo
快过年了,不要再讨论什么 Wayback Machine、Glacier Deep Archive、Zeno 之类的了。你带你的 NAS 硬盘和 LTO 磁带机回到家并不能给你带来任何实质性作用,朋友们兜里掏出一大把钱吃喝玩乐,你默默在家里跑你的 warrior。
​亲戚朋友吃饭问你今年收获了什么,你说我抢救性抓取了一个即将关站的二次元论坛,存了几十个 TB 的 WARC。亲戚们懵逼了,你还在心里默默嘲笑他们,笑他们不懂 link rot,不懂怎么处理 JS 动态加载,也笑他们连网站是 SSR 还是 SSG 都分不清。
​你父母的同事都在说自己的子女一年的收获,儿子买了个房,女儿买了个车,姑娘升职加薪了。你的父母默默无言,说我的孩子电脑开着嗡嗡响,存了一堆没人看的网站,家里的电表转得越来越快了,S3 的账单也越来越多了。
13😭6🥰4🗿1
魅族要倒闭了。

有魅族用户可以来帮忙存档吗?(项目群)
🙊8
群友们谁的网站内容丰富多且带宽大?我跑跑 benchmark ,测爬虫(
静态网站优先。

(内容丰富指有 html、css、js 以及其它多样的媒体资源。不关心里面到底是什么)
Save The Web Project
开始存档 AcFun 视频! 回顾一些经典老物.jpg: https://archive.org/details/AcFun-1984_p1 https://archive.org/details/AcFun-1411_p1 https://archive.org/details/AcFun-3784_p1 https://archive.org/details/AcFun-7579_p1 https://archive.org/details/AcFun-2123_p1 ...... (目前还存在的早期…
有熟悉数据处理的好心人吗?

我们现在有 AcFun 全站的视频元数据信息,以及全站弹幕,以及 acwiki 的存档(可以用 acwiki 中出现过的 aid 号作为“好视频”的参考集)。现在的目标是从目前的 9,295,558 个有效视频中,自动打标(啥鬼畜、东方、vocaloid 啊)并筛选出值得存的视频。(降序排序)

有没有好心人喵?🐱

好心人请点这里:https://t.iss.one/saveweb_projects/2961
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5
Save The Web Project
IPFS 上的图片附件已经没了大半了
https://archive.org/details/XLOGIPFS-crawling

xlog 上面总计 38148 个 ipfs 链接(剔除了绝大部分 spam 内容后)。其中 34644 仍然可以获取到的 ipfs 已经存档了。
如果有博主以后需要图片存档,可以联系我们,或者自行提取 warc。


哎呀,发现正则写错了,忘了 ipfs cid 有大写形式。实际总量应该是 87396 个 ipfs。多出来的这些看起来基本没救了。
🎉5🥰21
STWP 2026 第 10 周周报

- c2025-4 转长期项目 @Ovler
- 响应几个画吧备份请求,改进提取脚本 @Ovler
- c2026-3 魅族论坛存档前置任务: 解析 SPA 网页 JS import() 链式导入;网页存档代码

STWP 2026 第 11 周周报

- 存 xlog 的 ipfs 链接。(IA item + AB)
- AcFun ”值得存“打标筛选:一些 AcFun 数据可视化; 基于 word2vec 的扩词与视频分类器; 视频打分器。非常感谢 @reonokiy
- c2026-3 列出了全部帖子的id,总计接近百万。
- 将我们的全部 DNS 迁移到了 DNSControl。(真好用)
4
STWP 02026 第 13 周周报

无事。