Save The Web Project
1.44K subscribers
113 photos
4 videos
1 file
242 links
This channel can’t be displayed because it violated Telegram's Terms of Service.
Download Telegram
Save The Web Project pinned «完蛋。bcy 的 s3 备份持有者的 telegram 已经是 deleted account 了。他原来的昵称应该是“tr”。 https://t.iss.one/saveweb_projects/319/12141 有谁认识他的可以帮忙联系下吗?非常感谢!»
Save The Web Project
联系上了,好消息:数据还在。
坏消息:取出来太贵

现在的问题是我们需要从 AWS 里拉 100TB 数据出来,走正常路径大概需要花 $7k~$9k。

目前想到的低成本方案是利用这两个规则:

- 每月每账号 AWS S3 出站流量前 100G 免费
- S3 <-> CloudFront 流量免费 + CloudFront 每账号每月1T免费出站流量

所以,如果你有 AWS 账号,不用(或用不完)它每月的免费流量配额。不妨帮帮我们,谢谢。

如有意 https://t.iss.one/saveweb_projects/30491/30498 登记一下,感谢感谢。
春节快乐。
如有互联网产品倒闭,请留言。😭
Please open Telegram to view this post
VIEW IN TELEGRAM
15
Forwarded from tacwolfrevo
快过年了,不要再讨论什么 Wayback Machine、Glacier Deep Archive、Zeno 之类的了。你带你的 NAS 硬盘和 LTO 磁带机回到家并不能给你带来任何实质性作用,朋友们兜里掏出一大把钱吃喝玩乐,你默默在家里跑你的 warrior。
​亲戚朋友吃饭问你今年收获了什么,你说我抢救性抓取了一个即将关站的二次元论坛,存了几十个 TB 的 WARC。亲戚们懵逼了,你还在心里默默嘲笑他们,笑他们不懂 link rot,不懂怎么处理 JS 动态加载,也笑他们连网站是 SSR 还是 SSG 都分不清。
​你父母的同事都在说自己的子女一年的收获,儿子买了个房,女儿买了个车,姑娘升职加薪了。你的父母默默无言,说我的孩子电脑开着嗡嗡响,存了一堆没人看的网站,家里的电表转得越来越快了,S3 的账单也越来越多了。
13😭6🥰4🗿1
魅族要倒闭了。

有魅族用户可以来帮忙存档吗?(项目群)
🙊8
群友们谁的网站内容丰富多且带宽大?我跑跑 benchmark ,测爬虫(
静态网站优先。

(内容丰富指有 html、css、js 以及其它多样的媒体资源。不关心里面到底是什么)
Save The Web Project
开始存档 AcFun 视频! 回顾一些经典老物.jpg: https://archive.org/details/AcFun-1984_p1 https://archive.org/details/AcFun-1411_p1 https://archive.org/details/AcFun-3784_p1 https://archive.org/details/AcFun-7579_p1 https://archive.org/details/AcFun-2123_p1 ...... (目前还存在的早期…
有熟悉数据处理的好心人吗?

我们现在有 AcFun 全站的视频元数据信息,以及全站弹幕,以及 acwiki 的存档(可以用 acwiki 中出现过的 aid 号作为“好视频”的参考集)。现在的目标是从目前的 9,295,558 个有效视频中,自动打标(啥鬼畜、东方、vocaloid 啊)并筛选出值得存的视频。(降序排序)

有没有好心人喵?🐱

好心人请点这里:https://t.iss.one/saveweb_projects/2961
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5
Save The Web Project
IPFS 上的图片附件已经没了大半了
https://archive.org/details/XLOGIPFS-crawling

xlog 上面总计 38148 个 ipfs 链接(剔除了绝大部分 spam 内容后)。其中 34644 仍然可以获取到的 ipfs 已经存档了。
如果有博主以后需要图片存档,可以联系我们,或者自行提取 warc。


哎呀,发现正则写错了,忘了 ipfs cid 有大写形式。实际总量应该是 87396 个 ipfs。多出来的这些看起来基本没救了。
🎉5🥰21
STWP 2026 第 10 周周报

- c2025-4 转长期项目 @Ovler
- 响应几个画吧备份请求,改进提取脚本 @Ovler
- c2026-3 魅族论坛存档前置任务: 解析 SPA 网页 JS import() 链式导入;网页存档代码

STWP 2026 第 11 周周报

- 存 xlog 的 ipfs 链接。(IA item + AB)
- AcFun ”值得存“打标筛选:一些 AcFun 数据可视化; 基于 word2vec 的扩词与视频分类器; 视频打分器。非常感谢 @reonokiy
- c2026-3 列出了全部帖子的id,总计接近百万。
- 将我们的全部 DNS 迁移到了 DNSControl。(真好用)
4