Save The Web Project
我们可能丢了 bcy 的 100TB 原始存档。(仅媒体,元数据还在) 三年前我们把存档全量给了一位愿意自掏腰包将这些存档存入 aws s3 冷存以备份的人士。 现在我们的灵车存储A寄了,昨日尝试联系并询问他这份备份的状况,暂无回复。 (搞错人了) 最坏的情况下,如果他这份全量备份也没了的话。我们就只剩灵车存储B上大约 3/4 总量的不完整备份,而且目前还不清楚数据存活状况。
完蛋。bcy 的 s3 备份持有者的 telegram 已经是 deleted account 了。他原来的昵称应该是“tr”。
https://t.iss.one/saveweb_projects/319/12141
有谁认识他的可以帮忙联系下吗?非常感谢!
https://t.iss.one/saveweb_projects/319/12141
有谁认识他的可以帮忙联系下吗?非常感谢!
Telegram
Deleted Account in [STWP] project set
需要备份么 我这可以存一份 100t
Save The Web Project pinned «完蛋。bcy 的 s3 备份持有者的 telegram 已经是 deleted account 了。他原来的昵称应该是“tr”。 https://t.iss.one/saveweb_projects/319/12141 有谁认识他的可以帮忙联系下吗?非常感谢!»
Save The Web Project
联系上了,好消息:数据还在。
坏消息:取出来太贵
现在的问题是我们需要从 AWS 里拉 100TB 数据出来,走正常路径大概需要花 $7k~$9k。
目前想到的低成本方案是利用这两个规则:
- 每月每账号 AWS S3 出站流量前 100G 免费
- S3 <-> CloudFront 流量免费 + CloudFront 每账号每月1T免费出站流量
所以,如果你有 AWS 账号,不用(或用不完)它每月的免费流量配额。不妨帮帮我们,谢谢。
如有意 https://t.iss.one/saveweb_projects/30491/30498 登记一下,感谢感谢。
现在的问题是我们需要从 AWS 里拉 100TB 数据出来,走正常路径大概需要花 $7k~$9k。
目前想到的低成本方案是利用这两个规则:
- 每月每账号 AWS S3 出站流量前 100G 免费
- S3 <-> CloudFront 流量免费 + CloudFront 每账号每月1T免费出站流量
所以,如果你有 AWS 账号,不用(或用不完)它每月的免费流量配额。不妨帮帮我们,谢谢。
如有意 https://t.iss.one/saveweb_projects/30491/30498 登记一下,感谢感谢。
Telegram
yzqzss |一座桥在水上 in [STWP] project set
意向登记
有 aws 账号(100G S3 流量配额) / 可注册 aws 账号 / 账号具有 cloudfront 资格(1T 流量配额)
有 aws 账号(100G S3 流量配额) / 可注册 aws 账号 / 账号具有 cloudfront 资格(1T 流量配额)
Save The Web Project
主要有 posts 和 comments 两个表。(还有个 users 表,不过权限限得很死) 用户只能删除由自己创建的 post (if post.created_by == <user>.id),没毛病。(comment 同理) 但是它没有限制用户 update 别人的 post 或 comment,所以可以把别的 post/comment 的 created_by 改成自己。然后就能删任意帖子了。 —— 用 PostgREST 这类中间件,让客户端直通数据库时要注意权限设计啊!毕竟没有传统意…
https://www.wiz.io/blog/exposed-moltbook-database-reveals-millions-of-api-keys
连人类都不知道怎么正确设置 PostgreSQL RLS,更别说 AI 乐。
以后大家如果看到有互联网新产品用了 Supabase ,去探索探索 API,极高概率能爆出任意写。⚰️ ⚰️
连人类都不知道怎么正确设置 PostgreSQL RLS,更别说 AI 乐。
以后大家如果看到有互联网新产品用了 Supabase ,去探索探索 API,极高概率能爆出任意写。
Please open Telegram to view this post
VIEW IN TELEGRAM
wiz.io
Hacking Moltbook: AI Social Network Reveals 1.5M API Keys | Wiz Blog
Learn how a misconfigured Supabase database at Moltbook exposed 1.5M API keys, private messages, and user emails, enabling full AI agent takeover.
❤6
Forwarded from tacwolfrevo
快过年了,不要再讨论什么 Wayback Machine、Glacier Deep Archive、Zeno 之类的了。你带你的 NAS 硬盘和 LTO 磁带机回到家并不能给你带来任何实质性作用,朋友们兜里掏出一大把钱吃喝玩乐,你默默在家里跑你的 warrior。
亲戚朋友吃饭问你今年收获了什么,你说我抢救性抓取了一个即将关站的二次元论坛,存了几十个 TB 的 WARC。亲戚们懵逼了,你还在心里默默嘲笑他们,笑他们不懂 link rot,不懂怎么处理 JS 动态加载,也笑他们连网站是 SSR 还是 SSG 都分不清。
你父母的同事都在说自己的子女一年的收获,儿子买了个房,女儿买了个车,姑娘升职加薪了。你的父母默默无言,说我的孩子电脑开着嗡嗡响,存了一堆没人看的网站,家里的电表转得越来越快了,S3 的账单也越来越多了。
亲戚朋友吃饭问你今年收获了什么,你说我抢救性抓取了一个即将关站的二次元论坛,存了几十个 TB 的 WARC。亲戚们懵逼了,你还在心里默默嘲笑他们,笑他们不懂 link rot,不懂怎么处理 JS 动态加载,也笑他们连网站是 SSR 还是 SSG 都分不清。
你父母的同事都在说自己的子女一年的收获,儿子买了个房,女儿买了个车,姑娘升职加薪了。你的父母默默无言,说我的孩子电脑开着嗡嗡响,存了一堆没人看的网站,家里的电表转得越来越快了,S3 的账单也越来越多了。
❤13😭6🥰4🗿1
群友们谁的网站内容丰富多且带宽大?我跑跑 benchmark ,测爬虫(
静态网站优先。
(内容丰富指有 html、css、js 以及其它多样的媒体资源。不关心里面到底是什么)
静态网站优先。
(内容丰富指有 html、css、js 以及其它多样的媒体资源。不关心里面到底是什么)
Save The Web Project
开始存档 AcFun 视频! 回顾一些经典老物.jpg: https://archive.org/details/AcFun-1984_p1 https://archive.org/details/AcFun-1411_p1 https://archive.org/details/AcFun-3784_p1 https://archive.org/details/AcFun-7579_p1 https://archive.org/details/AcFun-2123_p1 ...... (目前还存在的早期…
有熟悉数据处理的好心人吗?
我们现在有 AcFun 全站的视频元数据信息,以及全站弹幕,以及 acwiki 的存档(可以用 acwiki 中出现过的 aid 号作为“好视频”的参考集)。现在的目标是从目前的 9,295,558 个有效视频中,自动打标(啥鬼畜、东方、vocaloid 啊)并筛选出值得存的视频。(降序排序)
有没有好心人喵?🐱
好心人请点这里:https://t.iss.one/saveweb_projects/2961
我们现在有 AcFun 全站的视频元数据信息,以及全站弹幕,以及 acwiki 的存档(可以用 acwiki 中出现过的 aid 号作为“好视频”的参考集)。现在的目标是从目前的 9,295,558 个有效视频中,自动打标(啥鬼畜、东方、vocaloid 啊)并筛选出值得存的视频。(降序排序)
有没有好心人喵?
好心人请点这里:https://t.iss.one/saveweb_projects/2961
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5
Save The Web Project
xLog 的各种 API、以及链上的 RPC、以及数据导出网站 export.crossbell.io 都已经废了。 刚糊了个 xLog 博文导出工具 https://xlog-takeout.saveweb.org/ 出来。 整个 xLog 的博文去掉大部分 spam 后也才 34k,很小。懒得写后端,直接前端加载 300MiB 的全量 sqlite (gzip 后 100MiB)。 xlog 博主们尽快导出吧(IPFS 上的图片附件已经没了大半了)。
xlog.app 主站 error 1016 已一周了,可以视为是完全关站了。
xlog 也许是个没成功的好产品,但我👎所有关闭前不声不响不提醒用户且不引导用户获取数据备份的服务。它甚至还标榜 “You own your data.” 呢!
xlog 也许是个没成功的好产品,但我👎所有关闭前不声不响不提醒用户且不引导用户获取数据备份的服务。它甚至还标榜 “You own your data.” 呢!
😢15 6 2🔥1
Save The Web Project
IPFS 上的图片附件已经没了大半了
https://archive.org/details/XLOGIPFS-crawling
xlog 上面总计 38148 个 ipfs 链接(剔除了绝大部分 spam 内容后)。其中 34644 仍然可以获取到的 ipfs 已经存档了。
如果有博主以后需要图片存档,可以联系我们,或者自行提取 warc。
哎呀,发现正则写错了,忘了 ipfs cid 有大写形式。实际总量应该是 87396 个 ipfs。多出来的这些看起来基本没救了。
如果有博主以后需要图片存档,可以联系我们,或者自行提取 warc。
哎呀,发现正则写错了,忘了 ipfs cid 有大写形式。实际总量应该是 87396 个 ipfs。多出来的这些看起来基本没救了。
Internet Archive
xlogipfs - ipfs resources for xlog.app : Free Download, Borrow, and Streaming : Internet Archive
IPFS resources for xlog.app.
🎉5🥰2❤1
STWP 2026 第 10 周周报
- c2025-4 转长期项目 @Ovler
- 响应几个画吧备份请求,改进提取脚本 @Ovler
- c2026-3 魅族论坛存档前置任务: 解析 SPA 网页 JS import() 链式导入;网页存档代码
STWP 2026 第 11 周周报
- 存 xlog 的 ipfs 链接。(IA item + AB)
- AcFun ”值得存“打标筛选:一些 AcFun 数据可视化; 基于 word2vec 的扩词与视频分类器; 视频打分器。非常感谢 @reonokiy !
- c2026-3 列出了全部帖子的id,总计接近百万。
- 将我们的全部 DNS 迁移到了 DNSControl。(真好用)
- c2025-4 转长期项目 @Ovler
- 响应几个画吧备份请求,改进提取脚本 @Ovler
- c2026-3 魅族论坛存档前置任务: 解析 SPA 网页 JS import() 链式导入;网页存档代码
STWP 2026 第 11 周周报
- 存 xlog 的 ipfs 链接。(IA item + AB)
- AcFun ”值得存“打标筛选:一些 AcFun 数据可视化; 基于 word2vec 的扩词与视频分类器; 视频打分器。非常感谢 @reonokiy !
- c2026-3 列出了全部帖子的id,总计接近百万。
- 将我们的全部 DNS 迁移到了 DNSControl。(真好用)
❤4
STWP 2026 第 12 周周报
本周末啥也没干,出去玩了。
本周末啥也没干,出去玩了。
❤10