群友们谁的网站内容丰富多且带宽大?我跑跑 benchmark ,测爬虫(
静态网站优先。
(内容丰富指有 html、css、js 以及其它多样的媒体资源。不关心里面到底是什么)
静态网站优先。
(内容丰富指有 html、css、js 以及其它多样的媒体资源。不关心里面到底是什么)
Save The Web Project
开始存档 AcFun 视频! 回顾一些经典老物.jpg: https://archive.org/details/AcFun-1984_p1 https://archive.org/details/AcFun-1411_p1 https://archive.org/details/AcFun-3784_p1 https://archive.org/details/AcFun-7579_p1 https://archive.org/details/AcFun-2123_p1 ...... (目前还存在的早期…
有熟悉数据处理的好心人吗?
我们现在有 AcFun 全站的视频元数据信息,以及全站弹幕,以及 acwiki 的存档(可以用 acwiki 中出现过的 aid 号作为“好视频”的参考集)。现在的目标是从目前的 9,295,558 个有效视频中,自动打标(啥鬼畜、东方、vocaloid 啊)并筛选出值得存的视频。(降序排序)
有没有好心人喵?🐱
好心人请点这里:https://t.iss.one/saveweb_projects/2961
我们现在有 AcFun 全站的视频元数据信息,以及全站弹幕,以及 acwiki 的存档(可以用 acwiki 中出现过的 aid 号作为“好视频”的参考集)。现在的目标是从目前的 9,295,558 个有效视频中,自动打标(啥鬼畜、东方、vocaloid 啊)并筛选出值得存的视频。(降序排序)
有没有好心人喵?
好心人请点这里:https://t.iss.one/saveweb_projects/2961
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5
Save The Web Project
xLog 的各种 API、以及链上的 RPC、以及数据导出网站 export.crossbell.io 都已经废了。 刚糊了个 xLog 博文导出工具 https://xlog-takeout.saveweb.org/ 出来。 整个 xLog 的博文去掉大部分 spam 后也才 34k,很小。懒得写后端,直接前端加载 300MiB 的全量 sqlite (gzip 后 100MiB)。 xlog 博主们尽快导出吧(IPFS 上的图片附件已经没了大半了)。
xlog.app 主站 error 1016 已一周了,可以视为是完全关站了。
xlog 也许是个没成功的好产品,但我👎所有关闭前不声不响不提醒用户且不引导用户获取数据备份的服务。它甚至还标榜 “You own your data.” 呢!
xlog 也许是个没成功的好产品,但我👎所有关闭前不声不响不提醒用户且不引导用户获取数据备份的服务。它甚至还标榜 “You own your data.” 呢!
😢15 6 2🔥1
Save The Web Project
IPFS 上的图片附件已经没了大半了
https://archive.org/details/XLOGIPFS-crawling
xlog 上面总计 38148 个 ipfs 链接(剔除了绝大部分 spam 内容后)。其中 34644 仍然可以获取到的 ipfs 已经存档了。
如果有博主以后需要图片存档,可以联系我们,或者自行提取 warc。
哎呀,发现正则写错了,忘了 ipfs cid 有大写形式。实际总量应该是 87396 个 ipfs。多出来的这些看起来基本没救了。
如果有博主以后需要图片存档,可以联系我们,或者自行提取 warc。
哎呀,发现正则写错了,忘了 ipfs cid 有大写形式。实际总量应该是 87396 个 ipfs。多出来的这些看起来基本没救了。
Internet Archive
xlogipfs - ipfs resources for xlog.app : Free Download, Borrow, and Streaming : Internet Archive
IPFS resources for xlog.app.
🎉5🥰2❤1
STWP 2026 第 10 周周报
- c2025-4 转长期项目 @Ovler
- 响应几个画吧备份请求,改进提取脚本 @Ovler
- c2026-3 魅族论坛存档前置任务: 解析 SPA 网页 JS import() 链式导入;网页存档代码
STWP 2026 第 11 周周报
- 存 xlog 的 ipfs 链接。(IA item + AB)
- AcFun ”值得存“打标筛选:一些 AcFun 数据可视化; 基于 word2vec 的扩词与视频分类器; 视频打分器。非常感谢 @reonokiy !
- c2026-3 列出了全部帖子的id,总计接近百万。
- 将我们的全部 DNS 迁移到了 DNSControl。(真好用)
- c2025-4 转长期项目 @Ovler
- 响应几个画吧备份请求,改进提取脚本 @Ovler
- c2026-3 魅族论坛存档前置任务: 解析 SPA 网页 JS import() 链式导入;网页存档代码
STWP 2026 第 11 周周报
- 存 xlog 的 ipfs 链接。(IA item + AB)
- AcFun ”值得存“打标筛选:一些 AcFun 数据可视化; 基于 word2vec 的扩词与视频分类器; 视频打分器。非常感谢 @reonokiy !
- c2026-3 列出了全部帖子的id,总计接近百万。
- 将我们的全部 DNS 迁移到了 DNSControl。(真好用)
❤4
STWP 2026 第 12 周周报
本周末啥也没干,出去玩了。
本周末啥也没干,出去玩了。
❤10
This message can’t be displayed because it violated Telegram's Terms of Service.
😭10
This message can’t be displayed because it violated Telegram's Terms of Service.
🤬5 1