← 随机比特 / 所有内容

ai scrapers slop pit

2026-03-30 · 随机比特

内容还在公开写,为什么已经要开始“投毒”防 AI 爬虫了?

以前网站主最怕的是没人来。

现在很多人更怕另一件事:来的不是读者,而是爬虫。

而且还不是传统搜索引擎那种“抓走内容、再把流量导回来”的爬虫,而是为了给大模型喂训练数据、抓完就不一定再把用户还给你的那种。

这两天 GitHub 上一个项目火了,叫 Miasma。它做的事很简单,也很狠:不给 AI 爬虫直接关门,而是给它开一扇假门,把它引进一片专门准备好的“毒数据沼泽”里,让它抓到的东西越来越没用,甚至在一堆自循环链接里越陷越深。

<figure><img src=“images/01-open-web-shift.png” alt=“01-open-web-shift”></figure>

如果你只把它理解成“一个反爬虫工具”,那就低估这件事了。

它真正说明的是:公开互联网默认开放、默认互利的那套协议,正在被 AI 抓取改写。

Miasma 到底在干嘛?

通俗讲,它不是在门口贴“禁止入内”,而是在院子里挖了一个坑。

项目 README 里给了一个很实用的部署思路:在站点里埋 hidden links,把可疑 bot 引到 /bots 这样的路径,再由 Nginx reverse proxy 转发给 Miasma。对正常读者来说,你的站还是正常的;但对那些顺着链接贪婪爬全站的抓取器来说,它会一路掉进一堆低质量、可无限扩展、互相链接的内容里。

作者甚至把资源边界都写得很直白:比如 max in-flight 设成 50 时,峰值内存大概 50 到 60MB;并发再多,就直接回 429,不跟你慢慢排队。这个细节很关键,因为它说明 Miasma 不是“概念 demo”,而是按真实部署场景想过成本控制的。

<figure><img src=“images/02-miasma-trap.png” alt=“02-miasma-trap”></figure>

更有意思的是,它的目标并不只是“拦住对方”,而是降低对方抓取的收益率

这和过去常见的封 IP、封 UA 不太一样。以前大家想的是“别让你进来”;现在开始有人想的是“你非要进来,那我就让你抓回去一堆没有训练价值的东西”。

这个姿态变化,比工具本身更值得注意。

为什么今天会长出这种工具?

因为搜索引擎时代和模型训练时代,看起来都在“抓内容”,但它们对原作者的回报结构根本不是一回事。

搜索引擎抓你的内容,目的是索引。用户最后还是会点回你的页面。你不一定喜欢被抓,但大多数时候,流量回流这件事成立,所以开放有收益。

模型训练不是这样。

它抓内容之后,可能把结论、表达方式、结构,甚至你的劳动成果都压进参数里。用户下一次得到答案时,可能根本不知道源头是谁,也不会再回到原页面。对创作者来说,最难受的点就在这:内容被吸走了,但收益、品牌、订阅和读者关系没有同步回来。

这也是为什么你会看到越来越多网站和创作者,对“AI 抓取”这四个字的情绪比对“搜索引擎爬虫”敏感得多。

不是他们突然不开放了。

而是过去那种“我公开写作,你帮我分发,我获得回流”的交换关系,正在失效。

真正要变的,不是某个工具,而是默认协议

很多年里,互联网有一套很松的绅士协议。

比如 robots.txt。它本质上不是防盗门,更像门口的一块牌子:我希望哪些东西别碰,请你自觉一点。搜索时代,这套东西大体还能运转,因为主流玩家还有动力维护生态关系。

但一旦“抓得越多,模型越强,商业价值越高”变成更直接的激励,这种软约束就会越来越弱。

于是你会看到网站开始分层:

这件事一旦普及,影响不会只停留在技术圈。

因为它会改变很多内容生产者对“公开发布”的判断:

我还要不要把最值钱的东西完整放到公开网页? 我是不是要把一部分内容迁到 newsletter、社群、登录后可见区域? 我是不是要开始区分“欢迎来的机器”和“不欢迎来的机器”?

这其实是在重写开放互联网的边界。

作为内容创作者,最该学的不是“投毒”,而是划边界

说实话,不是每个站都需要立刻上 Miasma。

但几乎每个认真写内容的人,都应该开始有一个更明确的 bot 边界意识。

最起码先想清楚三件事:

第一,你有没有真的被高频抓取。 别先被情绪带着跑,先看日志、看访问模式、看异常路径、看请求频率。没有证据就全面封锁,最后可能误伤的是自己。

第二,哪些 bot 该欢迎,哪些 bot 该限流。 Miasma README 里就特别提醒,要在 robots.txt 里排除 Googlebot、Bingbot、DuckDuckBot 这些友好 bot,别把正常搜索流量一起打没了。这个提醒特别重要:不是所有机器都一样。

第三,哪些内容值得单独保护。 你不一定要把整个站都藏起来,但完全可以把高价值内容、结构化资料、长期积累的专题页做更细的路径管理。欢迎读者,不等于欢迎任何形式的训练抽取。

<figure><img src=“images/03-bot-boundary.png” alt=“03-bot-boundary”></figure>

我觉得 Miasma 最有价值的地方,不是教大家“怎么坑爬虫”,而是逼更多创作者第一次认真问自己:

在 AI 默认抓取的时代,公开写作的边界到底在哪?

如果这个问题没有答案,后面只会有更多人从“开放发布”退回“半封闭发布”。那时候损失的不只是某几篇文章的流量,而是整个互联网公开知识生态的厚度。

所以这不是一个猎奇项目火了这么简单。

它像一个信号弹:当内容创作者开始主动部署“毒数据陷阱”,说明大家争的已经不是访问权限,而是谁能从公开知识里持续拿走价值,却不必把价值还回来

你觉得,AI 抓取会把公开写作逼向更封闭的互联网吗?评论区聊聊。