内容还在公开写，为什么已经要开始“投毒”防 AI 爬虫了？

以前网站主最怕的是没人来。

现在很多人更怕另一件事：来的不是读者，而是爬虫。

而且还不是传统搜索引擎那种“抓走内容、再把流量导回来”的爬虫，而是为了给大模型喂训练数据、抓完就不一定再把用户还给你的那种。

这两天 GitHub 上一个项目火了，叫 Miasma。它做的事很简单，也很狠：不给 AI 爬虫直接关门，而是给它开一扇假门，把它引进一片专门准备好的“毒数据沼泽”里，让它抓到的东西越来越没用，甚至在一堆自循环链接里越陷越深。

如果你只把它理解成“一个反爬虫工具”，那就低估这件事了。

它真正说明的是：公开互联网默认开放、默认互利的那套协议，正在被 AI 抓取改写。

Miasma 到底在干嘛？

通俗讲，它不是在门口贴“禁止入内”，而是在院子里挖了一个坑。

项目 README 里给了一个很实用的部署思路：在站点里埋 hidden links，把可疑 bot 引到 /bots 这样的路径，再由 Nginx reverse proxy 转发给 Miasma。对正常读者来说，你的站还是正常的；但对那些顺着链接贪婪爬全站的抓取器来说，它会一路掉进一堆低质量、可无限扩展、互相链接的内容里。

作者甚至把资源边界都写得很直白：比如 max in-flight 设成 50 时，峰值内存大概 50 到 60MB；并发再多，就直接回 429，不跟你慢慢排队。这个细节很关键，因为它说明 Miasma 不是“概念 demo”，而是按真实部署场景想过成本控制的。

更有意思的是，它的目标并不只是“拦住对方”，而是降低对方抓取的收益率。

这和过去常见的封 IP、封 UA 不太一样。以前大家想的是“别让你进来”；现在开始有人想的是“你非要进来，那我就让你抓回去一堆没有训练价值的东西”。

这个姿态变化，比工具本身更值得注意。

为什么今天会长出这种工具？

因为搜索引擎时代和模型训练时代，看起来都在“抓内容”，但它们对原作者的回报结构根本不是一回事。

搜索引擎抓你的内容，目的是索引。用户最后还是会点回你的页面。你不一定喜欢被抓，但大多数时候，流量回流这件事成立，所以开放有收益。

模型训练不是这样。

它抓内容之后，可能把结论、表达方式、结构，甚至你的劳动成果都压进参数里。用户下一次得到答案时，可能根本不知道源头是谁，也不会再回到原页面。对创作者来说，最难受的点就在这：内容被吸走了，但收益、品牌、订阅和读者关系没有同步回来。

这也是为什么你会看到越来越多网站和创作者，对“AI 抓取”这四个字的情绪比对“搜索引擎爬虫”敏感得多。

不是他们突然不开放了。

而是过去那种“我公开写作，你帮我分发，我获得回流”的交换关系，正在失效。

真正要变的，不是某个工具，而是默认协议

很多年里，互联网有一套很松的绅士协议。

比如 robots.txt。它本质上不是防盗门，更像门口的一块牌子：我希望哪些东西别碰，请你自觉一点。搜索时代，这套东西大体还能运转，因为主流玩家还有动力维护生态关系。

但一旦“抓得越多，模型越强，商业价值越高”变成更直接的激励，这种软约束就会越来越弱。

于是你会看到网站开始分层：

一层给真实读者；
一层给搜索索引；
一层防训练抓取；
甚至还有一层专门给恶意 bot 设陷阱。

这件事一旦普及，影响不会只停留在技术圈。

因为它会改变很多内容生产者对“公开发布”的判断：

我还要不要把最值钱的东西完整放到公开网页？我是不是要把一部分内容迁到 newsletter、社群、登录后可见区域？我是不是要开始区分“欢迎来的机器”和“不欢迎来的机器”？

这其实是在重写开放互联网的边界。

作为内容创作者，最该学的不是“投毒”，而是划边界

说实话，不是每个站都需要立刻上 Miasma。

但几乎每个认真写内容的人，都应该开始有一个更明确的 bot 边界意识。

最起码先想清楚三件事：

第一，你有没有真的被高频抓取。 别先被情绪带着跑，先看日志、看访问模式、看异常路径、看请求频率。没有证据就全面封锁，最后可能误伤的是自己。

第二，哪些 bot 该欢迎，哪些 bot 该限流。 Miasma README 里就特别提醒，要在 robots.txt 里排除 Googlebot、Bingbot、DuckDuckBot 这些友好 bot，别把正常搜索流量一起打没了。这个提醒特别重要：不是所有机器都一样。

第三，哪些内容值得单独保护。 你不一定要把整个站都藏起来，但完全可以把高价值内容、结构化资料、长期积累的专题页做更细的路径管理。欢迎读者，不等于欢迎任何形式的训练抽取。

我觉得 Miasma 最有价值的地方，不是教大家“怎么坑爬虫”，而是逼更多创作者第一次认真问自己：

在 AI 默认抓取的时代，公开写作的边界到底在哪？

如果这个问题没有答案，后面只会有更多人从“开放发布”退回“半封闭发布”。那时候损失的不只是某几篇文章的流量，而是整个互联网公开知识生态的厚度。

所以这不是一个猎奇项目火了这么简单。

它像一个信号弹：当内容创作者开始主动部署“毒数据陷阱”，说明大家争的已经不是访问权限，而是谁能从公开知识里持续拿走价值，却不必把价值还回来。

你觉得，AI 抓取会把公开写作逼向更封闭的互联网吗？评论区聊聊。

ai scrapers slop pit

内容还在公开写，为什么已经要开始“投毒”防 AI 爬虫了？

Miasma 到底在干嘛？

为什么今天会长出这种工具？

真正要变的，不是某个工具，而是默认协议

作为内容创作者，最该学的不是“投毒”，而是划边界