设为首页 - 加入收藏 AI,GNOME,UA,人工智能,爬虫 – 后发制人网

您的当前位置：首页 > 开源/自有软件基础设施正在被人工智能破坏大约97%的请求/流量都是爬虫而非真人 – 蓝点网正文

开源/自有软件基础设施正在被人工智能破坏大约97%的请求/流量都是爬虫而非真人 – 蓝点网

来源：开源/自有软件基础设施正在被人工智能破坏大约97%的请求/流量都是爬虫而非真人 – 蓝点网编辑：开源/自有软件基础设施正在被人工智能破坏大约97%的请求/流量都是爬虫而非真人 – 蓝点网时间：2025-03-24 17:49:02

开源/自有软件基础设施正在被人工智能破坏大约97%的请求/流量都是爬虫而非真人

# 科技资讯开源 / 自由软件基础设施正在被人工智能破坏，GNOME 桌面环境的官方网站在 2.5 小时内收到 81000 个请求，其中 97% 都是爬虫而非真人。这些 AI 公司的爬虫对数据非常饥渴，有时候不会遵守 robots.txt 协议，有时候会高频并发抓取，给目标网站造成严重的压力。查看全文：https://ourl.co/108442

开源 / 自由软件的官方网站或源代码托管通常都是可以公开访问的，但提供公开访问是需要服务器和带宽支撑的，正常情况下真实用户访问不会给服务器带来多少压力。

知名桌面环境 GNOME 管理员分享了关于服务器流量的分析数据，数据表明在 2.5 小时内 GNOME 收到 81,000 个请求，其中只有 3% 通过 Anubi 的工作量证明，这意味着剩余 97% 都是爬虫而非真人访问。

这些爬虫通常不会遵守 robots.txt 协议，并且人工智能公司的爬虫拥有大量 IP 地址，这些公司通过这些 IP 地址并发向开源项目网站发出请求赚取网站或项目数据。

为了应对这些爬虫消耗服务器硬件资源和网络带宽，GNOME 不得不使用名为 Anubi 的工作流证明系统用来拦截 AI 爬虫程序，有时候这可能还会误伤真实访问的用户。

GNOME 并不是唯一遭受 AI 爬虫类似 DDoS 攻击般疯狂抓取的项目，KDE、Fedora、LWN、Frame Software 等也都在面临同样的问题：其网站和基础设施绝大部分流量都来自 AI 爬虫。

应对这种攻击并没有太好的办法，管理员正在浪费大量时间、金钱和资源来抵御这些饥饿的 AI 大军 — 人工智能公司都在疯狂抓取数据用来训练模型。

此前包括 OpenAI ChatGPT 和字节跳动的 Bytespider 都被发现高频抓取网站导致网站近乎瘫痪，这些爬虫有时候不遵守 robots.txt 协议，有时候则是并发海量请求导致服务器瘫痪。

对这些 AI 公司来说这不会有任何损失，但被高频抓取的网站就遭殃了，浪费服务器资源的同时还必须想法设法识别和拦截这些爬虫，最后只有网站损失惨重。

另外大多数已知的爬虫例如 GPTBot 还比较容易通过 UA 进行拦截，还有大量的爬虫不会公布自己的名称，而是模拟智能手机用户进行访问，这种情况下靠 UA 识别和拦截非常麻烦。

AI(825)GNOME(11)UA(11)人工智能(900)爬虫(37)

版权声明：
感谢您的阅读，本文由 @山外的鸭子哥转载或编译，如您需要继续转载此内容请务必以超链接(而非纯文本链接)标注原始来源。原始内容来源：The Libre

上一篇：分析称苹果将在2025年推出的iPhone 17机型中采用自研5G基带芯片 – 蓝点网
下一篇：微软已从应用商店下架Paint 3D应用虽被微软寄予厚望但压根没人用 – 蓝点网

相关文章：

相关推荐：

栏目分类

最新文章

热门文章

友情链接

网站名称 <div v-if="item.type === '图片'" class="item none transverse"> 跋扈自恣网网站名称

Copyright © 2025 开源/自有软件基础设施正在被人工智能破坏大约97%的请求/流量都是爬虫而非真人 – 蓝点网 – 后发制人网开源/自有软件基础设施正在被人工智能破坏大约97%的请求/流量都是爬虫而非真人 – 蓝点网 – 后发制人网