什么是机器人流量?
机器人流量是指访问网站或应用的非人类流量。机器人流量这个词语通常带有负面含义,但实际上机器人流量并非绝对好坏,这完全取决于机器人的用途以及网站运营者的偏好。
有些机器人对搜索引擎和数字助手(如 Siri、Alexa)等实用服务而言,必不可少。多数公司欢迎这类机器人访问其网站。
例如用于凭证填充、数据抓取,以及发动 DDoS 攻击等目的的其他机器人,则可能是恶意机器人。即使是某些较为良性的“恶意”机器人,如未经授权的 Web 爬网程序,也会造成损害,因为这些机器人会对站点分析造成妨碍,并产生点击欺诈。
据信,全部 Internet 流量中,超过 40% 以上是由机器人流量组成,其中很大一部分为恶意机器人流量。这也是许多组织开始寻求方法管理进入其站点的机器人流量的原因。
如何辨别机器人流量?
Web 工程师可直接查看指向其站点的网络请求,并辨别是否为机器人流量。Google Analytics 或 Heap 等集成式 Web 分析工具也可助力机器人流量检测。
以下分析异常标志着网络流量为机器人流量:
页面访问量异常高:如果站点页面访问量突然毫无预兆地空前暴增,则有可能是机器人在点击浏览该站点。
跳出率异常高:跳出率是指进入站点的单个页面,而后不点击页面任何内容即离开该站点的用户数量。跳出率毫无预兆地上升可能是因为机器人被指向单个页面所致。
会话持续时间过长或过短:会话持续时间或用户在网站停留的时长,应当保持相对稳定。会话持续时间突然增加可能表明机器人正在以异常缓慢的速率浏览该站点。与之相反,会话持续时间突然缩短可能是由于机器人正快速点击页面所致,其点击速率比人类操作快得多。
垃圾转换次数:虚假转换次数剧增,如使用垃圾电子邮件地址创建帐户或者用虚假的姓名和电话号码提交联系人表单,可能是填表机器人或者垃圾邮件机器人活动的结果。
意外位置流量剧增:某一特定区域的用户数量突然猛增,尤其是不可能有很多能够流利说网站本地语言人口的区域,这可能表明是机器人流量。
遭到攻击?
防范网络攻击的全方位保护
与专家讨论
机器人流量如何对分析造成损害?
如上所述,未经授权的机器人流量会影响分析度量指标,如页面访问量、跳出率、会话持续时间、用户定位以及转换次数。度量指标偏差会给站点所有者带来许多不利影响;对于充斥着机器人活动的站点,很难衡量其性能。尝试通过 A/B 测试以及优化转换率来改善站点性能,也会因机器人造成的统计噪声而受阻。
如何从 Google Analytics 过滤机器人流量?
Google Analytics 提供“排除来自已知机器人和蜘蛛程序的点击”(exclude all hits from known bots and spiders)(蜘蛛程序是指爬取网页的搜索引擎机器人)选项。如能识别机器人流量源,用户也可提供具体 IP 列表,Google Analytics 即会将其忽略。
虽然采取这些措施会阻止某些机器人妨碍分析,但无法阻止所有机器人。此外,大部分恶意机器人目的不只是为了扰乱流量分析,而这些措施除了保存分析数据之外,在缓解有害机器人活动方面毫无作用。
机器人流量如何损害性能?
攻击者发动 DDoS 攻击最常用的方式就是发送大量机器人流量。某些类型的 DDoS 攻击活动期间,有大量攻击流量指向网站,以致源服务器负担过重,站点运行变慢或者合法用户根本无法访问。
机器人流量带来的不利业务影响有哪些?
受恶意机器人流量影响,一些网站即使性能未受影响,也可能蒙受经济损失。依赖于广告推广的站点和销售有限库存商品的站点特别容易遭到攻击。
对于广告服务站点而言,机器人登录站点并点击页面的各种元素,可能触发虚假的广告点击,这就是点击欺诈。虽然这种情况最初可以创造广告营收,但在线广告网络平台在检测机器人点击方面尤为擅长。如果怀疑某一网站正在实施点击欺诈,它们会采取措施,通常是禁止该站点或该站点的所有者访问它们的网络平台。因此,广告服务站点的所有者需时刻留意机器人点击欺诈。
库存有限的站点会成为库存囤积机器人的攻击目标。正如其名,这些机器人会定位到电子商务站点,将大量商品加入其购物车,使得合法购物者无商品可购。在某些情况下,这种操作还会致使供应商或者生产商无谓地重新补充库存。库存囤积机器人从不作出购买行为;它们的设计目的仅仅是为了阻碍库存的可用性。
许多网站依靠制作原创内容来吸引用户流量,并从这些流量中产生收入,有时是通过广告产生收入。2020 年代, AI 工具使用量激增,对此类商业模式产生了负面影响。AI 工具使用来自 Web 的原创内容来训练其底层大型语言模型(LLM),构建搜索索引供这些模型使用,以及响应用户提示实时检索内容。接收 LLM 回复的用户可能永远不会访问该回复所基于的网站。获取原始内容的 AI 爬虫机器人也会给网站运营商带来直接成本,因为它们会发送大量网页请求。
网站如何管理机器人流量?
阻止或者管理网站机器人流量,第一步是网站管理员在 robots.txt 文件 中声明其偏好。Robots.txt 文件为机器人提供页面爬取说明,可配置为指示机器人不应访问某些网页或与之交互。但应注意,只有部分机器人会遵守 robots.txt 文件中的规则;这些文件实际上无法阻止机器人爬取网站。Cloudflare 提供了一套复杂的托管 robots.txt 服务,帮助网站管理员向爬虫运营商表达其偏好。
为了监管来自 AI 爬虫机器人的流量,网站运营者应使用类似 Cloudflare AI Audit 的服务。此服务允许网站运营者允许或阻止 AI 爬虫(阻止意味着 AI 爬虫无法出于任何目的访问内容)。通过 AI Audit 的按抓取付费功能,网站运营商还可以选择向 AI 机器人运营者收取爬取费用。
许多其他工具也可以帮助防御机器人流量滥用。速率限制解决方案,例如 Cloudflare 的 WAF 产品,可以检测并防止来自单个 IP 地址的大量滥用性机器人流量。
网络工程师还可以审查流量,手动识别来自一系列 IP 地址的可疑网络请求,以及来自这些 IP 地址的所有请求。然而,这是一个非常耗费人力的过程,并且不太可能阻止网站可能面临的大部分恶意机器人流量。
除速率限制和工程师直接干预外,阻止恶意机器人流量最简单有效的方法就是采用机器人管理解决方案。机器人管理解决方案可以善用智能特性,且能够利用行为分析在恶意机器人访问网站之前对机器人加以阻止。例如,Cloudflare机器人管理利用来自数百万个互联网资产的情报数据,运用机器学习功能主动识别并阻止机器人泛滥这一状况。Super Bot Fight 模式(Pro 和 Business 服务方案可用)为小型组织提供对机器人流量的相似可见性和控制功能。
常见问题解答
什么是机器人流量? 机器人流量是指网站或应用中的任何非真人用户活动。机器人流量本身并无好坏之分,好坏取决于机器人的用途。有些机器人对搜索引擎等服务至关重要,而另一些机器人则可能具有恶意。
如何分辨网站是否受到机器人流量的影响?
您可以通过查看网站分析中的异常情况来识别机器人流量。主要迹象包括:页面浏览量或跳出率异常升高,会话持续时间突然变化,垃圾转化率骤增,或来自意外地理位置的流量突然激增。
是否所有机器人都是恶意机器人?
有些机器人是有益的,甚至必不可少。例如,搜索引擎机器人(也称为网络爬虫或爬网程序),对于网站获得索引并在搜索结果中显示是必需的。但是,恶意机器人可能会执行有害操作,例如抓取数据、填充凭据,以及发起 DDoS 攻击。
机器人流量会对网站造成哪些负面影响?
恶意机器人流量会以多种方式损害网站。它可能会歪曲分析结果,导致难以衡量网站性能。恶意机器人也可能通过使服务器过载,损害网站性能。对于企业来说,机器人可能会在广告中植入点击欺诈,或在电子商务网站囤积库存,从而扰乱销售。
如何管理网站上的机器人流量?
一种入门方法是使用 robots.txt 文件向机器人提供指令,但这并不是一个万无一失的方法,因为恶意机器人会忽略它。更有效的工具包括速率限制,用于阻止高流量访问;以及最有效的工具是专用机器人管理解决方案,它利用机器学习和行为分析来区分恶意机器人与善意机器人。
什么是robots.txt文件?
Robots.txt 文件是针对访问网站的机器人的一组指令。您可以在此文件中指定规则,例如禁止机器人抓取哪些页面。虽然善意机器人会遵守这些规则,但许多恶意机器人不会遵守这些规则。