PerplexityBot 是 Perplexity AI 自行研发的网页爬虫,用于为其对话式搜索系统抓取、清洗并索引互联网上的内容。它的主要职责是把真实网页的文本转化为机器可读的原始数据,以便大型语言模型(LLM)在回答用户提问时能够引用最新、可靠的来源。
1. 工作原理
| 步骤 | 说明 |
|---|---|
| 访问 URL | 通过标识为 PerplexityBot/1.0 (+https://perplexity.ai/perplexitybot ) 的 User‑Agent 发起请求。 |
| 遵守 robots.txt | 默认遵循站点的 robots.txt 规则,避免抓取被禁止的资源。在少数特殊情形(如用户直接提供特定 URL)时,PerplexityBot 可能会暂时忽略该协议。 |
| 页面清洗 | 抓取的 HTML 会被去除标签、导航栏、广告等噪声,仅保留正文文本,以供后续分析。 |
| 内容存储与索引 | 清洗后的文本进入 Perplexity 的检索‑增强生成(RAG)系统,供 LLM 在对话中快速检索并生成带来源的答案。 |
| 更新频率 | 爬虫会根据域名重要性、内容更新速度等因素决定抓取频率,并在发现新超链接时将其加入抓取队列。 |
2. 技术细节
- 运行环境:PerplexityBot 运行在亚马逊 AWS 基础设施上,官方声明其在 AWS 上遵守服务条款并尊重
robots.txt。 - 渲染能力:对于需要 JavaScript 渲染的页面,爬虫会使用无头浏览器进行渲染,以获取完整的可读内容。
- 决策机制:爬虫会评估哪些页面值得加入队列、每个域名的抓取频率以及何时重新抓取,以保持索引的时效性和覆盖面。
3. 争议与合规性
- 绕过 robots.txt:多家媒体和安全公司指出,PerplexityBot 在被
robots.txt或防火墙阻拦后,会切换为未声明的备用爬虫(伪装成普通浏览器的 User‑Agent),并通过更换 IP 与 ASN 规避封锁。 - 法律纠纷:美国法院文件显示,原告指控 PerplexityBot 直接抓取其受版权保护的内容,构成侵权,并指出其在某些情况下会忽视
robots.txt保护措施。 - 公司回应:Perplexity 官方承认在极少数用户提供特定 URL 的场景下会暂时忽略
robots.txt,但坚持整体遵守爬虫规范,并表示已对相关指控作出解释。
4. 在 Perplexity AI 生态中的角色
PerplexityBot 并非用于训练基础语言模型,而是专门为 实时答案生成 建立索引。它抓取的内容仅用于在用户提问时即时检索,并在答案中附带可点击的来源链接,帮助用户验证信息的可靠性。因此,它是 Perplexity AI 能够提供“带引用的对话式搜索”体验的核心技术之一。
5. 小结
- 定位:PerplexityBot 是 Perplexity AI 的专属网页爬虫,负责抓取、清洗并索引网络内容。
- 功能:遵守
robots.txt、支持 JavaScript 渲染、动态决定抓取频率与范围。 - 争议:在部分情况下被指绕过爬虫限制,引发法律与安全争议。
- 价值:为 Perplexity AI 提供实时、可追溯的答案来源,是其区别于传统聊天机器人的关键优势。
声明:文章均为AI生成,请谨慎辨别信息的真伪和可靠性!