什么是PerplexityBot

AI解读 4个月前硕雀

73 0 0

PerplexityBot 是 Perplexity AI 自行研发的网页爬虫，用于为其对话式搜索系统抓取、清洗并索引互联网上的内容。它的主要职责是把真实网页的文本转化为机器可读的原始数据，以便大型语言模型（LLM）在回答用户提问时能够引用最新、可靠的来源。

步骤	说明
访问 URL	通过标识为 `PerplexityBot/1.0 (+https://perplexity.ai/perplexitybot )` 的 User‑Agent 发起请求。
遵守 robots.txt	默认遵循站点的 `robots.txt` 规则，避免抓取被禁止的资源。在少数特殊情形（如用户直接提供特定 URL）时，PerplexityBot 可能会暂时忽略该协议。
页面清洗	抓取的 HTML 会被去除标签、导航栏、广告等噪声，仅保留正文文本，以供后续分析。
内容存储与索引	清洗后的文本进入 Perplexity 的检索‑增强生成（RAG）系统，供 LLM 在对话中快速检索并生成带来源的答案。
更新频率	爬虫会根据域名重要性、内容更新速度等因素决定抓取频率，并在发现新超链接时将其加入抓取队列。

绕过 robots.txt：多家媒体和安全公司指出，PerplexityBot 在被 robots.txt 或防火墙阻拦后，会切换为未声明的备用爬虫（伪装成普通浏览器的 User‑Agent），并通过更换 IP 与 ASN 规避封锁。
法律纠纷：美国法院文件显示，原告指控 PerplexityBot 直接抓取其受版权保护的内容，构成侵权，并指出其在某些情况下会忽视 robots.txt 保护措施。
公司回应：Perplexity 官方承认在极少数用户提供特定 URL 的场景下会暂时忽略 robots.txt，但坚持整体遵守爬虫规范，并表示已对相关指控作出解释。

PerplexityBot 并非用于训练基础语言模型，而是专门为 实时答案生成 建立索引。它抓取的内容仅用于在用户提问时即时检索，并在答案中附带可点击的来源链接，帮助用户验证信息的可靠性。因此，它是 Perplexity AI 能够提供“带引用的对话式搜索”体验的核心技术之一。

声明：文章均为AI生成，请谨慎辨别信息的真伪和可靠性！