谷歌搜索测试“+”按钮:允许用户上传图片文档,利用 Gemini AI 进行深度分析

AI资讯 2个月前 硕雀
34 0

谷歌搜索测试版 “+” 按钮概览


1. 功能定位

  • “+” 按钮是谷歌搜索近期实验性功能的入口,点击后可以 上传图片、PDF、Word、PPT、TXT、EPUB 等文档,随后交由 Gemini AI(谷歌最新多模态大模型)进行深度解析与交互式问答。
  • 该功能属于 AI 增强搜索(AI‑augmented search)的一环,旨在让用户直接在搜索页面对非结构化内容进行检索、摘要、翻译、信息抽取等操作,而无需先手动打开对应文件或使用其他工具。

2. 使用流程

步骤 操作说明 关键要点
① 打开搜索页面 在 Chrome 新标签页或普通搜索框中打开谷歌搜索。 “+” 按钮位于搜索栏下方的 回形针图标 旁边,形似加号。
② 点击 “+” 弹出文件选择框,可直接 拖拽 或 浏览本地 选择文件。 支持的文件类型包括 PDF、DOCX、PPTX、TXT、EPUB 等常见文档,以及 图片(JPG/PNG)‍。
③ 上传并确认 文件上传完成后,页面会显示 “询问有关此文件的任何信息”。 此时系统已将文件内容转化为 Gemini 可读取的多模态输入。
④ 提出问题 在同一输入框中输入自然语言问题,例如 “这份报告的核心结论是什么?”、“文档中出现的关键指标有哪些?” Gemini 会 解析文档结构、提取关键信息 并返回文字答案,必要时还会在答案上方展示对应的文档片段或表格。
⑤ 继续对话 可基于上一次的答案继续追问,例如 “请把这些指标按时间顺序列出”,实现 多轮上下文对话 Gemini 会保持对已上传文件的上下文记忆,提升交互连贯性。

3. Gemini AI 能力亮点

能力 示例 说明
内容摘要 “请给我这篇论文的 3‑句概括”。 自动提炼长文档的核心要点。
信息抽取 “列出所有出现的产品型号和对应规格”。 结构化提取表格或列表信息。
翻译 & 多语言 “把这份合同翻译成英文”。 支持多语言互译,兼容搜索已覆盖的 160+ 语言。
图像识别 “这张图片里是什么品牌的手机?” 对上传的图片进行对象识别、文字 OCR 等。
上下文问答 “文档中提到的预算是多少?与去年相比变化多少?” 多轮对话保持对同一文件的上下文。
与 Google 生态联动 “把文档中的表格导入 Google Sheet”。 Gemini 可直接调用 Google Drive、Docs、Sheets 等服务进行后续处理(实验阶段)。

4. 隐私与数据安全

  • 本地处理:上传的文件在传输过程中采用 TLS 加密,并在服务器端进行临时解析,随后在 短时间内删除,不用于模型训练
  • 用户可控:在设置中可关闭该功能或手动删除已上传的文件记录。
  • 实验性质:目前仅对 部分地区和用户 开放,功能仍在内部测试,可能出现解析错误或不完整答案,谷歌已提示用户“结果仅供参考”。

5. 可用范围与 rollout

  • 测试阶段:截至 2025‑12‑16,功能仍标记为 实验性,仅在 Chrome 浏览器新标签页 的搜索栏下方展示,且仅对 移动端用户 先行开放,随后计划向更多国家和语言扩展。
  • 兼容设备:支持 Windows、macOS、Android、iOS 等平台的 Chrome 浏览器;在其他浏览器中暂不可见。

6. 使用建议

  1. 文件大小:建议上传 ≤ 10 MB 的文档,以免超时或解析不完整。
  2. 结构化文档:PDF、DOCX、PPTX 等带有明确章节或表格的文件解析效果最佳。
  3. 多轮提问:利用上下文保持功能,先让 Gemini 给出摘要,再针对细节逐步追问,可获得更精准答案。
  4. 隐私敏感:避免上传包含个人隐私或商业机密的文件,尤其在公共网络环境下。

7. 小结

谷歌搜索的 “+” 按钮把 文件上传 与 Gemini 多模态 AI 直接结合,让用户在搜索页面即可对图片、文档等非文本内容进行 即时解析、问答和多语言处理。虽然仍处于实验阶段,但已经展示了搜索与生成式 AI 融合的全新交互方式,为日常信息检索、学习和工作流程提供了更高效的入口。未来随着功能的逐步开放和模型的迭代,预计会在 搜索、办公套件、教育等场景 中发挥更大作用。

来源:www.aiug.cn
声明:文章均为AI生成,请谨慎辨别信息的真伪和可靠性!