谷歌搜索测试“+”按钮:允许用户上传图片文档，利用 Gemini AI 进行深度分析

AI资讯 3个月前硕雀

48 0 0

谷歌搜索测试版 “+” 按钮概览

1. 功能定位

“+” 按钮是谷歌搜索近期实验性功能的入口，点击后可以 上传图片、PDF、Word、PPT、TXT、EPUB 等文档，随后交由 Gemini AI（谷歌最新多模态大模型）进行深度解析与交互式问答。
该功能属于 AI 增强搜索（AI‑augmented search）的一环，旨在让用户直接在搜索页面对非结构化内容进行检索、摘要、翻译、信息抽取等操作，而无需先手动打开对应文件或使用其他工具。

2. 使用流程

步骤	操作说明	关键要点
① 打开搜索页面	在 Chrome 新标签页或普通搜索框中打开谷歌搜索。	“+” 按钮位于搜索栏下方的回形针图标旁边，形似加号。
② 点击 “+”‍	弹出文件选择框，可直接拖拽或浏览本地选择文件。	支持的文件类型包括 PDF、DOCX、PPTX、TXT、EPUB 等常见文档，以及图片（JPG/PNG）‍。
③ 上传并确认	文件上传完成后，页面会显示 “询问有关此文件的任何信息”。	此时系统已将文件内容转化为 Gemini 可读取的多模态输入。
④ 提出问题	在同一输入框中输入自然语言问题，例如 “这份报告的核心结论是什么？”、“文档中出现的关键指标有哪些？”	Gemini 会解析文档结构、提取关键信息并返回文字答案，必要时还会在答案上方展示对应的文档片段或表格。
⑤ 继续对话	可基于上一次的答案继续追问，例如 “请把这些指标按时间顺序列出”，实现多轮上下文对话。	Gemini 会保持对已上传文件的上下文记忆，提升交互连贯性。

3. Gemini AI 能力亮点

能力	示例	说明
内容摘要	“请给我这篇论文的 3‑句概括”。	自动提炼长文档的核心要点。
信息抽取	“列出所有出现的产品型号和对应规格”。	结构化提取表格或列表信息。
翻译 & 多语言	“把这份合同翻译成英文”。	支持多语言互译，兼容搜索已覆盖的 160+ 语言。
图像识别	“这张图片里是什么品牌的手机？”	对上传的图片进行对象识别、文字 OCR 等。
上下文问答	“文档中提到的预算是多少？与去年相比变化多少？”	多轮对话保持对同一文件的上下文。
与 Google 生态联动	“把文档中的表格导入 Google Sheet”。	Gemini 可直接调用 Google Drive、Docs、Sheets 等服务进行后续处理（实验阶段）。

4. 隐私与数据安全

本地处理：上传的文件在传输过程中采用 TLS 加密，并在服务器端进行临时解析，随后在 短时间内删除，不用于模型训练。
用户可控：在设置中可关闭该功能或手动删除已上传的文件记录。
实验性质：目前仅对 部分地区和用户 开放，功能仍在内部测试，可能出现解析错误或不完整答案，谷歌已提示用户“结果仅供参考”。

5. 可用范围与 rollout

测试阶段：截至 2025‑12‑16，功能仍标记为 实验性，仅在 Chrome 浏览器新标签页 的搜索栏下方展示，且仅对 移动端用户 先行开放，随后计划向更多国家和语言扩展。
兼容设备：支持 Windows、macOS、Android、iOS 等平台的 Chrome 浏览器；在其他浏览器中暂不可见。

6. 使用建议

文件大小：建议上传 ≤ 10 MB 的文档，以免超时或解析不完整。
结构化文档：PDF、DOCX、PPTX 等带有明确章节或表格的文件解析效果最佳。
多轮提问：利用上下文保持功能，先让 Gemini 给出摘要，再针对细节逐步追问，可获得更精准答案。
隐私敏感：避免上传包含个人隐私或商业机密的文件，尤其在公共网络环境下。

7. 小结

谷歌搜索的 “+” 按钮把 文件上传 与 Gemini 多模态 AI 直接结合，让用户在搜索页面即可对图片、文档等非文本内容进行 即时解析、问答和多语言处理。虽然仍处于实验阶段，但已经展示了搜索与生成式 AI 融合的全新交互方式，为日常信息检索、学习和工作流程提供了更高效的入口。未来随着功能的逐步开放和模型的迭代，预计会在 搜索、办公套件、教育等场景 中发挥更大作用。

声明：文章均为AI生成，请谨慎辨别信息的真伪和可靠性！