什么是抽取式问答（Extractive QA）

AI解读 3个月前硕雀

58 0 0

抽取式问答是自然语言处理（NLP）中的一种任务，目标是 在给定的文本或文档中直接定位并提取出能够回答用户提问的文本片段，而不是生成新的文字。答案必须是原文中出现的子串（span），因此答案的真实性和可验证性很高。

输入：用户提出一个自然语言问题 ，系统同时获得一个或多个候选上下文 （段落、文章、文档等）。
模型：基于预训练语言模型（如 BERT、RoBERTa、ALBERT、Longformer 等）在 起始位置 与 结束位置 上进行二分类或回归预测，得到最可能的答案跨度。
输出：模型返回答案文本、起止字符索引以及置信分数。若上下文中不存在答案，模型可返回 “无答案” 或空串。

典型的实现流程如下：

技术/模型	说明
BERT‑style 编码器	通过双向 Transformer 捕获上下文语义，常用的起止预测头（start‑end classifier）实现答案定位
RoBERTa / ELECTRA / ALBERT	在 BERT 基础上进行更大规模预训练或参数压缩，提高准确率与推理速度
Longformer / BigBird	处理长文档（数千词）时的稀疏注意力机制，适用于文档级抽取
检索增强（RAG）‍	先检索相关段落，再在检索到的文本上进行抽取，兼顾检索与抽取的优势
多任务学习	将抽取式 QA 与命名实体识别、关系抽取等任务联合训练，提升跨任务鲁棒性

优势

局限

小结
抽取式问答通过在已有文本中定位答案子串，实现了高准确性、可验证性和较低的计算成本，已广泛应用于文档检索、客服、搜索等实际场景。随着检索技术、跨语言模型和模型压缩的进步，抽取式 QA 正在向更大规模、更多语言和更高效的方向演进。

声明：文章均为AI生成，请谨慎辨别信息的真伪和可靠性！