什么是伯克利函数调用排行榜（BFCL）

AI解读 5个月前硕雀

85 0 0

伯克利函数调用排行榜（BFCL）是一个用于评估大型语言模型（LLMs）在函数调用方面能力的基准测试平台。它由加州大学伯克利分校的研究团队开发，旨在全面评估LLMs在各种现实世界场景中调用外部函数、API或用户定义工具的能力。BFCL的引入标志着对大型语言模型进行函数调用能力评估和基准测试的重大进步，填补了此前缺乏标准基准的空白。

BFCL的核心目标与特点

BFCL的核心目标是评估LLMs在函数调用任务中的表现，涵盖多种编程语言和应用场景。它不仅关注模型是否能够正确调用函数，还关注其在复杂任务中的多轮交互、记忆管理、动态决策和长期推理能力。BFCL通过引入新颖的抽象语法树（AST）评估方法，实现了可扩展且确定性的验证，从而克服了传统方法需要执行实际函数的挑战。

BFCL的评估框架包括四个主要类别：单轮、众包、多轮和代理数据集。这些类别分别对应不同的任务复杂度和交互模式。例如，单轮数据集用于评估模型在单个函数调用任务中的表现，而多轮数据集则用于评估模型在多轮对话中处理复杂任务的能力。此外，BFCL还引入了社区贡献的真实世界用户查询和函数，使其更准确地反映实际复杂性和用例。

BFCL的版本演进

BFCL自2022年底以来经历了多次更新，特别是最新的BFCL V3版本，提供了更精细化的评估机制。BFCL V1引入了AST作为评估指标，BFCL V2引入了企业级和开源贡献函数，而BFCL V3则引入了多轮交互，允许模型与用户进行来回互动，处理更复杂的任务。BFCL V3还首次执行API状态验证作为真实情况验证，而不仅仅是通过AST和可能的答案列表进行参数匹配。

BFCL的评估方法

BFCL采用多种评估方法来评估每个数据集类别。单轮类别使用AST子字符串匹配和执行响应匹配，而众包类别仅使用AST匹配。多轮类别结合了基于状态和基于响应的检查，而代理类别则使用严格的精确匹配标准。此外，BFCL还引入了函数相关性检测，以评估模型在提供的函数不适合回答用户问题时的反应。

BFCL的应用与影响

BFCL已被广泛应用于多个研究团队和公司，成为评估函数调用能力的行业标准。它不仅为研究人员和公司提供了明确的目标，以开发更强大、更值得信赖的AI助手，还为在医疗保健、金融和教育等各个领域部署更强大、更适应性强且符合道德规范的LLMs打下了基础。BFCL的在线排行榜（https://gorilla.cs.berkeley.edu/leaderboard.html ）允许用户实时查看模型的性能表现，观察领域的实时改进。

BFCL的贡献者

BFCL的开发涉及多位研究人员，包括Shishir G. Patil、Huanzhi Mao、Fanjia Yan、Charlie Cheng-Jie Ji、Vishnu Suresh、Ion Stoica和Joseph E. Gonzalez。这些研究人员来自加州大学伯克利分校，他们在函数调用评估领域做出了重要贡献，推动了BFCL的发展和完善。

BFCL的评估指标

BFCL的评估指标包括工具调用准确性、整体准确率、平均延迟、延迟标准差、95百分位延迟和Python Abstract Syntax Tree匹配分数。这些指标在任务的metrics对象下报告，其分数和值在scores对象中提供。此外，BFCL还引入了字符级负对数似然（Char-NLL）和困惑度（PPL）等指标，用于评估模型在生成结构化输出时的表现。

BFCL的未来展望

BFCL的未来展望包括进一步扩展数据集，增加更多编程语言和应用场景，以及引入更多的评估方法和指标。此外，BFCL还计划定期更新排行榜，以反映最新的模型性能和评估结果。通过这些努力，BFCL有望成为评估LLMs函数调用能力的权威基准，推动AI技术的进一步发展

BFCL基准测试平台伯克利函数调用排行榜

声明：文章均为AI生成，请谨慎辨别信息的真伪和可靠性！