什么是GenAI‑Bench

AI解读 3小时前 硕雀
5 0

GenAI‑Bench 概述

GenAI‑Bench 是目前学术界和工业界用于评估生成式人工智能(Generative AI)模型的两类主流基准之一,分别聚焦 (1)文本‑到‑视觉生成能力 与 (2)大语言模型LLM)服务性能。下面分别介绍这两类基准的核心内容、设计理念以及主要特性。


1. 文本‑到‑视觉生成基准(Text‑to‑Visual Generation Benchmark)

目标与意义

  • 评估生成模型在 组合式(compositional)‍ 文本提示下的视觉生成能力,尤其是 高级推理、计数、比较、逻辑等 技能的表现。
  • 通过 大规模人工标注(超过 80 000 条人类评分)提供客观、细粒度的质量参考,帮助研究者衡量模型与人类偏好的对齐程度。

数据集与提示设计

  • 规模:约 1 600 条高质量提示,全部由专业设计师收集,覆盖从基础属性、关系到高级推理的多层次技能。
  • 技能标签:每条提示均标注所有涉及的技能(如属性、关系、计数、比较、逻辑),实现 细粒度技能分析,便于定位模型的薄弱环节。
  • 多模态覆盖:包括 图像生成图像编辑视频生成 三大任务,分别收集了 1 735、919、1 069 条人类投票数据。

评估方式

  • 人类评分:对每个模型生成的图像/视频进行 1‑5 分的对齐评分,形成 原始指标(如准确率、偏好一致性)。
  • 自动指标:提供 VQAScore 等自动评估指标的基准,以验证其与人类评分的相关性并推动自动评估技术发展。
  • Leaderboard:公开展示多模型(如 DALL‑E 3、Stable DiffusionMidjourney v6、Gen2 等)的评测结果,促进社区竞争与合作。

关键发现

  • 高级提示仍是挑战:即使是最先进的模型(如 DALL‑E 3),在 “高级” 组合提示上仍表现不佳,说明组合推理仍是瓶颈。
  • 视频模型落后于图像模型:视频生成在所有技能上均低于对应的图像模型,提示了进一步研究的方向。
  • 细粒度分析价值:通过技能标签可以明确模型在“计数”“比较”等具体能力上的差距,为模型改进提供针对性指导。

2. 大语言模型服务性能基准(LLM Token‑Level Performance Benchmark)

目标与意义

  • 为 LLM 推理服务系统 提供 令牌级(token‑level)‍ 的性能评估,帮助开发者了解模型在不同负载、硬件配置下的 吞吐量、延迟、错误率 等关键指标。

主要特性

  • CLI 与实时 UI:提供友好的命令行界面和实时仪表盘,支持实验进度监控、日志查看以及指标可视化。
  • 单请求与聚合指标
    • 单请求:TTFT(首次 token 到达时间)、端到端延迟、TPOT(输出 token 时间)、输入/输出 token 数、吞吐量等。
    • 聚合:平均吞吐量、总 token 吞吐、请求每分钟数(RPM)、错误率等。
  • 实验报告:自动生成包含 定价、原始指标 的 Excel 报告,并支持自定义图表配置。
  • 适用场景:性能调优、系统配置评估、持续监控等,帮助企业在生产环境中实现 统一、准确、易用 的评测流程。

3. 为什么 GenAI‑Bench 重要?

维度 文本‑到‑视觉基准 LLM 性能基准
评估对象 文本到图像/视频生成模型 大语言模型推理服务
核心指标 人类对齐评分、自动评估指标、技能细粒度分析 TTFT、端到端延迟、吞吐量、错误率等
数据规模 1 600 条高质量提示 + 80 000+ 人类评分 多种负载下的 token 级别测量
社区价值 推动组合推理能力提升、提供公开 leaderboard 为 LLM 部署提供可比对的性能基准,指导硬件/系统选型

通过这两套基准,研究者和工程师能够 系统化地量化模型的生成质量与运行效率,从而在模型研发、系统部署以及实际应用中做出更科学的决策。


小结

  • GenAI‑Bench(视觉)‍:聚焦组合式文本提示的图像/视频生成评估,提供 1 600 条专业提示、细粒度技能标签和大规模人类评分,是当前最具挑战性且细致的文本‑到‑视觉基准。
  • GenAI‑Bench(LLM 性能)‍:提供 token 级别的 LLM 推理性能测评工具,涵盖延迟、吞吐、错误率等关键指标,配备 CLI 与实时 UI,帮助用户在不同硬件环境下进行系统化评估。

这两类基准共同构成了生成式 AI 评测生态的重要支柱,为推动模型质量提升和系统可靠性提供了可靠的实验基础。

来源:www.aiug.cn
声明:文章均为AI生成,请谨慎辨别信息的真伪和可靠性!