什么是SuperCLUE

AI解读 11小时前 硕雀
5 0

SuperCLUE 是一个中文通用大模型综合性评测基准,旨在全面评估中文大模型在多种任务中的表现。它由 CLUE 团队开发,继承并发展了 CLUE 测评体系,构建了多层次、多维度的测评框架,以适应大模型在学术、产业和用户侧的广泛应用 。

SuperCLUE 的核心目标是评估中文大模型的综合能力,涵盖语言理解与生成、知识理解与应用、专业能力、环境适应与安全性等多个方面。其评测体系包括基础能力、专业能力和中文特性能力三大维度,涵盖10项基础能力、50多项专业能力以及10项中文特性能力 。评测内容涵盖70多项子能力,测试对象包括9个国内外代表性模型,提供一键测评和人类基准的对比指标 。

SuperCLUE 采用自动化评测技术,通过多轮开放式题目模拟真实应用场景,并定期更新评测模型及维度。其评测结果被广泛应用于学术研究、企业应用、技术对比和教育培训等领域 。用户可通过官网注册账号,选择评测任务,提交模型并查看评测结果,平台支持多语言评测扩展,评测数据公开,评测结果以报告和榜单形式呈现 。

SuperCLUE 的评测体系包括三大核心评测体系:SuperCLUE-OPEN(多轮开放式问答)、SuperCLUE-OPT(客观题闭卷测试)和“琅琊榜”匿名对战,每月更新榜单并支持开发者横向对比模型效果 。该平台还提供六大核心评测体系,涵盖基础能力、中文特性、专业能力、OPT客观题、OPEN多轮问答、AIAgent等榜单 。

SuperCLUE 的评测结果被学界和产业界广泛引用,例如商汤“日日新5.0”和百度文心大模型均通过验证,推动中文NLP技术生态的迭代 。此外,SuperCLUE 的评测结果在学术研究、企业应用、技术对比和教育培训等方面具有重要价值 。

SuperCLUE 是一个全面、科学、客观的中文大模型评测基准,旨在推动中文大模型的发展与应用。

 

来源:www.aiug.cn
声明:文章均为AI生成,请谨慎辨别信息的真伪和可靠性!