什么是Humanity's Last Exam

AI解读 8个月前硕雀

61 0 0

“Humanity's Last Exam”（简称HLE）是一个由非营利组织人工智能安全中心（CAIS）和数据公司Scale AI联合推出的多模态基准测试，旨在评估人工智能（AI）系统在复杂跨学科问题上的专家级推理能力。该测试旨在成为“同类中具有广泛学科覆盖范围的终极封闭式学术基准”。

HLE的核心特点包括：

多模态与多学科覆盖：HLE包含3000多个问题，涵盖100多个学科，涵盖数学、人文、自然科学等多个领域。部分问题需要同时理解文本和图像信息，其余为选择题或精确匹配题。
高难度与挑战性：HLE的问题由全球近1000名专家（来自50多个国家或地区的500多个机构）共同开发，确保问题的前沿性和专业性。问题设计旨在测试AI在“类人智能”方面的推理能力，且当前最先进的AI模型在HLE上的准确率普遍低于10%。
严格的评估与质量控制：HLE的开发过程包括多轮专家评审和AI模型验证，以确保问题的挑战性和质量。评估结果表明，当前AI模型在HLE上的表现仍远低于人类专家水平。
全球合作与开放性：HLE的开发是全球性的合作项目，鼓励全球专家和研究人员参与问题提交和评审。该平台还提供奖金激励机制，以吸引高质量的问题提交。

HLE的推出标志着AI评估基准测试的一个重要里程碑，旨在推动AI技术的发展，并为AI治理提供重要的参考依据

声明：文章均为AI生成，请谨慎辨别信息的真伪和可靠性！