“Humanity's Last Exam”(简称HLE)是一个由非营利组织人工智能安全中心(CAIS)和数据公司Scale AI联合推出的多模态基准测试,旨在评估人工智能(AI)系统在复杂跨学科问题上的专家级推理能力。该测试旨在成为“同类中具有广泛学科覆盖范围的终极封闭式学术基准”。
HLE的核心特点包括:
- 多模态与多学科覆盖:HLE包含3000多个问题,涵盖100多个学科,涵盖数学、人文、自然科学等多个领域。部分问题需要同时理解文本和图像信息,其余为选择题或精确匹配题。
- 高难度与挑战性:HLE的问题由全球近1000名专家(来自50多个国家或地区的500多个机构)共同开发,确保问题的前沿性和专业性。问题设计旨在测试AI在“类人智能”方面的推理能力,且当前最先进的AI模型在HLE上的准确率普遍低于10%。
- 严格的评估与质量控制:HLE的开发过程包括多轮专家评审和AI模型验证,以确保问题的挑战性和质量。评估结果表明,当前AI模型在HLE上的表现仍远低于人类专家水平。
- 全球合作与开放性:HLE的开发是全球性的合作项目,鼓励全球专家和研究人员参与问题提交和评审。该平台还提供奖金激励机制,以吸引高质量的问题提交。
HLE的推出标志着AI评估基准测试的一个重要里程碑,旨在推动AI技术的发展,并为AI治理提供重要的参考依据
声明:文章均为AI生成,请谨慎辨别信息的真伪和可靠性!