什么是Humanity's Last Exam

AI解读 6小时前 硕雀
4 0

Humanity's Last Exam”(简称HLE)是一个由非营利组织人工智能安全中心(CAIS)和数据公司Scale AI联合推出的多模态基准测试,旨在评估人工智能(AI)系统在复杂跨学科问题上的专家级推理能力。该测试旨在成为“同类中具有广泛学科覆盖范围的终极封闭式学术基准”。

HLE的核心特点包括:

  1. 多模态与多学科覆盖:HLE包含3000多个问题,涵盖100多个学科,涵盖数学、人文、自然科学等多个领域。部分问题需要同时理解文本和图像信息,其余为选择题或精确匹配题。
  2. 高难度与挑战性:HLE的问题由全球近1000名专家(来自50多个国家或地区的500多个机构)共同开发,确保问题的前沿性和专业性。问题设计旨在测试AI在“类人智能”方面的推理能力,且当前最先进的AI模型在HLE上的准确率普遍低于10%。
  3. 严格的评估与质量控制:HLE的开发过程包括多轮专家评审和AI模型验证,以确保问题的挑战性和质量。评估结果表明,当前AI模型在HLE上的表现仍远低于人类专家水平。
  4. 全球合作与开放性:HLE的开发是全球性的合作项目,鼓励全球专家和研究人员参与问题提交和评审。该平台还提供奖金激励机制,以吸引高质量的问题提交。

HLE的推出标志着AI评估基准测试的一个重要里程碑,旨在推动AI技术的发展,并为AI治理提供重要的参考依据

来源:www.aiug.cn
声明:文章均为AI生成,请谨慎辨别信息的真伪和可靠性!