type
status
date
slug
summary
tags
category
icon
password
MMLU-Pro
MMLU-Pro (Massive Multitask Language Understanding Professional)是对原始MMLU测试的扩展和升级版本。它评估模型在医学、法律、数学、计算机科学等专业领域的知识理解和推理能力。这个基准测试通常包含更复杂、更专业的问题,比原始MMLU更具挑战性,能更好地测试模型在专业领域的应用能力。
GPQA
GPQA (Graduate-level Professional Quality Assurance)是一个高难度问答基准测试,专门用于评估模型在研究生及以上学术水平的专业问题上的表现。这个测试集通常包含来自物理学、化学、生物学等领域的高级概念问题,需要深度专业知识和复杂推理能力才能解答。
AIME
AIME (American Invitational Mathematics Examination)是美国高中数学邀请赛,是一项高水平的数学竞赛,难度介于AMC(美国数学竞赛)和USAMO(美国数学奥林匹克)之间。题目需要创造性思维和深入的数学推理能力,考察学生解决非常规问题的能力。这个基准测试衡量AI模型的高级数学推理能力。
LiveCodeBench
LiveCodeBench是一个评估代码生成和问题解决能力的实时基准测试,通常包含各种编程语言和不同难度的编程挑战。与其他代码评估不同,LiveCodeBench更注重代码的实际运行结果和性能表现,而不仅仅是语法正确性。这个测试可以评估模型在实际编程应用中的表现,包括算法设计、bug修复、功能实现等方面。
或许你想知道
- 作者:Doiiars
- 链接:http://doiiars.com/article/benchmark-details
- 声明:本文采用 CC BY-NC-SA 4.0 许可协议,转载请注明出处。
相关文章