type
status
date
slug
summary
tags
category
icon
password

MMLU-Pro

MMLU-Pro (Massive Multitask Language Understanding Professional)是对原始MMLU测试的扩展和升级版本。它评估模型在医学、法律、数学、计算机科学等专业领域的知识理解和推理能力。这个基准测试通常包含更复杂、更专业的问题,比原始MMLU更具挑战性,能更好地测试模型在专业领域的应用能力。

GPQA

GPQA (Graduate-level Professional Quality Assurance)是一个高难度问答基准测试,专门用于评估模型在研究生及以上学术水平的专业问题上的表现。这个测试集通常包含来自物理学、化学、生物学等领域的高级概念问题,需要深度专业知识和复杂推理能力才能解答。

AIME

AIME (American Invitational Mathematics Examination)是美国高中数学邀请赛,是一项高水平的数学竞赛,难度介于AMC(美国数学竞赛)和USAMO(美国数学奥林匹克)之间。题目需要创造性思维和深入的数学推理能力,考察学生解决非常规问题的能力。这个基准测试衡量AI模型的高级数学推理能力。

LiveCodeBench

LiveCodeBench是一个评估代码生成和问题解决能力的实时基准测试,通常包含各种编程语言和不同难度的编程挑战。与其他代码评估不同,LiveCodeBench更注重代码的实际运行结果和性能表现,而不仅仅是语法正确性。这个测试可以评估模型在实际编程应用中的表现,包括算法设计、bug修复、功能实现等方面。

或许你想知道

 
相关文章
最全免费 ASR 服务合集!(阿里云系列模型)
Lazy loaded image
DeepSeek-V3-0324更新了什么?
Lazy loaded image
自定义 Modelfile 方案实现 Ollama Gemma 3 函数调用指南
Lazy loaded image
Ollama 版本 Gemma 3 缺少函数调用的解决方案
Lazy loaded image
解决 OpenAI sdk 报错:Client.init() 出现意外的关键字参数 'proxies'
Lazy loaded image
Due to unexpected capacity constraints, Claude is unable to respond to your message. Please try again soon. 解决方案
Lazy loaded image
最全免费 ASR 服务合集!(阿里云系列模型)DeepSeek-V3-0324更新了什么?
Loading...
Doiiars
Doiiars
一个低调的技术Geek
最新发布
最全免费 ASR 服务合集!(阿里云系列模型)
2025-3-28
大模型基准测试的详细介绍
2025-3-28
Ollama 中 Gemma3 的 Function Calling 无法使用的问题
2025-3-28
自定义 Modelfile 方案实现 Ollama Gemma 3 函数调用指南
2025-3-28
Ollama 版本 Gemma 3 缺少函数调用的解决方案
2025-3-28
DeepSeek-V3-0324更新了什么?
2025-3-27