最新AI大模型咨询与技术解读——来自DataLearnerAI

★ 【置顶】推荐一个国内可以按分钟计费的4090显卡租用公有云，一个小时24GB显存的4090只需要2.37元——仙宫云

大模型的发展速度很快，对于需要学习部署使用大模型的人来说，显卡是一个必不可少的资源。使用公有云租用显卡对于初学者和技术验证来说成本很划算。DataLearnerAI在此推荐一个国内的合法的按分钟计费的4090显卡公有云服务提供商仙宫云，可以按分钟租用24GB显存的4090显卡公有云实例，非常具有吸引力~

4090显卡/仙宫云/显卡公有云/显卡租赁

检索增强生成（RAG）

大模型检索增强生成是一种结合了大规模语言模型的自动生成能力和针对特定数据的检索机制，以提供更准确、信息丰富的输出内容的技术。

查看RAG合集

Long Context

大模型对长上下文的处理能力在于它们能够理解和维持较长篇幅的文本连贯性，有助于提升质量，以及对复杂问题和讨论的理解和回应质量。

LongContext合集

AI Agent

大模型的AI Agent是一种高级智能系统，能够理解复杂的指令和查询，并以人类般的方式生成响应、执行任务或提供决策支持。

AI Agent合集

大模型多模态评测基准MMMU介绍

大模型多模态评测基准MMMU（大规模多学科多模态理解和推理基准）是一项旨在评估多模态人工智能模型在复杂跨学科任务中综合能力的测试工具。

小木

MMMU/大模型多模态评测/大模型评测

SWE-Lancer：OpenAI发布的一个全新大模型评测基准，用来测试大模型解决真实世界软件工程的能力

短短两年间，AI技术的进步为软件工程带来了新的可能性。然而，这些模型在真实世界的软件工程任务中究竟能发挥多大的作用？它们能否通过完成实际的软件工程任务来赚取可观的收入？为了验证大模型解决真实任务的能力和水平，OpenAI发布了一个全新的大模型评测基准SWE-Lancer来评测大模型这方面的能力。

小木

SWE-Lancer/大模型评测/大模型评测基准

大模型评测基准AIME 2024介绍

2024年，美国数学邀请赛（AIME）成为评估大型语言模型（LLM）数学推理能力的重要基准。AIME是一项备受尊崇的考试，包含15道题，考试时间为3小时，旨在考察美国顶尖高中生在各类数学领域的复杂问题解决能力。

小木

187

SWE-Bench/大模型编程能力/大模型评测/大模型评测基准

MATH vs. MATH-500：数学推理评测基准的对比与解析

在评估大型语言模型（LLM）的数学推理能力时，MATH和MATH-500是两个备受关注的基准测试。尽管它们都旨在衡量模型的数学解题能力，但在发布者、发布目的、评测目标和对比结果等方面存在显著差异。

小木

123

MATH/MATH-500/大模型数学评测能力/大模型编程能力/大模型评测/大模型评测基准

SWE-bench Verified：提升 AI 模型在软件工程任务评估中的可靠性

在人工智能领域，随着大型语言模型（LLMs）在各类任务中的表现不断提升，评估这些模型的实际能力变得尤为重要。尤其是在软件工程领域，AI 模型是否能够准确地解决真实的编程问题，是衡量其真正应用潜力的关键。而在这方面，OpenAI 推出的 *SWE-bench Verified* 基准测试，旨在提供一个更加可靠和精确的评估工具，帮助开发者和研究者全面了解 AI 模型在处理软件工程任务时的能力。

小木

SWE-Bench/大模型编程能力/大模型评测/大模型评测基准

SWE-bench大模型评测基准介绍：测试大模型在真实软件工程任务中的能力

随着大语言模型（LLM）的快速发展，它们在自然语言处理（NLP）、代码生成等领域的表现已达到前所未有的高度。然而，现有的代码评测基准（如 HumanEval）通常侧重于**自包含的、较短的代码生成任务**，而未能充分模拟真实世界的软件开发环境。为弥补这一空白，研究者提出了一种全新的评测基准——**SWE-Bench**，旨在测试 LLM 在**真实软件工程问题**中的能力。

小木

大模型编程能力/大模型评测/大模型评测基准

MMLU Pro大模型评测基准介绍：MMLU的进化版本，可以更好区分大模型普遍知识和推理能力的通用评测标准

大模型已经对很多行业产生了巨大的影响，如何准确评测大模型的能力和效果，已经成为业界亟待解决的关键问题。生成式AI模型，如大型语言模型（LLMs），能够生成高质量的文本、代码、图像等内容，但其评测却相对很困难。而此前很多较早的评测也很难区分当前最优模型的能力。以MMLU评测为例，2023年3月份，GPT-4在MMLU获得了86.4分之后，将近2年后的2024年年底，业界最好的大模型在MMLU上得分也就90.5，提升十分有限。为此，滑铁卢大学、多伦多大学和卡耐基梅隆大学的研究人员一起提出了MMLU P

小木

629

MMLU/MMLUPro/大模型评测/评测基准

GPQA Diamond：评估专家级推理能力的问答基准

通用人工智能（AGI）的进步需要可靠的评估基准。GPQA (Grade-Level Problems in Question Answering) Diamond 基准旨在衡量模型在需要深度推理和领域专业知识问题上的能力。该基准由纽约大学、CohereAI 及 Anthropic 的研究人员联合发布，其相关论文可在 arXiv 上查阅 (https://arxiv.org/pdf/2311.12022 )。GPQA Diamond是GPQA系列中最高质量的评测数据，包含198条结果。

小木

420

GPQA/GPQADiamond/大模型评测/大模型评测基准/评测基准

大模型评测的新标杆：超高难度的“Humanity’s Last Exam”（HLE）介绍

近年来，大语言模型（LLM）的能力飞速提升，但评测基准的发展却显得滞后。以广泛使用的MMLU（大规模多任务语言理解）为例，GPT-4、Claude等前沿模型已能在其90%以上的问题上取得高分。这种“评测饱和”现象导致研究者难以精准衡量模型在尖端知识领域的真实能力。为此，Safety for AI和Scale AI的研究人员推出了Humanity’s Last Exam大模型评测基准。这是一个全新的评测基准，旨在成为大模型“闭卷学术评测的终极考验”。

小木

193

HLE/大模型评测/大模型评测基准/评测基准

Arena Hard：LM-SYS推出的更难更有区分度的大模型评测基准

评估日益发展的大型语言模型（LLM）是一个复杂的任务。传统的基准测试往往难以跟上技术的快速进步，容易过时且无法捕捉到现实应用中的细微差异。为此，LM-SYS研究人员提出了一个全新的大模型评测基准——Arena Hard。这个平常基准是基于Chatbot Arena发展而来，相比较常规的评测基准，它更难也更全面。

小木

122

ArenaHard/ChatbotArena/大模型评测/评测基准

DataLearnerAI-GPT：可以回答关于大模型评测结果的GPT

最近自定义GPTs非常火热，出现了大量的自定义GPT，可以完成各种各样的有趣的任务。DataLearnerAI目前也创建了一个DataLearnerAI-GPT，目前可以回答大模型在不同评测任务上的得分结果。这些回答是基于OpenLLMLeaderboard数据回答的。未来会考虑增加更多信息，包括DataLearner网站上所有的大模型博客和技术介绍。

小木

899

DataLearnerAI-GPT/OpenLLMLeaderboard/大模型评测

DataLearner大模型综合评测对比表！国产大模型与全球最强大模型大比拼：语义理解、数学推理同台竞技，究竟谁更厉害~

随着各种AI模型的快速发展，选择合适的模型成为了研究和开发的一大挑战。最近一段时间，国产模型不断涌现，让人应接不暇。尽管开源的繁荣提供了更多的选择，实际上也造成了选型的困难，尽管业界提供了很多评测基准，但是，**很多模型在公布的评测结果中对比的模型基准和选择的测试基准都很少，甚至只选择对自己有利的结果**。为了更加方便大家对比相关的结果，DataLearner上线了大模型评测综合排行对比表，给大家提供一个更加清晰的对比结果。我们主要关注的是国内开源大模型和一些全球主流模型的对比结果。

小木

10650

C-Eval/GSM8K/MMLU/大模型评测