最新AI大模型咨询与技术解读——来自DataLearnerAI

★ 【置顶】推荐一个国内可以按分钟计费的4090显卡租用公有云，一个小时24GB显存的4090只需要2.37元——仙宫云

大模型的发展速度很快，对于需要学习部署使用大模型的人来说，显卡是一个必不可少的资源。使用公有云租用显卡对于初学者和技术验证来说成本很划算。DataLearnerAI在此推荐一个国内的合法的按分钟计费的4090显卡公有云服务提供商仙宫云，可以按分钟租用24GB显存的4090显卡公有云实例，非常具有吸引力~

4090显卡/仙宫云/显卡公有云/显卡租赁

检索增强生成（RAG）

大模型检索增强生成是一种结合了大规模语言模型的自动生成能力和针对特定数据的检索机制，以提供更准确、信息丰富的输出内容的技术。

查看RAG合集

Long Context

大模型对长上下文的处理能力在于它们能够理解和维持较长篇幅的文本连贯性，有助于提升质量，以及对复杂问题和讨论的理解和回应质量。

LongContext合集

AI Agent

大模型的AI Agent是一种高级智能系统，能够理解复杂的指令和查询，并以人类般的方式生成响应、执行任务或提供决策支持。

AI Agent合集

SWE-bench Verified：提升 AI 模型在软件工程任务评估中的可靠性

在人工智能领域，随着大型语言模型（LLMs）在各类任务中的表现不断提升，评估这些模型的实际能力变得尤为重要。尤其是在软件工程领域，AI 模型是否能够准确地解决真实的编程问题，是衡量其真正应用潜力的关键。而在这方面，OpenAI 推出的 *SWE-bench Verified* 基准测试，旨在提供一个更加可靠和精确的评估工具，帮助开发者和研究者全面了解 AI 模型在处理软件工程任务时的能力。

小木

103

#SWE-Bench##大模型编程能力##大模型评测##大模型评测基准#

SWE-bench大模型评测基准介绍：测试大模型在真实软件工程任务中的能力

随着大语言模型（LLM）的快速发展，它们在自然语言处理（NLP）、代码生成等领域的表现已达到前所未有的高度。然而，现有的代码评测基准（如 HumanEval）通常侧重于**自包含的、较短的代码生成任务**，而未能充分模拟真实世界的软件开发环境。为弥补这一空白，研究者提出了一种全新的评测基准——**SWE-Bench**，旨在测试 LLM 在**真实软件工程问题**中的能力。

小木

123

#大模型编程能力##大模型评测##大模型评测基准#

Artificial Analysis报告显示中国AI产业技术突破，已经与美国形成全球双极主导

全球知名AI基准测试机构Artificial Analysis最新发布的2025年第一季度报告揭示了一个引人注目的重要趋势：在大语言模型领域，全球正在形成中美双极主导的新格局。这份权威报告通过严谨的技术指标评测体系，首次以数据量化的方式确认了中国AI技术水平的跨越式发展，特别是在顶尖大模型的研发领域，中国已经实质性地跻身全球第一梯队。本文根据报告的主要内容，为大家总结他们的一些观点和数据。

小木

211

#中国大模型##大模型报告##美国大模型#

什么是推理大模型？DeepSeek R1推理大模型与DeepSeek V3模型的区别是什么？什么时候该使用推理大模型？

最近，随着DeepSeek R1的火爆，推理大模型也进入大众的视野。但是，相比较此前的GPT-4o，推理大模型的区别是什么？它适合什么样的任务？推理大模型是如何训练出来的？很多人并不了解。本文将详细解释推理大模型的核心内容。

小木

1450

#DeepSeekR1##OpenAIo1##推理大模型##纯强化学习大模型#

Google发布Gemini 2.0 Pro：MMLU Pro评测超过DeepSeek V3略低于DeepSeek R1，最高上下文长度支持200万tokens！开发者每天免费50次请求！

2025年2月5日，Google官方宣布Gemini 2.0 Pro版本上线，Gemini系列是谷歌最新一代大模型的品牌名称。Google最早在2024年12月中旬发布了Gemini 2.0系列的第一个模型Gemini 2.0 Flash，当时试用的人都普遍反应这个模型速度又快，结果友好，让Google摆脱了此前大模型很落后的印象。今天，Gemini 2.0 Pro上线，其能力更强。

小木

318

#Gemini##Gemini2.0##Gemini2.0Flash##Gemini2.0Pro#

MMLU Pro大模型评测基准介绍：MMLU的进化版本，可以更好区分大模型普遍知识和推理能力的通用评测标准

大模型已经对很多行业产生了巨大的影响，如何准确评测大模型的能力和效果，已经成为业界亟待解决的关键问题。生成式AI模型，如大型语言模型（LLMs），能够生成高质量的文本、代码、图像等内容，但其评测却相对很困难。而此前很多较早的评测也很难区分当前最优模型的能力。以MMLU评测为例，2023年3月份，GPT-4在MMLU获得了86.4分之后，将近2年后的2024年年底，业界最好的大模型在MMLU上得分也就90.5，提升十分有限。为此，滑铁卢大学、多伦多大学和卡耐基梅隆大学的研究人员一起提出了MMLU P

小木

754

#MMLU##MMLUPro##大模型评测##评测基准#

GPQA Diamond：评估专家级推理能力的问答基准

通用人工智能（AGI）的进步需要可靠的评估基准。GPQA (Grade-Level Problems in Question Answering) Diamond 基准旨在衡量模型在需要深度推理和领域专业知识问题上的能力。该基准由纽约大学、CohereAI 及 Anthropic 的研究人员联合发布，其相关论文可在 arXiv 上查阅 (https://arxiv.org/pdf/2311.12022 )。GPQA Diamond是GPQA系列中最高质量的评测数据，包含198条结果。

小木

608

#GPQA##GPQADiamond##大模型评测##大模型评测基准##评测基准#

大模型评测的新标杆：超高难度的“Humanity’s Last Exam”（HLE）介绍

近年来，大语言模型（LLM）的能力飞速提升，但评测基准的发展却显得滞后。以广泛使用的MMLU（大规模多任务语言理解）为例，GPT-4、Claude等前沿模型已能在其90%以上的问题上取得高分。这种“评测饱和”现象导致研究者难以精准衡量模型在尖端知识领域的真实能力。为此，Safety for AI和Scale AI的研究人员推出了Humanity’s Last Exam大模型评测基准。这是一个全新的评测基准，旨在成为大模型“闭卷学术评测的终极考验”。

小木

250

#HLE##大模型评测##大模型评测基准##评测基准#

20条关于DeepSeek的FAQ解释DeepSeek发布了什么样的模型？为什么大家如此关注这些发布的模型？他们真的绕过CUDA限制，打破了Nvidia的护城河了吗？

DeepSeekAI最近发布的几个模型，如DeepSeek V3、DeepSeek R1等引起了全球的广泛关注和讨论，特别是低成本训练出高质量模型之后，引起了很多的争论。引起了大家对OpenAI、英伟达等公司未来的质疑。然而，对于DeepSeekAI的模型为什么引起了如此广泛的关注，以及大家讨论的核心内容是什么，很多人并不是很清楚。本文基于著名的独立科技行业分析师Ben Thompson的总结，配合DataLearnerAI的分析，为大家总结DeepSeek引起的全球讨论。

小木

669

#DeepSeekAI##DeepSeekR1##DeepSeekV3##OpenAIo1##推理大模型#

OpenAI 未来计划曝光！Sam Altman 一句话暗示开源 GPT？~Sam在1月31日举办的AMA中问答记录总结

2025年1月31日，OpenAI在Reddit上举办了一场AMA（Ask Me Anything）活动，参与者包括Sam Altman、Mark Chen、Kevin Weil、Srinivas Narayanan、Michelle Pokrass和Hongyu Ren。他们分享了关于模型更新、未来功能、定价策略以及OpenAI对AI和AGI（通用人工智能）的宏观愿景。以下是此次问答的关键内容，并附有相关解释。这里最重要的信息可能是Sam透露认为当前OpenAI的闭源方式可能是历史错误的一方！

小木

152

#AMA##GPT更新##OpenAI#

Arena Hard：LM-SYS推出的更难更有区分度的大模型评测基准

评估日益发展的大型语言模型（LLM）是一个复杂的任务。传统的基准测试往往难以跟上技术的快速进步，容易过时且无法捕捉到现实应用中的细微差异。为此，LM-SYS研究人员提出了一个全新的大模型评测基准——Arena Hard。这个平常基准是基于Chatbot Arena发展而来，相比较常规的评测基准，它更难也更全面。

小木

163

#ArenaHard##ChatbotArena##大模型评测##评测基准#

OpenAI开始提供大模型（GPT系列模型）的提示缓存（Prompt Caching）：GPT-4o系列模型输入价格下降一半，访问速度提升80%

在大模型的应用中，处理复杂请求往往伴随着较高的延迟和成本，尤其是当请求内容存在大量重复部分时。这种“慢请求”的问题，特别是在长提示和高频交互的场景中，显得尤为突出。为了应对这一挑战，OpenAI 最近推出了 **提示缓存（Prompt Caching）** 功能。这项新技术通过缓存模型处理过的相同前缀部分，避免了重复计算，从而大幅减少了请求的响应时间和相关成本。特别是对于包含静态内容的长提示请求，提示缓存能够显著提高效率，降低运行开销。本文将详细介绍这项功能的工作原理、支持的模型，以及如何通过合理的提示结

小木

168

#OpenAI##PromptCaching##大模型推理加速##提示缓存#

微软发布第四代Phi系列大模型，140亿参数的Phi-4 14B模型数学推理方面评测结果超过GPT 4o，复杂推理能力大幅增强

Phi大语言模型是微软发布的一系列小规模大语言模型，其主要的目标是用较小规模参数的大语言模型达成较大参数规模的大语言模型的能力。就在今天，微软发布了Phi4-14B模型，参数规模仅140亿，但是数学推理能力大幅增强，在多个评测基准上甚至接近GPT-4o的能力。

小木

326

#Phi##Phi-4##Phi-4-14B##SLMs##小规模参数大语言模型#

Google发布第二代Gemini大语言模型，首个登场的Gemini 2 Flash Experimental，评测结果显示其能力已经超越上一代的Gemini 1.5 Pro！

Gemini是谷歌发布的一系列大模型的名称，是谷歌前期大模型Bard产品的替代品。从Gemini 1.0发布开始，每一次发布都获得了不错的反响。今天，Google发布了最新一代的Gemini 2.0模型，首个产品是其参数规模较小的Gemini 2.0 Flash，它的推理速度是Gemini 1.5 Pro的2倍，但是各项评测结果上的表现却超过了Gemini 1.5 Pro。该模型完全免费提供给大家使用。

小木

476

#Gemini2##Gemini2.0Flash##Gemini2Flash#

Meta开源Llama3.3-70B-Instruct模型：大模型后训练的佳作，性能超越4050亿参数规模的Llama3.1-405B大模型！

Llama系列大语言模型一直是开源领域的大模型标杆，Llama3系列大模型自从开源之后一直在不断更新。最早的Llama3模型于2024年4月开源，此后，几乎每个三个月都有一个新版本发布。就在昨天，Meta开源了最新的Llama3.3-70B模型，这是Llama3.3系列目前唯一开源的模型。尽管该模型的参数规模仅仅700亿，但是在多项评测基准上已经超过了4050亿参数规模的Llama3.1-405B，后者是Llama系列模型中参数规模最大的一个，也是业界开源模型中参数规模最高的模型之一。

小木

645

#Llama3.3##Llama3.3-70B-Instruct#