人工智能与大模型最新资讯与技术博客

★ 【置顶】推荐一个国内可以按分钟计费的4090显卡租用公有云，一个小时24GB显存的4090只需要2.37元——仙宫云

大模型的发展速度很快，对于需要学习部署使用大模型的人来说，显卡是一个必不可少的资源。使用公有云租用显卡对于初学者和技术验证来说成本很划算。DataLearnerAI在此推荐一个国内的合法的按分钟计费的4090显卡公有云服务提供商仙宫云，可以按分钟租用24GB显存的4090显卡公有云实例，非常具有吸引力~

4090显卡/仙宫云/显卡公有云/显卡租赁

检索增强生成（RAG）

大模型检索增强生成是一种结合了大规模语言模型的自动生成能力和针对特定数据的检索机制，以提供更准确、信息丰富的输出内容的技术。

查看RAG合集

Long Context

大模型对长上下文的处理能力在于它们能够理解和维持较长篇幅的文本连贯性，有助于提升质量，以及对复杂问题和讨论的理解和回应质量。

LongContext合集

AI Agent

大模型的AI Agent是一种高级智能系统，能够理解复杂的指令和查询，并以人类般的方式生成响应、执行任务或提供决策支持。

AI Agent合集

GPQA Diamond：评估专家级推理能力的问答基准

通用人工智能（AGI）的进步需要可靠的评估基准。GPQA (Grade-Level Problems in Question Answering) Diamond 基准旨在衡量模型在需要深度推理和领域专业知识问题上的能力。该基准由纽约大学、CohereAI 及 Anthropic 的研究人员联合发布，其相关论文可在 arXiv 上查阅 (https://arxiv.org/pdf/2311.12022 )。GPQA Diamond是GPQA系列中最高质量的评测数据，包含198条结果。

2025/03/20 17:34:13

1881

GPQA/GPQADiamond/大模型评测/大模型评测基准/评测基准

MistralAI开源240亿参数的多模态大模型Mistral-Small-3.1-24B：评测结果与GPT-4o-mini与Gemma 3 27B有来有回，开源且免费商用，支持24种语言

欧洲大模型之光MistralAI开源了2个全新的多模态大模型，即Mistral-Small-3.1-24B基座版本和指令微调版本。这两个大模型均以Apache2.0协议开源，因此可以完全免费商用。而官方也给出了这个模型在多个评测集上的效果，高于GPT-4o-mini和Gemma 3 27B。因为其参数规模较小，推理速度可以达到每秒150个tokens，同时支持多种语言，是一个非常值得关注的小而美的多模态大模型。

2025/03/18 16:41:50

399

MistralAI/MistralSmall3.1/多模态大模型/开源大模型

GPQA: 可以防止使用谷歌作弊的研究生级别难度的大模型专业能力评测基准（A Graduate-Level Google-Proof Q&A Benchmark）

研究生级别的 **Google 防查找问答基准测试**（即Graduate-Level Google-Proof Q&A Benchmark，简称 GPQA）是大型语言模型（LLM）面临的最具挑战性的评估之一。GPQA 旨在推动人工智能能力的极限，提供一个严格的测试平台，不仅评估模型的事实记忆能力，还考察其在专业科学领域的深度推理和理解能力。本篇博文将客观介绍 GPQA，涵盖它的起源、目的、组成部分，以及领先的大型语言模型在这个高要求基准测试中的表现。

2025/03/18 15:05:24

575

GPQA/GPQADiamond/大模型评测/大模型评测基准

百度在周末发布了2个新一代文心一言大模型，分别是没有推理能力的ERNIE 4.5以及有推理能力的ERNIE X1，即日起可以免费使用

3月16日，百度宣布推出两款新一代文心大模型——ERNIE 4.5与ERNIE X1，并提前向公众免费开放其智能对话平台“文心一言”（ERNIE Bot）。官方宣称，这两款模型的能力均超过了GPT-4o，但是价格只有GPT-4o的1%，且是DeepSeek的一半。

2025/03/17 14:10:25

362

ERNIE4.5/ERNIEX1/推理大模型/文心一言/文心大模型

Google开源第三代Gemma-3系列模型：支持多模态、最多128K输入，其中Gemma 3-27B在大模型匿名竞技场得分超过了Qwen2.5-Max

Gemma系列大模型是Google开源的一系列轻量级的大模型。就在刚才（2025年3月12日），Google开源了第三代Gemma系列大模型，共包含4个不同参数规模版本，第三代的Gemma 3系列是多模态大模型，即使是最小的10亿参数规模的Gemma 3-1B也支持多模态输入。

2025/03/12 22:50:22

1173

Gemini/Gemma3/Gemma3-27B

腾讯发布了一个全新的大模型Hunyuan Turbo S：号称评测效果超过GTP-4o和DeepSeek V3等模型，但没有开源或者放开使用

Hunyuan大模型是腾讯训练的大模型品牌名，2022年4月份，某中文语言理解能力排行榜第一名就出现了Hunyuan模型，在2022年11月，Hunyuan大模型就有了1万亿参数的规模，即HunYuan-NLP 1T大模型（比ChatGPT还早发布）。但是最近2年，这个系列的模型几乎没有出现在公众视野上。而昨天（2025年3月10日），Hunyuan官方在X平台上宣布了旗下最新的Hunyuan Turbo S大模型，称其在多个评测基准上超越了GPT-4o的表现。

2025/03/11 22:51:48

302

HunyuanTurboS/混元大模型/腾讯大模型

大模型评测基准AIME 2024介绍

2024年，美国数学邀请赛（AIME）成为评估大型语言模型（LLM）数学推理能力的重要基准。AIME是一项备受尊崇的考试，包含15道题，考试时间为3小时，旨在考察美国顶尖高中生在各类数学领域的复杂问题解决能力。

2025/03/11 09:08:22

3161

SWE-Bench/大模型编程能力/大模型评测/大模型评测基准

ManusAI技术解析：这真的是Sonnet 3.7+29个工具的简单AI Agent吗？

就在今天，X平台上的一位博主发现可以通过指令让Manus返回它的系统情况，发现ManusAI是Claude Sonnet 3.7+29个工具组成的一个大模型应用系统，也让很多人认为这就是ManusAI的全部，那么这是真的吗？本文结合ManusAI的成员提供的信息为大家介绍。

2025/03/10 22:15:11

712

AIAgent/Manus/ManusAI/Multi-AgentSystem/多AIAgent

LiveCodeBench：全面的 LLM 代码评测基准基准

LiveCodeBench 由加州大学伯克利分校、麻省理工学院和康奈尔大学的研究人员开发，是一个先进的评测基准套件，专门用于严格评估大语言模型 (LLMs) 在代码处理方面的能力，并解决现有基准测试的局限性。通过引入实时更新的问题集和多维度评估方法，LiveCodeBench 确保对 LLM 进行公平、全面和稳健的评估。

2025/03/09 19:55:14

1893

LiveCodeBench/大模型编程评测/大模型评测/大模型评测基准/评测基准

重磅！阿里开源325亿参数规模的推理大模型QwQ-32B：性能接近DeepSeek R1满血版，参数更低，免费商用授权！

就在几个小时前，阿里巴巴开源了最新的一个推理大模型，QwQ-32B，该模型拥有类似o1、DeepSeek R1模型那样的推理能力，但是参数仅325亿，以Apache 2.0开源协议开源，这意味着大家可以完全免费商用。

2025/03/06 08:47:09

903

QwQ/QwQ-32B/推理大模型/通义千问

什么时候该使用推理大模型？OpenAI官方推出推理大模型和大语言模型的最佳使用指南

随着DeepSeek R1和OpenAI的o1、o3等推理大模型的发布，我们当前可使用的大模型种类也变多了。但是，推理大模型和普通大模型之间并不是二选一的关系，在不同的问题上二者各有优势。为了让大家更清晰理解推理大模型和普通大模型的应用场景。OpenAI官方推出了一个推理大模型最佳实践指南。描述了二者的对比。本文将总结这份推理大模型最佳实践指南。

2025/03/05 12:53:44

693

DeepSeekR1/OpenAIo1/推理大模型/推理大模型提示词

Anthropic的Claude 4即将发布前新功能曝光：带有Thinking模式，且可以看到推理过程

最近，一些未公开但即将发布的内容被曝出，显示出Anthropic正在为其AI模型（Claude）推出一项名为Thinking的新功能。这一功能将极大提升AI在推理和决策时的透明度，允许用户查看AI的思考过程，并提供更长时间的推理分析，帮助用户更好地理解和验证AI的决策逻辑。

2025/03/05 12:51:57

675

Anthropic/Claude4/推理大模型

智谱AI开源了一个可以带文字的图像的多模态大模型CogView4-6B：图片文本带有中英文混排，指定比例范围内的任意尺寸图像可生成，免费商用授权

智谱AI开源了一个60亿参数规模的文生图大模型CogView4-6B，支持生成的图像中加入文字，文字效果自然融入图像中，且该模型支持支持宽高范围512px至2048px内的任意尺寸图像（有限制，正文解释）。

2025/03/05 12:50:12

257

CogView/CogView4-6B/文本生成图像/文生图大模型

推荐一个国内可以按分钟计费的4090显卡租用公有云，一个小时24GB显存的4090只需要2.37元——仙宫云

CohereAI开源了2个Aya Vision多模态大模型：80亿和320亿两种规格多模态大模型，评测结果超越Qwen2.5 72B和Llama 3.2 90B，支持23种语言

Cohere For AI 推出了 Aya Vision 系列，这是一组包含 80 亿（8B）和 320 亿（32B）参数的视觉语言模型（VLMs）。这些模型针对多模态AI系统中的多语言性能挑战，支持23种语言。Aya Vision 基于 Aya Expanse 语言模型，并通过引入视觉语言理解扩展了其能力。该系列模型旨在提升同时需要文本和图像理解的任务性能。

2025/03/04 23:24:06

156

AyaVision/CohereAI/多模态大模型