DataLearner 标志DataLearnerAI
AI技术博客
大模型评测排行
大模型评测基准
AI大模型大全
AI资源仓库
AI工具导航

加载中...

DataLearner 标志DataLearner AI

专注大模型评测、数据资源与实践教学的知识平台,持续更新可落地的 AI 能力图谱。

产品

  • 评测榜单
  • 模型对比
  • 数据资源

资源

  • 部署教程
  • 原创内容
  • 工具导航

关于

  • 关于我们
  • 隐私政策
  • 数据收集方法
  • 联系我们

© 2026 DataLearner AI. DataLearner 持续整合行业数据与案例,为科研、企业与开发者提供可靠的大模型情报与实践指南。

隐私政策服务条款
  1. 首页/
  2. 博客/
  3. 标签:文本生成
标签

「文本生成」相关文章

汇总「文本生成」相关的原创 AI 技术文章与大模型实践笔记,持续更新。

标签:#文本生成
xAI发布Grok Imagine功能,一条文本命令即可生成图片和最长达15秒的视频,也可以基于现有照片生成视频,免费用户也可以使用~

xAI发布Grok Imagine功能,一条文本命令即可生成图片和最长达15秒的视频,也可以基于现有照片生成视频,免费用户也可以使用~

Grok Imagine 是一个由 xAI 开发的创新功能,集成到 Grok AI 聊天机器人中,旨在让用户能够从文本和视觉命令快速生成图像和视频。Grok Imagine最大的特点是能够生成长达 15 秒的视频,带有同步音频,使其成为 OpenAI 的 Sora 和 Google 的 Veo 3 等工具的直接竞争者。此外,它还包括一个“Spicy”模式,允许生成成人或显式内容,这一点引发了伦理和潜在误用的争议。

2025/08/08 22:07:141,255
#GrokImagine#图像生成#图像编辑
重磅!阿里开源媲美GPT-4o的图片生成和编辑大模型Qwen Image,中文渲染能力很强,还有精确的文字控制,免费开源!

重磅!阿里开源媲美GPT-4o的图片生成和编辑大模型Qwen Image,中文渲染能力很强,还有精确的文字控制,免费开源!

就在刚才,阿里开源了Qwen Image大模型,这是阿里千问团队开源的高质量图片生成和编辑的大模型。这份发布迅速在AI社区引起了广泛关注,其核心并非又一个单纯追求图像美学或真实感的模型,而是直指一个长期存在的行业痛点:在图像中进行复杂、精准、尤其是高保真的多语言文本渲染。

2025/08/05 08:23:39876
#QwenImage#图片编辑#文本生成图片
智谱AI开源了一个可以带文字的图像的多模态大模型CogView4-6B:图片文本带有中英文混排,指定比例范围内的任意尺寸图像可生成,免费商用授权

智谱AI开源了一个可以带文字的图像的多模态大模型CogView4-6B:图片文本带有中英文混排,指定比例范围内的任意尺寸图像可生成,免费商用授权

智谱AI开源了一个60亿参数规模的文生图大模型CogView4-6B,支持生成的图像中加入文字,文字效果自然融入图像中,且该模型支持支持宽高范围512px至2048px内的任意尺寸图像(有限制,正文解释)。

2025/03/05 12:50:12596
#CogView#CogView4-6B#文本生成图像
Meta上线了一个基于Emu文本生成图像大模型的图像生成系统Imagine:图像细节丰富、色彩鲜明、想象力很棒,而且免费使用!

Meta上线了一个基于Emu文本生成图像大模型的图像生成系统Imagine:图像细节丰富、色彩鲜明、想象力很棒,而且免费使用!

在2023年的9月26日,MetaAI发布了一个Emu大模型,这是一个文本生成图像大模型,基于28亿参数的U-Net进行预训练得到,然后使用几千张高质量图像进行质量微调(Quality-Tuning)来提高模型的效果。不过,Emu模型并没有开源。但是,上周,Meta官方发布了一个全新的独立的文本生成图像系统Imagine,可以免费创作图像,质量很高。

2023/12/10 22:37:24714
#Emu#Emu大模型#Imagine
Pika和HeyGen的开源替代品:上海人工智能实验室开源可以生成高质量最长61秒视频的LaVie文本生成视频大模型

Pika和HeyGen的开源替代品:上海人工智能实验室开源可以生成高质量最长61秒视频的LaVie文本生成视频大模型

最近,初创企业Pika引起了全球的目光。这家公司发布的Pika 1.0产品可以基于生成式AI技术来创建3D动画视频或者电影级别的视频。由于其逼真的效果,引起了很多人的关注。本文则介绍一个由上海人工智能实验室开源的文本生成视频大模型LaVie。这个模型可以根据文本生成高质量的视频内容。

2023/12/05 21:49:091,175
#LaVie#文本生成视频#视频大模型
可能比runway更好!StabilityAI最新开源文本生成视频大模型:Stable Video Diffusion,可以生成最多20帧的视频,但不可商用

可能比runway更好!StabilityAI最新开源文本生成视频大模型:Stable Video Diffusion,可以生成最多20帧的视频,但不可商用

在深度学习和计算机视觉的发展历程中,视频生成技术一直是一个极具挑战和创新的领域。而发布了一系列开源领域最强图像生成模型Stable Diffusion系列模型背后的企业StabilityAI最近又开源了一个的文本生成视频大模型Stable Video Diffusion模型,这个模型可以生成最多20帧的视频。测试效果,这个模型普通版本与runway差不多,20帧版本则超过了runway!

2023/11/25 08:23:521,589
#StabilityAI#StableVideoDiffusion#Text-to-Video
OpenAI最新的文本生成图像大模型DALL·E3发布!生成的图像不忽略每一个细节的文本!

OpenAI最新的文本生成图像大模型DALL·E3发布!生成的图像不忽略每一个细节的文本!

DALL·E 系列是由 OpenAI 开发的一系列基于大型语言模型的文本到图像生成系统。它们的核心目标是将文本描述转化为高度精确的图像。DALL·E2在2022年4月发布,但是一直没有公开使用,一年半后的2023年9月21日,OpenAI发布第三代DALL·E3,并承诺将与ChatGPT集成。

2023/09/21 09:07:481,572
#DALL·E#DALL·E3#OpenAI

专题合集

RAG(检索增强生成)Long Context 长上下文AI Agent 实践

今日推荐

重磅Llama3即将发布!目前已知有80亿和700亿参数两个版本,其中Llama3-8B-Instruct已经上架微软云服务市场!疑似GPT-4.5的定价截图泄露,但真假未知,不过GPT-4微调的功能已经推出,只能说非常贵!GPT-4-Turbo的128K长度上下文性能如何?超过73K Tokens的数据支持依然不太好!使用SpringMVC创建Web工程并使用SpringSecurity进行权限控制的详细配置方法LFDMM源码剖析(融入词向量的概率图模型)数学推理能力超过ChatGPT-3.5:微软与中科院研究人员合作最新的开源大模型WizardMath发布!开源模型第一,免费商用授权!开源界最新力作!230万篇arXiv的论文标题和摘要的所有embeddings向量数据集免费开放!EleutherAI、MetaAI、StabilityAI、伦敦大学等合作的最新关于大语言模型的11个应用方向和16个挑战总结:来自688篇参考文献与业界实践2022年欧洲增长速度最快的公司(上)Java爬虫入门简介(一) —— HttpClient请求

最热博客

1Dirichlet Distribution(狄利克雷分布)与Dirichlet Process(狄利克雷过程)2回归模型中的交互项简介(Interactions in Regression)3贝塔分布(Beta Distribution)简介及其应用4矩母函数简介(Moment-generating function)5普通最小二乘法(Ordinary Least Squares,OLS)的详细推导过程6使用R语言进行K-means聚类并分析结果7深度学习技巧之Early Stopping(早停法)8H5文件简介和使用9手把手教你本地部署清华大学的ChatGLM-6B模型——Windows+6GB显卡本地部署10Wishart分布简介