8B开源小钢炮!百度文生图模型ERNIE-Image,开源第一,国际评测基础通杀观点
近日,百度文心大模型正式推出并开源ERNIE‑Image文生图模型,以远低于行业的8B 参数规模,实现了多项国际基准测试SOTA(行业最优效果)。
近日,百度文心大模型正式推出并开源ERNIE‑Image文生图模型,以远低于行业的8B 参数规模,实现了多项国际基准测试SOTA(行业最优效果)。同时,ERNIE‑Image在24GB 显存的消费级显卡即可流畅运行,这意味着大幅降低了高精度文生图的技术与硬件门槛,为创作者与行业提供可触达的顶级图像生成能力。用户可在文心一言、百度千帆平台上测试使用。

在评测表现上,ERNIE-Image 在多项权威基准中取得领先成绩。其中,在 SuperCLUE 文生图榜单中,ERNIE-Image 综合排名位列国内第一、全球第四,仅次于 Nano Banana 2、Nano Banana Pro 和 GPT-Image-1.5,超过 Qwen-Image-2.0-Pro、Doubao-Seedream-5.0-Lite 等模型;同时,在图文一致性与汉字生成两项细分指标中均位列国内第一。

在国际公开评测中,ERNIE-Image 在 GenEval、OneIG(中英文)、LongText-Bench 等基准测试中综合表现领先同类开源模型,与 Nano Banana 等商业闭源模型处于同一梯队。其中,在复杂指令与文本渲染能力测试 LongText-Bench 中,ERNIE-Image 以0.9733的成绩位列全球开源模型第一。

据悉,ERNIE-Image被业内称为“开源小钢炮”,采用单流Diffusion Transformer(DiT)架构,仅约80亿参数规模,即可实现高水平图像生成能力。在复杂指令跟随、高密度文本渲染及结构化图像生成方面表现突出,支持中、英、日、韩等多语言生成,字形清晰、笔画精准,可稳定输出海报、漫画分镜及学术图表等高布局复杂度内容。模型风格覆盖写实摄影、动漫、电影感胶片、老照片等多种类型,在角色一致性与情绪表达方面表现优异,尤其在二次元漫画创作中,可实现单主体精准还原与多主体稳定生成,整体效果接近专业漫画稿水准。
目前,ERNIE-Image 已在 Hugging Face 开源模型权重及推理代码,遵循 Apache 2.0 协议,支持 ComfyUI 工作流,海外开发者测试后在社交媒体评价称:“对比ERNIE-Image和Nano banana2,效果让人震惊”、“接触过最好的开源(文生图)Turbo模型”。
官方消息显示,ERNIE‑Image已经与同道大叔、电影网、凤凰网、蜻蜓 FM、瑛麒动漫、吐司AI、RunningHub、Mulan AI等 30 余家机构与 20 位设计师合作,完成实测验证,生成效果稳定图片精度和质量颇高。目前已有超 50 家创作平台、社区和知名企业完成接入。
业内观点认为,ERNIE‑Image 以小参数实现高性能,打破高端文生图对专业算力的依赖,推动开源生成式AI走向普惠化,将为设计、动漫、传媒等行业带来高效低成本的创作升级,加速全民 AI 图像创作时代到来。
1.TMT观察网遵循行业规范,任何转载的稿件都会明确标注作者和来源;
2.TMT观察网的原创文章,请转载时务必注明文章作者和"来源:TMT观察网",不尊重原创的行为TMT观察网或将追究责任;
3.作者投稿可能会经TMT观察网编辑修改或补充。
