ChineseWord 是面向 文本渲染(text‑to‑image)模型 的中文字符级评测基准,旨在衡量模型在生成图像时对中文文字的准确性与可读性。它最早随 Qwen‑Image 等大模型的发布而被公开,已成为评估中文图像生成系统中文本渲染能力的标准之一。
1. 设计初衷与定位
- 解决痛点:在跨模态生成任务中,中文字符的形状、笔画顺序和排版规则比英文更为复杂,传统的图像生成评测(如 ImageNet、COCO)难以捕捉文字渲染的细粒度错误。ChineseWord 通过单字符生成任务,专门检测模型对中文字符的呈现质量。
- 适用范围:所有需要在图像中嵌入中文文字的生成模型,包括海报、UI 界面、宣传材料、文档渲染等场景。
2. 数据集构成
- 字符集合:依据《通用规范汉字表》划分为三层难度
- Level‑1:常用 3500 个字符
- Level‑2:次常用 3000 个字符
- Level‑3:生僻 1605 个字符
- Prompt 设计:为每个字符准备若干模板(如 “生成一张只包含字符‘爱’的图片”,或 “在白底上写出‘北京’”),确保模型在不同指令下均能正确渲染。
3. 评测指标
| 指标 | 含义 |
|---|---|
| Word Accuracy | 通过 OCR 或人工标注判断生成图像中字符是否完整、无缺笔画,统计正确率。 |
| NED(Normalized Edit Distance) | 计算生成字符图像与标准字符图像的编辑距离,衡量形状相似度。 |
| CLIPScore | 使用跨模态对齐模型(CLIP)评估文字与图像语义的一致性,兼顾可读性与视觉自然度。 |
这些指标相互补充,既能捕捉细节错误(笔画缺失),也能评估整体视觉质量。
4. 基准结果与影响
- 在 Qwen‑Image 的技术报告中,ChineseWord 的实验表明该模型在 三层字符难度 上均取得最高的 Word Accuracy,显著领先其他同类模型。
- 同时,多个媒体和技术博客也对该基准进行了报道,指出它是衡量中文文本渲染能力的关键指标之一,并在 LongText‑Bench、TextCraft 等其他文本渲染基准中被同步使用。
5. 使用方式
- 准备 Prompt:依据基准提供的模板,向模型发送生成指令。
- 生成图像:获取模型输出的图片。
- 自动评测:使用官方提供的评测脚本(支持 OCR、NED、CLIPScore 计算),对每个字符的渲染结果进行打分。
- 对比排行榜:将得分提交至基准公开排行榜,查看与其他模型的相对表现。
6. 关键链接
- Qwen‑Image 技术报告(含 ChineseWord 章节): https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen-Image/Qwen_Image.pdf
- 新浪财经报道(提及 ChineseWord 基准): https://finance.sina.com.cn/stock/t/2025-08-05/doc-infiwtca9545915.shtml
- Bilibili 技术博客(基准概述): https://www.bilibili.com/read/cv42586288
- 火山引擎开发者文章(模型与基准解读): https://developer.volcengine.com/articles/7535836657020256294
7. 小结
ChineseWord 通过系统化的字符集合、细粒度的 Prompt 设计以及多维度评测指标,为中文文本渲染提供了 可量化、可复现 的评价标准。它已经成为评估图像生成模型在中文场景下表现的重要参考,帮助研发者发现文字渲染的薄弱环节并推动模型改进。
声明:文章均为AI生成,请谨慎辨别信息的真伪和可靠性!