腾讯混元文生图大模型开源小显存版，一同开源打标模型

IT之家7月4日消息，腾讯混元文生图大模型（混元DiT）今日宣布开源小显存版本，仅需6G显存即可运行，对使用个人电脑本地部署的开发者比较友好。

此外，腾讯宣布混元文生图打标模型“混元Captioner”正式对外开源。该模型支持中英文双语，针对文生图场景进行专门优化，可帮助开发者快速制作文生图数据集。

腾讯混元DiT模型升级

腾讯混元DiT模型宣布了三大更新：推出小显存版本与Kohya训练界面，并升级至1.2版本，进一步降低使用门槛的同时提升图片质量。

基于DiT架构的文生图模型生成图片质感更佳，但对显存的要求却非常高，混元DiT因此推出小显存版本，最低6G显存即可运行优化推理框架，对使用个人电脑本地部署的开发者比较友好。

经过与HuggingFace合作，小显存版本、LoRA与ControlNet插件，都已经适配到Diffusers库中。开发者无需下载原始代码，仅用三行代码仅可调用，简化了使用成本。

同时，混元DiT宣布接入Kohya，让开发者可以低门槛地训练专属LoRA模型。

Kohya是一个开源的、轻量化模型微调训练服务，提供了图形化的用户界面，被广泛用于扩散模型类文生图模型的训练。

用户可以通过图形化界面，完成模型的全参精调及LoRA训练，无需涉及到代码层面的细节。训练好的模型符合Kohya生态架构，可以低成本与WebUI等推理界面结合，实现一整套“训练-生图”工作流。

混元Captioner

在提升模型易用性的同时，腾讯混元团队最新开源了打标模型——混元Captioner。

借助打标模型，开发者可以快速生成数据集。具体来说，腾讯混元文生图大模型开源小显存版，一同开源打标模型文生图开发者将原始图片集导入混元Captioner，后者将生成标注；也可以导入图片与原始描述，利用混元Captioner过滤其中的无关信息，并完善和优化图片描述，以提高数据质量。

目前，业界对于图片描述文本的生成，主要使用通用多模态Captioner模型，存在描述过于简单或繁琐（与画面描述的无关信息过多）、缺少背景知识导致无法识别知名人物和地标等问题，并且许多模型并非中文原生，中文描述不够精准。

▲混元Captioner对图片描述进行结构化与准确度提升混元

Captioner模型号称针对文生图场景专门进行优化：

构建了结构化的图片描述体系；

在模型层面，通过注入人工标注、模型输出、公开数据等多种来源提升Caption描述的完整性；

注入知名文学作品形象、地标、食物、动物、中国元素与知识等背景知识。

▲Capiton模型的背景知识更好，能够识别宫保鸡丁

▲Captioner模型结构化图片描述体系

IT之家附腾讯混元开源文生图大模型相关链接：

免责声明：本网站部分内容由用户自行上传，若侵犯了您的权益，请联系我们处理，谢谢！联系QQ：2760375052