在当今数字化时代,有多个文本生成图像的 AI 框架备受关注。
Kandinsky-3 是基于潜在扩散模型的文本到图像(T21)生成框架,支持高质量和逼真度的图像合成。
字节的 CLIP-GEN 模型也很有特色,它选择不用大量带文字的图像数据集来训练,而是直接用大型无文本图像数据集(如 ImageNet),先使用 CLIP 的图像编码器提取图像的 embedding,再将图像转换为 VQGAN 码本空间中的一系列离散标记,最后训练一个自回归 Transformer 来将图像标记从 Transformer 的语言 – 视觉统一表示中映射出对应图像。
还有 InstantStyle 框架,它能有效地分离风格与内容,保留风格进行文本到图像生成,利用 CLIP 的全局特征提取内容,通过在深度网络关键层注入风格块实现精确的风格控制,获得了开发者和研究人员的广泛关注。
这些文本生成图像的 AI 框架在视觉艺术领域发挥着重要作用,为创意工作者提供了更多的可能性和自由。https://tuingai.com/
© 版权声明
文章版权归作者所有,转载请带原文链接。
THE END
暂无评论内容