微信可以文生图了，能和GPT-4o、豆包掰掰手腕吗？

chooseAI 3天前阅读数 0 #推荐

昨天下午，腾讯元宝宣布支持文生图了，可以使用混元模型T1和DeepSeek R1模型进行图片生成。

作为今年投入了大量资金宣传的大厂，腾讯元宝的确在年初的Deepseek热潮中获得了很多的关注。

再加上4月16日，腾讯在微信上线了元宝对话机器人，将其深度融入微信生态，可以看到腾讯对于AI的布局也加快了步伐。

元宝的新功能在全端上线，那就意味着：你可以在微信对话框和好友元宝对话，让它直接生成图片。

这比其他AI生图工具省去了至少一步切换工具的步骤，的确非常方便，接下来我们就试试它的生图效果怎么样吧。

生图效果对比（元宝/GPT-4o/豆包）

大家可以先在微信搜索“元宝”添加好友，然后跟它对话。

我本来准备先用移动端来试试，让它介绍一下新的生图功能，但它的回复有点让人绷不住，看来手机端针对新模型的回答还没有优化好啊😂……

那我们来试试网页端的效果：

网页端看来是做好了回复的优化，那我们直接上提示词开始生图吧！

之前收藏了一个AI生图的提示词整理合集，免费使用，大家有兴趣的可以在(https://github.com/jamez-bondos/awesome-gpt4o-images?tab=readme-ov-file）里查看，目前已经整理了快一百套提示词模版了：

那么我们先从较为简单的场景开始吧，提示词：

画一位抬头望向天空的少年，天空中有鲸鱼游向天际线，童年漫画风格，3:4

可以看到，元宝会先用Deepseek来优化提示词，然后根据新的提示词再来生成图片。

生成的图片整体感觉还挺清新！颜色搭配也挺不错的！但人物形象感觉年龄稍大了一点，“童年感”没有那么强。

来对比看看GPT-4o和豆包的效果（左边是GPT-4o，右边是豆包，后面的照片位置同样按照这样排列）：

两个模型都使用的童年人物形象，整体也都比较清新。GPT-4o感觉加了“滤镜”，有一种很梦幻的感觉；豆包则更朴实，整体较为干净和清爽。

下面我们稍微上点强度，试一组生成3D图像的提示词：

生成图片：将【🍓】变成变成一根奶油雪糕，奶油在雪糕顶上呈曲线流动状看起来美味可口，45度悬浮在空中，q版 3d 可爱风格，一致色系的纯色背景

看来这种3D图像对元宝还是有点难度，生成图片的精细度和质量就差了一些了，来看看GPT-4o和豆包的效果：

GPT-4o的效果还是很让人惊艳，甚至让人突然有了吃冰淇淋的食欲；豆包的生成效果也不错，多了一双眼睛相当的可爱，但在精细度方面稍差一点。

下面我们来尝试一张海报设计的任务，提示词：

地点是"英国伦敦"，生成一张夏季的彩色矢量艺术海报，顶部有大的"LONDON"标题，下方有较小的"UNITED KINGDOM"标题

在海报设计这方面，元宝的颜色搭配还是可圈可点的，但是文字的准确度上面就差了一些了，可以看到生成的四张图片里文字都不完全正确或完整。

来看看GPT-4o和豆包的效果：

这一次没有限制尺寸大小，所以不同模型生成图片的尺寸不太一样，不过GPT-4o和豆包的效果都相当不错诶！文字的准确度、颜色搭配、海报里各个建筑元素的组合都很棒。

单纯从第一眼的感觉来说，我更喜欢豆包所生成的这张海报，能更让我感觉到伦敦这座城市的活力和艺术感。

接下来，我们就再增加一些难度吧，让AI帮我们生成一个“乐高城市景观”，提示词比较长：

创建一幅高度精细且色彩鲜艳的乐高版上海外滩景象。前景呈现经典的外滩历史建筑群，用乐高砖块精致还原西式与新古典主义风格的建筑立面，包括钟楼、穹顶、柱廊等细节。乐高小人们正在沿江漫步、拍照、观光，街道两旁停靠着经典样式的乐高汽车。背景是壮观的黄浦江，以蓝色半透明乐高砖拼接，江面上有乐高渡轮和游览船。对岸的浦东陆家嘴高楼林立，包括东方明珠塔、上海中心、金茂大厦和环球金融中心，这些超现代乐高摩天大楼色彩丰富、造型逼真。天空为乐高明亮蓝色，点缀少量白色乐高积木云朵，整体呈现充满活力与现代感的视觉效果。

元宝生成的图片依旧有点单调，对街景的展示只有一块很小的角落，并没有呈现出提示词里所要求的“城市的活力与现代感”。

来看看GPT-4o和豆包的效果：

GPT-4o和豆包在这一次生图中确实是吊打元宝了！不管是场景的丰富度还是整体的颜色搭配，两个都做得不错。而且豆包在这一轮生成图片的内容丰富度是最多的，同时颜色的搭配也相当有活力。

豆包生图的右上方还有一个“生成视频”的按钮，我试了一下，感觉效果也还不错：

能在一座乐高的城市里，让人物和汽车都动起来，这真的是喜欢拼乐高的人会想象很多次的场景！

最后，我们来测试一套有趣的提示词：

生成一张照片：捕捉了白天的场景，天空中散落的云彩组成了飞龙的形状，位于长城的上方。

整体的感觉还不错，但龙的形象有点太突出，反而不太真实了。来看看GPT-4o和豆包的效果：

GPT给人感觉加了一点滤镜，豆包除了龙的形象也比较突出外，整体的感觉还是比较真实的，就像是随手拍的一张图片一样。

元宝与其他模型的差距在哪？

经过这几轮生图的对比，可以明显发现，目前豆包的文生图功能与GPT-4o和豆包相比还有一些差距，我们可以对最后那次生图进行一个更细节的对比。

元宝所塑造的龙的形象很庞大，反而拉开了与云朵的融合；而且对长城的两个城墙的塑造也不准确，多了堡头。

GPT-4o则比较好地融合了龙的形象与云彩，对长城的还原度也很高，远处也有长城的形象，同时画面的精细度也是最高的。不过中国龙的脚应该是4个，可能因为GPT来自美国，它居然只画了2只脚……

豆包如果能将龙的形象与云朵进入更有机的融合，这张图片就更真实了。

我还把这三张图片拿给了GPT-o3，让它通过普通人、摄像师、AI模型分析师三个视角来分析，下面是结果：

作为目前最强的推理模型，GPT-o3在分析总结上确实很有自己的一套，观点都分析得很到位。不过也有些地方都在吹捧自家GPT-4o，所以也有夹带私货的嫌疑……

写在最后

通过以上的对比，相信大家已经有一个大致的判断了，我也整理了一个表格可以让大家更直观地感受三个模型的差异：

元宝和豆包的生图效果，确实不如 GPT-4o。但它们胜在免费、可用、触手可及——这一点，就足以俘获大多数人的芳心。

我们以为差的是细节，是prompt理解，是图像质量。但GPT-4o真正领先的，是它对语气、节奏、期待的把握。它不只是“理解语言”，而是知道你想让它理解什么。

所以，技术从来不只是“差距”。它是我们认识差距的开始。在这一场模型追逐战中，国产模型还有更多的故事可以讲。

别急，加油——文明总是在落后者的不甘中继续书写。

以下是本期提示词整理：

1.画一位抬头望向天空的少年，天空中有鲸鱼游向天际线，童年漫画风格，3:4

2.生成图片：将【🍓】变成变成一根奶油雪糕，奶油在雪糕顶上呈曲线流动状看起来美味可口，45度悬浮在空中，q版 3d 可爱风格，一致色系的纯色背景

3.地点是"英国伦敦"，生成一张夏季的彩色矢量艺术海报，顶部有大的"LONDON"标题，下方有较小的"UNITED KINGDOM"标题

4.创建一幅高度精细且色彩鲜艳的乐高版上海外滩景象。前景呈现经典的外滩历史建筑群，用乐高砖块精致还原西式与新古典主义风格的建筑立面，包括钟楼、穹顶、柱廊等细节。乐高小人们正在沿江漫步、拍照、观光，街道两旁停靠着经典样式的乐高汽车。背景是壮观的黄浦江，以蓝色半透明乐高砖拼接，江面上有乐高渡轮和游览船。对岸的浦东陆家嘴高楼林立，包括东方明珠塔、上海中心、金茂大厦和环球金融中心，这些超现代乐高摩天大楼色彩丰富、造型逼真。天空为乐高明亮蓝色，点缀少量白色乐高积木云朵，整体呈现充满活力与现代感的视觉效果。

5.生成一张照片：捕捉了白天的场景，天空中散落的云彩组成了飞龙的形状，位于长城的上方。

关注ChooseAI，和我们一起探索AI时代！

发表评论:取消回复

◎欢迎参与讨论，请在这里发表您的看法、交流您的观点。