微信可以文生图了,能和GPT-4o、豆包掰掰手腕吗?
昨天下午,腾讯元宝宣布支持文生图了,可以使用混元模型T1和DeepSeek R1模型进行图片生成。
作为今年投入了大量资金宣传的大厂,腾讯元宝的确在年初的Deepseek热潮中获得了很多的关注。
再加上4月16日,腾讯在微信上线了元宝对话机器人,将其深度融入微信生态,可以看到腾讯对于AI的布局也加快了步伐。
元宝的新功能在全端上线,那就意味着:你可以在微信对话框和好友元宝对话,让它直接生成图片。
这比其他AI生图工具省去了至少一步切换工具的步骤,的确非常方便,接下来我们就试试它的生图效果怎么样吧。
生图效果对比(元宝/GPT-4o/豆包)
大家可以先在微信搜索“元宝”添加好友,然后跟它对话。
我本来准备先用移动端来试试,让它介绍一下新的生图功能,但它的回复有点让人绷不住,看来手机端针对新模型的回答还没有优化好啊😂……
那我们来试试网页端的效果:
网页端看来是做好了回复的优化,那我们直接上提示词开始生图吧!
之前收藏了一个AI生图的提示词整理合集,免费使用,大家有兴趣的可以在(https://github.com/jamez-bondos/awesome-gpt4o-images?tab=readme-ov-file)里查看,目前已经整理了快一百套提示词模版了:
那么我们先从较为简单的场景开始吧,提示词:
画一位抬头望向天空的少年,天空中有鲸鱼游向天际线,童年漫画风格,3:4
可以看到,元宝会先用Deepseek来优化提示词,然后根据新的提示词再来生成图片。
生成的图片整体感觉还挺清新!颜色搭配也挺不错的!但人物形象感觉年龄稍大了一点,“童年感”没有那么强。
来对比看看GPT-4o和豆包的效果(左边是GPT-4o,右边是豆包,后面的照片位置同样按照这样排列):
两个模型都使用的童年人物形象,整体也都比较清新。GPT-4o感觉加了“滤镜”,有一种很梦幻的感觉;豆包则更朴实,整体较为干净和清爽。
下面我们稍微上点强度,试一组生成3D图像的提示词:
生成图片:将【🍓】变成变成一根奶油雪糕,奶油在雪糕顶上呈曲线流动状看起来美味可口,45度悬浮在空中,q版 3d 可爱风格,一致色系的纯色背景
看来这种3D图像对元宝还是有点难度,生成图片的精细度和质量就差了一些了,来看看GPT-4o和豆包的效果:
GPT-4o的效果还是很让人惊艳,甚至让人突然有了吃冰淇淋的食欲;豆包的生成效果也不错,多了一双眼睛相当的可爱,但在精细度方面稍差一点。
下面我们来尝试一张海报设计的任务,提示词:
地点是"英国伦敦",生成一张夏季的彩色矢量艺术海报,顶部有大的"LONDON"标题,下方有较小的"UNITED KINGDOM"标题
在海报设计这方面,元宝的颜色搭配还是可圈可点的,但是文字的准确度上面就差了一些了,可以看到生成的四张图片里文字都不完全正确或完整。
来看看GPT-4o和豆包的效果:
这一次没有限制尺寸大小,所以不同模型生成图片的尺寸不太一样,不过GPT-4o和豆包的效果都相当不错诶!文字的准确度、颜色搭配、海报里各个建筑元素的组合都很棒。
单纯从第一眼的感觉来说,我更喜欢豆包所生成的这张海报,能更让我感觉到伦敦这座城市的活力和艺术感。
接下来,我们就再增加一些难度吧,让AI帮我们生成一个“乐高城市景观”,提示词比较长:
创建一幅高度精细且色彩鲜艳的乐高版上海外滩景象。前景呈现经典的外滩历史建筑群,用乐高砖块精致还原西式与新古典主义风格的建筑立面,包括钟楼、穹顶、柱廊等细节。乐高小人们正在沿江漫步、拍照、观光,街道两旁停靠着经典样式的乐高汽车。背景是壮观的黄浦江,以蓝色半透明乐高砖拼接,江面上有乐高渡轮和游览船。对岸的浦东陆家嘴高楼林立,包括东方明珠塔、上海中心、金茂大厦和环球金融中心,这些超现代乐高摩天大楼色彩丰富、造型逼真。天空为乐高明亮蓝色,点缀少量白色乐高积木云朵,整体呈现充满活力与现代感的视觉效果。
元宝生成的图片依旧有点单调,对街景的展示只有一块很小的角落,并没有呈现出提示词里所要求的“城市的活力与现代感”。
来看看GPT-4o和豆包的效果:
GPT-4o和豆包在这一次生图中确实是吊打元宝了!不管是场景的丰富度还是整体的颜色搭配,两个都做得不错。而且豆包在这一轮生成图片的内容丰富度是最多的,同时颜色的搭配也相当有活力。
豆包生图的右上方还有一个“生成视频”的按钮,我试了一下,感觉效果也还不错:
能在一座乐高的城市里,让人物和汽车都动起来,这真的是喜欢拼乐高的人会想象很多次的场景!
最后,我们来测试一套有趣的提示词:
生成一张照片:捕捉了白天的场景,天空中散落的云彩组成了飞龙的形状,位于长城的上方。
整体的感觉还不错,但龙的形象有点太突出,反而不太真实了。来看看GPT-4o和豆包的效果:
GPT给人感觉加了一点滤镜,豆包除了龙的形象也比较突出外,整体的感觉还是比较真实的,就像是随手拍的一张图片一样。
元宝与其他模型的差距在哪?
经过这几轮生图的对比,可以明显发现,目前豆包的文生图功能与GPT-4o和豆包相比还有一些差距,我们可以对最后那次生图进行一个更细节的对比。
元宝所塑造的龙的形象很庞大,反而拉开了与云朵的融合;而且对长城的两个城墙的塑造也不准确,多了堡头。
GPT-4o则比较好地融合了龙的形象与云彩,对长城的还原度也很高,远处也有长城的形象,同时画面的精细度也是最高的。不过中国龙的脚应该是4个,可能因为GPT来自美国,它居然只画了2只脚……
豆包如果能将龙的形象与云朵进入更有机的融合,这张图片就更真实了。
我还把这三张图片拿给了GPT-o3,让它通过普通人、摄像师、AI模型分析师三个视角来分析,下面是结果:
作为目前最强的推理模型,GPT-o3在分析总结上确实很有自己的一套,观点都分析得很到位。不过也有些地方都在吹捧自家GPT-4o,所以也有夹带私货的嫌疑……
写在最后
通过以上的对比,相信大家已经有一个大致的判断了,我也整理了一个表格可以让大家更直观地感受三个模型的差异:
元宝和豆包的生图效果,确实不如 GPT-4o。但它们胜在免费、可用、触手可及——这一点,就足以俘获大多数人的芳心。
我们以为差的是细节,是prompt理解,是图像质量。但GPT-4o真正领先的,是它对语气、节奏、期待的把握。它不只是“理解语言”,而是知道你想让它理解什么。
所以,技术从来不只是“差距”。它是我们认识差距的开始。在这一场模型追逐战中,国产模型还有更多的故事可以讲。
别急,加油——文明总是在落后者的不甘中继续书写。
以下是本期提示词整理:
1.画一位抬头望向天空的少年,天空中有鲸鱼游向天际线,童年漫画风格,3:4
2.生成图片:将【🍓】变成变成一根奶油雪糕,奶油在雪糕顶上呈曲线流动状看起来美味可口,45度悬浮在空中,q版 3d 可爱风格,一致色系的纯色背景
3.地点是"英国伦敦",生成一张夏季的彩色矢量艺术海报,顶部有大的"LONDON"标题,下方有较小的"UNITED KINGDOM"标题
4.创建一幅高度精细且色彩鲜艳的乐高版上海外滩景象。前景呈现经典的外滩历史建筑群,用乐高砖块精致还原西式与新古典主义风格的建筑立面,包括钟楼、穹顶、柱廊等细节。乐高小人们正在沿江漫步、拍照、观光,街道两旁停靠着经典样式的乐高汽车。背景是壮观的黄浦江,以蓝色半透明乐高砖拼接,江面上有乐高渡轮和游览船。对岸的浦东陆家嘴高楼林立,包括东方明珠塔、上海中心、金茂大厦和环球金融中心,这些超现代乐高摩天大楼色彩丰富、造型逼真。天空为乐高明亮蓝色,点缀少量白色乐高积木云朵,整体呈现充满活力与现代感的视觉效果。
5.生成一张照片:捕捉了白天的场景,天空中散落的云彩组成了飞龙的形状,位于长城的上方。
关注ChooseAI,和我们一起探索AI时代!
发表评论:
◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。