有一说一J9体育网,前几天就如故立冬了,眼瞅着又快到年底了刻下。 搁往年的情况,到了年底这才到各大厂商纷纷发力的时候,年关快要嘛,总得搞出点啥新东西,给全球涨涨眼界。 诚然说最近对于 AI 的新音讯不是许多,然则东谈主家这段时辰笃定也没闲着,这不,一个多月前,也便是 925 那天咱们才跟全球说了豆包的视频生成,这两天,豆包又又又上新了新功能。 简单来说,这回豆包撑持 “ 一句话编订修改图片 ” 了。 诚然文生图如故搞了两三年,但这回,我敢说真算是国产 AI 文生图里的新打破了。 可能不少差友
有一说一J9体育网,前几天就如故立冬了,眼瞅着又快到年底了刻下。
搁往年的情况,到了年底这才到各大厂商纷纷发力的时候,年关快要嘛,总得搞出点啥新东西,给全球涨涨眼界。
诚然说最近对于 AI 的新音讯不是许多,然则东谈主家这段时辰笃定也没闲着,这不,一个多月前,也便是 925 那天咱们才跟全球说了豆包的视频生成,这两天,豆包又又又上新了新功能。
简单来说,这回豆包撑持 “ 一句话编订修改图片 ” 了。
诚然文生图如故搞了两三年,但这回,我敢说真算是国产 AI 文生图里的新打破了。
可能不少差友还认为, AI 生图不是如故挺是非的了嘛,若何还不可修改图片?
骨子上,咱们这几年也测了不少文生图大模子了,撑持图片精确修改的还真莫得,刻下作念的最佳的真便是豆包。
就比如说 ChatGPT-4o ,你让他画个打篮球的东谈主还可以,然则你要思更动一下,把环境换成沙滩,不好酷好,整张图齐变了。
不啻 OpenAI 的不行,谷歌的 Gemini 也一样。
蓝本说让它把图中的鸡变成鳄鱼,斥逐不仅没变成,还把布景给全改了,两次的篮球也完全不一样。
拿 AI 我方生的图搞齐这样,更别说腹地上传的相片了。
就拿最简单的给图像换颜料来说,即使在豆包夙昔的版块里,这种效力也不睬思。
比如咱们径直把 925 行动里,给脖子哥拍的相片传上去,然后告诉豆包,你给我把脖子哥抱着的小白狗换成小黄。
斥逐便是,整张图齐变了,作风大变就算了,构图也不一样。
然则刻下,这回用上这个上新了的豆包,雷同的相片雷同的辅导词,你再望望:
滑动查看AI效力
诚然有少许点小污点,但要跟前边的一比,是不是上下立判!
不但保留了脖子哥的作为,热情,小狗的体式也跟上传的图差未几,说换成黄色就换黄色,少许不拖拉。
再来试试图像摒除,效力也可以。
Prompt: 帮我生成图片:摒除白色小狗
发现没,这个文生图变得智能了,它能识别出相片里的内容,你思修改啥他就只改啥,那里别离改那里, so eazy!
况且不仅能作念到识别,修改颜料,摒除物品这些基本功能,你思整点复杂的也一样可以。
比如更换图片的布景。
咱们把差评硬件部视频里,米罗的相片传上去,然后叫豆包把咱们的拍摄间布景改成上海陆家嘴。
Prompt: 帮我生成图片:布景换成陆家嘴
哎嘿!还真就换成了,纸张的折痕还齐少许没变。
你以致可以分得清布景里,哪个是 “ 开瓶器 ” 环球金融中心;哪个是 “ 打针器 ” 金茂大厦;哪个是 “ 打蛋器 ” 上海中心大厦,陆家嘴三件套安排的清皎结拜。不知谈的有益第一眼看去,还真以为咱们公司搬到浦东了。
除了这些实验中存在的场景,科幻作品中思象的东西,这回豆包也大略生成。
咱们让豆包把米罗改变成战锤 40K 作风,斥逐亦然十分的 amazing 啊,诚然换了个东谈主种,然则五官还算吞吐能看出米罗的影子,如若戴上面盔,真就跟星际战士一样了。
Prompt: 帮我生成图片:穿戴换成战锤40K装甲,手拿激光炮
更热切的是,诚然东谈主物的着装和作风变了,但图片前边的桌子,跟布景的墙壁、窗帘、挂画可齐是少许没动。
就这个效力,你要不跟别东谈主说,谁知谈这到底是 AI 生成照旧 PS ,一眼望去是真分不清。
不外,在东谈主物测试中咱们还发现,如果你拿AI 生成的图进行修改,效力比用相片还要强上不少。
你比如就说,咱们先生成一张屏幕前诸君彦祖的日系写照,然后告诉豆包,把彦祖的衬衣换换颜料。
Prompt: 帮我生成图片:穿戴颜料换成棕色
你瞅瞅,脸部的细节,头发的细节,以致背后墙砖上的纹理,远方的电线杆子,齐少许没动,说换装就换装,那叫一个干净利落。
天然了,用东谈主像演示照旧为了测试它在东谈主脸细节上的主办能力,毕竟东谈主脸这玩意,一但生成的不好,就会产生恐怖忻悦谷效应,一眼盯竟然事。
戴珍珠耳饰的青娥齐见过吧,寰球名画,咱们让豆包给你把东谈主脸换成猫脸版块,来望望它对跨物种的面部会通作念的咋样。
Prompt: 帮我生成图片:把东谈主脸换成猫
斥逐全体瞅下来,闪现照旧十分可以。不但保留了头饰、穿戴纹理的细节,小猫耳朵这块也处置的很好,没穿模,径直能拿去当微信头像用了。
除了相片东谈主像这些,物品啥的表面上会更容易,然则咱们还得测,譬如说汽车。
咱们把一张群众 CC 的相片传上去,让它给换成疾驰。
Prompt: 帮我生成图片:车头换成疾驰
斥逐也还行,前脸一套齐改成了疾驰 C260 ,照旧现金的,其他的像车身颜料,周围的环境,也齐没变。
但遇上了多东谈主物,复杂场景的情况下,豆包又会闪现成啥样呢?
就像刘华强买瓜这段,咱今天就把这个换成刘华强买炸鸡和棉花。
斥逐效力还怪好嘞,瓜估客穿戴上的图案齐一模一样,系数的西瓜齐改掉了,特贤达。
Prompt: 帮我生成图片:把西瓜换成棉花和炸鸡
还有一个重心是,如果同期给豆包不同的修改条款,它能不可沿途完成。
就比如,西纪行里的唐三藏,我思给改成战地版唐三葬,给的辅导一句话里有三个指示,同期要完成戴墨镜,拿机枪,换布景,三样任务。
滑动查看AI效力
Emmm ,斥逐照旧沿途齐完成了,效力也可以。墨镜一戴谁也不爱,身处战场手拿机枪,一干二净贫铀弹,一息三千六百转,杀生为护生,斩业非斩东谈主,主打一个物理超度。
轮廓来看的话,不啻相片、视频截图,包括在制作梗图热情包这一块,豆包齐大略手到拿来,即便细节上还能发现可以普及的场地,但话又说总结,不怕东谈主比东谈主,生怕货比货嘛。
就刻下来说,比起夙昔的文生图模子,照实是高的不知谈那里去了。
看到这可能有差友就要问了,世超鸽鸽,为啥豆包此次瞬息就跟换了个姆妈生的一样,比之前贤达了这样多?
该说不说,这内部照实有门谈。
这样说吧,咱们夙昔用的文生图模子,基本用的齐是 Diffusion 时代,是先把图片一步步变糊,然后反向分析若何从糊到明晰,从而产生新的图像。
但问题是,在这个流程中,模子生成图像是基于全局信息的,要思局部修改,不好酷好,全体统统要重来,是以每次生成的齐不一样,也没法在细节上再调遣。
咱们这两年也测了不少文生图模子,咋说呢,东西是没问题,可以生成,但齐没法一模一样的,准确复原出思象中阿谁面目,就比如这种:
是不是嗅觉跟东谈主家用的齐不是一个软件?
图源:Mac Baconai , “Al 的异星 cult 幻思之城 ”
可要结束东谈主家这种效力,辅导词弄的就得巨复杂,还要微调很久很久,以致他们还编纂了专门的辅导词辞典。大伙如若没磨练过这个,骨子上就很难作念好图,更别说把我方的相片传上去编订了。
如果能像画画一样,那里别离改那里,平稳成型就好了。
而豆包此次更新的,恰是这个看法。为了结束图片编订的效力,豆包此次的文生图选拔的是 SeedEdit 模子。
比较仅仅通过笔墨生成,这玩意更微操,它会把图片的强健和生成会通到一个提拔的大模子框架里,从而在生成和编订图像的时候,可以事无巨细的参考咱传上去的图像,完事儿收尾的就相对精确,况且出来的图片也更天然。
打个譬如,如果说夙昔的文生图模子是冷凌弃泼墨画匠, SeedEdit 就更像画笔小巧,有创造力的画家。骨子咱们上面用下来,可以说效力照实十分可以。
骨子上, SeedEdit 这样的时代,刻下行业内也刚运转用,能集成在 AI 助手里的,豆包其实是第一家。
而像 AI 编订图片这种看法,刻下早就如故是是图片编订行业的标配,多样修图软件、裁剪软件以致手机相册里齐在作念。
然则先不说效力,起码刻下其实大多半居品齐照旧要手动涂抹修改,或者我方在上面 P 图,加配饰,不知谈大伙若何认为,我归正每次 P 布景,摒除东谈主物,齐得花不少功夫。。。
至于 AI 径直出的图嘛,咱上面也说了,跟抽卡似的,很难一次就有理思的图,还没法再二次修改。
这也便是为啥咱起首就说,由 AI 径直受尾的编订修改图片,会是一个时代打破了。
换句话说,这个时代不仅改变的是 AI 文生图,其他的相片修改、视频裁剪啥的,基本统统能用得回。
到时候,径直跟语音助手说一声给我出图!AI 就帮你往你思的看法调遣,好意思好意思当甲方,思思齐爽。
职守编订:若风著述内容举报J9体育网
]article_adlist--> 声明:新浪网独家稿件,未经授权不容转载。 -->