「开源版GPT-4o」来了!这个17B国产模子生图结果
前段时间,GPT-4o 火出了圈,其断崖式提拔的生图、改图能力让每小我都想测验考试一下。虽然 OpenAI 后来颁布发表免费用户也能够用,但出图慢、次数受限仍然搅扰着没有订阅 ChatGPT 的通俗人。那除了 GPT-4o,我们还有没有其他选择呢?去 Artificial Analysis 的文生图大模子竞技场找一下就晓得了。正在这个竞技场上,我们发觉前段时间排到第二名的模子 —— 具有 17B 参数的HiDream-I1和 GPT-4o 得分很接近。AI 基准测试和阐发平台 Artificial Analysis 发推颁布发表 HiDream-I1 成为文生图开源模子新 SOTA。这个平台采用竞技场模式来评估模子,即同时给两张分歧模子生成的图像,让人类从当选出和 prompt 最贴合的。值得一提的是,这个模子正在上线 小时之内就登顶了 Artificial Analysis 竞技场榜首,也是首个登顶该榜单的中国自研生成式 AI 模子。通过一些对比图能够看到,HiDream-I1 的生成结果似乎不输 GPT-4o,比之前「把 Midjourney 打坛」的 FLUX1。1 [pro] 结果还要好。沉点是,这三个模子里,只要 HiDream-I1 是HiDream-E1还支撑交互式图像编纂,能够像 GPT-4o 那样把你供给的图点窜为肆意气概、肆意内容。实现了雷同于 GPT-4o 图像生成和编纂的「言出法随」结果,填补了「开源版 GPT-4o」的空白。HiDream-E1 的图像编纂结果,模子将于近期开源。GPT-4o、FLux 之所以可以或许走红,其生成画面的实正在感、细腻度和遵照指令的能力起到了主要感化。为了测试 HiDream-I1 能不克不及担得起「开源版 GPT-4o」这个称号,我们参考前段时间 OpenAI 官宣 GPT-4o 新能力时发布的一些 prompt 测试了一下。提醒词:写实的照片,一匹马从左到左奔跑正在一个庞大的,安静的海面上,精确地描画了溅起的水花,反射,和马蹄下微妙的波纹图案。夸张马的动做,但其他一切都该当是静止的,恬静的,以显示取马的力量构成对比。清洁的构图,片子般的。广漠的全景构图,展现远处的地平线。大气透视创制深度。放大后的马取的海洋比拟显得微不脚道。提醒词:这是一张狗仔队气概的照片,卡尔・马克思慌忙穿过美国购物核心的泊车场,他带着惊讶的脸色瞥了一眼,试图避免被拍到。他手里拿着几个锃亮的购物袋,里面拆满了豪侈品。他的外衣正在风中飘动,此中一个包正在扭捏,仿佛他正正在大步前进。恍惚的布景取汽车和发光的商场入口,以强调活动。相机发出的闪光部门过度了图像,给人一种紊乱的感。实正在感、细腻度上和 GPT-4o 常接近的,有时还能更胜一筹。正在和 Flux 比拟时,这个特点愈加较着。好比鄙人面这个例子中,HiDream-I1 生成的图像具有更多精细的元素,包罗纹理、布景细节以及物体之间的条理感(猫毛正在光的下根根分明,给人一种强烈的朝气感;咖啡壶的不锈钢材质恰如其分地反射光线,呈现出实正在的质感)。比拟之下,Flux 虽然也能生成具有优良细节的图像,但正在细节材质上不如 HiDream-I1 细腻丰硕。正在色彩的呈现上,HiDream-I1 的表示也更超卓,可以或许生成条理分明、色调多样的图像(细心看下图中狼的脸部毛发,HiDream-I1、GPT-4o 的颜色条理都更丰硕)。Flux 的色彩利用虽然也相当丰硕,但正在某些场景下,色彩的搭配和过渡显得较为单一,缺乏必然的饱和度和条理感。此外,这种实正在感、细腻感还来自模子对客不雅纪律的理解。从下图能够看出,HiDream-I1 对客不雅纪律的理解较为切确。无论是物体的摆放、人物的动做姿态,仍是中的光影结果,HiDream-I1 都能展示出合适现实世界的天然纪律。而 Flux 则正在这方面存正在必然局限,出格是正在处置动态场景和复杂物理互动时,模子的表示不敷实正在,常常呈现不合适物理定律的环境。即便是碰到复杂的提醒词,这些特点仍然可以或许正在 HiDream-I1 生成的图中获得保留。这是模子复杂文本理解、遵照能力的表现。HiDream-I1 生成的图像。提醒词:中世纪城堡的石砌城墙,身披铠甲的兵士面向镜头,跃动的火焰正在他死后勾勒出粗犷的面部轮廓。火星随风溅落正在生锈的锁子甲上,左手不盲目地握紧腰间剑柄,深褐色的大氅正在热浪中猛烈翻卷。燃烧的箭矢正在远处塔楼持续坠落,橙红火光取靛蓝夜空构成强烈对比,了城墙垛口剥落的青苔和兵士眉骨处的陈旧伤疤。HPSv2。1,这是一个基于人类偏好选择数据集锻炼的偏好预测模子,可以或许对统一提醒下发生的分歧图像进行评分比力。正在这个基准上,HiDream-I1 正在多种气概(如动漫、概念艺术、绘画和实正在摄影)上达到最优。这申明,HiDream-I1 生成的各类气概图像都更合适人类审美。GenEval 和 DPG-Bench,前者通过检测对象和颜色分类来验证生成图像取文本提醒之间的婚配程度,后者专注于检测生成图像中的多个对象、细致属性和复杂关系(当提醒又长又复杂的时候适合用这个基准评测)。正在这两个基准上,HiDream-I1 都达到了最优。这申明,HiDream-I1 的指令遵照能力很强。「Sparse Diffusion Transformer(Sparse DiT)」的架构设想。这个架构正在 DiT 框架下融合了 Sparse Mixture-of-Expert (MoE)手艺,让分歧的专家模子处置分歧类型的文本输入,各有专精。同时,这个架构设想还带来了一个额外的益处 —— 正在提高模子机能的同时节制运算开销,使得 HiDream-I1 用起来性价比很高。对于关心开源模子算力耗损的小我开辟者、创业公司来说,这是一个很有用的优化。图像质量的提拔则要归功于研究者正在扩散模子蒸馏中融入生成匹敌进修,借帮 GAN 捕获细节、锐化边缘的能力,正在蒸馏扩散模子的同时进一步提拔了生成图像的实正在感和清晰度,实现速度取质量的双沉优化。值得一提的是,如许锻炼出来的 HiDream-I1 具有很强的可扩展性。所以正在模子锻炼出来后不久,智象将来就将其扩展到了交互式图像编纂大模子 HiDream-E1,让图像编纂场景也有了「开源版 GPT-4o」可用。无论从实测结果仍是基准测试成果来看,智象将来的 HiDream-I1 都曾经很是接近 GPT-4o,坐稳了国内图像生成第一梯队。并且,因为模子是开源的,其国际影响力也正在逐渐。正在开源后两天,他们曾经集成了 HiDream-I1,把手教网友怎样选用这个模子。正在 HuggingFace Trending 榜单上,HiDream-I1 飙升到了第二名。这申明 HiDream-I1 的下载量、点赞数都很可不雅,正在社区中很是受欢送。多模态 Agent 产物。它的焦点是让大师用对话聊天的形式来生成图片 / 视频,并利用天然言语对图片 / 视频内容进行响应的编纂,从而渐进式地生成有故工作节的内容。便当之处正在于不需要用户本人去跨平台选择挪用需要的功能以及调理复杂的参数。对于如许的模子改良、产物开辟,智象将来 CTO 姚霆曾做出过注释 —— 正在使用端,实正在感、指令遵照和叙事性的能力是用户情愿为之付费的根本,所以智象将来正在改良模子的过程中一直关心这三大属性。现在,他们把这三点做到了新的高度,还开源了模子,能够说为想正在这一范畴开辟使用的开辟者或公司打扫了根本妨碍。智象的研发人员透露,下一个开源模子--HiDream-E1 即将开源,相关基准测试数据也将正在近日发布。等候这个模子带来优良的编纂体验。




