栏目分类

热点资讯

新闻习作

你的位置：尊龙凯龙时官网进入(中国)网页版入口 > 新闻习作 > 欧洲杯体育他们告成开源了 GPT-4o 级别的图像生成才气-尊龙凯龙时官网进入(中国)网页版入口

欧洲杯体育他们告成开源了 GPT-4o 级别的图像生成才气-尊龙凯龙时官网进入(中国)网页版入口

发布日期：2025-09-06 05:20 点击次数：202

字节最近果然猛猛开源啊……欧洲杯体育这一次，他们告成开源了 GPT-4o 级别的图像生成才气。（浪漫拿捏"万物皆可吉卜力"玩法 ~）不啻于此，其最新会通的多模态模子 BAGEL主打一个"大一统"，将带图推理、图像剪辑、3D 生成等功能充足勾搭到了一个模子。多样名堂玩法 be like：天然活跃参数只须 7B（合计 14B），但它已经完毕了图像理会、生成、剪辑等多冠王，实力超过或失色一众顶尖开源（如 Stable Diffusion 3、FLUX.1）和闭源（如 GPT-4o、Gem...

欧洲杯体育他们告成开源了 GPT-4o 级别的图像生成才气-尊龙凯龙时官网进入(中国)网页版入口

字节最近果然猛猛开源啊……欧洲杯体育

这一次，他们告成开源了 GPT-4o 级别的图像生成才气。

（浪漫拿捏"万物皆可吉卜力"玩法 ~）

不啻于此，其最新会通的多模态模子 BAGEL主打一个"大一统"，将带图推理、图像剪辑、3D 生成等功能充足勾搭到了一个模子。

多样名堂玩法 be like：

天然活跃参数只须 7B（合计 14B），但它已经完毕了图像理会、生成、剪辑等多冠王，实力超过或失色一众顶尖开源（如 Stable Diffusion 3、FLUX.1）和闭源（如 GPT-4o、Gemini 2.0）模子。

模子还是发布，不仅赶紧登上 Hugging Face 趋势榜，还立即在� � 激勉热议。

有网友见此连连感触，"字节像朝上了整整一代东谈主"。

OpenAI 商议员也公开推奖，字节 Seed 团队在他心目中已经稳居顶级本质室之列。

Okk，咱们告成来看 BAGEL 模子有哪些玩法。

一个模子完毕通盘多模态功能

手脚多模态模子，掌抓带图推理算是如今的一个初学级挑战。

扔给它叠放整皆的一块布料，让它遐想出布料张开后的面貌。

不错看到，生成之前 BAGEL 模子会自动进行推理，并探求出可行决议：

最终身成的图片如下，一眼看去布料的拼图和斑纹莫得显然失误：

换成其他例子，还能看到 BAGEL 模子援手无缝多轮对话。

先是按照笔墨教导生成得当条款的图片：

然后紧接着生成东谈主物的公仔形象，并推出销售标语。

天然，除了上头这些，懂推理的 BAGEL 模子还援手复杂图像剪辑。

最便捷的，当属一键试妆了：

张开其念念考历程，不难发现它是真懂（doge）。

其他咱们相对肃穆的时间，如东谈主物神气转化、捏造造物等更是不在话下。

终末，BAGEL 模子超过传统图像剪辑，还具备多视角合成和导航等"寰宇建模"才气。

360 ° 全自动不雅赏装在盒子里的手办：

又约略开局一张图，视角一步步推动，千里浸式走进胡衕：

总之，正如字节团队所强调的，BAGEL 模子已经展现出和解多模态才气。

那么接下来的问题是——

它怎样作念到的？

再行界说"表现才气"

据论文先容，BAGEL 模子禁受了 MoT（Mixture-of-Transformer-Experts）架构。

它由两个 Transformer 大师构成，一个专注于多模态理会，另一个专注于多模态生成。手脚对应，模子也使用了两个沉寂的视觉编码器，分辨用于捕捉图像的像素级和语义级特征。

毛糙来说，像素级编码器专注于图像的底层细节，如脸色、纹理等；语义级编码器则热心图像的高层语义，如物体的类别、场景的含义等。

全体框架衔命"下一个 token 组测度范式"，即模子左证已有的多模态输入，学习测度后续的 token，从而不停优化本人对多模态数据的理会和生成才气。

趁便一提，BAGEL 基础模子是基于Qwen2.5-7B-Instruct和siglip-so400m-14-384-flash-attn2模子进行微调，并使用了FLUX.1-schnell VAE模子。

基于上述架构，团队在模子检会中得出了一项紧迫发现。

跟着限度化数据与模子参数的双重推广，BAGEL 模子阐述出了一种"表现才气（Emerging Properties）"——多模态理会和生成才气较早出现，随后是基础剪辑才气，而复杂的智能剪辑才气则在后期表现。

所谓的表现才气，其实早已在大型视觉或讲话模子中被横蛮探讨。不外在论文中，聚焦于和解多模态基础模子的配景下，团队再行界说了表现才气：

当某种才气在早期检会阶段尚未出现，而在后续预检会中出面前，称其为表现才气。

结合 BAGEL 模子的阐述，团队合计其揭示了一种新兴形态，即高档多模态推理是在完善的基础时间之上逐步造成的，而非某种"突变"。

另外论文中提醒，将 VAE（变分自编码器）与 ViT（视觉 Transformer）特征相结合，不错显耀进步智能剪辑才气。

终末，更多基准测试成果也展现了 BAGEL 模子朝上的图像理会、生成、剪辑才气。

举例在图像理会任务中，在激活参数限度特别（7B）的情况下，BAGEL 模子优于现存的和解模子 Janus-Pro。

同期与专用理会模子（如 Qwen2.5-VL 和 InternVL2.5）比较，BAGEL 在大大都基准测试上阐述更优。

在 GenEval 和 WISE 这两个评估图像生成才气的测试中，BAGEL 完毕了88%的全体得分，优于专用生成模子（FLUX.1-dev：82%、SD3-Medium：74%）和和解模子（Janus-Pro：80%、MetaQuery-XL：80%）。

在图片剪辑才气测试中，BAGEL 的阐述可与 Step1X-Edit（当前朝上的专用图像剪辑模子）相失色，况兼优于 Gemini 2.0。

天然，也有更直不雅的对比：

现在模子已在 Hugging Face 上架，禁受相对宽松的 Apache 2.0 许可证。

— 完 —欧洲杯体育

上一篇：尊龙凯时(中国)官方网站该车具体性能参数尚不知所以-尊龙凯龙时官网进入(中国)网页版入口

下一篇：尊龙体育网独一碰到黑屏问题的用户才需要更新固件-尊龙凯龙时官网进入(中国)网页版入口

相关资讯