DeepSeek深夜宣布多模态年夜模子 图像机能跑分力压OpenAI竞品

作者: [db:作者] 分类: 随心杂谈 发布时间: 2025-01-28 08:47
起源:财联社 就在华尔街周一缓和评价“DeepSeek风暴”之际,这家中国公司再度甩出新品:在图像天生基准测试中超出OpenAI“文生图”模子DALL-E 3的多模态年夜模子Janus-Pro,同样也是开源的。 大年节清晨钟声敲响前未几,DeepSeek工程师们在“抱抱脸”平台上传了Janus Pro 7B跟1.5B模子。这俩模子是对客岁10月宣布的Janus模子的进级。 15亿跟70亿的参数目,象征着这两个模子具有在花费级电脑上当地运转的潜力。与R1一样,Janus Pro采取MIT允许证,在商用方面不限度。 据DeepSeek先容,Janus-Pro是一个新鲜的自回归框架,同一了多模态懂得跟天生。经由过程将视觉编码分别为“懂得”跟“天生”两条门路,同时仍采取单一的Transformer架构停止处置,处理了以往方式的范围性。这种分别不只缓解了视觉编码器在懂得跟天生中的脚色抵触,还晋升了框架的机动性。 从讲演给出的“跑分”数据来看,在局部文生图基准测试中,Janus-Pro 70亿参数模子表示好于OpenAI的DALL-E 3、Stability AI的Stable Diffusion 3-Meduim等。 (起源:技巧讲演) 固然DALL-E 3是OpenAI在2023年宣布的一款“老模子”,同时Janus Pro现在只能剖析跟天生规格较小的图像(384 x 384)。DeepSeek在如斯紧凑的模子尺寸中仍然展示了令人印象深入的机能。 技巧讲演表现,在视觉天生方面,Janus-Pro经由过程增加7200万张高品质分解图像,使得在同一预练习阶段实在数据与分解数据的比例到达1:1,实现“更具视觉吸引力跟稳固性的图像输出”。在多模态懂得的练习数据方面,新模子参考了DeepSeek VL2并增添了大概9000万个样本。 作为一个多模态模子,Janus-Pro不只能够“文生图”,同样也能对图片停止描写,辨认地标景点(比方杭州的西湖),辨认图像中的笔墨,并能对图片中的常识(比方下图中的“猫跟老鼠”蛋糕)停止先容。 公司也在讲演中,给出了更多图像天生的案例。 新浪财经大众号 24小时转动播报最新的财经资讯跟视频,更多粉丝福利扫描二维码存眷(sinafinance)

如果觉得我的文章对您有用,请随意打赏。您的支持将鼓励我继续创作!