|

车圈人
2000活跃值=1葫芦

首页 > 新车资讯 > 新车资讯 > 超越CLIP等，多模态图片检索的增强视觉语言大模型预训练

超越CLIP等，多模态图片检索的增强视觉语言大模型预训练

发布时间：2025-10-30 16:49:24来源： 18811119908

多模态图片检索是计算机视觉和多模态机器学习领域很重要的一个任务。现在大家做多模态图片检索一般会用 CLIP/SigLIP 这种视觉语言大模型，因为他们经过了大规模的预训练，所以 zero-shot 的能力比较强。

牛津 VGG ，港大，上交大团队这篇论文旨在提供一种方法，能够用学术界的资源来增强视觉语言大模型的预训练 (Enhance Language-Image Pre-training)，使得其可以更好地用于文字 - 图片检索。这篇论文被 IEEE 国际基于内容的多媒体索引大会（IEEE International Conference on Content-Based Multimedia Indexing）接受，并被评选为最佳论文提名，大会近期在爱尔兰都柏林召开。

超越CLIP等，多模态图片检索的增强视觉语言大模型预训练

【返回列表】

特别声明：以上内容(如有图片或视频亦包括在内)为“车圈人用户上传并发布"，本平台仅提供信息存储服务。

下一篇:韩系动向1666：起亚在欧洲市场发布 EV4 GT 原型车！

上一篇:Adobe推自家最强图像生成模型！原生400万像素，还能集成第三方模型

新车资讯更多>>

Keychron推出75%配列键盘B31：3.5mm键程剪刀脚，出厂预润真我Neo8发布：首销2399元起全球首发165Hz三星苍穹屏 11小时10分霸榜！REDMI Turbo 5 Max把2.5K档续航卷成“友商噩梦”？全新OriginOS 6新一轮公测招募开始报名，覆盖vivo S20等机型小米汽车Apple Music现已支持杜比全景声播放华为Pura 90系列再次被确认：20GB +鸿蒙OS 6.1，无3D人脸！ Meta宣布Threads平台月活跃用户突破4亿，面向全球推出广告阿里云智能集团资深副总裁李飞飞：内存价格预计还会上涨两到三倍第二届CVPR 2026 CV4CHL Workshop征稿启动 AI大模型守护儿童未来日系彩电时代“彻底落幕” 双3D缓存新王登基！AMD锐龙9 9950X3D2跑分曝光：单多核均超9950X3D 消息称华为Mate 80单品激活150万，逆袭成年底国产旗舰第一 2026开年旗舰：苹果狂卖1726万台，华为、小米、OV、荣耀谁在掉队 L3自动驾驶也来合川尝年味开源版Cowork爆火，逼得Anthropic下放Cowork 月产80万公斤，纺织巨头宣布破产深康佳：因工作安排原因，总裁曹士平请求辞职 Indigo 3000:一个瑞典跑车创业梦的始末消息称OPPO拥抱国产影像传感器：中端线导入思特威，旗舰线豪威突发！iPhone 18 Pro要砍灵动岛？苹果这步棋赌上了未来三年的口碑 2025中国手机出货量公布：华为4670万台排名第一，荣耀跌出前五从不到1500元成本到估值数千万，深夜宣布更名的“死了么”还有“钱”途吗？ 390亿美元Figure做不到的事，这家中国团队做到了荣耀MagicOS 10更新全攻略：老机流畅度飙升50%，这2款真无缘？荣耀亲选iotapk AI通话耳机发布，799元可独立通话摩托罗拉首款“AI感知伴侣”硬件曝光海南封关不是封岛！iPhone省2000+，购物、医疗、就业红利全解析 7.2英寸屏，主动散热风扇，华为要干游戏手机了？从月销过万到盈利突破，智己2025年做对了什么？解读增长密码丰田卡罗拉各代车型尺寸排名：其车身的不断增大也同样引人入胜

Copyright 2008-2025 车圈人版权所有京ICP备2025121051号-9