不靠多模态数据,大语言模型也能看得懂图?!
话不多说,直接看效果。
就拿曾测试过 BLIP-2 的长城照片来说,它不仅可以识别出是长城,还能讲两句历史:
再来一个奇形怪状的房子,它也能准确识别出不正常,并且知道该如何进出:
故意把“Red”弄成紫色,“Green”涂成红色也干扰不了它:
这就是最近研究人员提出的一种新模块化框架 ——LENS????的识别效果。
重要的是,不需要额外在多模态数据集上进行预训练,只用现成的大语言模型就能完成目标识别和视觉推理任务。
既省钱又省力!
研究人员表示:
这种方法在零样本的情况下效果可与多模态大模型 Kosmos,以及可开箱即用的 Flamingo 等端到端联合预训练模型相匹敌,性能甚至可能会更好。
网友看到这不淡定了:
激动啊家人们!用来训练大模型的资源现在也可以被用于解决不同领域的问题了。????
还有网友表示:
想看哪个模块最能提高视觉推理能力,这很有趣!
怎么做到的?
现有的 LLM 虽然在自然语言理解和推理方面表现出色,但都不能直接解决从视觉输入进行推理的任务。
这项由 Contextual AI 和斯坦福大学研究人员共同完成的工作,利用 LLM 作为冻结的语言模型,并为它们提供从“视觉模块”获取的文本信息,使其能够执行目标识别和 Vamp;L(视觉和语言)任务。
然后直接将这些信息输入到推理模块中,也就是冻结的 LLM,对问题进行响应回答。
这样一来,通过集成 LENS 可以得到一个跨领域自动适用的模型,无需额外的预训练。并且能够充分利用计算机视觉和自然语言处理领域的最新进展,最大限度地发挥这些领域的优势。
在此前,已经有研究提出了几种利用 LLM 解决视觉任务的方法。
其中一种方法是先训练一个视觉编码器,然后将每个图像表示为连续嵌入序列,让 LLM 能够理解。
另一种方法是使用已经训练对比的冻结视觉编码器,同时引入新的层到冻结的 LLM 中,并从头开始训练这些层。
第三种方法是同时使用冻结的视觉编码器和冻结的 LLM,通过训练轻量级 transformer 将它们对齐。
视觉编码器是指用于将视觉输入转换为表示向量的模型或组件。它能够将高维的视觉数据转换为低维的表示,将视觉信息转化为语言模型可以理解和处理的形式。
显而易见,这三种方法都需要用数据集进行多模态预训练。
LENS 则是提供了一个统一的框架,使 LLM 的“推理模块”能够从“视觉模块”提取的文本数据上进行操作。
在三个“视觉模块”中,对于标签这一模块,研究人员搜集了一个多样全面的标签词汇表。包括多个图像分类数据集,目标检测和语义分割数据集,以及视觉基因组数据集。为了能够准确识别并为图像分配标签,研究人员还采用了一个 CLIP 视觉编码器。
这一模块的通用提示语是:
“A photo of classname”
用于提取属性信息的视觉模块中,则用到了 GPT-3 来生成视觉特征描述,以区分对象词汇表中每个对象的类别。并且采用了一个对比预训练的 CLIP 视觉编码器,来识别并为图像中的对象分配相关属性。
在详细描述信息的视觉模块中,研究人员用 BLIP 的图像字幕模型,并应用随机的 top-k 采样为每个图像生成 N 个描述。这些多样化的描述直接传递给“推理模块”,无需进行任何修改。
而在最后的推理模块,LENS 可以与任何 LLM 集成,将上面的提取的信息按照下面的格式进行整合:
Tags: Top-k tags
Attributes: Top-K attributes
Captions: Top-N Captions.
OCR: this is an image with written “meme text” on it.
Question: task-specific prompt \n Short Answer:
值得一提的是,表情包也被考虑在内了,为此研究人员专门加入了一个 OCR 提示。
性能比 CLIP 好
为了展示 LENS 的性能,研究人员用了 8 块 NVIDIA A100 显卡进行了实验,并默认冷冻的 LLM 为 Flan-T5 模型。
对于视觉任务,研究人员评估了 8 个基准,并在零样本和少样本设置下与目标识别领域的最新模型进行了比较。
经上表可看出,在零样本情况下,由 ViT-H / 14 作为视觉主干和 Flan-T5xxl 作为冻结 LLM 组成的 LENS,平均表现比 CLIP 高了 0.7%。LENS 的其它组合在大多数情况下,表现也优于 CLIP。
有趣的是,研究人员在目标识别任务中发现:
冻结的 LLM 的大小与分类性能之间似乎没有直接关系。而标签生成架构的大小与性能之间存在对应关系。
如上图所示,研究人员还绘制了除 ImageNet 之外的所有数据集的平均视觉性能图,并观察到:
更多样本有助于提高性能。同时,冻结 LLM 的性能与视觉性能之间没有直接关系,而更好的视觉主干有助于提高平均视觉性能。
对于视觉与语言任务,研究人员评估了四个具有代表性的视觉问答任务,并与需要进行额外预训练来对齐视觉和语言模态的最新模型进行了比较。
在零样本设置上,与 VQAv2、OK-VQA、Rendered-SST 和 Hateful Memes 最先进的方法进行比较,LENS 表现依旧能与依赖大量数据进行对齐预训练的方法相竞争。即使与规模更大、更复杂的系统如 Flamingo、BLIP-2、Kosmos 相比也是如此。
虽然 LENS 在大多数情况下表现良好,但也有一些失败的情况:
研究人员认为:
LENS 的视觉能力严重依赖于其底层的视觉组件。这些模型的性能有进一步提升的空间,需要将它们的优势与 LLM 结合起来。
传送门:
广告声明:文内含有的对外跳转链接,用于传递更多信息,节省甄选时间,结果仅供参考,IT之家所有文章均包含本声明。
声明:以上内容为本网站转自其它媒体,相关信息仅为传递更多企业信息之目的,不代表本网观点,亦不代表本网站赞同其观点或证实其内容的真实性。投资有风险,需谨慎。
环旭电子毛利率创上市十年新低,股价跌跌不休,连续回购有
图片来源:图虫3月28日,环旭电子(601231.SH)披露2021年年度报告称,该公司去...
两个20CM涨停,津荣天宇拟10转8派3,上市没满周年
图片来源:图虫创意3月29日,津荣天宇(300988.SZ)再次“20CM涨停”,收于44...
在管面积翻倍,碧桂园服务称大规模收并购已过去
图片来源:碧桂园服务结束过去一年来的大举收并购后,在3月29日召开的2021年度业绩发布会...
首套房利率降至5.2%,武汉楼市政策也放松了
去年被投资客们看好的武汉楼市,近期也继续出台了楼市刺激政策。界面新闻获悉,武汉房贷利率出现...
英国通胀创30年来最快增速,政府宣布立即降调燃油税
2022年3月9日,英国丹伯里,埃克森美孚公司运营的埃索加油站。图片来源:视觉中国英国政府...
让孩子自信互动才是幼儿园质量“金标准”
让孩子自信互动才是幼儿园质量“金标准” “入园难、入园贵”的问题终于不那么令人焦灼了。近年...
佳通轮胎获行业“十大轮胎品牌”等奖项
近日,由中国轮胎商务网发起主办、善养汽车联合主办的ApexTire2021中国轮胎年度大选...
快手2021年营收811亿元,调整后净亏损188.5亿
,快手今日公布了2021年第四季度及全年财报。财报显示,该公司第四季度营收244亿元,同比...
奇安信2022年新增订单超9亿元同比增长超65%
3月29日,奇安信发布关于近期经营情况的公告。公告显示,目前公司在手订单超23亿元,202...
大摩:苹果、谷歌等大型科技企业股票反弹,亚马逊、英伟达
北京时间3月29日早间消息,据报道,摩根士丹利财富管理公司表示,美国主要的科技和互联网股票...
万科蝉联第一2022房企综合实力TOP500测评成果出
3月29日,2022房地产开发企业综合实力测评成果正式发布,“房地产开发企业综合实力TOP...
华为加码芯片研发:海思升格为一级部门
华为本周发布2021年年度报告,从华为2021年的最新业务架构来看,海思已经从2012实验...
LGDisplay加码抢占中国透明显示市场
LGDisplay于3月29日至31日在北京东外56号文创园,以“YourLifewith...
一汽-大众奥迪赛车队加冕中国超级跑车锦标赛2021赛季
2022年3月24日,代表一汽-大众奥迪赛车队出征中国超级跑车锦标赛(ChinaGT)20...
StrategyAnalytics:
根据StrategyAnalytic...
增程技术成2022百人会热门增程式S
3月27日,中国电动汽车百人会论坛(...
工信部:1-2月份我国软件业务收入1
近日,工信部发布《2022年1-2月...
元宇宙进行时,高通在行动
近期,高通宣布设立总金额达1亿美元的...
Ultrasuede®携手智己L7打
环保可持续发展的理念不断融于各行各业...