熔岩羊驼LLaVA来了:像GPT4一样可以看图聊天,无需邀请码,在线可玩新浪科技

尽管LLaVA是用一个小的多模态指令数据集训练的,但它在一些示例上展示了与多模态模型GPT-4非常相似的推理结果。

GPT-4的识图能力什么时候能上线呢?这个问题目前依然没有答案。

但研究社区已经等不及了,纷纷自己上手DIY,其中最火的是一个名为MiniGPT-4的项目。MiniGPT-4展示了许多类似于GPT-4的能力,例如生成详细的图像描述并从手写草稿创建网站。此外,作者还观察到MiniGPT-4的其他新兴能力,包括根据给定的图像创作故事和诗歌,提供解决图像中显示的问题的解决方案,根据食品照片教用户如何烹饪等。该项目上线3天就拿到了近一万的Star量。

今天要介绍的项目——LLaVA(LargeLanguageandVisionAssistant)与之类似,是一个由威斯康星大学麦迪逊分校、微软研究院和哥伦比亚大学研究者共同发布的多模态大模型。

该模型展示出了一些接近多模态GPT-4的图文理解能力:相对于GPT-4获得了85.1%的相对得分。当在科学问答(ScienceQA)上进行微调时,LLaVA和GPT-4的协同作用实现了92.53%准确率的新SoTA。

以下是机器之心的试用结果(更多结果见文末):

论文概览

人类通过视觉和语言等多种渠道与世界交互,因为不同的渠道在代表和传达某些概念时都有各自独特的优势,多渠道的方式有利于更好地理解世界。人工智能的核心愿望之一是开发一个通用的助手,能够有效地遵循多模态指令,例如视觉或语言的指令,满足人类的意图,在真实环境中完成各种任务。

为此,社区兴起了对开发基于语言增强的视觉模型的风潮。这类模型在开放世界视觉理解方面具有强大的能力,如分类、检测、分割和图文,以及视觉生成和视觉编辑能力。每个任务都由一个大型视觉模型独立解决,在模型设计中隐含地考虑了任务的需求。此外,语言仅用于描述图像内容。虽然这使得语言在将视觉信号映射到语言语义(人类交流的常见渠道)方面发挥了重要作用,但它导致模型通常具有固定的界面,在交互性和对用户指令的适应性上存在限制。

另一方面,大型语言模型(LLM)已经表明,语言可以发挥更广泛的作用:作为通用智能助理的通用交互接口。在通用接口中,各种任务指令可以用语言明确表示,并引导端到端训练的神经网络助理切换模式来完成任务。例如,ChatGPT和GPT-4最近的成功证明了LLM在遵循人类指令完成任务方面的能量,并掀起了开发开源LLM的热潮。其中,LLaMA是一种与GPT-3性能相近的开源LLM。Alpaca、Vicuna、GPT-4-LLM利用各种机器生成的高质量指令跟踪样本来提高LLM的对齐能力,与专有LLM相比,展示出了令人印象深刻的性能。但遗憾的是,这些模型的输入仅为文本。

在本文中,研究者提出了视觉instruction-tuning方法,首次尝试将instruction-tuning扩展到多模态空间,为构建通用视觉助理铺平了道路。

具体来说,本文做出了以下贡献:

LLaVA架构

本文的主要目标是有效利用预训练的LLM和视觉模型的功能。网络架构如图1所示。本文选择LLaMA模型作为LLMfφ(),因为它的有效性已经在几个开源的纯语言instruction-tuning工作中得到了证明。

对于输入图像X_v,本文使用预训练的CLIP视觉编码器ViT-L/14进行处理,得到视觉特征Z_v=g(X_v)。实验中使用的是最后一个Transformer层之前和之后的网格特征。本文使用一个简单的线性层来将图像特征连接到单词嵌入空间中。具体而言,应用可训练投影矩阵W将Z_v转换为语言嵌入标记H_q,H_q具有与语言模型中的单词嵌入空间相同的维度:

之后,得到一系列视觉标记H_v。这种简单投影方案具有轻量级、成本低等特点,能够快速迭代以数据为中心的实验。也可以考虑连接图像和语言特征的更复杂(但昂贵)的方案,例如Flamingo中的门控交叉注意力机制和BLIP-2中的Q-former,或者提供对象级特征的其他视觉编码器,如SAM。

实验结果

多模态聊天机器人

研究者开发了一个聊天机器人示例产品,以展示LLaVA的图像理解和对话能力。为了进一步研究LLaVA如何处理视觉输入,展现其处理指令的能力,研究者首先使用GPT-4原始论文中的示例,如表4和表5所示。使用的prompt需要贴合图像内容。为了进行比较,本文引用了其论文中多模态模型GPT-4的prompt和结果。

令人惊讶的是,尽管LLaVA是用一个小的多模态指令数据集(约80K的不重复图像)训练的,但它在以上这两个示例上展示了与多模态模型GPT-4非常相似的推理结果。请注意,这两张图像都不在LLaVA的数据集范围内,LLaVA能够理解场景并按照问题说明进行回答。相比之下,BLIP-2和OpenFlamingo专注于描述图像,而不是按照用户指令以适当的方式进行回答。更多示例如图3、图4和图5所示。

定量评估结果见表3。

ScienceQA

ScienceQA包含21k个多模态多选问题,涉及3个主题、26个话题、127个类别和379种技能,具有丰富的领域多样性。基准数据集分为训练、验证和测试部分,分别有12726、4241和4241个样本。本文对比了两种有代表性的方法,包括GPT-3.5模型(text-davinci-002)和没有思维链(CoT)版本的GPT-3.5模型,LLaMA-Adapter,以及多模态思维链(MM-CoT)[57],这是该数据集上当前的SoTA方法,结果如表6所示。

试用反馈

在论文给出的可视化使用页面上,机器之心也尝试着输入了一些图片和指令。首先是问答里常见的数人任务。测试表明,数人的时候较小的目标会被忽略,重叠的人也有识别误差,性别也有识别误差。

接着,我们尝试了一些生成任务,比如为图片起名字,或者根据图片讲一个故事。模型输出的结果还是偏向于图片内容理解,生成方面的能力还有待加强。

在这张照片中,即便人体有重合也依然能准确地识别出人数。从图片描述和理解能力的角度来看,本文的工作还是存在亮点,存在着二创的空间。

THE END
1.颠覆式AI技术:揭秘ChatGPT入口如何为在线聊天提供无与伦比的人工在当今的数字化时代,人工智能(AI)技术正以前所未有的速度发展,并逐渐融入我们的日常生活,ChatGPT作为一种颠覆式的AI技术,正引领着在线聊天体验的革新,本文将深入探讨ChatGPT技术的原理、应用场景以及它如何为在线聊天提供无与伦比的人工智能体验。 ChatGPT技术原理 http://www.gaojunyue.com/post/12617.html
2.亿级IM聊天系统架构设计与重难点分析im系统架构本文详细探讨了IM系统的基础架构,包括其应用场景、常见术语以及企业级IM的核心架构,重点介绍了如何保证消息可靠投递、离线消息服务的高效实现以及海量历史聊天数据的存储策略,涉及RocketMQ和Redis等技术的应用。 摘要由CSDN通过智能技术生成 文章目录 一、IM系统概述 https://blog.csdn.net/A_art_xiang/article/details/137236072
3.开启社交新时代:AI与社交的完美结合开启社交新时代:AI与社交的完美结合 随着一场关于AI社交的大战悄然展开,各大互联网巨头纷纷布局,探索AI与社交的结合。QQ推出的“AI聊天搭子”、抖音的“话炉”、美团的WOW等一系列新兴产品不断涌现,标志着AI社交新时代的正式来临。一、AI社交的背景 社交作为人类永恒的需求,从远古的简单沟通逐渐演化为现代复杂https://baijiahao.baidu.com/s?id=1817674412985372953&wfr=spider&for=pc
4.聊天系统架构图这里是一个聊天系统的架构图,包括了注册登录和聊天模块等内容架构关系,清晰明确。 系统架构 聊天 模块 下载eddx文件 下载客户端 立即使用 社区模板帮助中心, 点此进入>> 嘎哈 关注 他的近期作品 查看更多>> 聊天系统架构图 这里是一个聊天系统的架构图,包括了注册登录和聊天模块等内容架构关系,清晰明确。 https://www.edrawmax.cn/templates/file/1024376
5.PHP实时在线聊天系统,构建实时交流互动平台换热机组PHP在线聊天系统是一个复杂的项目,需要综合运用PHP、数据库、WebSocket、前后端交互和消息队列等技术,通过本文的介绍,我们了解了PHP在线聊天系统的基本架构和关键技术,以及实现的步骤,希望读者可以通过本文的指导,成功地构建一个稳定、高效的PHP在线聊天系统。http://www.jinhansenrn.com/post/14122.html
6.连接池Demo附源代码+在线客服聊天架构图简介: MQTT(EMQX) - SpringBoot 整合MQTT 连接池 Demo - 附源代码 + 在线客服聊天架构图 MQTT(EMQX) - Linux CentOS Docker 安装 MQTT 概述 MQTT (Message Queue Telemetry Transport) 是一个轻量级传输协议,它被设计用于轻量级的发布/订阅式消息传输,MQTT协议针对低带宽网络,低计算能力的设备,做了特殊的优化。https://developer.aliyun.com/article/1585700
7.语音聊天室是什么?语音聊天室的嘲技术挑战及对应方案方案架构 最后,ZEGO 提供两种搭建语音聊天室(语聊房)的方式,具体实现方式请查看: 使用语聊房 UIKit,最快 30 分钟集成语音连麦功能,助力搭建深度社交的语聊房 APP,实现趣味语音玩法,促进用户留存。 使用实时音视频产品(ZEGO Express SDK)实现基本音频通话功能的基础上,结合即时通讯产品(ZIM SDK)实现语聊房功能。请参https://www.zego.im/blog/1773.html
8.Springboot+WebSocket+Netty实现在线聊天/群聊系统java3.编写一个消息实体类、Mapper、service(三层架构) 1 2 3 4 5 6 7 8 9 10 11 @Data public class Chat { @TableId(type = IdType.AUTO) private以上就是Springboot+WebSocket+Netty实现在线聊天/群聊系统的详细内容,更多关于Springboot实现在线聊天的资料请关注脚本之家其它相关文章! 您可能感兴趣的文章https://www.jb51.net/program/294904asv.htm
9.企业QQ软件免费下载企业QQ最新免费下载所有客户聊天记录在线保存,管理者可随时随地查看记录,监督客服工作,提升服务质量 4、群发消息 主动营销 可向海量好友群 发消息,可控性高,针对性强,直接快速高效,投入小,收益大 【企业QQ免费下载软件特色】 1、脉络清晰的企业树形组织架构 通过主面板上的企业树形组织架构,展现清晰的企业内部层级,方便企业成员逐级查找https://ku.18183.com/soft/2358977.html
10.阿里iDST实验室带你快速入门NLP技术6、聊天引擎 1.1 聊天引擎概念和demo演示 1.2 基于检索和基于生成的两种聊天引擎构建方法 1.3 工业应用中涉及的数据、在线架构问题以及解决思路 7、语言模型 1.1 语言模型的基本概念 1.2 N元文法语言模型 1.3 语言模型的评价指标 1.4 基于神经网络的语言模型建模 8、机器翻译 1.1 机器翻译的基本概念 1.2 统计机器翻译https://www.leiphone.com/special/mooc03
11.永川这15家企业招人,找工作的看过来!澎湃号·政务澎湃新闻在线客服 使用Du-APP聊天软件,给用户提供咨询、解决相关问题,主要涉及退换货或是物流相关问题(纯打字聊天,不用接电话 ) 工作时间:综合工时,一周工作40小时,上6休1,排班时段为早上8点至晚上12点,如有晚班则有相应的津贴:如晚上10点以后25元/次, 工资结构:基本工资+目标奖金+技能津贴+项目津贴+夜班补贴+加班补助https://www.thepaper.cn/newsDetail_forward_8515765
12.zhanghuanhao/NebulaMOOC:一个基于B/S架构及分布式的在线下面为整体架构图: Nginx RTMP服务器架构图: FastDFS文件服务器架构图:About 一个基于B/S架构及分布式的在线慕课交流平台,包括了课程、讨论区、直播三大模块。项目基于SprintBoot 2.1.5、GRPC和Spring AOP,实现了基于Redis的单点登录系统、基于Netty、Protobuf、WebSocket的直播聊天服务器、基于Spring Web的网页服务器https://github.com/zhanghuanhao/NebulaMOOC
13.2020届计算机科学方向毕业设计(论文)阶段性汇报加速器的最终硬件架构、重要细节及实验结果。 蒋泽天 多图的离线协同式匹配和在线增量式匹配 介绍多图的离线协同式匹配和在线增量式匹配,MGM-FLoyd,MGM-SPFA和FastSPFA。 叶昊然 带有预算限制的拍卖机制 本次汇报介绍了单人拍卖中有条件的和无条件的预算限制,证明了无条件的预算限制下最优拍卖机制的形式,给出了无条https://zhiyuan.sjtu.edu.cn/html/zhiyuan/announcement_view.php?id=3709
14.如何设计一个亿级消息量的IM系统万亿级调用系统:微信序列号生成器架构设计及演变 微信PaxosStore:深入浅出Paxos算法协议 微信后台基于时间序的海量数据冷热分级架构设计实践 钉钉企业级 IM 存储架构创新之道 现代IM系统中聊天消息的同步和存储方案探讨 阿里钉钉技术分享:企业级IM王者——钉钉在后端架构上的过人之处 https://xie.infoq.cn/article/19e95a78e2f5389588debfb1c
15.高并发在线聊天软件如何设计后端架构在设计高并发在线聊天软件的后端架构时,需要考虑多个方面,包括系统的承载能力、响应速度、数据一致性、消息的可靠性等。本文将以实现消息发送与接收的功能为例,探讨如何设计此系统的后端架构。 需求分析 在高并发的情况下,用户可能会同时发送和接收大量消息。因此,后端系统需要具备以下功能: https://blog.51cto.com/u_16213392/12113237
16.网络在线聊天室平台聊天室首页: 首页:主要展示了默认的聊天室和人气聊天室以及最热门的聊天室,进行排名分类,方便用户第一眼找到喜欢的聊天室,进行聊天。 聊天室:该网站聊天室板块主要分为了情感世界,网络游戏,生活百科以及军事天地四个板块。用户进入聊天室可以进行聊天互动,并能够在线查看到聊天室的当前人数,以及在线用户的列表。也可以http://www.jpbysj.com/article/1165.html
17.在线临时聊天室在线临时聊天室 本服网址:http://www.myylm.com/ 有时候想跟其他使用者线上文字对话,但又不想把自己的联络资料(例如 Facebook 或即时通讯帐号)泄漏给对方,有些人可能会选择申请一个临时使用的帐号,但这未免也太麻烦!其实只要透过浏览器,即可开启临时、随用即丢的线上聊天室,无须额外下载或安装任何软体。https://hacpai.com/article/1513321324939
18.im即时通讯在线聊天源码系统开发2. 对于服务器架构的问题,可以采用更加分布式的架构,这样既可以降低成本,也可以提升稳定性。 3. 针对用户使用习惯,增强服务的个性化和差异化。 四、IM即时通讯在线聊天源码系统开发常见问题 1. IM即时通讯系统的性能问题怎么解决 答IM即时通讯在线聊天源码系统需要在不影响性能的情况下快速响应用户需求,性能非常重要。http://changsha.11467.com/info/21278571.htm