始智AIwisemodel.cn社区是源自中国的中立开放的AI开源社区。正在,欢迎加入共同成长。wisemodel社区上线,H800/H20等资源上线,价格实惠,灵活方便,支持在线微调训练模型,及和,并。
在人工智能飞速发展的浪潮中,多模态大模型(MLLMs)在计算机视觉、自然语言处理和多模态任务里起着关键作用。只是,移动设备和边缘设备硬件资源有限,能效要求又高,要把这些模型成功部署上去,长期以来都是棘手难题。
在这一背景下,轻量级多模态模型Ivy-VL成为面向移动端多模态模型的新代表。它解决了多模态大模型在端侧部署时面临的硬件资源受限、能效不足及难以满足多模态任务需求等问题。
该模型由AISafeguard联合卡内基梅隆大学、斯坦福大学开发,它的出现既推动了移动端AI应用的发展,也为更多设备在低功耗环境下运行先进AI技术提供了基础。Ivy-VL模型已上线始智AI-wisemodel开源社区,欢迎前去体验。
模型地址
01.
模型亮点
1.极致轻量化
Ivy-VL的参数量仅为3B,极大地降低了计算资源需求,与7B以几十B的多模态模型相比,具有更小的硬件占用。模型可高效运行于AI眼镜、智能手机等资源受限的设备上。
2.卓越性能
Ivy-VL在多个多模态榜单中夺得SOTA(state-of-the-art)成绩。通过精优化的数据集训练,Ivy[1]VL展现了远超同类模型的性能,证明了小模型同样可以实现突破。
在专业多模态模型评测榜单OpenCompass上,做到4B以下开源模型第的性能。超越了顶尖的端侧SOTA模型,包括Qwen2-VL-2B、InternVL2-2B、InternVL2.5-2B、SmolVLM-Instruct、Aquila-VL-2B以及PaliGemma3B等模型。
3.低延迟和高响应速度
3B的LLM模型大小,显著提升了Ivy-VL的响应速度,确保其在端侧设备上实现实时推理。在生成速度、能效比和准确率之间,达到了完美平衡。
4.强大的跨模态理解能力
Ivy-VL基于LLaVA-One-Vision,结合先进的视觉编码器(google/siglip-so400m-patch14-384)与强大的语言模型(Qwen2.5-3B-Instruct),Ivy-VL在视觉问答、图像描述、复杂推理等任务中表现优异,完美满足端侧应用的多模态需求。
5.开放生态
Ivy-VL将模型开源,并且允许商用,方便开发者快速上手。无论是AI创新团队还是个人开发者,都可以利用Ivy-VL构建自己的多模态应用。
02.
核心应用场景
Ivy-VL为多模态大模型的边缘部署和普及开创了全新可能。无论是推动移动设备AI应用,还是服务于广泛的IoT设备,Ivy-VL都在积极赋能各个领域。
智能穿戴设备:支持AI眼镜实现实时视觉问答,辅助增强现实(AR)体验。
手机端智能助手:提供更智能的多模态交互能力,让手机用户体验更自然的AI服务。
物联网设备:助力智能家居和IoT场景实现更高效的多模态数据处理。
移动端教育与娱乐:在教育软件中增强图像理解与交互能力,推动移动学习与沉浸式娱乐体验。
03.
测试用例
Ivy-VL在科学自然问题中获得了很好的性能,可以发现在第一张图中,Ivy-VL能准确识别是哪个生物体的生命周期,第二张图中判断图中哪个阶段代表冬至。
在推理和图表问题中,可以看出,在第一张图中,Ivy-VL可以准确的识别出图中量杯的总容积是多少。第二张图中,需要进行的推理问题,模型同样给出正确的答案。
Ivy-VL标志着轻量级多模态模型在端侧设备上的一次重要突破。未来,研究团队将持续优化模型,进一步提升其在视频模态任务中的表现,并探索更多行业应用场景。
编辑丨赵雅鑫
-----END-----
系统升级:
系列模型:
关于wisemodel更多
1
2
欢迎加盟wisemodel开源社区
3
欢迎投稿优质内容
4
关于wisemodel开源社区
始智AIwisemodel.cn开源社区由清华校友总会AI大数据专委会副秘书长刘道全创立,旨在打造和建设中立开放的AI开源创新社区,将打造成“HuggingFace”之外最活跃的AI开源社区,汇聚主要AI开源模型、数据集和代码等,欢迎高校科研院所、大型互联网公司、创新创业企业、广大个人开发者,以及政府部门、学会协会、联盟、基金会等,还有投资机构、科技媒体等,共同参与建设AI开源创新生态。