「线上闭门会」由智猩猩全新升级推出,将邀请行业、领域专家担任出品人进行策划,探讨人工智能、自动驾驶领域中的最新技术研究与应用。
随着深度学习技术的飞速发展,尤其是最近涌现出的大型基础模型,人工智能领域正在发生翻天覆地的变化。这些模型在图像识别、自然语言处理等各种任务上取得了显著的突破,显示出巨大的潜力。然而,这些大模型往往具有庞大的参数量、计算量和功耗,这给它们的实际应用带来了一定的挑战。特别是在资源受限的环境中,如何实现高效深度学习成为了一个亟待解决的问题。
本次闭门会,MonashUniversity长聘助理教授庄博涵、麻省理工学院在读博士朱力耕和商汤科技研究副总监龚睿昊参与主讲。他们将分别围绕主题《大模型的高效微调和部署》、《边缘设备上的大模型微调训练》和《大语言模型量化和LightLLM高性能推理部署系统设计》,从不同的角度探讨如何提高大模型的效率和性能,并为实际应用场景提供有效的解决方案。
出品人
主题介绍
MonashUniversity长聘助理教授庄博涵:大模型的高效微调和部署
本次闭门会,庄博涵将介绍近两年ZIPLab在高效深度学习领域的部分研究成果,涵盖了从训练、部署到推理的整个流程,例如参数高效微调、可缝合神经网络、高效注意力机制和大模型压缩算法等。
庄博涵是MonashUniversity长聘助理教授、博士生导师,ZIPLab独立PI。目前他专注于高效机器学习算法和理论研究,以及它们在视觉和语言领域的应用,近年来在计算机视觉和机器学习领域的顶级国际会议(如CVPR、NeurIPS)和期刊(如TPAMI)上发表了40多篇论文。他还承担了多个业界项目,部分研究成果已经被业界广泛引用,并转化为工业界实际应用工具,还曾担任多个知名学术会议的高级委员会成员,包括ICML、NeurIPS、ICLR、CVPR和ICCV等。
麻省理工学院在读博士朱力耕:边缘设备上的大模型微调训练
设备上的学习和高效微调可实现持续且保护隐私的定制(例如,根据个性化数据在本地微调大型语言模型)。然而,现有的训练框架是为具有强大加速器(例如GPU、TPU)的云服务器设计的,缺乏对边缘学习的优化,面临资源限制和边缘硬件多样性的挑战。
本次闭门会,朱力耕将介绍一个可在各种边缘设备上进行微调的、微型、稀疏且高效的引擎PockEngine。PockEngine支持稀疏反向传播。它会修剪反向图并通过测量内存节省和延迟减少来稀疏更新模型,同时保持模型质量。
同时,PockEngine也支持多种应用程序、前端(PyTorch/TensorFlow/Jax)和硬件后端(CPU/GPU/DSP)。与现成的TensorFlow(RaspberryPi)相比,PockEngine实现了高达15倍的加速,节省了5.6倍的内存反向传播(JetsonOrin)。值得注意的是,PockEngine能够以550个令牌/秒的速度在NVIDIAJetsonOrin上微调LLaMA2-7B,比PyTorch快7.9倍。
朱力耕师从韩松教授,研究方向主要集中在高效深度学习系统和算法之间。他设计了第一个软硬协同的AutoML算法并可以扩展到大规模的数据集的算法ProxylessNAS,迄今已有1400引用和1300Githubstars,并开发了高效推理系统和深度学习训练系统,项目已经被整合到PyTorch和AutoGluon等框架中,曾被麻省理工学院新闻和IEEESpectrum等媒体报道。
商汤科技研究副总监龚睿昊:大语言模型量化和LightLLM高性能推理部署系统设计
大语言模型动辄上千亿的参数量对于各种平台的高效、低成本部署带来了更大挑战。模型量化和高效的推理系统设计成为提高LLM推理效率的关键。
龚睿昊是商汤科技研究副总监、模型工具链团队负责人,主要负责工业级模型工具链,包括大规模模型训练、多平台部署、模型压缩和软硬件协同技术体系。通过算法和工具实现规模化工业落地,支持智慧城市、智能驾驶、AIOT、手机场景等大量业务模型的模型生产,团队支撑了商量等商汤大模型体系的底层技术搭建,致力于ML+System的综合效率提升。他在ICLR、NeuIPS、CVPR、ICCV、IJCV等期刊会议发表二十余篇论文,多次获得低功耗计算机视觉比赛LPCV冠军、无人机追逐赛亚军等奖项。
报名方式
此次线上闭门会设有专属交流群,将邀请出品人和三位主讲人入群。通过报名的用户将可以受邀入群,并可获得直播地址进行观看。