日期:2025/04/02 14:01来源:未知 人气:55
今天分享的是:大模型专题:小米大模型端侧部署落地探索
报告共计:34页
小米大模型算法工程师黄武伟在AiCon全球人工智能开发与应用大会上探讨了小米大模型端侧部署落地相关内容。首先阐述了端侧AI的重要性,其具有隐私安全有保障、可靠性高、成本效益好、能提供个性化服务等优势,小米因端侧设备数量大且软件×硬件的AI战略需要,将轻量化、本地部署作为大模型技术主力突破方向。接着分析了LLM端侧部署面临的挑战,包括硬件差异,如服务器GPU与手机端在计算能力、内存、功耗、带宽等方面的不同,6B模型在手机内存中存在分片问题,以及端侧推理速度不优化时远低于人类阅读速度。然后介绍了相关技术探索,如通过减少计算量(剪枝、量化)和减小数据搬运(剪枝、量化、投机推理)来优化推理时延,其中剪枝有多种方法和校准目标,量化需考虑多种因素,投机推理可充分利用算力并减少带宽压力。最后对小米在高通/天玑GPU、高通平台NPU、天玑平台NPU等平台上进行的MiLM端侧部署实践进行总结,模型大小为1.3B - 6.7B,并对未来发展方向进行展望,即朝着更强、更融合的方向发展。
以下为报告节选内容