美团 浙大等打造全流程移动端多模态大模型MobileVLM 骁龙888实时运行 (美团浙江)

admin 2024-11-13 51 0

本文目录导航:

骁龙888实时运行,美团、浙大等打造全流程移动端多模态大模型MobileVLM

大模型移动化趋势显著,美团、浙大等机构近期推出一款名为MobileVLM的多模态大模型,专为移动端设计,具备LLM基座训练、SFT、VLM全流程能力。

此模型采用面向移动端的架构与技术,包括1.4B和2.7B参数的语言模型、以CLIP方式预训练的多模态视觉模型,以及高效的跨模态交互技术。

MobileVLM在视觉语言基准测试中的表现可与大型模型媲美,同时在高通骁龙888 CPU和英伟达Jeston Orin GPU上展现了最快的推理速度。

MobileVLM是为移动设备打造的快速、强大、开放的视觉语言助手,结合了优化的移动端架构与技术,拥有1.4B和2.7B参数的语言模型、以CLIP方式预训练的视觉模型,以及高效的跨模态交互技术。

它在多种视觉语言基准测试中表现出色,且在高通骁龙888 CPU和英伟达Jeston Orin GPU上实现最快速推理。

MobileVLM采用轻量级映射网络,将视觉特征压缩并优化视觉-文本模态对齐,使模型高效运行。

它以图像输入,通过视觉编码器提取视觉嵌入,设计轻量级映射网络处理视觉特征,为语言模型提供合适输入维度。

MobileVLM在速度和性能上都有显著优势,能够以自回归方式处理多模态输入,支持所有流行推理框架。

MobileVLM采用轻量级下采样映射网络,结合卷积增强位置信息,保留空间信息同时降低计算成本,运行速度快约81倍。

实验结果表明,MobileLLaMA 1.4B与TinyLLaMA 1.1B、Galactica 1.3B、OPT 1.3B和Pythia 1.4B等模型性能相当,MobileLLaMA 2.7B性能优于OpenLLaMA 3B,显示了MobileVLM的竞争力。

MobileVLM在多模态视觉语言任务上的性能评估显示,参数减少、训练数据有限的情况下,性能依然有竞争力,某些情况下甚至优于之前的多模态视觉语言模型。

带有LoRA的MobileVLM在6个基准上达到与全微调相当的性能。

MobileVLM在移动设备上的推理延迟测试中表现出色,在骁龙888 SoC和英伟达Jetson AGX Orin平台上运行速度极快。

MobileVLM经过广泛实验,选用了合适的视觉骨干网络和高效的映射网络,通过语言模型SFT等训练策略增强模型能力。

在主流VLM基准测试中,MobileVLM性能严格评估,显示在移动和物联网设备上具备前所未有的速度。

研究团队认为,MobileVLM将为移动设备、自动驾驶汽车上的多模态助手以及更广泛的AI机器人应用开辟新机遇。

美团 浙大等打造全流程移动端多模态大模型MobileVLM 骁龙888实时运行 (美团浙江)

MLLM(多模态大模型)的综述

文章将最近的代表性MLLM(多模态大模型)分为四类:Multimodal Instruction Tuning(M-IT)、Multimodal In-Context Learning(M-ICL)、Multimodal Chain-of-Thought(M-CoT)以及LLM-Aided Visual Reasoning(LAVR),并对此进行了详细阐述。

文章首先介绍了MLLM的三种学习范式:传统的SFT/Pretrain-finetune、Prompting和Instruction tuning。

Instruction tuning通过让LLM学会遵循指令,提高了零样本性能,从而在未见过的任务上实现推理。

接着,文章解释了M-IT(多模态指令调优)的数据和架构调整,包括调整现有的基准或使用self-instruct生成数据,以及将外部模态信息注入LLM,使其作为强推理器。

M-IT数据采用三元组(指令、多模态输入、真实响应)形式,通过公式进行目标函数表示。

收集数据的方法分为基于基准调整、self-instruct生成以及两者的结合。

基于基准调整,大量工作使用现有的基准构建指令格式数据集,如VQA和caption数据集。

Self-instruct通过生成新的指令数据,如LLaVA-Instruct-150k、ChatBridge、GPT4Tools、DetGPT等。

混合构成方法通过融合单模态和多模态数据探索不同训练策略,如MultiInstruct的混合指令微调、顺序指令微调和adapter-based顺序指令微调。

模态对齐是关键,因为LLM只能处理文本,因此需要将其他模态转换为文本格式。

可学习接口和专家模型是实现这一目标的方法。

可学习接口允许不同模态之间的高效连接,而专家模型则可以将多模态输入转换为语言,以便LLM直接理解。

评估方法分为闭集和开集。

闭集问题使用基准调整数据集进行评估,而开集则利用多模态对话,如LLaVA,通过手动评分、GPT评分和案例研究进行评估。

M-ICL(多模态上下文学习)不考虑训练,专注于推理,适用于解决视觉推理任务和教导LLM使用外部工具。

M-CoT(多模态推理链)模型使用可学习接口进行对齐,专家模型将图片描述合并到语言输入中。

学习范式包括finetune、训练免费的few-shot学习和zero-shot学习。

LAVR(LLM辅助视觉推理)基于额外工具或视觉基座模型,具有更强的通用能力、涌现能力和交互控制。

学习范式分为Training-free(few-shot和zero-shot)和Finetuning。

角色包括控制器、决策者和语义细化者,评估方法有基准指标和人工评估。

文章最后讨论了MLLM面临的挑战和未来方向,包括更高效的数据生成、跨模态对齐的改进、多模态任务的自动化决策和更全面的评估标准。

大模型(Large Model)常识综述(一)

大模型概述:大模型定义:大模型,指的是包含数十亿乃至数百亿个参数的神经网络模型,其特征包括规模巨大、多任务学习能力、强大计算资源需求及丰富的数据训练基础。

这些模型在自然语言处理领域广泛应用,推动了任务的革新,如文本分类、情感分析、摘要生成、翻译等。

大模型的出现是AI发展的重要方向之一。

大模型分类:主要分为大语言模型、计算机视觉、音频及多模态大模型。

本文重点整理大语言模型与多模态大模型相关内容,计算机视觉和音频的详细信息将另文补充。

大语言模型:专门用于处理自然语言的模型,参数规模与自然语言处理任务密切相关。

国内与国外的模型发展情况差异明显,国内部分模型虽然宣传强大,但实际算力有限,难以实现预期性能。

计算机视觉:待补充,涉及图像和视频的转换与理解。

多模态大模型:实现文、图、视频、音频之间的相互转换与融合,如经典双塔模型CLIP和ALBEF,展示了模型在多模态处理上的潜力。

大模型算力要求:大模型的训练和运行需要强大的计算资源,如Google的TPU、华为的升腾910、网络的V100等。

A100和H100的价格高昂,对普通用户构成挑战。

市场分析:AI项目数量激增,GitHub上的AI开源项目数量增长显著。

OpenAI在大模型领域占据主导地位,开源项目数量大幅增长。

生成式人工智能投融资创纪录,资金主要投向大模型开发和AI基础设施层。

应用层融资集中在AI数字代理、文本、图像、代码和音频生成工具。

应用分类:工具型应用:面向消费者市场,如聊天机器人、搜索引擎、文本工具、AI作画和代码工具等,竞争激烈,需要持续优化底层模型和算法。

通用软件:包括办公软件、企业服务、IT运维、软件开发、网络安全、数据智能等领域,竞争关键在于AI与场景/工作流的深度融合。

行业软件:涉及金融、医疗、教育、工业、游戏、法律等多个行业,生成式人工智能在游戏、法律、教育和电商等C端场景中应用较多,而医疗、金融和工业等B端场景中,生成式人工智能产品的成熟度较低。

智能硬件:包括智能汽车、机器人和智能终端等,与语音助手和数字代理AI Agent结合,改善感知和生成能力,提升用户体验。

但产品门槛相对较低,数字代理AI Agent的感知与决策能力仍存在挑战。

商业模式:生成式人工智能产品的商业模式多样,包括功能订阅、按量付费和产品销售等方式。

C端应用中,功能订阅和按量付费较为成熟;B端应用则还包括提供解决方案等。

社区:网络在社区运营中表现出色,千帆和飞浆定位清晰,内容丰富且与网络云无缝连接。

阿里云社区则表现不佳,ModelScope的应用提交质量参差不齐。

国内的OpenXLab社区提供了不错的应用体验。

Hugging Face作为机器学习界的GitHub,提供了全面的模型、数据集、应用、文档和服务支持。

评论(0)