MLLM 的综述 多模态大模型 (mel中的m)

admin 2024-11-13 62 0

本文目录导航:

MLLM(多模态大模型)的综述

文章将最近的代表性MLLM(多模态大模型)分为四类:Multimodal Instruction Tuning(M-IT)、Multimodal In-Context Learning(M-ICL)、Multimodal Chain-of-Thought(M-CoT)以及LLM-Aided Visual Reasoning(LAVR),并对此进行了详细阐述。

文章首先介绍了MLLM的三种学习范式:传统的SFT/Pretrain-finetune、Prompting和Instruction tuning。

Instruction tuning通过让LLM学会遵循指令,提高了零样本性能,从而在未见过的任务上实现推理。

接着,文章解释了M-IT(多模态指令调优)的数据和架构调整,包括调整现有的基准或使用self-instruct生成数据,以及将外部模态信息注入LLM,使其作为强推理器。

M-IT数据采用三元组(指令、多模态输入、真实响应)形式,通过公式进行目标函数表示。

收集数据的方法分为基于基准调整、self-instruct生成以及两者的结合。

基于基准调整,大量工作使用现有的基准构建指令格式数据集,如VQA和caption数据集。

Self-instruct通过生成新的指令数据,如LLaVA-Instruct-150k、ChatBridge、GPT4Tools、DetGPT等。

混合构成方法通过融合单模态和多模态数据探索不同训练策略,如MultiInstruct的混合指令微调、顺序指令微调和adapter-based顺序指令微调。

模态对齐是关键,因为LLM只能处理文本,因此需要将其他模态转换为文本格式。

可学习接口和专家模型是实现这一目标的方法。

可学习接口允许不同模态之间的高效连接,而专家模型则可以将多模态输入转换为语言,以便LLM直接理解。

评估方法分为闭集和开集。

闭集问题使用基准调整数据集进行评估,而开集则利用多模态对话,如LLaVA,通过手动评分、GPT评分和案例研究进行评估。

M-ICL(多模态上下文学习)不考虑训练,专注于推理,适用于解决视觉推理任务和教导LLM使用外部工具。

M-CoT(多模态推理链)模型使用可学习接口进行对齐,专家模型将图片描述合并到语言输入中。

学习范式包括finetune、训练免费的few-shot学习和zero-shot学习。

LAVR(LLM辅助视觉推理)基于额外工具或视觉基座模型,具有更强的通用能力、涌现能力和交互控制。

学习范式分为Training-free(few-shot和zero-shot)和Finetuning。

角色包括控制器、决策者和语义细化者,评估方法有基准指标和人工评估。

文章最后讨论了MLLM面临的挑战和未来方向,包括更高效的数据生成、跨模态对齐的改进、多模态任务的自动化决策和更全面的评估标准。

MLLM 的综述 多模态大模型 (mel中的m)

大模型语言模型(llm)和大型多模态语言模型(lmm)有什么区别

大模型语言模型(LLM)与大型多模态语言模型(LMM)的区别在于输入与应用场景。

一般提及大语言模型,多指文本输入的模型。

多模态大语言模型则能接受文本、图片、视频、音频等多样格式输入,例如图像到视频的生成即是LMM的应用。

LLM的模型架构多基于Transformer,而LMM则可能融合更多模型类型,如CNN、RNN等。

LLM适用于文本相关的自然语言处理任务,如机器翻译、文本摘要、对话问答等。

LMM则侧重于多模态融合任务,如图像理解和生成、视频生成等,特别适用于智慧城市、智能制造、医疗健康等场景。

两类模型在应用领域各有侧重,共同覆盖广泛场景,是互补技术。

国内大模型/智能体盘点丨16家公司,13款大模型,19个智能体

在智能化快速发展的今天,大模型(Large Language Models)作为推动行业变革的关键力量,正在深入到社会经济的各个角落,国内也不例外。

众多科技公司和新兴企业纷纷布局,展示了16家领军公司和13款独具特色的大模型,以及19个基于这些模型的智能体,它们象征着技术创新的里程碑,也是未来智能应用的开启钥匙。

月之暗面科技的Kimi智能助手,凭借自然语言处理和长文本处理能力,为用户提供高效交互体验,体现了公司不断探索和创新的AI技术。

科大讯飞的“讯飞友伴”通过星火认知大模型V3.0,将虚拟人对话能力提升到惊人的水平,用户可以创建个性化的虚拟伙伴,体验沉浸式对话。

百川智能的百小应基于Baichuan 4基座大模型,不仅提供信息处理,还致力于成为理解用户需求的智能伴侣。

网络的文心智能体平台支持开发者根据场景开发智能体,而昆仑万维的天工SkyAgents则以自主学习和独立思考为特点,让用户轻松构建个性化应用。

智谱清言和实在Agent分别展示了自主AI助手的强大功能,前者具备丰富的生成和代码支持,后者则结合RPA和TARS大模型,成为超自动化业务专家。

欧姆智能体和BetterYeah则提供了自主决策和企业级应用开发平台,方便企业打造个性化服务。

华为的Pangu-Agent以元智能体框架挑战强化学习的局限,而ChatDev和腾讯元器分别支持AI代理开发和全链路自研大模型的应用,提升工作效率。

澜码科技的AskXBOT和Gnomic智能体平台则分别聚焦于企业级应用和多模态AI创作。

总结来说,国内大模型和智能体的繁荣景象,预示着人工智能的广泛应用和未来潜力。

这些智能工具和平台正在推动产业升级,优化社会运作,并深刻改变个人生活,为创新者提供了丰富的实践与灵感源泉。

评论(0)