多模态大模型 MLLM 的综述 (多模态大模型是什么)

admin 2024-11-13 69 0

本文目录导航:

MLLM(多模态大模型)的综述

文章将最近的代表性MLLM(多模态大模型)分为四类:Multimodal Instruction Tuning(M-IT)、Multimodal In-Context Learning(M-ICL)、Multimodal Chain-of-Thought(M-CoT)以及LLM-Aided Visual Reasoning(LAVR),并对此进行了详细阐述。

文章首先介绍了MLLM的三种学习范式:传统的SFT/Pretrain-finetune、Prompting和Instruction tuning。

Instruction tuning通过让LLM学会遵循指令,提高了零样本性能,从而在未见过的任务上实现推理。

接着,文章解释了M-IT(多模态指令调优)的数据和架构调整,包括调整现有的基准或使用self-instruct生成数据,以及将外部模态信息注入LLM,使其作为强推理器。

M-IT数据采用三元组(指令、多模态输入、真实响应)形式,通过公式进行目标函数表示。

收集数据的方法分为基于基准调整、self-instruct生成以及两者的结合。

基于基准调整,大量工作使用现有的基准构建指令格式数据集,如VQA和caption数据集。

Self-instruct通过生成新的指令数据,如LLaVA-Instruct-150k、ChatBridge、GPT4Tools、DetGPT等。

混合构成方法通过融合单模态和多模态数据探索不同训练策略,如MultiInstruct的混合指令微调、顺序指令微调和adapter-based顺序指令微调。

模态对齐是关键,因为LLM只能处理文本,因此需要将其他模态转换为文本格式。

可学习接口和专家模型是实现这一目标的方法。

可学习接口允许不同模态之间的高效连接,而专家模型则可以将多模态输入转换为语言,以便LLM直接理解。

评估方法分为闭集和开集。

闭集问题使用基准调整数据集进行评估,而开集则利用多模态对话,如LLaVA,通过手动评分、GPT评分和案例研究进行评估。

M-ICL(多模态上下文学习)不考虑训练,专注于推理,适用于解决视觉推理任务和教导LLM使用外部工具。

M-CoT(多模态推理链)模型使用可学习接口进行对齐,专家模型将图片描述合并到语言输入中。

学习范式包括finetune、训练免费的few-shot学习和zero-shot学习。

LAVR(LLM辅助视觉推理)基于额外工具或视觉基座模型,具有更强的通用能力、涌现能力和交互控制。

学习范式分为Training-free(few-shot和zero-shot)和Finetuning。

角色包括控制器、决策者和语义细化者,评估方法有基准指标和人工评估。

文章最后讨论了MLLM面临的挑战和未来方向,包括更高效的数据生成、跨模态对齐的改进、多模态任务的自动化决策和更全面的评估标准。

多模态大模型 MLLM 的综述 (多模态大模型是什么)

盘点国内12家互联网公司的AI大模型

随着人工智能技术的蓬勃发展,AI在日常生活、工作、娱乐等多领域带来了前所未有的变革。

在中国,众多互联网巨头纷纷投入AI大模型的研发,以下是12家国内互联网大厂的AI大模型盘点,供您了解和参考。

网络的文心大模型,/,是一个通用的多模态大模型,能够处理文本、语音、图片、视频等多种数据类型,展现其在自然语言处理、图像识别、语音合成等方面的强大能力。

文心一言作为其面向用户的交互界面,能够进行高质量的对话交流,提供个性化内容创作、知识问答、智能建议等服务。

阿里巴巴的通义大模型,/,专注于语言处理,具备写作、诗歌创作、代码生成等多样能力,显著提升内容创作效率和创意。

通义千问作为面向用户的产物,能够解答问题、创作文本、提供信息查询等服务,体现了阿里巴巴在自然语言处理领域的前沿探索。

腾讯的混元大模型,/,是一个以较低训练成本和快速训练速度为特点的语言大模型,优化了模型的实用性和经济性。

腾讯元宝作为应用成果,为个人和企业提供智能化辅助,如文档处理、信息整合、会议管理等,提升了工作效率和用户体验。

华为的盘古大模型,/,涵盖了基础通用模型及NLP、视觉、气象等多个垂直领域的行业模型,形成了多层次布局。

该模型在基础研究和实际应用中展现出强大的泛化能力和行业适应性,尤其是在矿山、气象、药物分子预测等领域取得显著成效。

字节跳动的豆包大模型,/product/...,通过内部实践和大使用量持续优化,提供多模态能力,为企业和个人用户打造丰富业务体验。

科大讯飞的星火大模型,/spark,是一款先进的人工智能大模型,具备强大的语言理解和知识库覆盖能力,广泛应用于智能客服、教育、医疗等领域,实现高效、精准的语义理解和推理。

知乎的知海图AI,/ai/search,作为一款大语言模型,初步应用于热榜摘要生成,快速提炼和总结热点话题,为用户提供简洁、精确的信息概览。

昆仑万维的天工,/home/w...,作为对标ChatGPT的双千亿级大语言模型,代表国内大模型研发领域的先进水平。

麒麟合盛的天燕大模型AiLMe,/#...,参数量达到1000亿,支持多元数据处理,为用户提供全方位智能服务。

360集团的360智脑,/,是结合搜索技术和大语言模型的智能搜索引擎,提供精准个性化搜索结果,保障用户安全可靠的搜索体验。

网易的玉言,/,参数量达到110亿,是中国市场定制的中文预训练大模型,应用于语言助手、文本创作、新闻传媒、智能客服等领域,展现本土文化习惯的智能服务。

京东的言犀大模型,/,是一个千亿级参数模型,面向零售、金融等领域提供智能解决方案,推动产业智能化升级。

以上是12家互联网巨头的AI大模型,根据实际需求选择合适的AI技术应用。

最强多模态大语言模型ASMv2!上海AI Lab提出The All-Seeing Project V2!

全视项目V2提出了一种新的多模态大型语言模型,ASMv2,旨在理解图像中对象之间的关系。

该模型集成关系对话能力,通过统一任务整合文本生成、对象定位和关系理解,不仅在识别图像对象方面表现出色,还能准确把握它们之间的复杂关系。

ASMv2在关系感知基准上取得显著优势,总体准确率高达52.04%,远超LLaVA-1.5的43.14%。

为了促进MLLMs在关系理解方面的训练与评估,项目创建了首个高质量的ReC数据集AS-V2,与标准指令调整数据格式一致。

设计的基于循环的关系探测评估(CRPE)用于全面评估模型关系理解能力。

通过对比实验,ASMv2在多种图像级和区域级任务上展现卓越性能,优于当前领先模型。

评论(0)