近年来,基于多模态数据的语义理解与认知探索成为了人工智能领域的一个重要研究热点,旨在使计算机拥有针对多种模态数据的表示、计算与推理能力。实际上,人类的认知是基于多模态信息产生的,比如人可以同时利用视觉和听觉信息理解说话者的情感,可以通过视觉信息补全文本中的缺失信息等。多模态数据建模是使模型模仿人类处理多模态信息的方式,将不同模态信息进行融合,学习不同模态信息之间的关联,从而可以融合视觉、听觉和自然语言信息,进行数据语义的综合理解。多模态预训练模型是学术界内一种流行的通用技术范式,能够利用互联网上大量无标注的多模态数据设计自监督的学习任务,从而进行模型的学习,达到对数据的语义理解。
此文由 怡心湖 编辑,若您觉得有益,欢迎分享转发!:首页 > 常识论 » 浅谈中文多模态的预训练模型