多模态语义理解是人工智能领域的热点研究问题。文本和图片理解也成为了大规模神经网络的应用问题。目前,主流的多模态预训练模型往往会采用较强的数据关联假设:对于输入的数据,多个模态间的数据存在较强的语义相关性。例如,针对生日蛋糕图片,模型会假设对应类似“水果蛋糕上有一些蜡烛在燃烧”这样描述性的文本。现有模型基于这种强相关的假设学习模态间的特征交互。然而,在实际应用场景中,这种强假设往往并不成立,例如数据中存在噪音或者不可预期的标注性文本。基于强假设的方法学习弱相关的数据模式,可能会影响最后的模型效果。北京智源人工智能研究院、中国人民大学和中科院计算所的研究团队开展了大规模中文多模态预训练模型的研究,并提出了文澜模型,旨在提升预训练模型在中文通用多模态数据上的理解能力。
此文由 怡心湖 编辑,若您觉得有益,欢迎分享转发!:首页 > 常识论 » 国内自主研发的文澜语义理解AI模型介绍