怡心湖

融合知识的特征表达学习

伴随着深度学习技术的不断发展,大规模视觉数据集的大量涌现5以及硬件资源的快速更新(例如GPU、FPGA等),传统的视觉理解任务(例如图像分类、物体检测、语义分割等)已经取得了巨大的进展,精确度甚至超过了人类。现有的深度学习侧重于设计更优的网络结构,例如目前工业界和学术界常用的VGG网络、谷歌网络和残差网络等。然而,视觉场景的理解不仅仅依赖于其外观和几何信息,还依赖于高层常识知识的引导和推理。人类之所以可以更好地理解其所看到的场景,就是因为人类了解很多领域关联的先验知识,并能够基于这些知识进行学习和推理。而现有的大多数视觉理解算法依赖于大量标注数据拟合大量参数进行预测,忽略了这些先验知识,在一定程度上限制了其性能的提升,并存在一些问题:(1)缺乏有效的引导,机器难以自适应地挖掘具有判别性的视觉特征;(2)难以泛化到只具有少量样本的类别;(3)把深度网络当成黑盒使用,无法进行有效的推理,缺乏可解释性。另一方面,为适应智能机器人、无人汽车等产业的高速发展,视觉任务从简单的分类、检测,发展到更精细、更丰富的高层场景信息理解(例如物体视觉关系分析、视觉问答、机器人任务规划等)这一类任务若仅依赖于场景的外观信息进行建模是难以完成的,更需要常识知识的引导和推理。

此文由 怡心湖 编辑,若您觉得有益,欢迎分享转发!:首页 > 常识论 » 融合知识的特征表达学习

()
分享到:

相关推荐