怡心湖

深度学习用于视频分析应用探讨

深度学习在视频分类上的应用还处于起步阶段,未来还有很多工作要做。描述视频的静态图像特征可以采用从ImageNet上学习得到的深度模型,难点是如何描述动态特征。以往的视觉研究方法对动态特征的描述往往依赖于光流估计、对关键点的跟踪和动态纹理。如何将这些信息体现在深度模型中是个难点。最直接的做法是将视频视为三维图像,直接应用卷积网络在每一层学习三维滤波器。但是这一思路显然没有考虑到时间维和空间维的差异性。另外一种简单但更加有效的思路是,通过预处理计算光流场或其他动态特征的空间场分布,作为卷积网络的一个输入通道。也有研究工作利用深度编码器(deep autoencoder)以非线性的方式提取动态纹理。最新,长短时记忆网络(Long Short-Term Memory,LSTM)受到业界广泛关注,它可以捕捉长期依赖性,对视频中复杂的动态建模。

此文由 怡心湖 编辑,若您觉得有益,欢迎分享转发!:首页 > 常识论 » 深度学习用于视频分析应用探讨

()
分享到:

相关推荐