深度学习用于视频分析应用探讨--怡心湖

深度学习在视频分类上的应用还处于起步阶段，未来还有很多工作要做。描述视频的静态图像特征可以采用从ImageNet上学习得到的深度模型，难点是如何描述动态特征。以往的视觉研究方法对动态特征的描述往往依赖于光流估计、对关键点的跟踪和动态纹理。如何将这些信息体现在深度模型中是个难点。最直接的做法是将视频视为三维图像，直接应用卷积网络在每一层学习三维滤波器。但是这一思路显然没有考虑到时间维和空间维的差异性。另外一种简单但更加有效的思路是，通过预处理计算光流场或其他动态特征的空间场分布，作为卷积网络的一个输入通道。也有研究工作利用深度编码器（deep autoencoder）以非线性的方式提取动态纹理。最新，长短时记忆网络（Long Short-Term Memory，LSTM）受到业界广泛关注，它可以捕捉长期依赖性，对视频中复杂的动态建模。

继续阅读：深度应用分析

此文由怡心湖编辑，若您觉得有益，欢迎分享转发！：首页 > 常识论 » 深度学习用于视频分析应用探讨

相关推荐