单目深度估计技术进展综述
单幅图像深度估计是计算机视觉中的经典问题,对场景的3维重建、增强现实中的遮挡及光照处理具有重要意义.本文回顾了单幅图像深度估计技术的相关工作,介绍了单幅图像深度估计常用的数据集及模型方法.根据场景类型的不同,数据集可分为室内数据集、室外数据集与虚拟场景数据集.按照数学模型的不同,单目深度估计方法可分为基于传统机器学习的方法与基于深度学习的方法.基于传统机器学习的单目深度估计方法一般使用马尔可夫随机场(MRF)或条件随机场(CRF)对深度关系进行建模,在最大后验概率框架下,通过能量函数最小化求解深度.依据模型是否包含参数,该方法又可进一步分为参数学习方法与非参数学习方法,前者假定模型包含未知参数,训练过程即是对未知参数进行求解;后者使用现有的数据集进行相似性检索推测深度,不需要通过学习来获得参数.对于基于深度学习的单目深度估计方法本文详细阐述了国内外研究现状及优缺点,同时依据不同的分类标准,自底向上逐层级将其归类.第1层级为仅预测深度的单任务方法与同时预测深度及语义等信息的多任务方法.图片的深度和语义等信息关联密切,因此有部分工作研究多任务的联合预测方法.第2层级为绝对深度预测方法与相对深度关系预测方法.绝对深度是指场景中的物体到摄像机的实际距离,而相对深度关注图片中物体的相对远近关系.给定任意图片,人的视觉更擅于判断场景中物体的相对远近关系.第3层级包含有监督回归方法、有监督分类方法及无监督方法.对于单张图片深度估计任务,大部分工作都关注绝对深度的预测,而早期的大多数方法采用有监督回归模型,即模型训练数据带有标签,且对连续的深度值进行回归拟合.考虑到场景由远及近的特性,也有用分类的思想解决深度估计问题的方法.有监督学习方法要求每幅RGB图像都有其对应的深度标签,而深度标签的采集通常需要深度相机或激光雷达,前者范围受限,后者成本昂贵.而且采集的原始深度标签通常是一些稀疏的点,不能与原图很好地匹配.因此不用深度标签的无监督估计方法是研究趋势,其基本思路是利用左右视图,结合对极几何与自动编码机的思想求解深度.
机器学习、深度估计、3维重建、深度学习
24
TP301.6(计算技术、计算机技术)
国家重点研发计划项目;国家自然科学基金项目;高等学校学科创新引智计划项目
2020-03-18(万方平台首次上网日期,不代表论文的发表时间)
共17页
2081-2097