2016年9月7日
By 1月时特约编辑
专题文章

质量比较难题

所有压缩人员都应该使用视频质量指标来做出与数据速率相关的压缩决策, 关键帧间隔, 以及其他设置. 不幸的是, 选择的数量之多，以及它们的相对功效所带来的噪音，让我们很难选择正确的衡量标准.

所有质量度量的黄金标准是受控的主观实验, 但是这些系统部署起来既麻烦又昂贵. 任何视频质量指标的技术衡量标准都是它对这些主观评分的预测程度.

最简单的质量度量是基于误差的度量，如均方误差(MSE)或峰值信噪比(PSNR)。, 它将压缩流中的像素与原始流中的像素进行比较，并测量它们的差异有多大. PSNR的问题在于，它并没有尝试对人眼实际感知或认为重要的差异进行优先排序.

这是否意味着你永远不应该使用PSNR? 好吧, 最近一次是在2015年12月, Netflix使用PSNR作为每个标题优化决策的基础, 尽管从那以后移动到视频多方法评估融合(VMAF)，我将在后面讨论. 所以在2015年12月还可以接受的东西在10个月后肯定不会是无用的. 尽管如此，作为一个纯粹的视觉质量指标，PSNR仍然处于低端.

下一类视频质量度量试图模拟人类视觉系统，以更准确地预测人眼如何评价视频. 有许多相对标准的算法，如结构相似度(SSIM)。, 多尺度结构相似度, 视频质量度量(VQM), 基于运动的视频完整性评估(MOVIE). 除了这些, 对于特定的工具，有些指标是独一无二的, 例如ClearView系统选项- sarnoff JND 视频清晰 tools; the difference mean opinion score (DMOS) available with 美国泰克's Picture Quality Analyzer (PQA); and the SSIMplus metric, which is available in the SSIMWave 视频体验质量监视器(SQM).

所有这些基于人类视觉系统的工具都声称预测实际的主观评分比PSNR要准确得多, 经常是彼此. 这个类的一个关键区别是特定于显示的度量的可用性, 因为在iPhone上看起来很棒的视频在4K电视上可能会显得颗粒状和块状. 此功能可在SSIMWave的SQM和泰克的PQA上使用.

所有这些指标都是基于相对静态的数学, 这会使不同视频类型的定制变得复杂，并减少随着时间的推移变得“更聪明”的机会. Netflix最近推出的开源指标, VMAF, 结合机器学习来避免这些限制. 具体地说, 训练系统, 你输入识别不同视频的数据集及其基于人类测试的主观分数，以训练系统改进自己的结果，使其更接近人类分数. 这有助于系统随着时间的推移而改进, 它还可以为不同的内容类型定制结果, 比如卡通片或运动. 不过，目前还不能根据显示类型自定义分数，不过这个功能即将实现. 它可能是开源的，但是VMAF还没有在零售工具中可用. 随着参数变得越来越先进，它们要么变得越来越难以获取，要么变得越来越昂贵(有时两者都有)。.

哪一类度量标准适合你? 你能负担得起的最好的. 请记住，一个设计良好的工具来应用度量也是同样重要的. 在某一时刻, 您将需要直观地回顾度量所报告的质量差异, 这个工具应该会使这个过程变得简单. 您还需要对多个文件进行自动化操作. 最后, 最复杂的工具, 比如泰克的PQA软件, 让您将测试重点放在特定的问题上, 例如工件或块检测, 使用完整的参考模型(与原始模型相比已压缩)和非参考模型(仅分析压缩文件), 哪个更快?). In short, it's not all about the algorithm; it's also about the tool that delivers it.

[本文发表于2016年9月号。 流媒体 杂志.]