主观测试建议书ITU-RBT500【官方中文版】

上传人:小** 文档编号:29759553 上传时间:2021-10-08 格式:DOC 页数:55 大小:1.50MB
收藏 版权申诉 举报 下载
主观测试建议书ITU-RBT500【官方中文版】_第1页
第1页 / 共55页
主观测试建议书ITU-RBT500【官方中文版】_第2页
第2页 / 共55页
主观测试建议书ITU-RBT500【官方中文版】_第3页
第3页 / 共55页
资源描述:

《主观测试建议书ITU-RBT500【官方中文版】》由会员分享,可在线阅读,更多相关《主观测试建议书ITU-RBT500【官方中文版】(55页珍藏版)》请在装配图网上搜索。

1、国际电信联盟ITU-R BT.500-13 建议书 11前言无线电通信部门的职责是确保卫星业务等所有无线电通信业务合理、平等、有效、经济地使用无线电频 谱,不受频率范围限制地开展研究并在此基础上通过建议书。无线电通信部门的规则和政策职能山世界或区域无线电通倍大会以及无线电通信全会在研尤组的支持下履 行。知识产权政策(IPR)ITU-R的IPR政策述于ITU-R第1号决议的附件1中所参引的 OTU-T/ITU-IUISO/IEC的通用号利政策。9 利持有人用T提交利声明和许可声明的表格可从http:/www itu mt/ITU-R/go/patents/en获得,在此处也可获取 ITU-T/r

2、rU-MSO/IEC的通用&利政策实施指南和ITU-Rt利信息数据库。ITU-R系列建议书(也可在线查 ifij http /wwwitu intpubl/RREC/en)系列标题BO BR BSBT FMP卫星传送用于制作、存档和播出的录制;电视电够 广播业务(声音)广播业务(电视)固定业务移动、无线电定位、业余和相关卫星业务 无线电波传播RARSS射电天文 遥感系统 卫星固定业务SA SFSN1SNGTFV空间应用和气象卫星固定业务和IA1定业务系统间的频率共用和协调 频谱管理卫星新闻采集时间侑号和频率标准发射词汇和相关问题说明:该rru-R建议书的英文版本根据rru.R第1号决议详述的程

3、序予以批准。电子出版2012年.日内瓦国际电联2012版权所有。未经国际电联书面许町.不得以任何手段复制本出版物的任何部分。ITU-R BT.500-13 建议书ITU-R BT.500-13建议书电视图像质量的主观评价方法(ITU-R81/6 号课题)(1974-1978-1982-1986-1990-1992-1994-1995-1998-1998-2000-2002-2009-2012 年)范围本建议书提供了图像质量的评价方法,包括通用测试方法、等级量表和观看条件。本建议书推 荐了双激励损伤屋表(DSIS)法利双激励连续质量量表(DSCQS)法,以及替代评价方法,比如单激励 (SS)法、

4、激励比较法、单激励连续质量评价(SSCQE)法和同时双激励连续评价(SDSCE)法。国际电联无线电通信全会,考虑到a) 已经收集了关于在各个实验室中使用的图像质量评价方法的大量资料;b) 对这些方法的考察表明,在不同的实验室之间,在测最的诸多方面存在着相当程度 的一致性;c) 采用一种标准的方法,对于在各个实验室之间交换信息极为重要;d) 某些负贵监测的工程师,在例行或特殊运行期间按照五级质量星表和五级损伤皐表 对图像的质量和/或损伤做例行或运行评价吋,也能利用为实验室评价推荐的方法的某些方 而;e) 数字编码和比特率压缩等新型电视信号处理的引入、使用时间复用分量的新型电视 信号的引入,以及增

5、强电视和HDTV等新业务可能的引入,都可能需要改变进行主观评价的 方法:f) 这类处理、信号和业务等的引入,使信号链中每一段信号的性能都有可能受到信号 链中之前各部分所进行的处理的制约,建议1 在实验室实验中,应采用下列各附件中所述的图像质量评价的通用测试方法、等级 量表和观看条件,且凡有可能,也应在运行评价中采用;在不远的将來,尽管存在可替代方法并会开发一些新方法,仍应尽可能采用本建议 书附件1的第4和第5节所述的那些方法;ITU-R BT.500-13 建议书#2 鉴于确定主观评价的基础很重要,在所有测试报告中应给出测试配置、测试素材.观察者和所用方法可能最全面的描述;3 为便于在不同的实

6、验室之间交换信息,应按照本建议书附件2中详述的统计技术处理收集到的数据。注1 -附件1给出了关于确定电视系统性能的主观评价方法的资料。注2-附件2给出了关于处理在主观测试过程中收集至I.的数据所用统计技术的说明。附件1评价方法说明1 引言主观评价方法用于确定电视系统的性能,采用的测暈能够更直接地预测可能观看受测系 统的人的反应。就此而言,可以认为用客观方法可能无法全面地描述系统的特性;因此,有 必要用主观测量作为客观测量的补充。总体而言,主观评价分为两大类。第一类评价是确定在最佳条件下系统的性能。这类评 价通常称为质最评价。第二类评价是确定在与传输或发射有关的非最佳条件下系统维持一定 质量的能

7、力。这类评价通常称为损伤评价。为开展适宜的主观评价,首先必须对那些与要解决的评价问题的目标和环境最符合的不 同选项进行选择。为帮助完成这一任务,除在第2节给出一般特性外,还在第3节提供了一些 每种方法要解决的评价问题的资料。第4和第5节则对两种主要的推荐方法做了详细说明。最 后,第6节给出了关于正在研究的替代方法的一般性资料。本附件的用途限于对评价方法进行详细说明。但选择最适宜的方法则由待测系统所针对 的业务目标决定。因此,特定应用的完整评价程序在其他建议书中给出。2共同的特性给出主观评价的通用观看条件。特定系统的主观评价所用的特定观看条件在相关建议书 中给出。2.1通用观看条件说明不同观看条

8、件的不同环境。ITU-R BT.500-13 建议书30.02= 0.01通过PLUGE建立(见ITU-R BT.814建议书和ITU-R BT.815 建议书)30= 0.1565低 100 120 1 533-4ITU-R BT.500-13 建议书#ITU-R BT.500-13 建议书#上表和上图旨在为关丁待定应用的建议书所采用的PVD和相关屏幕尺寸提供资料。ITU-R BT.500-13 建议书#2.1.3 监视器分辨率采用专业阴极射线管(CRT)的专业监视器在各自亮度工作范围内通常符合主观评价所需 的分辨率标准。并非所有监视器都能达到200 cd/m?的峰值亮度。可以提议对最大和最

9、小分辨率(屏幕中心和四角)进行检验和报告。采用消费型CRT的消费型电视机对主观评价而言,根据亮度值的不同,分辨率可能不 够。在这种情况下,强烈建议对最大和最小分辨率(屏幕中心和四角)进行检验和报告。目前在主观评价执行过程中,对检验监视器分辨率或消费型电视机分辨率來说最实用的 系统采用了由电子设备生成的扫描测试图形。可采用视觉分析來检验分辨率。视觉门限大致定为-12/-20 dBo这套方法的主要缺陷是 由荫罩产生的失真加大了视觉评价的难度,但另一方面,存在失真表明视频信号超出了荫罩 限定的范围,造成对视频信号的抽样不足。可建议对CRT的分辨率测试进行进一步研究。2.1.4 监视器对比度对比度可能

10、会受到环境照度的强烈影响。专业监视器的CRT很少采用技术措施提高高照度环境下的对比度,因此若在高照度环境 下使用,就有可能不符合要求的对比度标准。消费型CRT采用技术措施获得高照度环境下更强的对比度。要计算给定CRT的对比度,需要得到该CRT的屏幕反射系数K。最好的情况是,屏幕反 射系数近似为K = 6%。在/为200 lux的漫射环境下,K = 6%, 3.82 cd/皿,未激活显像管屏幕区的亮度反射采用 下式il算:代入给定的值,则反射的亮度(cd/m-)接近入射照度(lux)的2%。CRT正面的玻璃被认为不存在镜而反射,正面玻璃对对比度产生的确切影响难以量化, 因为这与照明条件有极大关系

11、。在第2.1.1和第2.1.2节中,对比度之比C7?由下式表示:CR = Lfnin / LmaxITU-R BT.500-13 建议书7式中:Lmin:在周围照度下未激活显像管屏珂区的亮度(cd/nP)(对于给定的值,Sin =厶未激活区+厶反射=3.82 cd/m2)Lmax:在周围照度下显像管白色区的奔度(cd/m?)(对于给定的值,Lmax = L、,hite + 乙反射=200 + 3.82 cd/m-) o采用上述各值算出CR = 0.018,与第2.1.1.1节的a)和第2.1.2.1节的町给出的值0.02相当接 近。2.2 源信号源信号提供直达基准图像,并作为待测系统的输入。对

12、于所用的电视标准而言应是最佳 质量的。在所演示的一对图像中,基准部分无缺陷是得到稳定结果的关键。以数字方式存储的图像和序列是最能再现的源信号,所以它们是优选的类型。它们还可 以在实验室之间交换,以使得系统的比较更有意义。还有可能会有录像带和计算机磁带格 式。在短期内,35 mm幻灯片扫描器为静止图像提供了一个优选信号源。所得到的分辨率对 于常规电视评价来说是足够的。胶片的色度和其他特性可能会给出与演播室摄像机图像不同 的主观印象。如果它会影响结果,应使用演播室直达信号源,不过这样做常常不太方便。一 般来说,为了得到尽可能高的主观图像质量,幻灯片扫描器应逐个图像进行调节,因为实际 情况将会如此。

13、顺流处理能力的评价常常是用背景调色来进行的。在演播室的匸作中,背景调色对演播 室的灯光特别敏感。所以评价宁愿使用特殊的背景调色幻灯片对,这样始终能给出高质量的 结果。如果需要,可在前景幻灯片中引入运动。在信号的形成过程中,早期阶段完成的任何处理所产生的效果都可能影响待测系统的性 能,因此常常会需要考虑这种影响是如何产生的。有鉴于此,如果希望检查信号链上分步处 理引起的损伤是如何累积的,则凡是在信号链中有可能引入处理失真的段上完成的测试,即 便处理失真不可见,最终信号最好也应透明地记录卜來,然后握供给顺流的肩续测试 这种 记录应保存在测试素材库中,将來根据需要使用,这些记录还应附上已录信号形成过

14、程的详 细说明。2.3 测试素材的选择确定电视评价中所需的测试素材的种类有好几种方式。不过在实践中,要解决特定的评 价问题,应采用特定种类的测试素材。表1给出了对典型评价问题的调查结果,以及对解决 这些问题所用的测试素材的调査结果。测试素材的选择*评价问题所用的素材采用普通素材的总体性能通用的.“严格但并不过分严格”容戢,严格应用(例如馈给,后期处理等)一定范南的,包括对待测应用来说极为严格的索材“自适应”系统的性能对于所用“fl适应”方案来说极为严恪的素材识别出弱点和可能的改进措施某种属性的严格素材识别出影响系统出现可见变化的因素范甬广泛、内容丰富的素材不同标准之间的转换对干不同之处(例如场

15、频)来说严格的責材*可以认为,所冇测试素材都可能足电视节目内容的一部分关丁选择测试素材的其他导则,见附件1的附录1和附录2某些参数可能会对大多数图像和圧列引起相似的损伤等级。在这些情况下,以非常少的 图像或序列(例如2个)所得到的结果仍然可能提供一种有意义的评价。但是,新系统常常会产生某种在很大程度上取决于场景内容或序列内容的影响。在这种 情况下,对于整个节目时间而言,将存在一种损伤槪率的统计分布和图像内容或序列内容的 统计分布。一般诸况下,不知道这种分布的形式,必须仔细选择测试素材和整理分析得到的 结果。通常,纳入严格素材是很重要的,因为在分析结果时可能要考虑这种情况,而从非严格 素材推断结

16、果则是不可能的。在场景内容或序列内容影响到结果的情况下,应选择对于受试 系统來说是“严格但不过分严格”素材。“但不过分严格” 一语指这些图像仍可能形成正常 节目时间的一部分。在这种情况下,至少要使用4个素材。例如,其中一半肯定是严格的, 另一半是中等严格的。一些组织已经开发了测试静止图像和序列。将來有里将其纳入到ITUR的框架内。 ITUR建议书中提出了一些具体的图像素材,用于各种应用的评价。关于选择测试素材的其他见解在附件1的附录1和附录2中给出。2.4条件的范围和锚定由于评价方法对可见条件的范围和分布很敏感,判断阶段应考虑变化因素的整个范围。 但可以将此逼近为一个更为严格的范围,与此同时体

17、现暈表中极值处的某些条件。这些极值 要么可由例子來表示并被确定为最大极值(直接锚定),要么分布在整个判断阶段内并被确 定为非最大极值(间接锚定)。ITU-R BT.500-13 建议书92.5 观察者根据评估的目标,观察考可能是专家或非专家。专家观察者对测试系统引入的图像具有 专长。非专家(“无知”)观察者对测试系统引入的图像不具备专长。无论怎样,不应使观 察者直接参与,从而在对所研究的系统的开发中旅握具体面详细的情况。在测试阶段开始之前,应对观察者进行筛选,使之对Snellen氏E字视力表或Landolt氏C 字视力表具有(校正至)正常的视敏度,并采用专门选定的表(例如石原氏色盲检查表)使

18、之具有(校正至)正常的彩色视觉。应使用至少15位观察者。所需评价者的数目取决于所用 测试程序的感受性和信度,并取决于所评估的影响的预期范闱。对于在一定范闱内开展的探 索性研究,可使用少于15位的观察者。在这种情况下,应将研究确定为“非正式”性质。观 察者评价电视图像质量的专业化知识应体现在报告中。对不同实验室得出的结果之间的一致性的研究表明,不同实验室得出的结果之间可以存 在系统性差别。在为提高某项实验的感受性和信度而综合若干不同实验室的结果时,这种差 别将显得尤为重要。对不同实验室之间的这种差别有一种可能的解释,也就是不同的评价者小组之间可能存 在不同的熟练程度。必须进一步探索,以评价这一假

19、设的有效性,并在得证的情况下对这一 因素引起的变化进行量化。但在过渡期间,实验者应纳入尽可能详细的评价人员的特点,以 促进对这一因素的进一步研究。建议提供的数据包括:职业类别(例如广播机构雇员、大学 生、办公室工作人员等),性别和年龄范围。2.6 评价须知应向评价考仔细介绍评价方法、容易产生的损伤类型或质量因素、分级最表、顺序及定 时。应采用训练序列说明要评价的损伤的范围和类型,所用图像不同于测试中要用的图像, 但具有可相比较的感受性。对于质量评价的情况,可以规定质量为具体的可感知属性。2.7 测试阶段一个测试阶段应持续半小时以内。第一阶段开始时,应播放5个左右“模拟演示”,以 稳定观察者的评

20、分。这几个演示中给出的数据不能在测试结果中考虑。如果需要若干测试阶 段,则在后续阶段开始时仅需要3个左右的模拟演示。演示的播放应采用随机顺序(例如从希腊拉丁方导出);但测试条件的顺序应加以安 排,使得疲倦或适应对分级的影响在不同测试阶段之间得以半衡掉。为检査相干性,有些演 示可在不同的测试阶段予以重复。ITU-R BT.500-13 建议书#ITU-R BT.500-13 建议书#训练序列图1测试阶段的演示结构Y111丨稳定序列(由此得出的 =结果不于处理)_空白(弟出时间冋符观班冇的问题)测试阶段的主要部分BT 0500-012.8结果的表示由于结果会在一定范围内变化,用绝对术语(例如图像质

21、量或图像序列的质星)來分析 从大多数评价方法中得出的判断就不合适了。对每一测试参数,必须给出评价等级的统计分布的均值和95%的置信区间。如果这种评 价认为损伤随参数值的变化而变化,则应使用曲线拟A技术。逻辑曲线拟A和对数轴将允许 采用直线表达方法,这是优选的表示形式。关于数据处理的其他资料在本建议书的附件2中 给出。结果必须与下列信息一起给出:- 测试配置的详情;- 测试素材的详情:- 图像源和显示监视器的类型(见注1):- 评价者的数目和类型(见注2);- 所用的基准系统:- 实验的总平均分:- 原始评分和调整后的平均分以及95%的置信区间,如果一位或多位观察者按下述程斥 被排除在外的话。注

22、1-有某种证据农明,显示器尺寸可能会影响上观评价的结果,因此要求实验者明确报告屏幕尺 寸,并指出任何实验中所用显示器的品牌和型号。注2-有证据显示,观看人员(更确切地说是非专家小组人员之间)熟练程度的差异会影响主观观看 评价的结果。为便于进一步研究这-因素的影响,要求实验者尽可能详细提供所使用的观看人员的 特性。相关因素包括:小组人员的年龄和性別构成,或者小组人员的教市程度或职业类别。3 测试方法的选择电视评价中采用了种类繁多的基本测试方法。但在实践中,解决特定的评价问题应采用 特定的评价方法。表2给出了对典型评价问题的调査结果,以及对解决这些问题所用的方法 的调查结果。ITU-R BT.50

23、0-13 建议书衣2测试方法的选择评价问题所用的方法说明测虽:系统相对于某一基准的质虽双激励连续质虽蚩表(DSCQS)法ITU-RBT 500建议书,第5节测蚩:系统的牢靠程度(即降质待性)双激励损伤虽:农(DSIS)法0)ITU-RBT 500建议K笫4节虽化系统的质虽(如果未提供基准的话)比率呈表法或类别虽表(正在研丸)ITU-RBT 1082 报告比较替代系统的质戢(如果未提供基准的话)r接比较法、比率虽表法或类别戢表 (正在研究)ITU-RBT 1082 报告识别出影响系统出现可感知垦别的因素并衡 虽这些因素的可感知彫响所用方法正在研究ITU-RBT 1082 报告确定损伤变为可见的那

24、一点迫选法中的门限估值虑调幣的方法(正在 研究)ITU-RBT 1082 报告确定系统圧否出现可感知差别迫选法(正在研充)ITU-RBT 1082 报告测虽:立体图像编码的质虽戏激励连续质戢虽表(DSCQS)法ITU-R BT 500建议书.第5节测戢两个受损视频序列之间的保貞度同时双激励连续评价(SDSCE)法ITU.RBT 500建议书.第6 4节比较不同的容借工具同时双激励连续评价(SDSCE)法ITU-RBT 500建议书.第6 4节对DSCQS和DSIS法开展了关丁书銀效应的一些研尢。研究发现.DSIS法会因萨垠效应而出现一定程度的偏星.苴他 细节在附件1的附录3给出。有些研究显示,

25、在能获得各种质戢的情况下,该方法更为稳定.III I-评价立体图像时右可能待别疲劳,一个测试阶段总的持续吋间应缩短为不到30 mm。4双激励损伤量表(DSIS)法(EBU法)4.1 总体说明典型的评价要么会要求评价一个新系统的损伤,要么会要求评价传输路径对损伤的影 响。对于测试组织者来说,第一步包括选择足够的测试索材,以便要进行的评价富有意义, 并确定应使用的测试条件。如果参数变化的影响受到关注,则有必要按照大致相等的为数不 多的儿个步长,选择覆盖损伤等级范围的一组参数值。而对参数值不是如此变化的新系统进 行评价时,要么需要加上附加的但主观上类似的损伤,要么应使用另一种方法,如第5节中 的方法

26、。双激励(EBU)法是一种交替方法,因为在这种方法中,评价者首先看到无损伤的基准 图像,然后乂看到受损伤的同一图像。随后要求评价者根据第一幅图像來评价第二幅。在持 续半小时以内的测试阶段里,向评价者以随机的顺序演示一系列带有随机损伤的图像或序 列,涵盖所有必要组合。背景效应无损伤的图像包含在这些待评图像或序列中。在一系列测 试阶段结束时,计算每一测试条件和测试图像的平均评分。该方法使用损伤量表,相对于较大的损伤而言,通常可以发现这种量表对较小的损伤可 得出更为稳定的结果。虽然该方法有时用于有限的损伤范围,但它更适合用于整个的损伤范ITU-R BT.500-13 建议书114.2总体布置观看条件

27、、源信号、测试素材、观测者以及结果的表示在第2节中做了规定或按照第2节 加以选择。测试系统的总体布置应如图2所示。DSIS法中测试系统的总体布置评价者观看的是一台评价显示器,其信号來自一个定时开关。与定时开关相连的信号通 路可直接连至源信号,也可通过待测系统间接连至源信号。评价者会看到一系列图像或序 列,它们是成对排列的,每对中的第一个是直达的白源信号,第二个是经过待测系统的相同 图像。4.3测试素材的演示一个测试阶段由多次演示组成。演示的结构有下述I和II两种变型。变型I:基准图像或序列以及测试图像或序列只演示一次,如图3a)所示。变型H:基准图像或序列以及测试图像或字列演示两次,如图3b)

28、所示。变型II比变型I费时,在需要鉴别的损伤非常小或待测的是活动序列时可以使用。4.4分级量表应采用五级损伤量表:5不可察觉4可察觉,但不讨厌3稍微讨厌2讨厌1很讨厌。ITU-R BT.500-# 建议书评价者应使用一种给出非常明确的量表的表格,有编了号的框或其方式來记录分级。4.5评价须知在每一测试阶段开始时,应向观察者解释评价类型、分级星表、顺序及定时(基准图 像、灰、测试图像、评分期)。应在图像中显示要评价的损伤的范围和类型,该图像不同于 测试中要用的图像,但具有可相比较的感受性。不能暗示看到的最低质量必须对应于最低的 主观等级。应要求观察者根据图像给出的总体印象來做出其判断,并把这种判

29、断用规定主观 尺度的措词來表示。应要求观察者在T1和T3的幣个持续时间内观看图像。只允许在T4期间内评分。图3测试素材的演示结构T1 T2 T3 T4a)变型IT1 T2 T3 T2 T1 T2 T3 T4_/评分b)变型II演示阶段:T1 = 10 s基准图像T2 = 3slll200 mV图像电平产生的中灰度场T3 = 10 s测试条件T4 = 5-ll s中灰度场实验界示.将T1和T3延长至10 s以上不会提高评价者确 定图像或序列的等级的能力。4.6测试阶段图像和损伤的演示应以伪随机顺序进行,每一测试阶段最好采用不同的序列。在任何情 况下,同一测试图像或序列,不管损伤程度是否相同,绝不

30、应连续演示两次。在选择损伤范圉时,应使得大多数观察者用到所有等级:应以总平均分(实验中所有判 断的平均值)接近3为目标。一个测试阶段应大致不超过半小时,包括解释和准备时间;测试M列可从表示损伤范圉 的几幅图像开始:对这几幅图像的判断在最后结果中不予考虑。关于损伤程度的其他见解在附件1的附录2中给出。5双激励连续质量量表(DSCQS)法5.1 总体说明一次典型的评价可能需要评价一个新系统的质量,或需要评价传输路径对质最的影响。 在无法提供可展示各种质最的测试激励和测试条件的情况下,双激励法被认为特别有用。该方法是一种交替方法,因为在这种方法中,要求评价者观看一对图像,每一个都来自 同一信号源,只

31、不过一个经过要检查的流程,另一个是直达的信号源。要求评价者评价二者 的质量。在持续半小时以内的各测试阶段里,向评价者以随机的顺序演示一系列带有随机损伤的 图像对(每对中两幅图像的顺序是随机的),涵盖所有必要的组合。在所有测试阶段结束 时,计算每一测试条件和测试图像的平均评分。5.2 总体布置观看条件、源信号、测试素材、观测者以及结果的表示在第2节中做了规定或按照第2节 加以选择。测试阶段的说明见第4.6节。测试系统的总体布S应如图4所示o5.3 测试素材的演示一个测试阶段由多次演示组成。对于只有一位观察者的变型I,每次演示时观察者都可 以在信号A和信号B之间自由转换,直到观察者得出与每一信号的

32、质量相关的心理尺度为 lllo对于同时有儿位观察者的变型II,在记录结果之前,条件对要显示一次或多次,每次持 续时间相同,以便让观察者得出与这一对条件的质量相关的心理尺度,然后再把条件对显示 一次或多次,同时记录结果。重复的次数取决于测试序列的长度。对于静止图像,使用34 s 的字列并重复5次(在最后2次期间评分)可能是合适的。对于受到时变扰动的活动图像, 10 s的仔列和2次重复(在第2次重复期间评分)可能是合适的。图5示岀了演示的结构。如果现实情况把可用序列的长度限制在不到10 s,则可以把这些比较短的序列组合成 段,将显示时间扩展到10 s。为了把连接点处的不连续性降至最低,由连续的序列

33、组成的段ITU R BT.500-13 建议书在时间上可能是逆向的(有时称为“回文式”显示)。必须多加小心,确保作为逆向的段显 示的测试条件能体现因果过程,即测试条件是逆向显示的源信号通过待测系统而得到的。图4DSCQS法中测试系统的总体布置山实验者 控制的开关评价显示濡预览监视器这种方法冇下述I和II两种变型。变熨I:评价者一般於单独的.评价者可以在a和b两种条件之间切换,r到他对毎一种条件都认为得出了满总的评分为 止。A线路和B线路都提供了理达基准图像.或通过待测系统提供了图像。但哪条线路得到哪个图像则在一个测试 条件和卜一个测试条件之间足随机变化的,它们III实验者注明,但不公布。变熨I

34、I:来IlA线路和B线路的图像连续显示给评价者.供评价者给岀对毎一图像的评分。对于毎次演示.A线路和B线路 都像上述变型I那样得到图像。质虽范圉有限的该变型得出的结果的稳定性被认为询需进一步研兜.BT 0500-045.4分级量表这种方法要求评价每一测试图像的两种版本。每对测试图像屮,有一个是无损的,而另 一个可能包含损伤,也可能不包含损伤。无损的图像就作为基准,但不告诉观察者哪个是基 准图像。在测试系列中,基准图像的位置是以伪随机方式变化的。只要求观察者在垂直标尺上标出记号來评价每次演示的总体图像质量。垂直标尺是成对 打印的,涵盖了每个测试图像的两次演示。为了防止最化误差,标尺提供了连续的评

35、分系 统,但分成了相等的5段,与rruR的五级质帚:最表相对应。对5个等级进行分类所用的相关 术诰与平常所用的样;不过此处是将其当做般性的指导,在分数农中按对排布的10个标 ITU-R BT.500-13 建议书15尺的每一行第一个标尺的左侧标出。图4示岀了典型评分表的一部分。为了防止在标尺的划 分与测试结果之间可能出现的混淆,标尺用蓝色打印,结果用黑色记录。图5测试素材的演示结构演示阶段:T1 = 10 s测试序列AT2 = 3sIII200 mV图像电平产生的中灰度场T3 = 10s测试序列BT4 = 5-ll s中灰度场BT0500-05图6采用连续标尺的质量评分表的一部分2728293

36、031A BA BA BA BA B优良中劣套在采用DSCQS法的测试阶段内规划测试项冃的布置时.实验不最好应进行检验.确信实验 中耒产生系统左借.不过完成这种置信检脸的方法还冇待研究.BT 0500-06ITU-R BT.500-13 建议书5.5 结果的分析将每一测试条件的评价对(基准和测试)从评分表上的度量长度转换为归一化的0至100 范围内的评分。然后计算基准条件与测试条件Z间存在的评价差別。其他程序在附件2中给 出。经验显示,从不同测试序列中获得的评分取决于所用测试素材的临界性。对不同的测试 序列分别显示结果,可更全面地了解编解码器的性能,而将结果表示为评价中所用的所有测 试序列的一

37、个综合平均分则无法做到这一点。如果将单个测试序列的结果在横轴上按照测试仔列临界性的高低顺序排列,就有可能给 岀待测系统图像内容降质特性的概约图形说明。不过这种表达形式只是说明了编解码器的性 能,并未表明具有给定临界性的序列出现的可能性(见附件1的附录1)。在能够获得系统性 能的这种更完整的说明之前,需要对测试斥列的临界性和具有给定临界性的斥列出现的概率 开展进一步研究。5.6 结果的分析在使用这种DSCQS法时,将DSCQS数值与其他测试协议所用的形容词(例如DSIS法中 的不可察觉,可察觉但不讨厌,)形成关联,从而得出关于待测条件的质量的结论,会 有一定风险,甚至出现差错。要注意,用DSCQ

38、S法得出的结果不应看做绝对评分,而应看做基准条件与测试条件之 间的评分差值。因此,将评分与某个说明质量的术语联系起来是不对的,即便是与DSCQS 协议本身所用的术语(例如优,良,中,)联系起来也是不对的。在评价开始之前决定可接受标准,这在任何测试程序中都很重要。在采用DSCQS法时 这一点极为重要,因为缺乏经验的使用者对于由这种方法产生的质最最表值有误解的趋势。6评价的替代方法在合适的环境中,应采用单激励法和激励比较法。6.1 单激励(SS)法在单激励法中,显示单一的图像或一个图像序列,并为评价者提供一份整个演示的索 引。测试素材可以只包含测试序列,也可以既包含测试序列,又包含其相应的基准序列

39、。对 于后一种情况,基准序列作为一个单独的激励显示,并像其他测试激励那样进行评分。6.1.1 总体布置观看条件、源信号、条件的范围和锚定、观测者、对评价的介绍以及结果的表示在第2 节中做了规定或按照第2节加以选择。ITU-R BT.500-13 建议书176.1.2测试素材的选择对实验室测试而言,测试图像的内容应按照第2.3节所述加以选择。一旦选定了内容,就要准备测试图像,以反映正在考虑的设计选项或者某一(或某些) 因素的范围。在考察两个或多个因素时,可以以两种方法來准备图像。第一种,每个图像只 代表每一因素的一个等级。在另一种方法中,每个图像代表要考察的每一因素的一个等级, 但在儿个图像之间

40、,每一因素的每一等级都与所有其他因素的每一等级同时存在。两种方法 都能将结果明确地划归具体因素。后一种方法还可以检测不同因素之间的相互作用(即非加 性效应)。6.1.3试阶段测试阶段由一系列评价实验组成。这些评价实验应以随机顺序给出,每一观察者最好采 用不同的随机顺序。在采用单一随机顺序的序列时,演示结构有I (单激励(SS)和口(多 次重复的单激励(SSMR)两种变型,分别如下:a)在测试阶段,测试图像或序列只演示一次;第一阶段开始时,应播放几个“模拟演 示”(见第2.7节的说明):实验通常要确保同一图像不会以同样的损伤程度连续演 示两次。典型的评价实验由3种显示组成:一个是中灰度适应场,一

41、个是激励场,还有一个是 中灰度后期曝光场。这些显示的持续时间随着观察者的任务、素材和要考虔的意见 或因素而变化,但分别为3、10和10 s并不罕见。观察者指数要么在激励场显示期间 收集,要么在后期曝光场显示期间收集。b)将测试阶段分成3个演示,测试图像或序列演示3次。每个演示都只包含所有待测图 像或序列一次;每一演示开始时,在监视器上公布一条消息(例如“演示1”);第 一个演示用于稳定观察者的意见;从这次演示中得出的数据在测试结果中不予考 虑:对图像或序列的评分是对从第二个和第三个演示中得出的数据进行平均得到 的;实验通常要确保每一演示中图像或序列的随机顺序采用下述限定:-某一给定图像或序列的

42、所在位置与其他演示中的位置不同;-某一给定图像或序列的所在位置不能正好在其他演示中同一图像或序列的位置Z 前。典型的评价实验由2种显示组成:一个是激励场,另一个是中灰度后期曝光场。这些显 示的持续时间随着观察者的任务、素材和耍考虑的意见或因素而变化,但建议分别为10和 5 So观察者指数只能在后期曝光场的显示期间收集。变型n (SSMR)引入了完成一个测试阶段所需的明确的额外时间(45 s与23 S,对每一待 测图像或序列而言);尽管如此,它还是降低了一个测试阶段内变型I的结果对图像或序列 的顺序的强烈依赖。另外,实验结果显示,变型II在评分范雨内可以形成约20%的跨度。6.1.4 单激励法的

43、种类一般而言,在电视评价中采用了三种单激励法。6.1.4.1 形容词分类判断法在形容词分类判断中,观察者将图像或图像序列划归一组类别中的某一类别,这组类别 通常按语义來规定。类别可以表明关于是否检测到某种属性的判断(例如用于确定损伤门 限)。评价图像质最和图像损伤的类别最表使用最为频繁,表3给出了ITU-R的最表。在运 行监测中,有时也用到半级。在特殊情况下也使用了评价文字的清晰程度、易读性和图像实 用性的量表。UTJ.R质量和损伤量表五级表质量损伤5优5不可察觉4良4可察觉.但不讨厌3中3稍微讨穴3差2讨厌1劣1很讨厌对于每个条件,由这种方法可得出量表各类别之间的判断分布。对响应进行分析的方

44、式 取决于判断(检测等)和想要获取的信息(检测门限、条件的等级或主要趋势、各条件之间 的心理“距离”)。有许多分析方法可以使用。6.1.4.2 数值分类判断法对采用11级数值分类量表的单激励程序(SSNCS)进行了研究,并与图形和比率量表做 了比较。ITU-R BT.1082报告对这项研究做了说明。研究表明,在无法得到皋准的情况下, SSNCS法在感受性和稳定性方面具有明显的优势。6.1.43 非分类判断法在非分类判断中,观察者为显示的每一图像或图像用列指定一个数值。这种方法有两种 形式。连续最表是分类法的一种变型。在连续量表中,观察者在连接两个语义标号(例如表3 中分类量表的两端)的直线上为

45、每一图像或图像丿子列指定一个点。这种量表有可能在中间点 上包括另外的标号作为基准。将距量表某一端的距离作为每一条件的指标。在数值量表中,评价者为每一图像或图像序列指定一个数字,该数字反映了在某一规定 的尺度(例如图像锐度)方面得出的图像或图像丿子列的判断等级。所用数字的范围有可能受 限制(例如0-100),也有可能不受限制。有时,指定的数字从“绝对”意义上说明判断等 级(不像某些形式的幅度估值那样直接提及其他图像或图像序列的等级)。在其他情况下, 数字用说明相对之前所用“标准”的判断等级(例如幅度估值、分段法和比率估値)oITU-R BT.500-13 建议书19由两种形式都可得出每一条件的某

46、种数值分布。所用的分析方法取决于判断的类别和所 需的信息(例如等级、主要趋势、心理“距离”)。6.1.4.4 性能法正常观看的某些方面可以用由外部控制的任务(寻找目标信息、阅读文字、辨别目标 等)的性能表示。然后可以将某种性能尺度,例如完成这种任务的准确度和速度,作为衡量 图像或图像序列的一个指标。由性能法可得出每一条件的准确度或速度评分的分布。分析集中在确立具有集中趋势 (或离中趋势)的各条件之间的关系上,并常常使用方差分析或类似技术。6.2 激励比较法在激励比较法中,显示两个图像或图像序列,由观察者给出一个捋标,表示两个演示之 间关系。6.2.1 总体布置观看条件、源信号、条件的范围和锚定

47、、观测者、对评价的介绍以及结果的表示在第2 节中做了规定或按照第2节加以选择。6.2.2试素材的选择ITU-R BT.500-13 建议书21按照与单激励法相同的方式产生所用的图像或图像丿子列。形成的图像或图像斥列则加以 组合,形成评价实验中所用的图像对。6.2.3试阶段评价实验将使用一个监视器或两个匹配良好的监视器,并且一般像单激励情况那样进 行。如果使用一个监视器,尝试将包括一个额外的激励场,持续时间与第一个相同。在这种 情况下,比较好的做法的是确保在各次尝试中,一对中的两个组成部分在第一个位置和第二 个位置上出现的频度相同。如果使用两个监视器,则激励场要同时显示。判断是比较所有可能的条件

48、对,与此同时激励比较法对各条件之间的关系进行更为全而 的评价。但如果这样做需要的观察最过大,则有可能在评价者之间分配观察最,或者使用从 所有可能的对中抽出的一些样本。6.2.4 激励比较法的种类在电视评价中采用了三种激励比较法。6.2.4.1 形容词分类判断法在形容词分类判断中,观察者将某一对中各组成部分的关系划归一组类别中的某一类 别,这组类别通常按语义来规定。这些类别可以表明可察觉的差别存在与否(例如“相 同”、“不同”),或考表明可察觉差别的存在与否和方向(例如“小”、“相同”、 “大”),或者表明对程度和方向的判断。表4示岀了ITUR的比较量表。比较量表-3甚差较差-1稍墨0相同+1稍

49、好+2较好+3找好对于每个条件对,由这种方法可得出最表各类别之间的判断分布。对响应进行分析的方 式取决于判断(例如差别)和想要获取的信息(刚能看出差别、条件的等级或主要趋势、各 条件之间的“距离”等)。6.2.4.2 非分类判断法在非分类判断中,观察者用一个数值表明一个评价对中各组成部分的关系。这种方法有 两种形式:- 在连续量表中,观察考在连接两个标号(例如“相同” “不同”或表4中分类量表的 两端)的直线上为每一关系指定一个点。这种量表有可能在中间点上包括另外的基准 标号。将距直线某一端的距离作为每一条件对的值。- 在另一种方式中,评价者为每一关系指定一个数字,该数字反映了在某一规定的尺

50、& (例如质最差别)方面得出的这一关系的判断等级。所用数字的范围有可能受限 制,也有可能不受限制。指定的数字从“绝对”意义上或考用“标准”对中的术语 对关系加以说明。由两种形式都可得出每一对条件的某种数值分布。所用的分析方法取决于判断的类别和 所需的信息。6.2.43 性能法在某些情况下,性能尺度可从激励比较程序中导出。在迫选法中,准备条件对时,让其 中一个组成部分含有特定级别的某种屈性(例如损伤),而另一个含有其他级别的该属性或 不倉该属性。请观察者决定哪个组成部分的该属性级别更高/更低,或决定哪个组成部分包 含该屈性;将性能的准确度和速度作为衡量条件对中各组成部分关系的指标。6.3单激励连

51、续质量评价(SSCQE)数字电视压缩的引入将对随场景和内容变化的图像质最产生损伤。即便在很短的数字编 码视频片段内,质量也会随场景内容的不同而有很大变化,并且损伤存在的时间有可能非常 短。常规的ITUR方法本身不足以评价这种素材。另外,实验室测试中的双激励法没有再现 单激励家庭观看条件。因此,曾认为有益的做法是连续衡量数字编码视频的主观质量,其中 被试观看素材一次,没有基准源信号。有鉴于此,已经开发出了下述新的SSCQE技术并进行了测试。ITU-R BT.500-13 建议书#63.1总体质量的连续评价63.1.1 记录设备和设备配!应使用连接至计算机的电子记录手持设备来记录被试得出的质最评价

52、。这种设备应具备 如下特性:- 不带弹簧复位的滑块机构,- 10 cm的直线移动范围,- 位置固定或能安装在桌面上,- 每秒记录两个样本。63.1.2 测试协议的一般形式应向被试提供下述格式的测试阶段:- 节目段(PS丿:一个节冃段对应着按某一待评质量参数(QP)(例如比特率)处理的一 种节目类型(例如体育、新闻、戏剧);每个节目段应持续至少5 min;- 测试阶段(7$: 个测试阶段是由PS/QP的一种或多种不同组合构成的一个序列,其 中没有间隔且按随即顺序排列。每个测试阶段至少有一次含有全部节目段(PS)和质量 参数(QP),但不必含有全部的PS/QP组合;每个测试阶段的长度应在30 mi

53、n和60 min 之间;- 测试演示(7P丿:一个测试演示代表某次测试的总体性能。一个测试演示可以划分为 若干测试阶段(TS),以便符合最大时间长度耍求和评价所有PS/QP对的质量。如果 PS/QP对的数目有限,测试演示可由相同的测试阶段重复构成,以便在足够长的时间 段内进行测试。对于股务质量评价,应引入伴音。在这种情况下,应认为在进行测试之前对伴咅素材的 选择与对视频素材的选择具有同等的重要性。最简单的测试格式是使用单一的节目段和单一的质星参数。6.3.1.3 观看参数观看条件应为ITU-R BT.500建议书、ITU-RBT.1128建议书、ITU-RBT.1129建议书和 ITU-RBT

54、.710建议书中目前规定的那些。63.1.4 分级量表在测试须知中,应让被试了解手持设备滑块机构的移动范圉与第5.4节所述的连续质量 量表是相互对应的。6.3.1.5 观察者应聘用至少15位非专家被试,且具备目前在第2.5节中推荐的条件。6.3.1.6 观察者须知对于服务质量评价(带有伴音)的情况,应告知观察者考虑总体质量,而不只是视频的 质量。ITU-R BT.500-13 建议书2563.1.7 数据的表示、结果的处理和表示应将所有测试阶段的数据合并。这样就能得到单一一幅图,表示随时间而变的平均质最 评分g(/),作为所有观察者针对每一节目段、质量参数或每一完整测试阶段的质最分级的半 均值

55、(见图7中的示例)。图7测试条件:CtKkxX/节目段:Z时何(min)BT.0500.07无论如何,只有在计算某一节目段的平均值时,不同观察者反应时间上的差异才有可能 影响评价结果。正在开展研究,以评价不同观察者的反应时间对得出的质量分级的影响。这一数据库可以转换为质量等级q出现概率p(g)的直方图(见图8中的示例)。63.2 连续质量评价结果的校准和单一质量评分的导出尽管有人指出,较长时间的数字编码视频单一评分DSCQS测试阶段存在记忆上的偏差, 但最近已经证实,这种影响对长度为10 s的视频片段的DSCQS评价影响不大。因此,在单激 励连续质最评价(SSCQE)过程中有可能出现第二阶段,

56、以便根据从直方图数据中抽取的有 代表性的10 s样本使用原有DSCQS法校准质量直方图。目前正对该第二阶段展开研究。过去所用的常规ITUR方法能够产生电视序列的单一质量评分。已经进行了一些实验, 考察了己编码视频序列的连续评价与同样段落的总体单一质最评分之间的关系。已经确定, 如果序列的最后大约10-15 s出现显著损伤,则人的记忆效应会扭曲质量评分。但也已经发 现,人的这种记忆效应可用递减的指数加权函数來模拟。因此,在SSCQE法中有可能出现第 三阶段,用于处理这些连续质暈评价,以便获得一个等效的单一质屋尺度。目前正对此进行 研究。图8节目段Z的评分序列的平均评分源Codec WA模拟 XC

57、odex XBT 0500-08一模拟2 Codex Y6.4同时双激励连续评价(SDSCE)法ITU-RZ所以提出连续评价,是由于原先的方法对数字压缩方案的视频质星测量存在某 些不足。原先那些标准化方法的主要缺陷是由于在显示的数宁图像中出现了与环境有关的扰 动。在原先的协议中,待评视频序列的观看时长一般限制在10 s,观察者要对现实服务中出 现的情况得出有代表性的判断,这段时间显然不够。数字扰动在很大程度上取决于源图像的 空间和时间内容。这种情况在压缩方案中存在,但也与数字传输系统的容错性能有关。采用 原先的标准化方法很难选出有代表性的视频序列,或者说至少很难评价其代表性。为此, ITUR引

58、入了SSCQE法,这种方法能够衡最较长序列的视频质最,衡最视频内容的代表性, 以及衡量差错统计值。为了让再现的观看条件尽可能接近实际情况,在SSCQE中未采用基 准。在需要评价保真度时,必须引入基准条件。SDSCE是以SSCQE为基础制定的,但在向 被试显示图像的方式上以及在评分量表上有稍许变化。提出这种方法是供活动图像专家组 (MPEG)评价共低比特率情况下的抗错性,但对于必须评价受到时变降质影响的视觉信息 保真度的那些情况,这种方法也适用。有鉴于此,制定了下述新的SDSCE技术并进行了测试。6.4.1试程序被试小组同吋观看两个序列:个是基准序列,另个是测试条件。如果这两个序列采 用标准序列格式(SIF)或更短,则这两个序列可以并排在监视器上显示,不然就用两个对 齐的监视器(见图9)。图9显示格式示例基准测试条件无差错有差错BT 0500-09诸被试检査两个序列之间的差别,并通过移动手持评分设备上的滑块來判断视频信息的 保真度。如果保真度理想,则滑块应放在暈表范围的顶部(代码为100):如果保真度全 无,则滑块应移动到量表的底部(代码为0)。在整个观看期间,要让被试知道那个序列是基准,并请他

展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!