基于GPU的块匹配运动估计技术研究

上传人：沈*** 文档编号：41138635 上传时间：2021-11-19 格式：DOC 页数：4 大小：165KB

收藏版权申诉举报下载

第1页 / 共4页

第2页 / 共4页

第3页 / 共4页

下载文档到电脑，查找使用更方便

10 积分

下载资源

资源描述：

《基于GPU的块匹配运动估计技术研究》由会员分享，可在线阅读，更多相关《基于GPU的块匹配运动估计技术研究（4页珍藏版）》请在装配图网上搜索。

1、Block-Matching Based on GPU for Motion EstimationConghuan YECollege of Computer and Information Science, Xiaogan University, Xiaogan, Hubei, China Abstract：Currently, more and more high-resolution video images video codec needs to be addressed also will dramatically increase the amount of data, As p

2、owerful GPU computing power, making the H264 GPU-based video coding technology, has great application value. As the CPU in dealing with massive network video coding and slow speed of existing bottlenecks, this paper presents an improved sub-pixel motion estimation algorithm, mainly SAD sub-pixel mot

3、ion vector estimation exercise. The experiment confirmed that improved, high efficiency, feasibility, etc. Experimental results show that the proposed GPU-based block-matching motion estimation algorithm could achieve good performance in comparion with the CPU-based method . Keyword：GPU；Block-Matchi

4、ng；Motion Estimation 基于GPU的块匹配运动估计技术研究叶从欢孝感学院计算机与信息科学学院, 孝感，中国，432000【摘要】视频图像的分辨率越来越高视频编解码需要处理的数据量也随之急剧增大,由于GPU的强大运算能力，使得基于GPU的H264视频编码的技术研究，具有很大的应用价值。由于CPU在处理网络海量视频图像编码中存在的速度慢等瓶颈，本文提出了一种GPU上的块匹配运动估计技术。试验证实该方法大大提高编码的加速比。【关键词】 GPU; 块匹配;运动估计 1 绪论随着网络通信技术和图形技术的飞速发展，互连网用户使用网上大容量的视频也变得越来越便利。但是要满足用户对高质

5、量视频的需求，要有很多工作要做。目前随着三网合一技术的推进，视频信号将广泛应用于日常生活中，则需要高效率的压缩算法。由于GPU图形处理器的快速发展，基于GPU的通用计算已经成为一个新的研究领域。通过对nVIDIA公司最新的通用计算GPU编程模型的研究，作为H.263之后新一代的视频通信标准，H.264理应具有更好的性能。H.264的编码框架与以往的视频标准类似，都是基于混合编码的框架。首先，将待编码宏块通过运动估计算法搜索帧内或帧间的相匹配宏块，再将匹配块和待编码宏块的图象差值经过DCT变换、量化等处理，这大大提高了视频压效率。而H.264标准通过改进技术方案以及应用新的算法，使视频编码性在各

6、个部分又得到提升。在相同的视觉质量下，H.264标准的编码效率可提高50%1，但是H.264的高压缩率是以编码的高计算量为代价，例如，使用264编码器在Intel双核CPU上编码高清视频(1920*1080分辨率)，平均每秒只编码1.2帧，一部两个小时的电影需要41个小时编码才能完，而实时高清视频传输更是困难，因此如何提高编码效率是目前的研究重点。在相同视频质量，H.264的编码复杂度是MPEG-4的510倍，而解码复杂度也是MPEG-4的24倍2。另外，图形硬件GPU的处理速度进来更是发展迅速，计算能力以每年2.8倍的速度增长，远远高于CPU的发展速度。GPU的体系架构是基于大规模并行的体系

7、架构，目前GPU已经采用强大而灵活的统一渲染架构3 ,其体系架构的设计主要围绕着两大要素:多层次的并行计算和高效率的数据访问。GPU 上的并行性主要体现在3 个层面:任务并行的多级流水线,数据并行的多线程技术以及指令并行的单指令多数据流( single instruction multiple data, SIMD)。在数据访问方面，GPU 上的内存系统由外部显示内存、内部高速缓存和寄存器3 个层次构成。由于GPU 高速缓存主要用于加速纹理过滤,因此其容量非常有限而且仅能只读。GPU 内存系统侧重追求单位时间的数据吞吐量，即带宽，并采用多线程技术来掩盖高达数百个时钟周期的主存访问延时。相对于C

8、PU，GPU更适合进密集型运算，而H.264标准中的运动估计就属于密集型运算，非常适合在PU上进行并行处理。为了合理利用GPU通用计算的资源，CUDA4（Compute Unified Device Architecture，统一计算设备架构）应运而生。CUDA是一种并行编程模型，它将PU的可编程顶点渲染器和片元渲染器集成起来，组成统一的SPMD(a Single program Muliple Data)计算设备，所以，若能够将GPU并行计算的能力发挥在视频编解码领域，将会逐步满足用户对网上实时视频传输的需求。虽然现有的GPU为视频编码提供了并行计算的平台，提高了视频编码的效率，但是对于实时

9、视频技术而言，例如，视频会议，无线通信，实时体育赛事视频等一些对实时性要求比较高的，其视频质量并不能满足用户的需求。虽然网速越来越快，但是如果视频编码不好的话，经过网络传送到客户端的视频数据量同样会非常巨大，再加上网络环境的不稳定性，也即网络流量的突发性，都会对实时持续的传播视频造成非常大的影响，从而对用户的服务质量降低。虽然GPU的出现，为视频编码的并行可编程性在硬件层面提供了较好的支持，但是即使再好的硬件平台如果没有好的软件平台的话，其性能不仅得不到充分利用，而且在市场的占有率方面将会下降，从而使得GPU的研发成本难以下降。限制GPU等硬件设备性能的进一步提高。因此，为了充分利用GPU的性

10、能，并使得在线的实时视频技术得到提高，需要在软件方面同步优化，要充分挖掘视频编码方面的并行可编程性。H.264视频编码就是这样的一种典型的并行流处理应用,适合于在支持CUDA的GPU上进行优化加速4.2 相关工作2.1 H.264编码的可并行性分析由于H.264编码需要进行大量的计算，目前已经有多种利用硬件平台的性加速H.264编码的方法，下文根据不同层次结构的特点介绍H.264的并行理的研究现状：(1) GOP(Group of Pictures)级并行：H.264将图像序列分为多个GOP，各GOP之间相关性很低，不仅可以限制误码扩散，还可以进行并行编码处理 56。 (2) Frame级并行

11、：编码时，P帧都是将已编码的I帧或P帧为参考帧，而B帧将前后两个已编码完成的帧作为参考帧。如果两相邻帧没有相性，就可以对它们并行编码78，加快编码速度，以用于对实时性要求比较高的场所。(3) 块级并行：H.264编码器也每帧图像划分多个块，对于若干独立的块，采用并行处理技术，这也是在GPU上实现H.264编码时采用较多的一种技术。2.2基本原理一般摄像机等图像采集设备采集的原始视频都是图像序列，由于背景是相同的，序列中相邻两帧图像之间差别往往很小，对于场景镜头变化不大的视频，甚至相同，如果能去除相邻帧之间的冗余信息，会大大提高编码的压缩率，且不会有明显的视觉误差。如何消除帧间的重复信息，就需要

12、进行帧间预测的技术。在进行视频编码时，编码器把图像帧内运动的图像区域通过一种算法提取其运动矢量，并且只存储运动矢量，这比存储运动图像区域所用比特少，对于H.264标准来说，帧间预测涉及到的核心技术主要是运动估计与补偿。而H.264的亮度运动补偿块则采用分形学原理，从大到小按树状结构分布，共有7种尺寸的运动补偿块:1616、816、168、88、48、84、44。这些也是目前算法复杂度最高、性能最好的基于混合编码框架的视频编码技术,它采用了多种在以前视频编码标准中不曾出现过的新技术。其中可变尺寸块、多参考帧和1/4像素精度是H.264运动补偿技术的三个新特征。分数像素运动补偿要求以原参考图像插值

13、后的图像作为新的参考图像,然后进行运动补偿预测,从而运动矢量的精度达到分数像素精度。运动矢量位移的精度越高,帧间剩余误差越小,传输码率越低,压缩比越高。运动补偿精度增加一倍,可以得到0.15 bit/sample的编码增益,但是实际越过1/8像素后,继续通过提高精度来改善运动补偿的性能的意义就不大了。目前的标准中, H.263的运动补偿精度达到1/2像素, H.264在指定过程中虽然尝试采用1/8像素精度的运动补偿,但最终亮度信号还是定为1/4像素。通常具有1/4像素精度的运动估计可以通过基本算法,SAD(绝对误差和)值相关性估计的算法,或SAD二次曲线分布的近似估计算法等实现，而为了达到快速

14、运动估计，本文采取了1/4像素级的运动估计算法。运动估计就是从图像序列中提取运动图像区域的运动矢量，而运动估计研究的主要内容就是如何快速有效地获得精度足够高的运动矢量。运动估计的基本原理是将视频中的每一图像帧分成多个相同大小的图像区域，称为宏块，并假定宏块内所有像素的运动矢量都相同，然后在参考帧中搜索与当前宏块最匹配的宏块，这就被称为块匹配法，而确定最佳匹配块的方法，被称为运动估计匹配准侧。与其他匹配方法相比，块匹配法实现最为简单，且运动矢量搜索能力强，H.264视频标准就采用了块匹配法。目前，有多种运动估计匹配准则，下面就简单介绍常见的四种匹配准侧：平均绝对误差准则(MAE)，均方误差准则(

15、MSE)，绝对误差准则(SAD)，原始图像块和重构图像块间的误差平方和。如下（1），（2），（3）和（4）所示。 (1) (2) (3) (4)2.3经典的并行运动估计算法全搜索法(FS)也被称为穷尽搜索算法，是对搜索域内的所有位置计算SAD值，并从中找出最小SAD，其对应原点的偏移即为最佳运动矢量。目前，多数快速搜索算法都是基于搜索模板的，使用不同大小和形状的搜索模板其搜索速度和性能也不同。比如搜索模板中搜索半径过大，容易产生错误搜索方向；而搜索半径过小，则容易得到局部最优解。9提出了一个运行消除无用搜索点算法的并行结构，该算法主要用于块匹配运动估计，可以成功的清除搜索窗中的无用搜索点，

16、从而达到减少块匹配比较的数量。相对于全搜索，大大减少计算量，可以减少57%的计算量。该方法不仅提高搜索效率，而且为帧间预测的并行计算提供了更快更准的块匹配算法，同时为H.264的实时编码，以及实时视频应用提供了好的解决方案。10利用GPU的并行运算能力来解决图像处理中的密集型的计算问题，并行加速了图像处理的进程。正是基于快速提高视频的编码质量，当前，利用GPU解决H.264的编码问题成为一个非常热门的研究领域。11利用GPU的并行处理能力来加速块匹配进程。12,13在GPU上采取多通道和帧并行技术来加速视频编码中的运动估计，并使得整像素运动估计和分数精度像素的运动估计得加速比分别达到12倍和3

17、5倍左右。3 GPU上的并行运动估计H.264编码的时候，首先是将图像分割成很多个宏块，然后再对各个宏块选择最合适的编码模式进行编码，而编码模式又主要分为帧内预测和帧间预测。帧内预测模式是为了消除视频图像序列的空间冗余，主要采用44和1616子块的两种模式，其原理是利用周围已经编码的宏块预测当前宏块的系数，然后将当前宏块和预测值的差值进行变换编码，从而提高压缩效率。帧间预测是为了消除视频图像序列之间的时间冗余，H.264标准中，帧间预测采用了可变块的运动估计技术，比如亮度宏块可以分为1616、168、816、88的宏块分区，而每一个88的块，又可分为84、48、44的宏块子分区，每个分区都要进

18、行运动估计对于44的块中，对于匹配块中每一个内插的像素点,都可以采用最相近邻整像素点进行内插,各亚像素的像素值是通过整像素像素值的线性计算得到。实际应用中, 1/2像素值由周边6个像素亮度值按(1,4,18,18,-4,1)加权中值滤波得到。然后用线性插值获得1/4像素样本。对于4:1:1的视频格式,亮度信号的1/4像素精度对应于色度部分1/8像素的运动矢量,对色度信号1/8像素的内插运算可用8抽头滤波器实现, 采用双线性内插. 整像素点与内插亚像素点之间存在相关性,因此可以通过整像素的SAD值来估算内插亚像素点的SAD值。先分别在x和y方向分别做1维的最佳匹配点计算, 得到运动矢量在x 方

19、向的分量和y方向的分量, 最后对两个分量进行合成得到最佳运动矢量.运动矢量合成的具体过程是，搜索整像素最优匹配点,可以通过菱形算法等。对当前重建的参考帧, 进行二次内插建立1/4像素精度的参考帧。GPU的体系架构属于单指令流，多数据流。而对视频的某一单一场景帧可以通过关键帧之间的插值进行运动估计，这些帧的运动估计可以在GPU上进行并行处理，并行处理是指将数据或指令并发处理，主要分为空间上和时间上的并行。空间上的并行是指在多处理器或多核上并发的执行代码，GPU上SADs的并行计算模型如图1所示。而时间上的并行则通常指流水线技术。 Figure 1. The block matching rame

20、work for ME图1. 块匹配流程 4 实验与讨论为了评估本文提出的方法，我们在实验环境为：Intel(R) Pentium（R）D CPU 2.80GHz，1GB的内存，Microsoft Visual Studio 2005，以及nVidia GeForce 7800GT，显存256MB, CUDA toolkit，对Stefan，格式为CIF（352 288）系列进行测试，对CPU与GPU的处理性能运行时间统计如图2所示。 Figure 2. The performance of the proposed method图2. CPU与GPU编码速度统计在试验中，我们对大小为161

21、6的块匹配过程分别在CPU上，以及CPU+GPU上，试验效果如图3所示，横轴1，2，3对应的搜索区域大小为1616，3232，6464，而纵轴为编码的速度（帧/秒）。由图2可知，基于GPU+CPU的块匹配过程性能明显优于CPU， 1616搜索区域在块匹配进行搜索时加速比最高，可达到5，其他两种搜索区域的加速比接近5。 5 结论由于现阶段人们对高质量实时的视频需求越来越高，而传动的视频编码技术根本达不到互联网用户的日益增长的需求，正式因为如此，H.264可以在编码方面取得较高的效率，但是该效率是以牺牲编码的复杂度为前提的，不利于视频的实时编码。本文采取一种基于GPU的并行块匹配算法来估计运动矢量

22、，该方法相对于传统的全搜索算法，都可以成比例的减少计算量。 References (参考文献)1 Ostermann J.，Bormans J.，List P.et al.Video coding with H.264: tools，performance and complexity.IEEE Circuits and Systems Magazine，2004，4(1):7282 M.Ravasi，M.Mattavelli,C.CLere.A computational complexity comparison of MPEG-4 and JVT codecs.Joint Video T

23、eam(JVT)of ISO/IEC MPEG&ITU-T VCEG，JVT-Dl53rl-L，2002,(7):22-263 Blythe D. The Direct 3D 10 system J. ACM Transactions on Graphics, 2006, 25(3): 724-7344 NVIDIA,NVIDIA CUDA Compute Unified Device Architecture -Programming Guide Version 2.1，5 Denilson M.Barbosa，Joao Paulo Kitajama，Wagner Meira JR.et a

24、l,“Parallelizing MPEG Video Encoding using Multiprocessors”，Proceedings of the XII Brazilian Symposium on Computer Graphics and Image Processing，19996 E.B.vander，E.G.T.Jaspers，R.H.Gelderblom，“Mapping of H.264 Decoding on a Multiprocessor Architecture”，SPIE Conf.on Image and Video Communications and

25、Processing，2003.5(7):707-7187 Yen-Kuang Chen，Eric Q.Li，Xiaosong Zhou，Steven Ge，“Implementation of H.264 encoder and decoder on personal computers”，2005,10(8):960-9838 Yen-Kuang Chen，Matthew Holliman，Eric Debes，Sergey Zheltov，AlexanderKnyazev，Stanislav Bratanov，Roman Belenov，Ishmael Santos，“Media App

26、lications on Hyper-Threading Technology”，Intel Technology Journal Q1，2002,6(1):960-983，9 Srinivasarao, B.K.N.; Chakrabarti, I.; A Parallel Architecture for Successive Elimination Block Matching Algorithm . Computer Vision, Graphics & Image Processing, 2008. ICVGIP 08. Sixth Indian Conference on 2008

27、 , Page(s): 226 - 23110 Nan Zhang; Yun-shan Chen; Jian-li Wan. Image parallel processing based on GPU . Advanced Computer Control (ICACC), 2010 2nd International Conference on . 2010 , Page(s): 367 37011 Mazare S., ugelay J.L., acalet R. Using GPU for fast block-matching.Proceeding of the 14th Europ

28、ean Signal Processing Conference(EUSIPCO),Vienna,Austria,200412 Yu-Cheng Lin; Pei-Lun Li; Chin-Hsiang Chang,et al. Multi-pass algorithm of motion estimation in video encoding for generic GPU . Circuits and Systems, 2006. ISCAS 2006. Proceedings. 2006 IEEE International Symposium on Publication Year:

29、 2006.13 Chuan-Yiu Lee; Yu-Cheng Lin; Chi-Ling Wu,et al. Multi-Pass and Frame Parallel Algorithms of Motion Estimation in H.264 for Generic GPU . Multimedia and Expo, 2007 IEEE International Conference on 2007 , Page(s): 1603 1606作者简介叶从欢性别，1980年生，籍贯（湖北孝感人），学历（博士），单位（孝感学院计算机与信息科学学院），职称（讲师），主要研究方向为多媒体处理。

展开阅读全文

温馨提示:
1: 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

备案号:蜀ICP备2024067431号-1 川公网安备51140202000466号

本站为文档C2C交易模式，即用户上传的文档直接被用户下载，本站只是中间服务平台，本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私，请立即通知装配图网，我们立即给予删除！

基于GPU的块匹配运动估计技术研究

最新文档

相关资源

相关搜索