南宫28官网- 南宫28官方网站- APP下载基于运动矢量重用的转码优化

2025-10-31

  南宫28官网,南宫28官方网站,南宫28APP下载

南宫28官网- 南宫28官方网站- 南宫28APP下载基于运动矢量重用的转码优化

  今天,我分享的内容分为三个章节。首先,使用英特尔丰富的工具链对视频转码进行分析。我们作为硬件厂商,本身不做音视频转码业务,但俗话说“弄斧要到班门”,所以我们首先对视频转码的一些典型场景进行了微架构层面的分析,为后面的优化做好铺垫。然后,介绍方案的核心思想,即如何重用一次编码的信息来提高二次编码的效率。之前提到,计算复杂度在转码里占了很大的成本,所以要从源头上降低计算复杂度。最后,介绍SIMD指令集。SIMD的全称是Single Instruction Multiple Data,意思是单指令多数据,表明一条指令可以同时操作多个数据。

  我们从相关市场获取了图中的数据。第一张图表示在2020年,视频数据在互联网数据占比70%。到现在,视频数据在互联网数据占比已超过80%。第二张图是PRC Video Cloud Market Forecast,图中呈增长趋势。虽然目前共有云市场的增速减缓,但是视频云的增长仍有很大潜力。回到转码本身,第三张图和第四张图来自Video Developer report。从第四张图可以看到,在2019年,H.264仍是主流视频编码技术,90%以上仍使用H.264。其次,较多使用的是H.265,然后是VP9和AV1,H.265也在逐渐成为一种趋势。第三张图表示视频编码器开发人员计划在2022年投入的情况。其中,投入最多的是H.265,然后是AV1,再然后是H.266,这三个协议正在成为主流编码器协议,我们后续将基于这些主流编码器进行开发。

  接下来进行直播成本分析。这是一张直播的结构图,主播上传内容到上行CDN,然后再发送到转码中心进行内容识别、截屏、录制和转码,接着再分发到下行CDN。这个过程中,成本最大的是网络带宽和转码服务器。之前提到,网络带宽取决于观看人数和码率。举个例子,观看2M的视频和观看500K的视频所需的网络带宽不同,1000个人同时观看视频和10个人同时观看视频所需的网络带宽也不同。转码服务取决于分辨率、码率和视频编码标准等。

  我们对头部的互联网厂商进行了分析。如第一张图所示,主要有两个成本,一个是Traffic price,即带宽成本,另一个是转码成本。第二张图表示直播一小时内,转码和带宽的比例,图的横轴是观看人数,纵轴是转码和带宽费用的比例。可以看到,当观众数大于等于50时,带宽成为主要的成本。举个例子,顶级流量主播的一场直播的带宽成本要几百万,此时转码成本只有几千块,相对带宽成本几乎可以忽略。但对于数量众多的小主播来讲,观众数可能只有十几个,此时的带宽较低,所以转码成本成为主要的成本。针对这两种情况,在带宽成本较大时,我们以优化带宽为主,在转码成本较大时,我们以优化转码速度/转码性能为主。

  举个例子说明如何重用一次编码的信息来提高视频质量。JND是一种感知编码技术,在左上的图中,四个block中只有左下的block的值为1,其余block的值为0。但对于人眼来说,可以忽略数值1,即四个block的值可以都为0。这是JND的核心思想:过滤人眼感触不到的信息。对此,经典的方法是使用双边滤波器等进行过滤,但这些方法都是无差别的滤波,容易造成“误伤”。而现在由于掌握一次编码信息,我们知道哪些信息可以被平滑,哪些信息必须保留,通过设置权重的方式来进行“区别对待”。这样做可以带来两个好处,一是可以提高主观视觉的质量,二是在限定码率的情况下,可以将码率用在刀刃上,大幅度地提高客观质量。比如,将一个原码率是50Mbps的视频转码为2Mbps的视频,采用我们的方式就可以较大地提高质量。

  至强服务器平台SIMD指令集经迭代了很多代,大家比较熟知的比如AVX2,AVX512等。第二代至强可扩展平台在AVX512的基础上支持了INT8数据精度,第三代支持BF16指令集,2023年初量产的第四代平台的AI性能在BF16和INT8上较上一代提升了8倍,其中加入了AMX 指令集,也可以理解为在CPU内部有一块硬件加速器。比如INT8的算力,一颗CPU的性能接近200T,很多以前在CPU上无法完成的运算现在都成为可能。

  最后介绍一个例子,说明如何使用SIMD指令集优化视频编码。在H.264中有一个大小为16×16的宏块,需要对其求和或平方和,那么如何用avx512对其进行加速呢?需要执行以下几步。首先,将16个int8的数据载入到mm128寄存器中。然后,将int8数据转换成int32,这是因为有时候运算结果为负数,而int8无法表示负数。接着,将16个int32数据水平相加,这需要消耗0.5个指令周期,而手动计算则需要8次计算,因此极大地提高了效率。最后,将16个int32平方后再水平相加。经过这样的处理,性能可提高16倍或8倍(若为一条指令则提高16倍,若为两条指令则提高8倍)。

地址:广东省广州市天河区88号 客服热线:400-123-4567 传真:+86-123-4567 QQ:1234567890

Copyright © 2012-2025 南宫28官网- 南宫28官方网站- 南宫28APP下载 版权所有 非商用版本