用于利用动态量化网格的运动模糊的设备和方法
具体实施方式
在以下描述中,出于解释的目的,阐述众多具体细节以便提供对下面描述的本发明的实施例的透彻理解。然而,本领域的技术人员将明白,可以在没有这些具体细节中的一些具体细节的情况下实践本发明的实施例。在其他实例中,以框图形式示出公知的结构和装置,以避免混淆本发明的实施例的根本原理。
示例性图形处理器架构和数据类型
系统概述
图1是根据实施例的处理系统100的框图。在各种实施例中,系统100包括一个或多个处理器102和一个或多个图形处理器108,并且可以是单处理器桌面系统、多处理器工作站系统、或具有大量处理器102或处理器核107的服务器系统。在一个实施例中,系统100是并入在供在移动式、手持式或嵌入式装置中使用的片上系统(SoC)集成电路内的处理平台。
在一个实施例中,系统100可包括基于服务器的游戏平台、游戏控制台(包括游戏和媒体控制台、移动游戏控制台、手持式游戏控制台或在线游戏控制台),或被并入在其中。在一些实施例中,系统100是移动电话、智能电话、平板计算装置或移动互联网装置。处理系统100还可包括可穿戴装置、与可穿戴装置耦合或集成在可穿戴装置内,所述可穿戴装置诸如智能手表可穿戴装置、智能眼镜装置、增强现实装置或虚拟现实装置。在一些实施例中,处理系统100是具有一个或多个处理器102和由一个或多个图形处理器108生成的图形界面的电视或机顶盒装置。
在一些实施例中,一个或多个处理器102各自包括一个或多个处理器核107以处理指令,所述指令在被执行时,执行用于系统和用户软件的操作。在一些实施例中,一个或多个处理器核107中的每个处理器核被配置成处理特定指令集109。在一些实施例中,指令集109可以促进复杂指令集计算(CISC)、精简指令集计算(RISC)或经由超长指令字(VLIW)的计算。多个处理器核107可以各自处理不同指令集109,所述指令集109可以包括用来促进对其他指令集的仿真的指令。处理器核107还可以包括其他处理装置,诸如数字信号处理器(DSP)。
在一些实施例中,处理器102包括高速缓冲存储器104。取决于架构,处理器102能够具有单个内部高速缓存或多个级别的内部高速缓存。在一些实施例中,在处理器102的各种组件之间共享高速缓冲存储器。在一些实施例中,处理器102还使用外部高速缓存(例如,3级(L3)高速缓存或末级高速缓存(LLC))(未示出),其可以在使用已知高速缓存一致性技术的处理器核107之间被共享。寄存器堆106另外被包括在处理器102中,所述处理器102可以包括用于存储不同类型的数据的不同类型的寄存器(例如,整数寄存器、浮点寄存器、状态寄存器和指令指针寄存器)。一些寄存器可以是通用寄存器,而其他寄存器可以特定于处理器102的设计。
在一些实施例中,一个或多个处理器102与一个或多个接口总线110耦合,以在处理器102与在系统100中的其他组件之间传送通信信号,诸如地址、数据或控制信号。接口总线110在一个实施例中能够是处理器总线,诸如某一版本的直接媒体接口(DMI)总线。然而,处理器总线不限于DMI总线,并且可以包括一个或多个外设组件互连总线(例如,PCI、PCIExpress)、存储器总线或其他类型的接口总线。在一个实施例中,(一个或多个)处理器102包括集成存储器控制器116和平台控制器集线器130。存储器控制器116促进在存储器装置与系统100的其他组件之间的通信,而平台控制器集线器(PCH)130经由本地I/O总线提供到I/O装置的连接。
存储器装置120能够是动态随机存取存储器(DRAM)装置、静态随机存取存储器(SRAM)装置、闪速存储器装置、相变存储器装置或具有适合性能以充当进程存储器的某一其他存储器装置。在一个实施例中,存储器装置120能够作为用于系统100的系统存储器进行操作,以存储数据122和指令121以便在一个或多个处理器102执行应用或进程时使用。存储器控制器116还与可选的外部图形处理器112耦合,所述外部图形处理器112可以与处理器102中的一个或多个图形处理器108进行通信以执行图形和媒体操作。
在一些实施例中,显示装置111能够连接到(一个或多个)处理器102。显示装置111能够是如在移动电子装置或膝上型装置中的内部显示装置或者经由显示接口(例如,DisplayPort等)附连的外部显示装置中的一个或多个。在一个实施例中,显示装置111能够是头戴式显示器(HMD),诸如供在虚拟现实(VR)应用或增强现实(AR)应用中使用的立体显示装置。
在一些实施例中,平台控制器集线器130使得外设能经由高速I/O总线连接到存储器装置120和处理器102。I/O外设包括但不限于音频控制器146、网络控制器134、固件接口128、无线收发器126、触摸传感器125、数据存储装置124(例如,硬盘驱动器、闪速存储器等)。数据存储装置124能够经由存储接口(例如,SATA)或经由诸如外设组件互连总线(例如,PCI、PCI Express)的外设总线进行连接。触摸传感器125能够包括触摸屏传感器、压力传感器或指纹传感器。无线收发器126能够是Wi-Fi收发器、蓝牙收发器或诸如3G、4G或长期演进(LTE)收发器之类的移动网络收发器。固件接口128使得能够与系统固件通信,并且能够是例如统一可扩展固件接口(UEFI)。网络控制器134可实现到有线网络的网络连接。在一些实施例中,高性能网络控制器(未示出)与接口总线110耦合。音频控制器146在一个实施例中是多通道高清晰度音频控制器。在一个实施例中,系统100包括用于将传统(例如,个人系统2(PS/2))装置耦合到系统的可选的传统I/O控制器140。平台控制器集线器130还能够连接到一个或多个通用串行总线(USB)控制器142连接输入装置,诸如键盘和鼠标143组合、相机144或其他USB输入装置。
将领会的是,示出的系统100是示例性的并且不是限制性的,因为以不同方式配置的其他类型的数据处理系统也可以被使用。例如,存储器控制器116和平台控制器集线器130的实例可以被集成到分立的外部图形处理器中,诸如外部图形处理器112。在一个实施例中,平台控制器集线器130和/或存储器控制器116可以在一个或多个处理器102的外部。例如,系统100能够包括外部存储器控制器116和平台控制器集线器130,其可以被配置为与(一个或多个)处理器102通信的系统芯片组内的存储器控制器集线器和外设控制器集线器。
图2是具有一个或多个处理器核202A-202N、集成存储器控制器214和集成图形处理器208的处理器200的实施例的框图。图2的具有与本文中的任何其它图的元件相同的参考数字(或名称)的那些元件可采用与本文中的其它地方描述的方式类似的任何方式操作或起作用,但不限于这样。处理器200可包括一直到并包括由虚线框表示的附加核202N的附加核。处理器核202A-202N中的每个处理器核包括一个或多个内部高速缓存单元204A-204N。在一些实施例中,每个处理器核还可以访问一个或多个共享高速缓存单元206。
内部高速缓存单元204A-204N和共享高速缓存单元206表示处理器200内的高速缓冲存储器层级。高速缓冲存储器层级可以包括在每个处理器核内的至少一级的指令和数据高速缓存,以及一级或多级的共享中间级高速缓存,诸如2级(L2)、3级(L3)、4级(L4)或其他级的高速缓存,其中在外部存储器前的最高级的高速缓存被分类为LLC。在一些实施例中,高速缓存一致性逻辑维持各种高速缓存单元206与204A-204N之间的一致性。
在一些实施例中,处理器200还可以包括一组一个或多个总线控制器单元216和系统代理核210。一个或多个总线控制器单元216管理一组外设总线,诸如一个或多个PCI或PCI express总线。系统代理核210提供用于各种处理器组件的管理功能性。在一些实施例中,系统代理核210包括一个或多个集成存储器控制器214以管理对各种外部存储器装置(未示出)的访问。
在一些实施例中,处理器核202A-202N中的一个或多个处理器核包括对同时多线程的支持。在此类实施例中,系统代理核210包括用于在多线程的处理期间协调和操作核202A-202N的组件。系统代理核210可以另外包括功率控制单元(PCU),所述功率控制单元(PCU)包括用来调节处理器核202A-202N和图形处理器208的功率状态的逻辑和组件。
在一些实施例中,处理器200另外包括用来执行图形处理操作的图形处理器208。在一些实施例中,图形处理器208与一组共享高速缓存单元206和包括一个或多个集成存储器控制器214的系统代理核210耦合。在一些实施例中,系统代理核210还包括用来驱动到一个或多个耦合的显示器的图形处理器输出的显示控制器211。在一些实施例中,显示控制器211还可以是经由至少一个互连与图形处理器耦合的单独模块,或者可以被集成在图形处理器208内。
在一些实施例中,基于环的互连单元212被用来耦合处理器200的内部组件。然而,可以使用备选互连单元,诸如点对点互连、交换互连或其他技术,包括本领域中公知的技术。在一些实施例中,图形处理器208经由I/O链路213与环形互连212耦合。
示例性I/O链路213表示多个种类的I/O互连中的至少一个,包括促进在各种处理器组件与诸如eDRAM模块的高性能嵌入式存储器模块218之间的通信的封装上I/O互连。在一些实施例中,处理器核202A-202N中的每个处理器核和图形处理器208使用嵌入式存储器模块218作为共享末级高速缓存。
在一些实施例中,处理器核202A-202N是执行相同指令集架构的同质核。在另一实施例中,处理器核202A-202N在指令集架构(ISA)方面是异质的,其中处理器核202A-202N中的一个或多个处理器核执行第一指令集,而其他核中的至少一个核执行第一指令集的子集或不同指令集。在一个实施例中,处理器核202A-202N在微架构方面是异质的,其中具有相对较高功耗的一个或多个核与具有较低功耗的一个或多个功率核耦合。另外,处理器200能够在一个或多个芯片上被实现,或者被实现为除其他组件外还具有示出的组件的SoC集成电路。
图3是图形处理器300的框图,该图形处理器300可以是分立的图形处理单元,或者可以是与多个处理核集成的图形处理器。在一些实施例中,图形处理器经由到图形处理器上的寄存器的存储器映射I/O接口并且利用放置在处理器存储器中的命令进行通信。在一些实施例中,图形处理器300包括用来访问存储器的存储器接口314。存储器接口314能够是到本地存储器、一个或多个内部高速缓存、一个或多个共享外部高速缓存和/或到系统存储器的接口。
在一些实施例中,图形处理器300还包括用来将显示输出数据驱动到显示装置320的显示控制器302。显示控制器302包括用于一个或多个覆盖平面的硬件,以用于显示和组合多个层的视频或用户接口元素。显示装置320能够是内部或外部显示装置。在一个实施例中,显示装置320是头戴式显示装置,诸如虚拟现实(VR)显示装置或增强现实(AR)显示装置。在一些实施例中,图形处理器300包括视频编解码器引擎306以将媒体编码成一种或多种媒体编码格式、从一种或多种媒体编码格式解码媒体或在一种或多种媒体编码格式之间将媒体转码,所述媒体编码格式包括但不限于运动图像专家组(MPEG)格式(诸如MPEG-2)、高级视频编码(AVC)格式(诸如H.264/MPEG-4 AVC)以及电影与电视工程师协会(SMPTE)421M/VC-1和联合图像专家组(JPEG)格式(诸如JPEG)和运动JPEG(MJPEG)格式。
在一些实施例中,图形处理器300包括用来执行二维(2D)光栅化器操作(包括例如位边界块传输)的块图像传输(BLIT)引擎304。然而,在一个实施例中,使用图形处理引擎(GPE)310的一个或多个组件来执行2D图形操作。在一些实施例中,GPE 310是用于执行包括三维(3D)图形操作和媒体操作的图形操作的计算引擎。
在一些实施例中,GPE 310包括用于执行3D操作的3D流水线312,所述3D操作诸如使用作用于3D图元形状(例如,矩形、三角形等)的处理功能来渲染三维图像和场景。3D流水线312包括可编程和固定功能元件,所述可编程和固定功能元件在元件内执行各种任务和/或将执行线程派生(spawn)到3D/媒体子系统315。虽然3D流水线312能够被用来执行媒体操作,但GPE 310的实施例还包括特别用来执行媒体操作(诸如视频后处理和图像增强)的媒体流水线316。
在一些实施例中,媒体流水线316包括固定功能或可编程逻辑单元以代替或者代表视频编解码器引擎306来执行一个或多个专用媒体操作,诸如视频解码加速、视频去交织和视频编码加速。在一些实施例中,媒体流水线316另外包括线程派生单元以派生用于在3D/媒体子系统315上执行的线程。派生的线程在3D/媒体子系统315中包括的一个或多个图形执行单元上执行用于媒体操作的计算。
在一些实施例中,3D/媒体子系统315包括用于执行由3D流水线312和媒体流水线316派生的线程的逻辑。在一个实施例中,流水线将线程执行请求发送到3D/媒体子系统315,所述3D/媒体子系统315包括线程分派逻辑,以用于将各种请求仲裁(arbitrate)并分派到可用线程执行资源。执行资源包括用来处理3D和媒体线程的图形执行单元的阵列。在一些实施例中,3D/媒体子系统315包括用于线程指令和数据的一个或多个内部高速缓存。在一些实施例中,子系统还包括共享存储器,所述共享存储器包括寄存器和可寻址存储器,以在线程之间共享数据和存储输出数据。
图形处理引擎
图4是根据一些实施例的图形处理器的图形处理引擎410的框图。在一个实施例中,图形处理引擎(GPE)410是图3中示出的GPE 310的某一版本。与本文中任何其他附图的元件具有相同参考标号(或名称)的图4的元件能够以与本文中其他地方所描述的方式类似的任何方式操作或起作用,但不限于这样。例如,示出了图3的3D流水线312和媒体流水线316。媒体流水线316在GPE 410的一些实施例中是可选的,并且可以未被显式地包括在GPE410内。例如,并且在至少一个实施例中,单独的媒体和/或图像处理器被耦合到GPE 410。
在一些实施例中,GPE 410与提供命令流到3D流水线312和/或媒体流水线316的命令流转化器403耦合,或者包括该命令流转化器403。在一些实施例中,命令流转化器403与存储器耦合,所述存储器能够是系统存储器,或内部高速缓冲存储器和共享高速缓冲存储器中的一个或多个。在一些实施例中,命令流转化器403接收来自存储器的命令,并且将命令发送到3D流水线312和/或媒体流水线316。命令是从环形缓冲器获取的指示,所述环形缓冲器存储用于3D流水线312和媒体流水线316的命令。在一个实施例中,环形缓冲器能够另外包括存储批量的多个命令的批量命令缓冲器。用于3D流水线312的命令还能够包括对在存储器中存储的数据的引用,所述数据诸如但不限于用于3D流水线312的顶点和几何数据和/或用于媒体流水线316的图像数据和存储器对象。3D流水线312和媒体流水线316通过经由相应流水线内的逻辑执行操作或者通过将一个或多个执行线程分派到图形核阵列414来处理命令和数据。在一个实施例中,图形核阵列414包括图形核(例如,(一个或多个)图形核415A、(一个或多个)图形核415B)的一个或多个块,每个块包括一个或多个图形核。每个图形核包括:一组图形执行资源,其包括用来执行图形和计算操作的通用和图形特定执行逻辑;以及固定功能纹理处理和/或机器学习和人工智能加速逻辑。
在各种实施例中,3D流水线312包括用来通过将指令和分派执行线程处理到图形核阵列414来处理一个或多个着色器程序(诸如顶点着色器、几何着色器、像素着色器、片段着色器、计算着色器或其他着色器程序)的固定功能和可编程逻辑。图形核阵列414提供执行资源的统一块以供在处理这些着色器程序中使用。图形核阵列414的(一个或多个)图形核415A-415B内的多用途执行逻辑(例如,执行单元)包括对各种3D API着色器语言的支持,并且能够执行与多个着色器关联的多个同时执行线程。
在一些实施例中,图形核阵列414还包括用来执行媒体功能(诸如视频和/或图像处理)的执行逻辑。在一个实施例中,执行单元另外包括通用逻辑,该通用逻辑可编程以除图形处理操作外还执行并行通用计算操作。该通用逻辑能够与在图1的(一个或多个)处理器核107或如在图2中的核202A-202N内的通用逻辑并行或结合地执行处理操作。
由在图形核阵列414上执行的线程生成的输出数据能够将数据输出到统一返回缓冲器(URB)418中的存储器。URB 418能够存储用于多个线程的数据。在一些实施例中,URB418可以被用来在图形核阵列414上执行的不同线程之间发送数据。在一些实施例中,URB418可以另外被用于在图形核阵列上的线程与在共享功能逻辑420内的固定功能逻辑之间的同步。
在一些实施例中,图形核阵列414是可缩放的,使得该阵列包括可变数量的图形核,这些图形核各自基于GPE 410的目标功率和性能水平而具有可变数量的执行单元。在一个实施例中,执行资源是动态可缩放的,使得可以按需要来启用或禁用执行资源。
图形核阵列414与共享功能逻辑420耦合,该共享功能逻辑420包括在图形核阵列中的图形核之间共享的多个资源。在共享功能逻辑420内的共享功能是硬件逻辑单元,所述硬件逻辑单元提供专用补充功能性到图形核阵列414。在各种实施例中,共享功能逻辑420包括但不限于采样器421、数学422和线程间通信(ITC)423逻辑。另外,一些实施例在共享功能逻辑420内实现一个或多个高速缓存425。
在对给定专用功能的需求不足以包含在图形核心阵列414内的情况下,实现共享功能。替代地,该专用功能的单个实例化被实现为共享功能逻辑420中的独立实体,并且在图形核阵列414内的执行资源之间共享。在图形核阵列414之间共享并且被包括在图形核阵列414内的功能的精确集合跨实施例而变化。在一些实施例中,由图形核阵列414广泛使用的共享功能逻辑420内的特定共享功能可以被包括在图形核阵列414内的共享功能逻辑416内。在各种实施例中,图形核阵列414内的共享功能逻辑416能够包括共享功能逻辑420内的一些或全部逻辑。在一个实施例中,可以在图形核阵列414的共享功能逻辑416内重复共享功能逻辑420内的全部逻辑元件。在一个实施例中,排除了共享功能逻辑420以有利于图形核阵列414内的共享功能逻辑416。
图5是根据本文中描述的一些实施例的图形处理器核500的硬件逻辑的框图。与本文中任何其他附图的元件具有相同参考标号(或名称)的图5的元件能够以与本文中其他地方所描述的方式类似的任何方式操作或起作用,但不限于这样。在一些实施例中,示出的图形处理器核500被包括在图4的图形核阵列414内。有时被称为核切片(core slice)的图形处理器核500能够是模块化图形处理器内的一个或多个图形核。图形处理器核500是一个图形核切片的示例,并且如本文中所述的图形处理器可以基于目标功率和性能包络而包括多个图形核切片。每个图形处理器核500能够包括与也称为子切片的多个子核501A-501F耦合的固定功能块530,所述多个子核501A-501F包括通用和固定功能逻辑的模块化块。
在一些实施例中,固定功能块530包括几何/固定功能流水线536,所述几何/固定功能流水线536能够例如在更低性能/或更低功率图形处理器实现中由图形处理器核500中的所有子核共享。在各种实施例中,几何/固定功能流水线536包括3D固定功能流水线(例如,如图3和图4中的3D流水线312)、视频前端单元、线程派生器(thread spawner)和线程分派器(thread dispatcher)以及管理统一返回缓冲器(unified return buffer)(诸如图4的统一返回缓冲器418)的统一返回缓冲器管理器。
在一个实施例中,固定功能块530还包括图形SoC接口537、图形微控制器538和媒体流水线539。图形SoC接口537提供图形处理器核500与片上系统集成电路内的其他处理器核之间的接口。图形微控制器538是可编程子处理器,其可配置成管理图形处理器核500的各种功能,包括线程分派、调度和抢占(pre-emption)。媒体流水线539(例如,图3和图4的媒体流水线316)包括用来促进多媒体数据(包括图像和视频数据)的解码、编码、预处理和/或后处理的逻辑。媒体流水线539经由对子核501A-501F内的计算或采样逻辑的请求来实现媒体操作。
在一个实施例中,SoC接口537使得图形处理器核500能够与通用应用处理器核(例如,CPU)和/或SoC内的其他组件(包括存储器层级元件,诸如共享末级高速缓冲存储器、系统RAM和/或嵌入式片上或封装上DRAM)进行通信。SoC接口537还可实现与SoC内的固定功能器件(诸如相机成像流水线)的通信,并且实现全局存储器原子的使用和/或实现全局存储器原子,可以在图形处理器核500与SoC内的CPU之间共享所述全局存储器原子。SoC接口537还可实现用于图形处理器核500的功率管理控制,并且实现图形核500的时钟域与SoC内的其他时钟域之间的接口。在一个实施例中,SoC接口537使得能够接收来自命令流转化器(command streamer)和全局线程分派器的命令缓冲器,所述命令缓冲器被配置成向图形处理器内的一个或多个图形核中的每个图形核提供命令和指令。命令和指令能够在要执行媒体操作时被分派到媒体流水线539,或者在要执行图形处理操作时被分派到几何和固定功能流水线(例如,几何和固定功能流水线536、几何和固定功能流水线514)。
图形微控制器538能够被配置成执行用于图形处理器核500的各种调度和管理任务。在一个实施例中,图形微控制器538能够在子核501A-501F内的执行单元(EU)阵列502A-502F、504A-504F内的各种图形并行引擎上执行图形和/或计算工作负载调度。在此调度模型中,在包括图形处理器核500的SoC的CPU核上执行的主机软件能够提交工作负载给多个图形处理器门铃(graphic processor doorbell)之一,这调取在适当图形引擎上的调度操作。调度操作包括确定接下来要运行哪个工作负载,向命令流转化器提交工作负载,对在引擎上运行的现有工作负载进行抢占,监测工作负载的进展,以及在工作负载完成时通知主机软件。在一个实施例中,图形微控制器538还能够促进图形处理器核500的低功率或空闲状态,从而为图形处理器核500提供独立于操作系统和/或系统上的图形驱动器软件跨低功率状态转变来对图形处理器核500内的寄存器进行保存和恢复的能力。
图形处理器核500可以具有多于或少于示出的子核501A-501F,多达N个模块化子核。对于每组N个子核,图形处理器核500还能够包括共享功能逻辑510、共享和/或高速缓冲存储器512、几何/固定功能流水线514以及用来加速各种图形和计算处理操作的附加的固定功能逻辑516。共享功能逻辑510能够包括与图4的共享功能逻辑420关联的逻辑单元(例如,采样器、数学和/或线程间通信逻辑),所述逻辑单元能够由图形处理器核500内的每N个子核共享。共享和/或高速缓冲存储器512能够是用于图形处理器核500内的一组N个子核501A-501F的末级高速缓存,并且还能够充当可由多个子核访问的共享存储器。几何/固定功能流水线514能够代替固定功能块530内的几何/固定功能流水线536而被包括,并且能够包括相同或类似的逻辑单元。
在一个实施例中,图形处理器核500包括附加的固定功能逻辑516,其能够包括供图形处理器核500使用的各种固定功能加速逻辑。在一个实施例中,附加的固定功能逻辑516包括供在仅位置着色中使用的附加的几何流水线。在仅位置着色中,存在两个几何流水线:几何/固定功能流水线516、536内的完全几何流水线;以及剔除流水线(cullpipeline),其是可以被包括在附加的固定功能逻辑516内的附加的几何流水线。在一个实施例中,剔除流水线是完全几何流水线的裁减版本。完全流水线和剔除流水线能够执行相同应用的不同实例,每个实例具有单独的上下文。仅位置着色能够隐藏被丢弃三角形的长剔除运行,使得在一些实例中能更早完成着色。例如,并且在一个实施例中,附加的固定功能逻辑516内的剔除流水线逻辑能够执行与主应用并行的位置着色器,并且一般比完全流水线更快生成关键结果,因为剔除流水线仅获取并且着色顶点的位置属性而不向帧缓冲器执行像素的光栅化(rasterization)和渲染。剔除流水线能够使用生成的关键结果来计算用于所有三角形的可见性信息,而不考虑那些三角形是否被剔除。完全流水线(其在此实例中可以被称为重放流水线)能够消耗可见性信息以跳过被剔除的三角形,以仅对最终被传递到光栅化阶段的可见三角形进行着色。
在一个实施例中,附加的固定功能逻辑516还能够包括诸如固定功能矩阵乘法逻辑的机器学习加速逻辑,以用于包括针对机器学习训练或推理的优化的实现。
在每个图形子核501A-501F内包括一组执行资源,其可以用于响应于图形流水线、媒体流水线或着色器程序的请求而执行图形、媒体和计算操作。图形子核501A-501F包括多个EU阵列502A-502F、504A-504F、线程分派和线程间通信(TD/IC)逻辑503A-503F、3D(例如,纹理)采样器505A-505F、媒体采样器506A-506F、着色器处理器507A-507F及共享本地存储器(SLM)508A-508F。EU阵列502A-502F、504A-504F各自包括多个执行单元,所述多个执行单元是能够为图形、媒体或计算操作(包括图形、媒体或计算着色器程序)服务而执行浮点和整数/定点逻辑运算的通用图形处理单元。TD/IC逻辑503A-503F执行用于子核内的执行单元的本地线程分派和线程控制操作,并且促进在子核的执行单元上执行的线程之间的通信。3D采样器505A-505F能够将纹理或其他3D图形有关数据读取到存储器中。3D采样器能够基于配置的样本状态和与给定纹理关联的纹理格式来以不同方式读取纹理数据。媒体采样器506A-506F能够基于与媒体数据关联的类型和格式来执行类似的读取操作。在一个实施例中,每个图形子核501A-501F能够交替包括统一3D和媒体采样器。在子核501A-501F中的每个子核内的执行单元上执行的线程能够利用每个子核内的共享本地存储器508A-508F,以使得在线程群组内执行的线程能使用片上存储器的公共池来执行。
执行单元
图6A-6B示出了根据本文中描述的实施例的包括图形处理器核中采用的处理元件的阵列的线程执行逻辑600。与本文中任何其他附图的元件具有相同参考标号(或名称)的图6A-6B的元件能够以本文中其他地方所描述的方式类似的任何方式操作或起作用,但不限于这样。图6A示出了线程执行逻辑600的概述,该线程执行逻辑600可以包括用图5的每个子核501A-501F示出的硬件逻辑的变体。图6B示出了执行单元的示例性内部细节。
如在图6A中所示出的,在一些实施例中,线程执行逻辑600包括着色器处理器602、线程分派器604、指令高速缓存606、包括多个执行单元608A-608N的可缩放执行单元阵列、采样器610、数据高速缓存612和数据端口614。在一个实施例中,可缩放执行单元阵列能够通过基于工作负载的计算要求来启用或禁用一个或多个执行单元(例如,执行单元608A、608B、608C、608D直到608N-1和608N中的任何执行单元)来动态地进行缩放。在一个实施例中,被包括的组件经由链接到组件中的每个组件的互连组构而互连。在一些实施例中,线程执行逻辑600包括通过指令高速缓存606、数据端口614、采样器610和执行单元608A-608N中的一个或多个到存储器(诸如系统存储器或高速缓冲存储器)的一个或多个连接。在一些实施例中,每个执行单元(例如,608A)是独立可编程通用计算单元,其能执行多个同时硬件线程,同时为每个线程并行处理多个数据元素。在各种实施例中,执行单元608A-608N的阵列是可缩放的,以包括任何数量的各个执行单元。
在一些实施例中,执行单元608A-608N主要被用来执行着色器程序。着色器处理器602能够处理各种着色器程序,并且经由线程分派器604分派与着色器程序关联的执行线程。在一个实施例中,线程分派器包括用来对来自图形和媒体流水线的线程发起请求进行仲裁并且在执行单元608A-608N中的一个或多个执行单元上实例化所请求的线程的逻辑。例如,几何流水线能够分派顶点、曲面细分(tessellation)或几何着色器到线程执行逻辑以用于处理。在一些实施例中,线程分派器604还能够处理来自执行的着色器程序的运行时间线程派生请求。
在一些实施例中,执行单元608A-608N支持指令集,所述指令集包括对许多标准3D图形着色器指令的本机支持,使得来自图形库(例如Direct 3D和OpenGL)的着色器程序以最小的转换来执行。执行单元支持顶点和几何处理(例如顶点程序、几何程序、顶点着色器)、像素处理(例如像素着色器、片段着色器)和通用处理(例如计算和媒体着色器)。执行单元608A-608N中的每个执行单元能进行多发布(multi-issue)单指令多数据(SIMD)执行,并且多线程操作在面临更高时延存储器访问时实现高效的执行环境。每个执行单元内的每个硬件线程具有专用高带宽寄存器堆和关联的独立线程状态。执行是对能够进行整数、单精度和双精度浮点运算、SIMD分支能力、逻辑运算、超越运算和其他杂项运算的流水线的每时钟多发布。在等待来自存储器或共享功能之一的数据时,执行单元608A-608N内的依赖性逻辑使等待的线程休眠,直到所请求的数据已返回为止。当等待的线程正在休眠时,硬件资源可以专用于处理其他线程。例如,在与顶点着色器操作关联的延迟期间,执行单元能够执行用于像素着色器、片段着色器或另一类型的着色器程序(包括不同顶点着色器)的操作。
执行单元608A-608N中的每个执行单元对数据元素的阵列进行操作。数据元素的数量是“执行大小”或用于指令的通道的数量。执行通道是用于指令内的数据元素访问、掩码(masking)和流控制的执行的逻辑单元。通道的数量可以独立于用于特定图形处理器的物理算术逻辑单元(ALU)或浮点单元(FPU)的数量。在一些实施例中,执行单元608A-608N支持整数和浮点数据类型。
执行单元指令集包括SIMD指令。各种数据元素能够作为打包数据类型存储在寄存器中,并且执行单元将基于元素的数据大小来处理各种元素。例如,在对256位宽向量进行操作时,向量的256位被存储在寄存器中,并且执行单元对作为四个单独的64位打包数据元素(四字(QW)大小数据元素)、八个单独的32位打包数据元素(双字(DW)大小数据元素)、十六个单独的16位打包数据元素(字(W)大小数据元素)或三十二个单独的8位数据元素(字节(B)大小数据元素)的向量进行操作。然而,不同向量宽度和寄存器大小是可能的。
在一个实施例中,一个或多个执行单元能够被组合成具有线程控制逻辑(607A-607N)的融合执行单元609A-609N,该线程控制逻辑(607A-607N)对于融合EU是公共的。多个EU能够融合成EU群组。融合EU群组中的每个EU能够配置成执行单独的SIMD硬件线程。融合EU群组中EU的数量能够根据实施例而变化。另外,能够每EU执行各种SIMD宽度,包括但不限于SIMD8、SIMD16和SIMD32。每个融合图形执行单元609A-609N包括至少两个执行单元。例如,融合执行单元609A包括第一EU 608A、第二EU 608B及线程控制逻辑607A,该线程控制逻辑607A对于第一EU 608A和第二EU 608B是公共的。线程控制逻辑607A控制在融合图形执行单元609A上执行的线程,允许融合执行单元609A-609N内的每个EU使用公共指令指针寄存器来执行。
线程执行逻辑600中包括一个或多个内部指令高速缓存(例如,606)以对用于执行单元的线程指令进行高速缓存。在一些实施例中,包括一个或多个数据高速缓存(例如,612)以在线程执行期间对线程数据进行高速缓存。在一些实施例中,包括采样器610以提供用于3D操作的纹理采样和用于媒体操作的媒体采样。在一些实施例中,采样器610包括专用纹理或媒体采样功能性,以在向执行单元提供采样数据前在采样进程期间处理纹理或媒体数据。
在执行期间,图形和媒体流水线经由线程派生和分派逻辑向线程执行逻辑600发送线程发起请求。一旦几何对象的群组已被处理并且光栅化成像素数据,着色器处理器602内的像素处理器逻辑(例如,像素着色器逻辑、片段着色器逻辑等)便被调取来进一步计算输出信息,并且使结果被写入到输出表面(例如颜色缓冲器、深度缓冲器、模板缓冲器等)。在一些实施例中,像素着色器或片段着色器计算要跨光栅化对象内插的各种顶点属性的值。在一些实施例中,着色器处理器602内的像素处理器逻辑然后执行应用编程接口(API)供应的像素或片段着色器程序。为执行着色器程序,着色器处理器602经由线程分派器604向执行单元(例如,608A)分派线程。在一些实施例中,着色器处理器602使用采样器610中的纹理采样逻辑来访问存储在存储器中的纹理映射中的纹理数据。对纹理数据和输入几何数据的算术运算计算每个几何片段的像素颜色数据,或者从进一步处理中丢弃一个或多个像素。
在一些实施例中,数据端口614为线程执行逻辑600提供存储器访问机制,以将经处理的数据输出至存储器以用于在图形处理器输出流水线上进一步处理。在一些实施例中,数据端口614包括或者耦合到一个或多个高速缓冲存储器(例如,数据高速缓存612)来对数据进行高速缓存以用于经由数据端口的存储器访问。
如在图6B中所示出的,图形执行单元608能够包括指令获取单元637、通用寄存器堆阵列(GRF)624、架构寄存器堆阵列(ARF)626、线程仲裁器622、发送单元630、分支单元632、一组SIMD浮点单元(FPU)634以及在一个实施例中包括一组专用整数SIMD ALU 635。GRF 624和ARF 626包括与可以在图形执行单元608中活动的每个同时硬件线程关联的一组通用寄存器堆和架构寄存器堆。在一个实施例中,在ARF 626中维持每线程架构状态,而在线程执行期间使用的数据被存储在GRF 624中。每个线程的执行状态(包括用于每个线程的指令指针)能够被保持在ARF 626中的线程特定寄存器中。
在一个实施例中,图形执行单元608具有是同时多线程(SMT)和细粒度交错多线程(IMT)的组合的架构。该架构具有模块化配置,其能够在设计时基于每执行单元的寄存器数量和同时线程的目标数量来被微调,其中执行单元资源跨用来执行多个同时线程的逻辑而被划分。
在一个实施例中,图形执行单元608能够共同发布多个指令,所述多个指令各自可以是不同的指令。图形执行单元线程608的线程仲裁器622能够将指令分派给发送单元630、分支单元632或(一个或多个)SIMD FPU 634中的一个以用于执行。每个执行线程能够访问GRF 624内的128个通用寄存器,其中每个寄存器能够存储32个字节,其可作为32位数据元素的SIMD 8元素向量访问。在一个实施例中,每个执行单元线程可以访问GRF 624内的4千字节,虽然实施例不限于此,并且在其他实施例中可以提供更多或更少的寄存器资源。在一个实施例中,多达七个线程可以同时执行,尽管每个执行单元的线程数量也可以根据实施例而变化。在其中七个线程可以访问4千字节的实施例中,GRF 624能够存储总共28千字节。灵活的寻址模式能够允许对寄存器一起被寻址以有效地构建更宽的寄存器或者表示跨步矩形块数据结构(strided rectangular block data structure)。
在一个实施例中,经由通过消息传递发送单元630执行的“发送”指令来分派存储器操作、采样器操作和其他较长时延系统通信。在一个实施例中,将分支指令分派给专用分支单元632以促进SIMD发散和最终收敛。
在一个实施例中,图形执行单元608包括一个或多个SIMD浮点单元((一个或多个)FPU)634以执行浮点运算。在一个实施例中,(一个或多个)FPU 634还支持整数计算。在一个实施例中,(一个或多个)FPU 634能够SIMD执行多达数量为M的32位浮点(或整数)运算,或者SIMD执行多达2M个16位整数或16位浮点运算。在一个实施例中,(一个或多个)FPU中的至少一个FPU提供扩展的数学能力以支持高吞吐量超越数学功能和双精度64位浮点。在一些实施例中,还存在一组8位整数SIMD ALU 635,并且该组8位整数SIMD ALU 635可以被特别地优化以执行与机器学习计算关联的运算。
在一个实施例中,图形执行单元608的多个实例的阵列能够在图形子核分组(例如,子切片)中被实例化。为了可缩放性,产品架构师能够选择每子核分组的执行单元的确切数量。在一个实施例中,执行单元608能够跨多个执行通道执行指令。在附加的实施例中,在图形执行单元608上执行的每个线程是在不同的通道上执行的。
图7是示出根据一些实施例的图形处理器指令格式700的框图。在一个或多个实施例中,图形处理器执行单元支持具有采用多种格式的指令的指令集。实线框示出了一般被包括在执行单元指令中的组成部分,而虚线包括可选的或者仅被包括在指令的子集中的组成部分。在一些实施例中,描述和图示的指令格式700是宏指令,因为它们是供应给执行单元的指令,而与一旦指令被处理则由指令解码产生的微操作相反。
在一些实施例中,图形处理器执行单元本机地支持采用128位指令格式710的指令。基于所选择的指令、指令选项和操作数的数量,64位紧凑指令格式730可用于一些指令。本机128位指令格式710提供对所有指令选项的访问,而在64位格式730中一些选项和操作被限制。采用64位格式730的可用的本机指令随实施例而变化。在一些实施例中,使用索引字段713中的一组索引值来部分地压缩指令。执行单元硬件基于索引值来引用一组压缩表,并且使用压缩表输出来重构采用128位指令格式710的本机指令。
对于每种格式,指令操作码712定义执行单元要执行的操作。执行单元跨每个操作数的多个数据元素并行执行每个指令。例如,响应于相加指令,执行单元跨表示纹理元素或图片元素的每个颜色通道来执行同时相加运算。默认情况下,执行单元跨操作数的所有数据通道来执行每个指令。在一些实施例中,指令控制字段714实现对诸如通道选择(例如,断定(predication))和数据通道次序(例如,搅混(swizzle))之类的某些执行选项的控制。对于采用128位指令格式710的指令,执行大小字段716限制将被并行执行的数据通道的数量。在一些实施例中,执行大小字段716不可用于在64位紧凑指令格式730中使用。
一些执行单元指令具有多达三个操作数,这三个操作数包括两个源操作数、src0720、src1 722和一个目的地718。在一些实施例中,执行单元支持双目的地指令,其中目的地之一是隐含的。数据操纵指令能够具有第三源操作数(例如SRC2 724),其中指令操作码712确定源操作数的数量。指令的最后源操作数能够是利用指令传递的立即(例如,硬编码的)值。
在一些实施例中,128位指令格式710包括访问/地址模式字段726,该访问/地址模式字段726指定例如使用直接寄存器寻址模式还是间接寄存器寻址模式。在使用直接寄存器寻址模式时,由指令中的位来直接提供一个或多个操作数的寄存器地址。
在一些实施例中,128位指令格式710包括访问/地址模式字段726,该访问/地址模式字段726指定指令的地址模式和/或访问模式。在一个实施例中,访问模式被用来定义指令的数据访问对齐。一些实施例支持包括16字节对齐的访问模式和1字节对齐的访问模式的访问模式,其中访问模式的字节对齐确定指令操作数的访问对齐。例如,当处于第一模式中时,指令可将字节对齐的寻址用于源操作数和目的地操作数,并且当处于第二模式中时,指令可将16字节对齐的寻址用于所有源操作数和目的地操作数。
在一个实施例中,访问/地址模式字段726的地址模式部分确定指令将使用直接寻址还是间接寻址。在使用直接寄存器寻址模式时,指令中的位直接提供一个或多个操作数的寄存器地址。在使用间接寄存器寻址模式时,可以基于指令中的地址寄存器值和地址立即字段来计算一个或多个操作数的寄存器地址。
在一些实施例中,基于操作码712位字段对指令进行分组,以简化操作码解码740。对于8位操作码,4、5和6位允许执行单元确定操作码的类型。所示出的精确操作码分组仅是示例。在一些实施例中,移动和逻辑操作码群组742包括数据移动和逻辑指令(例如,移动(mov)、比较(cmp))。在一些实施例中,移动和逻辑群组742共享五个最高有效位(MSB),其中移动(mov)指令采用0000xxxxb的形式,并且逻辑指令采用0001xxxxb的形式。流控制指令群组744(例如调取、跳(jmp))包括采用0010xxxxb(例如,0x20)形式的指令。杂项指令群组746包括指令的混合,包括采用0011xxxxb(例如0x30)形式的同步指令(例如等待、发送)。并行数学指令群组748包括采用0100xxxxb(例如0x40)形式的逐组成部分的算术指令(例如,加、乘(mul))。并行数学群组748跨数据通道并行执行算术运算。向量数学群组750包括采用0101xxxxb(例如,0x50)形式的算术指令(例如,dp4)。向量数学群组对向量操作数执行诸如点积计算的算术。
图形流水线
图8是图形处理器800的另一实施例的框图。与本文中任何其他附图的元件具有相同参考标号(或名称)的图8的元件能够以与本文中其他地方所描述的方式类似的任何方式操作或起作用,但不限于这样。
在一些实施例中,图形处理器800包括几何流水线820、媒体流水线830、显示引擎840、线程执行逻辑850和渲染输出流水线870。在一些实施例中,图形处理器800是包括一个或多个通用处理核的多核处理系统内的图形处理器。通过对一个或多个控制寄存器(未示出)的寄存器写入或者经由经过环形互连802发布至图形处理器800的命令来控制图形处理器。在一些实施例中,环形互连802将图形处理器800耦合到其他处理组件,诸如其他图形处理器或通用处理器。来自环形互连802的命令由命令流转化器803解译,该命令流转化器803将指令供应至几何流水线820或媒体流水线830的各个组件。
在一些实施例中,命令流转化器803指导顶点获取器805的操作,该顶点获取器805从存储器读取顶点数据并执行由命令流转化器803提供的顶点处理命令。在一些实施例中,顶点获取器805将顶点数据提供给顶点着色器807,该顶点着色器807对每个顶点执行坐标空间变换和照明操作。在一些实施例中,顶点获取器805和顶点着色器807通过经由线程分派器831向执行单元852A-852B分派执行线程来执行顶点处理指令。
在一些实施例中,执行单元852A-852B是具有用于执行图形和媒体操作的指令集的向量处理器的阵列。在一些实施例中,执行单元852A-852B具有附连的L1高速缓存851,所述L1高速缓存851特定于每个阵列,或者在阵列之间共享。高速缓存能够被配置为数据高速缓存、指令高速缓存或被分区以在不同分区中含有数据和指令的单个高速缓存。
在一些实施例中,几何流水线820包括曲面细分组件以执行3D对象的硬件加速的曲面细分。在一些实施例中,可编程外壳着色器(programmable hull shader)811配置曲面细分操作。可编程域着色器817提供曲面细分输出的后端评估。曲面细分器813在外壳着色器811的指导下进行操作,并且含有专用逻辑以基于作为到几何流水线820的输入而提供的粗略几何模型来生成一组详细的几何对象。在一些实施例中,如果未使用曲面细分,则能够绕过曲面细分组件(例如,外壳着色器811、曲面细分器813和域着色器817)。
在一些实施例中,完整几何对象能够由几何着色器819经由分派给执行单元852A-852B的一个或多个线程来处理,或者能够直接行进至裁剪器(clipper)829。在一些实施例中,几何着色器对整个几何对象进行操作,而不是如在图形流水线的先前阶段中那样对顶点或顶点的补片(patch)进行操作。如果曲面细分被禁用,则几何着色器819接收来自顶点着色器807的输入。在一些实施例中,几何着色器819可由几何着色器程序编程以在曲面细分单元被禁用时执行几何曲面细分。
在光栅化前,裁剪器829处理顶点数据。裁剪器829可以是具有裁剪和几何着色器功能的可编程裁剪器或固定功能裁剪器。在一些实施例中,渲染输出流水线870中的光栅化器和深度测试组件873分派像素着色器以将几何对象转换成每像素表示。在一些实施例中,像素着色器逻辑被包括在线程执行逻辑850中。在一些实施例中,应用能够绕过光栅化器和深度测试组件873,并且经由流输出单元823访问未光栅化的顶点数据。
图形处理器800具有允许数据和消息在处理器的主要组件之间传递的互连总线、互连组构或某种其他互连机构。在一些实施例中,执行单元852A-852B和关联的逻辑单元(例如,L1高速缓存851、采样器854、纹理高速缓存858等)经由数据端口856互连,以执行存储器访问并且与处理器的渲染输出流水线组件进行通信。在一些实施例中,采样器854、高速缓存851、858和执行单元852A-852B各自具有单独的存储器访问路径。在一个实施例中,纹理高速缓存858还能够被配置为采样器高速缓存。
在一些实施例中,渲染输出流水线870含有光栅化器和深度测试组件873,其将基于顶点的对象转换成关联的基于像素的表示。在一些实施例中,光栅化器逻辑包括用来执行固定功能三角形和线光栅化的窗口化器(windower)/掩蔽器单元。关联的渲染高速缓存878和深度高速缓存879在一些实施例中也是可用的。像素操作组件877对数据执行基于像素的操作,尽管在一些实例中,与2D操作关联的像素操作(例如,带有混合(blending)的位块图像传输)由2D引擎841执行,或者在显示时由显示控制器843使用覆盖显示平面代替。在一些实施例中,共享L3高速缓存875对于全部图形组件是可用的,从而允许在不使用主系统存储器的情况下共享数据。
在一些实施例中,图形处理器媒体流水线830包括媒体引擎837和视频前端834。在一些实施例中,视频前端834接收来自命令流转化器803的流水线命令。在一些实施例中,媒体流水线830包括单独的命令流转化器。在一些实施例中,视频前端834在将命令发送至媒体引擎837之前处理媒体命令。在一些实施例中,媒体引擎837包括线程派生功能性来派生线程,以便经由线程分派器831分派到线程执行逻辑850。
在一些实施例中,图形处理器800包括显示引擎840。在一些实施例中,显示引擎840在处理器800的外部,并且经由环形互连802或某一其他互连总线或组构与图形处理器耦合。在一些实施例中,显示引擎840包括2D引擎841和显示控制器843。在一些实施例中,显示引擎840含有能独立于3D流水线操作的专用逻辑。在一些实施例中,显示控制器843与显示装置(未示出)耦合,该显示装置可以是系统集成的显示装置(如在膝上型计算机中),或者可以是经由显示装置连接器附连的外部显示装置。
在一些实施例中,几何流水线820和媒体流水线830可配置成基于多个图形和媒体编程接口来执行操作,并且不特定于任何一个应用编程接口(API)。在一些实施例中,用于图形处理器的驱动器软件将特定于特定图形或媒体库的API调取转换成能够由图形处理器处理的命令。在一些实施例中,为全部来自Khronos Group的开放图形库(OpenGL)、开放计算语言(OpenCL)和/或Vulkan图形和计算API提供支持。在一些实施例中,还可以为来自微软公司的Direct3D库提供支持。在一些实施例中,可支持这些库的组合。还可以为开源计算机视觉库(OpenCV)提供支持。如果能够进行从未来API的流水线到图形处理器的流水线的映射,则具有可兼容3D流水线的未来API也将被支持。
图形流水线编程
图9A是示出根据一些实施例的图形处理器命令格式900的框图。图9B是示出根据实施例的图形处理器命令序列910的框图。图9A中的实线框示出了一般被包括在图形命令中的组成部分,而虚线包括可选的或者仅被包括在图形命令的子集中的组成部分。图9A的示例性图形处理器命令格式900包括用来标识命令的客户端902、命令操作代码(操作码)904和数据906的数据字段。一些命令中还包括子操作码905和命令大小908。
在一些实施例中,客户端902指定处理命令数据的图形装置的客户端单元。在一些实施例中,图形处理器命令解析器检查每个命令的客户端字段以调节命令的进一步处理,并且将命令数据路由到适当的客户端单元。在一些实施例中,图形处理器客户端单元包括存储器接口单元、渲染单元、2D单元、3D单元和媒体单元。每个客户端单元具有处理命令的对应处理流水线。一旦客户端单元接收到命令,客户端单元便读取操作码904和子操作码905(如果子操作码905存在的话),以确定要执行的操作。客户端单元使用数据字段906中的信息来执行命令。对于一些命令,预期显式命令大小908来指定命令的大小。在一些实施例中,命令解析器基于命令操作码来自动确定命令中的至少一些命令的大小。在一些实施例中,经由双字的倍数来对齐命令。
图9B中的流程图示出了示例性图形处理器命令序列910。在一些实施例中,以图形处理器的实施例为特征的数据处理系统的软件或固件使用所示出的命令序列的版本来设置、执行和终止一组图形操作。仅出于示例的目的示出并描述了样本命令序列,因为实施例不限于这些特定命令或此命令序列。另外,命令可作为命令序列中的批量的命令被发布,使得图形处理器将至少部分并发地处理命令的序列。
在一些实施例中,图形处理器命令序列910可以以流水线转储清除命令(pipelineflush command)912开始,以促使任何活动的图形流水线完成该流水线的当前未决命令。在一些实施例中,3D流水线922和媒体流水线924没有并发地操作。执行流水线转储清除以促使活动的图形流水线完成任何未决命令。响应于流水线转储清除,用于图形处理器的命令解析器将暂停命令处理,直至活动的绘图引擎完成未决操作并且相关的读取高速缓存失效。可选地,能够将渲染高速缓存中标记为“脏”的任何数据转储清除到存储器。在一些实施例中,流水线转储清除命令912能够被用于流水线同步,或者在将图形处理器置于低功率状态前被使用。
在一些实施例中,在命令序列要求图形处理器在流水线之间显式地切换时,使用流水线选择命令913。在一些实施例中,除非上下文将为两个流水线发布命令,否则在发布流水线命令前,在执行上下文内仅要求一次流水线选择命令913。在一些实施例中,紧接在经由流水线选择命令913的流水线切换之前,要求流水线转储清除命令912。
在一些实施例中,流水线控制命令914配置图形流水线以用于操作,并且被用来对3D流水线922和媒体流水线924进行编程。在一些实施例中,流水线控制命令914为活动的流水线配置流水线状态。在一个实施例中,流水线控制命令914被用于流水线同步,并且在处理一批命令前从活动的流水线内的一个或多个高速缓冲存储器中清除数据。
在一些实施例中,返回缓冲器状态命令916被用来为相应流水线配置一组返回缓冲器以写入数据。一些流水线操作要求分配、选择或配置一个或多个返回缓冲器,在处理期间这些操作将中间数据写入到所述一个或多个返回缓冲器中。在一些实施例中,图形处理器还使用一个或多个返回缓冲器来存储输出数据并且执行跨线程通信。在一些实施例中,返回缓冲器状态916包括选择要用于一组流水线操作的返回缓冲器的大小和数量。
命令序列中的剩余命令基于用于操作的活动流水线而不同。基于流水线确定920,将命令序列定制到以3D流水线状态930开始的3D流水线922或者在媒体流水线状态940开始的媒体流水线924。
用来配置3D流水线状态930的命令包括3D状态设置命令,其用于在处理3D图元命令之前要配置的顶点缓冲器状态、顶点元素状态、恒定颜色状态、深度缓冲器状态以及其他状态变量。至少部分基于使用中的特定3D API来确定这些命令的值。在一些实施例中,如果将不使用某些流水线元件,则3D流水线状态930命令还能够选择性地禁用或绕过那些元件。
在一些实施例中,3D图元932命令被用来提交要由3D流水线处理的3D图元。经由3D图元932命令传递到图形处理器的命令和关联参数被转发到图形流水线中的顶点获取功能。顶点获取功能使用3D图元932命令数据来生成顶点数据结构。顶点数据结构被存储在一个或多个返回缓冲器中。在一些实施例中,3D图元932命令被用来经由顶点着色器对3D图元执行顶点操作。为处理顶点着色器,3D流水线922将着色器执行线程分派到图形处理器执行单元。
在一些实施例中,经由执行934命令或事件来触发3D流水线922。在一些实施例中,寄存器写入触发命令执行。在一些实施例中,经由命令序列中的“go”或“kick”命令来触发执行。在一个实施例中,使用用来转储清除通过图形流水线的命令序列的流水线同步命令来触发命令执行。3D流水线将执行用于3D图元的几何处理。一旦操作完成,所得到的几何对象便被光栅化,并且像素引擎对所得到的像素进行上色。对于那些操作,还可以包括用来控制像素着色和像素后端操作的附加的命令。
在一些实施例中,在执行媒体操作时,图形处理器命令序列910沿着媒体流水线924路径。一般而言,用于媒体流水线924的编程的特定使用和方式取决于要执行的媒体或计算操作。可以在媒体解码期间将特定媒体解码操作卸载到媒体流水线。在一些实施例中,还能够绕过媒体流水线,并且能够使用由一个或多个通用处理核提供的资源来全部或部分地执行媒体解码。在一个实施例中,媒体流水线还包括用于通用图形处理器单元(GPGPU)操作的元件,其中图形处理器被用于使用计算着色器程序来执行SIMD向量运算,所述计算着色器程序与图形图元的渲染不是明确相关的。
在一些实施例中,以与3D流水线922类似的方式对媒体流水线924进行配置。将用来配置媒体流水线状态940的一组命令分派或放置到在媒体对象命令942之前的命令队列中。在一些实施例中,用于媒体流水线状态940的命令包括用来配置媒体流水线元件的数据,所述媒体流水线元件将被用来处理媒体对象。这包括用来配置媒体流水线内的视频解码和视频编码逻辑的数据,诸如编码和解码格式。在一些实施例中,用于媒体流水线状态940的命令还支持使用到含有一批状态设置的“间接”状态元素的一个或多个指针。
在一些实施例中,媒体对象命令942将指针供应到媒体对象以便由媒体流水线处理。媒体对象包括存储器缓冲器,所述存储器缓冲器含有要处理的视频数据。在一些实施例中,在发布媒体对象命令942之前,所有媒体流水线状态必须是有效的。一旦配置了流水线状态,并且将媒体对象命令942排队,便经由执行命令944或等效执行事件(例如,寄存器写入)来触发媒体流水线924。然后可以通过由3D流水线922或媒体流水线924提供的操作对来自媒体流水线924的输出进行后处理。在一些实施例中,以与媒体操作类似的方式配置和执行GPGPU操作。
图形软件架构
图10示出了根据一些实施例的用于数据处理系统1000的示例性图形软件架构。在一些实施例中,软件架构包括3D图形应用1010、操作系统1020和至少一个处理器1030。在一些实施例中,处理器1030包括图形处理器1032和一个或多个通用处理器核1034。图形应用1010和操作系统1020各自在数据处理系统的系统存储器1050中执行。
在一些实施例中,3D图形应用1010含有一个或多个着色器程序,该一个或多个着色器程序包括着色器指令1012。着色器语言指令可以采用高级着色器语言,诸如高级着色器语言(HLSL)或OpenGL着色器语言(GLSL)。应用还包括采用适合由通用处理器核1034执行的机器语言的可执行指令1014。应用还包括由顶点数据定义的图形对象1016。
在一些实施例中,操作系统1020是来自微软公司的Microsoft® Windows®操作系统、专有的类UNIX操作系统或使用Linux内核的变体的开源类UNIX操作系统。操作系统1020能够支持图形API 1022,诸如Direct3D API、OpenGL API或Vulkan API。当Direct3DAPI在使用中时,操作系统1020使用前端着色器编译器1024来将采用HLSL的任何着色器指令1012编译成更低级着色器语言。编译可以是即时(JIT)编译或者应用能够执行着色器预编译。在一些实施例中,在3D图形应用1010的编译期间将高级着色器编译成低级着色器。在一些实施例中,以中间形式(诸如由Vulkan API使用的标准可移植中间表示(SPIR)的版本)提供着色器指令1012。
在一些实施例中,用户模式图形驱动器1026含有用来将着色器指令1012转换成硬件特定表示的后端着色器编译器1027。当OpenGL API在使用中时,将采用GLSL高级语言的着色器指令1012传递到用户模式图形驱动器1026以用于编译。在一些实施例中,用户模式图形驱动器1026使用操作系统内核模式功能1028来与内核模式图形驱动器1029进行通信。在一些实施例中,内核模式图形驱动器1029与图形处理器1032进行通信以分派命令和指令。
IP核实现
至少一个实施例的一个或多个方面可以由存储在机器可读介质上的代表性代码来实现,该代表性代码表示和/或定义诸如处理器的集成电路内的逻辑。例如,机器可读介质可以包括表示处理器内的各种逻辑的指令。在由机器读取时,指令可以促使机器制作逻辑以执行本文中描述的技术。称为“IP核”的此类表示是用于集成电路的逻辑的可重复使用单元,其可以作为对集成电路的结构进行描述的硬件模型而被存储在有形机器可读介质上。可以将硬件模型供应至各种客户或制造设施,所述客户或制造设施将硬件模型加载在制造集成电路的制作机器上。可制作集成电路,使得电路执行与本文中描述的实施例中的任何实施例关联的所描述的操作。
图11A是示出根据实施例的可被用来制造集成电路以执行操作的IP核开发系统1100的框图。IP核开发系统1100可以被用来生成能够被并入到更大的设计中或被用来构造整个集成电路(例如,SOC集成电路)的模块化、可重复使用设计。设计设施1130能够生成采用高级编程语言(例如,C/C++)的IP核设计的软件仿真1110。软件仿真1110能够被用于使用仿真模型1112来设计、测试和验证IP核的行为。仿真模型1112可以包括功能、行为和/或时序仿真。然后能够从仿真模型1112创建或合成寄存器传输级(RTL)设计1115。RTL设计1115是对硬件寄存器之间的数字信号流进行建模的集成电路的行为的抽象,包括使用建模的数字信号执行的相关联逻辑。除RTL设计1115外,还可以创建、设计或合成处于逻辑级或晶体管级的较低级设计。因此,初始设计和仿真的特定细节可以不同。
可以由设计设施将RTL设计1115或等效物进一步合成为硬件模型1120,该硬件模型1120可以采用硬件描述语言(HDL)或物理设计数据的某种其他表示。可以进一步对HDL进行仿真或测试以验证IP核设计。能够使用非易失性存储器1140(例如,硬盘、闪速存储器或任何非易失性存储介质)来存储IP核设计以用于递送到第三方制作设施1165。备选地,可以通过有线连接1150或无线连接1160(例如经由因特网)来传送IP核设计。制作设施1165然后可以制作至少部分基于IP核设计的集成电路。制作的集成电路能够被配置成执行根据本文中描述的至少一个实施例的操作。
图11B示出了根据本文中描述的一些实施例的集成电路封装组装件1170的截面侧视图。集成电路封装组装件1170示出了如本文中描述的一个或多个处理器或加速器装置的实现。封装组装件1170包括连接到衬底1180的多个硬件逻辑单元1172、1174。逻辑1172、1174可以至少部分地在可配置逻辑或固定功能性逻辑硬件中实现,并且能够包括本文中描述的(一个或多个)处理器核、(一个或多个)图形处理器或其他加速器装置中的任何装置的一个或多个部分。逻辑1172、1174的每个单元能够在半导体管芯内实现,并且经由互连结构1173与衬底1180耦合。互连结构1173可以被配置成在逻辑1172、1174与衬底1180之间路由电信号,并且能够包括互连,诸如但不限于凸块或柱。在一些实施例中,互连结构1173可以被配置成路由电信号,诸如,例如与逻辑1172、1174的操作关联的输入/输出(I/O)信号和/或功率或接地信号。在一些实施例中,衬底1180是环氧基层压衬底。在其他实施例中,封装衬底1180可以包括其他适合类型的衬底。封装组装件1170能够经由封装互连1183被连接到其他电装置。封装互连1183可以被耦合到衬底1180的表面,以将电信号路由到其他电装置,诸如母板、其他芯片组或多芯片模块。
在一些实施例中,逻辑单元1172、1174与桥1182电耦合,该桥1182被配置成在逻辑1172、1174之间路由电信号。桥1182可以是为电信号提供路由的密集互连结构。桥1182可以包括由玻璃或合适的半导体材料构成的桥衬底。能够在桥衬底上形成电路由特征,以在逻辑1172、1174之间提供芯片到芯片连接。
虽然示出了两个逻辑单元1172、1174和桥1182,但是本文中描述的实施例可以包括在一个或多个管芯上的更多或更少逻辑单元。由于当逻辑被包括在单个管芯上时可以排除桥1182,因此可以通过零个或多于零个桥来连接一个或多个管芯。备选的是,能够通过一个或多个桥来连接多个管芯或逻辑单元。另外,在其他可能配置(包括三维配置)中能够将多个逻辑单元、管芯和桥连接在一起。
示例性片上系统集成电路
图12-14示出了根据本文中描述的各种实施例的可以使用一个或多个IP核来制作的示例性集成电路和相关联的图形处理器。除了所示出的内容外,还可以包括其他逻辑和电路,包括附加的图形处理器/核、外设接口控制器或通用处理器核。
图12是示出了根据实施例的可以使用一个或多个IP核来制作的示例性片上系统集成电路1200的框图。示例性集成电路1200包括一个或多个应用处理器1205(例如,CPU)、至少一个图形处理器1210,并且可以另外包括图像处理器1215和/或视频处理器1220,以上处理器中的任何处理器可以是来自相同或多个不同设计设施的模块化IP核。集成电路1200包括外设或总线逻辑,所述外设或总线逻辑包括USB控制器1225、UART控制器1230、SPI/SDIO控制器1235和I2S/I2C控制器1240。另外,集成电路能够包括耦合到高清晰度多媒体接口(HDMI)控制器1250和移动工业处理器接口(MIPI)显示接口1255中的一个或多个的显示装置1245。可以通过包括闪速存储器和闪速存储器控制器的闪速存储器子系统1260来提供存储。可以经由存储器控制器1265提供存储器接口以便访问SDRAM或SRAM存储器装置。一些集成电路另外包括嵌入式安全引擎1270。
图13A-13B是示出了根据本文中描述的实施例的供SoC内使用的示例性图形处理器的框图。图13A示出了根据实施例的可以使用一个或多个IP核来制作的片上系统集成电路的示例性图形处理器1310。图13B示出了根据实施例的可以使用一个或多个IP核来制作的片上系统集成电路的附加的示例性图形处理器1340。图13A的图形处理器1310是低功率图形处理器核的示例。图13B的图形处理器1340是更高性能图形处理器核的示例。图形处理器1310、1340中的每个图形处理器能够是图12的图形处理器1210的变体。
如图13A中所示出的,图形处理器1310包括顶点处理器1305和一个或多个片段处理器1315A-1315N(例如,1315A、1315B、1315C、1315D直到1315N-1和1315N)。图形处理器1310能够经由单独的逻辑执行不同着色器程序,使得顶点处理器1305被优化以执行用于顶点着色器程序的操作,而一个或多个片段处理器1315A-1315N执行用于片段或像素着色器程序的片段(例如,像素)着色操作。顶点处理器1305执行3D图形流水线的顶点处理阶段,并且生成图元和顶点数据。(一个或多个)片段处理器1315A-1315N使用由顶点处理器1305生成的图元和顶点数据来产生在显示装置上显示的帧缓冲器。在一个实施例中,(一个或多个)片段处理器1315A-1315N被优化以执行如针对在OpenGL API中提供的片段着色器程序,该片段着色器程序可以被用来执行与如针对在Direct 3D API中提供的像素着色器程序相似的操作。
图形处理器1310另外包括一个或多个存储器管理单元(MMU)1320A-1320B、(一个或多个)高速缓存1325A-1325B和(一个或多个)电路互连1330A-1330B。一个或多个MMU1320A-1320B为图形处理器1310(包括为顶点处理器1305和/或(一个或多个)片段处理器1315A-1315N)提供虚拟地址到物理地址映射,这些处理器除了在一个或多个高速缓存1325A-1325B中存储的顶点或图像/纹理数据之外还可以引用在存储器中存储的顶点或图像/纹理数据。在一个实施例中,一个或多个MMU 1320A-1320B可以与系统内的其他MMU同步,所述其他MMU包括与图12的一个或多个应用处理器1205、图像处理器1215和/或视频处理器1220关联的一个或多个MMU,使得每个处理器1205-1220能够参与到共享或统一虚拟存储器系统中。根据实施例,一个或多个电路互连1330A-1330B使得图形处理器1310能够经由SoC的内部总线或者经由直接连接来与SoC内的其他IP核通过接口连接。
如图13B所示出的,图形处理器1340包括图13的图形处理器1310的一个或多个MMU1320A-1320B、高速缓存1325A-1325B和电路互连1330A-1330B。图形处理器1340包括提供统一着色器核架构的一个或多个着色器核1355A-1355N(例如,1355A、1355B、1355C、1355D、1355E、1355F直到1355N-1和1355N),在该统一着色器核架构中单个核或单个类型的核能够执行全部类型的可编程着色器代码,包括用来实现顶点着色器、片段着色器和/或计算着色器的着色器程序代码。存在的着色器核的确切数量能够在实施例和实现之间变化。另外,图形处理器1340包括:核间任务管理器1345,该核间任务管理器1345充当用来将执行线程分派给一个或多个着色器核1355A-1355N的线程分派器;以及用来为基于贴片的渲染加速拼贴操作(tiling operation)的拼贴单元1358,在该基于贴片的渲染中,用于场景的渲染操作在图像空间中被细分,例如以利用场景内的局部空间相干性或优化内部高速缓存的使用。
图14A-14B示出根据本文中描述的实施例的附加的示例性图形处理器逻辑。图14A示出图形核1400,其可被包括在图12的图形处理器1210内,并且可以是如图13B中的统一着色器核1355A-1355N。图14B示出附加的高度并行的通用图形处理单元1430,其是适合部署在多芯片模块上的高度并行的通用图形处理单元。
如图14A中所示,图形核1400包括共享指令高速缓存1402、纹理单元1418和高速缓存/共享存储器1420,其对于图形核1400内的执行资源是共同的。图形核1400可对于每个核包括多个切片1401A-1401N或分区,并且图形处理器可包括图形核1400的多个实例。切片1401A-1401N可包括支持逻辑,其包括本地指令高速缓存1404A-1404N、线程调度器1406A-1406N、线程分派器1408A-1408N和一组寄存器1410A-1440N。为了执行逻辑运算,切片1401A-1401N可包括一组附加功能单元(AFU 1412A-1412N)、浮点单元(FPU 1414A-1414N)、整数算术逻辑单元(ALU 1416-1416N)、地址计算单元(ACU 1413A-1413N)、双精度浮点单元(DPFPU 1415A-1415N)和矩阵处理单元(MPU 1417A-1417N)。
一些计算单元以特定的精度操作。例如,FPU 1414A-1414N可执行单精度(32位)和半精度(16位)浮点运算,而DPFPU 1415A-1415N执行双精度(64位)浮点运算。ALU 1416A-1416N可以以8位、16位和32位精度执行可变精度整数运算,并且可配置用于混合精度运算。MPU 1417A-1417N也可配置成用于混合精度矩阵运算,包括半精度浮点和8位整数运算。MPU1417A-1417N可执行各种矩阵运算以加速机器学习应用框架,包括使得能够支持加速的通用矩阵对矩阵乘法(GEMM)。AFU 1412A-1412N可执行浮点或整数单元不支持的附加逻辑运算,包括三角运算(例如,正弦、余弦等)。
如图14B中所示,通用处理单元(GPGPU)1430可配置成使得能够通过图形处理单元的阵列来执行高度并行的计算操作。另外,GPGPU 1430可直接链接到GPGPU的其它实例以创建多GPU集群,从而提高特别是深度神经网络的训练速度。GPGPU 1430包括使得能够与主机处理器连接的主机接口1432。在一个实施例中,主机接口1432是PCI Express接口。然而,主机接口也可以是供应商特定的通信接口或通信组构。GPGPU 1430从主机处理器接收命令,并使用全局调度器1434来将与这些命令相关联的执行线程分发到一组计算集群1436A-1436H。计算集群1436A-1436H共享高速缓冲存储器1438。高速缓冲存储器1438可充当计算集群1436A-1436H内的高速缓冲存储器的高级高速缓存。
GPGPU 1430包括经由一组存储器控制器1442A-1442B与计算集群1436A-1436H耦合的存储器14434A-14434B。在各种实施例中,存储器1434A-1434B可包括各种类型的存储器装置,包括动态随机存取存储器(DRAM)或图形随机存取存储器,诸如同步图形随机存取存储器(SGRAM),包括图形双倍数据速率(GDDR)存储器。
在一个实施例中,计算集群1436A-1436H各自包括一组图形核(诸如图14A的图形核1400),其可包括多种类型的整数和浮点逻辑单元,所述整数和浮点逻辑单元能够以包括适合于机器学习计算的精度的精度范围执行计算操作。例如,在一个实施例中,计算集群1436A-1436H中每个计算集群中的浮点单元的至少一个子集可配置成执行16位或32位浮点运算,而浮点单元的不同子集可配置成执行64位浮点运算。
GPGPU 1430的多个实例可配置成作为计算集群进行操作。由计算集群用于同步和数据交换的通信机制跨实施例而不同。在一个实施例中,GPGPU 1430的多个实例通过主机接口1432通信。在一个实施例中,GPGPU 1430包括耦合GPGPU 1430与GPU链路1440的I/O集线器1439,该GPU链路1440使得能够直接连接到GPGPU的其它实例。在一个实施例中,GPU链路1440耦合到专用的GPU-GPU桥接器,该GPU-GPU桥接器使得能够在GPGPU 1430的多个实例之间通信和同步。在一个实施例中,GPU链路1440与高速互连耦合以便对其它GPGPU或并行处理器传送和接收数据。在一个实施例中,GPGPU 1430的多个实例位于单独的数据处理系统中,并且经由可经由主机接口1432访问的网络装置进行通信。在一个实施例中,GPU链路1440可配置成使得能够连接到主机处理器,附加于主机接口1432或者作为主机接口1432的备选。
尽管所图示的GPGPU 1430的配置可配置成训练神经网络,但是一个实施例提供GPGPU 1430的备选配置,其可配置为部署在高性能或低功率推断平台内。在推断配置中,GPGPU 1430包括相对于训练配置的更少的计算集群1436A-1436H。另外,与存储器1434A-1434B相关联的存储器技术可能在推断和训练配置之间有所不同,其中较高带宽的存储器技术专用于训练配置。在一个实施例中,GPGPU 1430的推断配置可支持推断特定指令。例如,推断配置可以为一个或多个8位整数点积指令提供支持,所述8位整数点积指令通常在部署的神经网络的推断操作期间使用。
用于包围体积层级(BVH)压缩的设备和方法
宽为N的包围体积层级(BVH)节点包括与给定节点的N个子项对应的N个包围体积。除了包围体积之外,还包括对每个子节点的引用以作为索引或指针。可指派索引或指针的一个位来指示该节点是内部节点还是叶节点。尤其是用于光线追踪的常用包围体积格式是轴对齐包围体积(AABV)或轴对齐包围盒(AABB)。可在每个维度只用最小和最大范围定义AABB,从而提供高效的光线相交测试。
通常,使用单精度(例如,4字节)浮点值以未压缩的格式存储AABB。为了定义未压缩的三维AABB,对于三个轴中的每个轴使用两个单精度浮点值(最小/最大)(例如,2×3×4),从而导致用于存储AAAB的范围的24字节加上指向子节点的索引或指针(例如,4字节整数或8字节指针)。因此,为BVH节点定义的每个AABB可以多达32个字节。因此,带有子项的二叉BVH节点可能要求64个字节,宽为4的BVH节点可能要求128个字节,并且宽为8的BVH可能要求多达256个字节。
使用k个方向中的离散定向多面体(k-DOP)的定向包围盒也是可与本文中描述的实施例一起使用的常用包围体积格式。对于k-DOP,针对多个任意方向存储下边界和上边界。与AABB相比,k-DOP不只限于坐标轴的方向上的边界,而是在空间中沿任意数量的方向上包围几何形状。
为了减少使用包围体积层级(BVH)的存储器大小要求,可以用压缩格式存储BVH数据。例如,可相对于AABB的父项以层级压缩的格式存储每个AABB。然而,在光线遍历期间,当将BVH节点引用推送到堆栈上时,层级编码可能导致关于光线追踪实现的问题。当之后去引用时,遵循到根节点的路径来计算最终的AABB,这潜在地导致长依赖链。备选解决方案将当前的AABB存储在堆栈上,这要求大量堆栈存储器来存储额外的数据,因为每条光线的堆栈深度通常在40到60个条目之间的范围。
本文中描述的实施例提供用于以简单且高效的方式来压缩BVH节点的设备、系统、方法和各种逻辑过程,而不要求引用父节点或额外的堆栈存储空间来解压缩节点的子边界,从而显著地减小实现光线追踪加速硬件的复杂度。
在一个实施例中,为了减少存储器要求,通过利用绝对坐标和全(例如,浮点)精度存储父包围盒而相对于父包围盒以较低精度存储子包围盒来相对于所有子项的合并盒编码宽为N的BVH节点的N个子包围盒。
与对于所有子项存储全精度包围盒的传统方法相比,本文中描述的方法减少了存储器存储和带宽要求。每个节点可以与其它节点分开解压缩。因此,在遍历期间,不将完整的包围盒存储在堆栈上,并且不在pop操作上重新遍历从树的根开始的整个路径来解压缩节点。另外,可以以降低的精度来执行光线-节点相交测试,从而减小算术硬件单元内所要求的复杂度。
包围体积和光线-盒相交测试
图15是根据实施例的包围体积1502的图示。示出的包围体积1502与三维轴1500轴对齐。然而,实施例适用于不同的包围表示(例如,定向包围盒、离散定向多面体、球体等)和任意数量的维度。包围体积1502沿轴的每个维度定义三维对象1504的最小和最大范围。为了对于场景生成BVH,为场景中的对象集合中的每个对象构造包围盒。然后,可围绕为每个对象构造的包围盒的分组构造一组父包围盒。
图16A-B示出二维对象的包围体积层级的表示。图16A示出围绕一组几何对象的一组包围体积1600。图16B示出图16A的包围体积1600的有序树1602。
如图16A中所示,这组包围体积1600包括根包围体积N1,其是所有其它包围体积N2-N7的父包围体积。包围体积N2和N3是根体积N1和叶体积N4-N7之间的内部包围体积。叶体积N4-N7包括场景的几何对象O1-O8。
图16B示出包围体积N1-N7和几何对象O1-O8的有序树1602。示出的有序树1602是二叉树,其中树的每个节点具有两个子节点。配置成包含每个节点的信息的数据结构可包括节点的包围体积(例如,包围盒)的边界信息以及至少对节点的每个子项的节点的引用。
包围体积的有序树1602表示定义层级,其可用于执行各种操作(包括但不限于冲突检测和光线-盒相交)的层级版本。在光线-盒相交的实例中,可用从根节点N1开始的层级方式测试节点,所述根节点N1是层级中的所有其它包围体积节点的父节点。如果根节点N1的光线-盒相交测试失败,那么可绕过树的所有其它节点。如果根节点N1的光线-盒相交测试通过,那么可按有序的方式对树的子树进行测试和遍历或绕过,直到至少确定相交的叶节点N4-N7的集合。使用的准确测试和遍历算法可根据实施例改变。
图17是根据实施例的光线-盒相交测试的图示。在光线-盒相交测试期间,投射光线1702,并且可使用定义光线的方程来确定光线是否与定义测试中的包围盒1700的平面相交。可将光线1702表示为,其中对应于光线的原点,是光线的方向,并且是实值。可使用变化的来定义沿光线的任何点。当最大入射平面相交距离小于或等于最小退出平面距离时,就说光线1702与包围盒1700相交。对于图17的光线1702,y平面入射相交距离示为tmin-y 1704。y平面退出相交距离示为tmax-y 1708。可在tmin-x 1706处计算x平面入射相交距离,将x平面退出相交距离示为tmax-x 1710。因此,可将给定光线1702在数学上示出成至少沿x和y平面与包围盒相交,因为tmin-x 1706小于tmax-y 1708。为了使用图形处理器来执行光线-盒相交测试,图形处理器配置成存储至少定义要测试的每个包围盒的加速数据结构。为了使用包围体积层级进行加速,至少存储对包围盒的子节点的引用。
包围体积节点压缩
对于3D空间中的轴对齐包围盒,加速数据结构可存储三个维度中的包围盒的下边界和上边界。软件实现可使用32位浮点数来存储这些边界,这对于每个包围盒合计达2×3×4=24字节。对于宽为N的BVH节点,必须存储N个盒和N个子引用。总计,宽为4的BVH节点的存储是N*24个字节加上用于子引用的N*4个字节,假设每个引用4个字节,这导致总共(24+4)*N个字节,对于宽为4的BVH节点总共为112个字节,并且对于宽为8的BVH节点总共为224个字节。
在一个实施例中,通过存储围住所有子包围盒的单个较高准确性的父包围盒并相对于该父盒以较低准确性存储每个子包围盒来减小BVH节点的大小。取决于使用场景,可使用不同的数字表示来存储高准确性父包围盒和较低准确性的相对子边界。
图18是根据实施例的示出示例性量化BVH节点1810的框图。量化BVH节点1810可包括用于定义BVH节点的父包围盒的较高精度值。例如,可使用单精度或双精度浮点值来存储parent_lower_x 1812、parent_lower_y 1814、parent_lower_z 1816、parent_upper_x1822、parent_upper_y 1824和parent_upper_z 1826。对于存储在节点中的每个子包围盒,可量化子包围盒的值并将其存储为诸如相对于父包围盒定义的包围盒值的定点表示的较低精度值。例如,可将child_lower_x 1832、child_lower_y 1834、child_lower_z 1836以及child_upper_x 1842、child_upper_y 1844和child_upper_z 1846存储为较低精度的定点值。另外,可以为每个子节点存储子引用1852。子引用1852可以是对存储每个子节点的位置的表的索引,或者可以是指向子节点的指针。
如图18中所示,可使用单精度或双精度浮点值来存储父包围盒,而可使用M位定点值来对相对子包围盒进行编码。图18的量化BVH节点1810的数据结构可由下表1中所示的量化的宽为N的BVH节点定义。
表1:量化的宽为N的BVH节点
表1的量化节点通过对子值进行量化实现了减小的数据结构大小,同时通过对于父包围盒的范围存储更高精度值来保持基线水平的准确性。在表1中,Real表示较高准确性数字表示(例如,32位或64位浮点值),并且UintM表示使用M位准确性的较低准确性的无符号整数,其用于表示定点数。Reference表示用于表示对子节点的引用的类型(例如,8字节指针的4字节索引)。
这种方法的典型实例化可使用32位子引用、用于父边界的单精度浮点值和用于相对子边界的M=8位(1字节)。然后,该压缩节点将要求6*4 + 6*N + 4*N个字节。对于宽为4的BVH,这总计64个字节(与未压缩版本的112个字节相比),并且对于宽为8的BVH,这总计104个字节(与未压缩版本的224字节相比)。
为了遍历此类压缩的BVH节点,图形处理逻辑可解压缩相对子包围盒,并且接着使用标准方法与解压缩的节点相交。然后,可对于每个维度x、y和z获得未压缩的下边界。下式1示出用于获得子lower_x值的公式。
式1:BVH节点的子节点解压缩
在上式1中,M表示子边界的定点表示的准确性的位数。可如同下表2中那样实现用于为BVH节点的每个维度解压缩子数据的逻辑。
表2:BVH节点的子节点解压缩
表2示出基于父包围盒的范围的浮点值和作为相对于父包围盒的的范围的偏移存储的子包围盒的定点值来计算子包围盒的下边界的浮点值。可以用类似的方式计算子上边界。
在一个实施例中,可通过存储缩放的父包围盒大小(例如(parent_upper_x-parent_lower_x)/(2^M-1)来代替parent_upper_x/y/z值)来提高解压缩的性能。在此类实施例中,可根据表3中所示的示例逻辑来计算子包围盒范围。
表3:BVH节点的增强子节点解压缩
注意,在优化的版本中,可以将解压缩/去量化公式化为MAD-指令(乘法和加法),其中对于此类指令存在硬件支持。在一个实施例中,可使用SIMD/向量逻辑来执行每个子节点的操作,从而使得能够同时评估节点内的每个子项。
尽管上文描述的方法对于基于着色器或CPU的实现工作良好,但是一个实施例提供配置成执行包括使用包围体积层级的光线-盒相交测试的光线追踪操作的专门化硬件。在此类实施例中,专门化硬件可配置成存储BVH节点数据的进一步量化表示,并在执行光线-盒相交测试时自动去量化此类数据。
图19是根据进一步实施例的供量化BVH节点1910使用的复合浮点数据块1900的框图。在一个实施例中,与父包围盒的范围的32位单精度浮点表示或64位双精度浮点表示相比,可通过图形处理器内的专门化逻辑来定义用于支持复合浮点数据块1900的逻辑。复合浮点(CFP)数据块1900可包括1位符号位1902、可变大小(E位)的有符号的整数指数1904和可变大小(K-位)的尾数1906。可通过调整存储在图形处理器的配置寄存器中的值来配置E和K的多个值。在一个实施例中,可在值的范围内独立地配置E和K的值。在一个实施例中,可经由配置寄存器选择用于E和K的相互关联的值的固定集合。在一个实施例中,将各自用于E和K的单个值硬编码到图形处理器的BVH逻辑中。值E和K使得能够将CFP数据块1900用作可适合于数据集的定制(例如,特殊用途)浮点数据类型。
使用CFP数据块1900,图形处理器可配置成在量化的BVH节点1910中存储包围盒数据。在一个实施例中,以由为CFP数据块1900选择的E和K值确定的精度等级来存储父包围盒的下边界(parent_lower_x 1912、parent_lower_y 1914、parent_lower_z 1916)。一般将父包围盒的下边界的存储值的精度等级设置成比将存储为定点值的子包围盒的值(child_lower_x 1924、child_upper_x 1926、child_lower_y 1934、child_upper_y 1936、child_lower_z 1944、child_upper_z 1946)更高的精度。将缩放的父包围盒大小存储为2指数的幂(例如,exp_x 1922、exp_y 1932、exp_z 1942)。另外,可存储对每个子项的引用(例如,子引用1952)。量化的BVH节点1910的大小可基于存储在每个节点中的宽度(例如,子项的数量)进行缩放,其中用于存储子引用的存储量和子节点的包围盒值随着每个额外节点增加。
下表4中示出用于图19的量化的BVH节点的实现的逻辑。
表4:用于硬件实现的量化的宽为N的BVH节点
如表4中所示,可定义复合浮点数据块(例如,struct Float)以表示父包围盒的值。Float结构包括1位符号(int1符号)、用于存储2指数的幂的E位有符号的整数(intEexp)和表示尾数的K位无符号的整数(uintK尾数),其用于存储高精度边界。对于子包围盒数据,可使用M位无符号的整数(uintM child_lower_x/y/z;uintM child_upper_x/y/z)来存储定点数字以编码相对子边界。
对于E=8、K=16、M=8并且将32位用于子引用的示例,表4的QuantizedNodeHW结构对于宽为4的BVH具有52字节的大小,并且对于宽为8的BVH具有92字节的大小,这在结构大小上相对于表1的量化节点是减小,并且在结构大小上相对于现有实现是显著减小。将注意到,对于尾数值(K=16),可能隐含尾数的一个位,从而将存储要求减少到15个位。
表4的BVH节点结构的布局使得精简的硬件能够执行对子包围盒的光线-盒相交测试。基于若干个因素来减小硬件复杂度。可选择K的更少数量的位,因为相对子边界增加了额外的M位精度。将缩放的父包围盒大小存储为2的幂(exp_x/y/z字段),这简化了计算。另外,对计算进行重构,以减少乘数的大小。
在一个实施例中,图形处理器的光线相交逻辑计算光线到轴对齐平面的命中距离,以执行光线-盒测试。光线相交逻辑可使用BVH节点逻辑,其包括对表4的量化节点结构的支持。该逻辑可使用较高精度的父下边界和子盒的量化的相对范围来计算到父包围盒的下边界的距离。下表5中示出x平面计算的示例性逻辑。
表5:光线-盒相交距离确定
关于表5的逻辑,如果假设单精度浮点准确性来表示光线,那么可使用23位乘以15位乘数,因为parent_lower_x值与尾数的15位一起存储。可以用与dist_parent_lower_x的计算类似的方式来计算到y和z平面上的父包围盒的下边界的距离。
使用父下边界,可对于每个子包围盒计算到相对子包围盒的相交距离,如由表5中的dist_child_lower_x和dist_child_upper_x的计算所例示的。可使用23位乘以8位乘数来执行dist_child_lower/upper_x/y/z值的计算。
图20示出根据实施例的使用量化值来相对于父包围盒2000定义子包围盒2010的光线-盒相交。应用表5中所示的x平面的光线-盒相交距离确定等式,可确定光线2002沿x平面与父包围盒2000的边界相交处的沿该光线的距离。可确定其中光线2002穿过父包围盒2000的下包围平面2004的位置dist_parent_lower_x 2003。基于dist_parent_lower_x2003,可对于光线与子包围盒2010的最小包围平面2006相交的位置确定dist_child_lower_x 2005。另外,基于dist_parent_lower_x 2003,可对于其中光线与子包围盒2010的最大包围平面2008相交的位置确定dist_child_upper_x 2007。对于其中定义父包围盒2000和子包围盒2010的每个维度(例如,沿y轴和z轴),可执行类似确定。然后,可使用平面相交距离来确定光线是否与子包围盒相交。在一个实施例中,图形处理逻辑可使用SIMD和/或向量逻辑以并行方式确定多个维度和多个包围盒的相交距离。另外,可在图形处理器上执行本文中描述的计算的至少第一部分,而可在耦合到图形处理器的一个或多个应用处理器上执行计算的第二部分。
图21是根据实施例的BVH解压缩和遍历逻辑2100的流程图。在一个实施例中,BVH解压缩和遍历逻辑驻留在图形处理器的专用硬件逻辑中,或者可由在图形处理器的执行资源上执行的着色器逻辑执行。BVH解压缩和遍历逻辑2100可以使图形处理器执行操作,以计算沿光线到父包围体积的下包围平面的距离,如框2102所示。在框2104,该逻辑可部分地基于所计算的到父包围体积的下包围平面的距离来计算到子包围体积的下包围平面的距离。在框2106,该逻辑可部分地基于所计算的到父包围体积的下包围平面的距离来计算到子包围体积的上包围平面的距离。
在框2108,BVH解压缩和遍历逻辑2100可部分地基于到子包围体积的上和下包围平面的距离来确定子包围体积的光线相交,尽管将使用包围盒的每个维度的相交距离来确定相交。在一个实施例中,BVH解压缩和遍历逻辑2100通过确定光线的最大入射平面相交距离是否小于或等于最小退出平面距离来确定子包围体积的光线相交。换句话说,当光线沿着所有定义的平面进入到包围体积,之后再沿着任何定义的平面退出包围体积时,光线与子包围体积相交。如果在2110,BVH解压缩和遍历逻辑2100确定光线与子包围体积相交,那么该逻辑可遍历包围体积的子节点,以测试子节点内的子包围体积,如在框2112所示。在框2112,可执行节点遍历,其中可访问对与相交的包围盒相关联的节点的引用。子包围体积可变成父包围体积,并且可评估相交的包围体积的子项。如果在2110,BVH解压缩和遍历逻辑2100确定光线不与子包围体积相交,那么如在框2114所示的,跳过与该子包围体积相关联的边界层级的分支,因为该光线将不和与未相交的子包围体积相关联的子树分支下方的任何包围体相交。
经由共享平面包围盒的进一步压缩
对于使用包围盒的任何宽为N的BVH,可构造包围体积层级,以使得3D包围盒的六个侧面中的每个侧面都由至少一个子包围盒共享。在3D共享平面包围盒中,可使用6×log2N个位来指示父包围盒的给定平面是否与子包围盒共享。对于3D共享平面包围盒的N=4,将使用12位来指示共享平面,其中使用两个位中的每个位来标识这四个子项中的哪个子项重新使用各自潜在共享的父平面。每个位可用于指示父平面是否由特定子项重新使用。在宽为2的BVH的情况下,可添加6个附加位,以针对父包围盒的每个平面指示该包围盒的平面(例如,侧面)是否由子项共享。尽管SPBB概念可应用于任意数量的维度,但是在一个实施例中,SPBB的益处一般对于宽为2(例如,二叉)SPBB是最大的。
使用共享平面包围盒可进一步减少在使用如本文中所描述的BVH节点量化时存储的数据量。在3D、宽为2的BVH的示例中,六个共享平面位可以指父包围盒的min_x、max_x、min_y、max_y、min_z和max_z。如果min_x位为零,那么第一子项从父包围盒继承共享平面。对于与父包围盒共享平面的每个子项,不需要存储该平面的量化值,这降低了节点的解压缩成本和存储成本。另外,对于子包围盒可使用平面的较高精度值。
图22是示例性二维共享平面包围盒2200的图示。二维(2D)共享平面包围盒(SPBB)2200包括左子项2202和右子项2204。对于2D二叉SPBPP,可使用4 log22个附加位来指示父包围盒的四个共享平面中的哪个平面是共享的,其中位与每个平面相关联。在一个实施例中,零可以与左子项2202相关联,并且一可以与右子项相关联,使得SPBB 2200的共享平面位为min_x=0、max_x=1、min_y=0、max_y=0,因为左子项2202与父SPBB 2200共享lower_x、upper_y和lower_y平面,并且右子项2204共享upper_x平面。
图23是根据实施例的共享平面BVH逻辑2300的流程图。共享平面BVH逻辑2300可用于减少为一个或多个子包围盒的下范围和上范围存储的量化值的数量,减少BVH节点的解压缩/去量化成本,并提高用于对BVH节点的子包围盒的光线-盒相交测试的值的精度。在一个实施例中,共享平面BVH逻辑2300包括在一组子包围盒上定义父包围盒,以使得父包围盒与一个或多个子包围盒共享一个或多个平面,如在框2302所示。在一个实施例中,可通过为场景中的几何对象选择一组现有的轴对齐包围盒并基于每个平面中的这组包围盒的最小和最大范围定义父包围盒来定义父包围盒。例如,将父包围盒的每个平面的上平面值定义为这组子包围盒内的每个平面的最大值。在框2304,共享平面BVH逻辑2300可以为父包围盒的每个平面编码共享子平面。如在框2306所示,共享平面BVH逻辑2300可在光线-盒相交测试期间为具有共享平面的子平面继承父平面值。可以以较高的精度继承子平面的共享平面值,其中将父平面值存储在BVH节点结构中,并且可绕过为共享平面生成和存储较低精度的量化值。
图24是根据实施例的包括具有包围体积层级逻辑2424的图形处理器2404的计算装置2400的框图。计算装置2400可以是诸如图1中的数据处理系统100的计算装置。计算装置2400也可以是通信装置或被包括在通信装置内,所述通信装置诸如机顶盒(例如,基于互联网的有线电视机顶盒等)、基于全球定位系统(GPS)的装置等。计算装置2400也可以是移动计算装置或被包括在移动计算装置内,所述移动计算装置诸如蜂窝电话、智能电话、个人数字助理(PDA)、平板计算机、膝上型计算机、电子阅读器、智能电视、电视平台、可穿戴装置(例如,眼镜、手表、手环、智能卡、珠宝、衣物等)、媒体播放器等。例如,在一个实施例中,计算装置2400包括采用在单个芯片上集成计算装置2400的各种硬件和/或软件组件的集成电路(“IC”)(诸如片上系统(“SoC”或“SOC”))的移动计算装置。
在一个实施例中,包围体积层级(BVH)逻辑2424包括用于编码包围体积层级的压缩表示的逻辑以及用于解码和解译包围体积层级的压缩表示的附加逻辑。BVH逻辑2424可以与光线追踪逻辑2434协同工作,以执行硬件加速的光线-盒相交测试。在一个实施例中,BVH逻辑2424配置成相对于参考包围体积编码多个子包围体积。例如,BVH逻辑2424可以在多个方向上使用上边界和下边界对参考包围体积和子包围体积进行编码,其中使用浮点值对参考包围体积进行编码,并且使用定点值对子包围体积进行编码。BVH逻辑2424可配置成在多个方向上使用下边界和上边界来将参考包围体积编码为下边界和边界的缩放范围和子包围体积。在一个实施例中,BVH逻辑2424配置成使用编码的多个子包围体积来对包围体积层级的节点进行编码。
光线追踪逻辑2434可至少部分地结合图形处理器2404的执行资源2444进行操作,所述执行资源2444包括执行单元和相关联的逻辑,例如图5的图形核580A-N中的逻辑和/或图6中所示的执行逻辑600。光线追踪逻辑2434可以执行通过包围体积层级的光线遍历,并测试光线是否与节点的编码的子包围体积相交。光线追踪逻辑2434可配置成通过计算到下参考包围平面的平面的距离并向该距离加上相对子包围平面位置、参考边界的缩放范围和互易光线方向的算术乘积以计算到所有子包围平面的距离,从而计算包围平面距离以对光线包围体积相交进行测试。
在一个实施例中,还可包括一组寄存器2454以存储图形处理器2404的组件的配置和操作数据。图形处理器2404另外可包括配置为高速缓存2414的存储器装置。在一个实施例中,高速缓存2414是用于执行渲染操作的渲染高速缓存。在一个实施例中,高速缓存2414还可包括存储器层级的额外等级,诸如存储在图2的嵌入式存储器模块218中的末级高速缓存。
如所示出的,在一个实施例中,附加于图形处理器2404,计算装置2400可进一步包括任意数量和类型的硬件组件和/或软件组件,诸如(但不限于)应用处理器2406、存储器2408和输入/输出(I/O)源2410。应用处理器2406可以与如参考图3所示的硬件图形流水线交互,以共享图形流水线功能性。处理后的数据存储在硬件图形流水线中的缓冲器中,并且状态信息存储在存储器2408中。然后,将所得图像传输到显示器控制器以便经由诸如图3的显示装置320的显示装置输出。显示装置可以是各种类型,如阴极射线管(CRT)、薄膜晶体管(TFT)、液晶显示器(LCD)、有机发光二极管(OLED)阵列等,并且可配置成向用户显示信息。
应用处理器2406可包括一个或多个处理器,诸如图1的(一个或多个)处理器102,并且可以是至少部分地用于执行计算装置2400的操作系统(OS)2402的中央处理单元(CPU)。OS 2402可充当计算机装置2400的硬件和/或物理资源与用户之间的接口。OS 2402可包括用于计算装置2400中的各种硬件装置的驱动器逻辑2422。驱动器逻辑2422可包括图形驱动器逻辑2423,诸如图10的用户模式图形驱动器1026和/或内核模式图形驱动器1029。在一个实施例中,图形驱动器逻辑2423可用于配置图形处理器2404的BVH逻辑2424和光线追踪逻辑2434。
设想,在一些实施例中,图形处理器2404可作为应用处理器2406的一部分(诸如物理CPU封装的一部分)存在,在这种情况下,存储器2408的至少一部分可由应用处理器2406和图形处理器2404共享,尽管存储器2408的至少一部分可以由图形处理器2404所独占,或者图形处理器2404可具有单独的存储器库。存储器2408可包括缓冲器(例如,帧缓冲器)的预先分配的区域;然而,本领域技术人员应了解,实施例不限于此,并且可使用对于较低图形流水线可访问的任何存储器。存储器2408可包括各种形式的随机存取存储器(RAM)(例如,SDRAM、SRAM等),其包括利用图形处理器2404来渲染桌面或3D图形场景的应用。存储器控制器集线器(诸如图1的存储器控制器集线器116)可访问存储器2408中的数据,并将它转发到图形处理器2404以用于图形流水线处理。可使存储器2408可用于计算装置2400内的其它组件。例如,在软件程序或应用的实现中,可将从计算装置2400的各种I/O源2410接收的任何数据(例如,输入图形数据)可以在其被一个或多个处理器(例如,应用处理器2406)操作之前临时排队到存储器2408中。类似地,软件程序确定应该通过计算系统接口之一从计算装置2400发送到外部实体或者存储到内部存储元件中的数据通常在其被传输或存储之前在存储器2408中临时排队。
I/O源可包括诸如触摸屏、触摸面板、触摸板、虚拟或常规键盘、虚拟或常规鼠标、端口、连接器、网络装置等的装置,并且可经由如图1中所引用的输入/输出(I/O)控制集线器(ICH)130附连。另外,I/O源2010可以包括一个或多个I/O装置,其被实现用于向和/或从计算装置2400传输数据(例如,网络适配器);或者,用于计算装置2400内的大规模非易失性存储设备(例如,硬盘驱动器)。可使用包括字母数字和其它密钥的用户输入装置来向图形处理器2404传递信息和命令选择。另一种类型的用户输入装置是用于向GPU传递方向信息和命令选择并控制显示装置上的光标移动的光标控制设备,诸如鼠标、轨迹球、触摸屏、触摸板或光标方向键。可采用计算机装置2400的相机和麦克风阵列来观察手势、记录音频和视频以及接收和传送视觉和音频命令。
配置为网络接口的I/O源2410可提供对诸如LAN、广域网(WAN)、城域网(MAN)、个人区域网(PAN)、蓝牙、云网络、蜂窝或移动网络(例如,第三代(3G)、第四代(4G)等)、内联网、互联网等的网络的访问。(一个或多个)网络接口可包括例如具有一个或多个天线的无线网络接口。(一个或多个)网络接口还可包括例如用于经由网络缆线与远程装置通信的有线网络接口,所述网络缆线可以是例如以太网缆线、同轴缆线、光纤缆线、串行缆线或并行缆线。
(一个或多个)网络接口可例如通过符合IEEE 802.11标准提供对LAN的访问,和/或无线网络接口可例如通过符合蓝牙标准提供对个人区域网的访问。也可支持其它无线网络接口和/或协议,包括标准的之前和随后的版本。附加于或替代经由无线LAN标准的通信,(一个或多个)网络接口可使用例如时分多址(TDMA)协议、全球移动通信系统(GSM)协议、码分多址(CDMA)协议和/或任何其它类型的无线通信协议来提供无线通信。
将明白,对于某些实现来说,比上文描述的示例更少或更多的配备的系统可能是优选的。因此,计算装置2400的配置可对于不同的实现而不同,这取决于众多因素,诸如价格约束、性能要求、技术改进或其它状况。示例包括(没有限制地)移动装置、个人数字助理、移动计算装置、智能电话、蜂窝电话、手机、单向寻呼机、双向寻呼机、消息传递装置、计算机、个人计算机(PC)、桌面型计算机、膝上型计算机、笔记本计算机、手持式计算机、平板计算机、服务器、服务器阵列或服务器场、web服务器、网络服务器、互联网服务器、工作站、微型计算机、大型计算机、超级计算机、网络设备、web设备、分布式计算系统、多处理器系统、基于处理器的系统、消费者电子产品、可编程消费者电子产品、电视、数字电视、机顶盒、无线接入点、基站、订户站、移动订户中心、无线电网络控制器、路由器、集线器、网关、桥接器、交换机、机器或其组合。
用于压缩包围体积层级的叶节点的设备和方法
诸如包围体积层级(BVH)和k-d树的加速结构的缺点是,它们要求时间和存储器来构建和存储。减少这种开销的一种方法是采用加速数据结构的某种压缩和/或量化,这对于BVH特别有效,这自然地加快保守的增量编码。从有利的方面来看,这可显著地减小加速结构的大小,通常将BVH节点的大小减半。从不利的方面来看,压缩BVH节点也会带来开销,所述开销可能落入不同的类别。首先,存在遍历期间对每个BVH节点进行解压缩的明显成本;其次,特别是对于层级编码方案,跟踪父信息的需要使堆栈操作稍微复杂化;并且第三,保守地量化边界意味着包围盒稍微不如未压缩的包围盒紧凑,这分别触发必须遍历和相交的节点和图元的数量的可测量的增加。
通过局部量化来压缩BVH是减小它的尺寸的已知方法。宽为N的BVH节点包含采用单精度浮点格式的它的“n”个子项的轴对齐包围盒(AABB)。局部量化相对于父项的AABB表示“n”个子AABB,并且以量化的例如8位格式来存储这些值,从而减小BVH节点的大小。
整个BVH的局部量化引入了多个开销因素,因为:(a)去量化的AABB比原始单精度浮点AABB更粗略,从而对于每个光线引入额外的遍历和相交步骤;以及(b)去量化操作本身成本高,这对每个光线遍历步骤增加开销。由于这些缺点,所以压缩BVH只在特定应用场景中使用,并且没有被广泛采用。
本发明的一个实施例采用用于压缩包围体积层级中的毛发图元的叶节点的技术。特别地,在一个实施例中,将若干组定向图元与父包围盒一起存储,消除叶节点中的子指针存储。然后,使用关于父盒的拐角来量化的16位坐标来为每个图元存储定向包围盒。最后,为每个图元群组存储量化的法线以指示定向。这种方法可导致BVH毛发图元的带宽和存储器占用的显著减少。
在一些实施例中,通过存储父包围盒并相对于该父包围盒使用较小精度编码N个子包围盒(例如,8个子项)来压缩BVH节点(例如,对于宽为8的BVH)。将此想法应用于BVH的每个节点的缺点是,当通过该结构遍历光线时,在每个节点处引入一些解压缩开销,这可能降低性能。
为了解决这个问题,本发明的一个实施例只在BVH的最低等级处使用压缩节点。这提供了较高的BVH等级以最优性能运行的优点(即,盒越大,它们就越容易被触碰,但是它们非常少),并且较低/最低等级上的压缩也非常有效,因为BVH的大多数数据在(一个或多个)最低等级中。
另外,在一个实施例中,还对于存储定向包围盒的BVH节点应用量化。如下文所论述的,操作比轴对齐的包围盒的稍微复杂。在一个实现中,与定向包围盒一起使用压缩BVH节点与只在BVH的最低等级(或较低等级)处使用压缩节点相结合。
因此,一个实施例通过引入单个专用层的压缩叶节点、同时对于内部节点使用常规的未压缩BVH节点来改进完全压缩的BVH。这种方法背后的一个动机是,几乎所有压缩节省都来自于BVH的最低等级(其特别是对于宽为4和宽为8的BVH占据了所有节点的绝大部分),而大多数开销来自内部节点。因此,引入单个层的专用“压缩叶节点”给予与完全压缩的BVH几乎相同(并且在一些情况下甚至更好)的压缩增益,同时保持与未压缩的BVH几乎相同的遍历性能。
在一个实施例中,本文中描述的技术集成在图形处理器(诸如如图25中所示的GPU2505)内的遍历/相交电路内,所述图形处理器包括布置到多核群组2500A-N中的图形处理资源的专用集合。尽管只提供了单个多核群组2500A的细节,但是将明白,其它多核群组2500B-N可配备有相同或类似的图形处理资源集合。
如所示出的,多核群组2500A可包括一组图形核2530、一组张量核2540和一组光线追踪核2550。调度器/分派器2510调度和分派图形线程以便在各种核2530、2540、2550上执行。一组寄存器堆2520存储在执行图形线程时由核2530、2540、2550使用的操作数值。这些可包括例如用于存储整数值的整数寄存器、用于存储浮点值的浮点寄存器、用于存储打包数据元素(整数和/或浮点数据元素)的向量寄存器以及用于存储张量/矩阵值的贴片寄存器。在一个实施例中,贴片寄存器被实现为向量寄存器的组合集合。
一个或多个1级高速缓存和纹理单元2560将诸如纹理数据、顶点数据、像素数据、光线数据、包围体积数据等的图形数据本地存储在每个多核群组2500A内。由所有多核群组2500A-N或其子集共享的2级(L2)高速缓存2580存储用于多个并发图形线程的图形数据和/或指令。一个或多个存储器控制器2570将GPU 2505耦合到存储器2598,所述存储器2598可以是系统存储器(例如,DRAM)和/或专用图形存储器(例如,GDDR6存储器)。
输入/输出(IO)电路2595将GPU 2505耦合到一个或多个IO装置2590,诸如数字信号处理器(DSP)、网络控制器或用户输入装置。可使用芯片上互连将I/O装置2590耦合到GPU2505和存储器2598。IO电路2595的一个或多个IO存储器管理单元(IOMMU)2570将IO装置2590直接耦合到系统存储器2598。在一个实施例中,IOMMU 2570管理多组页表以将虚拟地址映射到系统存储器2598中的物理地址。在该实施例中,IO装置2590、(一个或多个)CPU2599和(一个或多个)GPU 2505可共享相同的虚拟地址空间。
在一个实现中,IOMMU 2570支持虚拟化。在这种情况下,它可使用第一组页表来将客户/图形虚拟地址映射到客户/图形物理地址,并且可使用第二组页表来将客户/图形物理地址映射到系统/主机物理地址(例如,在系统存储器2598内)。
在一个实施例中,CPU 2599、GPU 2505和IO装置2590集成在单个半导体芯片和/或芯片封装上。示出的存储器2598可集成在相同的芯片上,或者可经由芯片外接口耦合到存储器控制器2570。在一个实现中,存储器2598包括共享与其它物理系统级存储器相同的虚拟地址空间的GDDR6存储器,尽管本发明的基本原理不限于该特定实现。
在一个实施例中,张量核2540包括专门设计成执行矩阵操作的多个执行单元,所述矩阵操作是用于执行深度学习操作的基本计算操作。例如,可将同步矩阵乘法运算用于神经网络训练和推断。张量核2540可使用包括单精度浮点(例如,32位)、半精度浮点(例如,16位)、整数字(16位)、字节(8位)和半字节(4位)的各种操作数精度来执行矩阵处理。在一个实施例中,神经网络实现提取每个渲染的场景的特征,潜在地组合来自多个帧的细节,以构造高质量最终图像。
在一个实施例中,光线追踪核2550为实时光线追踪和非实时光线追踪实现两者加速光线追踪操作。例如,关于本发明的实施例,光线追踪核2550可包括用于压缩BVH的叶节点的电路/逻辑。另外,光线追踪核2550可包括用于使用BVH执行光线遍历并标识光线和围在BVH体积内的图元之间的相交的光线遍历/相交电路。光线追踪核2550还可包括用于执行深度测试和剔除的电路(例如,使用Z缓冲器或类似布置)。将专用的光线追踪核2550用于遍历/相交操作显著减少了图形核2530上的负载。在没有这些光线追踪核2550的情况下,遍历和相交操作将使用在图形核2530上运行的着色器来实现,这将消耗GPU 2505的大部分图形处理资源,使得实时光线追踪不实际。
图26示出执行本文中描述的叶节点压缩和解压缩操作的示例性光线追踪引擎2600。在一个实施例中,光线追踪引擎2600包括上文描述的光线追踪核2550中的一个或多个光线追踪核的电路。备选地,光线追踪引擎2600可在CPU 2599的核上或者在其它类型的图形核(例如,Gfx核2530、张量核2540等)上实现。
在一个实施例中,光线生成器2602生成光线,遍历/相交单元2603追踪所述光线穿过包括多个输入图元2606的场景。例如,诸如虚拟现实游戏的app可生成命令流,从所述命令流生成输入图元2606。遍历/相交单元2603通过由BVH构建器2607生成的BVH 2605遍历光线,并标识光线与图元2606中的一个或多个图元相交的命中点。尽管示为单个单元,但是遍历/相交单元2603可包括耦合到不同的相交单元的遍历单元。这些单元可以用电路、由GPU或CPU执行的软件/命令或其任意组合来实现。
节点压缩/解压缩
在一个实施例中,BVH处理电路/逻辑2604包括BVH构建器2607,其基于场景中的图元2606之间的空间关系生成如本文中所描述的BVH 2605。另外,BVH处理电路/逻辑2604包括如本文中所描述的分别用于对叶节点进行压缩和解压缩的BVH压缩器2609和BVH解压缩器2609。出于说明的目的,以下描述将集中在宽为8的BVH(BVH8)上。
如图27中所示,单个宽为8的BVH节点2700A的一个实施例包含8个包围盒2701-2708和指向包围盒/叶数据2701-2708的8个(64位)子指针/引用2710。在一个实施例中,BVH压缩器2625执行编码,其中8个子包围盒2701A-2708A相对于父包围盒2700A来被表示,并被量化为8位统一值,其示出为包围盒叶数据2701B-2708B。通过BVH压缩2725使用存储为两个三维单精度向量(2×12字节)的起始和范围值来对量化的宽为8的BVH QBVH8节点2700B进行编码。将八个量化的子包围盒2701B-2708B存储为包围盒的每个维度的下边界和上边界的8个字节的2倍(总共48个字节)。注意,这种布局不同于现有的实现,因为以全精度存储范围,这一般提供更紧密的边界,但是要求更多的空间。
在一个实施例中,BVH解压缩器2626对QBVH8节点2700B进行如下解压缩。可通过QBVH8.starti+(byte-to-float) QBVH8.loweri∗QBVH8.extendi(这在CPU 4099上对于每个维度要求五个指令)和box: 2 loads (start,extend), byte-to-int load +upconversion, int-to-float conversion和一个multiply-add来计算维度i中的解压缩的下边界。在一个实施例中,使用SIMD指令对所有8个量化的子包围盒2701B-2708B并行地进行解压缩,这对光线-节点相交测试增加大约10个指令的开销,使得它至少比在标准未压缩节点的情形中的开销的两倍更高。在一个实施例中,在CPU 4099的核上执行这些指令。备选地,通过光线追踪核4050来执行可比较的一组指令。
在没有指针的情况下,QBVH8节点要求72字节,而未压缩的BVH8节点要求192字节,这导致2.66x的减少系数。对于8个(64位)指针,减少系数减少到1.88x,这使得必需解决用于处置叶指针的存储成本。
叶级压缩和布局
在一个实施例中,当只将BVH8节点的叶层压缩成QBVH8节点时,8个子项2701-2708的所有子指针将只指向叶图元数据。在一个实现中,通过如图27所示,通过在QBVH8节点2700B本身之后直接存储所有引用的图元数据来利用该事实。这便于将QBVH8的完整的64位子指针2710减少为仅8位偏移2722。在一个实施例中,如果图元数据是固定大小,那么完全跳过偏移2722,因为它们可从相交的包围盒的索引和指向QBVH8节点2700B本身的指针直接计算。
BVH构建器修改
在使用自顶向下的BVH8构建器时,仅压缩BVH8叶级只要求对构建过程的略微修改。在一个实施例中,在BVH构建器2607中实现这些构建修改。在递归构建阶段期间,BVH构建器2607跟踪图元的当前数量是否低于某个阈值。在一个实现中,N×M是阈值,其中N指BVH的宽度,并且M是BVH叶内的图元的数量。对于BVH8节点以及例如每个叶的四个三角形,阈值为32。因此,对于少于32个图元的所有子树,BVH处理电路/逻辑2604将进入到特殊的代码路径,其中它将继续基于表面面积启发式(SAH)的拆分过程,但是创建单个QBVH8节点2700B。当最终创建了QBVH8节点2700B时,BVH压缩器2609接着收集所有引用的图元数据,并将它复制到紧接QBVH8节点之后。
遍历
由光线追踪核2750或CPU 2799执行的实际BVH8遍历只受到叶级压缩的轻微影响。本质上,将叶级QBVH8节点2700B视为扩展的叶类型(例如,将它标记为叶)。这意味着,常规的BVH8自顶向下遍历继续,直到到达QBVH节点2700B。此时,执行单个光线-QBVH节点相交,并且对于所有它的相交的子项2701B-2708B,重构相应的叶指针,并执行常规的光线-图元相交。有趣的是,基于相交距离对QBVH的相交的子项2701B-2708B的排序可能不提供任何可测量的益处,因为在大多数情况下,光线无论如何只与单个子项相交。
叶数据压缩
叶级压缩方案的一个实施例甚至虑及通过提取公共特征的对实际图元叶数据的无损压缩。例如,压缩叶BVH(CLBVH)节点内的三角形很可能共享顶点/顶点索引和属性,如相同的objectID。通过每个CLBVH节点只存储这些共享属性一次并在图元中使用小的局部字节大小的索引,进一步减少存储器消耗。
在一个实施例中,用于在BVH叶中利用公共空间相干几何特征的技术也用于其它更复杂的图元类型。诸如毛发段的图元有可能每个BVH叶共享共同的方向。在一个实施例中,BVH压缩器2609实现压缩方案,所述压缩方案考虑这种共同的方向属性以高效地压缩定向包围盒(OBB),已经示出所述OBB对于包围长对角线图元类型非常有用。
本文中描述的叶级压缩BVH只在最低的BVH等级引入BVH节点量化,并且因此在保留未压缩BVH的遍历性能的同时虑及额外的存储器减少优化。由于只量化在最低等级的BVH节点,所以所有它的子项指向叶数据2701B-2708B,所述叶数据2701B-2708B可连续存储在存储器块或一个或多个高速缓存行2698中。
这个想法也可应用于使用定向包围盒(OBB)的层级,所述OBB通常用于加速毛发图元的渲染。为了说明一个特定实施例,将评估在三角形上的标准的宽为8的BVH典型情况下的存储器减少。
宽为8的BVH节点2700的布局用以下核序列来表示:
struct BVH8Node {
float lowerX[8], upperX[8];
//X维度中的8个下边界和上边界
float lowerY[8], upperY[8];
//Y维度中的8个下边界和上边界
float lowerZ[8], upperZ[8];
//Z维度中的8个下边界和上边界
void *ptr[8];
//指向8个子节点或叶数据的8个64位指针
};
并且要求276字节的存储器。标准的宽为8的量化节点的布局可定义为:
struct QBVH8Node {
Vec3f start, scale;
char lowerX[8], upperX[8];
//X维度中的8个字节量化的下/上边界
char lowerY[8], upperY[8];
//Y维度中的8个字节量化的下/上边界
char lowerZ[8], upperZ[8];
//Z维度中的8个字节量化的下/上边界
void *ptr[8];
//指向8个子节点或叶数据的8个64位指针
};
并且要求136字节。
因为只在叶级使用量化的BVH节点,所以所有子指针实际上将指向叶数据2701A-2708A。在一个实施例中,通过将量化节点2700B以及它的子项所指向的所有叶数据2701B-2708B存储在存储器2698的单个连续块中,去除量化的BVH节点2700B中的这8个子指针。保存子指针将量化的节点布局减少为:
struct QBVH8NodeLeaf {
Vec3f start, scale;
//父AABB的起始位置、扩展向量
char lowerX[8], upperX[8];
//X维度中的8个字节量化的下边界和上边界
char lowerY[8], upperY[8];
//Y维度中的8个字节量化的下边界和上边界
char lowerZ[8], upperZ[8];
//Z维度中的8个字节量化的下边界和上边界
};
这只需要72个字节。由于存储器/高速缓存2698中的连续布局,所以现在可通过下式简单地计算第i个子项的子指针:childPtr(i) = addr(QBVH8NodeLeaf) + sizeof(QBVH8NodeLeaf) + i * sizeof(LeafDataType)。
由于BVH的最低等级的节点占据了超过BVH的整个大小的一半,所以本文中描述的仅叶级压缩提供减小至0.5 + 0.5 * 72/256 = .64x原始大小。
另外,具有较粗略边界的开销和解压缩量化BVH节点本身的成本只发生在BVH叶级(与量化整个BVH时的所有等级相比)。因此,在很大程度上避免了由于(由量化引入的)较粗略边界造成的通常相当显著的遍历和相交开销。
本发明的实施例的另一个益处是提高的硬件和软件预获取效率。这是由于以下事实导致的:所有叶数据都存储在(一个或多个)高速缓存行或存储器的相对较小的连续块中。
因为在BVH叶级的几何形状在空间上相干,所以由QBVH8NodeLeaf节点引用的所有图元很有可能共享共同的属性/特征,诸如objectID、一个或多个顶点等。因此,本发明的一个实施例通过去除图元数据重复来进一步减少存储。例如,可每个QBVH8NodeLeaf节点只存储图元和相关联的数据一次,从而进一步减少叶数据的存储器消耗。
BVH叶级的量化定向包围盒(OBB)
下文作为通过在BVH叶级利用共同的几何属性实现的显著存储器减少的一个示例描述毛发图元的有效包围。为了准确地包围毛发图元(其是在空间中定向的长但是薄的结构),众所周知的方法是计算定向包围盒来紧密地包围该几何形状。首先,计算与毛发方向对齐的坐标空间。例如,可确定z-轴指向毛发方向,而x轴和y轴垂直于z轴。使用这个定向空间,现在可使用标准的AABB来紧密地包围毛发图元。将光线与这样的定向边界相交首先提要求将光线变换到定向空间中,并且然后执行标准的光线/盒相交测试。
这种方法的问题是它的存储器使用。变换到定向空间中要求9个浮点值,而存储包围盒要求额外的6个浮点值,总共产生60个字节。
在本发明的一个实施例中,BVH压缩器2625压缩该定向空间和在空间上紧密靠在一起的多个毛发图元的包围盒。然后,可将这些压缩的边界存储在压缩的叶级内,以紧密地包围存储在叶内的毛发图元。在一个实施例中,使用以下方法来压缩定向边界。可通过彼此正交的三个归一化向量v x 、v y 和v z 来表示定向空间。将点p变换到该空间中通过将它投影到这些轴上而起作用:
由于向量v x 、v y 和v z 是归一化的,所以它们的分量在范围[-1, 1]中。因此,使用8位有符号的定点数而不是使用8位有符号的整数和恒定缩放来量化这些向量。这样,生成量化的v x ′、v y ′和v z ′。这种方法将编码定向空间所需的存储器从36个字节(9个浮点值)减少到只有9个字节(9个定点数,其各自具有1个字节)。
在一个实施例中,通过利用所有向量彼此正交的事实进一步减少定向空间的存储器消耗。因此,只必须存储两个向量(例如,p y ′和p z ′),并且可计算,从而进一步将所需的存储减少为只有六个字节。
保留的是在量化的定向空间内对AABB进行量化。这里的问题是,将点p投影到该空间的压缩坐标轴上(例如,通过计算)产生潜在较大范围的值(因为通常将值p编码为浮点数)。出于该原因,将需要使用浮点数来对边界进行编码,减少了潜在的节省。
为了解决这个问题,本发明的一个实施例首先将多个毛发图元变换到空间中,其中它的坐标在[0, 1/√3]范围中。这可通过确定所述多个毛发图元的世界空间轴对齐的包围盒b并使用变换T来进行,变换T首先通过b.lower转换到左边,并且接着在每个坐标中缩放1⁄max(b.size.x, b.size.y, b.size.z):
一个实施例确保在该变换之后的几何形状保持在[0, 1/√3]范围中,因为接着变换后的点到量化向量px′、p y ′和p z ′上的投影保持在范围[-1, 1]内。这意味着,当使用T来被变换并接着变换到量化的定向空间中时,可量化曲线几何形状的AABB。在一个实施例中,使用8位带符号的定点算术。然而,由于精度原因,可使用16位带符号的定点数(例如,使用16位带符号的整数和恒定缩放来编码的)。这将用于编码轴对齐的包围盒的存储器要求从24字节(6个浮点值)减少到只有12字节(6个字)加上对于多个毛发图元共享的偏移b.lower(3个浮点)和缩放(1个浮点)。
例如,在有8个毛发图元要包围的情况下,该实施例将存储器消耗从8*60字节=480字节减少到只有8*(6+12)+3*4+4=160字节,这是减小为三分之一。将光线与这些量化的定向边界相交通过以下步骤而起作用:首先使用变换T来变换光线、接着使用量化的v x ′、v y ′和v z ′来投影光线。最后,将光线与量化的AABB相交。
图29中的表示出在包括Embree的常规BVH8(参考)和Embree的完全压缩QBVH8变型的Intel Embree架构上实现的本发明的一个实施例(CLBVH)的存储器消耗(以MB为单位)和总渲染性能(以fps为单位);在典型的二对二(two-in-two)Embree BVH配置中:最高性能(SBVH+预先收集的三角形数据)和最低存储器消耗(BVH+三角形索引)。一般来说,在它的两种可能的配置(“快速”和“紧凑”)中,本发明的实施例在低得多的性能影响下具有与Embree的QBVH相同的存储器节省(“快速”),或者在大致相同的性能影响下实现甚至更好的压缩(“紧凑”)。
图30中的表示出两种Embree BVH配置的存储器消耗(以MB为单位)、遍历统计和总性能:最高性能(SBVH+预先收集的三角形数据)和最低存储器消耗(BVH+三角形索引)。本发明的一个实施例(CLBVH)实现了与完全压缩的BVH类似或者有时甚至更大的存储器节省,同时将运行时开销减少到只有几个百分点。
一个实施例利用Embree 3.0 [11] CPU光线追踪框架的修改版本。作为比较框架,使用公开可获得的原光线路径追踪器[1]。对于基准测试,将路径追踪器设置成纯漫射路径追踪(最多8次反弹),而每个CPU HW线程追踪单个光线。对于这个基准,15-20%的时间花在了着色上。硬件平台设置是双插口Xeon工作站,它具有2×28个核以及96 GB的存储器,并且作为基准场景,(使用许多不同的镜头位置)测试了具有范围在从10M到350M个三角形的复杂度的四个不同的模型。对于两种设置测量性能和存储器消耗:“最佳性能”和“最低存储器消耗”。这两种模式需要不同的BVH设置和图元布局:第一种将每个BVH叶的所有三角形预先收集到紧凑布局中,并使用具有空间分割的BVH(SBVH),而第二种模式仅存储每个三角形的顶点索引,并使用没有空间分割的常规BVH。
为了最佳性能,图30中的表示出,解压缩BVH节点的开销使渲染性能降低10-20%。与完全压缩的BVH相比,CLBVH方法而是导致仅2-4%的减速,同时提供BVH节点的类似或有时甚至略微更大的大小减少(43-45%)。图元数据的大小不变。就总大小(BVH+叶图元数据)而言,这些实施例提供了与完全压缩的BVH类似的8-10%的减少。
减少BVH节点的存储器消耗在存储器设置中更加高效,其中图元数据的大小(只存储顶点索引而不是完全的预先收集的顶点)相对于BVH节点的大小更小。当使用完全压缩的BVH节点或CLBVH方法时,总的存储器消耗减少增加到16-24%。然而,CLBVH方法只具有0-3.7%运行时开销,而对于完全压缩的BVH节点,该开销的范围在7%和14%之间。
为了实现最大的存储器减少,对于CLBVH方法采用无损叶数据压缩方案(见上文)。该CLBVH*变型具有比CLBVH更大的运行时开销,但是便于将叶数据(每个三角形的顶点索引、objectID等)大小减少15-23%,从而与未压缩的基线相比将总大小减少增加到26-37%。
参考文献:
[1] Attila T. Áfra, Carsten Benthin, Ingo Wald, and Jacob Munkberg.2016. Local Shading Coherence Extraction for SIMD-Efficient Path Tracing onCPUs. In Proceedings of High Performance Graphics (HPG ’16). EurographicsAssociation, 119–128.
[2] Holger Dammertz, Johannes Hanika, and Alexander Keller. 2008.Shallow Bounding Volume Hierarchies for Fast SIMD Ray Tracing of IncoherentRays. In Computer Graphics Forum (Proc. 19th Eurographics Symposium onRendering). 1225–1234.
[3] Manfred Ernst and Gunter Greiner. 2008. Multi Bounding VolumeHierarchies. In Proceedings of the 2008 IEEE/EG Symposium on Interactive RayTracing. 35–40.
[4] Vlastimil Havran. 2001. Heuristic Ray Shooting Algorithms. Ph.D.Dissertation. Faculty of Electrical Engineering, Czech TU in Prague.
[5] Sean Keely. 2014. Reduced Precision for Hardware Ray Tracing inGPUs. In Proceedings of the Conference on High Performance Graphics 2014.
[6] Christian Lauterbach, Sung-Eui Yoon, Ming Tang, and DineshManocha. 2008. ReduceM: Interactive and Memory Efficient Ray Tracing of LargeModels. Computer Graphics Forum 27, 4 (2008), 1313–1321.
[7] Jeffrey Mahovsky and BrianWyvill. 2006. Memory-ConservingBounding Volume Hierarchies with Coherent Raytracing. Computer Graphics Forum25, 2 (June 2006).
[8] S.G. Parker, J. Bigler, A. Dietrich, H. Friedrich, J. Hoberock,D. Luebke, D. McAllister, M. McGuire, K. Morley, A. Robison, and others.2010. OptiX: a general purpose ray tracing engine. ACM Transactions onGraphics (TOG) 29, 4 (2010).
[9] Benjamin Segovia and Manfred Ernst. 2010. Memory Efficient RayTracing with Hierarchical Mesh Quantization. In Graphics Interface 2010. 153–160.
[10] Ingo Wald, Carsten Benthin, and Solomon Boulos. 2008. GettingRid of Packets: Efficient SIMD Single-Ray Traversal using Multi-branchingBVHs. In Proc. of the IEEE/EG Symposium on Interactive Ray Tracing. 49–57.
[11] Ingo Wald, Sven Woop, Carsten Benthin, Gregory S. Johnson, andManfred Ernst. 2014. Embree: A Kernel Framework for Efficient CPU RayTracing. ACM Transactions on Graphics 33, 4, Article 143 (2014), 8 pages.
[12] Henri Ylitie, Tero Karras, and Samuli Laine. 2017. EfficientIncoherent Ray Traversal on GPUs Through Compressed Wide BVHs. InEurographics/ ACM SIGGRAPH Symposium on High Performance Graphics. ACM.
用于使用动态量化网格的运动模糊的设备和方法
如所提到的,可使用运动模糊来模拟当相机快门打开时在场景中移动的对象的效果。模拟这种效果会导致移动对象的定向模糊,这使得动画在播放时显得平滑。渲染运动模糊要求对评估的每个光线路径的时间进行随机采样,并且在这些路径中的许多路径上的平均提供了希望的模糊效果。为了实现该技术,底层的光线追踪引擎必须能够在相机快门间隔内的任意时间追踪通过场景的光线。这要求对用于光线追踪的空间加速结构内的几何对象的运动的编码。
实践中,通过在三角形的线性运动段上构建包围体积层级(BVH)来构造这样的数据结构,其中三角形顶点从开始到结束时间仅被线性混合。使用许多此类运动段便于在相机快门间隔期间通过使用线性边界包围复杂运动来对复杂运动进行编码。这些线性边界存储该运动的开始和结束时间的包围盒,使得在任何时间在其间线性地内插这些边界得到几何形状在该特定时间的适当包围。
对于光线追踪硬件实现,重要的是,各个BVH节点消耗尽可能少的存储器以减少节点提取带宽。在一个实施例中,应用宽BVH节点的所有子项的包围盒的局部每节点量化。特别地,宽BVH节点的量化网格使用具有少量位(例如,8位相对于在全浮点精度中的32位)的网格坐标来编码每个子项的包围盒。
一个实施例通过对于每个子项使用该量化方案来存储开始和结束时间的量化边界而将该方法扩展到运动模糊的线性边界。然而,对于非常详细的几何形状的快速运动,这种朴素扩展容易出现性能问题。问题是,相对于它的大小移动较远的小三角形将使BVH节点存储相当大并且因此粗略的量化网格,其无法适当地包围小三角形特征。
本发明的一个实施例通过不是使用静态量化网格(如同在当前实现中那样)而是使用根据被包围的子节点的运动而移动的动态量化网格来解决该问题。该实施例利用相邻几何形状通常以非常相似的方式移动的事实;因此,在移动期间,BVH节点的子项保持相当地靠近在一起,并且经常以相同的方向移动。
在一个实现中,通过确定沿BVH节点的子项的公共运动线性移动的具有固定范围的量化网格来利用该属性。每个子项的线性边界现在可映射到这个移动的量化网格中,因为通过从线性子运动中减去线性网格运动获得的残余运动同样是线性运动,其线性量化边界可直接导出。
该技术的优点是,移动内插网格的范围只需要足够大以在它被放置在起始网格位置时的开始时间覆盖所有几何形状并在被放置在结束网格位置时的结束时间覆盖所有几何形状。因此,大小取决于在开始和结束时间包含在BVH节点内的几何形状的近似大小,并且不取决于整个动画路径所跨的体积。因此,量化网格将小得多,从而降低存储要求。
图31示出对运动模糊的三角形3101-3103的量化包围盒的朴素扩展的实现。假设,BVH节点具有三个示出的三角形3101-3103作为子项,其从左向右侧位置移动,如所示出的。因此,该BVH节点在整个运动上的量化网格3100很大,并且在开始和结束时间只能粗略地包围三角形。
图32示出在本发明的一个实施例中采用的变化,其使用小得多的量化网格,所述量化网格显著地更加紧密地包围相同的三角形3201-3203。特别地,基于检测到的三角形3201-3203从左到右的运动,将开始时间量化网格3200A转化为结束时间量化网格3200B。量化网格3200A-B沿BVH节点的子项的共同运动而线性地移动。每个子项的线性边界现在可映射到这个移动量化网格3200A-B中,因为通过从线性子运动中减去线性网格运动获得的残余运动同样是线性运动,其线性量化边界可被直接导出。
图33示出用于实现本文中描述的运动模糊技术的架构的一个实施例。在操作中,BVH处理器3304基于图形场景的输入图元3309的当前集合构造BVH 3300。光线生成器3301生成光线,遍历电路3305通过BVH 3307遍历所述光线。相交电路3310标识光线-图元相交以生成命中3315,其用于进一步的处理(例如,基于材料规范生成二次光线等)。一个或多个着色器可执行指定的着色操作以渲染图像帧。
在一个实施例中,运动模糊处理逻辑3312基于网格数据3318和在BVH节点内检测到的图形图元的运动来实现本文中描述的运动模糊技术。在一个实施例中,量化网格运动评估器3314确定量化网格在指定时间段上的运动,运动模糊处理逻辑3312利用该运动来执行它的运动模糊操作。运动模糊处理逻辑3312可作为程序代码(例如,可执行着色器)、电路、或使用电路和程序代码的组合实现。本发明的基本原理不限于运动模糊处理逻辑3312的任何特定实现。
图34中示出用于运动模糊处理的方法的一个实施例。该方法可在上文描述的架构的上下文内实现,但是不限于任何特定的架构。
在3400,基于输入图元生成包括层级布置的包围体积层级(BVH)节点的BVH。在3401,生成包含一组BVH节点的量化网格,其中每个BVH节点包括一个或多个子节点。在3402,基于检测到的特定BVH节点的子节点的运动,确定量化网格的运动。在3404,将每个子节点的线性边界映射到移动量化网格。在一个实施例中,为了执行映射,通过从线性子节点运动中减去线性量化网格运动来获得一个或多个残余运动值。然后,从残余运动值导出线性量化边界。
如果在3404确定需要处理另一个BVH节点的子节点,那么过程返回到3401,在3401,计算当前BVH节点的新量化。如果否,那么过程结束。
现在将提供本发明的一个实施例的额外细节。然而,应注意,本发明的基本原理不限于这些特定细节。
在一个实施例中,内插网格数据3318包括起始位置(grid_start)、结束位置(grid_end)和对于所有时间值(即,当网格基于场景中的图元的移动而移动时)相同的网格大小(grid_size)。在一个实施例中,所有这些网格属性存储为3D向量。
量化网格运动评估器3314将网格运动表示为:
grid_base(time) = lerp(grid_start, grid_end, time)
= (1.0-time) * grid_start + time *grid_end
这是对于快门时间0和1的特殊情形的线性混合。包围盒的线性运动(其中bounds_start指开始时间的包围盒,并且bounds_end指结束时间的包围盒)可表示为:
bounds(time) = lerp(bounds_start, bounds_end, time)
= (1.0-time) * bounds_start + time *bounds_end
这同样是线性运动。在一个实施例中,运动量化网格运动评估器3314将三角形运动边界(时间)的线性边界转化到网格坐标空间中,以获得相对于移动网格的残余运动residual_bounds (time):
residual_bounds(time) =
(bounds(time) – grid_base(time)) / grid_size =
(lerp(bounds_start, bounds_end, time) – lerp(grid_start, grid_end,time)) / grid_size =
lerp(bounds_start-grid_start,bounds_end-grid_end, time) / grid_size =
lerp((bounds_start-grid_start) / grid_size, (bounds_end-grid_end) /grid_size, time) =
lerp( residual_bounds_start, residual_bounds_end, time)
residual_bounds_start = (bounds_start-grid_start) / grid_size
residual_bounds_end = (bounds_end-grid_end) / grid_size
因此,开始时间的三角形的网格相对边界是residual_bounds_start = (bounds_start-grid_start) / grid_size,并且结束时间的网格相对边界是residual_bounds_end= (bounds_end-grid_end) / grid_size。相对于移动网格的残余运动只是这些residual_bounds_start和residual_bounds_ end位置的线性混合。因此,相对于移动网格的线性边界在该网格本身内线性移动。
注意,该实施例仅获得剩余线性运动,因为grid_size并不是线性混合的,而是只有一个固定的grid_size。如果grid_size也线性地变化,那么量化网格运动评估器3314确定两个lerp操作的乘积,这不分解为两个lerp的和。
剩余边界residual_bounds_start和residual_bounds_end可在开始和结束位置使用量化网格来容易地被保守地量化,以利用对应的线性内插获得量化的剩余边界quantized_residual_bounds_start和quantized_residual_bounds_end:
quantized_residual_bounds(time) =
lerp(quantized_residual_bounds_start, quantized_residual_bounds_ end,time)
为了获得这些的世界空间去量化边界,量化网格运动评估器3314混合以grid_size因子缩放的量化边界,并接着添加到混合的网格位置:
dequantized_bounds(time) = quantized_residual_bounds(time) * grid_size + grid_base(time)
为了将具有线性方程org + t * dir的光线与这些边界相交,确定到包围平面的距离:
t_lower = (dequantized_bounds(time).lower – org) * rcp(dir)
t_upper = (dequantized_bounds(time).upper – org) * rcp(dir)
这提供了到3个下包围平面和3个上包围平面的距离,所述距离然后由相交电路3310用来使用光线/盒测试来测试边界是否命中。
在一个实施例中,使用上文描述的技术(即,包围体积层级的解压缩和遍历)来减少以上距离计算所需的处理。这些技术包括:利用在节点的所有子项之间共享的较高精度距离计算来降低复杂度;以及添加一些校正,使用降低精度的量化边界来确定所述校正:
t_lower = (dequantized_bounds(time).lower – org) * rcp(dir)
= (quantized_residual_bounds(time) * grid_size + grid_base(time) –org) * rcp(dir)
= (grid_base(time) – org) * rcp(dir) + quantized_residual_bounds(time) * grid_size * rcp(dir)
第一项(grid_base(time) – org) * rcp(dir)对于所有子项只确定一次,因为它只依赖于量化网格。对每个子项确定第二项quantized_residual_bounds(time) * grid_size * rcp(dir)。然而,当量化边界的内插产生较低精度输出并且选择grid_size为2的幂时,那么这一项只是少量位和浮点数rcp(dir)的乘积,这在硬件中实现同样成本较低。
在一个实施例中,如下甚至更多地减少计算第一项的复杂度:
Term1 = (grid_base(time) – org) * rcp(dir)
= (lerp(grid_start, grid_end, time) – org) * rcp(dir)
= (grid_start + time *(grid_end-grid_start) – org) * rcp(dir)
= (grid_start + time *(grid_end_start) – org) * rcp(dir)
其中grid_end_start = grid_end - grid_start是从grid_start到grid_end的向量。当不进行运动模糊时,公式将看起来几乎是一样的,但是将缺少time * (grid_end_start)项。我们试图通过评估要求grid_end_start的多大精度以及要求多大时间精度来降低计算该项的额外复杂度。存储该grid_end_start项的8个尾数位并且只使用时间的16个尾数位是足够的。这显著降低了该操作的硬件复杂度。grid_end_start的位的减少必须以grid_end_start向量变长(因此移动网格仍然包含所有几何形状)的方式进行。进一步降低时间精度对于网格位置增加了一些模糊性,这必须使用适当扩展的残余运动边界来得到校正(边界可通过由该时间量化引入的最大网格错位来简单地扩展)。
与朴素量化方法相比,上文针对具有许多小的三角形和大的运动的场景描述的实施例的统计评估将每个光线的相交步骤的数量减少了超过一数量级。
在实施例中,术语“引擎”或“模块”或“逻辑”可以指以下各项、是以下各项的一部分,或者包括以下各项:专用集成电路(ASIC)、电子电路、执行一个或多个软件或固件程序的处理器(共享、专用或群组)和/或存储器(共享、专用或群组)、组合逻辑电路和/或提供描述的功能性的其它合适的组件。在实施例中,引擎、模块或逻辑可以用固件、硬件、软件或固件、硬件和软件的任意组合实现。
示例
以下是本发明的不同实施例的示例实现。
示例1. 一种方法,包括:基于输入图元来生成包括层级布置的包围体积层级(BVH)节点的BVH,至少一个BVH节点包括一个或多个子节点;基于所述至少一个BVH节点的所述一个或多个子节点的运动值来确定量化网格的运动值;以及将所述子节点中的每个子节点的线性边界映射到所述量化网格。
示例2. 如示例1所述的方法,其中映射所述子节点中的每个子节点的线性边界进一步包括:通过从与所述一个或多个子节点相关联的运动值中减去所述量化网格的运动值来获得一个或多个残余运动值;以及从所述一个或多个残余运动值导出所述一个或多个子节点的量化边界。
示例3. 如示例2所述的方法,其中所述一个或多个子节点包括图元。
示例4. 如示例3所述的方法,其中所述图元在运动中。
示例5. 如示例4所述的方法,其中基于所述图元的运动来确定与所述一个或多个子节点相关联的所述运动值。
示例6. 如示例3所述的方法,其中所述图元包括三角形。
示例7. 如示例2所述的方法,进一步包括:根据所述一个或多个子节点的所述量化边界执行光线遍历和/或相交操作,以确定光线的一个或多个交点。
示例8. 如示例7所述的方法,进一步包括:派生一个或多个着色器以关于所述一个或多个交点执行图形操作。
示例9. 一种其上存储有程序代码的机器可读介质,所述程序代码在由机器执行时使所述机器执行以下操作:基于输入图元来生成包括层级布置的包围体积层级(BVH)节点的BVH,至少一个BVH节点包括一个或多个子节点;基于所述至少一个BVH节点的所述一个或多个子节点的运动值来确定量化网格的运动值;以及将所述子节点中的每个子节点的线性边界映射到所述量化网格。
示例10. 如示例9所述的机器可读介质,其中映射所述子节点中的每个子节点的线性边界进一步包括:通过从与所述一个或多个子节点相关联的运动值中减去所述量化网格的运动值来获得一个或多个残余运动值;以及从所述一个或多个残余运动值导出所述一个或多个子节点的量化边界。
示例11. 如示例10所述的机器可读介质,其中所述一个或多个子节点包括图元。
示例12. 如示例11所述的机器可读介质,其中所述图元在运动中。
示例13. 如示例12所述的机器可读介质,其中基于所述图元的运动来确定与所述一个或多个子节点相关联的所述运动值。
示例14. 如示例11所述的机器可读介质,其中所述图元包括三角形。
示例15. 如示例10所述的机器可读介质,进一步包括使所述机器执行以下操作的程序代码:根据所述一个或多个子节点的所述量化边界执行光线遍历和/或相交操作,以确定光线的一个或多个交点。
示例16. 如示例15所述的机器可读介质,进一步包括使所述机器执行以下操作的程序代码:派生一个或多个着色器以关于所述一个或多个交点执行图形操作。
示例17. 一种图形处理器,包括:包围体积层级(BVH)生成器,所述包围体积层级(BVH)生成器用于基于输入图元来构建包括层级布置的BVH节点的BVH,至少一个BVH节点包括一个或多个子节点;以及运动模糊处理硬件逻辑,所述运动模糊处理硬件逻辑用于基于所述至少一个BVH节点的所述一个或多个子节点的运动值来确定量化网格的运动值,并将所述子节点中的每个子节点的线性边界映射到所述量化网格。
示例18. 如示例17所述的图形处理器,其中为了映射所述子节点中的每个子节点的线性边界,所述运动模糊处理硬件逻辑要:通过从与所述一个或多个子节点相关联的运动值中减去所述量化网格的运动值来获得一个或多个残余运动值;并且从所述一个或多个残余运动值导出所述一个或多个子节点的量化边界。
示例19. 如示例18所述的图形处理器,其中所述一个或多个子节点包括图元。
示例20. 如示例19所述的图形处理器,其中所述图元在运动中。
示例21. 如示例20所述的图形处理器,其中基于所述图元的运动来确定与所述一个或多个子节点相关联的所述运动值。
示例22. 如示例19所述的图形处理器,其中所述图元包括三角形。
示例23. 如示例18所述的图形处理器,进一步包括:光线遍历和相交硬件逻辑,所述光线遍历和相交硬件逻辑用于根据所述一个或多个子节点的所述量化边界执行光线遍历和/或相交操作,以确定光线的一个或多个交点。
示例24. 如示例23所述的图形处理器,进一步包括:多个执行电路,所述多个执行电路用于执行一个或多个着色器以关于所述一个或多个交点执行图形操作。
本发明的实施例可包括上文已经描述的各种步骤。可以用机器可执行指令体现所述步骤,所述机器可执行指令可用于使通用或专用处理器执行所述步骤。备选地,这些步骤可由包含用于执行所述步骤的硬接线逻辑的特定硬件组件或由编程的计算机组件和定制硬件组件的任意组合来执行。
如本文中所描述的,指令可以指:硬件的特定配置,诸如配置成执行某些操作或具有预定功能性的专用集成电路(ASIC);或存储在用非暂时性计算机可读介质体现的存储器中的软件指令。因此,图中示出的技术可使用在一个或多个电子装置(例如,终端站、网络元件等)上存储和执行的代码和数据来实现。此类电子装置使用计算机机器可读介质来存储并(在内部和/或通过网络与其它电子装置)传递代码和数据,所述计算机机器可读介质诸如非暂时性计算机机器可读存储介质(例如,磁盘;光盘;随机存取存储器;只读存储器;闪速存储器装置;相变存储器)和暂时性计算机机器可读通信介质(例如,电、光、声或其它形式的传播信号,诸如载波、红外信号、数字信号等)。
另外,此类电子装置通常包括耦合到一个或多个其它组件的一个或多个处理器的集合,所述一个或多个其它组件诸如一个或多个存储装置(非暂时性机器可读存储介质)、用户输入/输出装置(例如,键盘、触摸屏和/或显示器)和网络连接。处理器的集合和其它组件的耦合通常通过一个或多个总线和桥接器(又称为总线控制器)。存储装置和携带网络业务的信号分别表示一个或多个机器可读存储介质和机器可读通信介质。因此,给定电子装置的存储装置通常存储代码和/或数据以便在该电子装置的一个或多个处理器的集合上执行。当然,本发明的实施例的一个或多个部分可使用软件、固件和/或硬件的不同组合来实现。在该详细描述通篇中,出于解释的目的,阐述了众多具体细节,以便提供对本发明的充分理解。然而,本领域技术人员将明白,没有这些具体细节中的一些细节的情况下可实践本发明。在某些情况下,没有详细地描述公知的结构和功能,以便避免混淆本发明的主题。因此,应当按照随附的权利要求来判断本发明的范围和精神。
- 上一篇:石墨接头机器人自动装卡簧、装栓机
- 下一篇:一种生成3D文字的方法及装置