用于多管芯/GPU图形处理的基于位置的渲染设备和方法专利检索-顶点着色器着色器电脑图像专利检索查询-专利查询网

用于多管芯/GPU图形处理的基于位置的渲染设备和方法

阅读：873发布：2020-05-14

专利汇可以提供用于多管芯/GPU图形处理的基于位置的渲染设备和方法专利检索，专利查询，专利分析的服务。并且用于多管芯/GPU图形处理的基于位置的渲染设备和方法。例如，方法的一个实施例包括：将多个图形绘制分发给多个图形处理器；使用与第一图形处理器上的第一绘制的图块相关联的顶点数据执行仅位置着色，该第一图形处理器响应地针对图块中的每个而生成可见性数据；将与图块的不同子集相关联的可见性数据的子集分发给不同的图形处理器；使用该可见性数据限制由每个图形处理器在每个图块上要执行的几何工作，每个图形处理器响应地生成经渲染的图块；以及其中组合该经渲染的图块以生成完整的图像帧。，下面是用于多管芯/GPU图形处理的基于位置的渲染设备和方法专利的具体信息内容。

权利要求

1.一种方法，包括：
将多个图形绘制分发给多个图形处理器；
使用与第一图形处理器上的第一绘制的图块相关联的顶点数据执行仅位置着色，所述第一图形处理器响应地针对所述图块中的每个而生成可见性数据；
将与所述图块的不同子集相关联的所述可见性数据的子集分发给不同的图形处理器；
使用所述可见性数据限制由每个图形处理器在每个图块上要执行的几何工作，每个图形处理器响应地生成经渲染的图块；以及
其中组合所述经渲染的图块以生成完整的图像帧。
2.如权利要求1所述的方法，其中每个图形处理器集成在单独的半导体管芯上。
3.如权利要求1或2所述的方法，其中执行仅位置着色包括：
比较包含在针对每个图块的所述顶点数据中的图元，以识别在所述图块的区域内可见的一个或多个图元；以及
识别所述可见性数据中的被遮挡的图元。
4.如权利要求3所述的方法，其中限制几何工作处理包括仅使用那些可见的图元来执行几何工作。
5.如权利要求3或4所述的方法，还包括：
通过每个相应的图形处理器来光栅化图块的所述子集，以针对图块的每个子集的每个图块而生成像素。
6.如权利要求5所述的方法，还包括：
通过每个相应的图形处理器对每个子集内的每个图块执行像素着色操作，以针对每个图块而生成最终像素。
7.如权利要求6所述的方法，还包括：
在所述多个图形处理器中的至少一个图形处理器的帧缓冲器内组合针对每个图块的所述最终像素。
8.如权利要求1或7所述的方法，还包括：
使用与第二图形处理器上的第二绘制的图块相关联的顶点数据执行仅位置着色，所述第二图形处理器响应地针对所述第二绘制的所述图块中的每个而生成第二可见性数据；
将针对所述第二绘制的所述图块的不同子集的所述第二可见性数据分发给不同的图形处理器；
使用所述第二可见性数据限制由每个图形处理器在所述第二绘制的每个图块上要执行的几何工作，每个图形处理器响应地生成所述第二绘制的经渲染的图块；以及其中组合所述第二绘制的所述经渲染的图块以生成第二图像帧。
9.一种图形处理设备，包括：
多个图形处理器，所述多个图形处理器用于接收多个图形绘制；
互连，所述互连使所述图形处理器耦合；
第一图形处理器，所述第一图形处理器使用与第一绘制的图块相关联的顶点数据执行仅位置着色，所述第一图形处理器响应地针对所述图块中的每个而生成可见性数据；
第一图形处理器，所述第一图形处理器用于将与所述图块的不同子集相关联的所述可见性数据的子集分发给所述多个图形处理器中的不同图形处理器；
所述图形处理器中的每个的几何着色器，所述几何着色器处理图块的相应的子集的图元，所述几何着色器读取所述可见性数据以限制要被执行的几何工作，其中每个图形处理器要响应地生成经渲染的图块；以及
其中所述经渲染的图块要被组合以生成完整的图像帧。
10.如权利要求9所述的图形处理设备，其中每个图形处理器集成在单独的半导体管芯上。
11.如权利要求9或10所述的图形处理设备，其中执行仅位置着色包括：
比较包含在针对每个图块的所述顶点数据中的图元，以识别在所述图块的区域内可见的一个或多个图元；以及
识别所述可见性数据中的可见图元。
12.如权利要求11所述的图形处理设备，其中限制几何工作处理包括仅使用那些可见的图元来执行几何工作。
13.如权利要求11所述的图形处理设备，还包括：
通过每个相应的图形处理器来光栅化图块的所述子集，以针对图块的每个子集的每个图块而生成像素。
14.如权利要求13所述的图形处理设备，还包括：
通过每个相应的图形处理器对每个子集内的每个图块执行像素着色操作，以针对每个图块而生成最终像素。
15.如权利要求14所述的图形处理设备，还包括：
在所述多个图形处理器中的至少一个图形处理器的帧缓冲器内组合针对每个图块的所述最终像素。
16.如权利要求9或15所述的图形处理设备，还包括：
第二图形处理器，所述第二图形处理器使用与第二绘制的图块相关联的顶点数据执行仅位置着色，所述第二图形处理器响应地针对所述第二绘制的所述图块中的每个而生成第二可见性数据，并且将针对所述第二绘制的所述图块的不同子集的所述第二可见性数据分发给不同的图形处理器；
几何着色器，所述几何着色器用于处理所述第二绘制的图块的相应的子集的图元，所述几何着色器用于读取所述第二可见性数据以限制要被执行的几何工作，其中每个图形处理器要响应地生成所述第二绘制的经渲染的图块；以及其中组合所述第二绘制的所述经渲染的图块以生成第二图像帧。
17.一种机器可读介质，具有其上存储的程序代码，所述程序代码当由机器执行时促使所述机器执行以下操作：
将多个图形绘制分发给多个图形处理器；
使用与第一图形处理器上的第一绘制的图块相关联的顶点数据执行仅位置着色，所述第一图形处理器响应地针对所述图块中的每个而生成可见性数据；
将与所述图块的不同子集相关联的所述可见性数据的子集分发给不同的图形处理器；
使用所述可见性数据限制由每个图形处理器在每个图块上要执行的几何工作，每个图形处理器响应地生成经渲染的图块；以及
其中组合所述经渲染的图块以生成完整的图像帧。
18.如权利要求17所述的机器可读介质，其中每个图形处理器集成在单独的半导体管芯上。
19.如权利要求17或18所述的机器可读介质，其中执行仅位置着色包括：
比较包含在针对每个图块的所述顶点数据中的图元，以识别被遮挡的一个或多个图元；以及
识别所述可见性数据中的被遮挡的图元。
20.如权利要求19所述的机器可读介质，其中限制几何工作处理包括仅使用那些未被遮挡的图元来执行几何工作。
21.如权利要求19所述的机器可读介质，还包括：
通过每个相应的图形处理器来光栅化图块的所述子集，以针对图块的每个子集的每个图块而生成像素。
22.如权利要求21所述的机器可读介质，还包括：
通过每个相应的图形处理器对每个子集内的每个图块执行像素着色操作，以针对每个图块而生成最终像素。
23.如权利要求22所述的机器可读介质，还包括：
在所述多个图形处理器中的至少一个图形处理器的帧缓冲器内组合针对每个图块的所述最终像素。
24.如权利要求19和23所述的机器可读介质，还包括：
使用与第二图形处理器上的第二绘制的图块相关联的顶点数据执行仅位置着色，所述第二图形处理器响应地针对所述第二绘制的所述图块中的每个而生成第二可见性数据；
将针对所述第二绘制的所述图块的不同子集的所述第二可见性数据分发给不同的图形处理器；
使用所述第二可见性数据限制由每个图形处理器在所述第二绘制的每个图块上要执行的几何工作，每个图形处理器响应地生成所述第二绘制的经渲染的图块；以及其中组合所述第二绘制的所述经渲染的图块以生成完整图像帧。
25.一种设备，包括：
用于将多个图形绘制分发给多个图形处理器的部件；
用于使用与第一图形处理器上的第一绘制的图块相关联的顶点数据执行仅位置着色的部件，所述第一图形处理器响应地针对所述图块中的每个而生成可见性数据；
用于将与所述图块的不同子集相关联的所述可见性数据的子集分发给不同的图形处理器的部件；
用于使用所述可见性数据限制由每个图形处理器在每个图块上要执行的几何工作的部件，每个图形处理器响应地生成经渲染的图块；以及
其中组合所述经渲染的图块以生成完整的图像帧。

说明书全文

用于多管芯/GPU图形处理的基于位置的渲染设备和方法

技术领域

[0001] 本发明一般涉及图形处理器领域。更具体地，本发明涉及用于在多管芯或多GPU图形处理上基于位置的渲染的设备和方法。

背景技术

[0002] 随着图形处理器缩放到更大的管芯尺寸，期望的是将多个硅管芯集成到能够运行单个3D上下文的单个内聚（cohesive）单元中，以便解决可制造性、可缩放性和功率输送问题。这样做要求针对多类别的可缩放性和互连挑战的解决方案，以便在运行在多个管芯上的单个3D应用上输送最佳性能。

[0003] 当前使用的试图解决该问题的算法包括交替帧渲染（AFR）和分割帧渲染（SFR）以及这些方法的变体。

发明内容

[0004] 本公开提供一组技术方案，如下：1. 一种方法，包括：
将多个图形绘制分发给多个图形处理器；
使用与第一图形处理器上的第一绘制的图块相关联的顶点数据执行仅位置着色，所述第一图形处理器响应地针对所述图块中的每个而生成可见性数据；
将与所述图块的不同子集相关联的所述可见性数据的子集分发给不同的图形处理器；
使用所述可见性数据限制由每个图形处理器在每个图块上要执行的几何工作，每个图形处理器响应地生成经渲染的图块；以及
其中组合所述经渲染的图块以生成完整的图像帧。

[0005] 2. 如技术方案1所述的方法，其中每个图形处理器集成在单独的半导体管芯上。

[0006] 3. 如技术方案1所述的方法，其中执行仅位置着色包括：比较包含在针对每个图块的所述顶点数据中的图元，以识别在所述图块的区域内可见的一个或多个图元；以及
识别所述可见性数据中的被遮挡的图元。

[0007] 4. 如技术方案3所述的方法，其中限制几何工作处理包括仅使用那些可见的图元来执行几何工作。

[0008] 5. 如技术方案3所述的方法，还包括：通过每个相应的图形处理器来光栅化图块的所述子集，以针对图块的每个子集的每个图块而生成像素。

[0009] 6. 如技术方案5所述的方法，还包括：通过每个相应的图形处理器对每个子集内的每个图块执行像素着色操作，以针对每个图块而生成最终像素。

[0010] 7. 如技术方案6所述的方法，还包括：在所述多个图形处理器中的至少一个图形处理器的帧缓冲器内组合针对每个图块的所述最终像素。

[0011] 8. 如技术方案1所述的方法，还包括：使用与第二图形处理器上的第二绘制的图块相关联的顶点数据执行仅位置着色，所述第二图形处理器响应地针对所述第二绘制的所述图块中的每个而生成第二可见性数据；
将针对所述第二绘制的所述图块的不同子集的所述第二可见性数据分发给不同的图形处理器；
使用所述第二可见性数据限制由每个图形处理器在所述第二绘制的每个图块上要执行的几何工作，每个图形处理器响应地生成所述第二绘制的经渲染的图块；以及其中组合所述第二绘制的所述经渲染的图块以生成第二图像帧。

[0012] 9. 一种图形处理设备，包括：多个图形处理器，所述多个图形处理器用于接收多个图形绘制；
互连，所述互连使所述图形处理器耦合；
第一图形处理器，所述第一图形处理器使用与第一绘制的图块相关联的顶点数据执行仅位置着色，所述第一图形处理器响应地针对所述图块中的每个而生成可见性数据；
第一图形处理器，所述第一图形处理器用于将与所述图块的不同子集相关联的所述可见性数据的子集分发给所述多个图形处理器中的不同图形处理器；
所述图形处理器中的每个的几何着色器，所述几何着色器处理图块的相应的子集的图元，所述几何着色器读取所述可见性数据以限制要被执行的几何工作，
其中每个图形处理器要响应地生成经渲染的图块；以及
其中所述经渲染的图块要被组合以生成完整的图像帧。

[0013] 10. 如技术方案9所述的图形处理设备，其中每个图形处理器集成在单独的半导体管芯上。

[0014] 11. 如技术方案9所述的图形处理设备，其中执行仅位置着色包括：比较包含在针对每个图块的所述顶点数据中的图元，以识别在所述图块的区域内可见的一个或多个图元；以及
识别所述可见性数据中的可见图元。

[0015] 12. 如技术方案11所述的图形处理设备，其中限制几何工作处理包括仅使用那些可见的图元来执行几何工作。

[0016] 13. 如技术方案11所述的图形处理设备，还包括：通过每个相应的图形处理器来光栅化图块的所述子集，以针对图块的每个子集的每个图块而生成像素。

[0017] 14. 如技术方案13所述的图形处理设备，还包括：通过每个相应的图形处理器对每个子集内的每个图块执行像素着色操作，以针对每个图块而生成最终像素。

[0018] 15. 如技术方案14所述的图形处理设备，还包括：在所述多个图形处理器中的至少一个图形处理器的帧缓冲器内组合针对每个图块的所述最终像素。

[0019] 16. 如技术方案9所述的图形处理设备，还包括：第二图形处理器，所述第二图形处理器使用与第二绘制的图块相关联的顶点数据执行仅位置着色，所述第二图形处理器响应地针对所述第二绘制的所述图块中的每个而生成第二可见性数据，并且将针对所述第二绘制的所述图块的不同子集的所述第二可见性数据分发给不同的图形处理器；
几何着色器，所述几何着色器用于处理所述第二绘制的图块的相应的子集的图元，所述几何着色器用于读取所述第二可见性数据以限制要被执行的几何工作，
其中每个图形处理器要响应地生成所述第二绘制的经渲染的图块；以及
其中组合所述第二绘制的所述经渲染的图块以生成第二图像帧。

[0020] 17. 一种机器可读介质，具有其上存储的程序代码，所述程序代码当由机器执行时促使所述机器执行以下操作：将多个图形绘制分发给多个图形处理器；
使用与第一图形处理器上的第一绘制的图块相关联的顶点数据执行仅位置着色，所述第一图形处理器响应地针对所述图块中的每个而生成可见性数据；
将与所述图块的不同子集相关联的所述可见性数据的子集分发给不同的图形处理器；
使用所述可见性数据限制由每个图形处理器在每个图块上要执行的几何工作，每个图形处理器响应地生成经渲染的图块；以及
其中组合所述经渲染的图块以生成完整的图像帧。

[0021] 18. 如技术方案17所述的机器可读介质，其中每个图形处理器集成在单独的半导体管芯上。

[0022] 19. 如技术方案17所述的机器可读介质，其中执行仅位置着色包括：比较包含在针对每个图块的所述顶点数据中的图元，以识别被遮挡的一个或多个图元；以及
识别所述可见性数据中的被遮挡的图元。

[0023] 20. 如技术方案19所述的机器可读介质，其中限制几何工作处理包括仅使用那些未被遮挡的图元来执行几何工作。

[0024] 21. 如技术方案19所述的机器可读介质，还包括：通过每个相应的图形处理器来光栅化图块的所述子集，以针对图块的每个子集的每个图块而生成像素。

[0025] 22. 如技术方案21所述的机器可读介质，还包括：通过每个相应的图形处理器对每个子集内的每个图块执行像素着色操作，以针对每个图块而生成最终像素。

[0026] 23. 如技术方案22所述的机器可读介质，还包括：在所述多个图形处理器中的至少一个图形处理器的帧缓冲器内组合针对每个图块的所述最终像素。

[0027] 24. 如技术方案19所述的机器可读介质，还包括：使用与第二图形处理器上的第二绘制的图块相关联的顶点数据执行仅位置着色，所述第二图形处理器响应地针对所述第二绘制的所述图块中的每个而生成第二可见性数据；
将针对所述第二绘制的所述图块的不同子集的所述第二可见性数据分发给不同的图形处理器；
使用所述第二可见性数据限制由每个图形处理器在所述第二绘制的每个图块上要执行的几何工作，每个图形处理器响应地生成所述第二绘制的经渲染的图块；以及其中组合所述第二绘制的所述经渲染的图块以生成完整图像帧。
附图说明

[0028] 从结合以下附图的以下详细描述，可以获得对本发明的更好的理解，附图中：图1是具有处理器的计算机系统的实施例的框图，该处理器具有一个或多个处理器核和图形处理器；
图2是具有一个或多个处理器核、集成存储器控制器和集成图形处理器的处理器的一个实施例的框图。

[0029] 图3是图形处理器的一个实施例的框图，该图形处理器可以是分立的图形处理单元，或者可以是与多个处理核集成的图形处理器；图4是用于图形处理器的图形处理引擎的实施例的框图；
图5是图形处理器的另一实施例的框图；
图6是包括处理元件阵列的线程执行逻辑的框图；
图7示出了根据实施例的图形处理器执行单元指令格式；
图8是图形处理器的另一实施例的框图，该图形处理器包括图形流水线、媒体流水线、显示器引擎、线程执行逻辑和渲染输出流水线；
图9A是示出根据实施例的图形处理器命令格式的框图；
图9B是示出根据实施例的图形处理器命令序列的框图；
图10示出了根据实施例的用于数据处理系统的示例性图形软件架构；
图11示出了根据实施例的可用于制造集成电路以执行操作的示例性IP核开发系统；
图12示出了根据实施例的可以使用一个或多个IP核制造的示例性芯片上系统集成电路；
图13示出了可以使用一个或多个IP核制造的芯片上系统集成电路的示例性图形处理器；
图14示出了可以使用一个或多个IP核制造的芯片上系统集成电路的另外的示例性图形处理器；
图15是示出被配置成实现本文描述的实施例的一个或多个方面的计算机系统的框图；
图16A-16D示出了根据实施例的并行处理器组件；
图17A-17B是根据实施例的图形多处理器的框图；
图18A-18F示出了示例性架构，其中多个GPU以通信方式耦合到多个多核处理器；
图19示出了根据实施例的图形处理流水线；
图20示出了示例结果，其示出了与在单个图形处理器上执行相比较的性能百分比增加；
图21示出了其中跨越四个图块划分的工作不均匀分布的示例；
图22示出了使用棋盘格图块执行位置共享的方法的一个实施例；
图23示出了由GPU的集合处理的示例图块图案；
图24示出了仅着色工作以生成可见顶点数据的位置的示例分配；以及
图25示出了基于图块的着色工作的示例分配。

具体实施方式

[0030] 在以下描述中，出于解释的目的，阐述了许多具体细节以便提供对下面描述的本发明的实施例的透彻理解。然而，对于本领域技术人员清楚的是，可以在没有这些具体细节中的一些的情况下实施本发明的实施例。在其它实例中，以框图形式示出了众所周知的结构和装置，以避免使本发明的实施例的基本原理晦涩。

[0031] 系统概述图1是根据实施例的处理系统100的框图。在各种实施例中，系统100包括一个或多个处理器102和一个或多个图形处理器108，并且可以是单处理器桌上型系统、多处理器工作站系统或具有大数量的处理器102或处理器核107的服务器系统。在一个实施例中，系统100是合并在芯片上系统（SoC）集成电路内的处理平台以供在移动装置、手持式装置或嵌入式装置中使用。

[0032] 系统100的实施例可以包括以下各项或可以合并在以下各项内：基于服务器的游戏平台、游戏控制台（包括游戏和媒体控制台、移动游戏控制台、手持式游戏控制台或在线游戏控制台）。在一些实施例中，系统100是移动电话、智能电话、平板计算装置或移动互联网装置。数据处理系统100还可以包括以下各项、与以下各项耦合或被集成在以下各项内：可穿戴式装置，诸如智能手表可穿戴式装置、智能眼镜(eyewear)装置、增强现实装置或虚拟现实装置。在一些实施例中，数据处理系统100是电视或机顶盒装置，其具有一个或多个处理器102和由一个或多个图形处理器108产生的图形界面。

[0033] 在一些实施例中，一个或多个处理器102各自包括用于处理指令的一个或多个处理器核107，这些指令在被执行时执行用于系统和用户软件的操作。在一些实施例中，一个或多个处理器核107中的每个配置成处理特定指令集109。在一些实施例中，指令集109可以促进复杂指令集计算（CISC）、精简指令集计算（RISC）、或经由超长指令字（VLIW）的计算。多个处理器核107可以各自处理不同的指令集109，所述指令集可以包括用于促进对其它指令集进行仿真的指令。处理器核107还可包括其它处理装置，诸如数字信号处理器（DSP）。

[0034] 在一些实施例中，处理器102包括高速缓存存储器104。取决于架构，处理器102可以具有单个内部高速缓存或多级内部高速缓存。在一些实施例中，在处理器102的各种组件当中共享高速缓存存储器。在一些实施例中，处理器102还使用外部高速缓存（例如，3级（L3）高速缓存或末级高速缓存（LLC））（未示出），其可使用已知的高速缓存一致性技术在处理器核107当中被共享。寄存器堆106被另外包括在处理器102中，所述寄存器堆可包括用于存储不同类型的数据的不同类型的寄存器（例如，整数寄存器、浮点寄存器、状态寄存器和指令指针寄存器）。一些寄存器可以是通用寄存器，而其它寄存器可以是特定于处理器102的设计。

[0035] 在一些实施例中，处理器102与处理器总线110耦合，以在处理器102与系统100中的其它组件之间传送通信信号（诸如，地址、数据或控制信号）。在一个实施例中，系统100使用示例性‘中枢’系统架构，包括存储器控制器中枢116和输入输出（I/O）控制器中枢130。存储器控制器中枢116促进存储器装置与系统100的其它组件之间的通信，而I/O控制器中枢（ICH）130提供经由本地I/O总线到I/O装置的连接。在一个实施例中，存储器控制器中枢116的逻辑被集成在处理器内。

[0036] 存储器装置120可以是动态随机存取存储器（DRAM）装置、静态随机存取存储器（SRAM）装置、闪速存储器装置、相变存储器装置或具有合适的性能以充当进程存储器的某一其它存储器装置。在一个实施例中，存储器装置120可以作为对于系统100的系统存储器来操作，以存储数据122和指令121，以供当所述一个或多个处理器102执行应用或过程时使用。存储器控制器中枢116也与可选的外部图形处理器112耦合，所述外部图形处理器可与处理器102中的一个或多个图形处理器108通信，以执行图形和媒体操作。

[0037] 在一些实施例中，ICH 130使外设能够经由高速I/O总线连接到存储器装置120和处理器102。I/O外设包含但不限于：音频控制器146、固件接口128、无线收发器126（例如，Wi-Fi、蓝牙）、数据存储装置124（例如，硬盘驱动器、闪速存储器等）和用于将传统（例如，个人系统2（PS/2））装置耦合至系统的传统I/O控制器140。一个或多个通用串行总线（USB）控制器142连接输入装置（诸如，键盘和鼠标144组合）。网络控制器134还可以与ICH 130耦合。在一些实施例中，高性能网络控制器（未示出）耦合至处理器总线110。将认识到的是，所示出的系统100是示例性的而非限制性的，因为还可以使用以不同方式配置的其它类型的数据处理系统。例如，I/O控制器中枢130可以集成在所述一个或多个处理器102内，或者存储器控制器中枢116和I/O控制器中枢130可以集成在分立式（discreet）外部图形处理器（诸如外部图形处理器112）内。

[0038] 图2是处理器200的实施例的框图，所述处理器具有一个或多个处理器核202A-202N、集成式存储器控制器214和集成式图形处理器208。图2中具有与本文任何其它图的元件相同的参考数字（或名称）的那些元件可以以与本文别处描述的方式类似的任何方式来操作或运作，但并不限于此。处理器200可包括多达且包括由虚线框表示的附加核202N的附加核。处理器核202A-202N中的每个都包含一个或多个内部高速缓存单元204A-204N。在一些实施例中，每个处理器核还能够访问一个或多个共享高速缓存单元206。

[0039] 内部高速缓存单元204A-204N和共享高速缓存单元206表示处理器200内的高速缓存存储器层级。高速缓存存储器层级可包括每个处理器核内的至少一级指令和数据高速缓存以及共享中间级高速缓存的一个或多个级别（诸如，2级（L2）、3级（L3）、4级（L4）或其它级高速缓存），其中，在外部存储器前面的最高级别高速缓存被归类为LLC。在一些实施例中，高速缓存一致性逻辑保持各种高速缓存单元206和204A-204N之间的一致性。

[0040] 在一些实施例中，处理器200还可包括一个或多个总线控制器单元216的集合以及系统代理核210。所述一个或多个总线控制器单元216管理外设总线的集合，诸如一个或多个外设组件互连总线（例如，PCI、PCI快速总线）。系统代理核210提供对各种处理器组件的管理功能性。在一些实施例中，系统代理核210包括一个或多个集成式存储器控制器214以管理对各种外部存储器装置（未示出）的访问。

[0041] 在一些实施例中，处理器核202A-202N中的一个或多个包括对同时多线程的支持。在这样的实施例中，系统代理核210包括用于在多线程处理期间协调和操作核202A-202N的组件。系统代理核210可另外包括功率控制单元（PCU），所述PCU包括用于调节处理器核
202A-202N和图形处理器208的功率状态的逻辑和组件。

[0042] 在一些实施例中，处理器200另外包括用于执行图形处理操作的图形处理器208。在一些实施例中，图形处理器208与共享高速缓存单元206的集合和系统代理核210（包括一个或多个集成式存储器控制器214）耦合。在一些实施例中，显示控制器211与图形处理器
208耦合以将图形处理器输出驱动到一个或多个耦合的显示器。在一些实施例中，显示控制器211可以是经由至少一个互连与图形处理器耦合的单独模块，或者可以集成在图形处理器208或系统代理核210内。

[0043] 在一些实施例中，使用基于环的互连单元212来耦合处理器200的内部组件。然而，可以使用备选互连单元，诸如点到点互连、切换式互连、或其它技术，包括本领域众所周知的技术。在一些实施例中，图形处理器208经由I/O链路213与环互连212耦合。

[0044] 示例性I/O链路213表示多种I/O互连中的至少一种，包括促进各种处理器组件与高性能嵌入式存储器模块218（诸如eDRAM模块）之间的通信的封装上（on package）I/O互连。在一些实施例中，处理器核202A-202N中的每个和图形处理器208将嵌入式存储器模块218用作共享末级高速缓存。

[0045] 在一些实施例中，处理器核202A-202N是执行相同的指令集架构的同质核。在另一实施例中，处理器核202A-202N在指令集架构(ISA)方面是异质的，其中，处理器核202A-202N中的一个或多个执行第一指令集，而其它核中的至少一个执行第一指令集的子集或不同指令集。在一个实施例中，处理器核202A-202N在微架构方面是异质的，其中，具有相对更高功率消耗的一个或多个核与具有更低功率消耗的一个或多个功率核耦合。另外，处理器
200可以实现在一个或多个芯片上或者被实现成具有除其它组件之外的所示出的组件的SoC集成电路。

[0046] 图3是图形处理器300的框图，所述图形处理器可以是分立式图形处理单元，或可以是与多个处理核集成的图形处理器。在一些实施例中，图形处理器经由到图形处理器上的寄存器的映射I/O接口并且利用被放置在处理器存储器中的命令进行通信。在一些实施例中，图形处理器300包括用于访问存储器的存储器接口314。存储器接口314可以是到本地存储器、一个或多个内部高速缓存、一个或多个共享外部高速缓存、和/或到系统存储器的接口。

[0047] 在一些实施例中，图形处理器300还包括用于将显示输出数据驱动到显示装置320的显示控制器302。显示控制器302包括多层视频或用户界面元件的组成以及用于显示器的一个或多个重叠平面的硬件。在一些实施例中，图形处理器300包括用于向、从一个或多个媒体编码格式或在这些格式之间对媒体进行编码、解码、或者转码的视频编码解码器引擎306，这些格式包括但不限于：移动图像专家组（MPEG）格式（诸如MPEG-2）、高级视频译码（AVC）格式（诸如H.264/MPEG-4 AVC）、以及电影&电视工程师协会（SMPTE）421M/VC-1、和联合图像专家组（JPEG）格式（诸如JPEG、以及运动JPEG（MJPEG）格式）。

[0048] 在一些实施例中，图形处理器300包括用于执行二维（2D）光栅化器操作的块图像传输（BLIT）引擎304，所述2D光栅化器操作包括（例如）位边界块传输。然而，在一个实施例中，使用图形处理引擎（GPE）310的一个或多个组件执行2D图形操作。在一些实施例中，GPE310是用于执行图形操作的计算引擎，所述图形操作包括三维（3D）图形操作和媒体操作。

[0049] 在一些实施例中，GPE 310包括用于执行3D操作的3D流水线312，诸如使用作用于3D图元形状（例如矩形、三角形等）的处理功能来渲染三维图像和场景。3D流水线312包含可编程和固定功能元件，这些元件执行元件内的各种任务和/或向3D/媒体子系统315生成执行线程。虽然3D流水线312可以用于执行媒体操作，但是GPE 310的实施例还包括媒体流水线316，所述媒体流水线特定地用于执行媒体操作，诸如视频后处理和图像增强。

[0050] 在一些实施例中，媒体流水线316包括用于代替或代表视频编码解码器引擎306执行一个或多个专门的媒体操作（诸如视频解码加速、视频去交织和视频编码加速）的固定功能或可编程逻辑单元。在一些实施例中，媒体流水线316另外包括线程生成单元以便生成用于在3D/媒体子系统315上执行的线程。所生成的线程在3D/媒体子系统315中所包括的一个或多个图形执行单元执行对媒体操作的计算。

[0051] 在一些实施例中，3D/媒体子系统315包括用于执行由3D流水线312和媒体流水线316生成的线程的逻辑。在一个实施例中，流水线向3D/媒体子系统315发送线程执行请求，所述3D/媒体子系统包括用于仲裁并分派对于可用的线程执行资源的各种请求的线程分派逻辑。执行资源包括用于处理3D和媒体线程的图形执行单元的阵列。在一些实施例中，3D/媒体子系统315包括用于线程指令和数据的一个或多个内部高速缓存。在一些实施例中，所述子系统还包括共享存储器（包括寄存器和可寻址存储器），以在线程之间共享数据并存储输出数据。

[0052] 图形处理引擎图4是根据一些实施例的图形处理器的图形处理引擎410的框图。在一个实施例中，图形处理引擎（GPE）410是图3中所示的GPE 310的版本。图4中具有与本文任何其它图的元件相同的参考数字（或名称）的元件可以以与本文别处描述的方式类似的任何方式来操作或运作，但并不限于此。例如，图示了图3的3D流水线312和媒体流水线316。媒体流水线316在GPE 410的一些实施例中是可选的，并且可以不显式地包括在GPE 410内。并且例如在至少一个实施例中，单独媒体和/或图像处理器耦合到GPE 410。

[0053] 在一些实施例中，GPE 410与命令流传送器403耦合或包括命令流传送器403，所述命令流传送器将命令流传送给3D流水线312和/或媒体流水线316。在一些实施例中，命令流传送器403与存储器耦合，所述存储器可以是系统存储器，或可以是内部高速缓存存储器和共享高速缓存存储器中的一个或多个。在一些实施例中，命令流传送器403从存储器接收命令，并且将命令发送给3D流水线312和/或媒体流水线316。所述命令是从存储用于3D流水线312和媒体流水线316的命令的环缓冲器提取的指示。在一个实施例中，所述环缓冲器可另外包括存储多批多命令的批命令缓冲器。用于3D流水线312的命令还可包括对存储在存储器中的数据引用，诸如但不限于用于3D流水线312的顶点和几何数据，和/或用于媒体流水线316的图像数据和存储器对象。3D流水线312和媒体流水线316通过经由各自流水线内的逻辑执行操作或者通过将一个或多个执行线程分派至图形核阵列414来处理命令和数据。

[0054] 在各种实施例中，3D流水线312可通过处理指令并将执行线程分派至图形核阵列414来执行一个或多个着色器程序，诸如顶点着色器、几何着色器、像素着色器、片段着色器、计算着色器或其它着色器程序。图形核阵列414提供统一的执行资源块。图形核阵列414内的多用途执行逻辑（例如，执行单元）包括对各种3D API着色器语言的支持，并且可以执行与多个着色器相关联的多个同时执行线程。

[0055] 在一些实施例中，图形核阵列414还包括执行逻辑以执行媒体功能，诸如视频和/或图像处理。在一个实施例中，除了图形处理操作之外，执行单元另外包括可编程以执行并行通用计算操作的通用逻辑。通用逻辑可并行地或结合图1的（一个或多个）处理器核107或如图2中的核202A-202N内的通用逻辑来执行处理操作。

[0056] 由在图形核阵列414上执行的线程生成的输出数据可在统一的返回缓冲器（URB）418中将数据输出到存储器。URB 418可以存储多个线程的数据。在一些实施例中，URB 418可用于在图形核阵列414上执行的不同线程之间发送数据。在一些实施例中，URB 418可另外用于在图形核阵列上的线程与共享功能逻辑420内的固定功能逻辑之间同步。

[0057] 在一些实施例中，图形核阵列414是可缩放的，使得阵列包括可变数量的图形核，每个图形核基于GPE 410的目标功率和性能级别具有可变数量的执行单元。在一个实施例中，执行资源是动态可缩放的，从而可根据需要启用或禁用执行资源。

[0058] 图形核阵列414与共享功能逻辑420耦合，共享功能逻辑420包括在图形核阵列中的图形核之间共享的多个资源。共享功能逻辑420内的共享功能是向图形核阵列414提供专用补充功能性的硬件逻辑单元。在各种实施例中，共享功能逻辑420包括但不限于采样器421、数学422和线程间通信（ITC）423逻辑。另外，一些实施例在共享功能逻辑420内实现一个或多个高速缓存425。实现共享功能，其中对给定专用功能的需求不足以包括在图形核阵列414内。相反，专用功能的单个实例化在共享功能逻辑420中作为独立实体而实现，并且在图形核阵列414内的执行资源之间被共享。在图形核阵列414之间共享并且包括在图形核阵列414内的精确功能集合在实施例之间变化。

[0059] 图5是图形处理器500的另一实施例的框图。图5中具有与本文任何其它图的元件相同的参考数字（或名称）的元件可以以与本文别处描述的方式类似的任何方式来操作或运作，但并不限于此。

[0060] 在一些实施例中，图形处理器500包括环互连502、流水线前端504、媒体引擎537和图形核580A-580N。在一些实施例中，环互连502将图形处理器耦合至其它处理单元，包括其它图形处理器或者一个或多个通用处理器核。在一些实施例中，图形处理器是集成在多核处理系统内的许多处理器之一。

[0061] 在一些实施例中，图形处理器500经由环互连502接收多批命令。由流水线前端504中的命令流传送器503解译进入的命令。在一些实施例中，图形处理器500包括用于经由图形核580A-580N来执行3D几何处理和媒体处理的可缩放执行逻辑。针对3D几何处理命令，命令流传送器503将命令供应给几何流水线536。针对至少一些媒体处理命令，命令流传送器503将命令供应给视频前端534，所述视频前端与媒体引擎537耦合。在一些实施例中，媒体引擎537包括用于视频和图像后处理的视频质量引擎（VQE）530以及用于提供硬件加速的媒体数据编码和解码的多格式编码/解码（MFX）533引擎。在一些实施例中，几何流水线536和媒体引擎537各自生成执行线程，所述执行线程用于由至少一个图形核580A提供的线程执行资源。

[0062] 在一些实施例中，图形处理器500包括以模块化核580A-580N（有时称为核切片）为特征的可缩放线程执行资源，每个模块化核具有多个子核550A-550N、560A-560N（有时称为核子切片）。在一些实施例中，图形处理器500可以具有任意数量的图形核580A至580N。在一些实施例中，图形处理器500包括图形核580A，所述图形核至少具有第一子核550A和第二子核560A。在其它实施例中，图形处理器是具有单个子核（例如，550A）的低功率处理器。在一些实施例中，图形处理器500包括多个图形核580A-580N，每个图形核包括第一子核550A-550N的集合和第二子核560A-560N的集合。所述第一子核550A-550N的集合中的每个子核至少包括执行单元552A-552N和媒体/纹理采样器554A-554N的第一集合。所述第二子核560A-
560N的集合中的每个子核至少包括第二组执行单元562A-562N和采样器564A-564N。在一些实施例中，每个子核550A-550N、560A-560N共享共享资源570A-570N的集合。在一些实施例中，这些共享资源包括共享高速缓存存储器和像素操作逻辑。其它共享资源也可包括在图形处理器的各种实施例中。

[0063] 执行单元图6示出了线程执行逻辑600，包括在GPE的一些实施例中所采用的处理元件的阵列。图
6中具有与本文任何其它图的元件相同的参考数字（或名称）的那些元件可以以与本文别处描述的方式类似的任何方式来操作或运作，但并不限于此。

[0064] 在一些实施例中，线程执行逻辑600包括着色器处理器602、线程分派器604、指令高速缓存606、可缩放执行单元阵列（包括多个执行单元608A-608N）、采样器610、数据高速缓存612和数据端口614。在一个实施例中，可缩放执行单元阵列可通过基于工作负载的计算要求启用或禁用一个或多个执行单元（例如，执行单元608A、608B、608C、608D，至608N-1和608N中的任何一个）来动态地缩放。在一个实施例中，这些所包括的组件经由互连结构而互连，所述互连结构链接到这些组件中每个。在一些实施例中，通过指令高速缓存606、数据端口614、采样器610和执行单元608A-608N中的一个或多个，线程执行逻辑600包括到存储器（诸如，系统存储器或高速缓存存储器）的一个或多个连接。在一些实施例中，每个执行单元（例如，608A）独立可编程通用计算单元，其能够执行多个同时的硬件线程，与此同时针对每个线程来并行处理多个数据元素。在各种实施例中，执行的阵列单元608A-608N是可缩放的以包括任何数量的单独执行单元。

[0065] 在一些实施例中，执行单元608A-608N主要用于执行着色器程序。着色器处理器602可以处理各种着色器程序并且经由线程分派器604分派与着色器程序相关联的执行线程。在一个实施例中，线程分派器包括用于仲裁来自图形和媒体流水线的线程发起请求并且在执行单元608A-608N中的一个或多个执行单元上实例化所请求的线程的逻辑。例如，几何流水线（例如，图5的536）可以将顶点、曲面细分或几何着色器分派至线程执行逻辑600（图6）以进行处理。在一些实施例中，线程分派器604还可以处理来自执行着色器程序的运行时间线程生成请求。

[0066] 在一些实施例中，执行单元608A-608N支持包括对许多标准3D图形着色器指令的原生支持的指令集，使得以最小的转化执行来自图形库（例如，Direct 3D和OpenGL）的着色器程序。执行单元支持顶点和几何处理（例如，顶点程序、几何程序、顶点着色器）、像素处理（例如，像素着色器、片段着色器）和通用处理（例如，计算和媒体着色器）。每个执行单元608A-608N能够执行多发出（multi-issue）单指令多数据（SIMD），并且多线程操作在面对较高时延的存储器访问时能实现有效率的执行环境。每个执行单元内的每个硬件线程具有专用的高带宽寄存器堆和相关联的独立线程状态。对于能够进行整数、单精度和双精度浮点运算、SIMD分支能力、逻辑运算、超越运算和其它混杂运算的流水线而每个时钟执行多发出。在等待来自存储器或共享功能之一的数据时，执行单元608A-608N内的依赖性（dependency）逻辑促使等待线程睡眠，直到所请求的数据已经返回为止。在等待线程正在睡眠时，硬件资源可贡献于处理其它线程。例如，在与顶点着色器操作相关联的延迟期间，执行单元可以执行像素着色器、片段着色器或包括不同的顶点着色器的其它类型的着色器程序的操作。

[0067] 执行单元608A-608N中的每个执行单元对数据元素的阵列进行操作。数据元素的数量是“执行大小”或用于指令的通道的数量。执行通道是用于指令内的流控制、数据元素访问和掩蔽的执行的逻辑单元。通道的数量可以与针对特定图形处理器的物理算术逻辑单元（ALU）或浮点单元（FPU）的数量无关。在一些实施例中，执行单元608A-608N支持整数和浮点数据类型。

[0068] 执行单元指令集包括SIMD指令。可以将各种数据元素作为紧缩数据类型存储在寄存器中，并且执行单元将基于元素的数据大小来处理各种元素。例如，当在256位宽的向量上进行操作时，所述256位的向量存储在寄存器中，并且所述执行单元作为四个单独64位紧缩数据元素（四倍字长（QW）大小的数据元素）、八个单独32位紧缩数据元素（双倍字长（DW）大小的数据元素）、十六个单独16位紧缩数据元素（字长（W）大小的数据元素）、或三十二个单独8位数据元素（字节（B）大小的数据元素）在所述向量上进行操作。然而，不同的向量宽度和寄存器大小是可能的。

[0069] 一个或多个内部指令高速缓存（例如，606）被包括在线程执行逻辑600中，以高速缓存用于执行单元的线程指令。在一些实施例中，一个或多个数据高速缓存（例如，612）被包括成用于高速缓存在线程执行期间的线程数据。在一些实施例中，采样器610被包括成用于为3D操作提供纹理采样并且为媒体操作提供媒体采样。在一些实施例中，采样器610包括专门的纹理或媒体采样功能性，以在向执行单元提供采样数据之前在采样过程期间处理纹理或媒体数据。

[0070] 在执行期间，图形流水线和媒体流水线经由线程生成和分派逻辑将线程发起请求发送给线程执行逻辑600。一旦几何对象的群组已被处理并被光栅化到像素数据中，调用着色器处理器602内的像素处理器逻辑（例如像素着色器逻辑、片段着色器逻辑等）以进一步计算输出信息并促使结果被写到输出表面（例如，颜色缓冲器、深度缓冲器、模板缓冲器等）。在一些实施例中，像素着色器或片段着色器计算各种顶点属性的值，所述各顶点属性跨栅格化对象被内插。在一些实施例中，着色器处理器602内的像素处理器逻辑然后执行应用编程接口（API）供应的像素或片段着色器程序。为了执行所述着色器程序，着色器处理器602经由线程分派器604将线程分派给执行单元（例如，608A）。在一些实施例中，像素着色器
602使用采样器610中的纹理采样逻辑来访问存储器中所存储的纹理映射中的纹理数据。对纹理数据和输入几何数据进行的算术运算计算针对每个几何片段的像素颜色数据，或按照进一步处理丢弃一个或多个像素。

[0071] 在一些实施例中，数据端口614提供用于使线程执行逻辑600将处理的数据输出到存储器以便在图形处理器输出流水线上处理的存储器访问机制。在一些实施例中，数据端口614包括或耦合至一个或多个高速缓存存储器（例如，数据高速缓存612）从而经由数据端口高速缓存用于存储器访问的数据。

[0072] 图7是根据一些实施例图示图形处理器指令格式700的框图。在一个或多个实施例中，图形处理器执行单元支持具有采用多个格式的指令的指令集。实线框示出通常包括在执行单元指令中的分量，而虚线包括可选的或仅包括在指令的子集中的分量。在一些实施例中，所描述和示出的指令格式700是宏指令，在于它们是供应至执行单元的指令，这与从指令解码得出的微操作相反（一旦所述指令被处理）。

[0073] 在一些实施例中，图形处理器执行单元原生支持采用128位指令格式710的指令。64位紧凑指令格式730对于基于所选的指令、指令选项和操作数的数量的一些指令是可用的。原生128位指令格式710提供对所有指令选项的访问，而一些选项和操作被限制于64位指令格式730中。以64位指令格式730可用的原生指令根据实施例而变化。在一些实施例中，使用索引字段713中的索引值的集合将指令部分地紧凑。执行单元硬件基于这些索引值引用紧凑表的集合，并且使用紧凑表输出来以128位指令格式710重构原生指令。

[0074] 对每个格式，指令操作码712定义执行单元要执行的操作。执行单元跨每个操作数的多个数据元素并行执行每个指令。例如，响应于加法指令，执行单元跨表示纹理元素或图片元素的每个颜色通道来执行同时加法运算。默认情况下，执行单元跨操作数的所有数据通道执行每个指令。在一些实施例中，指令控制字段714使能够对某些执行选项（诸如通道选择（例如，预测）以及数据通道排序（例如，搅和）进行控制。针对128位指令格式710中的指令，执行大小字段716限制将被并行执行的数据通道的数量。在一些实施例中，执行大小字段716对于在64位紧凑指令格式730中的使用是不可用的。

[0075] 一些执行单元指令具有多达三个操作数，包括两个源操作数src0 720、src1 722和一个目的地718。在一些实施例中，执行单元支持双目的地指令，其中，这些目的地之一是隐式的。数据操纵指令可以具有第三源操作数（例如，SRC2 724），其中，指令操作码712确定源操作数的数量。指令的最后一个源操作数可以是通过所述指令传递的立即数（例如，硬编码）值。

[0076] 在一些实施例中，128位指令格式710包括访问/寻址模式字段726，所述访问/寻址模式信息指定（例如）使用直接寄存器寻址模式还是间接寄存器寻址模式。当使用直接寄存器寻址模式时，直接由指令中的位来提供一个或多个操作数的寄存器地址。

[0077] 在一些实施例中，128位指令格式710包括访问/寻址模式字段726，所述访问/寻址模式字段指定针对所述指令的寻址模式和/或访问模式。在一个实施例中，访问模式用于定义针对所述指令的数据访问对齐。一些实施例支持包括16字节对齐的访问模式和1字节对齐的访问模式的访问模式，其中，访问模式的字节对齐确定指令操作数的访问对齐。例如，当处于第一模式时，指令可针对源操作数和目的地操作数使用字节对齐的寻址，并且当处于第二模式时，指令可针对所有的源操作数和目的地操作数使用16字节对齐的寻址。

[0078] 在一个实施例中，访问/寻址模式字段726的寻址模式部分确定指令将使用直接寻址还是间接寻址。当使用直接寄存器寻址模式时，指令中的位直接提供一个或多个操作数的寄存器地址。当使用间接寄存器寻址模式时，可基于指令中的地址立即数字段和地址寄存器值来计算一个或多个操作数的寄存器地址。

[0079] 在一些实施例中，基于操作码712位字段对指令分组，以简化操作码解码740。针对8位操作码，位4、5和6允许执行单元确定操作码的类型。所示出的精确操作码分组仅仅是示例。在一些实施例中，移动和逻辑操作码群组742包括数据移动和逻辑指令（例如，移动（mov）、比较（cmp））。在一些实施例中，移动和逻辑群组742共享五个最高有效位（MSB），其中，移动（mov）指令采用0000xxxxb的形式，以及逻辑指令采用0001xxxxb的形式。流控制指令群组744（例如，调用、跳（jmp））包括采用0010xxxxb形式（例如，0x20）的指令。混杂指令群组746包括指令的混合体，其包括采用0011xxxxb形式（例如，0x30）的同步指令（例如，等待、发送）。并行数学指令群组748包括采用0100xxxxb形式（例如，0x40）的逐个分量的算术指令（例如，加、乘（mul））。并行数学群组748跨数据通道并行执行算术运算。向量数学群组750包括采用0101xxxxb形式（例如，0x50）的算术指令（例如，dp4）。向量数学组执行诸如对向量操作数的点积（dot production）计算的算术。

[0080] 图形流水线图8是图形处理器800的另一实施例的框图。图8中具有与本文任何其它图的元件相同的参考数字（或名称）的元件可以以与本文别处描述的方式类似的任何方式来操作或运作，但并不限于此。

[0081] 在一些实施例中，图形处理器800包括图形流水线820、媒体流水线830、显示器引擎840、线程执行逻辑850和渲染输出流水线870。在一些实施例中，图形处理器800是包括一个或多个通用处理核的多核处理系统内的图形处理器。图形处理器由到一个或多个控制寄存器（未示出）的寄存器写入控制或者经由环互连2302经由发出至图形处理器800的命令控制。在一些实施例中，环互连802将图形处理器800耦合至其它处理组件，诸如其它图形处理器或通用处理器。来自环互连802的命令由命令流传送器803解译，所述命令流传送器将指令供应给图形流水线820或媒体流水线830的单独组件。

[0082] 在一些实施例中，命令流传送器803指导顶点提取器805的操作，所述顶点提取器从存储器读取顶点数据并执行由命令流传送器803提供的顶点处理命令。在一些实施例中，顶点提取器805将顶点数据提供给顶点着色器807，所述顶点着色器向每个顶点执行坐标空间变换和光照操作。在一些实施例中，顶点提取器805和顶点着色器807通过经由线程分派器831将执行线程分派给执行单元852A-852B来执行顶点处理指令。

[0083] 在一些实施例中，执行单元852A-852B是具有用于执行图形和媒体操作的指令集的向量处理器的阵列。在一些实施例中，执行单元852A-852B具有特定用于每个阵列或在阵列之间共享的附连的L1高速缓存851。所述高速缓存可以被配置成数据高速缓存、指令高速缓存或单个高速缓存，其被划分以将数据和指令包含在不同的分区中。

[0084] 在一些实施例中，图形流水线820包括用于执行对3D对象的硬件加速曲面细分的曲面细分组件。在一些实施例中，可编程的外壳着色器811配置曲面细分操作。可编程的域着色器817提供对曲面细分输出的后端评估。曲面细分器813在外壳着色器811的方向上进行操作并且包含专用逻辑，所述专用逻辑用于基于粗糙几何模型来生成详细的几何对象的集合，所述粗糙几何模型作为输入被提供至图形流水线820。在一些实施例中，如果未使用曲面细分，则可以对曲面细分组件（外壳着色器811、曲面细分器813、域着色器817）进行旁路。

[0085] 在一些实施例中，完整的几何对象可以由几何着色器819经由被分派给执行单元852A-852B的一个或多个线程来处理，或可以直接继续进行至剪辑器829。在一些实施例中，几何着色器在整个几何对象（而非如图形流水线的先前阶段中的顶点的补片或者顶点）上进行操作。如果曲面细分被禁用，那么几何着色器819从顶点着色器807接收输入。在一些实施例中，如果曲面细分单元被禁用，则几何着色器819可由几何着色器程序编程以执行几何曲面细分。

[0086] 在光栅化之前，剪辑器829处理顶点数据。剪辑器829可以是固定功能的剪辑器或者具有剪辑和几何着色器功能的可编程剪辑器。在一些实施例中，渲染输出流水线870中的光栅化器以及深度测试组件873分派像素着色器以将几何对象转换成它们的按像素表示。在一些实施例中，像素着色器逻辑包括在线程执行逻辑850中。在一些实施例中，应用可以对光栅化器以及深度测试组件873进行旁路，并且经由流传送出单元（streaming out unit）823来访问未光栅化的顶点数据。

[0087] 图形处理器800具有互连总线、互连结构或某种其它互连机制，其允许在处理器主要组件当中传递数据和消息。在一些实施例中，执行单元852A-852B和（一个或多个）关联高速缓存851、纹理和媒体采样器854以及纹理/采样器高速缓存858经由数据端口856互连，以执行存储器访问并与处理器的渲染输出流水线组件通信。在一些实施例中，采样器854、高速缓存851、858以及执行单元852A-852B各自具有单独的存储器访问路径。

[0088] 在一些实施例中，渲染输出流水线870包含光栅化器以及深度测试组件873，所述光栅化器将基于顶点的对象转换成关联的基于像素的表示。在一些实施例中，光栅化器逻辑包括用于执行固定功能三角形和线光栅化的窗口器（windower）/掩蔽器单元。相关联的渲染高速缓存878和深度高速缓存879在一些实施例中也是可用的。像素操作组件877对数据执行基于像素的操作，虽然在一些示例中，与2D操作相关联的像素操作（例如，位块图像采用混合来传输）由2D引擎841执行，或在显示时间由使用重叠显示平面的显示控制器843代替。在一些实施例中，共享的L3高速缓存875可用于所有的图形组件，从而允许在无需使用主系统存储器的情况下共享数据。

[0089] 在一些实施例中，图形处理器媒体流水线830包括媒体引擎837和视频前端834。在一些实施例中，视频前端834从命令流传送器803接收流水线命令。在一些实施例中，媒体流水线830包括单独的命令流传送器。在一些实施例中，视频前端834在将所述命令发送给媒体引擎837之前处理媒体命令。在一些实施例中，媒体引擎837包括用于生成线程以用于经由线程分派器831分派给线程执行逻辑850的线程生成功能性。

[0090] 在一些实施例中，图形处理器800包括显示器引擎840。在一些实施例中，显示器引擎840在处理器800外部并且经由环互连802、或某个其它互连总线或结构与图形处理器耦合。在一些实施例中，显示器引擎840包括2D引擎841和显示控制器843。在一些实施例中，显示器引擎840包含能够独立于3D流水线而操作的专用逻辑。在一些实施例中，显示控制器843与显示装置（未示出）耦合，所述显示装置可以是系统集成式显示装置（如在膝上型计算机中），或可以是经由显示装置连接器所附连的外部显示装置。

[0091] 在一些实施例中，图形流水线820和媒体流水线830可配置成基于多个图形和媒体编程接口来执行操作，并且不特定于任何一个应用编程接口（API）。在一些实施例中，用于图形处理器的驱动器软件将特定于具体图形或媒体库的API调用转化成可由图形处理器处理的命令。在一些实施例中，为所有来自科纳斯集团（Khronos Group）的开放图形库（OpenGL）、开放计算语言（OpenCL）、和/或Vulkan图形和计算API。在一些实施例中，还可为来自微软公司的Direct 3D库提供支持。在一些实施例中，可支持这些库的组合。还可以为开源计算机视觉库（OpenCV）提供支持。如果可以进行从未来API的流水线至图形处理器的流水线的映射，则还将支持具有可兼容的3D流水线的未来API。

[0092] 图形流水线编程图9A是根据一些实施例的图形处理器命令格式900的框图。图9B是根据实施例的图形处理器命令序列910的框图。图9A中的实线框示出一般包括在图形命令中的分量，而虚线包括可选的或仅包括在图形命令的子集中的分量。图9A的示例性图形处理器命令格式900包括用于标识命令的目标客户端902、命令操作代码（操作码）904和用于命令的相关数据906的数据字段。在一些命令中还包括子操作码905和命令大小908。

[0093] 在一些实施例中，客户端902指定处理命令数据的图形装置的客户端单元。在一些实施例中，图形处理器命令解析器检查每个命令的客户端字段以调整对命令的进一步处理并将命令数据路由至合适的客户端单元。在一些实施例中，图形处理器客户端单元包括存储器接口单元、渲染单元、2D单元、3D单元、和媒体单元。每个客户端单元具有处理命令的对应的处理流水线。一旦命令被客户端单元接收，客户端单元读取操作码904以及（如果存在）子操作码905以确定要用于执行的操作。客户端单元使用数据字段906中的信息来执行命令。针对一些命令，期待显式命令大小908以指定命令的大小。在一些实施例中，命令解析器基于命令操作码自动地确定命令中的至少一些命令的大小。在一些实施例中，经由双倍字长的倍数对命令进行对齐。

[0094] 图9B中的流程图示出了示例性图形处理器命令序列910。在一些实施例中，以图形处理器的实施例为特征的数据处理系统的软件或固件使用所示出的命令序列的版本来设立、执行并终止图形操作的集合。仅出于示例目的示出并描述了样本命令序列，因为实施例并不限于这些特定命令或者此命令序列。此外，所述命令可以作为一批命令以命令序列被发出，从而使得图形处理器将以至少部分同时的方式处理命令序列。

[0095] 在一些实施例中，图形处理器命令序列910可以以流水线转储清除命令912开始，以促使任何活跃的图形流水线完成对于所述流水线的当前未决命令。在一些实施例中，3D流水线922和媒体流水线924不同时进行操作。执行流水线转储清除以促使活跃的图形流水线完成任何未决命令。响应于流水线转储清除，用于图形处理器的命令解析器将暂停命令处理，直到活跃的绘图引擎完成未决操作且相关的读取高速缓存无效。可选地，渲染高速缓存中被标志为‘脏’的任何数据可以被转储清除到存储器。在一些实施例中，可以针对流水线同步或在将图形处理器放置处于低功率状态之前使用流水线转储清除命令912。

[0096] 在一些实施例中，当命令序列要求图形处理器在流水线之间作显式切换时，使用流水线选择命令913。在一些实施例中，在发出流水线命令之前在执行上下文内仅要求一次流水线选择命令913，除非所述上下文要发出针对两条流水线的命令。在一些实施例中，在经由流水线选择命令913的流水线切换之前立即要求流水线转储清除命令912。

[0097] 在一些实施例中，流水线控制命令914配置用于操作的图形流水线，并用于对3D流水线922和媒体流水线924编程。在一些实施例中，流水线控制命令914配置针对活跃流水线的流水线状态。在一个实施例中，流水线控制命令914被用于流水线同步，以及用于在处理一批命令之前将数据从活跃的流水线内的一个或多个高速缓存存储器中清除。

[0098] 在一些实施例中，使用返回缓冲器状态916的命令来配置用于使相应的流水线写入数据的返回缓冲器的集合。一些流水线操作要求分配、选择或配置一个或多个返回缓冲器，这些操作在处理期间将中间数据写入到所述返回缓冲器中。在一些实施例中，图形处理器还使用一个或多个返回缓冲器以存储输出数据并且执行跨线程通信。在一些实施例中，配置返回缓冲器状态916包括选择返回缓冲器的大小和数量以针对流水线操作的集合来使用。

[0099] 命令序列中的剩余命令基于用于操作的活跃流水线而不同。基于流水线确定920，针对3D流水线922或媒体流水线924来定制命令序列，所述3D流水线以3D流水线状态930开始，所述媒体流水线始于媒体流水线状态940处。

[0100] 用于配置3D流水线状态930的命令包括用于以下各项的3D状态设置命令：顶点缓冲器状态、顶点元素状态、恒定颜色状态、深度缓冲器状态和将在处理3D图元命令之前配置的其它状态变量。至少部分地基于使用中的具体3D API来确定这些命令的值。在一些实施例中，3D流水线状态930命令还能够选择性地禁用或旁路某些流水线元件（如果将不使用那些元件）。

[0101] 在一些实施例中，3D图元932命令用于提交由3D流水线处理的3D图元。经由3D图元932传递到图形处理器的命令和关联的参数被转发到图形流水线中的顶点提取功能。顶点提取功能使用3D图元932命令数据来产生顶点数据结构。顶点数据结构被存储在一个或多个返回缓冲器中。在一些实施例中，3D图元932命令用于经由顶点着色器对3D图元执行顶点操作。为了处理顶点着色器，3D流水线922将着色器执行线程分派给图形处理器执行单元。

[0102] 在一些实施例中，经由执行922命令或事件来触发3D流水线922。在一些实施例中，寄存器写入触发命令执行。在一些实施例中，经由命令序列中的‘走（go）’或‘踢（kick）’命令来触发执行。在一个实施例中，使用流水线同步命令来触发命令执行，以通过图形流水线来转储清除命令序列。3D流水线将执行针对3D图元的几何处理。一旦操作完成，对所得几何对象光栅化，并且像素引擎给所得像素上色。针对那些操作还可包括用于控制像素着色和像素后端操作的附加命令。

[0103] 在一些实施例中，当执行媒体操作时，图形处理器命令序列910遵循媒体流水线924路径。一般地，针对媒体流水线924编程的方式和特定使用取决于要执行的媒体或计算操作。在媒体解码期间，可将特定的媒体解码操作卸载到媒体流水线。在一些实施例中，还可以对媒体流水线进行旁路并且可以整体地或部分地执行媒体解码（使用由一个或多个通用处理核提供的资源）。在一个实施例中，媒体流水线还包括用于通用图形处理器单元（GPGPU）操作的元件，其中，图形处理器用于使用计算着色器程序来执行SIMD向量操作，所述计算着色器程序不显式地与图形图元的渲染相关。

[0104] 在一些实施例中，以与3D流水线922类似的方式配置媒体流水线924。在媒体对象命令942之前将用于配置媒体流水线状态命令940的命令的集合分派至或放置到命令队列中。在一些实施例中，用于媒体流水线状态命令940的命令包括用于配置媒体流水线元件的数据，所述媒体流水线元件将用于处理媒体对象。这包括用于配置媒体流水线内的视频解码和视频编码逻辑的数据（诸如编码或解码格式）。在一些实施例中，用于媒体流水线状态命令940的命令还支持将一个或多个指针用于包含一批状态设置的“间接”状态元件。

[0105] 在一些实施例中，媒体对象命令942将指针供应给用于由媒体流水线处理的媒体对象。媒体对象包括包含要处理的视频数据的存储器缓冲器。在一些实施例中，在发出媒体对象命令942之前，所有的媒体流水线状态必须是有效的。一旦流水线状态被配置并且媒体对象命令942被排队，则经由执行命令944或等效的执行事件（例如，寄存器写入）来触发媒体流水线924。然后可以通过由3D流水线922或媒体流水线924提供的操作对来自媒体流水线924的输出进行后处理。在一些实施例中，以与媒体操作类似的方式来配置和执行GPGPU操作。

[0106] 图形软件架构图10示出根据一些实施例的用于数据处理系统1000的示例性图形软件架构。在一些实施例中，软件架构包括3D图形应用1010、操作系统1020、以及至少一个处理器1030。在一些实施例中，处理器1030包括图形处理器1032以及一个或多个通用处理器核1034。图形应用
1010和操作系统1020各自在数据处理系统的系统存储器1050中执行。

[0107] 在一些实施例中，3D图形应用1010包含一个或多个着色器程序，所述着色器程序包括着色器指令1012。着色器语言指令可以采用高阶着色器语言，诸如高阶着色器语言（HLSL）或OpenGL着色器语言（GLSL）。所述应用还包括采用适用于由通用处理器核1034执行的机器语言的可执行指令1014。所述应用还包括由顶点数据定义的图形对象1016。

[0108] 在一些实施例中，操作系统1020是来自微软公司的Microsoft® Windows®操作系统、专有类UNIX操作系统或开源类UNIX操作系统（使用Linux 内核的变形）。操作系统1020可以支持图形API 1022，诸如Direct3D API、OpenGL API或Vulkan API。当Direct3D API在使用时，操作系统1020使用前端着色器编译器1024以将采用HLSL的任何着色器指令1012编译成较低阶着色器语言。所述编译可以是即时制（JIT）编译，或者所述应用可执行着色器预编译。在一些实施例中，在对3D图形应用1010进行编译期间，将高阶着色器编译成低阶着色器。在一些实施例中，着色器指令1012以中间形式被提供，诸如由Vulkan API使用的标准可移植中间件表示（SPIR）的版本。

[0109] 在一些实施例中，用户模式图形驱动器1026包含后端着色器编译器1027，所述后端着色器编译器用于将着色器指令1012转换成硬件特定表示。当OpenGL API在使用中时，采用GLSL高阶语言的着色器指令1012被传递到用户模式图形驱动器1026以用于编译。在一些实施例中，用户模式图形驱动器1026使用操作系统内核模式功能1028来与内核模式图形驱动器1029进行通信。在一些实施例中，内核模式图形驱动器1029与图形处理器1032进行通信以分派命令和指令。

[0110] IP核实现至少一个实施例的一个或多个方面可由存储在机器可读介质上的代表性代码来实现，所述机器可读介质表示和/或定义诸如处理器的集成电路内的逻辑。例如，机器可读介质可以包括表示处理器内的各种逻辑的指令。当由机器读取时，所述指令可以促使所述机器制造用于执行本文描述的技术的逻辑。这类表示（称为“IP核”）是用于集成电路的逻辑的可重复使用单元，其可以作为对集成电路的结构进行描述的硬件模型而存储在有形、机器可读介质上。可以将硬件模型供应至各种消费者或制造设施，其在制造集成电路的制造机器上加载硬件模型。可以制造集成电路，从而使得所述电路执行与本文描述的任何实施例相关联地描述的操作。

[0111] 图11是根据实施例的示出IP核开发系统1100的框图，所述IP核开发系统可用于制造集成电路以执行操作。IP核开发系统1100可以用于生成可合并到更大的设计中或用于构建整个集成电路（例如，SOC集成电路）的模块化、可重复使用设计。设计设施1130可采用高阶编程语言（例如，C/C++）生成对IP核设计的软件仿真1110。使用仿真模型1112软件仿真1110可用于设计、测试并验证IP核的行为。仿真模型1112可包括功能、行为和/或定时仿真。
然后可按照仿真模型1112来创建或合成寄存器传输级（RTL）1115设计。RTL设计1115是对硬件寄存器之间的数字信号的流进行建模的集成电路（包括使用建模的数字信号来执行的相关联逻辑）的行为的抽取（abstraction）。除了RTL设计1115之外，还可以创建、设计或合成在逻辑级别或晶体管级别的较低级别设计。因此，初始设计和仿真的具体细节可以变化。

[0112] 可由设计设施进一步将RTL设计1115或等效物合成到硬件模型1120中，所述硬件模型可以采用硬件描述语言（HDL）或物理设计数据的某一其它表示。可以进一步仿真或测试HDL以验证IP核设计。可以使用非易失性存储器1140（例如，硬盘、闪速存储器或任何非易失性存储介质）来存储IP核设计以便输送到第3方制造设施1165。备选地，可以通过有线连接1150或无线连接1160来传送（例如，经由互联网）IP核设计。制造设施1165然后可以制造至少部分地基于IP核设计的集成电路。所制造的集成电路可被配置成执行根据本文描述的至少一个实施例的操作。

[0113] 示例性芯片上系统集成电路图12-14示出了根据本文描述的各种实施例的可以使用一个或多个IP核制造的示例性集成电路和相关联的图形处理器。除了所示的内容之外，还可以包括其它逻辑和电路，这些逻辑和电路包括附加的图形处理器/核、外设接口控制器或通用处理器核。

[0114] 图12是示出根据实施例的可以使用一个或多个IP核制造的示例性芯片上系统集成电路1200的框图。示例性集成电路1200包括一个或多个应用处理器1205（例如，处理器）、至少一个图形处理器1210并且可以另外包括图像处理器1215和/或视频处理器1220，其中任何一个可以是来自相同或多个不同设计设施的模块化的IP核。集成电路1200包括外设或总线逻辑，其包括USB控制器1225、UART控制器1230、SPI/SDIO控制器1235和I2S/I2C控制器1240。另外，集成电路可以包括耦合到一个或多个高清晰度多媒体接口（HDMI）控制器1250和移动工业处理器接口（MIPI）显示接口1255的显示装置1245。存储设备可以由包括闪速存储器和闪速存储器控制器的闪速存储器子系统1260来提供。经由存储器控制器1265可以提供存储器接口以便访问SDRAM或SRAM存储器装置。一些集成电路另外包括嵌入式安全引擎
1270。

[0115] 图13是示出根据实施例的可以使用一个或多个IP核制造的芯片上系统集成电路的示例性图形处理器1310的框图。图形处理器1310可以是图12的图形处理器1210的变体。图形处理器1310包括顶点处理器1305和一个或多个片段处理器1315A-1315N（例如，1315A、
1315B、1315C、1315D，一直到1315N-1和1315N）。图形处理器1310可以经由单独的逻辑执行不同的着色器程序，使得顶点处理器1305被优化以执行顶点着色器程序的操作，而一个或多个片段处理器1315A-1315N针对片段或像素着色器程序执行片段（例如，像素）着色操作。
顶点处理器1305执行3D图形流水线的顶点处理阶段并且生成图元和顶点数据。（一个或多个）片段处理器1315A-1315N使用由顶点处理器1305生成的图元和顶点数据来产生显示在显示装置上的帧缓冲器。在一个实施例中，（一个或多个）片段处理器1315A-1315N被优化以执行如OpenGL API中提供的片段着色器程序，其可用于执行与Direct 3D API中提供的像素着色器程序类似的操作。

[0116] 图形处理器1310另外包括一个或多个存储器管理单元（MMU）1320A-1320B、（一个或多个）高速缓存1325A-1325B和（一个或多个）电路互连1330A-1330B。一个或多个MMU 1320A-1320B为图形处理器1310提供虚拟到物理地址映射，包括为顶点处理器1305和/或（一个或多个）片段处理器1315A-1315N提供虚拟到物理地址映射，其可以参考存储在存储器中的顶点或图像/纹理数据（除了存储在一个或多个高速缓存1325A-1325B中的顶点或图像/纹理数据之外）。在一个实施例中，一个或多个MMU 1320A-1320B可以与系统内的其它MMU同步，所述系统包括与图12的一个或多个应用处理器1205、图像处理器1215和/或视频处理器1220相关联的一个或多个MMU，使得每个处理器1205-1220可以参与到共享或统一的虚拟存储器系统中。根据实施例，一个或多个电路互连1330A-1330B使图形处理器1310能够经由SoC的内部总线或经由直接连接与SoC内的其它IP核通过接口连接。

[0117] 图14是示出根据实施例的可以使用一个或多个IP核制造的芯片上系统集成电路的另外的示例性图形处理器1410的框图。图形处理器1410可以是图12的图形处理器1210的变体。图形处理器1410包括图13的集成电路1300的一个或多个MMU 1320A-1320B、（一个或多个）高速缓存1325A-1325B以及（一个或多个）电路互连1330A-1330B。

[0118] 图形处理器1410包括一个或多个着色器核1415A-1415N（例如，1415A、1415B、1415C、1415D、1415E、1415F，一直到1315N-1和1315N），所述一个或多个着色器核提供统一的着色器核架构，其中单个核或类型或核可以执行所有类型的可编程着色器代码，所述可编程着色器代码包括用于实现顶点着色器、片段着色器和/或计算着色器的着色器程序代码。着色器核存在的确切数量可以在实施例和实现之间改变。另外，图形处理器1410包括核间任务管理器1405，其充当线程分派器以将执行线程分派至一个或多个着色器核1415A-
1415N和分块（tiling）单元1418以加速用于基于图块的渲染的分块操作，其中针对场景的渲染操作被细分在图像空间中，例如以充分利用场景内的局部空间相干性或优化内部高速缓存的使用。

[0119] 示例性图形微架构在一些实施例中，图形处理单元（GPU）以通信方式耦合到主机/处理器核以加速图形操作、机器学习操作、图案分析操作和各种通用GPU（GPGPU）功能。GPU可以通过总线或另一互连（例如，诸如PCIe或NVLink的高速互连）以通信方式耦合到主机处理器/核。在其它实施例中，GPU可以集成在与核相同的封装或芯片上，并且通过内部处理器总线/互连（即，到封装或芯片的内部）以通信方式耦合到核。无论以怎样的方式连接GPU，处理器核都能以包含在工作描述符中的命令/指令的序列的形式将工作分配给GPU。然后GPU使用专用电路/逻辑以便有效率地处理这些命令/指令。

[0120] 在以下描述中，阐述了许多具体细节以便提供更透彻的理解。然而，对于本领域技术人员清楚的是，可以在没有这些具体细节中的一个或多个的情况下实践本文描述的实施例。在其它实例下，没有描述众所周知的特征以避免使本实施例的细节晦涩。

[0121] 系统概述图15是框图，其示出配置成实现本文描述的实施例的一个或多个方面的计算系统
1500。计算系统1500包括处理子系统1501，所述处理子系统1501具有一个或多个处理器
1502和系统存储器1504，所述一个或多个处理器1502与所述系统存储器1504经由可包括存储器中枢1505的互连路径来通信。存储器中枢1505可以是芯片集组件内的单独组件，或可以集成在所述一个或多个处理器1502内。存储器集线器1505经由通信链路1506与I/O子系统1511耦合。I/O子系统1511包括I/O中枢1507，所述I/O中枢1507可以使得计算系统1500能够从一个或多个输入装置1508接收输入。另外，I/O中枢1507可以使得显示控制器能够将输出提供给一个或多个显示装置1510A，所述显示控制器可被包括在所述一个或多个处理器
1502中。在一个实施例中，与I/O中枢1507耦合的所述一个或多个显示装置1510A可以包括局部、内部或嵌入式显示装置。

[0122] 在一个实施例中，处理子系统1501包括一个或多个并行处理器1512，所述并行处理器1512经由总线或其它通信链路1513耦合至存储器中枢1505。通信链路1513可以是任何数量的基于标准的通信链路技术或协议之一（诸如但不限于，PCI快速总线），或可以是供应方特定的通信接口或通信结构。在一个实施例中，所述一个或多个并行处理器1512形成计算上集中的并行或向量处理系统，所述系统包括大量处理核和/或处理集群（诸如，集成众核（MIC）处理器）。在一个实施例中，所述一个或多个并行处理器1512形成图形处理子系统，所述图形处理子系统可以将像素输出到经由I/O中枢1507耦合的所述一个或多个显示装置1510A之一。所述一个或多个并行处理器1512还可以包括显示控制器和显示器接口（未示出）以能够实现到一个或多个显示装置1510B的直接连接。

[0123] 在I/O子系统1511内，系统存储单元1514可以连接到I/O中枢1507以提供用于计算系统1500的存储机制。I/O 开关1516可以用于提供接口机制以能够实现I/O中枢1507与其它组件（诸如，可集成到平台中的网络适配器1518和/或无线网络适配器1519，以及可以经由一个或多个插入式装置1520添加的各种其它装置）之间的连接。网络适配器1518可以是以太网适配器或另一有线网络适配器。无线网络适配器1519可以包括以下项中的一项或多项：Wi-Fi、蓝牙、近场通信（NFC）、或包括一个或多个无线无线电装置（wireless radio）的其它网络装置。

[0124] 计算系统1500可以包括未明确示出的其它组件，包括USB或其它端口连接件、光学存储驱动器、视频捕获装置、和诸如此类，它们也可连接到I/O中枢1507。使图15中的各种组件互连的通信路径可使用任何合适的协议来实现，诸如基于PCI（外设组件互连）的协议（例如，PCI快速总线）或任何其它总线或点对点通信接口和/或协议（诸如，NV-Link高速互连、或本领域中已知的互连协议）。

[0125] 在一个实施例中，所述一个或多个并行处理器1512合并针对图形和视频处理进行优化的电路（包括例如，视频输出电路），并且构成图形处理单元（GPU）。在另一实施例中，所述一个或多个并行处理器1512合并针对通用处理进行优化的电路，同时保持本文更详细地描述的底层计算架构。在又一实施例中，计算系统1500的组件可与一个或多个其它系统元件一起集成在单个集成电路上。例如，所述一个或多个并行处理器1512、存储器中枢1505、处理器1502和I/O中枢1507可以集成到芯片上系统（SoC）集成电路中。可替代地，计算系统1500的组件可以集成到单个封装中以形成封装中系统（SIP）配置。在一个实施例中，计算系统1500的组件的至少部分可以集成到多芯片模块（MCM）中，所述MCM可以与其它多芯片模块一起互连到模块化计算系统中。

[0126] 将认识到的是，本文示出的计算系统1500是说明性的，并且变化和修改是有可能的。可如期望地修改连接拓扑，包括桥接器的数量和布置、（一个或多个）处理器1502的数量和（一个或多个）并行处理器1512的数量。例如，在一些实施例中，系统存储器1504直接而非通过桥接器而被连接到（一个或多个）处理器1502，而其它装置经由存储器中枢1505与（一个或多个）处理器1502和系统存储器1504通信。在其它备选拓扑中，（一个或多个）并行处理器1512连接到I/O中枢1507或直接连接到所述一个或多个处理器1502之一，而非连接到存储器中枢1505。在其它实施例中，I/O中枢1507和存储器中枢1505可集成到单个芯片中。一些实施例可包括经由多个插口附连的处理器1502的两个或更多个集合，它们可以与（一个或多个）并行处理器1512的两个或更多个实例耦合。

[0127] 本文中示出的具体组件中的一些是可选的，并且可以不被包括在计算系统1500的所有实现中。例如，可支持任何数量的插入式卡或外设，或可消除一些组件。此外，一些架构可对于与图15中示出的那些组件类似的组件使用不同的术语。例如，在一些架构中，存储器中枢1505可称为北桥，而I/O中枢1507可称为南桥。

[0128] 图16A示出了根据实施例的并行处理器1600。并行处理器1600的各种组件可使用一个或多个集成电路装置（诸如可编程处理器、专用集成电路（ASIC）或现场可编程门阵列（FPGA））来实现。根据实施例，所示出的并行处理器1600是图15中所示的一个或多个并行处理器1512的变形。

[0129] 在一个实施例中，并行处理器1600包括并行处理单元1602。所述并行处理单元包括I/O单元1604，所述I/O单元1604能够实现与其它装置（包括并行处理单元1602的其它实例）的通信。I/O单元1604可直接连接到其它装置。在一个实施例中，I/O单元1604经由使用中枢或开关接口（诸如，存储器中枢1505）来与其它装置连接。存储器中枢1505与I/O单元1604之间的连接形成通信链路1513。在并行处理单元1602内，I/O单元1604与主机接口1606和存储器交叉开关（memory crossbar）1616连接，其中，主机接口1606接收针对执行处理操作的命令，并且存储器交叉开关1616接收针对执行存储器操作的命令。

[0130] 当主机接口1606经由I/O单元1604接收命令缓冲器时，主机接口1606可以将用于执行那些命令的工作操作导引至前端1608。在一个实施例中，前端1608与调度器1610耦合，该调度器1610配置成将命令或其它工作项分布至处理集群阵列1612。在一个实施例中，调度器1610确保在任务被分布至处理集群阵列1612的处理集群之前，处理集群阵列1612被适当地配置且处于有效状态。在一个实施例中，调度器1610经由在微控制器上执行的固件逻辑来实现。微控制器实现的调度器1610可配置成用于以粗糙粒度和精细粒度来执行复杂的调度和工作分布操作，从而能够实现在处理阵列1612上执行的线程的上下文切换和快速抢占（rapid preemption）。在一个实施例中，主机软件可以经由多个图形处理门铃（graphics processing doorbell）之一来检验工作负荷在处理阵列1612上调度。随后工作负荷可以由调度器微控制器内的调度器1610逻辑来跨处理阵列1612自动地分布。

[0131] 处理集群阵列1612可以包括多达“N”个处理集群（例如，集群1614A、集群1614B,到集群1614N）。处理集群阵列1612的每一个集群1614A-1614N都可以执行大数量的并发线程。调度器1610可以使用各种调度和/或工作分布算法来将工作分配给处理集群阵列1612的集群1614A-1614N，这可取决于针对每一种类型的程序或计算而产生的工作负荷而变化。调度可以由调度器1610动态地处置，或者可以在配置用于由处理集群阵列1612执行的程序逻辑的编译期间部分地由编译器逻辑进行辅助。在一个实施例中，可以将处理集群阵列1612的不同集群1614A-1614N分配用于处理不同类型的程序，或用于执行不同类型的计算。

[0132] 可以将处理集群阵列1612配置成执行各种类型的并行处理操作。在一个实施例中，将处理集群阵列1612配置成执行通用并行计算操作。例如，处理集群阵列1612可以包括用于执行处理任务的逻辑，所述处理任务包括过滤视频和/或音频数据、执行建模操作（包括物理操作）、以及执行数据变换。

[0133] 在一个实施例中，处理集群阵列1612配置成执行并行的图形处理操作。在其中并行处理器1600配置成执行图形处理操作的实施例中，处理集群阵列1612可以包括用于支持执行此类图形处理操作的附加逻辑，其包括但不限于用于执行纹理操作的纹理采样逻辑、以及曲面细分逻辑和其它顶点处理逻辑。另外，处理集群阵列1612可以配置成执行图形处理相关的着色器程序，诸如但不限于顶点着色器、曲面细分着色器、几何着色器和像素着色器。并行处理单元1602可以经由I/O单元1604来转移来自系统存储器的数据以便处理。在处理期间，可以将所转移的数据在处理期间存储到芯片上存储器（例如，并行处理器存储器1622），然后将其写回到系统存储器。

[0134] 在一个实施例中，当并行处理单元1602用于执行图形处理时，调度器1610可以配置成将处理工作负荷划分成近似相等大小的任务，以更好地使得能够将图形处理操作分布到处理集群阵列1612中的多个集群1614A-1614N。在一些实施例中，处理集群阵列1612的部分可以配置成执行不同类型的处理。例如，第一部分可配置成执行顶点着色和拓扑生成，第二部分可配置成执行曲面细分和几何着色，并且第三部分可配置成执行像素着色或其它屏幕空间操作，以产生用于显示的渲染图像。由集群1614A-1614N中的一个或多个所产生的中间数据可存储在缓冲器中以允许所述中间数据在集群1614A-1614N之间传送以用于进一步处理。

[0135] 在操作期间，处理集群阵列1612可以经由调度器1610来接收待执行的处理任务，所述调度器从前端1608接收定义处理任务的命令。针对图形处理操作，处理任务可以包括定义要如何处理数据（例如，要执行什么程序）的命令和状态参数以及待处理的数据（例如，表面（补丁（patch））数据、图元数据（primitive data）、顶点数据和/或像素数据）的索引。调度器1610可配置成提取与任务相对应的索引，或可从前端1608接收索引。前端1608可以配置成确保在发起由进入的命令缓冲器（例如，分批缓冲器、推动缓冲器等）所指定的工作负荷之前处理集群阵列1612配置成有效状态。

[0136] 并行处理单元1602的一个或多个实例中的每个都可以与并行处理器存储器1622耦合。并行处理器存储器1622可以经由存储器交叉开关1616来访问，存储器交叉开关1616可以从处理集群阵列1612以及I/O单元1604接收存储器请求。存储器交叉开关1616可以经由存储器接口1618访问并行处理器存储器1622。存储器接口1618可以包括多个分区单元（例如，分区单元1620A、分区单元1620B、直到分区单元1620N），其可以各自耦合至并行处理器存储器1622的部分（例如，存储器单元）。在一种实现中，将分区单元1620A-1620N的数量配置成等于存储器单元的数量，使得第一分区单元1620A具有对应的第一存储器单元1624A，第二分区单元1620B具有对应的存储器单元1624B，并且第N分区单元1620N具有对应的第N存储器单元1624N。在其它实施例中，分区单元1620A-1620N的数量可以不等于存储器装置的数量。

[0137] 在各种实施例中，存储器单元1624A-1624N可以包括各种类型的存储器装置，包括动态随机存取存储器（DRAM）或图形随机存取存储器，诸如，同步图形随机存取存储器（SGRAM），包括图形双数据速率（GDDR）存储器。在一个实施例中，存储器单元1624A-1624N还可包括3D堆叠式存储器，包括但不限于高带宽存储器（HBM）。本领域技术人员将认识到，存储器单元1624A-1624N的特定实现可以变化，并且可以选自各种常规设计之一。渲染目标（诸如，帧缓冲器或纹理映射（texture map））可跨存储器单元1624A-1624N存储，从而允许分区单元1620A-1620N并行写入每个渲染目标的部分以高效地使用并行处理器存储器1622的可用带宽。在一些实施例中，可排除并行处理器存储器1622的本地实例，以有利于连同本地高速缓存存储器来利用系统存储器的统一的存储器设计。

[0138] 在一个实施例中，处理集群阵列1612的集群1614A-1614N中的任何一个都可以处理将被写入到并行处理器存储器1622内的存储器单元1624A-1624N中的任何的数据。可以将存储器交叉开关1616配置成将每个集群1614A-1614N的输出转移到任何分区单元1620A-1620N或另一集群1614A-1614N，其可以对输出执行附加处理操作。每个集群1614A-1614N都可以通过存储器交叉开关1616与存储器接口1618通信，以从各种外部存储器装置读取或写入到各种外部存储器装置。在一个实施例中，存储器交叉开关1616具有到存储器接口1618的连接以与I/O单元1604通信，以及到并行处理器存储器1622的本地实例的连接，从而使不同处理集群1614A-1614N内的处理单元能够与系统存储器或对于并行处理单元1602不是本地的其它存储器通信。在一个实施例中，存储器交叉开关1616可以使用虚拟通道以分离集群1614A-1614N与分区单元1620A-1620N之间的业务流。

[0139] 虽然在并行处理器1600内示出了并行处理单元1602的单个实例，但是可以包括并行处理单元1602的任何数量的实例。例如，可以在单个插入式卡上提供并行处理单元1602的多个实例，或可以将多个插入式卡互连。并行处理单元1602的不同实例可以配置成即使所述不同实例具有不同数量的处理核、不同量的本地并行处理器存储器和/或其它配置差异也仍互操作。例如且在一个实施例中，并行处理单元1602的一些实例可以相对于其它实例包括更高精度浮点单元。合并并行处理单元1602或并行处理器1600的一个或多个实例的系统可以以多种配置和形状因数(form factor)来实现，包括但不限于桌上型计算机、膝上型计算机、或手持式个人计算机、服务器、工作站、游戏控制台和/或嵌入式系统。

[0140] 图16B是根据实施例的分区单元1620的框图。在一个实施例中，分区单元1620是图16A的分区单元1620A-1620N之一的实例。如所示出，分区单元1620包括L2高速缓存1621、帧缓冲器接口1625和ROP 1626（光栅操作单元）。L2高速缓存1621是读/写高速缓存，其配置成执行从存储器交叉开关1616和ROP 1626接收的加载和存储操作。由L2高速缓存1621将读未命中（read miss）和紧急回写请求输出到帧缓冲器接口1625以用于处理。也可以经由帧缓冲器接口1625将更新发送到帧缓冲器以用于处理。在一个实施例中，帧缓冲器接口1625与并行处理器存储器中的存储器单元（诸如，图16的存储器单元1624A-1624N（例如，在并行处理器存储器1622内））之一进行接口。

[0141] 在图形应用中，ROP 1626是执行诸如模板印刷（stencil）、z测试、混合、和诸如此类的光栅操作的处理单元。随后ROP 1626输出存储在图形存储器中的处理的图形数据。在一些实施例中，ROP 1626包括压缩逻辑，该压缩逻辑用于压缩写入到存储器的深度或颜色数据，并且解压缩从存储器读取的深度或颜色数据。压缩逻辑可以是利用多种压缩算法中的一种或多种压缩算法的无损压缩逻辑。由ROP 1626所执行的压缩的类型可以基于待压缩的数据的统计特性而变化。例如，在一个实施例中，△颜色压缩在逐图块的基础上对深度和颜色数据执行。

[0142] 在一些实施例中，ROP 1626被包括在每个处理集群（例如，图2的集群1614A-1614N）内而非包括在分区单元1620内。在此类实施例中，通过存储器交叉开关1616来传送针对像素数据的读和写请求而非像素片段数据。处理的图形数据可在显示装置（诸如，图15的所述一个或多个显示装置1510之一）上显示、被路由以供由（一个或多个）处理器1502进一步处理、或被路由以供由图16A的并行处理器1600内的处理实体之一进一步处理。

[0143] 图16C是根据实施例的并行处理单元内的处理集群1614的框图。在一个实施例中，处理集群是图16的处理集群1614A-1614N之一的实例。处理集群1614可以配置成并行执行许多线程，其中，术语“线程”是指在具体输入数据的集合上执行的具体程序的实例。在一些实施例中，在不提供多个独立指令单元的情况下，使用单指令多数据（SIMD）指令发出技术以支持对大数量线程的并行执行。在其它实施例中，使用配置成将指令发出到处理集群中的每一个内的处理引擎的公共指令单元的集合，使用单指令多线程（SIMT）技术以支持大数量的一般同步的线程的并行执行。不同于SIMD执行制度（其中，所有处理引擎通常执行相同的指令），SIMT执行允许不同线程更容易地遵循分歧的执行路径而通过给定线程程序。本领域技术人员将理解，SIMD处理制度表示SIMT处理制度的功能子集。

[0144] 可以经由流水线管理器232来控制处理集群1614的操作，所述流水线管理器将处理任务分布到SIMT并行处理器。流水线管理器1632从图16的调度器1610接收指令，并且经由图形多处理器1634和/或纹理单元1636来管理那些指令的执行。所示出的图形多处理器1634是SIMT并行处理器的示例性实例。然而，不同架构的各种类型的SIMT并行处理器可被包括在处理集群1614内。图形多处理器1634的一个或多个实例可以被包括在处理集群1614内。图形多处理器1634可以处理数据，并且数据交叉开关1640可以用于将处理的数据分布到多个可能目的地（包括其它着色器单元）之一。流水线管理器1632可以通过指定针对要经由数据交叉开关1640来分布的处理的数据的目的地来促进处理的数据的分布。

[0145] 处理集群1614内的每个图形多处理器1634可以包括相同功能执行逻辑的集合（例如，算术逻辑单元、加载-存储单元等）。能以流水线方式来配置功能执行逻辑，在流水线方式中，在先前的指令完成之前，可发出新指令。功能执行逻辑支持多种多样的操作，包括整数和浮点算术、比较操作、布尔操作、位移位和各种代数函数的计算。在一个实施例中，可以利用相同功能单元硬件来执行不同操作，并且可以存在功能单元的任何组合。

[0146] 传送至处理集群1614的指令构成线程。跨并行处理引擎的集合而执行的线程的集合是线程群组。线程群组对不同的输入数据执行相同程序。可以将线程群组内的每个线程指配给图形多处理器1634内的不同处理引擎。线程群组可包括比图形多处理器1634内的处理引擎数量更少的线程。当线程群组包括比处理引擎的数量更少的线程时，处理引擎中的一个或多个在线程群组正在被处理的循环期间可以是空闲的。线程群组也可包括比图形多处理器1634内的处理引擎数量更多的线程。当线程群组包括比图形多处理器1634内的处理引擎数量更多的线程时，可以在连续时钟循环上执行处理。在一个实施例中，可在图形多处理器1634上并发地执行多个线程群组。

[0147] 在一个实施例中，图形多处理器1634包括用于执行加载和存储操作的内部高速缓存存储器。在一个实施例中，图形多处理器1634可以放弃内部高速缓存，并且使用处理集群1614内的高速缓存存储器（例如，L1高速缓存1708）。每个图形多处理器1634还有权访问可用于在线程之间转移数据并且在所有处理集群1614当中共享的分区单元（例如，图16的分区单元1620A-1620N）内的L2高速缓存。图形多处理器1634还可访问芯片外全局存储器，所述芯片外全局存储器可以包括本地并行处理器存储器和/或系统存储器中的一个或多个。
可将在并行处理单元1602外部的任何存储器用作全局存储器。实施例（其中处理集群1614包括图形多处理器1634的多个实例）可以共享公共指令和数据，所述公共指令和数据可存储在L1高速缓存1708中。

[0148] 每个处理集群1614可包括MMU 1645（存储器管理单元），所述MMU配置成将虚拟地址映射到物理地址中。在其它实施例中，MMU 1645的一个或多个实例可驻留在图16的存储器接口1618内。MMU 1645包括：页表条目（PTE）的集合，用于将图块（更多地讨论分块）的虚拟地址映射到其物理地址；以及可选地高速缓存行索引。MMU 1645可包括可驻留在图形多处理器1634或L1高速缓存或处理集群1614内的地址转化后备缓冲器（TLB）或高速缓存。物理地址经处理以分布表面数据访问局域性，从而允许在分区单元当中高效的请求交织。高速缓存行索引可用于确定针对高速缓存行的请求是命中还是未命中。

[0149] 在图形和计算应用中，处理集群1614可被配置使得每个图形多处理器1634耦合至纹理单元1636以用于执行纹理映射操作，例如确定纹理样本位置、读取纹理数据和过滤纹理数据。根据需要，从内部纹理L1高速缓存（未示出）或在一些实施例中从图形多处理器1634内的L1高速缓存读取纹理数据，并且从L2高速缓存、本地并行处理器存储器或系统存储器提取所述纹理数据。每个图形多处理器1634将处理的任务输出到数据交叉开关1640以将处理的任务提供给另一处理集群1614，以供进一步处理或以经由存储器交叉开关1616将处理的任务存储在L2高速缓存、本地并行处理器存储器或系统存储器中。preROP 1642（例如，预光栅操作单元）配置成从图形多处理器1634接收数据、将数据引导到ROP单元，所述ROP单元可与如本文描述的分区单元（例如，图2的分区单元1620A-1620N）位于一起。preROP
1642单元可以执行针对颜色混合的优化、组织像素颜色数据和执行地址转化。

[0150] 将认识到的是，本文描述的核架构是示出性的，并且变形和修改是有可能的。任何数量的处理单元（例如，图形多处理器1634、纹理单元1636、preROP 1642等）可被包括在处理集群1614内。此外，虽然仅示出了一个处理集群1614，但是如本文描述的并行处理单元可以包括处理集群1614的任何数量的实例。在一个实施例中，每个处理集群1614可以配置成使用单独且不同的处理单元、L1高速缓存等独立于其它处理集群1614来操作。

[0151] 图16D示出了根据一个实施例的图形多处理器1634。在此类实施例中，图形多处理器1634与处理集群1614的流水线管理器1632耦合。图形多处理器1634具有执行流水线，其包括但不限于：指令高速缓存1652、指令单元1654、地址映射单元1656、寄存器堆1658、一个或多个通用图形处理单元（GPGPU）核1662和一个或多个加载/存储单元1666。GPGPU核1662和加载/存储单元1666经由存储器和高速缓存互连1668与高速缓存存储器1672和共享存储器1670耦合。

[0152] 在一个实施例中，指令高速缓存1652从流水线管理器1632接收待执行的指令流。所述指令被高速缓存在指令高速缓存1652中，并且由指令单元1654分派以供执行。指令单元1654可以将指令分派为线程群组（例如，线程束（warp）），其中将线程群组的每个线程指配给GPGPU核1662内的不同执行单元。指令可以通过指定统一的地址空间内的地址来访问本地、共享或全局地址空间中的任何。地址映射单元1656可以用于将统一的地址空间中的地址转化成可以由加载/存储单元1666访问的不同的存储器地址。

[0153] 寄存器堆1658为图形多处理器1724的功能单元提供寄存器的集合。寄存器堆1658为连接到图形多处理器1724的功能单元（例如，GPGPU核1662、加载/存储单元1666）的数据路径的操作数提供临时存储。在一个实施例中，在所述功能单元中的每个之间划分寄存器堆1658，使得每个功能单元分配有寄存器堆1658的专用部分。在一个实施例中，在由图形多处理器1724执行的不同线程束之间划分寄存器堆1658。

[0154] GPGPU核1662可以各自包括浮点单元（FPU）和/或整数算术逻辑单元（ALU），所述FPU和整数ALU用于执行图形多处理器1724的指令。根据实施例，GPGPU核1662可以在架构上是类似的，或可以在架构上是不同的。例如且在一个实施例中，GPGPU核1662的第一部分包括单精度FPU和整数ALU，而GPGPU核的第二部分包括双精度FPU。在一个实施例中，FPU可以针对浮点算术来实现IEEE 754-2008标准，或能够实现可变精度浮点算术。图形多处理器1724可以另外包括一个或多个固定功能或特殊功能单元以执行特定功能（诸如，复制矩形或像素混合操作）。在一个实施例中，GPGPU核中的一个或多个也可以包括固定或特殊功能逻辑。

[0155] 在一个实施例中，GPGPU核1662包括能够对数据的多个集合执行单指令的SIMD逻辑。在一个实施例中，GPGPU核1662可以物理地执行SIMD4、SIMD8和SIMD16指令，并且逻辑地执行SIMD1、SIMD2和SIMD32指令。用于GPGPU核的SIMD指令可以由着色器编译器在编译时间生成，或者可以在执行针对单程序多数据（SPMD）或SIMT架构编写和编译的程序时自动生成。针对SIMT执行模型而配置的程序的多个线程可以经由单SIMD指令而执行。例如且在一个实施例中，执行相同或类似操作的八个SIMT线程可以经由单个SIMD8逻辑单元并行地执行。

[0156] 存储器和高速缓存互连1668是互连网络，其将图形多处理器1724的功能单元中的每个连接到寄存器堆1658并连接到共享存储器1670。在一个实施例中，存储器和高速缓存互连1668是交叉开关互连，其允许加载/存储单元1666在共享存储器1670与寄存器堆1658之间实现加载和存储操作。寄存器堆1658能以与GPGPU核1662相同频率来操作，由此在GPGPU核1662与寄存器堆1658之间的数据转移是非常低的时延。共享存储器1670可以用于实现在图形多处理器1634内的功能单元上执行的线程之间的通信。高速缓存存储器1672可以用作例如数据高速缓存，以对功能单元与纹理单元1636之间通信的纹理数据进行高速缓存。共享存储器1670也可以用作程序管理的高速缓存（cached）。在GPGPU核1662上执行的线程能以程序方式将除了存储在高速缓存存储器1672内的自动高速缓存的数据之外的数据存储在共享存储器内。

[0157] 图17A-图17B示出了根据实施例的附加图形多处理器。所示出的图形多处理器1725、1750是图16C的图形多处理器1634的变形。所示出的图形多处理器1725、1750可以被配置成能够同时执行大数量执行线程的流传送多处理器（SM）。

[0158] 图17A示出了根据附加实施例的图形多处理器1725。图形多处理器1725包含涉及图16D的图形多处理器1634的执行资源单元的多个附加实例。例如，图形多处理器1725可以包括指令单元1732A-1732B、寄存器堆1734A-1734B和纹理单元1744A-1744B的多个实例。图形多处理器1725还包括图形或计算执行单元（例如，GPGPU核1736A-1736B、GPGPU核1737A-1737B、GPGPU核1738A-1738B）的多个集合和加载/存储单元1740A-1740B的多个集合。在一个实施例中，执行资源单元具有公共指令高速缓存1730、纹理和/或数据高速缓存存储器
1742以及共享存储器1746。

[0159] 各种组件可以经由互连结构1727通信。在一个实施例中，互连结构1727包括一个或多个交叉开关（crossbar switch）以实现图形多处理器1725的各种组件之间的通信。在一个实施例中，互连结构1727是分开的高速网络结构层，图形多处理器1725的每个组件堆叠在该分开的高速网络结构层上。图形多处理器1725的组件经由互连结构1727与远程组件通信。例如，GPGPU核1736A-1736B、1737A-1737B以及1737A-1738B可以各自经由互连结构1727与共享存储器1746通信。互连结构1727可以仲裁图形多处理器1725内的通信以确保组件之间的公平带宽分配。

[0160] 图17B示出了根据附加实施例的图形多处理器1750。图形处理器包括执行资源1756A-1756D的多个集合，其中，每组执行资源包括多个指令单元、寄存器堆、GPGPU核和加载存储单元，如图16D和图17A中所示出。执行资源1756A-1756D可以与纹理单元1760A-
1760D一致地工作以用于纹理操作，同时共享指令高速缓存1754和共享存储器1762。在一个实施例中，执行资源1756A-1756D可以共享指令高速缓存1754和共享存储器1762，以及纹理和/或数据高速缓存存储器1758A-1758B的多个实例。各种组件可以经由类似于图17A的互连结构1727的互连结构1752来通信。

[0161] 本领域技术人员将理解，图15、16A-16D以及17A-17B中所描述的架构就本实施例的范畴而言是描述性的而非限制性的。因此，在不背离本文描述的实施例的范畴的情况下，本文描述的技术可在任何正确配置的处理单元上实现，所述处理单元包括但不限于一个或多个移动应用处理器、一个或多个桌上型计算机或服务器中央处理单元（CPU）（包括多核CPU）、一个或多个并行处理单元（诸如，图16的并行处理单元1602）以及一个或多个图形处理器或专用处理单元。

[0162] 在一些实施例中，如本文描述的并行处理器或GPGPU以通信方式耦合至主机/处理器核以加速图形操作、机器学习操作、图案分析操作和各种通用GPU（GPGPU）功能。GPU可以通过总线或其它互连（例如，诸如PCIe或NVLink的高速互连）以通信方式耦合至主机处理器/核。在其它实施例中，GPU可以集成在与核相同的封装或芯片上，并且通过内部处理器总线/互连（即，到所述封装或芯片的内部）以通信方式耦合到核。无论以怎样的方式连接GPU，处理器核能以包含在工作描述符中的命令/指令的序列的形式将工作分配给GPU。然后GPU使用专用电路/逻辑以便有效率地处理这些命令/指令。

[0163] 用于GPU至主机处理器互连的技术图18A示出了示例性架构，其中多个GPU 1810-1813通过高速链路1840-1843（例如，总线、点对点互连等）以通信方式耦合至多个多核处理器1805-1806。在一个实施例中，取决于实现，高速链路1840-1843支持4GB/s、30GB/s、80GB/s或更高的通信吞吐量。可使用各种互连协议，包括但不限于PCIe 4.0或5.0以及NVLink 2.0。然而，本发明的根本原理不限于任何具体通信协议或吞吐量。

[0164] 另外，在一个实施例中，GPU 1810-1813中的两个或更多个通过高速链路1844-1845互连，所述高速链路可使用与用于高速链路1840-1843的协议/链路相同或不同的协议/链路来实现。类似地，多核处理器1805-1806中的两个或更多个可通过高速链路1833连接，所述高速链路1833可以是以20GB/s、30GB/s、120GB/s或更高来操作的对称多处理器（SMP）总线。可替代地，图18A中所示的各种系统组件之间的所有通信可使用相同协议/链路（例如，通过公共互连结构）来实现。然而，如所提到，本发明的根本原理不限于任何具体类型的互连技术。

[0165] 在一个实施例中，每个多核处理器1805-1806分别经由存储器互连1830-1831以通信方式耦合至处理器存储器1801-1802，并且每个GPU 1810-1813分别通过GPU存储器互连1850-1853以通信方式耦合至GPU存储器1820-1823。存储器互连1830-1831以及1850-1853可利用相同或不同的存储器访问技术。通过示例且非限制的方式，处理器存储器1801-1802和GPU存储器1820-1823可以是易失性存储器，诸如动态随机存取存储器（DRAM）（包括堆叠式DRAM）、图形DDR SDRAM（GDDR）（例如，GDDR5、GDDR6）或高带宽存储器（HBM），和/或可以是非易失性存储器，诸如3D XPoint或Nano-Ram。在一个实施例中，存储器的某部分可以是易失性存储器，并且另一部分可以是非易失性存储器（例如，使用两级存储器（2LM）层级）。

[0166] 如下文所描述，虽然各种处理器1805-1806和GPU 1810-1813可以分别物理地耦合至具体存储器1801-1802、1820-1823，但是可实现统一的存储器架构，其中相同虚拟系统地址空间（也称为“有效地址”空间）被分布在所有各个物理存储器中。例如，处理器存储器1801-1802可各自包括64GB的系统存储器地址空间，并且GPU存储器1820-1823可各自包括
32GB的系统存储器地址空间（在本示例中产生总共256GB的可寻址存储器）。

[0167] 图18B示出了依照一个实施例的针对多核处理器1807与图形加速模块1846之间的互连的附加细节。图形加速模块1846可包括集成在线卡上的一个或多个GPU芯片，所述线卡经由高速链路1840耦合至处理器1807。可替代地，图形加速模块1846可集成在与处理器1807相同的封装或芯片上。

[0168] 所示出的处理器1807包括多个核1860A-1860D，其各自具有转化后备缓冲器1861A-1861D和一个或多个高速缓存1862A-1862D。所述核可包括用于执行指令和处理数据的各种其它组件（例如，指令提取单元、分支预测单元、解码器、执行单元、重排序缓冲器等），未示出所述其它组件以避免使本发明的根本原理混淆。高速缓存1862A-1862D可包括1级（L1）和2级（L2）高速缓存。另外，一个或多个共享的高速缓存1826可被包括在高速缓存层级中并且由核1860A-1860D的多个集合共享。例如，处理器1807的一个实施例包括24个核，其各自具有其自身的L1高速缓存、十二个共享的L2高速缓存和十二个共享的L3高速缓存。
在本实施例中，L2和L3高速缓存中的一个由两个邻近的核共享。处理器1807和图形加速器集成模块1846与系统存储器1841连接，所述系统存储器1841可包括处理器存储器1801-
1802。

[0169] 通过一致性总线1864经由核间通信来针对存储在各种高速缓存1862A-1862D、1862A-1862D、 1856和系统存储器1841中的数据和指令而维持一致性。例如，每个高速缓存可具有与其相关联的高速缓存一致性逻辑/电路以响应于对于具体高速缓存行的检测到的读或写来通过一致性总线1864进行通信。在一个实现中，通过一致性总线1864来实现高速缓存监听协议，以监听高速缓存访问。高速缓存监听/一致性技术由本领域技术人员很好地理解的，并且此处将不详细描述以避免使本发明的根本原理混淆。

[0170] 在一个实施例中，代理电路1825将图形加速模块1846以通信方式耦合至一致性总线1864，从而允许图形加速模块1846作为核的对等物来加入高速缓存一致性协议。具体而言，接口1835提供通过高速链路1840（例如，PCIe总线、NVLink等）至代理电路1825的连接性，并且接口1837将图形加速模块1846连接到链路1840。

[0171] 在一个实现中，加速器集成电路1836代表图形加速模块1846的多个图形处理引擎1831、1832、N来提供高速缓存管理、存储器访问、上下文管理和中断管理服务。图形处理引擎1831、1832、N可各自包括单独的图形处理单元（GPU）。备选地，图形处理引擎1831、1832、N可包括GPU内不同类型的图形处理引擎，诸如图形执行单元、媒体处理引擎（例如，视频编码器/解码器）、采样器和位块传输（blit）引擎。换句话说，图形加速模块可以是具有多个图形处理引擎1831-1832、N的GPU，或图形处理引擎1831-1832、N可以是集成在公共封装、线卡或芯片上的个体GPU。

[0172] 在一个实施例中，加速器集成电路1836包括存储器管理单元（MMU）1839以用于执行各种存储器管理功能，诸如虚拟至物理存储器转换（也称为有效至真实存储器转换）和用于访问系统存储器1841的存储器访问协议。MMU 1839还可包括转换后备缓冲器（TLB）（未示出）以用于高速缓存虚拟/有效至物理/真实地址转换。在一个实现中，高速缓存1838存储命令和数据以供由图形处理引擎1831-1832、N进行高效访问。在一个实施例中，存储在高速缓存1838和图形存储器1833-1834、N中的数据与核高速缓存1862A-1862D、1856以及系统存储器1811保持一致。如所提到，这可经由代理电路1825来实现，所述代理电路1825代表高速缓存1838和存储器1833-1834、N来参与高速缓存一致性机制（例如，将更新发送到高速缓存1838（与处理器高速缓存1862A-1862D、1856上的高速缓存行的修改/访问相关），以及从高速缓存1838接收更新）。

[0173] 寄存器1845的集合存储用于由图形处理引擎1831-1832、N执行的线程的上下文数据，并且上下文管理电路1848管理线程上下文。例如，上下文管理电路1848可在上下文切换期间执行保存和恢复操作以保存和恢复各种线程的上下文（例如，其中，第一线程被保存并且第二线程被存储，使得可以由图形处理引擎来执行第二线程）。例如，在上下文切换时，上下文管理电路1848可将当前寄存器值存储到存储器中指派的区域（例如，由上下文指针标识）。然后，其可在返回到上下文时恢复所述寄存器值。在一个实施例中，中断管理电路1847接收并处理从系统装置接收的中断。

[0174] 在一个实现中，由MMU 1839将来自图形处理引擎1831的虚拟/有效地址转化成系统存储器1811中的真实/物理地址。加速器集成电路1836的一个实施例支持多个（例如，4、8、16个）图形加速器模块1846和/或其它加速器装置。图形加速器模块1846可专用于在处理器1807上执行的单个应用，或可在多个应用之间共享。在一个实施例中，呈现虚拟化的图形执行环境，其中与多个应用或虚拟机（VM）共享图形处理引擎1831-1832、N的资源。所述资源可被再划分成“切片”，其被分配给不同的VM和/或应用（基于与所述VM和/或应用相关联的处理要求和优先级）。

[0175] 因此，加速器集成电路充当到对于图形加速模块1846的系统的桥接器，并且提供地址转化和系统存储器高速缓存服务。另外，加速器集成电路1836可为主机处理器提供虚拟化设施，以管理中断、存储器管理和图形处理引擎的虚拟化。

[0176] 由于图形处理引擎1831-1832、N的硬件资源被显式地映射到由主机处理器1807所见的真实地址空间，所以任何主机处理器都可以使用有效地址值来直接寻址这些资源。在一个实施例中，加速器集成电路1836的一个功能是图形处理引擎1831-1832、N的物理分离，使得它们对系统呈现为独立的单元。

[0177] 如所提到，在所示出的实施例中，一个或多个图形存储器1833-1834、M分别耦合至图形处理引擎1831-1832、N中的每个。图形存储器1833-1834、M存储正由图形处理引擎1831-1832、N中的每个处理的指令和数据。图形存储器1833-1834、M可以是易失性存储器，诸如DRAM（包括堆叠式DRAM）、GDDR存储器（例如，GDDR5、GDDR6）或HBM，和/或可以是非易失性存储器，诸如3D XPoint或Nano-Ram。

[0178] 在一个实施例中，为减少链路1840上的数据业务，使用偏置技术以确保存储在图形存储器1833-1834、M中的数据是将被图形处理引擎1831-1832、N最频繁地使用的并且优选地不被核1860A-1860D（至少不是频繁地）使用的数据。类似地，偏置机制试图将由核（且优选地不是图形处理引擎1831-1832、N）所需的数据保存在系统存储器1811和所述核的高速缓存1862A-1862D、1856内。

[0179] 图18C示出了另一实施例，其中加速器集成电路1836被集成在处理器1807内。在本实施例中，图形处理引擎1831-1832、N经由接口1837和接口1835（再次，其可利用任何形式的总线或接口协议）通过高速链路1840来直接通信到加速器集成电路1836。加速器集成电路1836可执行与针对于图18B所描述的那些操作相同的操作，但考虑到其与一致性总线1862和高速缓存1862A-1862D、1826的紧密接近性而潜在地处于更高的吞吐量。

[0180] 一个实施例支持不同的编程模型，包括专用进程编程模型（没有图形加速模块虚拟化）和共享的编程模型（有虚拟化）。后者可包括由加速器集成电路1836控制的编程模型和由图形加速模块1846控制的编程模型。

[0181] 在专用进程模型的一个实施例中，图形处理引擎1831-1832、N在单一操作系统下专用于单个应用或进程。单个应用可以将其它应用请求汇集（funnel）到图形引擎1831-1832、N，从而在VM/分区内提供虚拟化。

[0182] 在专用进程编程模型中，可由多个VM/应用分区来共享图形处理引擎1831-1832、N。共享的模型要求系统管理程序来虚拟化图形处理引擎1831-1832、N，以允许由每个操作系统进行访问。针对无管理程序的单分区系统，图形处理引擎1831-1832、N由操作系统所拥有。在两种情况下，操作系统可以虚拟化图形处理引擎1831-1832、N以提供对每个进程或应用的访问。

[0183] 针对共享的编程模型，图形加速模块1846或个体图形处理引擎1831-1832、N使用进程句柄（process handle）来选择进程元素（process element）。在一个实施例中，进程元素存储在系统存储器1811中，并且使用本文描述的有效地址至真实地址转化技术是可寻址的。进程句柄可以是在向图形处理引擎1831-1832、N来登记其上下文（那就是说，调用系统软件以将进程元素添加到进程元素链表）时被提供给主机进程的实现特定的值。进程句柄的较低16位可以是进程元素链表内的进程元素的偏移。

[0184] 图18D示出了示例性加速器集成切片1890。如本文所使用，“切片”包括加速器集成电路1836的处理资源的指定部分。系统存储器1811内的应用有效地址空间1882存储进程元素1883。在一个实施例中，响应于来自处理器1807上执行的应用1880的GPU调用(invocation)1881来存储进程元素1883。进程元素1883包含对于对应的应用1880的进程状态。包含在进程元素1883中的工作描述符（WD）1884可以是由应用请求的单个作业，或可包含指向作业队列的指针。在后一种情况下，WD 1884是指向应用的地址空间1882中的作业请求队列的指针。

[0185] 图形加速模块1846和/或个体图形处理引擎1831-1832、N可以由系统中的所有进程或进程子集共享。本发明的实施例包括用于设立进程状态并将WD 1884发送到图形加速模块1846以在虚拟化环境中开始作业的基础设施。

[0186] 在一个实现中，专用进程编程模型是实现特定的。在这个模型中，单个进程拥有图形加速模块1846或个体图形处理引擎1831。由于图形加速模块1846由单个进程所拥有，管理程序针对拥有的分区来初始化加速器集成电路1836，并且操作系统针对拥有的进程来初始化加速器集成电路1836（在指配图形加速模块1846的时候）。

[0187] 在操作中，加速器集成切片1890中的WD提取单元1891提取下一个WD 1884，所述下一个WD 1884包括待由图形加速模块1846的图形处理引擎之一来完成的工作的指示。来自WD 1884的数据可存储在寄存器1845中，并且由如所示出的MMU 1839、中断管理电路1847和/或上下文管理电路1846使用。例如，MMU 1839的一个实施例包括用于访问OS虚拟地址空间1885内的段/页表1886的段/页行走电路（walk circuitry）。中断管理电路1847可处理从图形加速模块1846接收的中断事件1892。当执行图形操作时，由MMU 1839将由图形处理引擎1831-1832、N所生成的有效地址1839转化为真实地址。

[0188] 在一个实施例中，针对每个图形处理引擎1831-1832、N和/或图形加速模块1846复制相同寄存器1845的集合，并且其可由管理程序或操作系统来初始化。这些复制的寄存器中的每个可被包括在加速器集成切片1890中。表1中示出了可由管理程序来初始化的示例性寄存器。

[0189] 表1-管理程序初始化的寄存器1 切片控制寄存器
2 真实地址（RA）调度的进程区域指针
3 权限掩蔽覆盖寄存器
4 中断向量表条目偏移
5 中断向量表条目限制
6 状态寄存器
7 逻辑分区ID
8 真实地址（RA）管理程序加速器利用记录指针
9 存储描述寄存器
表2中示出了可由操作系统来初始化的示例性寄存器。

[0190] 表2-操作系统初始化的寄存器1 进程和线程标识
2 有效地址（EA）上下文保存/恢复指针
3 虚拟地址（VA）加速器利用记录指针
4 虚拟地址（VA）存储段表指针
5 权限掩蔽
6 工作描述符
在一个实施例中，每个WD 1884是特定于具体图形加速模块1846和/或图形处理引擎
1831-1832、N的。它包含图形处理引擎1831-1832、N要完成其工作所要求的全部信息，或者它可以是对其中应用已设立待完成的工作的命令队列的存储器位置的指针。

[0191] 图18E示出了对于共享模型的一个实施例的附加细节。本实施例包括其中存储有进程元素列表1899的管理程序真实地址空间1898。管理程序真实地址空间1898经由管理程序1896是可访问的，所述管理程序1896虚拟化用于操作系统1895的图形加速模块引擎。

[0192] 共享的编程模型允许来自系统中所有分区或分区子集的所有进程或进程子集使用图形加速模块1846。存在有两个编程模型，其中，图形加速模块1846由多个进程和分区共享：时间切片共享和图形定向共享（graphics directed shared）。

[0193] 在这个模型中，系统管理程序1896拥有图形加速模块1846，并且使其功能可用于所有操作系统1895。为使图形加速模块1846支持由系统管理程序1896进行的虚拟化，图形加速模块1846可遵守以下要求：1) 应用的作业请求必须是自主的（那就是说，无需在作业之间保持状态），或图形加速模块1846必须提供上下文保存和恢复机制。2) 由图形加速模块1846保证在指定时间量内完成应用的作业请求（包括任何转化故障），或图形加速模块1846提供抢占作业的处理的能力。3) 当在定向共享编程模型中操作时，必须保证图形加速模块1846在进程之间的公平性。

[0194] 在一个实施例中，针对共享模型，要求应用1880用图形加速模块1846类型、工作描述符（WD）、权限掩蔽寄存器（AMR）值和上下文保存/恢复区域指针（CSRP）来进行操作系统1895系统调用。图形加速模块1846类型描述了用于系统调用的靶向加速功能。图形加速模块1846类型可以是系统特定的值。WD专门针对图形加速模块1846被格式化，并且可以采用图形加速模块1846命令、指向用户定义的结构的有效地址指针、指向命令队列的有效地址指针或用于描述待由图形加速模块1846完成的工作的任何其它数据结构的形式。在一个实施例中，AMR值是待用于当前进程的AMR状态。被传递到操作系统的值类似于设定AMR的应用。如果加速器集成电路1836和图形加速模块1846实现不支持用户权限掩蔽覆盖寄存器（UAMOR），那么操作系统可将当前UAMOR值应用于AMR值（在管理程序调用中传递AMR之前）。
可选地，管理程序1896可应用当前权限掩蔽覆盖寄存器（AMOR）值(在将AMR放置到进程元素
1883中之前）。在一个实施例中，CSRP是寄存器1845之一，其包含应用的地址空间1882中的区域的有效地址以用于使图形加速模块1846保存和恢复上下文状态。如果不要求在作业之间保存状态或当作业被抢占时，这个指针是可选的。上下文保存/恢复区域可以是固定的（pinned）系统存储器。

[0195] 在接收到系统调用时，操作系统1895可验证应用1880已注册并且已被给予使用图形加速模块1846的权限。然后，操作系统1895用表3中所示的信息来调用管理程序1896。

[0196] 表3–OS至管理程序调用参数1 工作描述符（WD）
2 权限掩蔽寄存器（AMR）值（潜在地被掩蔽）
3 有效地址（EA）上下文保存/恢复区域指针（CSRP）
4 进程ID（PID）和可选线程ID（TID）
5 虚拟地址（VA）加速器利用记录指针（AURP）
6 存储段表指针（SSTP）的虚拟地址
7 逻辑中断服务号（LISN）
在接收到管理程序调用时，管理程序1896验证操作系统1895已注册并且已被给予使用图形加速模块1846的权限。然后，管理程序1896将进程元素1883放入到对于对应的图形加速模块1846类型的进程元素链表中。进程元素可包括表4中所示的信息。

[0197] 表4-进程元素信息1 工作描述符（WD）
2 权限掩蔽寄存器（AMR）值（潜在地被掩蔽）
3 有效地址（EA）上下文保存/恢复区域指针（CSRP）
4 进程ID（PID）和可选线程ID（TID）
5 虚拟地址（VA）加速器利用记录指针（AURP）
6 存储段表指针（SSTP）的虚拟地址
7 逻辑中断服务号（LISN）
8 从管理程序调用参数导出的中断向量表
9 状态寄存器（SR）值
10 逻辑分区ID（LPID）
11 真实地址（RA）管理程序加速器利用记录指针
12 存储装置描述符寄存器（SDR）
在一个实施例中，管理程序初始化多个加速器集成切片1890寄存器1845。

[0198] 如图18F中所示出，本发明的一个实施例采用经由公共虚拟存储器地址空间可寻址的统一的存储器，所述公共虚拟存储器地址空间用于访问物理处理器存储器1801-1802和GPU存储器1820-1823。在这种实现中，在GPU 1810-1813上执行的操作利用相同的虚拟/有效存储器地址空间来访问处理器存储器1801-1802且反之亦然，由此简化可编程性。在一个实施例中，虚拟/有效地址空间的第一部分被分配给处理器存储器1801，第二部分被分配给第二处理器存储器1802，第三部分被分配GPU存储器1820，等等。由此跨处理器存储器1801-1802和GPU存储器1820-1823中的每个来分布整个虚拟/有效存储器空间（有时称为有效地址空间），从而允许任何处理器或GPU访问任何物理存储器（采用被映射到该存储器的虚拟地址）。

[0199] 在一个实施例中，在MMU 1839A-1839E中的一个或多个内的偏置/一致性管理电路1894A-1894E确保主机处理器（例如，1805）与GPU 1810-1813的高速缓存之间的高速缓存一致性，并且实现指示其中应存储有某些类型的数据的物理存储器的偏置技术。虽然图18F中示出了偏置/一致性管理电路1894A-1894E的多个实例，但是可在一个或多个主机处理器
1805的MMU内和/或在加速器集成电路1836内实现偏置/一致性电路。

[0200] 一个实施例允许使用共享虚拟存储器（SVM）技术来访问GPU附连的存储器1820-1823并将其映射为系统存储器的部分，而无需经受与完全系统高速缓存一致性相关联的典型性能缺陷。GPU附连的存储器1820-1823作为系统存储器来被访问而无繁重的高速缓存一致性开销的能力为GPU卸载提供了有益的操作环境。这种布置允许主机处理器1805软件设置操作数和访问计算结果，而没有传统I/O DMA数据拷贝的开销。此类传统拷贝涉及驱动器调用、中断和存储器映射I/O（MMIO）访问，其相对于简单的存储器访问全部都是低效的。同时，访问GPU附连的存储器1820-1823而无高速缓存一致性开销的能力对于卸载的计算的执行时间可以是关键的。在具有实质流传送写存储器业务的情况下，例如，高速缓存一致性开销可以显著减少由GPU 1810-1813所见的有效写带宽。操作数设置的效率、结果访问的效率和GPU计算的效率在确定GPU卸载的有效性中全部都起到一定作用。

[0201] 在一个实现中，由偏置跟踪器数据结构来驱动在GPU偏置与主机处理器偏置之间的选择。例如，可使用偏置表，其可以是每GPU附连的存储器页包括1或2个位的页粒度结构（即，以存储器页的粒度来控制）。可以在一个或多个GPU附连的存储器1820-1823的被偷的（stolen）存储器范围中实现偏置表，其中在GPU 1810-1813中具有或不具有偏置高速缓存（例如，用于高速缓存偏置表的频繁/最近使用的条目）。备选地，可将整个偏置表维持在GPU内。

[0202] 在一个实现中，在实际访问GPU存储器之前访问与每一次访问GPU附连的存储器1820-1823相关联的偏置表条目，从而促使以下操作。首先，来自GPU 1810-1813的在GPU偏置中寻找其页的本地请求被直接转发到对应的GPU存储器1820-1823。来自GPU的在主机偏置中寻找其页的本地请求被转发到处理器1805（例如，通过如上文所讨论的高速链路）。在一个实施例中，来自处理器1805的在主机处理器偏置中寻找所请求的页的请求完成类似于正常存储器读取的请求。可替代地，可将针对GPU偏置的页的请求转发到GPU 1810-1813。然后，如果GPU当前未在使用该页，则GPU可将该页转变到主机处理器偏置。

[0203] 可以由基于软件的机制、硬件辅助的基于软件的机制抑或针对有限情况的集合由纯粹基于硬件的机制来改变页的偏置状态。

[0204] 用于改变偏置状态的一个机制采用API调用（例如，OpenCL），其进而调用GPU的装置驱动器，所述装置驱动器进而发送消息（或入队命令描述符）到GPU，从而指导它改变偏置状态并且针对一些转变在主机中执行高速缓存转储清除（cache flushing）操作。高速缓存转储清除操作对于从主机处理器1805偏置转变到GPU偏置来说是需要的，但对于反向转变来说是不需要的。

[0205] 在一个实施例中，通过暂时渲染由主机处理器1805不可高速缓存的GPU偏置页来维持高速缓存一致性。为了访问这些页，处理器1805可请求来自GPU 1810的访问，其可或可不立即授予访问（取决于实现）。因此，为减少处理器1805与GPU 1810之间的通信，对于确保GPU偏置页是由GPU所要求但非被主机处理器1805所要求（且反之亦然）的那些页是有利的。

[0206] 图形处理流水线图19示出根据实施例的图形处理流水线1900。在一个实施例中，图形处理器可以实现所示出的图形处理流水线1900。所述图形处理器可以被包括在如本文描述的并行处理子系统（诸如图16的并行处理器1600）内，在一个实施例中，其是图15的（一个或多个）并行处理器1512的变形。各种并行处理系统可以经由如本文描述的并行处理单元（例如，图16的并行处理单元1602）的一个或多个实例来实现图形处理流水线1900。例如，着色器单元（例如，图
17的图形多处理器1634）可配置成执行顶点处理单元1904、曲面细分控制处理单元1908、曲面细分评估处理单元1912、几何处理单元1916和片段/像素处理单元1924中的一个或多个的功能。数据组装器1902，图元组装器1906、1914、1918，曲面细分单元1910，光栅化器1922和光栅操作单元1926的功能也可由处理集群（例如，图17的处理集群1614）内的其它处理引擎和对应的分区单元（例如，图16的分区单元1620A-1620N）来执行。还可使用针对一个或多个功能的专用处理单元来实现图形处理流水线1900。在一个实施例中，可以由通用处理器（例如，CPU）内的并行处理逻辑来执行图形处理流水线1900的一个或多个部分。在一个实施例中，图形处理流水线1900的一个或多个部分可以经由存储器接口1928来访问芯片上存储器（例如，如图16中的并行处理器存储器1622），所述存储器接口1928可以是图16的存储器接口1618的实例。

[0207] 在一个实施例中，数据组装器1902是收集对于表面和图元的顶点数据的处理单元。数据组装器1902随后将包括顶点属性的顶点数据输出至顶点处理单元1904。顶点处理单元1904是可编程执行单元，其执行顶点着色器程序，如由顶点着色器程序所指定那样光照（lighting）并变换顶点数据。顶点处理单元1904读取存储在高速缓存、本地或系统存储器中的数据以供在处理顶点数据时使用，并且顶点处理单元1904可被编程为将顶点数据从基于对象的坐标表示变换到世界空间坐标空间或归一化装置坐标空间。

[0208] 图元组装器1906的第一实例从顶点处理单元1904接收顶点属性。图元组装器1906按需读取存储的顶点属性，并且构建图形图元以用于由曲面细分控制处理单元1908处理。图形图元包括如由各种图形处理应用编程接口（API）所支持的三角、线段、点、补片（patch）等等。

[0209] 曲面细分控制处理单元1908将输入顶点视为用于几何补片的控制点。控制点是从来自补片的输入表示（例如，补片的基础）变换到适合于由曲面细分评估处理单元1912在表面评估中使用的表示。曲面细分控制处理单元1908也可以计算对于几何补片的边缘的曲面细分因数。曲面细分因数应用于单个边缘，并且对与该边缘相关联的依赖视图的细节等级进行量化。曲面细分单元1910配置成接收对于补片的边缘的曲面细分因数，并且将补片曲面细分成诸如线、三角或四边形图元的多个几何图元，其被传送到曲面细分评估处理单元1912。曲面细分评估处理单元1912对再划分的补片的参数化坐标进行操作，以生成对于与几何图元相关联的每个顶点的表面表示和顶点属性。

[0210] 图元组装器1914的第二实例从曲面细分评估处理单元1912接收顶点属性（所述曲面细分评估处理单元按需读取存储的顶点属性），并且构建图形图元以用于由几何处理单元1916处理。几何处理单元1916是可编程执行单元，其执行几何着色器程序以按由几何着色器程序所指定那样变换从图元组装器1914所接收的图形图元。在一个实施例中，几何处理单元1916被编程为将图形图元再划分成一个或多个新图形图元，并且运算用于对新图形图元进行光栅化的参数。

[0211] 在一些实施例中，几何处理单元1916可在几何流中增加或删除元素。几何处理单元1916将指定新图形图元的参数和顶点输出到图元组装器1918。图元组装器1918从几何处理单元1916接收参数和顶点，并且构建图形图元以用于由视口缩放、拣选和剪辑单元1920来处理。几何处理单元1916读取存储在并行处理器存储器或系统存储器中的数据以供在处理几何数据时使用。视口缩放、拣选和剪辑单元1920执行剪辑、拣选和视口缩放，并将处理的图形图元输出到光栅化器1922。

[0212] 光栅化器1922可以执行深度拣选和其它基于深度的优化。光栅化器1922还对新图形图元执行扫描转换以生成片段，并且将那些片段和相关联的覆盖数据输出到片段/像素处理单元1924。片段/像素处理单元1924是配置成执行片段着色器程序或像素着色器程序的可编程执行单元。片段/像素处理单元1924按由片段或像素着色器程序所指定那样变换从光栅化器1922接收的片段或像素。例如，可将片段/像素处理单元1924编程为执行以下操作以产生输出到光栅操作单元1926的着色的片段或像素，所述操作包括但不限于纹理映射、着色、混合、纹理校正和透视校正。片段/像素处理单元1924可以读取存储在并行处理器存储器或系统存储器中的数据以供在处理片段数据时使用。可将片段或像素着色器程序配置成以样本、像素、图块或其它粒度来着色（取决于针对处理单元配置的采样率）。

[0213] 光栅操作单元1926是处理单元，其执行包括但不限于模板印刷、z测试、混合和诸如此类的光栅操作，并将像素数据作为处理的图形数据输出，以存储在图形存储器（例如，如图16中的并行处理器存储器1622和/或如图15中的系统存储器1504）中，以显示在所述一个或多个显示装置1510上，或者供由（一个或多个）并行处理器1512或所述一个或多个处理器1502中的一个来进一步处理。在一些实施例中，将光栅操作单元1926配置成压缩被写入到存储器的z或颜色数据，并且解压缩从存储器读取的z或颜色数据。

[0214] 用于多管芯/GPU图形处理的基于位置的渲染设备和方法如上所述，随着图形处理器缩放到更大的管芯尺寸，期望的是将多个硅管芯集成到能够运行单个3D上下文的单个内聚单元中，以便解决可制造性、可缩放性和功率输送问题。这样做要求针对多类别的可缩放性以及互连挑战的解决方案，以便在运行在多个管芯上的单个3D应用上输送最佳性能。当前使用的试图解决该问题的算法包括交替帧渲染（AFR）和分割帧渲染（SFR）以及这些方法的变体。

[0215] 现有解决方案在性能缩放方面受到限制。利用完美缩放，“2-通路”（2 GPU）解决方案与1 GPU解决方案相比将产生200％的性能，而“4-通路”（4 GPU）解决方案将产生1 GPU解决方案400％的性能。然而，在实践中，它们输送显着低于此的性能。

[0216] 图20中示出了针对不同系统的详细测量。存在缩放限制的若干原因。首先，几何工作不能缩放，因为它必须复制到分割帧渲染（SFR）方法中的所有参与者。此外，跨帧依赖性要求在GPU之间复制数据，并且跟随有同步点的工作热点导致等待线程。最后，基于交替帧渲染（AFR）的方法引起显着的额外时延。对于在AFR链中包含的每个GPU，显示时延的游戏状态增加一帧。这对于虚拟现实/增强现实（VR/AR）实现来说是无法维持的，并且对于快节奏的游戏玩法来说是不期望的。

[0217] 本发明的一个实施例利用多管芯和/或多GPU布置来构建能够在单个3D应用上输送放大的性能的图形处理器。通过监视负载和使用同步技术，智能地将基于图块的工作分配给每个管芯/GPU。

[0218] 图21中描绘了关于同步点的问题。在该图中，在时间t0开始的跨越4个图块划分的工作是不均匀分布的。然而，由于该工作阶段要求在随后的工作开始之前完成所有工作，因此图块0、2和3变为空闲，从而等待图块1在时间t1完成其针对相位的工作。

[0219] 本发明的一个实施例使用以下实现来在多个图形处理器上输送3D工作负载的改进的性能缩放。首先，绘制被划分并且发送到各个图形管芯/GPU，然后对所述各个图形管芯/GPU执行仅位置着色器以针对所有管芯的绘制而确定全帧可见性数据。在一个实施例中，仅位置着色器被实现成在一个或多个执行单元上执行的着色器内核。在备选实施例中，固定功能硬件可用于计算位置数据。无论具体实现如何，可见性数据指示给定图元是否在屏幕空间图块的预定义集合中的每个上存在，本文统称为“棋盘格”。

[0220] 然后，将每次绘制的计算的可见性数据发送到拥有棋盘格的每个相关图块的管芯/GPU。在接收到相关的可见性数据时，每个图形管芯使用可见性数据将几何工作限制至仅相关的图元（即，可见的那些图元），并且随后针对其拥有的棋盘格的所有图块执行像素处理工作。

[0221] 因此，本发明的该实施例将基于图块的棋盘格渲染与分布式顶点位置计算集成，以实现多管芯GPU上的更有效率缩放。这种方法允许跨多个管芯/GPU有效地划分几何工作，这是现有技术的关键性缺点。使用本文描述的实施例，多管芯GPU可以在添加更多管芯时输送放大的性能，而无需面对现有多管芯解决方案的性能限制。

[0222] 贯穿以下描述，4-GPU/图块解决方案用于示例实施例。然而，将理解，本发明的基本原理可以拓展到任何数量的GPU。

[0223] 在图22中示出了根据本发明的一个实施例的方法。该方法可以在上述系统架构的上下文中被实现，但不限于任何具体的系统架构。

[0224] 在2201处，图形应用经由渲染API向驱动器提交3D工作。例如，应用可以调用API来渲染和显示图像帧。在2202处，驱动器向每个管芯/GPU指配仅位置着色工作。在一个实施例中，驱动器在指配着色工作时实现负载平衡，以确保基于每个管芯/GPU的当前工作负载来分布工作。例如，如果第一管芯/GPU当前没有工作并且第二管芯/GPU接近过载，则将更多仅位置着色工作将被指配给第一管芯/GPU。

[0225] 在2203处，由每个相应的管芯/GPU执行仅位置着色以确定每个棋盘格图块的可见性数据。可见性数据包括关于每个图元在每个相应的棋盘格图块内是否可见的指示，或者可见性数据可以指示每个图元是否在任何GPU/管芯的相应图块上可见，而不是在特定图块上可见。

[0226] 在2204处，将可见性数据发送到每个管芯/GPU以用于管芯/GPU所负责渲染的那些图块。然后，每个管芯/GPU使用可见性数据以将其几何工作限制为仅可见的那些图元。在2205处，每个管芯/GPU在针对其拥有的每个棋盘格图块的可见顶点/图元上实现渲染流水线工作。在一个实施例中，渲染流水线包括几何着色器处理图元（例如，从单个输入图元生成零个或多个图元）和像素着色器以在每个像素基础上计算颜色和其它属性。

[0227] 通过示例而非限制的方式，图23示出了细分为棋盘格图块（例如，图块T0、T1、T2和T3）的渲染图像2300。每个图案对应于指配给单个GPU的渲染目标的区域。将虚线图案图块（例如，T0）指配给GPU 0，将非图案化图块（例如，T1）指配给GPU 1，将具有向下倾斜线（例如，T2）的图块指配给GPU 2，并且将具有棋盘格图案（例如，T3）的图块指配给GPU 3。如上所述，每个GPU负责根据该图案生成其拥有的图块的内容。

[0228] 单独对现有解决方案的限制是每个GPU必须执行所有几何工作（顶点提取、顶点着色、剪辑、拣选、光栅化）。这是因为顶点的位置是未知的，直到几何处理工作完成之后为止。因此，在经典的棋盘格渲染方法中，每个GPU必须为在整个场景中绘制的每个传入顶点执行几何工作——而不仅是在落在它拥有的图块上的顶点执行几何工作。

[0229] 本文描述的本发明的实施例中添加分布式位置着色正是解决该问题。图24示出了一个实施例的操作，其中顶点数据2400由四个仅位置着色器2401-2404处理。在一个实施例中，驱动器首先将来自应用的各个绘制调用2410（如绘制0-7所示）指配给在其上执行POSH着色器2401-2404的各个管芯/GPU。在备选实施例中，可以执行更高级的调度，诸如基于顶点计数的调度和基于GPU空闲的调度，以在较低粒度下平衡负载。在所示示例中，绘制被指配（例如，采用循环（round robin）调度），其中绘制0和4被指配给GPU 2131，绘制1和5指配给GPU 2132，绘制2和6指配给GPU 2133，并且绘制图3和7指配给GPU 2134。

[0230] 然后，GPU 2131将针对绘制0而计算位置数据。在这样做时，它针对所有图块或图块的子集的该绘制中包含的顶点而生成可见性数据，然后将所述可见性数据传递到所有其它管芯/GPU 2132-2134。包含可见性数据的图块示出在图表的右侧并且标记为A0、A4...，B0、B4 ...，C0、C4 ...和D0、D4 ...。此可见性数据指示每个顶点在该图块上是否可见。因此，该实施例的POSH流水线2401-2404生成多个可见性流、每个图块的一个。一旦生成，可见性数据就被传递到每个管芯/GPU 2131-2134的完整渲染管道。在一个实施例中，可见性数据通过诸如NVLink或PCI快线（PCIe）的点对点管芯间/GPU互连而被传递。

[0231] 如图25中所示，每个管芯/GPU 2131-2134消耗可见性数据以及由应用提交的绘制。在该渲染传递期间，每个管芯/GPU 2131-2134的几何处理2501-2504仅处理在其拥有的棋盘格内的图块上实际可见的顶点，使用预先计算和共享的可见性数据2410过滤掉不相关的顶点。几何处理2501-2504可以包括但不限于顶点提取、顶点着色、外壳着色、曲面细分、域着色、光栅化、深度测试和几何着色。在一个实施例中，GPU 2131的几何着色器仅处理在图块A0-A4 ...上可见的顶点，但是不处理在图块B0-4、C0-4和D0-4上可见的顶点。类似地，GPU 2132的几何处理2502内的几何着色器仅处理在图块B0-4上可见的顶点，GPU 2133的几何处理2503内的几何着色器仅处理在图块C0-4上可见的顶点，以及GPU 2134的几何处理2504的几何着色器仅处理在图块D0-4上可见的顶点。

[0232] 每个管芯/GPU 2131-2134的像素处理电路/逻辑2511-2514对图块的每个相应集合中的像素执行着色操作（继光栅化之后）。然后将得到的图块的集合合并在帧缓冲器2550中并且在显示器（未示出）上渲染。

[0233] 在一个实施例中，图形驱动器和/或相关联的电路使用包括绘制GPU映射的每命令管芯/GPU关联掩码（affinity mask）来识别哪些绘制被指配给哪些管芯/GPU以用于进行几何处理。由此，驱动器和/或电路可以指定要使用的棋盘格图块图案和具有关联掩码的图块尺寸。在一个实施例中，可见性顶点数据2410由仅位置着色器电路针对所有图块而每顶点同时地生成。在备选实施例中，使用计算着色器来执行可见性计算并且生成每图块可见性缓冲器，而不是使用专用硬件。

[0234] 本发明的实施例可包括上面已经描述的各种步骤。这些步骤可以实施在机器可执行指令中，该机器可执行指令可以用于促使通用或专用处理器执行这些步骤。备选地，这些步骤可以由包含用于执行步骤的硬连线逻辑的特定硬件组件来执行，或者由编程的计算机组件和定制硬件组件的任何组合来执行。

[0235] 如本文所述，指令可以指代硬件（诸如被配置成执行某些操作或具有预确定功能性的专用集成电路（ASIC））的特定配置或存储在实施于非暂态性计算机可读介质的存储器中的软件指令。因此，可以使用在一个或多个电子装置（例如，终端站、网络元件等）上存储和执行的代码和数据来实现图中所示的技术。这种电子装置使用计算机机器可读介质（诸如，非暂态性计算机机器可读存储介质（例如，磁盘；光盘；随机存取存储器；只读存储器；闪速存储器装置；相变存储器）以及暂态性计算机机器可读通信介质（例如，电、光、声或其它形式的传播信号-——诸如载波、红外信号、数字信号等等））存储和传递（内部地和/或通过网络与其它电子装置之间）代码和数据。

[0236] 此外，这种电子装置通常包括一个或多个处理器的集合，其耦合到一个或多个其它组件，诸如一个或多个存储装置（非暂态性机器可读存储介质）、用户输入/输出装置（例如，键盘、触摸屏和/或显示器）以及网络连接。该处理器的集合和其它组件的耦合通常通过一个或多个总线和桥（也称为总线控制器）。存储装置和承载网络业务的信号分别代表一个或多个机器可读存储介质和机器可读通信介质。因此，给定电子装置的存储装置通常存储用于在该电子装置的一个或多个处理器的集合上执行的代码和/或数据。当然，使用软件、固件和/或硬件的不同组合可以实现本发明的实施例的一个或多个部分。贯穿该详细描述，出于解释的目的，阐述了许多特定细节以便提供对本发明的透彻理解。然而，对于本领域技术人员将清楚的是，可以在没有这些特定细节中的一些的情况下实践本发明。在某些示例下，没有详细描述众所周知的结构和功能，以便避免使本发明的主题晦涩。因此，本发明的范围和精神应根据所附的权利要求来判断。

标题	发布/更新时间	阅读量
一种基于终端的网络直播中视频实时美颜及推流的方法	2020-05-13	314
一种基于图着色的容器协同编排方法	2020-05-13	516
一种三维海底环境实时动态渲染方法和渲染系统	2020-05-17	512
基于共享频谱转换器的弹性光组播交换节点结构的双重权重极大团调度方法	2020-05-17	55
一种道路路况动态粒子流生成方法及装置	2020-05-16	415
数据展示方法及装置	2020-05-17	889
用于多管芯/GPU图形处理的基于位置的渲染设备和方法	2020-05-14	873
一种国土数据的三维可视化方法	2020-05-16	325
水波纹图像的生成方法、装置、设备及存储介质	2020-05-14	992
基于视频几何分析的三维场景渲染加速方法及系统	2020-05-16	62

用于多管芯/GPU图形处理的基于位置的渲染设备和方法

用于多管芯/GPU图形处理的基于位置的渲染设备和方法

技术领域

背景技术

发明内容

具体实施方式

该功能需要专业版企业版VIP权限，您可以：