首页 / 专利库 / 电脑零配件 / 看门狗定时器 / 粗略计算着色

粗略计算着色

阅读:237发布:2020-05-08

专利汇可以提供粗略计算着色专利检索,专利查询,专利分析的服务。并且本文所描述的 实施例 提供了一种装置,其包括:处理器,其用于在计算机可读 存储器 中维持多个先进先出(FIFO)队列结构,多个FIFO队列结构中的每一个与粗略选择分派速率相对应,接收 请求 消息以分派粗略计算 着色器 工作,该请求消息包括所请求的粗略选择分派速率和线程标识符,以及将请求消息存储在FIFO队列结构中,该FIFO队列结构具有与关联于请求消息的所请求的粗略选择分派速率相对应的粗略选择分派速率。可以描述并要求保护其他实施例。,下面是粗略计算着色专利的具体信息内容。

1.一种方法,包括:
在计算机可读存储器中维持多个先进先出(FIFO)队列结构,所述多个FIFO队列结构中的每一个与粗略选择分派速率相对应;
接收请求消息以分派粗略计算着色器工作,所述请求消息包括所请求的粗略选择分派速率和线程标识符;以及
将所述请求消息存储在FIFO队列结构中,所述FIFO队列结构具有与关联于所述请求消息的所请求的粗略选择分派速率相对应的粗略选择分派速率。
2.根据权利要求1所述的方法,还包括:
与所述请求消息一起接收有效载荷数据;以及
将所述有效载荷数据存储在所述计算机可读存储器中。
3.根据权利要求1所述的方法,还包括:
响应于确定所述FIFO队列结构包括足以利用完全填充的单指令多数据(SIMD)线程来分派所述粗略计算着色器工作的多个请求消息,而使用与所述FIFO队列结构的所述粗略选择分派速率相对应的着色器代码来生成具有用于分派计算着色器线程的指令的消息;以及将所述消息转发到线程分派器。
4.根据权利要求3所述的方法,还包括:
利用所述消息将所述FIFO队列结构中的数据释放到所述线程分派器。
5.根据权利要求1所述的方法,还包括:
响应于确定在所述FIFO队列结构包括足以利用完全填充的单指令多数据(SIMD)线程来分派所述粗略计算着色器工作的多个请求消息之前看定时器到期,而生成具有用于分派计算着色器线程的指令的消息,所述计算着色器线程具有与所述FIFO队列结构的所述粗略选择分派速率相对应的分派速率;以及
将所述消息转发到线程分派器。
6.根据权利要求5所述的方法,还包括:
利用所述消息将所述FIFO队列结构中的数据释放到所述线程分派器。
7.一种存储指令的非暂时性机器可读介质,所述指令当由一个或多个处理器执行时使得所述一个或多个处理器执行操作,所述操作包括:
在计算机可读存储器中维持多个先进先出(FIFO)队列结构,所述多个FIFO队列结构中的每一个与粗略选择分派速率相对应;
接收请求消息以分派粗略计算着色器工作,所述请求消息包括所请求的粗略选择分派速率和线程标识符;以及
将所述请求消息存储在FIFO队列结构中,所述FIFO队列结构具有与关联于所述请求消息的所请求的粗略选择分派速率相对应的粗略选择分派速率。
8.根据权利要求7所述的非暂时性机器可读介质,所述操作另外地包括:
与所述请求消息一起接收有效载荷数据;以及
将所述有效载荷数据存储在所述计算机可读存储器中。
9.根据权利要求7所述的非暂时性机器可读介质,所述操作另外地包括:
响应于确定所述FIFO队列结构包括足以利用完全填充的单指令多数据(SIMD)线程来分派所述粗略计算着色器工作的多个请求消息,而使用与所述FIFO队列结构的所述粗略选择分派速率相对应的着色器代码来生成具有用于分派计算着色器线程的指令的消息;以及将所述消息转发到线程分派器。
10.根据权利要求9所述的非暂时性机器可读介质,所述操作另外地包括:
利用所述消息将所述FIFO队列结构中的数据释放到所述线程分派器。
11.根据权利要求7所述的非暂时性机器可读介质,所述操作另外地包括:
响应于确定在所述FIFO队列结构包括足以利用完全填充的单指令多数据(SIMD)线程来分派所述粗略计算着色器工作的多个请求消息之前看门狗定时器到期,而生成具有用于分派计算着色器线程的指令的消息,所述计算着色器线程具有与所述FIFO队列结构的所述粗略选择分派速率相对应的分派速率;以及
将所述消息转发到线程分派器。
12.根据权利要求11所述的非暂时性机器可读介质,所述操作另外地包括:
确定区域的平均细节频率参数;以及
确定所述区域的标准偏差细节频率参数。
13.一种装置,包括:
处理器,其用于:
在计算机可读存储器中维持多个先进先出(FIFO)队列结构,所述多个FIFO队列结构中的每一个与粗略选择分派速率相对应;
接收请求消息以分派粗略计算着色器工作,所述请求消息包括所请求的粗略选择分派速率和线程标识符;以及
将所述请求消息存储在FIFO队列结构中,所述FIFO队列结构具有与关联于所述请求消息的所请求的粗略选择分派速率相对应的粗略选择分派速率;以及
存储器,其与所述处理器通信地耦合。
14.根据权利要求13所述的装置,所述处理器用于:
与所述请求消息一起接收有效载荷数据;以及
将所述有效载荷数据存储在所述计算机可读存储器中。
15.根据权利要求13所述的装置,所述处理器用于:
响应于确定所述FIFO队列结构包括足以利用完全填充的单指令多数据(SIMD)线程来分派所述粗略计算着色器工作的多个请求消息,而使用与所述FIFO队列结构的所述粗略选择分派速率相对应的着色器代码来生成具有用于分派计算着色器线程的指令的消息;以及将所述消息转发到线程分派器。
16.根据权利要求13所述的装置,所述处理器用于:
利用所述消息将所述FIFO队列结构中的数据释放到所述线程分派器。
17.根据权利要求13所述的装置,所述处理器用于:
响应于确定在所述FIFO队列结构包括足以利用完全填充的单指令多数据(SIMD)线程来分派所述粗略计算着色器工作的多个请求消息之前看门狗定时器到期,而生成具有用于分派计算着色器的指令的消息,所述计算着色器具有与所述FIFO队列结构的所述粗略选择分派速率相对应的分派速率;以及
将所述消息转发到线程分派器。
18.根据权利要求17所述的装置,所述处理器用于:
利用所述消息将所述FIFO队列结构中的数据释放到所述线程分派器。

说明书全文

粗略计算着色

背景技术

[0001] 本文所描述的主题总体上涉及图形处理。
[0002] 在图形处理领域中,术语“着色”通常指代将光照效果应用于要在显示设备上描绘的对象的进程或一组进程。着色是计算昂贵的,因此消耗大量功率。因此,用于改进着色效率的技术可以例如在图形处理应用中使用。附图说明
[0003] 因此,可以通过参考实施例获得可以详细地理解本发明的上面引述的特征的方式、上面简要概述的对实施例更具体的描述,实施例中的一些在附图中示出。然而,应该注意到附图仅示出了典型的实施例,因此不应该被认为限制其范围。
[0004] 图1是根据本文所描述的一些实施例的处理系统的框图
[0005] 图2是根据本文所描述的一些实施例的处理器的框图;
[0006] 图3是根据本文所描述的一些实施例的图形处理器的框图;
[0007] 图4是根据本文所描述的一些实施例的图形处理器的图形处理引擎的框图;
[0008] 图5是根据本文所描述的一些实施例的图形处理器核心的硬件逻辑的框图;
[0009] 图6A-6B示出了根据本文所描述的实施例的包括在图形处理器核心中采用的处理元件的阵列的线程执行逻辑;
[0010] 图7是示出根据本文所描述的一些实施例的图形处理器指令格式的框图;
[0011] 图8是根据本文所描述的一些实施例的图形处理器的框图;
[0012] 图9A-9B示出了根据本文所描述的一些实施例的图形处理器命令格式和命令序列;
[0013] 图10示出了根据本文所描述的一些实施例的用于数据处理系统的示例性图形软件架构;
[0014] 图11A是示出根据本文所描述的一些实施例的IP核心开发系统的框图;
[0015] 图11B示出了根据本文所描述的一些实施例的集成电路封装组装件的横截面侧视图;
[0016] 图12是示出根据实施例的示例性片上系统集成电路的框图;
[0017] 图13A-13B是示出根据本文所描述的实施例的在SoC内使用的示例性图形处理器的框图;
[0018] 图14A-14B示出了根据本文所描述的实施例的附加的示例性图形处理器逻辑;
[0019] 图15A示出了根据本文所描述的实施例的数据处理系统
[0020] 图15B是示出根据本文所描述的实施例的注视点渲染的一个实现方式中的操作的流程图
[0021] 图16示出了根据本文所描述的实施例的适用于实现粗略计算着色的数据处理系统的方面;
[0022] 图17示出了根据本文所描述的一些实施例的适用于实现粗略计算着色的数据处理系统的方面;
[0023] 图18是示出根据本文所描述的实施例的用于实现粗略计算着色的方法中的操作的流程图;
[0024] 图19是示出根据本文所描述的实施例的用于实现粗略计算着色的方法中的操作的流程图;
[0025] 图20是根据本文所描述的一些实施例的包括图形处理器的计算设备的框图。

具体实施方式

[0026] 出于解释的目的,阐述了许多具体细节以提供对下面描述的各种实施例的透彻理解。然而,对于本领域技术人员来说显而易见的是,可以在没有这些具体细节中的一些的情况下实践这些实施例。在其他实例中,以框图形式示出了公知的结构和设备,以避免模糊基本原理,并且提供对实施例的更透彻的理解。尽管参考图形处理器描述了以下实施例中的一些,但是本文所描述的技术和教导可以应用于各种类型的电路或半导体器件,包括通用处理设备或图形处理设备。本文对“一个实施例”或“实施例”的引用表示结合实施例或与实施例相关联地描述的特定特征、结构或特性可以包括在这样的实施例中的至少一个中。然而,在说明书中各处出现的短语“在一个实施例中”并不一定都指代同一实施例。
[0027] 在以下说明书和权利要求书中,可以使用术语“耦合”和“连接”以及它们的衍生物。应该理解的是,这些术语并不旨在作为彼此的同义词。“耦合”用于指示两个或更多个元件彼此协作或相互作用,这些元件可以或可以不彼此直接物理接触或电接触。“连接”用于指示在彼此耦合的两个或更多个元件之间建立通信。
[0028] 在下面的描述中,图1-14提供了对包含或涉及各种实施例的示例性数据处理系统和图形处理器逻辑的概述。图15-25提供了各种实施例的具体细节。参考图形处理器描述了以下实施例的一些方面,而关于诸如中央处理单元(CPU)之类的通用处理器描述了其他方面。类似的技术和教导可以应用于其他类型的电路或半导体器件,包括但不限于现场可编程阵列(FPGA)的一个或多个实例或多集成核心处理器、GPU集群。通常,该教导适用于操纵或处理图像(例如,样本、像素)、顶点数据或几何数据的任何处理器或机器。
[0029] 系统概述
[0030] 图1是根据实施例的处理系统100的框图。在各种实施例中,系统100包括一个或多个处理器102以及一个或多个图形处理器108,并且系统100可以是单个处理器台式系统、多处理器工作站系统或具有大量处理器102或处理器核心107的服务器系统。在一个实施例中,系统100是结合在片上系统(SoC)集成电路内以在移动、手持或嵌入式设备中使用的处理平台。
[0031] 在一个实施例中,系统100可以包括或结合在基于服务器的游戏平台、游戏控制台内,该游戏控制台包括游戏和媒体控制台、移动游戏控制台、手持游戏控制台或在线游戏控制台。在一些实施例中,系统100是移动电话、智能电话、平板计算设备或移动互联网设备。处理系统100还可以包括可穿戴设备(例如,智能手表可穿戴设备、智能眼镜设备、增强现实设备或虚拟现实设备)、与该可穿戴设备耦合或集成在该可穿戴设备内。在一些实施例中,处理系统100是具有一个或多个处理器102以及由一个或多个图形处理器108生成的图形界面的电视或机顶盒设备。
[0032] 在一些实施例中,一个或多个处理器102各自包括用于处理指令的一个或多个处理器核心107,当该指令被执行时执行针对系统和用户软件的操作。在一些实施例中,一个或多个处理器核心107中的每一个被配置用于处理特定的指令集109。在一些实施例中,指令集109可以促进复杂指令集计算(CISC)、精简指令集计算(RISC)或经由超长指令字(VLIW)的计算。多个处理器核心107可以各自处理不同的指令集109,不同的指令集109可以包括用于促进对其他指令集的仿真的指令。处理器核心107还可以包括其他处理设备,例如,数字信号处理器(DSP)。
[0033] 在一些实施例中,处理器102包括高速缓冲存储器104。取决于架构,处理器102可以具有单个内部高速缓存或多个级别的内部高速缓存。在一些实施例中,高速缓冲存储器在处理器102的各种组件之间共享。在一些实施例中,处理器102还使用外部高速缓存(例如,3级(L3)高速缓存或最后一级高速缓存(LLC))(未示出),其可以使用已知的高速缓存一致性技术在处理器核心107之间共享。寄存器文件106另外地包括在处理器102中,该寄存器文件106可以包括用于存储不同类型数据的不同类型的寄存器(例如,整数寄存器、浮点寄存器、状态寄存器和指令指针寄存器)。一些寄存器可以是通用寄存器,而其他寄存器可以是特定于处理器102的设计的。
[0034] 在一些实施例中,一个或多个处理器102与一个或多个接口总线110耦合,以在处理器102与系统100中的其他组件之间传输诸如地址信号、数据信号或控制信号之类的通信信号。在一个实施例中,接口总线110可以是处理器总线,例如,直接媒体接口(DMI)总线的版本。然而,处理器总线不限于DMI总线,并且可以包括一个或多个外围组件互连总线(例如,PCI、PCI快速)、存储器总线或其他类型的接口总线。在一个实施例中,(多个)处理器102包括集成存储器控制器116和平台控制器中心130。存储器控制器116促进存储器设备与系统100的其他组件之间的通信,而平台控制器中心(PCH)130提供经由本地I/O总线与I/O设备的连接。
[0035] 存储器设备120可以是动态随机存取存储器(DRAM)设备、静态随机存取存储器(SRAM)设备、闪速存储器设备、相变存储器设备或具有合适性能以用作过程存储器的一些其他存储器设备。在一个实施例中,存储器设备120可以作为系统100的系统存储器操作,以存储数据122和指令121,以便在一个或多个处理器102执行应用或过程时使用。存储器控制器116还与可选的外部图形处理器112耦合,该外部图形处理器112可以与处理器102中的一个或多个图形处理器108通信以执行图形操作和媒体操作。在一些实施例中,显示设备111可以连接到(多个)处理器102。显示设备111可以是内部显示设备(如在移动电子设备或膝上型设备中)或者经由显示接口(例如,显示端口(DisplayPort)等)附接的外部显示设备中的一个或多个。在一个实施例中,显示设备111可以是头戴式显示器(HMD),例如,用于虚拟现实(VR)应用或增强现实(AR)应用的立体显示设备。
[0036] 在一些实施例中,平台控制器中心130使得外围设备能够经由高速I/O总线连接到存储器设备120和处理器102。I/O外围设备包括但不限于音频控制器146、网络控制器134、固件接口128、无线收发器126、触摸传感器125、数据存储设备124(例如,硬盘驱动器、闪速存储器等)。数据存储设备124可以经由存储接口(例如,SATA)或经由外围总线(例如,外围组件互连总线(例如,PCI、PCI快速))连接。触摸传感器125可以包括触摸屏传感器、传感器或指纹传感器。无线收发器126可以是Wi-Fi收发器、蓝牙收发器或诸如3G、4G或长期演进(LTE)收发器之类的移动网络收发器。固件接口128实现与系统固件的通信,并且可以是例如统一可扩展固件接口(UEFI)。网络控制器134可以实现与有线网络的网络连接。在一些实施例中,高性能网络控制器(未示出)与接口总线110耦合。在一个实施例中,音频控制器146是多通道高清晰度音频控制器。在一个实施例中,系统100包括用于将传统(例如,个人系统2(PS/2))设备与系统耦合的可选的传统I/O控制器140。平台控制器中心130还可以连接到一个或多个通用串行总线(USB)控制器142以连接输入设备,例如,键盘鼠标143组合、相机144或其他USB输入设备。
[0037] 将要认识到的是,所示的系统100是示例性的而非限制性的,因为还可以使用被不同配置的其他类型的数据处理系统。例如,存储器控制器116和平台控制器中心130的实例可以集成到分立的外部图形处理器(例如,外部图形处理器112)中。在一个实施例中,平台控制器中心130和/或存储器控制器160可以在一个或多个处理器102的外部。例如,系统100可以包括外部存储器控制器116和平台控制器中心130,其可以被配置作为在与(多个)处理器102通信的系统芯片组内的存储器控制器中心和外围控制器中心。
[0038] 图2是具有一个或多个处理器核心202A-202N、集成存储器控制器214和集成图形处理器208的处理器200的实施例的框图。图2中具有与本文任何其他附图中的元件相同的附图标记(或名称)的那些元件可以以与本文其他地方描述的方式类似的任何方式操作或起作用,但不限于此。处理器200可以包括附加的核心,直到包括由虚线框表示的附加核心202N。处理器核心202A-202N中的每一个包括一个或多个内部高速缓存单元204A-204N。在一些实施例中,每个处理器核心还具有对一个或多个共享高速缓存单元206的访问权。
[0039] 内部高速缓存单元204A-204N和共享高速缓存单元206表示处理器200内的高速缓冲存储器层级。高速缓冲存储器层级可以包括每个处理器核心内的至少一个级别的指令和数据高速缓存以及一个或多个级别的共享中间级别高速缓存,例如,2级(L2)、3级(L3)、4级(L4)或其他级别的高速缓存,其中外部存储器之前的最高级别的高速缓存被分类为LLC。在一些实施例中,高速缓存一致性逻辑维持各种高速缓存单元206和204A-204N之间的一致性。
[0040] 在一些实施例中,处理器200还可以包括一个或多个总线控制器单元216的集合和系统代理核心210。一个或多个总线控制器单元216管理外围总线的集合(例如,一个或多个PCI或PCI快速总线)。系统代理核心210为各种处理器组件提供管理功能。在一些实施例中,系统代理核心210包括一个或多个集成存储器控制器214以管理对各种外部存储器设备(未示出)的访问。
[0041] 在一些实施例中,处理器核心202A-202N中的一个或多个包括对同时多线程的支持。在这样的实施例中,系统代理核心210包括用于在多线程处理期间协调并操作核心202A-202N的组件。系统代理核心210可以另外地包括功率控制单元(PCU),其包括用于调节处理器核心202A-202N和图形处理器208的功率状态的逻辑和组件。
[0042] 在一些实施例中,处理器200另外地包括用于执行图形处理操作的图形处理器208。在一些实施例中,图形处理器208与共享高速缓存单元206的集合以及包括一个或多个集成存储器控制器214的系统代理核心210耦合。在一些实施例中,系统代理核心210还包括显示控制器211,其用于将图形处理器输出驱动到一个或多个耦合的显示器。在一些实施例中,显示控制器211还可以是经由至少一个互连与图形处理器耦合的单独模,或者显示控制器211可以集成在图形处理器208内。
[0043] 在一些实施例中,基于环形的互连单元212用于耦合处理器200的内部组件。然而,可以使用替代的互连单元,例如,点对点互连、交换互连或包括本领域公知的技术的其他技术。在一些实施例中,图形处理器208经由I/O链路213与环形互连212耦合。
[0044] 示例性I/O链路213表示多种I/O互连中的至少一种,包括促进各种处理器组件与高性能嵌入式存储器模块218(例如,eDRAM模块)之间的通信的封装上I/O互连。在一些实施例中,处理器核心202A-202N中的每一个和图形处理器208使用嵌入式存储器模块218作为共享的最后一级高速缓存。
[0045] 在一些实施例中,处理器核心202A-202N是执行相同指令集架构的同构核心。在另一实施例中,处理器核心202A-202N在指令集架构(ISA)方面是异构的,其中处理器核心202A-202N中的一个或多个执行第一指令集,而其他核心中的至少一个执行第一指令集的子集或不同的指令集。在一个实施例中,处理器核心202A-202N在微架构方面是异构的,其中具有相对较高功耗的一个或多个核心与具有较低功耗的一个或多个功率核心耦合。另外地,处理器200可以在一个或多个芯片上实现或者实现为具有所示组件以及其他组件的SoC集成电路。
[0046] 图3是图形处理器300的框图,图形处理器300可以是分立的图形处理单元,或者可以是与多个处理核心集成的图形处理器。在一些实施例中,图形处理器经由与图形处理器上的寄存器的存储器映射的I/O接口并且利用放置在处理器存储器中的命令进行通信。在一些实施例中,图形处理器300包括用于对存储器进行访问的存储器接口314。存储器接口314可以是与本地存储器、一个或多个内部高速缓存、一个或多个共享外部高速缓存和/或系统存储器的接口。
[0047] 在一些实施例中,图形处理器300还包括显示控制器302,其用于将显示输出数据驱动到显示设备320。显示控制器302包括用于显示或组成视频或用户界面元素的多个层的一个或多个覆盖平面的硬件。显示设备320可以是内部或外部显示设备。在一个实施例中,显示设备320是头戴式显示设备,例如,虚拟现实(VR)显示设备或增强现实(AR)显示设备。在一些实施例中,图形处理器300包括视频编解码器引擎306,其用于将媒体编码、解码为一种或多种媒体编码格式,将媒体从一种或多种媒体编码格式进行编码、解码或者将媒体在一种或多种媒体编码格式之间进行转码,该一种或多种媒体编码格式包括但不限于运动图像专家组(MPEG)格式(例如,MPEG-2)、高级视频编码(AVC)格式(例如,H.264/MPEG-4AVC)以及电影电视工程师协会(SMPTE)421M/VC-1和联合图像专家组(JPEG)格式(例如,JPEG和运动JPEG(MJPEG)格式)。
[0048] 在一些实施例中,图形处理器300包括块图像传送(BLIT)引擎304,其用于执行二维(2D)光栅化操作,包括例如位边界块传送。然而,在一个实施例中,使用图形处理引擎(GPE)310的一个或多个组件来执行2D图形操作。在一些实施例中,GPE 310是用于执行图形操作的计算引擎,该图形操作包括三维(3D)图形操作和媒体操作。
[0049] 在一些实施例中,GPE 310包括用于执行3D操作(例如,使用作用于3D基元形状(例如,矩形、三形等)的处理功能来渲染三维图像和场景)的3D流线312。3D流水线312包括可编程功能元件和固定功能元件,其执行元件内的各种任务和/或向3D/媒体子系统315产生执行线程。虽然3D流水线312可以用于执行媒体操作,但是GPE 310的实施例还包括媒体流水线316,该媒体流水线316专门用于执行媒体操作,例如,视频后处理和图像增强。
[0050] 在一些实施例中,媒体流水线316包括固定功能逻辑单元或可编程逻辑单元,以代替或代表视频编解码器引擎306执行一个或多个专用媒体操作,例如,视频解码加速、视频反交错和视频编码加速。在一些实施例中,媒体流水线316另外地包括线程产生单元以产生用于在3D/媒体子系统315上执行的线程。产生的线程在3D/媒体子系统315中包括的一个或多个图形执行单元上执行针对媒体操作的计算。
[0051] 在一些实施例中,3D/媒体子系统315包括用于执行由3D流水线312和媒体流水线316产生的线程的逻辑。在一个实施例中,流水线将线程执行请求发送到3D/媒体子系统
315,该3D/媒体子系统315包括用于对针对可用线程执行资源的各种请求进行仲裁和分派的线程分派逻辑。执行资源包括用于处理3D线程和媒体线程的图形执行单元的阵列。在一些实施例中,3D/媒体子系统315包括用于线程指令和数据的一个或多个内部高速缓存。在一些实施例中,子系统还包括共享存储器,其包括寄存器和可寻址存储器,以在线程之间共享数据并且存储输出数据。
[0052] 图形处理引擎
[0053] 图4是根据一些实施例的图形处理器的图形处理引擎410的框图。在一个实施例中,图形处理引擎(GPE)410是图3中所示的GPE 310的一个版本。图4中具有与本文任何其他附图中的元件相同的附图标记(或名称)的元件可以以与本文其他地方描述的方式类似的任何方式操作或起作用,但不限于此。例如,示出了图3的3D流水线312和媒体流水线316。媒体流水线316在GPE 410的一些实施例中是可选的,并且可以不明确地包括在GPE 410内。例如,在至少一个实施例中,单独的媒体和/或图像处理器与GPE 410耦合。
[0054] 在一些实施例中,GPE 410与命令流送器403耦合或者包括命令流送器403,该命令流送器403向3D流水线312和/或媒体流水线316提供命令流。在一些实施例中,命令流送器403与存储器耦合,该存储器可以是系统存储器或者是内部高速缓冲存储器和共享高速缓冲存储器中的一个或多个。在一些实施例中,命令流送器403接收来自存储器的命令并且将命令发送到3D流水线312和/或媒体流水线316。该命令是从环形缓冲器获取的指令,该环形缓冲器存储用于3D流水线312和媒体流水线316的命令。在一个实施例中,环形缓冲器可以另外地包括存储多个命令的批的批命令缓冲器。用于3D流水线312的命令还可以包括对存储在存储器中的数据的引用,例如但不限于用于3D流水线312的顶点和几何数据和/或用于媒体流水线316的图像数据和存储器对象。3D流水线312和媒体流水线316通过经由相应流水线内的逻辑执行操作或者通过将一个或多个执行线程分派给图形核心阵列414来处理命令和数据。在一个实施例中,图形核心阵列414包括一个或多个图形核心块(例如,(多个)图形核心415A、(多个)图形核心415B),每个块包括一个或多个图形核心。每个图形核心包括图形执行资源的集合,其包括用于执行图形和计算操作的通用执行逻辑和图形特定执行逻辑,以及固定功能纹理处理和/或机器学习人工智能加速逻辑。
[0055] 在各种实施例中,3D流水线312包括固定功能逻辑和可编程逻辑,以通过处理指令以及将执行线程分派给图形核心阵列414来处理一个或多个着色器程序,例如,顶点着色器程序、几何着色器程序、像素着色器程序、片段着色器程序、计算着色器程序或其他着色器程序。图形核心阵列414提供统一的执行资源块以用于处理这些着色器程序。图形核心阵列414的(多个)图形核心415A-415B内的多用途执行逻辑(例如,执行单元)包括对各种3D API着色器语言的支持,并且可以执行与多个着色器相关联的多个同时执行线程。
[0056] 在一些实施例中,图形核心阵列414还包括用于执行媒体功能(例如视频和/或图像处理)的执行逻辑。在一个实施例中,除了图形处理操作之外,执行单元另外地包括可编程以执行并行通用计算操作的通用逻辑。通用逻辑可以并行地或结合图1的(多个)处理器核心107或如图2中的核心202A-202N内的通用逻辑来执行处理操作。
[0057] 由在图形核心阵列414上执行的线程生成的输出数据可以将数据输出到统一返回缓冲器(URB)418中的存储器。URB 418可以存储用于多个线程的数据。在一些实施例中,URB 418可以用于在图形核心阵列414上执行的不同线程之间发送数据。在一些实施例中,URB 
418可以另外地用于在图形核心阵列上的线程与共享功能逻辑420内的固定功能逻辑之间进行同步。
[0058] 在一些实施例中,图形核心阵列414是可扩展的,使得阵列包括可变数量的图形核心,每个图形核心基于GPE 410的目标功率和性能水平具有可变数量的执行单元。在一个实施例中,执行资源是动态可扩展的,使得可以根据需要启用或禁用执行资源。
[0059] 图形核心阵列414与共享功能逻辑420耦合,该共享功能逻辑420包括在图形核心阵列中的图形核心之间共享的多个资源。共享功能逻辑420内的共享功能是向图形核心阵列414提供专用补充功能的硬件逻辑单元。在各种实施例中,共享功能逻辑420包括但不限于采样器421、数学422和线程间通信(ITC)423逻辑。另外地,一些实施例在共享功能逻辑420内实现一个或多个高速缓存425。
[0060] 在针对给定专用功能的需求对于包括在图形核心阵列414内而言不足的情况下实现共享功能。相反,该专用功能的单个实例化在共享功能逻辑420中实现为独立实体,并且在图形核心阵列414内的执行资源之间共享。在图形核心阵列414之间共享并且包括在图形核心阵列414内的功能的精确集合跨实施例而变化。在一些实施例中,共享功能逻辑420内的由图形核心阵列414广泛使用的特定共享功能可以被包括在图形核心阵列414内的共享功能逻辑416内。在各种实施例中,图形核心阵列414内的共享功能逻辑416可以包括共享功能逻辑420内的一些或所有逻辑。在一个实施例中,共享功能逻辑420内的所有逻辑元件可以在图形核心阵列414的共享功能逻辑416内复制。在一个实施例中,共享功能逻辑420被排除以支持图形核心阵列414内的共享功能逻辑416。
[0061] 图5是根据本文所描述的一些实施例的图形处理器核心500的硬件逻辑的框图。图5中具有与本文任何其他附图中的元件相同的附图标记(或名称)的元件可以以与本文其他地方描述的方式类似的任何方式操作或起作用,但不限于此。在一些实施例中,示出的图形处理器核心500被包括在图4的图形核心阵列414内。图形处理器核心500(有时称为核心切片)可以是模块化图形处理器内的一个或多个图形核心。图形处理器核心500是一个图形核心切片的示例,并且如本文所描述的图形处理器可以基于目标功率和性能包络包括多个图形核心切片。每个图形核心500可以包括与多个子核心501A-501F(也称为子切片,其包括通用逻辑和固定功能逻辑的模块化块)耦合的固定功能块530。
[0062] 在一些实施例中,固定功能块530包括几何/固定功能流水线536,其可以由图形处理器500中的所有子核心共享,例如,在较低性能和/或较低功率图形处理器实现方式中。在各种实施例中,几何/固定功能流水线536包括3D固定功能流水线(例如,如图3和图4中的3D流水线312)、视频前端单元、线程产生器和线程分派器,以及管理统一返回缓冲器(例如,图4的统一返回缓冲器418)的统一返回缓冲器管理器。
[0063] 在一个实施例中,固定功能块530还包括图形SoC接口537、图形微控制器538和媒体流水线539。图形SoC接口537提供图形核心500与片上系统集成电路内的其他处理器核心之间的接口。图形微控制器538是可编程子处理器,其可配置用于管理图形处理器500的各种功能,包括线程分派、调度和抢占。媒体流水线539(例如,图3和图4的媒体流水线316)包括用于促进对多媒体数据(包括图像数据和视频数据)进行解码、编码、预处理和/或后处理的逻辑。媒体流水线539经由对在子核心501A-501F内的计算逻辑或采样逻辑的请求来实现媒体操作。
[0064] 在一个实施例中,SoC接口537使得图形核心500能够与通用应用处理器核心(例如,CPU)和/或SoC内的其他组件(包括存储器层级元件,例如,共享最后一级高速缓冲存储器、系统RAM和/或嵌入式片上或封装上DRAM)通信。SoC接口537还可以实现与SoC内的固定功能设备(例如,相机成像流水线)的通信,并且使得能够使用和/或实现可以在图形核心500与SoC内的CPU之间共享的全局存储器原子。SoC接口537还可以实现对图形核心500的功率管理控制,并且启用图形核心500的时钟域与SoC内的其他时钟域之间的接口。在一个实施例中,SoC接口537实现对来自命令流送器和全局线程分派器的命令缓冲器的接收,命令流送器和全局线程分派器被配置为向图形处理器内的一个或多个图形核心中的每一个提供命令和指令。当要执行媒体操作时,可以将命令和指令分派给媒体流水线539,或者当要执行图形处理操作时,可以将命令和指令分派给几何和固定功能流水线(例如,几何和固定功能流水线536、几何和固定功能流水线514)。
[0065] 图形微控制器538可以被配置为执行针对图形核心500的各种调度和管理任务。在一个实施例中,图形微控制器538可以对子核心501A-501F内的执行单元(EU)阵列502A-502F、504A-504F内的各种图形并行引擎执行图形和/或计算工作负载调度。在该调度模型中,在包括图形核心500的SoC的CPU核心上执行的主机软件可以提交多个图形处理器门铃中的一个的工作负载,该图形处理器门铃在适当的图形引擎上调用调度操作。调度操作包括确定下一个要运行的工作负载,将工作负载提交给命令流送器,抢占引擎上运行的现有工作负载,监视工作负载的进程,以及当工作负载完成时通知主机软件。在一个实施例中,图形微控制器538还可以促进图形核心500的低功率或空闲状态,从而独立于操作系统和/或系统上的图形驱动软件而跨低功率状态转换为图形核心500提供保存并恢复图形核心
500内的寄存器的能力。
[0066] 图形核心500可以具有多于或少于所示的子核心501A-501F,最多具有N个模块化子核心。对于N个子核心的每个集合,图形核心500还可以包括共享功能逻辑510、共享和/或高速缓冲存储器512、几何/固定功能流水线514以及用于加速各种图形和计算处理操作的附加的固定功能逻辑516。共享功能逻辑510可以包括与图4的共享功能逻辑420(例如,采样器逻辑、数学逻辑和/或线程间通信逻辑)相关联的逻辑单元,这些逻辑单元可以由图形核心500内的N个子核心中的每一个共享。共享和/或高速缓冲存储器512可以是针对图形核心500内的N个子核心501A-501F的集合的最后一级高速缓存,并且还可以用作可由多个子核心访问的共享存储器。在固定功能块530内可以包括几何/固定功能流水线514而不是几何/固定功能流水线536,并且可以包括相同或类似的逻辑单元。
[0067] 在一个实施例中,图形核心500包括附加的固定功能逻辑516,该固定功能逻辑516可以包括供图形核心500使用的各种固定功能加速逻辑。在一个实施例中,附加的固定功能逻辑516包括用于仅位置着色的附加几何流水线。在仅位置着色中,存在两种几何流水线:剔除(cull)流水线以及几何/固定功能流水线516、536内的完整几何流水线流水线,该剔除流水线是可以被包括在附加的固定功能逻辑516内的附加的几何流水线。在一个实施例中,剔除流水线是完整几何流水线的经裁减的版本。完整流水线和剔除流水线可以执行相同应用的不同实例,每个实例具有单独的上下文。仅位置着色可以隐藏已丢弃的三角形的长剔除运行,从而使得能够在某些实例中更早地完成着色。例如,在一个实施例中,附加的固定功能逻辑516内的剔除流水线逻辑可以与主应用并行地执行位置着色器,并且通常比完整流水线更快地生成关键结果,因为剔除流水线仅获取顶点的位置属性并对其进行着色,而没有执行将像素光栅化和渲染到缓冲器。剔除流水线可以使用生成的关键结果来计算所有三角形的可见性信息,而不考虑这些三角形是否被剔除。完整流水线(在该实例中可以称为重放流水线)可以消耗可见性信息以跳过经剔除的三角形以仅对最终传递到光栅化阶段的可见三角形进行着色。
[0068] 在一个实施例中,附加的固定功能逻辑516还可以包括机器学习加速逻辑,例如,固定功能矩阵乘法逻辑,其用于包括针对机器学习训练或推理的优化在内的实现方式。
[0069] 在每个图形子核心501A-501F内包括执行资源的集合,该执行资源的集合可以用于响应于图形流水线、媒体流水线或着色器程序的请求来执行图形、媒体和计算操作。图形子核心501A-501F包括多个EU阵列502A-502F、504A-504F、线程分派和线程间通信(TD/IC)逻辑503A-503F、3D(例如,纹理)采样器505A-505F、媒体采样器506A-506F、着色器处理器507A-507F、以及共享本地存储器(SLM)508A-508F。EU阵列502A-502F、504A-504F各自包括多个执行单元,多个执行单元是能够在图形、媒体或计算操作的服务(包括图形、媒体或计算着色器程序)中执行浮点和整数/定点逻辑操作的通用图形处理单元。TD/IC逻辑503A-
503F针对子核心内的执行单元执行本地线程分派和线程控制操作,并且促进在子核心的执行单元上执行的线程之间的通信。3D采样器505A-505F可以将纹理或其他3D图形相关数据读取到存储器中。3D采样器可以基于配置的样本状态以及与给定纹理相关联的纹理格式来不同地读取纹理数据。媒体采样器506A-506F可以基于与媒体数据相关联的类型和格式来执行类似的读取操作。在一个实施例中,每个图形子核心501A-501F可以替代地包括统一3D和媒体采样器。在子核心501A-501F中的每一个内的执行单元上执行的线程可以利用每个子核心内的共享本地存储器508A-508F,以使得在线程组内执行的线程能够使用片上存储器的公共池来执行。
[0070] 执行单元
[0071] 图6A-6B示出了根据本文所描述的实施例的包括在图形处理器核心中采用的处理元件的阵列的线程执行逻辑600。图6A-6B中具有与本文任何其他附图中的元件相同的附图标记(或名称)的元件可以以与本文其他地方描述的方式类似的任何方式操作或起作用,但不限于此。图6A示出了线程执行逻辑600的概述,该线程执行逻辑600可以包括利用图5的每个子核心501A-501F示出的硬件逻辑的变体。图6B示出了执行单元的示例性内部细节。
[0072] 如图6A中示出的,在一些实施例中,线程执行逻辑600包括着色器处理器602、线程分派器604、指令高速缓存606、包括多个执行单元608A-608N的可扩展执行单元阵列、采样器610、数据高速缓存612和数据端口614。在一个实施例中,可扩展执行单元阵列可以通过基于工作负载的计算要求启用或禁用一个或多个执行单元(例如,执行单元608A、608B、608C、608D到608N-1和608N中的任一个)来动态地扩展。在一个实施例中,所包括的组件经由互连结构互连,该互连结构链接到组件中的每一个。在一些实施例中,线程执行逻辑600包括通过指令高速缓存606、数据端口614、采样器610和执行单元608A-608N中的一个或多个与存储器(例如,系统存储器或高速缓冲存储器)的一个或多个连接。在一些实施例中,每个执行单元(例如,608A)是独立的可编程通用计算单元,其能够执行多个同时硬件线程,同时针对每个线程并行处理多个数据元素。在各种实施例中,执行单元608A-608N的阵列是可扩展的以包括任何数量的单独的执行单元。
[0073] 在一些实施例中,执行单元608A-608N主要用于执行着色器程序。着色器处理器602可以经由线程分派器604处理各种着色器程序并且分派与着色器程序相关联的执行线程。在一个实施例中,线程分派器包括用于仲裁来自图形流水线和媒体流水线的线程启动请求并且在执行单元608A-608N中的一个或多个执行单元上对所请求的线程进行实例化的逻辑。例如,几何流水线可以将顶点着色器、曲面细分着色器或几何着色器分派给线程执行逻辑以进行处理。在一些实施例中,线程分派器604还可以处理来自执行中的着色器程序的运行时线程产生请求。
[0074] 在一些实施例中,执行单元608A-608N支持包括对许多标准3D图形着色器指令的本地支持的指令集,使得来自图形库(例如,Direct 3D和OpenGL)的着色器程序在最小转换的情况下执行。执行单元支持顶点和几何处理(例如,顶点程序、几何程序、顶点着色器)、像素处理(例如,像素着色器、片段着色器)和通用处理(例如,计算着色器和媒体着色器)。执行单元608A-608N中的每一个能够进行多次发布单指令多数据(SIMD)执行,并且多线程操作在面对较高延迟的存储器访问时实现高效的执行环境。每个执行单元内的每个硬件线程都具有专用的高带宽寄存器文件和相关联的独立线程状态。执行是每时钟多次发布到能够进行整数、单精度和双精度浮点运算、具有SIMD分支能力、能够进行逻辑运算、超越运算和其他杂项运算的流水线的。在等待来自共享功能中的一个或存储器的数据时,执行单元608A-608N内的相关性逻辑使得等待线程休眠,直到已经返回所请求的数据。当等待线程处于休眠时,硬件资源可能专用于处理其他线程。例如,在与顶点着色器操作相关联的延迟期间,执行单元可以执行针对像素着色器、片段着色器或其他类型的着色器程序(包括不同的顶点着色器)的操作。
[0075] 在执行单元608A-608N中的每个执行单元对数据元素的阵列进行操作。数据元素的数量是“执行大小”或者用于指令的通道的数量。执行通道是用于数据元素访问、掩蔽和指令内流控制的逻辑执行单元。通道的数量可以独立于针对特定图形处理器的物理算术逻辑单元(ALU)或浮点单元(FPU)的数量。在一些实施例中,执行单元608A-608N支持整数和浮点数据类型。
[0076] 执行单元指令集包括SIMD指令。各种数据元素可以作为打包数据类型存储在寄存器中,并且执行单元将基于元素的数据大小处理各种元素。例如,当对256位宽向量进行操作时,向量的256位存储在寄存器中,并且执行单元按照四个单独的64位打包数据元素(四字(QW)大小数据元素)、八个单独的32位打包数据元素(双字(DW)大小数据元素)、十六个单独的16位打包数据元素(字(W)大小数据元素)或者三十二个单独的8位数据元素(字节(B)大小数据元素)对向量进行操作。然而,不同的向量宽度和寄存器大小是可能的。
[0077] 在一个实施例中,一个或多个执行单元可以组合成具有线程控制逻辑(607A-607N)的融合执行单元609A-609N,该线程控制逻辑对于融合EU是公共的。多个EU可以融合成EU组。融合EU组中的每个EU可以被配置为执行单独的SIMD硬件线程。融合EU组中的EU的数量可以根据实施例而变化。另外地,可以针对每个EU执行各种SIMD宽度,包括但不限于SIMD8、SIMD16和SIMD32。每个融合图形执行单元609A-609N包括至少两个执行单元。例如,融合执行单元609A包括第一EU 608A、第二EU 608B和线程控制逻辑607A,该线程控制逻辑
607A对于第一EU 608A和第二EU608B是公共的。线程控制逻辑607A控制在融合图形执行单元609A上执行的线程,从而允许融合执行单元609A-609N内的每个EU使用公共的指令指针寄存器来执行。
[0078] 一个或多个内部指令高速缓存(例如,606)被包括在线程执行逻辑600中,以对用于执行单元的线程指令进行缓存。在一些实施例中,一个或多个数据高速缓存(例如,612)被包括以在线程执行期间对线程数据进行缓存。在一些实施例中,采样器610被包括以提供用于3D操作的纹理采样和用于媒体操作的媒体采样。在一些实施例中,采样器610包括专用纹理或媒体采样功能,以在采样过程期间在将采样数据提供给执行单元之前对纹理或媒体数据进行处理。
[0079] 在执行期间,图形流水线和媒体流水线经由线程产生和分派逻辑将线程启动请求发送到线程执行逻辑600。一旦一组几何对象已经被处理并且光栅化为像素数据,则调用着色器处理器602内的像素处理器逻辑(例如,像素着色器逻辑、片段着色器逻辑等)以进一步计算输出信息并使得结果被写入到输出表面(例如,颜色缓冲器、深度缓冲器、模版缓冲器等)。在一些实施例中,像素着色器或片段着色器计算要跨光栅化对象插值的各种顶点属性的值。在一些实施例中,着色器处理器602内的像素处理器逻辑然后执行应用编程接口(API)——供应的像素或片段着色器程序。为了执行着色器程序,着色器处理器602经由线程分派器604将线程分派给执行单元(例如,608A)。在一些实施例中,着色器处理器602使用采样器610中的纹理采样逻辑来访问存储在存储器中的纹理图中的纹理数据。对纹理数据和输入几何数据进行的算术运算计算每个几何片段的像素颜色数据,或丢弃一个或多个像素以免进一步处理。
[0080] 在一些实施例中,数据端口614提供用于线程执行逻辑600的存储器访问机制,以将处理后的数据输出到存储器以便在图形处理器输出流水线上进行进一步处理。在一些实施例中,数据端口614包括一个或多个高速缓冲存储器(例如,数据高速缓存612)或与该一个或多个高速缓冲存储器耦合,以经由数据端口对用于存储器访问的数据进行缓存。
[0081] 如图6B中所示,图形执行单元608可以包括指令获取单元637、通用寄存器文件阵列(GRF)624、架构寄存器文件阵列(ARF)626、线程仲裁器622、发送单元630、分支单元632、SIMD浮点单元(FPU)的集合634,并且在一个实施例中包括专用整数SIMD ALU的集合635。GRF 624和ARF626包括通用寄存器文件和架构寄存器文件的集合,该通用寄存器文件和架构寄存器文件的集合与可以在图形执行单元608中活动的每个同时硬件线程相关联。在一个实施例中,每个线程架构状态维持在ARF 626中,而在线程执行期间使用的数据存储在GRF 624中。每个线程的执行状态(包括针对每个线程的指令指针)可以保持在ARF 626中的线程特定的寄存器中。
[0082] 在一个实施例中,图形执行单元608具有作为同时多线程(SMT)和细粒度交织多线程(IMT)的组合的架构。该架构具有模块化配置,该模块化配置可以基于每个执行单元的同时线程的目标数量和寄存器数量在设计时进行微调,其中跨用于执行多个同时线程的逻辑对执行单元资源进行划分。
[0083] 在一个实施例中,图形执行单元608可以共同发布多个指令,多个指令可以各自是不同的指令。图形执行单元线程608的线程仲裁器622可以将指令分派给发送单元630、分支单元642或(多个)SIMD FPU 634中的一个以用于执行。每个执行线程可以访问GRF 624内的128个通用寄存器,其中每个寄存器可以存储32个字节,该32个字节可以作为32位数据元素的SIMD 8元素向量访问。在一个实施例中,每个执行单元线程具有对GRF624内的4千字节的访问权,但是实施例不限于此,并且在其他实施例中可以提供更多或更少的寄存器资源。在一个实施例中,多达七个线程可以同时执行,但是每个执行单元的线程数量也可以根据实施例而变化。在七个线程可以访问4千字节的实施例中,GRF 624可以存储总共28千字节。灵活的寻址模式可以允许寄存器被一起寻址以高效地构建更宽的寄存器或者以表示跨步矩形块数据结构。
[0084] 在一个实施例中,经由消息传递发送单元630执行的“发送”指令来分派存储器操作、采样器操作和其他较长延迟系统通信。在一个实施例中,将分支指令分派给专用分支单元632以促进SIMD发散和最终收敛。
[0085] 在一个实施例中,图形执行单元608包括一个或多个SIMD浮点单元(FPU)634以执行浮点运算。在一个实施例中,(多个)FPU 634还支持整数计算。在一个实施例中,(多个)FPU 634可以SIMD执行多达数量M个32位浮点(或整数)运算,或者SIMD执行多达2M个16位整数运算或16位浮点运算。在一个实施例中,(多个)FPU中的至少一个提供扩展的数学能力以支持高吞吐量的超越数学函数和双精度64位浮点。在一些实施例中,还存在8位整数SIMD ALU的集合635,并且可以专门地对该集合进行优化以执行与机器学习计算相关联的操作。
[0086] 在一个实施例中,图形执行单元608的多个实例的阵列可以在图形子核心分组(例如,子切片)中实例化。对于可扩展性,产品架构师可以选择每个子核心分组的执行单元的精确数量。在一个实施例中,执行单元608可以跨多个执行通道执行指令。在另一实施例中,在图形执行单元608上执行的每个线程在不同的通道上执行。
[0087] 图7是示出根据一些实施例的图形处理器指令格式700的框图。在一个或多个实施例中,图形处理器执行单元支持具有多种格式的指令的指令集。实线框示出了通常被包括在执行单元指令中的组件,而虚线包括可选的或仅包括在指令的子集中的组件。在一些实施例中,所描述并示出的指令格式700是宏指令,因为指令格式700是供应给执行单元的指令,而不是一旦指令被处理就由指令解码产生的微操作。
[0088] 在一些实施例中,图形处理器执行单元本地地支持属于128位指令格式710的指令。基于所选定的指令、指令选项和操作数的数量,64位压缩指令格式730可用于某些指令。本地的128位指令格式710提供对所有指令选项的访问权,而在64位格式730中某些选项和操作受到限制。64位格式730中可用的本地指令因实施例而异。在一些实施例中,使用索引字段713中的索引值的集合来部分地压缩指令。执行单元硬件基于索引值引用压缩表的集合,并且使用压缩表输出来重构属于128位指令格式710的本地指令。
[0089] 对于每种格式,指令操作码712定义执行单元要执行的操作。执行单元跨每个操作数的多个数据元素并行地执行每个指令。例如,响应于相加指令,执行单元跨表示纹理元素或图片元素的每个颜色通道执行同时相加运算。默认情况下,执行单元跨操作数的所有数据通道执行每条指令。在一些实施例中,指令控制字段714实现对某些执行选项(例如,通道选择(例如,预测)和数据通道顺序(例如,混合))的控制。对于属于128位指令格式710的指令,exec-size字段716限制将要并行执行的数据通道的数量。在一些实施例中,exec-size字段716不可用于64位压缩指令格式730。
[0090] 一些执行单元指令具有多达三个操作数,包括两个源操作数(src0 720、src1 722)和一个目的地718。在一些实施例中,执行单元支持双目的地指令,其中隐含了目的地中的一个。数据操纵指令可以具有第三个源操作数(例如,SRC2 724),其中指令操作码712确定源操作数的数量。指令的最后一个源操作数可以是与指令一起传递的立即数(例如,硬编码)值。
[0091] 在一些实施例中,128位指令格式710包括访问/寻址模式字段726,该访问/寻址模式字段726指定例如是使用直接寄存器寻址模式还是间接寄存器寻址模式。当使用直接寄存器寻址模式时,一个或多个操作数的寄存器地址由指令中的位直接提供。
[0092] 在一些实施例中,128位指令格式710包括访问/寻址模式字段726,该访问/寻址模式字段726指定指令的寻址模式和/或访问模式。在一个实施例中,访问模式用于定义指令的数据访问对齐。一些实施例支持包括16字节对齐的访问模式和1字节对齐的访问模式在内的访问模式,其中访问模式的字节对齐确定指令操作数的访问对齐。例如,当处于第一模式时,指令可以针对源操作数和目的地操作数使用字节对齐的寻址,并且当处于第二模式时,指令可以针对所有源操作数和目的地操作数使用16字节对齐的寻址。
[0093] 在一个实施例中,访问/寻址模式字段726的寻址模式部分确定指令是要使用直接寻址还是间接寻址。当使用直接寄存器寻址模式时,指令中的位直接提供一个或多个操作数的寄存器地址。当使用间接寄存器寻址模式时,可以基于指令中的地址寄存器值和地址立即数字段来计算一个或多个操作数的寄存器地址。
[0094] 在一些实施例中,基于操作码712位字段对指令进行分组以简化操作码解码740。对于8位操作码,位4、5和6允许执行单元确定操作码的类型。所示的精确操作码分组仅是示例。在一些实施例中,移动和逻辑操作码分组742包括数据移动和逻辑指令(例如,移动(mov)、比较(cmp))。在一些实施例中,移动和逻辑分组742共享五个最高有效位(MSB),其中移动(mov)指令是以0000xxxxb的形式,并且逻辑指令是以0001xxxxb的形式。流控制指令分组744(例如,调用、跳转(jmp))包括以0010xxxxb的形式(例如,0x20)的指令。杂项指令分组
746包括指令的混合,包括以0011xxxxb的形式(例如,0x30)的同步指令(例如,等待、发送)。
并行数学指令分组748包括以0100xxxxb的形式(例如,0x40)的按分量算术指令(例如,相加、相乘(mul))。并行数学分组748跨数据通道并行地执行算术运算。向量数学分组750包括以0101xxxxb的形式(例如,0x50)的算术指令(例如,dp4)。向量数学分组对向量操作数执行诸如点积计算之类的算术。
[0095] 图形流水线
[0096] 图8是图形处理器800的另一实施例的框图。图8中具有与本文任何其他附图中的元件相同的附图标记(或名称)的元件可以以与本文其他地方描述的方式类似的任何方式操作或起作用,但不限于此。
[0097] 在一些实施例中,图形处理器800包括几何流水线820、媒体流水线830、显示引擎840、线程执行逻辑850和渲染输出流水线870。在一些实施例中,图形处理器800是在包括一个或多个通用处理核心的多核心处理系统内的图形处理器。图形处理器通过寄存器写入一个或多个控制寄存器(未示出)或通过经由环形互连802发布到图形处理器800的命令来控制。在一些实施例中,环形互连802将图形处理器800与其他处理组件(例如,其他图形处理器或通用处理器)耦合。来自环形互连802的命令由命令流送器803解释,该命令流送器803向几何流水线820或媒体流水线830的单独的组件提供指令。
[0098] 在一些实施例中,命令流送器803指示顶点获取器805从存储器读取顶点数据并且执行由命令流送器803提供的顶点处理命令的操作。在一些实施例中,顶点获取器805将顶点数据提供给顶点着色器807,该顶点着色器807对每个顶点执行坐标空间变换和光照操作。在一些实施例中,顶点获取器805和顶点着色器807通过经由线程分派器831将执行线程分派给执行单元852A-852B来执行顶点处理指令。
[0099] 在一些实施例中,执行单元852A-852B是具有用于执行图形和媒体操作的指令集的向量处理器的阵列。在一些实施例中,执行单元852A-852B具有附接的L1高速缓存851,该L1高速缓存851特定于每个阵列或在阵列之间共享。可以将高速缓存配置为数据高速缓存、指令高速缓存或被分区以在不同分区中包含数据和指令的单个高速缓存。
[0100] 在一些实施例中,几何流水线820包括曲面细分组件以执行对3D对象的硬件加速曲面细分。在一些实施例中,可编程外壳着色器811对曲面细分操作进行配置。可编程域着色器817提供曲面细分输出的后端评估。曲面细分器813在外壳着色器811的方向上操作,并且包含专用逻辑以基于作为对几何流水线820的输入被提供的粗略几何模型来生成详细几何对象的集合。在一些实施例中,如果不使用曲面细分,则可以绕过曲面细分组件(例如,外壳着色器811、曲面细分器813和域着色器817)。
[0101] 在一些实施例中,完整的几何对象可以通过几何着色器819经由分派给执行单元852A-852B的一个或多个线程来处理,或者完整的几何对象可以直接进行到剪切器829。在一些实施例中,几何着色器对整个几何对象进行操作,而不是如在图形流水线的先前阶段中对顶点或顶点的图像块进行操作。如果禁用曲面细分,则几何着色器819接收来自顶点着色器807的输入。在一些实施例中,几何着色器819可由几何着色器程序编程以在曲面细分单元被禁用时执行几何曲面细分。
[0102] 在光栅化之前,剪切器829可以处理顶点数据。剪切器829可以是固定功能剪切器或具有剪切和几何着色器功能的可编程剪切器。在一些实施例中,渲染输出流水线870中的光栅化器和深度测试组件873分派像素着色器以将几何对象转换为每像素表示。在一些实施例中,像素着色器逻辑被包括在线程执行逻辑850中。在一些实施例中,应用可以绕过光栅化器和深度测试组件873并且经由流输出单元823访问未光栅化的顶点数据。
[0103] 图形处理器800具有互连总线、互连结构或者允许在处理器的主要组件之间传递数据和消息的某种其他互连机制。在一些实施例中,执行单元852A-852B和相关联的逻辑单元(例如,L1高速缓存851、采样器854、纹理高速缓存858等)经由数据端口856互连,以执行存储器访问并且与处理器的渲染输出流水线组件通信。在一些实施例中,采样器854、高速缓存851、858和执行单元852A-852B各自具有单独的存储器访问路径。在一个实施例中,纹理高速缓存858还可以被配置为采样器高速缓存。
[0104] 在一些实施例中,渲染输出流水线870包含光栅化器和深度测试组件873,该光栅化器和深度测试组件873将基于顶点的对象转换为相关联的基于像素的表示。在一些实施例中,光栅化器逻辑包括用于执行固定功能三角形和线光栅化的加窗器/掩蔽器单元。相关联的渲染高速缓存878和深度高速缓存879在一些实施例中也是可用的。像素操作组件877对数据执行基于像素的操作,但是在一些情况下,与2D操作相关联的像素操作(例如,具有混合的位块图像传送)由2D引擎841执行,或者在显示时由显示控制器843使用覆盖显示平面代替。在一些实施例中,共享L3高速缓存875可用于所有图形组件,从而允许在不使用主系统存储器的情况下共享数据。
[0105] 在一些实施例中,图形处理器媒体流水线830包括媒体引擎837和视频前端834。在一些实施例中,视频前端834接收来自命令流送器803的流水线命令。在一些实施例中,媒体流水线830包括单独的命令流送器。在一些实施例中,视频前端834在将命令发送到媒体引擎837之前处理媒体命令。在一些实施例中,媒体引擎837包括线程产生功能以产生线程以供经由线程分派器831分派给线程执行逻辑850。
[0106] 在一些实施例中,图形处理器800包括显示引擎840。在一些实施例中,显示引擎840在处理器800外部,并且经由环形互连802或某种其他互连总线或结构与图形处理器耦合。在一些实施例中,显示引擎840包括2D引擎841和显示控制器843。在一些实施例中,显示引擎840包含能够独立于3D流水线操作的专用逻辑。在一些实施例中,显示控制器843与显示设备(未示出)耦合,该显示设备可以是系统集成显示设备(如在膝上型计算机中)或者经由显示设备连接器附接的外部显示设备。
[0107] 在一些实施例中,几何流水线820和媒体流水线830可配置以基于多个图形和媒体编程接口执行操作,并且不特定于任何一个应用编程接口(API)。在一些实施例中,用于图形处理器的驱动软件将特定于特定图形或媒体库的API调用转换为可以由图形处理器处理的命令。在一些实施例中,为开放图形库(OpenGL)、开放计算语言(OpenCL)和/或Vulkan图形和计算API(其全部来自Khronos Group)提供支持。在一些实施例中,还可以为来自微软公司的Direct3D库提供支持。在一些实施例中,可以支持这些库的组合。还可以为开源计算机视觉库(OpenCV)提供支持。如果可以进行从具有兼容3D流水线的未来API的流水线到图形处理器的流水线的映射,则还将支持流水线未来API。
[0108] 图形流水线编程
[0109] 图9A是示出根据一些实施例的图形处理器命令格式900的框图。图9B是示出根据实施例的图形处理器命令序列910的框图。图9A中的实线框示出了通常被包括在图形命令中的组件,而虚线包括可选的或仅包括在图形命令的子集中的组件。图9A的示例性图形处理器命令格式900包括用于识别客户端902、命令操作代码(操作码)904以及用于命令的数据906的数据字段。在一些命令中还包括子操作码905和命令大小908。
[0110] 在一些实施例中,客户端902指定图形设备的处理命令数据的客户端单元。在一些实施例中,图形处理器命令解析器检查每个命令的客户端字段以调节对命令的进一步处理并且将命令数据路由到适当的客户端单元。在一些实施例中,图形处理器客户端单元包括存储器接口单元、渲染单元、2D单元、3D单元和媒体单元。每个客户端单元具有处理命令的对应的处理流水线。一旦由客户端单元接收到命令,则客户端单元读取操作码904,并且如果存在,则读取子操作码905以确定要执行的操作。客户端单元使用数据字段906中的信息来执行命令。对于一些命令,期望显式命令大小908指定命令的大小。在一些实施例中,命令解析器基于命令操作码自动地确定命令中的至少一些的大小。在一些实施例中,命令经由双字的倍数对齐。
[0111] 图9B中的流程图示出了示例性图形处理器命令序列910。在一些实施例中,以图形处理器的实施例为特征的数据处理系统的软件或固件使用所示的命令序列的版本来设置、执行和终止图形操作的集合。仅出于示例的目的示出并描述了样本命令序列,因为实施例不限于这些特定命令或该命令序列。此外,命令可以作为命令序列中的命令批而发布,使得图形处理器将至少部分地同时处理命令的序列。
[0112] 在一些实施例中,图形处理器命令序列910可以开始于流水线刷新命令912,以使得任何活动的图形流水线完成流水线的当前未决的流水线命令。在一些实施例中,3D流水线922和媒体流水线924不同时地操作。执行流水线刷新以使得活动的图形流水线完成任何未决的命令。响应于流水线刷新,图形处理器的命令解析器将暂停命令处理,直到活动的绘图引擎完成未决的操作并且相关的读取高速缓存是无效的。可选地,渲染高速缓存中标记为“脏”的任何数据可以被刷新到存储器。在一些实施例中,流水线刷新命令912可以用于流水线同步或者在将图形处理器置于低功率状态之前使用。
[0113] 在一些实施例中,当命令序列要求图形处理器明确地在流水线之间切换时,使用流水线选择命令913。在一些实施例中,在发布流水线命令之前,除非上下文要发布针对两个流水线的命令,否则在执行上下文内仅要求一次流水线选择命令913。在一些实施例中,紧接在经由流水线选择命令913切换流水线之前要求流水线刷新命令912。
[0114] 在一些实施例中,流水线控制命令914对用于操作的图形流水线进行配置,并且流水线控制命令914用于对3D流水线922和媒体流水线924进行编程。在一些实施例中,流水线控制命令914对活动流水线的流水线状态进行配置。在一个实施例中,流水线控制命令914用于流水线同步,并且在处理命令批之前在活动流水线内从一个或多个高速缓冲存储器清除数据。
[0115] 在一些实施例中,返回缓冲器状态命令916用于针对相应的流水线配置返回缓冲器的集合以写入数据。某些流水线操作要求分配、选择或配置一个或多个返回缓冲器,在处理期间操作将中间数据写入该一个或多个返回缓冲器中。在一些实施例中,图形处理器还使用一个或多个返回缓冲器来存储输出数据并执行跨线程通信。在一些实施例中,返回缓冲器状态916包括选择要用于流水线操作的集合的返回缓冲器的大小和数量。
[0116] 命令序列中的其余命令基于用于操作的活动流水线而不同。基于流水线确定920,流水线命令序列被定制用于开始于3D流水线状态930的3D流水线922,或者流水线命令序列被定制用于开始于媒体流水线状态940的媒体流水线924。
[0117] 用于配置3D流水线状态930的命令包括针对顶点缓冲器状态、顶点元素状态、恒定颜色状态、深度缓冲器状态以及在处理3D基元命令之前要配置的其他状态变量的3D状态设置命令。这些命令的值至少部分地基于使用的特定3D API来确定。在一些实施例中,如果将不使用某些流水线元素,则3D流水线状态930命令也能够选择性地禁用或绕过流水线这些元素。
[0118] 在一些实施例中,3D基元932命令用于提交要由3D流水线处理的3D基元。经由3D基元932命令传递到图形处理器的命令和相关联的参数被转发到图形流水线中的顶点获取功能。顶点获取功能使用3D基元932命令数据来生成顶点数据结构。顶点数据结构存储在一个或多个返回缓冲器中。在一些实施例中,3D基元932命令用于经由顶点着色器对3D基元执行顶点操作。为了处理顶点着色器,3D流水线922将着色器执行线程分派给图形处理器执行单元。
[0119] 在一些实施例中,经由执行934命令或事件来触发3D流水线922。在一些实施例中,寄存器写入触发命令执行。在一些实施例中,经由命令序列中的“go”或“kick”命令触发执行。在一个实施例中,使用流水线同步命令来触发命令执行以流水线刷新命令序列通过图形流水线。3D流水线将执行针对3D基元的几何处理。一旦操作完成,生成的几何对象被光栅化,并且像素引擎对生成的像素进行上色。针对这些操作,还可以包括用于控制像素着色和像素后端操作的附加命令。
[0120] 在一些实施例中,当执行媒体操作时,图形处理器命令序列910遵循媒体流水线924路径。通常,针对媒体流水线924的特定用途和编程方式取决于要执行的媒体操作或计算操作。在媒体解码期间,可以将特定媒体解码操作卸载到媒体流水线。在一些实施例中,还可以绕过媒体流水线,并且可以使用由一个或多个通用处理核心提供的资源来全部或部分地执行媒体解码。在一个实施例中,媒体流水线还包括用于通用图形处理器单元(GPGPU)操作的元件,其中图形处理器用于使用与对图形基元的渲染不明确相关的计算着色器程序来执行SIMD向量操作。
[0121] 在一些实施例中,媒体流水线924以与3D流水线922类似的方式配置。用于配置媒体流水线状态940的命令的集合在媒体对象命令942之前被分派或放置到命令队列中。在一些实施例中,针对媒体流水线状态940的命令包括用于配置将用于处理媒体对象的媒体流水线元素的数据。这包括用于在媒体流水线内配置视频解码逻辑和视频编码逻辑的数据,例如,编码格式或解码格式。在一些实施例中,针对媒体流水线状态940的命令还支持使用指向包含一批状态设置的“间接”状态元素的一个或多个指针。
[0122] 在一些实施例中,媒体对象命令942供应指向用于由媒体流水线处理的媒体对象的指针。媒体对象包括存储器缓冲器,该存储器缓冲器包含要被处理的视频数据。在一些实施例中,在发布媒体对象命令942之前,所有媒体流水线状态必须是有效的。一旦流水线状态被配置并且媒体对象命令942被排队,则经由执行命令944或等效执行事件(例如,寄存器写入)触发媒体流水线924。然后,可以通过由3D流水线922或媒体流水线924提供的操作对来自媒体流水线924的输出进行后处理。在一些实施例中,以与媒体操作类似的方式来配置并执行GPGPU操作。
[0123] 图形软件架构
[0124] 图10示出了根据一些实施例的用于数据处理系统1000的示例性图形软件架构。在一些实施例中,软件架构包括3D图形应用1010、操作系统1020和至少一个处理器1030。在一些实施例中,处理器1030包括图形处理器1032以及一个或多个通用处理器核心1034。图形应用1010和操作系统1020各自在数据处理系统的系统存储器1050中执行。
[0125] 在一些实施例中,3D图形应用1010包含一个或多个着色器程序,该一个或多个着色器程序包括着色器指令1012。着色器语言指令可以采用诸如高级着色器语言(HLSL)或OpenGL着色器语言(GLSL)之类的高级着色器语言。该应用还包括采用适用于由通用处理器核心1034执行的机器语言的可执行指令1014。该应用还包括由顶点数据定义的图形对象1016。
[0126] 在一些实施例中,操作系统1020是来自微软公司的 操作系统、使用Linux内核的变体的专有类UNIX操作系统或开源类UNIX操作系统。操作系统1020可以支持图形API 1022,例如,Direct3D API、OpenGL API或Vulkan API。当使用Direct3D API时,操作系统1020使用前端着色器编译器1024以将采用HLSL的任何着色器指令1012编译为较低级别的着色器语言。编译可以是即时(JIT)编译,或者应用可以执行着色器预编译。在一些实施例中,在编译3D图形应用1010期间,高级别着色器被编译为低级别着色器。
在一些实施例中,着色器指令1012以中间形式提供,例如,Vulkan API使用的标准便携式中间表示(SPIR)的版本。
[0127] 在一些实施例中,用户模式图形驱动程序1026包含后端着色器编译器1027,以将着色器指令1012转换为硬件特定表示。当使用OpenGL API时,采用GLSL高级语言的着色器指令1012被传递到用户模式图形驱动程序1026以进行编译。在一些实施例中,用户模式图形驱动程序1026使用操作系统内核模式功能1028来与内核模式图形驱动程序1029通信。在一些实施例中,内核模式图形驱动程序1029与图形处理器1032通信以分派命令和指令。
[0128] IP核心实现方式
[0129] 可以通过存储在机器可读介质上的代表性代码来实现至少一个实施例的一个或多个方面,该代表性代码表示和/或定义诸如处理器之类的集成电路内的逻辑。例如,机器可读介质可以包括表示处理器内的各种逻辑的指令。当由机器读取时,指令可以使得机器制造逻辑以执行本文所描述的技术。这种被称为“IP核心”的表示是用于集成电路的可重用的逻辑单元,其可以存储在有形的机器可读介质上,作为描述集成电路的结构的硬件模型。可以将硬件模型供应给各种客户或制造设施,这些客户或制造设施将硬件模型加载到制造集成电路的制造机器上。可以制造集成电路,使得该电路执行与本文所描述的实施例中的任何一个相关联地描述的操作。
[0130] 图11A是示出根据实施例的可以用于制造集成电路以执行操作的IP核心开发系统1100的框图。IP核心开发系统1100可以用于生成模块化、可重用的设计,其可以结合到更大的设计中或用于构建整个集成电路(例如,SOC集成电路)。设计设施1130可以采用高级编程语言(例如,C/C++)生成IP核心设计的软件仿真1110。软件仿真1110可以用于使用仿真模型
1112设计、测试并验证IP核心的行为。仿真模型1112可以包括功能、行为和/或定时仿真。然后可以根据仿真模型1112创建或合成寄存器传输级(RTL)设计1115。RTL设计1115是对集成电路(其对数字信号在硬件寄存器之间的流动进行建模,包括使用经建模的数字信号执行的相关联的逻辑)的行为的抽象。除了RTL设计1115之外,还可以创建、设计或合成逻辑级别或晶体管级别的较低级别设计。因此,初始设计和仿真的特定细节可以变化。
[0131] RTL设计1115或等效物可以由设计设施进一步合成为硬件模型1120,该硬件模型1120可以采用硬件描述语言(HDL)或物理设计数据的某种其他表示。可以进一步仿真或测试HDL以验证IP核心设计。可以存储IP核心设计以使用非易失性存储器1140(例如,硬盘、闪速存储器或任何非易失性存储介质)递送到第三方制造设施1165。可替代地,可以通过有线连接1150或无线连接1160(例如,经由互联网)传输IP核心设计。然后,制造设施1165可以制造至少部分地基于该IP核心设计的集成电路。制造的集成电路可以被配置为执行根据本文所描述的至少一个实施例的操作。
[0132] 图11B示出了根据本文所描述的一些实施例的集成电路封装组装件1170的横截面侧视图。集成电路封装组装件1170示出了如本文所描述的一个或多个处理器或加速器设备的实现方式。封装组装件1170包括连接到衬底1180的多个硬件逻辑单元1172、1174。逻辑1172、1174可以至少部分地以可配置逻辑或固定功能逻辑硬件实现,并且可以包括本文所描述的(多个)处理器核心、(多个)图形处理器或其他加速器设备中的任一个中的一个或多个部分。每个逻辑单元1172、1174可以在半导体管芯内实现,并且经由互连结构1173与衬底
1180耦合。互连结构1173可以被配置为在逻辑1172、1174与衬底1180之间路由电信号并且可以包括互连,例如但不限于凸块或支柱。在一些实施例中,互连结构1173可以被配置为路由电信号,例如,与逻辑1172、1174的操作相关联的输入/输出(I/O)信号和/或电源或接地信号。在一些实施例中,衬底1180是基于环树脂层压衬底。在其他实施例中,封装衬底
1180可以包括其他合适类型的衬底。封装组装件1170可以经由封装互连1183连接到其他电子设备。封装互连1183可以与衬底1180的表面耦合以将电信号路由到其他电子设备,例如,母板、其他芯片组或多芯片模块。
[0133] 在一些实施例中,逻辑单元1172、1174与桥1182电耦合,该桥1182被配置为在逻辑1172、1174之间路由电信号。桥1182可以是提供用于电信号的路由的密集互连结构。桥1182可以包括由玻璃或合适的半导体材料构成的桥衬底。可以在桥衬底上形成电路由特征,以提供逻辑1172、1174之间的芯片到芯片连接。
[0134] 尽管示出了两个逻辑单元1172、1174和桥1182,但是本文所描述的实施例可以在一个或多个管芯上包括更多或更少的逻辑单元。一个或多个管芯可以通过零个或更多个桥连接,因为当逻辑被包括在单个管芯上时可以排除桥1182。可替代地,多个管芯或逻辑单元可以通过一个或多个桥连接。另外地,多个逻辑单元、管芯和桥可以以其他可能的配置(包括三维配置)连接在一起。
[0135] 示例性片上系统集成电路
[0136] 图12-14示出了根据本文所描述的各种实施例的可以使用一个或多个IP核心制造的示例性集成电路和相关联的图形处理器。除了所示的内容之外,还可以包括其他逻辑和电路,包括附加的图形处理器/核心、外围接口控制器或通用处理器核心。
[0137] 图12是示出根据实施例的可以使用一个或多个IP核心制造的示例性片上系统集成电路1200的框图。示例性集成电路1200包括一个或多个应用处理器1205(例如,CPU)、至少一个图形处理器1210,并且可以另外地包括图像处理器1215和/或视频处理器1220,其中任何一个可以是根据相同的或多个不同的设计设施的模块化IP核心。集成电路1200包括外围设备或总线逻辑,包括USB控制器1225、UART控制器1230、SPI/SDIO控制器1235和I2S/I2C控制器1240。另外地,集成电路可以包括显示设备1245,该显示设备1245与高清晰度多媒体接口(HDMI)控制器1250和移动工业处理器接口(MIPI)显示接口1255中的一个或多个耦合。存储装置可以由包括闪速存储器和闪速存储器控制器的闪速存储器子系统1260提供。可以经由存储器控制器1265提供存储器接口以访问SDRAM或SRAM存储器设备。一些集成电路另外地包括嵌入式安全引擎1270。
[0138] 图13A-13B是示出根据本文所描述的实施例的在SoC内使用的示例性图形处理器的框图。图13A示出了根据实施例的可以使用一个或多个IP核心制造的片上系统集成电路的示例性图形处理器1310。图13B示出了根据实施例的可以使用一个或多个IP核心制造的片上系统集成电路的附加的示例性图形处理器1340。图13A的图形处理器1310是低功率图形处理器核心的示例。图13B的图形处理器1340是更高性能图形处理器核心的示例。图形处理器1310、1340中的每一个可以是图12的图形处理器1210的变体。
[0139] 如图13A中所示,图形处理器1310包括顶点处理器1305和一个或多个片段处理器1315A-1315N(例如,1315A、1315B、1315C、1315D到1315N-1和1315N)。图形处理器1310可以经由单独的逻辑执行不同的着色器程序,使得顶点处理器1305被优化以执行针对顶点着色器程序的操作,而一个或多个片段处理器1315A-1315N执行针对片段或像素着色器程序的片段(例如,像素)着色操作。顶点处理器1305执行3D图形流水线的顶点处理阶段并且生成基元和顶点数据。(多个)片段处理器1315A-1315N使用由顶点处理器1305生成的基元和顶点数据来产生显示在显示设备上的帧缓冲器。在一个实施例中,(多个)片段处理器1315A-
1315N被优化以执行如OpenGL API中提供的片段着色器程序,该片段着色器程序可以用于执行与Direct 3D API中提供的像素着色器程序类似的操作。
[0140] 图形处理器1310另外地包括一个或多个存储器管理单元(MMU)1320A-1320B、(多个)高速缓存1325A-1325B和(多个)电路互连1330A-1330B。一个或多个MMU 1320A-1320B为图形处理器1310(包括为顶点处理器1305和/或(多个)片段处理器1315A-1315N)提供虚拟到物理地址映射,其除了存储在一个或多个高速缓存1325A-1325B中的顶点或图像/纹理数据之外还可以参考存储在存储器中的顶点或图像/纹理数据。在一个实施例中,一个或多个MMU 1320A-1320B可以与系统内的其他MMU(包括与图12的一个或多个应用处理器1205、图像处理器1215和/或视频处理器1220相关联的一个或多个MMU)同步,使得每个处理器1205-1220可以参与共享或统一的虚拟存储器系统。根据实施例,一个或多个电路互连1330A-
1330B使得图形处理器1310能够经由SoC的内部总线或经由直接连接与SoC内的其他IP核心相接合。
[0141] 如图13B所示,图形处理器1340包括图13A的图形处理器1310的一个或多个MMU 1320A-1320B、高速缓存1325A-1325B和电路互连1330A-1330B。图形处理器1340包括一个或多个着色器核心1355A-1355N(例如,1355A、1355B、1355C、1355D、1355E、1355F到1355N-1和
1355N),一个或多个着色器核心1355A-1355N提供统一的着色器核心架构,其中单核心或类型或核心可以执行所有类型的可编程着色器代码,包括用于实现顶点着色器、片段着色器和/或计算着色器的着色器程序代码。存在的着色器核心的精确数量可以在实施例和实现方式之间变化。另外地,图形处理器1340包括核心间任务管理器1345,该核心间任务管理器
1345用作线程分派器以将执行线程分派给一个或多个着色器核心1355A-1355N和图块拼接单元1358,图块拼接单元1358用于加速用于基于图块的渲染的图块拼接操作,其中针对场景的渲染操作在图像空间中被细分以例如利用场景内的本地空间一致性或优化内部高速缓存的使用。
[0142] 图14A-14B示出了根据本文所描述的实施例的附加的示例性图形处理器逻辑。图14A示出了可以包括在图12的图形处理器1210内的图形核心1400,并且该图形核心1400可以是如图13B中的统一的着色器核心1355A-1355N。图14B示出了适用于部署在多芯片模块上的高度并行通用图形处理单元1430。
[0143] 如图14A中所示,图形核心1400包括共享指令高速缓存1402、纹理单元1418和高速缓冲/共享存储器1420,它们对于图形核心1400内的执行资源是公共的。图形核心1400可以包括多个切片1401A-1401N或者每个核心的分区,并且图形处理器可以包括图形核心1400的多个实例。切片1401A-1401N可以包括支持逻辑,该支持逻辑包括本地指令高速缓存1404A-1404N、线程调度器1406A-1406N、线程分派器1408A-1408N以及寄存器的集合1410A。
为了执行逻辑操作,切片1401A-1401N可以包括附加功能单元(AFU 1412A-1412N)、浮点单元(FPU 1414A-1414N)、整数算术逻辑单元(ALU 1416A-1416N)、地址计算单元(ACU 1413A-
1413N)、双精度浮点单元(DPFPU 1415A-1415N)和矩阵处理单元(MPU 1417A-1417N)的集合。
[0144] 计算单元中的一些以特定精度操作。例如,FPU 1414A-1414N可以执行单精度(32位)和半精度(16位)浮点运算,而DPFPU 1415A-1415N执行双精度(64位)浮点运算。ALU 1416A-1416N可以以8位、16位和32位精度执行可变精度整数运算,并且ALU 1416A-1416N可以被配置用于混合精度运算。MPU 1417A-1417N也可以被配置用于混合精度矩阵运算,包括半精度浮点运算和8位整数运算。MPU 1417A-1417N可以执行各种矩阵运算以加速机器学习应用框架,包括使得能够支持加速的通用矩阵到矩阵乘法(GEMM)。AFU 1412A-1412N可以执行浮点或整数单元不支持的附加逻辑运算,包括三角函数运算(例如,正弦、余弦等)。
[0145] 如图14B中所示,通用处理单元(GPGPU)1430可以被配置为使得高度并行的计算操作能够由图形处理单元的阵列执行。另外地,GPGPU 1430可以直接链接到GPGPU的其他实例以创建多GPU集群以改进特别深的神经网络的训练速度。GPGPU 1430包括主机接口1432以实现与主机处理器的连接。在一个实施例中,主机接口1432是PCI快速接口。然而,主机接口也可以是供应商特定的通信接口或通信结构。GPGPU 1430接收来自主处理器的命令并且使用全局调度器1434将与那些命令相关联的执行线程分发到计算集群的集合1436A-1436H。计算集群1436A-1436H共享高速缓冲存储器1438。高速缓冲存储器1438可以用作计算集群
1436A-1436H内的高速缓冲存储器的更高级别的高速缓存。
[0146] GPGPU 1430包括经由存储器控制器的集合1442A-1442B与计算集群1436A-1436H耦合的存储器1444A-1444B。在各种实施例中,存储器1444A-1444B可以包括各种类型的存储器设备,包括动态随机存取存储器(DRAM)或图形随机存取存储器,例如,同步图形随机存取存储器(SGRAM),包括图形双倍数据速率(GDDR)存储器。
[0147] 在一个实施例中,计算集群1436A-1436H各自包括图形核心(例如,图14A的图形核心1400)的集合,该图形核心的集合可以包括多种类型的整数和浮点逻辑单元,其可以以包括适合于机器学习计算的精度范围执行计算操作。例如,在一个实施例中,至少计算集群1436A-1436H中的每一个中的浮点单元的子集可以被配置为执行16位或32位浮点运算,而浮点单元的不同子集可以被配置为执行64位浮点运算。
[0148] GPGPU 1430的多个实例可以被配置为作为计算集群操作。由计算集群使用以进行同步和数据交换的通信机制跨实施例而变化。在一个实施例中,GPGPU 1430的多个实例通过主机接口1432进行通信。在一个实施例中,GPGPU 1430包括I/O中心1439,该I/O中心1439将GPGPU 1430与GPU链路1440耦合,该GPU链路1440实现与GPGPU的其他实例的直接连接。在一个实施例中,GPU链路1440与专用GPU到GPU桥耦合,该专用GPU到GPU桥实现GPGPU 1430的多个实例之间的通信和同步。在一个实施例中,GPU链路1440与高速互连耦合以将数据发送到其他GPGPU或并行处理器并且从其他GPGPU或并行处理器接收数据。在一个实施例中,GPGPU 1430的多个实例位于单独的数据处理系统中,并且经由网络设备进行通信,该网络设备可经由主机接口1432访问。在一个实施例中,除了主机接口1432之外或作为其替代,GPU链路1440可以被配置为实现与主机处理器的连接。
[0149] 虽然GPGPU 1430的所示配置可以被配置用于训练神经网络,但是一个实施例提供了GPGPU 1430的替代配置,其可以被配置用于部署在高性能或低功率推理平台内。在推理配置中,GPGPU 1430相对于训练配置包括更少的计算集群1436A-1436H。另外地,与存储器1444A-1444B相关联的存储器技术可以在推理配置与训练配置之间不同,其中更高带宽的存储器技术专用于训练配置。在一个实施例中,GPGPU 1430的推理配置可以支持推理特定的指令。例如,推理配置可以提供对一个或多个8位整数点积指令的支持,这些指令通常在部署的神经网络的推理运算期间使用。
[0150] 数据处理系统
[0151] 图15A示出了根据本文所描述的实施例的数据处理系统。图15的数据处理系统1500是具有处理器1502、统一存储器1510和GPGPU 1520的异构处理系统。处理器1502和GPGPU 1520可以是如本文所描述的处理器和GPGPU/并行处理器中的任一个。统一存储器
1510表示可以由处理器1502和GPGPU 1520访问的统一地址空间。统一存储器包括系统存储器1512以及GPGPU存储器1518。在一些实施例中,GPGPU存储器1518包括GPGPU 1520内的GPGPU本地存储器1528,并且还可以包括系统存储器1512中的一些或全部。例如,存储在系统存储器1512中的编译代码1514B也可以映射到GPGPU存储器1518以由GPGPU 1520访问。在一个实施例中,系统存储器1512中的运行时库1516可以促进对编译代码1514B的编译和/或执行。处理器1502可以执行针对存储在系统存储器1512中的编译器1515的指令。编译器
1515可以将源代码1514A编译为编译代码1514B,以由处理器1502和/或GPGPU 1520执行。在一个实施例中,编译器1515是或者可以包括着色器编译器,以对专门用于由GPGPU 1520执行的着色器程序进行编译。
[0152] GPGPU 1520包括多个计算块1524A-1524N,多个计算块1524A-1524N包括本文所描述的执行逻辑的一个或多个实例。GPGPU 1520还包括寄存器的集合1525、高速缓冲存储器1527以及可以用作计算块1524A-1524N的共享资源的功率和性能模块1526。在一个实施例中,寄存器1525包括可直接访问的寄存器和可间接访问的寄存器,其中可间接访问的寄存器可以被优化以用于矩阵计算操作。功率和性能模块1526可以被配置为调整计算块1524A-
1524N的功率递送和时钟频率,以在重工作负载下为计算块1524A-1524N内的空闲组件进行功率门控。GPGPU 1520包括GPGPU本地存储器1528,该GPGPU本地存储器1528是与GPGPU 
1520共享图形卡或多芯片模块的物理存储器模块。
[0153] 粗略计算着色
[0154] 如上面所描述的,着色是计算昂贵的,因此消耗大量的渲染时间和/或功率。粗略像素着色(CPS)是这样的着色技术:其被引入以通过至少在场景的部分中牺牲细节和质量以换取提高的性能来改进渲染。粗略像素着色技术受限于图形渲染流水线,因此着重利用图形流水线外部的计算资源的工作负载不能利用粗略像素着色。
[0155] CPS针对像素着色器解决了这类问题,但是如何将CPS解决方案应用于计算着色器并不显而易见。对于CPS未解决的计算着色器,必须解决若干非显而易见的问题,包括如何在给定预定义线程组维度的情况下将变量粗略度映射到计算线程上,以及如何在没有大量运行时开销的情况下扩展硬件以最佳地支持粗略计算着色器执行。本文所描述的主题通过提供硬件和相关联的技术来解决这些问题和其他问题,以允许在可以牺牲质量而最终用户不会注意到的情况下通过在渲染的区域中执行较少的计算工作来改进计算着色器执行。这些技术可以扩展到光线追迹和其他基于计算的渲染范例。
[0156] 在一些方面,本文所描述的主题定义了实现粗略计算着色的各种方法,其中写入一个数据元素的一个计算着色器调用可以被转换为写入数量N个元素的计算着色器。这些技术将允许图形和计算应用改进机器的性能。在一个方面,本文所描述的主题通过允许应用或设备驱动程序以降低的图像质量执行计算工作来实现优化的计算着色器执行。例如,在一个方面,可以在不需要图像质量的位置降低图像质量。通过以低于所覆盖的像素或数据的数量的采样频率运行计算着色器并且将着色器调用的结果传播到由分派覆盖的所有像素可以实现质量降低。
[0157] 考虑以下示例,其中计算着色器接收一个输入并且产生输出。
[0158]
[0159] 在1920x1080渲染目标上,该线程组(16x16x1)将导致120x68的分派维度。可以使用以下实现方式来实现着色器的简单粗略版本:
[0160]
[0161] 这种分类技术可以在图形处理单元(GPU)上导致降低的执行单元(EU)性能,因为启动的线程的75%将不进行生产性工作。在1920x1080渲染目标上,该线程组(16x16x1)将具有120x68的分派维度。
[0162] 计算着色器的另一示例可以如下实现:
[0163]
[0164] 在1920x1080渲染目标上,该线程组(16x16x1)将具有60x34的分派维度以覆盖整个表面,其为常规计算着色器启动的线程组数量的25%。可替代地,可以减少线程组维度,但启动的线程组可以保持不变。每个线程都将完成工作以充分地利用EU。执行现在只完成原始工作的约25%,写入带宽除外。在一些示例中,当从存储器向GPU发送数据时确保减少或消除冗余带宽以及从着色器写入的数据避免部分写入可能是有用的。
[0165] 使用选择性降低质量以改进性能在虚拟现实(VR)和游戏应用中使用。例如,在VR应用中,可以以全部细节渲染被聚焦的(即,在注视点区域内的)屏幕部分,并且可以以较少的细节渲染在注视点区域外部的部分。这在VR中很有效,因为在渲染的桶形失真阶段之后,注视点区域外的数据不那么重要。相同的想法可以应用于3D游戏,其中更靠近屏幕边缘的像素可以以较少的细节来渲染,因为用户焦点通常靠近中心。游戏中的另一种可能性是使用景深信息来在焦点外的区域应用较少的细节。在游戏中的使用可以允许在帧渲染预算内在其他地方花费更多的GPU执行时间。
[0166] 上述实现方式的一个问题是该实现方式使用所有粗略着色执行或完全详细执行。在一些示例中,应用和硬件需要能够互换地使用两者来实现上述针对VR和游戏阐述的用例。这可以通过间接执行的软件完成。以下是使用间接执行的着色器示例:
[0167]
[0168] 应用必须为分派参数建立间接执行变元并且恰当地绑定间接执行映射缓冲器。用户模式驱动程序(UMD)或单独的GPU内核可以用于创建间接数据。
[0169] 图15B是示出使用非粗略计算着色器渲染和2x2粗略计算着色器渲染的注视点渲染1550的一个实现方式中的操作的流程图。参考图15B,操作被描绘为并行执行的。然而,将认识到可以顺序执行操作。在操作1555处,为在注视点区域1590内的场景区域准备间接数据。在操作1560处,绑定间接数据和非粗略计算着色器。在操作1565处,分派针对注视点区域的非粗略计算着色器以执行。在操作1570处,为在注视点区域1590之外的场景区域准备间接数据。在操作1575处,绑定间接数据和非粗略计算着色器。在操作1580处,分派针对注视点区域的粗略计算着色器以执行。
[0170] 以下伪代码示出了准备间接数据的示例:
[0171]
[0172] 由伪代码生成的间接数据可以用于经由“分派间接(DispatchIndirect)”API调用在注视点区域内和区域外分派计算工作。可替代地,如下面的伪代码所示,粗略像素速率数据可以向下传播到计算流水线以创建间接分派数据。这种方法将允许粗略像素着色和粗略计算着色协调地工作。
[0173]
[0174] 替代方法是给予应用开发人员更适合的API和可以使用该API的硬件。以下伪代码示出了着色语言内的通用粗略计算着色器线程。该API包括:线程id映射例程、粗略结果写入例程和粗略线程选择/生成。伪代码定义着色器默认1:1频率,1:2x2和1:4x4。
[0175] 线程重映射函数:
[0176]
[0177] 结果写入函数:
[0178]
[0179] 粗略线程选择:
[0180]
[0181] 着色器实现方式:
[0182]
[0183] 该着色器伪代码将创建着色器,该着色器写出间接数据以控制将针对屏幕的哪些区域执行哪个版本的计算着色器,并且该着色器伪代码将针对支持的模式中的每一个创建粗略计算着色器的版本,其中基本着色器对于所有实现方式都是相同的,但是线程重映射和结果写入将由粗略模式实现方式指定。
[0184] 为了提高硬件中的实现方式的效率,可以实现包括“粗略选择着色器”以及可用的粗略计算着色器和非粗略计算着色器的所有排列的“着色器字典”。着色器字典将绑定字典中的所有着色器以由计算流水线使用。以下是创建粗略着色器字典的伪代码:
[0185]
[0186] 可替代地,可以利用以下伪代码来实现用于创建完整的“粗略计算着色器”集的API:
[0187]
[0188] 元数据将要立即创建的所有着色器绑定在一起:
[0189]
[0190] 在一些示例中,GPU可以包含硬件单元(本文称为“粗略线程生成器”)。粗略线程生成器用于从粗略选择着色器(例如,经由特定消息)接收请求以分派粗略计算工作。在一些示例中,粗略线程生成器将接收粗略选择分派速率、线程id和可能的额外有效载荷数据。一旦在粗略线程生成器中有足够的工作被排队来运行完全填充的本地SIMD线程,粗略线程生成器将与线程控制器通信,以使用在有效载荷中具有恰当的线程id的着色器的期望的粗略速率版本来执行粗略计算着色器。在一些示例中,粗略线程生成器将具有看门狗定时器以便如果超过特定时间阈值,则在不完全占用SIMD线程的情况下分派排队的工作。粗略线程生成器的其他方面将参考图16-20进行解释。
[0191] 图16示出了根据本文所描述的实施例的适用于实现粗略计算着色的数据处理系统1600的方面。参考图16,在一些示例中,数据处理系统1600可以包括执行一个或多个3D应用1612的计算平台1610。计算平台1610可以包括图形设备驱动程序1620,该图形设备驱动程序1620可以包括着色器编译器1614和用户模式驱动程序1616。如上面所描述的,在一些示例中,着色器编译器1614可以实现用于创建粗略计算着色器(CCS)的操作。此外,在一些示例中,用户模式驱动程序1616可以实现用于执行粗略着色器分派操作的操作。用户模式驱动程序1616可以实现执行CCS着色器命令缓冲器1618,其进而可以存储绑定粗略着色器1622、绑定针对粗略着色器的资源1624以及分派针对粗略着色器的工作1626所要求的数据。执行CCS命令缓冲器的资源用于定义输入表面1632。
[0192] 平台1610可以包括计算机可读存储器1630或与计算机可读存储器1630通信地耦合。存储器1630可以包括粗略计算着色器字典1640,该粗略计算着色器字典1640包含由着色器编译器1614创建的一个或多个粗略计算着色器。在图16所描绘的示例中,粗略计算着色器字典包括粗略选择着色器1641、非粗略计算着色器1642、2x2粗略计算着色器1643、4x4粗略计算着色器1644和8x8粗略计算着色器1645。将要认识到的是,如由NxN计算着色器1646所示,对于可以由着色器编译器1614生成的粗略计算着色器的数量没有理论限制。
[0193] 数据处理系统1600还包括一个或多个图形处理单元(GPU)1650,其可以如上面所描述地实现。在图16所描绘的示例中,(多个)GPU 1650包括与用户模式驱动程序1616和线程分派器1654通信地耦合的命令流送器1652。线程分派器1654与多个执行单元和中间存储装置1656通信地耦合。粗略线程生成器1658与线程分派器1654以及执行单元和中间存储装置1656通信地耦合。
[0194] 图17示出了根据本文所描述的一些实施例的粗略线程生成器1658的方面。参考图17,在一些示例中,粗略线程生成器包括可以被构造为包含一系列线程请求数据的计算机可读存储器(例如,高速缓冲存储器)。在图17所描绘的示例中,粗略线程生成器包括非粗略线程请求生成器1710,该非粗略线程请求生成器1710包括请求FIFO(先进先出)队列1712,该请求FIFO队列1712进而包括针对请求的一系列线程映射数据和有效载荷1714。非粗略生成器还包括看门狗定时器1716。粗略线程生成器1658还包括2x2粗略线程请求生成器1720,该2x2粗略线程请求生成器1720包括请求FIFO(先进先出)队列1722,该请求FIFO队列1722进而包括针对请求的一系列线程映射数据和有效载荷1724。2x2粗略生成器还包括看门狗定时器1726。粗略线程生成器1658还包括4x4粗略线程请求生成器1730,该4x4粗略线程请求生成器1730包括请求FIFO(先进先出)队列1732,该请求FIFO队列1732进而包括针对请求的一系列线程映射数据和有效载荷1734。4x4粗略生成器还包括看门狗定时器1736。
[0195] 将要认识到的是,如NxN粗略线程请求生成器1740所示,对于可以在粗略线程生成器1658中的粗略计算请求生成器的数量没有理论限制。NxN粗略线程请求生成器1740包括请求FIFO(先进先出)队列1742,该请求FIFO队列1742进而包括针对请求的一系列线程映射数据和有效载荷1744。NxN粗略生成器还包括看门狗定时器1746。
[0196] 已经描述了用于实现粗略计算着色的各种结构组件,将参考图18-19描述用于实现粗略计算着色的操作。在一些示例中,图18-19中描绘的操作可以由粗略线程生成器1658单独地或与数据处理系统的其他组件组合地实现。图18示出了用于执行粗略计算着色器的操作1800。在操作1810处,针对正在操作的整个表面,将粗略选择着色器分派给执行单元。粗略选择着色器将经由粗略线程生成器1658调用期望的粗略计算着色器。
[0197] 在操作1815处,粗略线程生成器1658接收来自(多个)粗略选择着色器的结果请求。在操作1820处,粗略线程生成器针对所请求的粗略度级别更新FIFO队列。例如,粗略选择着色器可以请求2x2的粗略度级别。在这种情况下,粗略选择着色器将由着色器返回的结果写入粗略线程生成器1658中的2x2粗略线程请求生成器1720的2x2FIFO队列1722。可替代地,粗略选择着色器可以请求4x4的粗略度级别。在这种情况下,粗略选择着色器将由着色器返回的结果写入粗略线程生成器1658中的4x4粗略线程请求生成器1730的4x4FIFO队列1732。粗略线程生成器1658还将线程标识符(即,像素位置)和任何相关联的有效载荷存储到粗略线程生成器1658的一个或多个高速缓存行中。在操作1820之后,控制传递到图19中描绘的操作。
[0198] 图19示出了被实现以处理针对粗略线程生成器1658中的每个粗略线程生成器FIFO的请求的操作。在一些示例中,图19中描绘的操作可以由粗略线程生成器中的处理电路单独地或与其他处理电路组合地实现。参考图19,在操作1910处,对在粗略线程生成器1658中形成相应的FIFO队列1712、1722、1732、1742的FIFO寄存器的状态进行监视。在一些示例中,粗略线程生成器1658中的处理电路可以对相应的FIFO队列1712、1722、1732、1742的内容进行评估。
[0199] 在操作1915处,如果在相应的FIFO队列1712、1722、1732、1742中不存在工作,则控制传递回到操作1910,并且相应的FIFO队列1712、1722、1732、1742的状态继续到受到监视。相反,在操作1915处,如果在相应的FIFO队列1712、1722、1732、1742中存在工作,则控制传递到操作1920。
[0200] 在操作1920处,如果存在足以执行相应的FIFO队列1712、1722、1732、1742中的完整SIMD线程的工作量,则控制传递到操作1930,并且粗略线程生成器1658将消息传送到线程分派器1654以分派指令来执行与相应的FIFO队列1712、1722、1732、1742的分辨率相对应的计算着色器。
[0201] 在一些示例中,着色器界限流水线可以包括多个入口点的阵列。每个入口点可以包括偏移量,该偏移量定义相对于着色器代码的开始处而言代码开始的位置。粗略线程生成器和粗略选择着色器使用的“粗略度”值可以用于索引入口点阵列。适当的入口点可以用于执行期望的代码。
[0202] 应该理解的是,不同的架构支持不同的SIMD宽度。例如,某些处理器架构支持SIMD64,而其他架构支持SIMD8、SIMD16和SIMD32。为简单起见,将使用SIMD16作为示例来说明该原理。当启动SIMD16线程时,它将在一个执行单元上运行一个线程,该线程将处理16个数据元素。通常,SIMD16着色器中的每条指令一次将对16个元素进行操作。在SIMD16着色器内,存在可以作为标量(SIMD 1)运行的指令,如果对于代码的某些部分而言不期望SIMD16,则SIMD通道也可以被掩蔽。
[0203] 例如,如果与非粗略线程生成器1710相关联的请求FIFO队列1712具有完整SIMD线程,则在操作1930处,将消息传送到线程分派器1654以利用完全填充的SIMD线程来分派指令以执行非粗略计算着色器以便处理请求FIFO队列1712的内容。类似地,如果与2x2粗略线程生成器1720相关联的请求FIFO队列1722具有完整SIMD线程,则在操作1930处,将消息传送到线程分派器1654以分派指令来执行2x2粗略计算着色器以处理请求FIFO队列1722的内容。其余的FIFO队列以类似的方式处理。
[0204] 相反,在操作1920处,如果在相应的FIFO队列1712、1722、1732、1742中没有足够的工作来填满相应的FIFO队列1712、1722、1732、1742中的完整SIMD线程,则控制传递到操作1925,在操作1925处确定与相应的FIFO队列1712、1722、1732、1742相关联的相应看门狗定时器1716、1726、1736、1746是否已经到期。在操作1925处,如果看门狗定时器尚未到期,则控制传递回到操作1920,并且算法继续对相应的FIFO队列1712、1722、1732、1742进行监视。
[0205] 相反,在操作1925处,如果与相应的FIFO队列1712、1722、1732、1742相关联的看门狗定时器1716、1726、1736、1746已经到期,则控制传递到操作1935,并且粗略线程生成器1658将消息传送到线程分派器1654以分派指令来执行与相应的FIFO队列1712、1722、1732、
1742的分辨率相对应的计算着色器,其中一些SIMD通道被掩蔽,因此这些SIMD通道不执行指令。例如,如果与非粗略线程生成器1710相关联的看门狗定时器1716在FIFO队列1712具有完整SIMD线程之前到期,则在操作1935处,将消息传送到线程分派器1654以分派指令来执行非粗略计算着色器以处理请求FIFO队列1712的内容,其中SIMD通道中的一些被掩蔽,因此这些SIMD通道不执行。类似地,如果与2x2粗略线程生成器1720相关联的看门狗定时器
1726在FIFO队列1722具有完整SIMD线程之前到期,则在操作1935处,将消息传送到线程分派器1654以分派指令来执行2x2粗略计算着色器以处理请求FIFO队列1722的内容,其中SIMD通道中的一些被掩蔽,因此这些SIMD通道不执行。其余的FIFO队列以类似的方式处理。
[0206] 在操作1940处,释放在相应的FIFO队列1712、1722、1732、1742中的FIFO存储装置,并且在操作1945处,更新FIFO寄存器。在一些示例中,每个FIFO可以具有其自己的存储器/存储装置,该存储器/存储装置可以包括高速缓存行的N个元素。可以利用循环缓冲器策略来实现FIFO,该策略可以通过向前移动循环缓冲器的头指针来分配高速缓存行。循环缓冲器可以通过向前移动尾指针来解除分配。
[0207] 在另一示例中,粗略线程生成器可以包括其自己的存储器,并且每个线程请求生成器可以定高速缓存行,该高速缓存行为支持的最大SIMD宽度所需要的有效载荷提供足够的存储。这可能需要使存储器控制器来跟踪锁定的高速缓存行。在这种情况下,存储器控制器将具有用于将每个高速缓存行的状态管理为锁定或解锁的位。
[0208] 在操作1950处,如果粗略线程生成器1658没有完成处理线程,则控制传递回到操作1910并且继续该过程。相反,在操作1950处,如果粗略线程生成器1658完成处理线程,则该过程结束。
[0209] 图20是根据实施例的包括图形处理器2004的计算设备2000的框图。计算设备2000可以是如本文所描述的计算设备,例如,图1中的数据处理系统100。计算设备2000还可以是或包括在诸如机顶盒(例如,基于互联网的有线电视机顶盒等)之类的通信设备、基于全球定位系统(GPS)的设备等内。计算设备2000还可以是或包括在诸如蜂窝电话、智能电话、个人数字助理(PDA)、平板计算机、膝上型计算机、电子阅读器、智能电视、电视平台、可穿戴设备(例如,眼镜、手表、手镯、智能卡、珠宝、服装等)、媒体播放器等之类的移动计算设备内。例如,在一个实施例中,计算设备2000包括采用集成电路(“IC”)(例如,片上系统(“SoC”或“SOC”),其在单个芯片上集成计算设备2000的各种硬件和/或软件组件)的移动计算设备。
[0210] 计算设备2000包括图形处理器2004。图形处理器2004表示本文所描述的任何图形处理器。图形处理器包括一个或多个图形引擎、图形处理器核心以及如本文所描述的其他图形执行资源。这样的图形执行资源可以以包括但不限于执行单元、着色器引擎、片段处理器、顶点处理器、流送多处理器、图形处理器集群或适合于处理图形和图像资源的计算资源的任何集合的形式呈现。
[0211] 在一个实施例中,图形处理器2004包括高速缓存2014,该高速缓存2014可以是单个高速缓存或被分成高速缓冲存储器的多个段,包括但不限于任何数量的L1、L2、L3或L4高速缓存、渲染高速缓存、深度高速缓存、采样器高速缓存和/或着色器单元高速缓存。在一个实施例中,图形处理器2004包括调度器2024,该调度器2024可以是图16的调度器单元1622的变体或本文所描述的其他调度器逻辑。除了包括用于执行如本文所描述的图形处理和通用指令执行的硬件逻辑的GPGPU引擎2044之外,图形处理器2004可以另外地包括命令流送器2026、线程分派器2034和屏障/同步逻辑2036。
[0212] 如所示的,在一个实施例中,除了图形处理器2004之外,计算设备2000还可以包括任何数量和类型的硬件组件和/或软件组件,包括但不限于应用处理器2006、存储器2008和输入/输出(I/O)源2010。应用处理器2006可以与硬件图形流水线交互(如参考图3所示),以共享图形流水线功能。经处理的数据存储在硬件图形流水线的缓冲器中,并且状态信息存储在存储器2008中。结果数据可以传送到显示控制器以经由诸如图3的显示设备323之类的显示设备输出。显示设备可以是各种类型的,例如,阴极射线管(CRT)、薄膜晶体管(TFT)、液晶显示器(LCD)、有机发光二极管(OLED)阵列等,并且可以被配置为经由图形用户界面向用户显示信息。
[0213] 应用处理器2006可以包括一个或多个处理器(例如,图1的(多个)处理器102),并且可以是至少部分地用于执行计算设备2000的操作系统(OS)2002的中央处理单元(CPU)。OS 2002可以用作计算设备2000的硬件和/或物理资源与一个或多个用户之间的接口。OS 
2002可以包括图形驱动程序逻辑2022,例如,图10的用户模式图形驱动程序1026和/或内核模式图形驱动程序1029。
[0214] 可以预期,在一些实施例中,图形处理器2004可以作为应用处理器2006的一部分存在(例如,物理CPU封装的一部分),在这种情况下,存储器2008的至少一部分可以由应用处理器2006和图形处理器2004共享,尽管存储器2008的至少一部分可以是图形处理器2004独有的,或者图形处理器2004可以具有单独的存储器存储。存储器2008可以包括缓冲器(例如,帧缓冲器)的预分配区域;然而,本领域普通技术人员应该理解的是,实施例不限于此,并且可以使用较低图形流水线可访问的任何存储器。存储器2008可以包括各种形式的随机存取存储器(RAM)(例如,SDRAM、SRAM等),其包括利用图形处理器2004来渲染桌面或3D图形场景的应用。存储器控制器可以用于访问存储器2008中的数据并且将数据转发到图形处理器2004以进行图形流水线处理。可以使存储器2008对计算设备2000内的其他组件可用。例如,在软件程序或应用的实现方式中,从计算设备2000的各种I/O源2010接收的任何数据(例如,输入图形数据)可以在这些数据被一个或多个处理器(例如,应用处理器2006)操作之前临时排队到存储器2008中。类似地,软件程序确定应该通过计算系统接口中的一个从计算设备2000发送到外部实体或者存储在内部存储元件中的数据通常在该数据被传输或存储之前临时排队到存储器2008中。
[0215] I/O源可以包括诸如触摸屏、触摸板、触摸垫、虚拟或常规键盘、虚拟或常规鼠标、端口、连接器、网络设备等的设备。另外地,I/O源2010可以包括一个或多个I/O设备,其被实现用于向计算设备2000(例如,网络适配器)和/或从计算设备2000传输数据;或者,被实现用于计算设备2000内的大规模非易失性存储装置(例如,硬盘驱动器)。用户输入设备(包括字母数字和其他键)可以用于将信息和命令选择传送到图形处理器2004。另一种类型的用户输入设备是光标控件,例如,鼠标、轨迹球、触摸屏、触摸板或光标方向键,其用于将方向信息和命令选择传送到GPU并且用于控制显示设备上的光标移动。计算设备2000的相机和麦克阵列可以用于观察手势、记录音频和视频以及接收和发送视觉和音频命令。
[0216] 被配置为网络接口的I/O源2010可以提供对网络(例如,LAN、广域网(WAN)、城域网(MAN)、个域网(PAN)、蓝牙、网络、蜂窝或移动网络(例如,第三代(3G)、第四代(4G)等)、内联网、互联网等)的访问。(多个)网络接口可以包括例如具有一个或多个天线的无线网络接口。(多个)网络接口还可以包括例如有线网络接口,以经由网络电缆与远程设备通信,网络电缆可以是例如以太网电缆、同轴电缆、光纤电缆、串行电缆或者并行电缆。
[0217] (多个)网络接口可以(例如,通过符合IEEE 802.11标准)提供对LAN的访问,和/或无线网络接口可以(例如,通过符合蓝牙标准)提供对个域网的访问。还可以支持其他无线网络接口和/或协议,包括标准的先前版本和后续版本。除了经由无线LAN标准的通信之外或代替经由无线LAN标准的通信,(多个)网络接口可以使用例如时分多址(TDMA)协议、全球移动通信系统(GSM)协议、码分多址(CDMA)协议和/或任何其他类型的无线通信协议来提供无线通信。
[0218] 应当认识到的是,对于某些实现方式,比上面所描述的示例更少或更多配备的系统可以是优选的。因此,取决于诸如价格约束、性能要求、技术改进或其他情况的许多因素,计算设备2000的配置可以根据实现方式而变化。示例包括(但不限于)移动设备、个人数字助理、移动计算设备、智能电话、蜂窝电话、手机、单向寻呼机、双向寻呼机、消息传递设备、计算机、个人计算机(PC)、台式计算机、膝上型计算机、笔记本计算机、手持计算机、平板计算机、服务器、服务器阵列或服务器群、web服务器、网络服务器、互联网服务器、工作站、微型计算机、主机计算机、超级计算机、网络设备、web设备、分布式计算系统、多处理器系统、基于处理器的系统、消费电子产品、可编程消费电子产品、电视、数字电视、机顶盒、无线接入点、基站、订户站、移动订户中心、无线电网络控制器、路由器、中心、网关、桥、交换机、机器或其组合。
[0219] 以下条款和/或示例涉及具体实施例或其示例。可以在一个或多个实施例中的任何地方使用示例中的细节。不同实施例或示例的各种特征可以与包括的一些特征以及排除的其他特征不同地组合以适合各种不同的应用。示例可以包括根据本文所描述的实施例和示例的诸如以下各项的主题:方法,用于执行该方法的动作的模块,至少一种机器可读介质,其包括当由机器执行时使得机器执行该方法或装置或系统的动作的指令。各种组件可以是用于执行所描述的操作或功能的模块。
[0220] 示例1是一种方法,包括:在计算机可读存储器中维持多个先进先出(FIFO)队列结构,多个FIFO队列结构中的每一个与粗略选择分派速率相对应;接收请求消息以分派粗略计算着色器工作,该请求消息包括所请求的粗略选择分派速率和线程标识符;以及将请求消息存储在FIFO队列结构中,该FIFO队列结构具有与关联于请求消息的所请求的粗略选择分派速率相对应的粗略选择分派速率。
[0221] 示例2可以包括示例1的主题,还包括:与请求消息一起接收有效载荷数据;以及将有效载荷数据存储在计算机可读存储器中。
[0222] 示例3可以包括示例1-2中任一项的主题,还包括:响应于确定FIFO队列结构包括足以利用完全填充的单指令多数据(SIMD)线程来分派粗略计算着色器工作的多个请求消息,而使用与FIFO队列结构的粗略选择分派速率相对应的着色器代码来生成具有用于分派计算着色器线程的指令的消息;以及将消息转发到线程分派器。
[0223] 示例4可以包括示例1-3中任一项的主题,还包括:利用消息将FIFO队列结构中的数据释放到线程分派器。
[0224] 示例5可以包括示例1-4中任一项的主题,还包括:响应于确定在FIFO队列结构包括足以利用完全填充的单指令多数据(SIMD)线程来分派粗略计算着色器工作的多个请求消息之前看门狗定时器到期,而生成具有用于分派计算着色器线程的指令的消息,该计算着色器线程具有与FIFO队列结构的粗略选择分派速率相对应的分派速率;以及将消息转发到线程分派器。
[0225] 示例6可以包括示例1-5中任一项的主题,还包括:利用消息将FIFO队列结构中的数据释放到线程分派器。
[0226] 示例7是一种存储指令的非暂时性机器可读介质,该指令当由一个或多个处理器执行时使得一个或多个处理器执行操作,该操作包括:在计算机可读存储器中维持多个先进先出(FIFO)队列结构,多个FIFO队列结构中的每一个与粗略选择分派速率相对应;接收请求消息以分派粗略计算着色器工作,该请求消息包括所请求的粗略选择分派速率和线程标识符;以及将请求消息存储在FIFO队列结构中,该FIFO队列结构具有与关联于请求消息的所请求的粗略选择分派速率相对应的粗略选择分派速率。
[0227] 示例8可以包括示例7的主题,该操作另外地包括:与请求消息一起接收有效载荷数据;以及将有效载荷数据存储在计算机可读存储器中。
[0228] 示例9可以包括示例7-8中任一项的主题,该操作另外地包括:响应于确定FIFO队列结构包括足以利用完全填充的单指令多数据(SIMD)线程来分派粗略计算着色器工作的多个请求消息,而使用与FIFO队列结构的粗略选择分派速率相对应的着色器代码来生成具有用于分派计算着色器线程的指令的消息;以及将消息转发到线程分派器。
[0229] 示例10可以包括示例7-9中任一项的主题,该操作另外地包括:利用消息将FIFO队列结构中的数据释放到线程分派器。
[0230] 示例11可以包括示例7-10中任一项的主题,该操作另外地包括:响应于确定在FIFO队列结构包括足以利用完全填充的单指令多数据(SIMD)线程来分派粗略计算着色器工作的多个请求消息之前看门狗定时器到期,而生成具有用于分派计算着色器线程的指令的消息,该计算着色器线程具有与FIFO队列结构的粗略选择分派速率相对应的分派速率;以及将消息转发到线程分派器。
[0231] 示例12可以包括示例7-11中任一项的主题,该操作另外地包括:利用消息将FIFO队列结构中的数据释放到线程分派器。
[0232] 示例13是一种装置,其包括:处理器,其用于:在计算机可读存储器中维持多个先进先出(FIFO)队列结构,多个FIFO队列结构中的每一个与粗略选择分派速率相对应;接收请求消息以分派粗略计算着色器工作,该请求消息包括所请求的粗略选择分派速率和线程标识符;以及将请求消息存储在FIFO队列结构中,该FIFO队列结构具有与关联于请求消息的所请求的粗略选择分派速率相对应的粗略选择分派速率;以及存储器,其与处理器通信地耦合。
[0233] 示例14可以包括示例13的主题,该处理器用于:与请求消息一起接收有效载荷数据;以及将有效载荷数据存储在计算机可读存储器中。
[0234] 示例15可以包括示例13-14中任一项的主题,该处理器用于:响应于确定FIFO队列结构包括足以利用完全填充的单指令多数据(SIMD)线程来分派粗略计算着色器工作的多个请求消息,而使用与FIFO队列结构的粗略选择分派速率相对应的着色器代码来生成具有用于分派计算着色器线程的指令的消息;以及将消息转发到线程分派器。
[0235] 示例16可以包括示例13-15中任一项的主题,该处理器用于:利用消息将FIFO队列结构中的数据释放到线程分派器。
[0236] 示例17可以包括示例13-16中任一项的主题,该处理器用于:响应于确定在FIFO队列结构包括足以利用完全填充的单指令多数据(SIMD)线程来分派粗略计算着色器工作的多个请求消息之前看门狗定时器到期,而生成具有用于分派计算着色器线程的指令的消息,该计算着色器线程具有与FIFO队列结构的粗略选择分派速率相对应的分派速率;以及将消息转发到线程分派器。
[0237] 示例18可以包括示例13-17中任一项的主题,该处理器用于:利用消息将FIFO队列结构中的数据释放到线程分派器。
[0238] 例如,可以提供实施例作为计算机程序产品,其可以包括一种或多种机器可读介质,其上存储有机器可执行指令,该机器可执行指令当由诸如计算机、计算机网络或者其他电子设备之类的一个或多个机器执行时,可以导致一个或多个机器执行根据本文所描述的实施例的操作。机器可读介质可以包括但不限于软盘、光盘、CD-ROM(光盘只读存储器)和磁光盘、ROM、RAM、EPROM(可擦除可编程只读存储器)、EEPROM(电可擦除可编程只读存储器)、磁卡或光卡、闪速存储器或适用于存储机器可执行指令的其他类型的介质/机器可读介质。
[0239] 此外,可以将实施例下载为计算机程序产品,其中该程序可以通过以载波或其他传播介质体现和/或调制的一个或多个数据信号的方式经由通信链路(例如,调制解调器和/或网络连接)从远程计算机(例如,服务器)传送到请求计算机(例如,客户端)。
[0240] 根据前述说明书,本领域技术人员将认识到的是,实施例的宽泛技术可以以各种形式实现。因此,虽然已经结合其特定示例描述了实施例,但是实施例的真实范围不限于此,因为在研究了附图、说明书和所附权利要求书之后,其他修改对于本领域技术人员将变得显而易见。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈