首页 / 专利库 / 电脑零配件 / 硬件实现 / 一种片上网络拓扑结构及其实现方法

一种片上网络拓扑结构及其实现方法

阅读:902发布:2020-05-08

专利汇可以提供一种片上网络拓扑结构及其实现方法专利检索,专利查询,专利分析的服务。并且本 发明 公开了一种片上网络拓扑结构及其实现方法,该拓扑结构包括多个Tile结构的传输层路由 节点 ,而传输层路由节点的端口数量、虚通道数量、端口FIFO深度等参数可灵活配置;通过基于Tile的架构设计和布局规划,可解决现有多核片上系统的片上网络因交换矩阵数量较多且规模过于庞大而导致的 硬件 资源极大扩张、物理设计及后端实现困难的问题;该拓扑结构的实现方法中,通过系统建模及性能调优,可获得最优化的片上网络传输层参数,经硬件生成器直接将片上网络的关键部件转换为硬件 电路 ,确保片上网络PPA最优化;该方案有利于优化报文路由流 水 线、关键路径的延迟,确保片上网络能在较高的主频下正常工作。,下面是一种片上网络拓扑结构及其实现方法专利的具体信息内容。

1.一种片上网络拓扑结构,其特征在于,所述拓扑结构包括多个Tile结构形式、且参数可灵活配置的传输层路由节点,数据包以Flit微片形式在所述拓扑结构中进行传输,GPU以及一个或多个Core Complex分别通过Cache一致性Master与至少一个所述传输层路由节点连接,I/O Master/Slave以及I/O Hub南北桥分别与至少一个所述传输层路由节点连接,存储体DRAM连接内存控制器,所述内存控制器通过Cache一致性Master与至少一个所述传输层路由节点连接,所述传输层路由节点连接一个或多个Chiplet互连接口,所述Chiplet互连接口用于实现片上系统芯片的DIE间互连或片间互连。
2.根据权利要求1所述的一种片上网络拓扑结构,其特征在于,所述Flit微片包括请求通道、探测通道、响应通道、数据通道、配置通道以及握手通道,所述请求通道用于源部件、目部件的请求命令包及流控信用信息的传输,所述探测通道用于源部件、目部件的探测命令包及流控信用信息的传输,所述响应通道用于源部件、目部件的响应命令包及流控信用信息的传输,所述数据通道用于源部件、目部件的数据Header及载荷包及流控信用信息的传输,所述配置通道用于提供源部件、目部件的请求及响应通道配置信息,所述握手通道用于提供用于信道建立的握手信息。
3.根据权利要求1所述的一种片上网络拓扑结构,其特征在于,所述传输层路由节点参数包括端口数量、虚通道数量以及端口FIFO深度。
4.根据权利要求1-3中任一所述的一种片上网络拓扑结构的实现方法,其特征在于,所述方法包括:
基于系统建模ESL对具有所述拓扑结构的片上网络进行系统建模和仿真,并根据建立的系统模型进行片上系统性能调优,以获得最优化的片上网络传输层参数;
根据所述传输层参数,通过硬件生成器将所述片上网络关键部件转换为硬件电路
5.根据权利要求4中所述的一种片上网络拓扑结构的实现方法,其特征在于,根据所述传输层参数,通过硬件生成器将片上网络关键部件转换为硬件电路,还包括:
所述片上网络采用确定性路由算法确定每个报文的输出端口。
6.根据权利要求4中所述的一种片上网络拓扑结构的实现方法,其特征在于,根据所述传输层参数,通过硬件生成器将片上网络关键部件转换为硬件电路,还包括:
所述片上网络采用虚通道交换机制进行数据包传递。
7.根据权利要求4中所述的一种片上网络拓扑结构的实现方法,其特征在于,根据所述传输层参数,通过硬件生成器将片上网络关键部件转换为硬件电路,还包括:
所述片上网络采用基于信用及ACK/NACK的流控混合管理策略,通过信用标识当前各个路由节点中缓存空间的可用性,当路由节点内部某个微片被消费或者被传输,路由节点将向相邻的路由节点发送1个信用,并在收到ACK信号之前将所述微片拷贝保存在备份缓存中,当收到ACK信号时删除备份缓存的所述微片,若收到NACK信号,则将所述微片进行重传。
8.根据权利要求4中所述的一种片上网络拓扑结构的实现方法,其特征在于,根据所述传输层参数,通过硬件生成器将片上网络关键部件转换为硬件电路,还包括:
根据系统建模,通过片上系统性能分析及硬件资源评估统计出的系统及各个传输层路由节点的虚通道缓存大小,根据典型应用程序的使用分类及分时复用策略,采用动态分配虚通道的方法,通过在路由节点内部动态管理缓存资源以最大化虚通道效率及其利用率。
9.根据权利要求4中所述的一种片上网络拓扑结构的实现方法,其特征在于,基于系统建模ESL对具有所述拓扑结构的片上网络进行系统建模和仿真,并根据建立的系统模型进行片上系统性能调优,以获得最优化的片上网络传输层参数,还包括:
以获取最优化性能/面积/功耗/关键路径延迟为目标,结合Benchmark以及片上系统的关键路径性能分析进行性能调优,获得最优化的片上网络传输层参数。
10.根据权利要求4中所述的一种片上网络拓扑结构的实现方法,其特征在于,所述传输层参数包括路由节点端口数量及其数据结构、虚通道VC数量及其数据结构、端口FIFO深度以及关键路径的路由跳步信息。

说明书全文

一种片上网络拓扑结构及其实现方法

技术领域

[0001] 本发明实施例涉及多核片上系统的片上网络技术领域,具体涉及一种片上网络拓扑结构及其实现方法。

背景技术

[0002] 随着集成电路工艺技术的成熟,单芯片所集成的IP核数目越来越多,传统共享总线互连结构已经无法满足日益增长的片上通信需求,片上网络(Network-on-Chip,NoC)技术越来越广泛应用于多核片上系统,其核心思想是借用计算机网络技术,有效解决传统共享总线互连结构的局限性。片上网络主要包括网络接口(Network Interface,NI)、一个或多个路由节点(Router)和数据链路(Channel),IP核产生的数据通过网络接口打包后发送到路由节点,路由节点根据数据包的目的地址对数据包进行转发,当数据包到达目的IP核的网络接口后,该网络接口从数据包中提取出有用的数据并发送给目的IP核。相比基于传统共享总线互连结构,片上网络技术具有空间可重用和良好的可扩展特性、包交换机制、设计效率高、全局异步局部同步设计、通信能耗低等优点。
[0003] 片上网络的拓扑结构定义了片上网络中各个模在芯片上的分布和连接的物理布局,拓扑结构的选择将直接影响到路由节点数量、网络路径、网络规模,从而影响了片上网络的时延、吞吐量、能耗、面积以及容错等,最终对片上网络性能参数产生重要影响。传统Mesh结构在片上网络中应用广泛,但该结构存在一系列的缺点:对称性易引起中央区域拥塞和热点,造成网络负载分布不均衡;其边缘节点相对闭塞,远端节点间长距离多跳通信易造成延迟过大;带宽、延迟等方面的性能不是最优;对于实时性数据传输要求较髙的网络,在这样情况下将无法保证服务质量。片上网络的数据包交换机制决定了数据包在网络中的传递方式,直接影响着网络的性能以及路由算法的设计,在电路交换机制中,数据包传输之前需要在源节点和目的节点之间建立专用通信链路,预留网络资源,链路的建立是通过一个头微片(head flit)来探测网络完成,电路交换机制需要预先建立连接,不太适合短突发类型的业务,此外由于只有专用链路建立后才开始进行数据的传输,而且该专用链路只有在数据成功发送和接收之后才释放,严重影响了网络资源的利用率;在虚切通交换机制中,数据包被切割成微片进行传输,这些微片由头微片(head flit)和数据微片(data flit)组成,路由节点的缓存需要1个或多个数据包大小,在传输过程中,通过包含路由和控制信息的头微片来创建到目的节点的链路,数据位片紧跟着头微片在网络中传,当头微片所请求的输出通道全忙时,头微片就地缓存在中间节点,后续的数据微片依次前往头微片受阻的节点。该交换的平均延迟对距离不敏感,便于网络拓展,相比于存储转发交换,该交换机制只有头微片携带控制信息,数据微片数紧跟头微片蠕动,减少了网络开销。
[0004] 片上网络的通信一般采用多跳传输方式,对于通信距离相隔较远的IP核,需要经过多个中继路由节点和多次中间传输处理,在大规模多核片上系统(Multiprocessor System-on-Chip,MPSoC)中,片上网络通常因交换矩阵数量较多且规模过于庞大,往往导致硬件资源极大扩张、物理设计及后端实现困难等问题。

发明内容

[0005] 为此,本发明实施例提供一种片上网络拓扑结构及其实现方法,以解决现有多核片上系统的片上网络因交换矩阵数量较多且规模过于庞大而导致的硬件资源极大扩张、物理设计及后端实现困难的问题。
[0006] 为了实现上述目的,本发明实施例提供如下技术方案:
[0007] 根据本发明实施例的第一方面,提出了一种片上网络拓扑结构,所述拓扑结构包括多个Tile结构形式、且参数可灵活配置的传输层路由节点,数据包以Flit微片形式在所述拓扑结构中进行传输,GPU以及一个或多个Core Complex分别通过Cache一致性Master与至少一个所述传输层路由节点连接,I/OMaster/Slave以及I/O Hub南北桥分别与至少一个所述传输层路由节点连接,存储体DRAM连接内存控制器,所述内存控制器通过Cache一致性Master与至少一个所述传输层路由节点连接,所述传输层路由节点连接一个或多个Chiplet互连接口,所述Chiplet互连接口用于实现片上系统芯片的DIE间互连或片间互连。
[0008] 进一步地,所述Flit微片包括请求通道、探测通道、响应通道、数据通道、配置通道以及握手通道,所述请求通道用于源部件、目部件的请求命令包及流控信用信息的传输,所述探测通道用于源部件、目部件的探测命令包及流控信用信息的传输,所述响应通道用于源部件、目部件的响应命令包及流控信用信息的传输,所述数据通道用于源部件、目部件的数据Header及载荷包及流控信用信息的传输,所述配置通道用于提供源部件、目部件的请求及响应通道配置信息,所述握手通道用于提供用于信道建立的握手信息。
[0009] 进一步地,所述传输层路由节点参数包括端口数量、虚通道数量以及端口FIFO深度。
[0010] 根据本发明实施例的第一方面,提出了一种片上网络拓扑结构的实现方法,所述方法包括:
[0011] 基于系统建模ESL对具有所述拓扑结构的片上网络进行系统建模和仿真,并根据建立的系统模型进行片上系统性能调优,以获得最优化的片上网络传输层参数;
[0012] 根据所述传输层参数,通过硬件生成器将所述片上网络关键部件转换为硬件电路。
[0013] 进一步地,根据所述传输层参数,通过硬件生成器将片上网络关键部件转换为硬件电路,还包括:
[0014] 所述片上网络采用确定性路由算法确定每个报文的输出端口。
[0015] 进一步地,根据所述传输层参数,通过硬件生成器将片上网络关键部件转换为硬件电路,还包括:
[0016] 所述片上网络采用虚通道交换机制进行数据包传递。
[0017] 进一步地,根据所述传输层参数,通过硬件生成器将片上网络关键部件转换为硬件电路,还包括:
[0018] 所述片上网络采用基于信用及ACK/NACK的流控混合管理策略,通过信用标识当前各个路由节点节点中缓存空间的可用性,当路由节点节点内部某个微片被消费或者被传输,路由节点节点将向相邻的路由节点发送1个信用,并在收到ACK信号之前将所述微片拷贝保存在备份缓存中,当收到ACK信号时删除备份缓存的所述微片,若收到NACK信号,则将所述微片进行重传。
[0019] 进一步地,根据所述传输层参数,通过硬件生成器将片上网络关键部件转换为硬件电路,还包括:
[0020] 根据系统建模,通过片上系统性能分析及硬件资源评估统计出的系统及各个传输层路由节点的虚通道缓存大小,根据典型应用程序的使用分类及分时复用策略,采用动态分配虚通道的方法,通过在路由节点内部动态管理缓存资源,以最大化虚通道效率及其利用率。
[0021] 进一步地,基于系统建模ESL对具有所述拓扑结构的片上网络进行系统建模和仿真,并根据建立的系统模型进行片上系统性能调优,以获得最优化的片上网络传输层参数,还包括:
[0022] 以获取最优化性能/面积/功耗/关键路径延迟为目标,结合Benchmark以及片上系统的关键路径性能分析进行性能调优,以获得最优化的片上网络传输层参数。
[0023] 进一步地,所述传输层参数包括路由节点端口数量及其数据结构、虚通道VC数量及其数据结构、端口FIFO深度以及关键路径的路由跳步信息。
[0024] 本发明实施例具有如下优点:
[0025] 本发明实施例提出的一种片上网络拓扑结构及其实现方法,该拓扑结构包括多个Tile结构形式、且参数可灵活配置的传输层路由节点;通过基于Tile的架构设计和布局规划,可解决现有多核片上系统的片上网络因交换矩阵数量较多且规模过于庞大而导致的硬件资源极大扩张、物理设计及后端实现困难的问题;该拓扑结构的片上网络硬件实现方法中,通过系统建模及性能调优,可获得最优化的片上网络传输层参数,经硬件生成器直接将片上网络的关键部件转换为硬件电路,确保片上网络PPA最优化;该方案有利于优化报文路由流线、关键路径的延迟,确保片上网络能在较高的主频下正常工作。附图说明
[0026] 为了更清楚地说明本发明的实施方式或现有技术中的技术方案,下面将对实施方式或现有技术描述中所需要使用的附图作简单地介绍。显而易见地,下面描述中的附图仅仅是示例性的,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图引申获得其它的实施附图。
[0027] 图1为传统Mesh拓扑结构的结构示意图;
[0028] 图2为本发明实施例1提供的一种片上网络拓扑结构的结构示意图;
[0029] 图3为本发明实施例2提供的一种片上网络拓扑结构的实现方法的流程示意图。

具体实施方式

[0030] 以下由特定的具体实施例说明本发明的实施方式,熟悉此技术的人士可由本说明书所揭露的内容轻易地了解本发明的其他优点及功效,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0031] 传统Mesh拓扑结构虽然具有良好的可扩展性、规则性、结构简单且便于实现等优点,但是,如图1所示,由于结构的对称性以及边缘节点相对闭塞,传统Mesh结构容易引起负载分布不均衡和中央区域热点的形成,从而导致网络拥塞和通信性能下降。本发明实施例1提出了一种片上网络拓扑结构,具体如图2所示,该拓扑结构包括多个Tile结构形式、且参数可灵活配置的传输层路由节点,传输层路由节点参数包括端口数量、虚通道数量以及端口FIFO深度等。
[0032] 本实施例中,片上网络路由主要由若干个传输层路由节点Cmd_Dat_Switch组成,GPU以及一个或多个Core Complex分别通过Cache一致性Master与一个传输层路由节点Cmd_Dat_Switch连接,可以经过I/OMaster/Slave和I/O Hub南北桥进行通讯及大批量的DMA数据搬移,I/OMaster/Slave以及I/O Hub南北桥分别与一个传输层路由节点Cmd_Dat_Switch连接,高速接口PCIe、SATA、Ethernet、USB一般放在北桥,而南桥主要处理简单外设、ACPI及桌面处理器传统功能;存储体DRAM连接内存控制器,内存控制器通过Cache一致性Master与一个传输层路由节点Cmd_Dat_Switch连接,GPU及处理器、高速接口可以通过Cache一致性Slave及内存控制器,访问存储体DRAM;传输层路由节点Cmd_Dat_Switch可连接一个或多个Chiplet互连接口,Chiplet互连接口用于实现片上系统芯片的DIE间互连或片间互连,确保片上系统芯片的封装有足够的灵活性。该方案将片上网络NoC和Cache协同整体考虑、设计及优化,可消解、缓和片上系统处理器对内存共享资源的访问冲突。
[0033] 数据包以Flit微片形式在拓扑结构中进行传输,每个Flit微片包括请求通道(Request channel)、探测通道(Probe channel)、响应通道(Response channel)、数据通道(Data channel)、配置通道(Configuration channel)以及握手通道(Handshake channel),请求通道用于源部件、目部件的请求命令包及流控信用信息的传输,探测通道用于源部件、目部件的探测命令包及流控信用信息的传输,响应通道用于源部件、目部件的响应命令包及流控信用信息的传输,数据通道用于源部件、目部件的数据Header及载荷包及流控信用信息的传输,配置通道用于提供源部件、目部件的请求及响应通道配置信息,握手通道用于提供用于信道建立的握手信息。
[0034] 每个传输层路由节点Cmd_Dat_Switch的输入、输出微片数量可自由配置,保证Tile有足够的灵活性;而传输层路由节点Cmd_Dat_Switch的虚通道VC数量、端口FIFO深度等参数也可灵活配置,保证每个Tile的存储资源消耗可控;探测通道(Probe channel)可用于处理Cache一致性相关的互连部件。
[0035] 本发明实施例提出的一种片上网络拓扑结构,该拓扑结构包括多个Tile结构的传输层路由节点,传输层路由节点参数可灵活配置,通过基于Tile的架构设计和布局规划,可解决现有多核片上系统的片上网络因交换矩阵数量较多且规模过于庞大而导致的硬件资源极大扩张、物理设计及后端实现困难的问题。
[0036] 本发明实施例2提出了一种片上网络拓扑结构的实现方法,具体如图3所示,该方法包括以下步骤:
[0037] 步骤110、基于系统建模ESL对具有拓扑结构的片上网络进行系统建模和仿真,并根据建立的系统模型进行片上系统的性能调优,以获得最优化的片上网络传输层参数。
[0038] 具体的,以获取最优化性能/面积/功耗/关键路径延迟为目标,结合Benchmark以及关键路径性能分析进行性能调优,获得最优化的片上网络传输层参数。传输层参数包括路由节点端口数量及其数据结构、虚通道VC数量及其数据结构、端口FIFO深度以及关键路径的路由跳步信息。
[0039] 步骤120、根据传输层参数,通过硬件生成器将片上网络关键部件转换为硬件电路。
[0040] 具体的,本实施例采用Tile结构的传输层路由节点Cmd_Dat_Switch,可在系统建模及性能分析阶段,灵活定义该Tile结构的端口数量、虚通道VC数量、端口FIFO深度等参数,并最终固化为硬件电路。不同的拓扑结构在性能、开销以及设计复杂度等方面各有优劣,分别适用于不同的应用需求,具体选择时应根据应用通信特征进行权衡考虑,以期实现适用于特定应用的NoC性能、功耗以及面积(Performance,Power,Area,PPA)开销的折中优化。
[0041] 本实施例中,片上网络采用确定性路由算法确定每个报文的输出端口。自适应路由算法实现较为复杂,且容易引起网络死及需要额外的硬件开销用于解决数据包重排序问题。本实施例采用确定性路由算法,报文传输路径由报文的源节点和目的节点决定,具有实现简单、延迟较低等优点,并通过Credit信用管理机制,克服互连网络中可能存在的“热点”所引起的网络拥塞问题。
[0042] 本实施例中,片上网络采用虚通道交换机制进行数据包传递。本实施例采用虚通道交换机制,分配报文网络传输时的通道带宽、Buffer容量等网络资源。虚通道交换机制,将报文划分为更细颗粒度的微片,报文的路由信息仅存在于报文的头微片中。网络中各路由节点无需等待报文被完全接收才执行路由转发,路由节点接收到头微片后即可从中读取路由信息,在路由计算、虚通道分配逻辑及仲裁器的支持下,可将头微片转发出去,后续微片则将紧随头微片向前传输。此外,当网络没有发生完全阻塞时,虚通道交换只需激活少量的端口缓存。
[0043] 本实施例中,片上网络采用基于信用及ACK/NACK的流控混合管理策略,通过信用标识当前各个路由节点中缓存空间的可用性,当路由节点内部某个微片被消费或者被传输,路由节点将向与其相邻的路由节点发送1个信用,并在收到ACK信号之前将微片拷贝保存在备份缓存中,当收到ACK信号时删除备份缓存的微片,若收到NACK信号,则将微片进行重传。
[0044] 本实施例中,片上网络采用的缓存控制策略如下:根据ESL系统建模,通过片上系统性能及硬件资源评估阶段统计出的系统及各个传输层路由节点的虚通道缓存大小,根据典型应用程序的使用分类及分时复用策略,采用动态分配虚通道的方法,通过在路由节点内部动态管理缓存资源以最大化虚通道效率及其利用率。
[0045] 本发明实施例提出的一种片上网络拓扑结构的实现方法,该拓扑结构包括多个Tile结构的传输层路由节点,而传输层路由节点参数可灵活配置;通过基于Tile的架构设计和布局规划,可解决现有多核片上系统的片上网络因交换矩阵数量较多且规模过于庞大而导致的硬件资源极大扩张、物理设计及后端实现困难的问题;该拓扑结构的片上网络硬件实现方法中,通过系统建模及性能调优,可获得最优化的片上网络传输层参数,经硬件生成器直接将片上网络的关键部件转换为硬件电路,确保片上网络PPA最优化;该方案有利于优化报文路由流水线、关键路径的延迟,确保片上网络能在较高的主频下正常工作。
[0046] 虽然,上文中已经用一般性说明及具体实施例对本发明作了详尽的描述,但在本发明基础上,可以对之作一些修改或改进,这对本领域技术人员而言是显而易见的。因此,在不偏离本发明精神的基础上所做的这些修改或改进,均属于本发明要求保护的范围。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈