神经处理系统

阅读:548发布:2023-06-10

专利汇可以提供神经处理系统专利检索,专利查询,专利分析的服务。并且一种神经处理系统包括第一前端模 块 、第二前端模块、第一后端模块及第二后端模块。第一前端模块利用第一特征图及第一权重执行特征提取运算,并输出第一运算结果及第二运算结果。第二前端模块利用第二特征图及第二权重执行所述特征提取运算,并输出第三运算结果及第四运算结果。第一后端模块接收从所述第一前端模块提供的所述第一运算结果及通过第二桥接器从所述第二前端模块提供的所述第四运算结果的输入,以对所述第一运算结果与所述第四运算结果求总和。第二后端模块接收从所述第二前端模块提供的所述第三运算结果及通过第一桥接器从所述第一前端模块提供的所述第二运算结果的输入,以对所述第三运算结果与所述第二运算结果求总和。,下面是神经处理系统专利的具体信息内容。

1.一种神经处理系统,包括:
第一前端模,利用第一特征图及第一权重执行特征提取运算,并输出第一运算结果及第二运算结果;
第二前端模块,利用第二特征图及第二权重执行所述特征提取运算,并输出第三运算结果及第四运算结果;
第一后端模块,接收从所述第一前端模块提供的所述第一运算结果及通过第二桥接器从所述第二前端模块提供的所述第四运算结果的输入,以对所述第一运算结果与所述第四运算结果求总和;以及
第二后端模块,接收从所述第二前端模块提供的所述第三运算结果及通过第一桥接器从所述第一前端模块提供的所述第二运算结果的输入,以对所述第三运算结果与所述第二运算结果求总和。
2.根据权利要求1所述的神经处理系统,其中所述第一前端模块及所述第一后端模块根据第一时钟信号被驱动,且
所述第二前端模块及所述第二后端模块根据具有与所述第一时钟信号不同的频率的第二时钟信号被驱动。
3.根据权利要求1所述的神经处理系统,其中所述第一桥接器与所述第二桥接器是异步桥接器。
4.根据权利要求1所述的神经处理系统,其中所述第一后端模块向所述第一前端模块提供第一回写数据,且
所述第二后端模块向所述第二前端模块提供第二回写数据。
5.根据权利要求1所述的神经处理系统,其中所述第一前端模块包括:
多个第一内部存储器,存储所述第一特征图及所述第一权重,
多个第一提取单元,从所述多个第一内部存储器中的每一者提取所述第一特征图及所述第一权重,
多个第一分派单元,针对每一信道将所提取的所述第一特征图及所述第一权重传送到第一乘法及累积阵列,以及
所述第一乘法及累积阵列,对从所述多个第一分派单元传送的数据执行乘法累积运算。
6.根据权利要求5所述的神经处理系统,其中所述第一乘法及累积阵列输出所述第一运算结果及所述第二运算结果,
所述第一运算结果被提供到所述第一后端模块,且
所述第二运算结果通过所述第一桥接器被提供到所述第二后端模块。
7.根据权利要求1所述的神经处理系统,其中所述第二前端模块包括:
多个第二内部存储器,存储所述第二特征图及所述第二权重,
多个第二提取单元,从所述多个第二内部存储器中的每一者提取所述第二特征图及所述第二权重,
多个第二分派单元,针对每一信道将所提取的所述第二特征图及所述第二权重传送到第二乘法及累积阵列,以及
所述第二乘法及累积阵列,对从所述多个第二分派单元传送的数据执行乘法累积运算。
8.根据权利要求1所述的神经处理系统,还包括:
工作负荷管理器,将用于执行特征提取的数据中的第一数据分配到所述第一前端模块,并将所述数据中的第二数据分配到所述第二前端模块,
其中所述第一前端模块利用所述第一特征图及所述第一权重对所述第一数据执行所述特征提取运算,且
所述第二前端模块利用所述第二特征图及所述第二权重对所述第二数据执行所述特征提取运算。
9.根据权利要求8所述的神经处理系统,其中所述第一数据的量与所述第二数据的量彼此不同。
10.根据权利要求8所述的神经处理系统,还包括:
时钟管理单元,向所述第一前端模块及所述第一后端模块提供第一时钟信号,并向所述第二前端模块及所述第二后端模块提供第二时钟信号,
其中所述时钟管理单元控制所述第一时钟信号及所述第二时钟信号中的至少一者的频率,以根据所述工作负荷管理器的分配操作对所述第一前端模块、所述第一后端模块、所述第二前端模块及所述第二后端模块中的至少一者执行时钟控。
11.根据权利要求8所述的神经处理系统,还包括:
电源管理单元,向所述第一前端模块及所述第一后端模块提供第一电源门控信号,并向所述第二前端模块及所述第二后端模块提供第二电源门控信号,
其中所述电源管理单元控制所述第一电源门控信号及所述第二电源门控信号的至少一个值,以根据所述工作负荷管理器的分配操作对所述第一前端模块、所述第一后端模块、所述第二前端模块及所述第二后端模块中的至少一者执行电源门控。
12.一种神经处理系统,包括:
第一神经处理单元,包括第一前端模块及第一后端模块;以及
桥接器单元,电连接到所述第一神经处理单元,以及
第二神经处理单元,在与所述第一神经处理单元不同的时钟域中运作,
其中所述第一前端模块将通过利用第一特征图及第一权重执行特征提取运算而获得的第一运算结果的一部分提供到所述第一后端模块,
所述桥接器单元将在所述第二神经处理单元中执行的第二运算结果的一部分提供到所述第一后端模块,且
所述第一后端模块对所述第一运算结果的所述一部分与所述第二运算结果的所述一部分求总和。
13.根据权利要求12所述的神经处理系统,其中所述桥接器电连接到第三神经处理单元,所述第三神经处理单元在与所述第一神经处理单元不同的时钟域中运作,所述第一前端模块将所述第一运算结果的另一部分提供到所述桥接器单元,且所述桥接器单元将所述第一运算结果的所述另一部分提供到所述第三神经处理单元。
14.根据权利要求12所述的神经处理系统,其中所述第一前端模块包括:
多个第一内部存储器,存储所述第一特征图及所述第一权重,
多个第一提取单元,从所述多个第一内部存储器中的每一者提取所述第一特征图及所述第一权重,
多个第一分派单元,针对每一信道将所提取的所述第一特征图及所述第一权重传送到第一乘法及累积阵列,以及
所述第一乘法及累积阵列,对从所述多个第一分派单元传送的数据执行乘法累积运算,并输出所述第一运算结果。
15.一种神经处理系统,包括:
第一神经处理单元,包括第一前端模块及第一后端模块;
第二神经处理单元,包括第二前端模块及第二后端模块;以及
工作负荷管理器,将用于执行特征提取的数据中的第一数据分配到所述第一神经处理单元,并将所述数据中的第二数据分配到所述第二神经处理单元,
其中所述第一前端模块利用第一特征图及第一权重对所述第一数据执行特征提取运算,并输出第一运算结果及第二运算结果,
所述第二前端模块利用第二特征图及第二权重对所述第二数据执行所述特征提取运算,并输出第三运算结果及第四运算结果,且
所述第一后端模块对所述第一运算结果与所述第四运算结果求总和,且所述第二后端模块对所述第三运算结果与所述第二运算结果求总和。
16.根据权利要求15所述的神经处理系统,还包括:
时钟管理单元,向所述第一前端模块及所述第一后端模块提供第一时钟信号,并向所述第二前端模块及所述第二后端模块提供第二时钟信号,
其中所述时钟管理单元控制所述第一时钟信号及所述第二时钟信号中的至少一者的频率,以根据所述工作负荷管理器的分配操作对所述第一前端模块、所述第一后端模块、所述第二前端模块及所述第二后端模块中的至少一者执行时钟门控。
17.根据权利要求15所述的神经处理系统,还包括:
电源管理单元,向所述第一前端模块及所述第一后端模块提供第一电源门控信号,并向所述第二前端模块及所述第二后端模块提供第二电源门控信号,
其中所述电源管理单元控制所述第一电源门控信号及所述第二电源门控信号的至少一个值,以根据所述工作负荷管理器的分配操作对所述第一前端模块、所述第一后端模块、所述第二前端模块及所述第二后端模块中的至少一者执行电源门控。
18.根据权利要求15所述的神经处理系统,其中所述第一神经处理单元根据第一时钟信号被驱动,且
所述第二神经处理单元根据具有与所述第一时钟信号不同的频率的第二时钟信号被驱动。
19.根据权利要求15所述的神经处理系统,其中所述第一前端模块包括:
多个第一内部存储器,存储所述第一特征图及所述第一权重,
多个第一提取单元,从所述多个第一内部存储器中的每一者提取所述第一特征图及所述第一权重,
多个第一分派单元,针对每一信道将所提取的所述第一特征图及所述第一权重传送到第一乘法及累积阵列,以及
所述第一乘法及累积阵列,对从所述多个第一分派单元传送的数据执行乘法累积运算。
20.根据权利要求15所述的神经处理系统,其中所述第二前端模块包括:
多个第二内部存储器,存储所述第二特征图及所述第二权重,
多个第二提取单元,从所述多个第二内部存储器中的每一者提取所述第二特征图及所述第二权重,
多个第二分派单元,针对每一信道将所提取的所述第二特征图及所述第二权重传送到第二乘法及累积阵列,以及
所述第二乘法及累积阵列,对从所述多个第二分派单元传送的数据执行乘法累积运算。

说明书全文

神经处理系统

[0001] 相关申请的交叉参考
[0002] 本专利申请主张在2018年9月7日在韩国知识产权局提出申请的韩国专利申请第10-2018-0106917号的优先权,所述韩国专利申请的公开内容全文并入本案供参考。

技术领域

[0003] 本公开涉及一种神经处理系统。

背景技术

[0004] 深度学习(deep learning)是指一种基于使用算法集(algorithm set)的深度学习架构的运算类型,其试图使用在层级结构(hierarchy)中具有多个处理级(processing level)的深度图(deep graph)对输入数据的高级抽象进行建模。一般来说,深度学习架构可包括多个神经元层级结构及参数。深度学习架构中的卷积神经网络(Convolutional Neural Network,CNN)被广泛应用于许多人工智能机器学习应用中,例如图像分类、图像标题创建(image caption creation)、视觉问题响应以及自动化驾驶车辆中。
[0005] 由于CNN系统包括很多参数且需要进行很多例如用于图像分类的运算,因此CNN系统复杂度高。因此,为了实施CNN系统,硬件资源的成本成为问题,且硬件资源消耗的电量也成为问题。具体来说,在最近的移动系统(例如,移动通信装置)中实施的CNN的情形中,需要能够在具有低成本及低功耗的同时实施人工智能的架构。发明内容
[0006] 本公开的各个方面提供一种能够在具有低成本及低功耗的同时实施人工智能的神经网络系统。
[0007] 然而,本公开的各个方面并不受限于本文中所述的方面。通过参照以下给出的本公开的详细说明,本公开的以上及其他方面将对本公开所属领域中的普通技术人员来说变得更显而易见。
[0008] 根据本公开的一个方面,一种神经处理系统包括第一前端模、第二前端模块、第一后端模块及第二后端模块。所述第一前端模块利用第一特征图及第一权重执行特征提取运算,并输出第一运算结果及第二运算结果。所述第二前端模块利用第二特征图及第二权重执行所述特征提取运算,并输出第三运算结果及第四运算结果。所述第一后端模块接收从所述第一前端模块提供的所述第一运算结果及通过第二桥接器从所述第二前端模块提供的所述第四运算结果的输入,以对所述第一运算结果与所述第四运算结果求总和。所述第二后端模块接收从所述第二前端模块提供的所述第三运算结果及通过第一桥接器从所述第一前端模块提供的所述第二运算结果的输入,以对所述第三运算结果与所述第二运算结果求总和。
[0009] 根据本公开的另一方面,一种神经处理系统包括第一神经处理单元、桥接器单元以及第二神经处理单元。所述第一神经处理单元包括第一前端模块及第一后端模块。所述桥接器单元电连接到所述第一神经处理单元。所述第二神经处理单元在与所述第一神经处理单元不同的时钟域中运作。所述第一前端模块将通过利用第一特征图及第一权重执行特征提取运算而获得的第一运算结果的一部分提供到所述第一后端模块。所述桥接器单元将在所述第二神经处理单元中执行的第二运算结果的一部分提供到所述第一后端模块。所述第一后端模块对所述第一运算结果的所述一部分与所述第二运算结果的所述一部分求总和。
[0010] 根据本公开的另一方面,一种神经处理系统包括第一神经处理单元、第二神经处理单元以及工作负荷管理器。所述第一神经处理单元包括第一前端模块及第一后端模块。所述第二神经处理单元包括第二前端模块及第二后端模块。所述工作负荷管理器将用于执行特征提取的数据中的第一数据分配到所述第一神经处理单元,并将所述数据中的第二数据分配到所述第二神经处理单元。所述第一前端模块利用第一特征图及第一权重对所述第一数据执行特征提取运算,并输出第一运算结果及第二运算结果。所述第二前端模块利用第二特征图及第二权重对所述第二数据执行所述特征提取运算,并输出第三运算结果及第四运算结果。所述第一后端模块对所述第一运算结果与所述第四运算结果求总和。所述第二后端模块对所述第三运算结果与所述第二运算结果求总和。
附图说明
[0011] 通过参照附图详细阐述本公开的示例性实施例,本公开的以上及其它方面及特征将变得更显而易见,在附图中:
[0012] 图1是示出根据本公开的实施例的计算系统的示意图。
[0013] 图2是示出根据本公开的实施例的神经处理系统的方块图。
[0014] 图3是示出根据本公开的实施例的神经处理系统的方块图。
[0015] 图4及图5是示出根据本公开的实施例的神经处理系统的前端模块的方块图。
[0016] 图6是示出根据本公开的实施例的神经处理系统的后端模块的方块图。
[0017] 图7是示出根据本公开的另一实施例的计算系统的示意图。
[0018] 图8是示出根据本公开的另一实施例的神经处理系统的方块图。
[0019] 图9是示出根据本公开的再一实施例的计算系统的示意图。
[0020] 图10是示出根据本公开的再一实施例的神经处理系统的方块图。
[0021] 图11是示出根据本公开的再一实施例的计算系统的示意图。
[0022] 图12及图13是示出根据本公开的再一实施例的神经处理系统的方块图。
[0023] 图14是示出根据本公开的再一实施例的计算系统的方块图。
[0024] 图15是示出根据本公开的再一实施例的计算系统的方块图。
[0025] 图16是示出根据本公开的再一实施例的计算系统的方块图。
[0026] [符号的说明]
[0027] 1、2、3、4、5、6、7:计算系统;
[0028] 10:神经处理系统;
[0029] 20:时钟管理单元(CMU);
[0030] 30:处理器;
[0031] 40:存储器
[0032] 50:电源管理单元(PMU);
[0033] 60:存储;
[0034] 70:显示器;
[0035] 80:照相机
[0036] 90:总线;
[0037] 100a:第一神经处理单元;
[0038] 100b:第二神经处理单元;
[0039] 100c:第三神经处理单元;
[0040] 100d:第四神经处理单元;
[0041] 102a:第一前端模块;
[0042] 102b:第二前端模块;
[0043] 102c:第三前端模块;
[0044] 102d:第四前端模块;
[0045] 104a:第一后端模块;
[0046] 104b:第二后端模块;
[0047] 104c:第三后端模块;
[0048] 104d:第四后端模块;
[0049] 110:桥接器单元;
[0050] 111:第一桥接器;
[0051] 112:第二桥接器;
[0052] 120:工作负荷管理器;
[0053] 1021a、1022a:第一内部存储器;
[0054] 1021b、1022b:第二内部存储器;
[0055] 1023a、1024a:第一提取单元;
[0056] 1023b、1024b:第二提取单元;
[0057] 1025a、1026a:第一分派单元;
[0058] 1025b、1026b:第二分派单元;
[0059] 1027a:第一MAC阵列;
[0060] 1027b:第二MAC阵列;
[0061] 1041a:第一求和单元;
[0062] 1041b:第二求和单元;
[0063] 1043a:第一激活单元;
[0064] 1043b:第二激活单元;
[0065] 1045a:第一回写单元;
[0066] 1045b:第二回写单元;
[0067] 1112、1113、1114、1122、1123、1124:桥接器;
[0068] CLK1:第一时钟信号
[0069] CLK2:第二时钟信号
[0070] CLK3:第三时钟信号;
[0071] CLK4:第四时钟信号;
[0072] DATA、DATA3、DATA4、DATA11、DATA12、DATA21、DATA22:数据;
[0073] DATA1:第一数据;
[0074] DATA2:第二数据;
[0075] DATA3:第三数据;
[0076] DATA4:第四数据;
[0077] PG1:第一电源控信号;
[0078] PG2:第二电源门控信号;
[0079] PG3:第三电源门控信号;
[0080] PG4:第四电源门控信号;
[0081] R11:第一运算结果;
[0082] R12:第二运算结果/中间结果;
[0083] R13、R14:中间结果;
[0084] R21:第三运算结果;
[0085] R22:第四运算结果/中间结果;
[0086] R33、R44:中间结果;
[0087] WB DATA1:第一回写数据;
[0088] WB DATA2:第二回写数据。

具体实施方式

[0089] 图1是示出根据本公开的实施例的计算系统的示意图。
[0090] 参照图1,根据本公开的实施例的计算系统1包括神经处理系统10、时钟管理单元20(clock management unit,CMU)、处理器30以及存储器40。神经处理系统10、处理器30以及存储器40可通过总线90传送及接收数据。神经处理系统10可为或可包括一个或多个神经网络处理器,所述神经网络处理器可例如通过执行指令并处理数据来实施卷积神经网络(CNN)。然而,本公开并不仅限于此。也就是说,神经处理系统10可作为另外一种选择由处理任意向量运算、矩阵运算等的处理器实施。神经处理系统10也可包括存储在其中的指令,或可执行存储在存储器40中或动态地从外部源接收的指令。神经处理系统10也可包括在本文中所述的学习过程中动态更新的存储器,以对学习内容进行更新从而动态更新新的学习。
神经网络处理器的实例是图形处理器(graphics processing unit,GPU),但可使用多于一个处理器(例如,多个图形处理器)来实施神经处理系统10。因此,本文中使用的神经处理系统10至少包括神经网络处理器,但也可被视为包括功能上可分离但相互依赖的软件模块、个别电路组件的功能上可分离但相互依赖的电路模块、每一模块和/或单元所特有的数据及存储器、以及本文中所述的其他元件。同时,尽管在图1中示出了神经处理系统10并参照图1将神经处理系统10阐述为与时钟管理单元20、处理器30以及存储器40分离,但由神经处理系统10实施的功能可部分地通过或使用时钟管理单元20、处理器30以及存储器40的资源实施。
[0091] 另外,图1中的计算系统1可以是包括一个或多个计算装置的计算机系统,所述一个或多个计算装置各自包括一个或多个处理器。计算系统1的处理器是有形的且非暂时性的。用语“非暂时性的”明确否认短暂特性,例如在任意时间任意地点仅暂时性地存在的载波或信号或其他形式的特性。处理器是制品和/或机器组件。用于实施图1中的神经处理系统10或本文中的其他实施例的计算机系统的处理器被配置成执行软件指令以实行如在本文中的各种实施例中所述的功能。计算机系统的处理器可以是通用处理器、专用集成电路(application specific integrated circuit,ASIC)的一部分、微处理器、微计算机、处理器芯片、控制器微控制器数字信号处理器(digital signal processor,DSP)、状态机、或可编程的逻辑装置。计算机系统的处理器也可以是包括可编程门阵列(programmable gate array,PGA)(例如,现场可编程门阵列(field programmable gate array,FPGA))的逻辑电路或包括分立门和/或晶体管逻辑的另一类型的电路。处理器也可以是中央处理器(central processing unit,CPU)、图形处理器(GPU)或可以是所述两者。另外,本文中所述的任一处理器可包括多个处理器、并行处理器或可包括所述两者。多个处理器可被包括在单个装置或多个装置中或耦合到单个装置或多个装置。
[0092] 实施图1中的计算系统1的计算机系统可实施本文中所述的全部或部分方法。举例来说,如本文中所述的例如特征提取、求和及激活等功能可由执行软件指令的计算机系统通过本文中所述的一个或多个处理器来实施。
[0093] 在本实施例中,神经处理系统10可实施和/或处理包括多个层(例如,特征提取层及特征分类层)的神经网络。此处,特征提取层对应于神经网络的初始层,且可例如用于从输入图像中提取例如边缘及梯度等低级特征。另一方面,特征分类层对应于神经网络的第二级层(secondary layer),且可例如用于从输入图像中提取例如人脸、眼睛、鼻子等更复杂及高级的特征。解释一下,特征提取层可被视为在特征分类层提取更复杂及高级的特征之前提取低级特征。特征分类层对应于全连接层(fully-connected layer)。
[0094] 为了从输入图像中提取特征,神经处理系统10可使用滤波器内核(kernel)来计算输入图像或特征图。举例来说,神经处理系统10可使用卷积滤波器或卷积内核对输入图像或特征图执行卷积运算。此外,神经处理系统10可利用可对应于特征图的权重来进行运算,所述权重是依具体实施方式的目的而确定的。
[0095] 在本实施例中,应特别注意的是,神经处理系统10包括多个神经处理单元,所述多个神经处理单元包括第一神经处理单元100a及第二神经处理单元100b。第一神经处理单元100a及第二神经处理单元100b可通过如上所述的物理上分离的神经网络处理器实施,并/或通过由相同或不同物理上分离的神经网络处理器执行的逻辑上和/或功能上分离的软件模块实施。为便于阐释,在本实施例中,神经处理系统10被示出为包括第一神经处理单元
100a及第二神经处理单元100b,但本公开的范围并不仅限于此。根据具体实施方式的目的,神经处理系统10可包括n(此处,n是为2或大于2的自然数)个神经处理单元。
[0096] 使用例如本文中所述的第一神经处理单元100a及第二神经处理单元100b等多个神经处理单元提供了若干实际机会来降低成本和/或功耗。
[0097] 时钟管理单元20产生用于驱动神经处理系统10的第一时钟信号CLK1及第二时钟信号CLK2。时钟管理单元20向第一神经处理单元100a及第二神经处理单元100b中的每一者提供第一时钟信号CLK1及第二时钟信号CLK2。因此,第一神经处理单元100a根据第一时钟信号CLK1被驱动。第二神经处理单元100b根据第二时钟信号CLK2被驱动。如本文中所阐释,针对例如第一神经处理单元100a及第二神经处理单元100b等不同的神经处理单元,可以降低功耗、增加功耗、降低处理速度或提高处理速度的方式选择性地控制不同的时钟。
[0098] 在本公开的一些实施例中,第一时钟信号CLK1及第二时钟信号CLK2的频率可彼此不同。换句话说,第一神经处理单元100a在其中运作的时钟域可不同于第二神经处理单元100b在其中运作的时钟域。
[0099] 时钟管理单元20可根据需要控制第一时钟信号CLK1及第二时钟信号CLK2的每个频率。此外,时钟管理单元20还可根据需要对第一时钟信号CLK1及第二时钟信号CLK2执行时钟门控(clockgating)。
[0100] 处理器30是执行一般算术运算的处理器,所述一般算术运算与由神经处理系统10处理的人工智能运算、向量运算、矩阵运算等运算不同。处理器30可包括例如中央处理器(CPU)、图形处理器(GPU)等,但本公开的范围并不仅限于此。在本实施例中,处理器30通常可控制计算系统1。
[0101] 存储器40可存储在处理器30执行应用程序或控制计算系统1时使用的数据。存储器40也可用于存储用于神经处理系统10的数据,但神经处理系统10可包括其自身的存储器以存储指令及数据。存储器40可以是例如动态随机存取存储器(Dynamic Random-Access Memory,DRAM),但本公开的范围并不仅限于此。在本实施例中,可将由神经处理系统10利用例如CNN处理的图像数据存储在存储器40中。
[0102] 图2是示出根据本公开的实施例的神经处理系统的方块图。
[0103] 参照图2,根据本公开的实施例的神经处理系统10包括第一神经处理单元100a及第二神经处理单元100b。在第一神经处理单元100a与第二神经处理单元100b之间设置有桥接器单元110。如上所述,第一神经处理单元100a与第二神经处理单元100b可在物理上分离且在功能上分离。如在本文中所阐释,例如在桥接器单元110中使用一个或多个桥接器会增强以降低功耗、增加功耗、降低处理速度或提高处理速度的方式选择性地控制第一神经处理单元100a及第二神经处理单元100b的实际能
[0104] 首先,桥接器单元110包括第一桥接器111及第二桥接器112。第一桥接器111用于将由第一神经处理单元100a的运算产生的中间结果传送到第二神经处理单元100b。第二桥接器112用于将由第二神经处理单元100b的运算产生的中间结果传送到第一神经处理单元100a。
[0105] 为此,第一神经处理单元100a与第二神经处理单元100b可在相互不同的时钟域中运作。在此种情况下,桥接器单元110可电连接到第一神经处理单元100a及在不同于第一神经处理单元100a的时钟域中运作的第二神经处理单元100b。
[0106] 因此,当第一神经处理单元100a与第二神经处理单元100b在相互不同的时钟域中运作时,桥接器单元110中所包括的第一桥接器111及第二桥接器112被实施为异步桥接器以使得数据能够在彼此不同的时钟域之间传送。
[0107] 在本实施例中,第一神经处理单元100a包括第一前端模块102a及第一后端模块104a。第二神经处理单元100b包括第二前端模块102b及第二后端模块104b。第一神经处理单元100a可对将由神经处理系统10处理的数据中的第一数据DATA1进行处理。第二神经处理单元100b可对将由神经处理系统10处理的数据中的第二数据DATA2进行处理。具体来说,第一前端模块102a利用第一特征图及第一权重对第一数据DATA1执行特征提取运算,并输出第一运算结果R11及第二运算结果R12。此外,第二前端模块102b利用第二特征图及第二权重对第二数据DATA2执行特征提取运算,并输出第三运算结果R21及第四运算结果R22。
[0108] 第一后端模块104a接收从第一前端模块102a提供的第一运算结果R11以及通过第二桥接器112从第二前端模块102b提供的第四运算结果R22。第一后端模块104a对第一运算结果R11与第四运算结果R22求总和。另一方面,第二后端模块104b接收从第二前端模块102b提供的第三运算结果R21以及通过第一桥接器111从第一前端模块102a提供的第二运算结果R12。第二后端模块104b对第三运算结果R21与第二运算结果R12求总和。
[0109] 在本公开的一些实施例中,第一前端模块102a及第一后端模块104a根据第一时钟信号CLK1被驱动,且第二前端模块102b及第二后端模块104b可根据频率与第一时钟信号CLK1不同的第二时钟信号CLK2被驱动。也就是说,第一前端模块102a及第一后端模块104a可在不同于第二前端模块102b及第二后端模块104b的时钟域中运作。
[0110] 另一方面,在本实施例中,第一后端模块104a可向第一前端模块102a提供第一回写数据WB DATA1,且第二后端模块104b可向第二前端模块102b提供第二回写数据WB DATA2。第一回写数据WB DATA1及第二回写数据WB DATA2被输入到第一前端模块102a及第二前端模块102b中的每一者,以允许重复进行特征提取运算。
[0111] 现在参照图3,将阐述根据本公开的实施例的神经处理系统10的更详细的结构。
[0112] 图3是示出根据本公开的实施例的神经处理系统的方块图。
[0113] 参照图3,根据本公开的实施例的神经处理系统10的第一神经处理单元100a中所包括的第一前端模块102a包括多个第一内部存储器1021a及1022a、多个第一提取单元1023a及1024a、多个第一分派单元1025a及1026a以及第一MAC阵列1027a(乘法及累积阵列)。
[0114] 第一内部存储器1021a及1022a可存储由第一前端模块102a用于进行数据DATA11及DATA12的特征提取运算的第一特征图及第一权重。在本实施例中,第一内部存储器1021a及1022a可实施为静态随机存取存储器(Static Random-Access Memory,SRAM),但本公开的范围并不仅限于此。
[0115] 第一提取单元1023a及1024a从第一内部存储器1021a及1022a中的每一者提取第一特征图及第一权重,并将所述第一特征图及第一权重传送到第一分派单元1025a及1026a。
[0116] 第一分派单元1025a及1026a针对每一信道将所提取的第一特征图及第一权重传送到第一MAC阵列1027a。举例来说,第一分派单元1025a及1026a例如针对k(此处,k是自然数)个信道中的每一者选择权重及对应的特征图,并可将所述权重及对应的特征图传送到第一MAC阵列1027a。
[0117] 第一MAC阵列1027a对从第一分派单元1025a及1026a传送的数据执行乘法累积运算。举例来说,第一MAC阵列1027a对用于k个信道中的每一者的数据执行乘法累积运算。此外,第一MAC阵列1027a输出第一运算结果R11及第二运算结果R12。
[0118] 然后,如上所述,第一运算结果R11被提供到第一后端模块104a,且第二运算结果R12可通过第一桥接器111被提供到第二神经处理单元100b的第二后端模块104b。
[0119] 另一方面,根据本公开的实施例的神经处理系统10的第一神经处理单元100a中所包括的第一后端模块104a包括第一求和单元1041a、第一激活单元1043a以及第一回写单元1045a。
[0120] 第一求和单元1041a对第一运算结果R11及第四运算结果R22执行求和运算以产生求和结果。此处,可通过第二桥接器112从第二神经处理单元100b的第二前端模块102b提供第四运算结果R22。
[0121] 第一激活单元1043a可对求和运算的执行结果执行激活运算以产生激活结果。在本公开的一些实施例中,激活运算可包括使用激活函数(例如,修正线性单元(rectified linear unit,ReLU)、S形(Sigmoid)函数及双曲正切函数(tanh))的运算,但本公开的范围并不仅限于此。
[0122] 第一回写单元1045a执行向第一前端模块102a提供激活运算的执行结果的回写运算。具体来说,第一回写单元1045a可将激活运算的执行结果存储在第一内部存储器1021a及1022a中。
[0123] 另一方面,根据本公开的实施例的神经处理系统10的第二神经处理单元100b中所包括的第二前端模块102b包括多个第二内部存储器1021b及1022b、多个第二提取单元1023b及1024b、多个第二分派单元1025b及1026b以及第二MAC阵列1027b。
[0124] 所述多个第二内部存储器1021b及1022b可存储由第二前端模块102b用于进行数据DATA21及DATA22的特征提取运算的第二特征图及第二权重。在本实施例中,第二内部存储器1021b及1022b可实施为SRAM,但本公开的范围并不仅限于此。
[0125] 第二提取单元1023b及1024b从第二内部存储器1021b及1022b中的每一者提取第二特征图及第二权重,并将所述第二特征图及第二权重传送到第二分派单元1025b及1026b。
[0126] 第二分派单元1025b及1026b针对每一信道将所提取的第二特征图及第二权重传送到第二MAC阵列1027b。举例来说,第二分派单元1025b及1026b例如针对k(此处,k是自然数)个信道中的每一者选择权重及对应的特征图,并可将所述权重及对应的特征图传送到第二MAC阵列1027b。
[0127] 第二MAC阵列1027b对从第二分派单元1025b及1026b传送的数据执行乘法累积运算。举例来说,第二MAC阵列1027b对用于k个信道中的每一者的数据执行乘法累积运算。此外,第二MAC阵列1027b输出第三运算结果R21及第四运算结果R22。
[0128] 然后,如上所述,第三运算结果R21被提供到第二后端模块104b,且第四运算结果R22可通过第二桥接器112被提供到第一神经处理单元100a的第一后端模块104a。
[0129] 另一方面,根据本公开的实施例的神经处理系统10的第二神经处理单元100b中所包括的第二后端模块104b包括第二求和单元1041b、第二激活单元1043b以及第二回写单元1045b。
[0130] 第二求和单元1041b对第三运算结果R21及第二运算结果R12执行求和运算以产生求和结果。此处,可通过第一桥接器111从第一神经处理单元100a的第一前端模块102a提供第二运算结果R12。
[0131] 第二激活单元1043b可对求和运算的执行结果执行激活运算以产生执行结果。在本公开的一些实施例中,激活运算可包括使用激活函数(例如,修正线性单元(ReLU)、S形(Sigmoid)函数及双曲正切函数(tanh))的运算,但本公开的范围并不仅限于此。
[0132] 第二回写单元1045b执行用于向第二前端模块102b提供激活运算的执行结果的回写运算。具体来说,第二回写单元1045b可将激活运算的执行结果存储在第二内部存储器1021b及1022b中。
[0133] 图4及图5是示出根据本公开的实施例的神经处理系统的前端模块的方块图。
[0134] 参照图4,第一内部存储器1021a及1022a中的每一者存储用于对数据DATA11及数据DATA12进行特征提取运算的第一特征图及第一权重。第一提取单元1023a及1024a从第一内部存储器1021a及1022a中的每一者提取第一特征图及第一权重,并将所述第一特征图及第一权重传送到第一分派单元1025a及1026a。
[0135] 第一分派单元1025a针对数据DATA11的六个信道中的每一者选择权重及对应的特征图,并将所述权重及对应的特征图传送到第一MAC阵列1027a。第一分派单元1026a针对数据DATA12的六个信道中的每一者选择权重及对应的特征图,并将所述权重及对应的特征图传送到第一MAC阵列1027a。
[0136] 第一MAC阵列1027a对从第一分派单元1025a及1026a针对六个信道中的每一者传送的数据执行乘法累积运算。
[0137] 在本实施例中,从第一MAC阵列1027a输出的运算结果中的第一运算结果R11对应于针对第一信道、第三信道及第六信道的乘法累积运算的结果。第二运算结果R12对应于针对第二信道、第四信道及第五信道的乘法累积运算的结果。
[0138] 第一运算结果R11被提供到第一后端模块104a的第一求和单元1041a,且第二运算结果R12被提供到第一桥接器111以传送到在其他时钟域中运作的第二神经处理单元100b。另一方面,第一后端模块104a的第一求和单元1041a通过第二桥接器112接收在其他时钟域中运作的第二神经处理单元100b的运算结果,例如,第四运算结果R22。
[0139] 接下来,参照图5,第二内部存储器1021b及1022b中的每一者存储用于对数据DATA21及数据DATA22进行特征提取运算的第二特征图及第二权重。第二提取单元1023b及1024b从第二内部存储器1021b及1022b中的每一者提取第二特征图及第二权重,并将所述第二特征图及第二权重传送到第二分派单元1025b及1026b。
[0140] 第二分派单元1025b针对数据DATA21的六个信道中的每一者选择权重及对应的特征图,并将所选择的权重及对应的特征图传送到第二MAC阵列1027b。第二分派单元1026b针对数据DATA22的六个信道中的每一者选择权重及对应的特征图,并将所选择的权重及对应的特征图传送到第二MAC阵列1027b。
[0141] 第二MAC阵列1027b对从第二分派单元1025b及1026b针对六个信道中的每一者传送的数据执行乘法累积运算。
[0142] 在本实施例中,从第二MAC阵列1027b输出的运算结果中的第三运算结果R21对应于对第二信道、第四信道及第五信道的乘法累积运算的结果。第四运算结果R22对应于对第一信道、第三信道及第六信道的乘法累积运算的结果。
[0143] 第三运算结果R21被提供到第二后端模块104b的第二求和单元1041b,且第四运算结果R22被提供到第二桥接器112以传送到在其他时钟域中运作的第一神经处理单元100a。另一方面,第二后端模块104b的第二求和单元1041b通过第一桥接器111接收在其他时钟域中运作的第一神经处理单元100a的运算结果,例如,第二运算结果R12。
[0144] 图6是示出根据本公开的实施例的神经处理系统的后端模块的方块图。
[0145] 参照图6,第一求和单元1041a针对每一信道对第一运算结果R11及第四运算结果R22执行求和运算以产生求和结果。在图4及图5中,由于总第一运算结果R11包括六个信道中的三个信道的值,且第四运算结果R22也包括三个信道的值,因此对其中每一者的求和是针对三个信道执行的。
[0146] 随后,第一激活单元1043a对每一信道的求和运算的执行结果执行激活运算以产生激活结果,且第一回写单元1045a针对每一信道执行用于向第一前端模块102a提供激活运算的执行结果的回写运算。举例来说,第一回写单元1045a可将激活运算的执行结果中对应于第一信道的数据回写到第一内部存储器1021a中,且可将对应于第二信道及第三信道的数据回写到第一内部存储器1022a中。
[0147] 另一方面,第二求和单元1041b也针对每一信道对第三运算结果R21及第二运算结果R12执行求和运算以产生求和结果。在图4及图5中,由于总第三运算结果R21包括六个信道中的三个信道的值,且第二运算结果R12也包括三个信道的值,因此对其中每一者的求和是针对三个信道执行的。
[0148] 随后,第二激活单元1043b对每一信道的求和运算的执行结果执行激活运算以产生激活结果。第二回写单元1045b针对每一信道执行用于向第二前端模块102b提供激活运算的执行结果的回写运算。举例来说,第二回写单元1045b可将激活运算的执行结果中对应于第一信道的数据回写到第二内部存储器1021b中,且可将对应于第二信道及第三信道的数据回写到第二内部存储器1022b中。
[0149] 图7是示出根据本公开的另一实施例的计算系统的示意图,且图8是示出根据本公开的另一实施例的神经处理系统的方块图。
[0150] 参照图7及图8,不同于图1所示的实施例,根据本实施例的计算系统2的神经处理系统10还包括工作负荷管理器120。如在本文中所阐释,使用例如工作负荷管理器120等工作负荷管理器会增强以降低功耗、增加功耗、降低处理速度或提高处理速度的方式选择性地控制多个神经处理单元中的个别神经处理单元的实际能力。
[0151] 工作负荷管理器120将用于执行特征提取的数据DATA中的第一数据DATA1分配到第一神经处理单元100a。工作负荷管理器120将数据DATA中的第二数据DATA2分配到第二神经处理单元100b。具体来说,工作负荷管理器120将用于执行特征提取的数据DATA中的第一数据DATA1分配到第一前端模块102a,并将数据DATA中的第二数据DATA2分配到第二前端模块102b。
[0152] 因此,第一前端模块102a利用第一特征图及第一权重对第一数据DATA1执行特征提取运算。第二前端模块102b可利用第二特征图及第二权重对第二数据DATA2执行特征提取运算。
[0153] 具体来说,在本公开的一些实施例中,第一数据DATA1的量与第二数据DATA2的量可彼此不同。
[0154] 时钟管理单元20控制第一时钟信号CLK1及第二时钟信号CLK2中的至少一者的频率,且可根据工作负荷管理器120的分配操作控制第一神经处理单元100a及第二神经处理单元100b的性能及功率。举例来说,时钟管理单元20可根据工作负荷管理器120的分配操作对第一前端模块102a、第一后端模块104a、第二前端模块102b及第二后端模块104b中的至少一者执行时钟门控。
[0155] 如此一来,根据本公开的各种实施例的神经处理系统10可控制其中的多个第一神经处理单元100a及第二神经处理单元100b的时钟信号来控制性能或功耗。举例来说,为了改善第一神经处理单元100a的性能并降低第二神经处理单元100b的功耗,时钟管理单元20可增大用于驱动第一神经处理单元100a的第一时钟信号CLK1的频率且可减小用于驱动第二神经处理单元100b的第二时钟信号CLK2的频率。作为另一实例,在其中仅使用第一神经处理单元100a且不使用第二神经处理单元100b的具体情况下,可通过控制用于驱动第二神经处理单元100b的第二时钟信号CLK2而执行时钟门控。因此,根据包括根据本公开的各种实施例的神经处理系统10的计算系统,可在降低成本及功耗的同时实现人工智能。
[0156] 图9是示出根据本公开的再一实施例的计算系统的示意图,且图10是示出根据本公开的另一实施例的神经处理系统的方块图。
[0157] 参照图9及图10,不同于图7及图8所示的实施例,根据本实施例的计算系统3还包括电源管理单元50(power management unit,PMU)。如在本文中所阐释,使用例如电源管理单元50等电源管理单元会增强以降低功耗、增加功耗、降低处理速度或提高处理速度的方式选择性地控制多个神经处理单元中的个别神经处理单元的功率的实际能力。
[0158] 如上所述,工作负荷管理器120将数据DATA中用于执行特征提取的第一数据DATA1分配到第一前端模块102a,并将数据DATA中的第二数据DATA2分配到第二前端模块102b。
[0159] 因此,第一前端模块102a可利用第一特征图及第一权重对第一数据DATA1执行特征提取运算。第二前端模块102b可利用第二特征图及第二权重对第二数据DATA2执行特征提取运算。
[0160] 电源管理单元50向第一神经处理单元100a提供第一电源门控信号PG1,并向第二神经处理单元100b提供第二电源门控信号PG2。具体来说,电源管理单元50可向第一前端模块102a及第一后端模块104a提供第一电源门控信号PG1。电源管理单元50可向第二前端模块102b及第二后端模块104b提供第二电源门控信号PG2。
[0161] 电源管理单元50可控制第一电源门控信号PG1及第二电源门控信号PG2的至少一个值,藉此响应于工作负荷管理器120的分配操作执行对第一神经处理单元100a及第二神经处理单元100b的电源控制。举例来说,电源管理单元50可对第一前端模块102a、第一后端模块104a、第二前端模块102b及第二后端模块104b中的至少一者执行电源门控。
[0162] 如此一来,根据本公开的各种实施例的神经处理系统10可根据需要对第一神经处理单元100a及第二神经处理单元100b的至少一部分执行电源门控,藉此降低神经处理系统10的功耗。因此,根据包括根据本公开的各种实施例的神经处理系统10的计算系统,可在降低成本及功耗的同时实现人工智能。
[0163] 图11是示出根据本公开的另一实施例的计算系统的示意图。
[0164] 参照图11,根据本实施例的计算系统4包括第一神经处理单元100a、第二神经处理单元100b、第三神经处理单元100c以及第四神经处理单元100d。为便于阐释,在本实施例中将神经处理系统10示出为包括第一神经处理单元100a、第二神经处理单元100b、第三神经处理单元100c以及第四神经处理单元100d,但本公开的范围并不仅限于此。
[0165] 时钟管理单元20产生用于驱动神经处理系统10的第一时钟信号CLK1、第二时钟信号CLK2、第三时钟信号CLK3及第四时钟信号CLK4。时钟管理单元20向第一神经处理单元100a、第二神经处理单元100b、第三神经处理单元100c以及第四神经处理单元100d中的每一者提供时钟信号。因此,第一神经处理单元100a根据第一时钟信号CLK1被驱动。第二神经处理单元100b根据第二时钟信号CLK2被驱动。第三神经处理单元100c根据第三时钟信号CLK3被驱动。第四神经处理单元100d根据第四时钟信号CLK4被驱动。
[0166] 在本公开的一些实施例中,第一时钟信号CLK1、第二时钟信号CLK2、第三时钟信号CLK3及第四时钟信号CLK4的频率可能并不是都相同的。换句话说,第一神经处理单元100a、第二神经处理单元100b、第三神经处理单元100c以及第四神经处理单元100d在其中运作的时钟域可能并不是都相同的。
[0167] 时钟管理单元20可根据需要控制第一时钟信号CLK1、第二时钟信号CLK2、第三时钟信号CLK3及第四时钟信号CLK4的每个频率。此外,时钟管理单元20也可根据需要对第一时钟信号CLK1、第二时钟信号CLK2、第三时钟信号CLK3及第四时钟信号CLK4中的至少一者执行时钟门控。
[0168] 图12及图13是示出根据本公开的再一实施例的神经处理系统的方块图。
[0169] 参照图12,根据本实施例的神经处理系统10包括第一神经处理单元100a到第四神经处理单元100d。在第一神经处理单元100a到第四神经处理单元100d之间设置有一个或多个桥接器1112、1113及1114。
[0170] 在本实施例中,第三神经处理单元100c包括第三前端模块102c及第三后端模块104c。第四神经处理单元100d包括第四前端模块102d及第四后端模块104d。第三神经处理单元100c可对将由神经处理系统10处理的数据中的第三数据DATA3进行处理。第四神经处理单元100d可对将由神经处理系统10处理的数据中的第四数据DATA4进行处理。
[0171] 桥接器1112将由第一神经处理单元100a的运算产生的中间结果R12传送到第二神经处理单元100b。桥接器1113将由第一神经处理单元100a的运算产生的中间结果R13传送到第三神经处理单元100c。此外,桥接器1114将由第一神经处理单元100a的运算产生的中间结果R14传送到第四神经处理单元100d。
[0172] 为此,第一神经处理单元100a与第二神经处理单元100b可在相互不同的时钟域中运作。在此种情况下,桥接器1112可电连接到第一神经处理单元100a及在不同于第一神经处理单元100a的时钟域中运作的第二神经处理单元100b。类似地,桥接器1113可电连接到第一神经处理单元100a及在不同于第一神经处理单元100a的时钟域中运作的第三神经处理单元100c。桥接器1114可电连接到第一神经处理单元100a及在不同于第一神经处理单元100a的时钟域中运作的第四神经处理单元100d。
[0173] 因此,桥接器1112、1113及1114被实施为异步桥接器以使得能够在不同的时钟域之间进行数据传送。
[0174] 随后,参照图13,在第一神经处理单元100a与第四神经处理单元100d之间设置有一个或多个桥接器1122、1123及1124。
[0175] 桥接器1122将由第二神经处理单元100b的运算产生的中间结果R22传送到第一神经处理单元100a。桥接器1123将由第三神经处理单元100c的运算产生的中间结果R33传送到第一神经处理单元100a。此外,桥接器1124将由第四神经处理单元100d的运算产生的中间结果R44传送到第一神经处理单元100a。
[0176] 为此,第一神经处理单元100a与第二神经处理单元100b可在相互不同的时钟域中运作。在此种情况下,桥接器1122可电连接到第一神经处理单元100a及在不同于第一神经处理单元100a的时钟域中运作的第二神经处理单元100b。类似地,桥接器1123可电连接到第一神经处理单元100a及在不同于第一神经处理单元100a的时钟域中运作的第三神经处理单元100c。桥接器1124可电连接到第一神经处理单元100a及在不同于第一神经处理单元100a的时钟域中运作的第四神经处理单元100d。
[0177] 因此,桥接器1122、1123及1124被实施为异步桥接器以使得能够在不同的时钟域之间进行数据传送。
[0178] 在图12及图13所示的实施例中,已阐述了在不同于第一神经处理单元100a的第二神经处理单元100b、第三神经处理单元100c及第四神经处理单元100d之间的桥接器,但本公开的范围并不仅限于此,且此内容也可类似地应用在不同于第二神经处理单元100b的第三神经处理单元100c与第四神经处理单元100d之间、以及第三神经处理单元100c与第四神经处理单元100d之间。
[0179] 图14是示出根据本公开的再一实施例的计算系统的方块图。
[0180] 参照图14,根据本实施例的计算系统5的神经处理系统10还包括工作负荷管理器120。类似于对图7及图8的说明,工作负荷管理器120可将用于执行特征提取的数据DATA分布及分配到第一神经处理单元100a、第二神经处理单元100b、第三神经处理单元100c以及第四神经处理单元100d。此外,从第一神经处理单元100a到第四神经处理单元100d分布的数据量可能并不是都相同的。
[0181] 时钟管理单元20可以与参照图7及图8所阐释的方式相同的方式控制第一时钟信号CLK1到第四时钟信号CLK4中的至少一者的频率,以响应于工作负荷管理器120的分配操作控制第一神经处理单元100a到第四神经处理单元100d的性能及功率。
[0182] 如此一来,根据本公开的各种实施例的神经处理系统10可控制其中的第一神经处理单元100a、第二神经处理单元100b、第三神经处理单元100c及第四神经处理单元100d的时钟信号,藉此控制性能或功耗。举例来说,为了改善第一神经处理单元100a、第二神经处理单元100b及第三神经处理单元100c的性能并降低第四神经处理单元100d的功耗,时钟管理单元20可增大用于驱动第一神经处理单元100a到第三神经处理单元100c的第一时钟信号CLK1、第二时钟信号CLK2及第三时钟信号CLK3的频率且可减小用于驱动第四神经处理单元100d的第四时钟信号CLK4的频率。作为再一实例,当仅使用第一神经处理单元100a及第二神经处理单元100b且不使用第三神经处理单元100c及第四神经处理单元100d时,可通过控制用于驱动第三神经处理单元100c及第四神经处理单元100d的第三时钟信号CLK3及第四时钟信号CLK4而执行时钟门控。因此,根据包括根据本公开的各种实施例的神经处理系统10的计算系统,可在降低成本及功耗的同时实现人工智能。
[0183] 图15是示出根据本公开的再一实施例的计算系统的方块图。
[0184] 参照图15,不同于图14所示的实施例,根据本实施例的计算系统6的神经处理系统10还包括电源管理单元50(PMU)。
[0185] 如上所述,工作负荷管理器120将用于执行特征提取的数据DATA分配及分布到第一神经处理单元100a、第二神经处理单元100b、第三神经处理单元100c以及第四神经处理单元100d。
[0186] 电源管理单元50向第一神经处理单元100a、第二神经处理单元100b、第三神经处理单元100c以及第四神经处理单元100d提供第一电源门控信号PG1、第二电源门控信号PG2、第三电源门控信号PG3以及第四电源门控信号PG4。
[0187] 电源管理单元50可以与参照图9及图10所述相同的方式控制第一电源门控信号PG1、第二电源门控信号PG2、第三电源门控信号PG3以及第四电源门控信号PG4的至少一个值,藉此响应于工作负荷管理器120的分配操作执行第一神经处理单元100a、第二神经处理单元100b、第三神经处理单元100c以及第四神经处理单元100d的电源控制。
[0188] 如此一来,根据本公开的各种实施例的神经处理系统10可通过视需要对第一神经处理单元100a、第二神经处理单元100b、第三神经处理单元100c以及第四神经处理单元100d中的一者或多者执行电源门控而降低神经处理系统10的功耗。因此,根据包括根据本公开的各种实施例的神经处理系统10的计算系统,可在降低成本及功耗的同时实现人工智能。
[0189] 图16是示出根据本公开的再一实施例的计算系统的方块图。
[0190] 参照图16,根据本实施例的计算系统7可以是包括神经处理系统10、时钟管理单元20、处理器30、存储器40、电源管理单元50、存储60、显示器70及照相机80的计算系统。神经处理系统10、时钟管理单元20、处理器30、存储器40、电源管理单元50、存储60、显示器70及照相机80可通过总线90传送及接收数据。
[0191] 在本发明的一些实施例中,计算系统7可以是移动计算系统。举例来说,计算系统7可以是包括智能手机、平板计算机、膝上计算机等在内的计算系统。当然,本公开的范围并不仅限于此。
[0192] 如到目前为止所阐释的根据本公开的各种实施例的神经处理系统10能够使用具有低成本及低功率的CNN对通过照相机80产生的图像数据或存储在存储60中的图像数据执行特征提取运算。
[0193] 如上所述,神经处理系统10采用包括多个能够个别控制时钟及功率的神经处理单元的架构,藉此在降低成本及功耗的同时忠实地实施及执行人工智能。
[0194] 通过对所作详细说明进行总结,所属领域中的技术人员将认识到,在不实质上背离本公开的原则的情况下可对优选实施例作出诸多更改及修改。因此,本发明所公开的优选实施例仅用于一般及说明性意义且不用于限制目的。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈