许多研究者已观察到神经元是以不精确的方式处理信息的。如果 逻辑推理出自神经计算,其充其量是不精确的。这样,在置信逻辑与 神经网络之间必然有严重深刻的关系。本申请中,描述了能够计算概 率和模糊逻辑的一种似真神经网络模型。以下描述作为似然思考机主 要组件的网络结构及其
硬件设计。
根据本发明的一
实施例,PLANN计算基于计算系统中合作和竞 争过程的交互作用。合作性是由于线性耗散系统中熵增加的结果;竞 争性是由于非线性无源系统中
能量守恒的结果(例如参见Elfadel,I.M. 和Wyatt,J.L.,“The Softmax Nonlinearity:Derivation Using Statistical mechanics and Useful Properties as a Multi-Terminal Analog Circuit Element,”Advances in Neural Information Processing System 6,pp.882-887(1994))。两者都能从统计
力学推导出。
根据本发明的一实施例,描述了以模拟VLSI实现的PLANN。 当然,业内一般专业人员容易看到,本发明不限于这里描述的实施例。 本发明也能够以允许这两个计算原理的其他类型计算介质实现。
为了实现上述目的,提供了一种训练神经网络的方法,该神经网 络包括多个神经元,在各所述神经元之间具有权重连接,以便基于数 据信息计算似然推理,该过程包括以下步骤:(a)使用值在0与1之间 的模拟
信号,把多个输入神经元的每一个激发为与每一被激发的输入 神经元连接的神经元组;(b)在多个隐藏神经元接收作为动作电位的信 号加权和;(c)在所述多个隐藏神经元之中竞争激活;(d)对于每一隐藏 神经元,如果其动作电位与最高动作电位的比通过一个
阈值,则激发 所述隐藏神经元,否则保持休息;以及(e)标称化隐藏神经元组中的动 作电位,所述标称化动作电位包括神经元输出的信号。
为了实现上述目的,提供了一种训练似真神经网络的方法,该神 经网络包括属性神经元的至少一个
输入层,以及簇神经元的至少一个 隐藏,用于非
监督学习或簇分析,该方法包括以下步骤:(a)随机激发
隐藏层中所述多个簇神经元;(b)计算所述簇神经元与属性神经元之间 的权重连接;(c)再次输入属性神经元并计算簇神经元的激活;(d)更新 簇神经元与属性神经元之间的权重连接;以及(e)重复步骤(c)和(d)直到 网络稳定。
为了实现上述目的,提供了一种训练和测试神经网络的方法,包 括至少一个输入层和至少一个隐藏层,所述输入层包括多个属性神经 元和多个类别神经元,所述隐藏层包括多个簇神经元,用于监督学习 和
半监督学习,该方法包括以下步骤:训练神经网络,包括以下步骤: (a)随机激发隐藏层中所述多个簇神经元;(b)计算所述簇神经元与输入 层神经元之间的权重连接;(c)再次输入类别和属性神经元并计算簇神 经元的激活;(d)更新簇神经元与输入层神经元之间的权重连接;以及 (e)重复步骤(c)和(d)直到网络稳定;以及测试所述神经网络,包括以下 步骤:(f)输入属性神经元并计算簇神经元的激活;以及(g)激发所述 簇神经元回到所述类别神经元。
为了实现上述目的,提供了一种从似真神经网络知识
抽取的方 法,该方法包括以下步骤:(a)向多个类别/属性神经元输入数据值;(b) 基于连接的类别/属性神经元动作电位的相对量值,计算所述类别/属 性神经元之间的对比度;(c)把所述对比度转换为从类别/属性神经元之 间的激活
水平与其竞争对手的激活水平的差确定的置信度;以及(d) 如果所述对比度超过预定的水平,则输出类别/属性神经元的值。
为了实现上述目的,提供了一种适于进行似真神经网络计算的机 器,所述机器包括:在计算的阈下区域情况下的一模拟
电路装置,其 中
电压和
电流遵循对数和指数关系;一输出装置和一输入装置,一处 理器;以及一
存储器,具有用于执行一系列存储在其中的功能的机器 可执行指令,并适于接收且存储一系列数据记录,所述存储器包括: (a)用于在所述输入装置接收
训练数据的模
块,其中所述训练数据包括 多个记录,每一记录具有与其相关的数据值,并且所述训练数据是包 括0与1之间对应于模糊集合编码的
模拟信号的一向量;(b)用于把 所述向量输入到适于计算所述似真神经网络激活的胜利者取所有 (WTA)电路的模块,其中所述电流对应于一个概率且所述电压对应于 似然推理中证据的一个权重;以及(c)用于通过跨导
放大器施加所述 电压的模块,其中电压差产生表示竞争对手假设的置信度判断的信号。
附图说明
参照以附图所展示的实施例将更容易理解本发明,其中:
图1示出根据本发明的一实施例交互信息与神经元权重连接的关 系;
图2示出根据本发明的一实施例的非监督神经网络结构;
图3是表示根据本发明一实施例的非监督的学习算法的一流程 图;
图4示出根据本发明的一实施例的监督的神经网络结构;
图5示出根据本发明的一实施例扩散过程与置信逻辑之间的关 系;
图6A-6C以本发明的实施例获得的实验结果与来自动物园数据 库的数据的表;
图7是以本发明的实施例获得的实验结果与来自原发性
肿瘤数据 集的数据的表;以及
图8示出以本发明的实施例获得的实验结果。
附图中,应当注意的是相似的标号表示相似的特征和构造。
现在将参照附图描述本发明的优选实施例。图1示出交互信息与 神经元权重连接的关系。PLANN模型是带有如下给出的神经元X和 神经元Y之间权重连接的神经网络
ω12=ln(P(X,Y)/P(X)P(Y)), (1)
其包含两个神经元的激发历史或交互信息内容。如图1所示,从 方程式(1)我们看出:
ω12>0,如果X与Y正相关,
ω12<0,如果X与Y负相关, (2)
ω12=0,当且仅当X与Y统计无关。
神经元常常可组成为相邻的组。神经元的激发方式依赖于其组中 其他神经元的相对强度,这种强度是通过全局反馈禁止诱导竞争达到 的。通过标称化,神经元全体的激发方式可解释为模糊集合的α-切割 操作;并根据统计力学重新调节信号强度。图2示出根据本发明的一 实施例一非监督神经网络的结构。在非监督学习中,网络最好包含一 个输入数据层202,以及一个自由运行的隐藏层200。自由运行意味着 该层是随机初始化的。输入神经元202产生信号,而隐藏神经元200 接收聚集
输入信号(动作电位)。隐藏神经元200为激活而竞争,然后 产生信号(标称化的动作电位或激活水平)并向输入神经元202发送回 该信号。输入神经元202从隐藏神经元200接收动作电平信号,但是 被“箝位”的,于是它们的值不变(除非省略初始输入值)。反馈过程在 输入与隐藏神经元之间继续进行,直到网络稳定。
竞争的神经元y1,y2,...yn的组200接收来自属性神经元x1,x2,...xn 组202的输入信号。神经元总体200的激活是如下给出的:
yi=0,其他情形下, (3)
其中s(tj)=exp(∑iωijxi)/∑jexp(∑iωijxi),其通常称为softmax。方程 式(3)
跟踪模式信息并使用相关的措施
净化噪声。这一过程使得神经元 能够在宽广的动态范围敏感地响应;并还降低了大规模网络的计算负 荷。
在文献中已经讨论过带有用于激活和学习的选择的过程的神经 网络。例如参见Fukai,T.and Tanaka,S.,“A Simple Neural Network Exhibiting Selective Activation of Neural Ensembles:From Winner-Take-All to Winner-Share-All,”Neural Computation 9,pp. 77-97(1997),以及K.P.and P.,“A Learning Rule for Dynamic Recruitment and Decorrelation,”Neural Network 13, pp.1-9(2000)。这些网络通常称为竞争网络或“软胜者取全部”。采用计 算软胜者取全部的模块的网络具有类似于带有S形
门的网络的计算能 力(例如参见Maass,W.,“On the Computational Power With Winner-Take-All,”Neural Computation 12(11),pp.2519-2536(2000))。 在与(2000)的模型中,激发率的增加导致神经突触有 效性的减少,这也类似于基于交互信息内容的PLANN学习规则。
对于竞争网络,神经元接收加权的信息并竞争激活。数学上这一 过程组合了求和与求最大运算,并成为t-余conorm运算(求和与求最 大都是t-余标称);并在信号转换下我们有t-conorm运算,这如同在 统计证据(FASE)模糊应用中所述(Chen,Y.Y.,“Fuzzy Analysis of Statistical Evidence,”IEEE Transactions in Fuzzy systems 8,pp.796-799(2000)),以及在U.S.Patent Apllication Serial No.09/808,101中所述似真神经网络模型。
从各种观点来说两种不同计算
风格的交替是
机器学习文献中讨 论的重要原理。其对应于带有非线性转移函数的线性系统(例如参见, Kosko,B.,Neural Networks and Fuzzy Systems-A Dynamical Systems Approach to Machine Intelligence(1992)),及带有数字选择的模拟计算 (例如参见,Hahnloser,R.,Sarpeshkar,R.,Mahowald,M.,Douglas, R.,and Seung,S.,“Digital Selection of Analogue Amplification Coexist in a Cortex-Inspired Silicon Circuit,”Nature,Vol.405,pp.947-951 (2000)),以及E-M算法。其已经用于几种感觉注意问题。
根据本发明的一实施例,似真神经网络是一种通用的数据分析方 法。其抽取数据信息模式并将其转换为知识和推理。
根据本发明的一实施例,竞争神经元总体包括多个神经元,并对 应于统计推理中的一个变量,总体中每一个神经元表示变量一个可能 的值。变量可以是连续的或离散的,并能够表示一样本空间或假设空 间。如果变量是以k个范畴离散的,其可通过X=(X1,X2,...Xk)编码。 这样,每一个神经元是特殊数据值的指示函数。如果变量是连续的, 由于竞争神经元数目是有限的,模拟数据编码为互补模糊集合;这一 过程称为模糊化。
设
是变量X的模糊集合表示,则X的概率
密度 函数为
其中是模糊集合成员资格函数,且
模糊集 合成员资格函数对应于自变量为输入x的神经元的激活水平。方程 式(4)只涉及加权和,这在神经计算中是自然的。
与分类不同,模糊化将不导致信息损失;通过
去模糊化能够有利 地恢复数据。使用向量编码和模糊化使得离散和连续变量的处理一致 起来。失去的数据作为零
向量处理且不提供信息,而所有其余的非损 失的数据能够用于分析;这样,根据本发明实施例的神经网络能够取 得尽可能多的变量,并使用数据信息的每一位。
从数学观点来看,每一变量是一模糊集合,其包含脆集合作为特 殊情形。使用模糊集合表示法,我们能够对于分类和回归的推理设计 相同的网络计算,其能够用于诸如图象识别等结构模式,我们能够对 于
马尔科夫链和时间序列设计相同的网络计算,其能够用于诸如语音 识别等时间模式。(许多当前的
语音识别方法需要隐藏的马尔科夫模型 (HMM)与时间神经网络的分开模型)。从逻辑的观点而言,模糊集合 是作为符号和数值计算之间的
桥梁;这对于
自然语言处理和置信判断 是重要的。
如果神经元组表示假设空间,则激发神经元产生置信集合,其中 输入模式与潜在的变量或假设的存储模式匹配。阈值类似于在以下文 献中描述的ART网络变量的警戒参数,Carpenter,G.and Grossberg, S.,“The ART of Adaptive Pattern Recognition by Self-Organizing Neural Network,”IEEE Computer,Vol.21(3),pp.77-88(1988)。网络的 稳定状态也类似于ART的谐振。
非监督学习包括因子编码(Barlow(1989))。图5示出扩散过程与 置信逻辑之间的关系。这样,在神经处理的较高级别中,如果y1和y2 是接收来自x1,x2,...xn的输入的两个竞争假设,,则它们的动作电位 是:
∑iωijxi=∑iln(p(xi|yj))-∑iln(p(xi))(步骤501) (5)
如果对于y2证据的权重大于y2,则它们的动作电位差是:
ln((p(x1,x2,...xn|y1)/p(x1,x2,...xn|y2))(步骤502).(6)
通过取信号变换,我们有Bel(y2|x1,x2,...xn)(步骤503)。(例如 参见,Chen,Y.Y.“Statistical Inference Based on the Possibility and Belief Measures,”Trans.Amer.Math.Soc.,Vol.347,pp.1855-1863 (1995))。
似然率的对数常称为证据的权重。注意,(6)没有如在
贝叶斯推理 中出现的偏移项ln(p(y1)/p(y2))。
PLANN是循环的神经网络,允许其具有完全的互连。然而,层 次网络在能量守恒中更为有效,这按组织上的性质有利。已经实验了 带有一个输入层以及一个隐藏层的简单的两层网络。带有隐藏神经元 的学习算法是固有的E-M算法,其示于图3的
流程图中,并如下给出:
1.随机激发隐藏神经元(步骤300,301)。
2.输入数据信息(模糊集合编码)(可选步骤308)。
3.M-步骤:估计带有隐藏神经元的输入神经元的权重连接(步骤 302)。
4.E-步骤:计算隐藏神经元的动作电位并标称化到[0,1](步骤 304)。如果神经元的激活电平大于阈值α,则其激发(步骤306)。
5.如果隐藏神经元的激发改变(301)则更新突触权重。
6.重复该过程直到网络稳定。
如图2和4所示,隐藏的神经元200,400是潜在的变量。每一 潜在的变量表示训练后的正相关的神经元202,402簇。只要有自由运 行的隐藏神经元200,400,它们就能拾取新的模式,且老的存储将不 被侵蚀。
E-步骤304,306等价于软胜利者取所有(soft winner-take-all)。 采用计算winner-take-all的模块的网络具有与带S形门(sigmoidal gate)的网络类似的计算能力。
这一学习算法既能够用于监督又可用于非监督学习,差别在于输 入神经元是否包含类标签信息。如图4所示,其中提供了类信息神经 元404,出现监督学习。如果类标签信息部分丢失,则这是半监督学 习。
对于监督学习和非监督学习PLANN算法已经对UCI机器学习知 识库的数据集作了测试(参见Blake,C.L.,and Merz,C.J.,UCI Repository of Machine Learning Databases(1998)(http/// www.ics.uci.edu/~mlearn/MLRepository.html))。能够抽取多维模式 诸如tic-tac-toe和led数据。训练的网络的权重可易于转换为非确定 性度量。我们使用动物园数据集展示这一特征。
图6示出PLANN非监督算法对于动物园数据的网络输出(数据中 的数据类型没有使用)。如图2中所示,它是以十五个隐藏神经元训练 的。当然,十五个隐藏神经元200的选择只是示例而已,业内专业人 员能够理解,在按
权利要求定义的本发明的范围内,其他隐藏神经元 的数目也能够适用给定的情形。在训练之后形成十个簇。图6(a)示出 输出概率,这是从网络的权重转换的。可从图6(b)所示的表推导出简 单的推理规则。这表给出簇中的动物的列表。如所示,不论训练
采样 大小如何,网络找出不同的模式。训练之后的标称化动作电位能够提 供隐藏神经元的可能性度量,这可解释为属于簇的数据输入模糊成员 资格。它们总结在图6(c)的表中。例如,“mink”属于簇C5,但它还属 于带有可能性0.96的簇C3。
现在将结合示例性的原发肿瘤域数据集描述监督学习。原发肿瘤 数据集包含339肿瘤学案例。每一肿瘤由包含类别标签的18个属性描 述,它们表示肿瘤的22个不同的
位置。由于知识域的复杂性、有限的 属性以及可用的样本大小,肿瘤的预测常常是不正确的。对于大多数 推理方法原发性肿瘤数据分类的精确性低于50%。关键的问题是是否 能够正确地解决推理的不确定性。
如图4所示,构成带有一个输入层402,404和一个隐藏层400 的两层的神经网络。输入层由类别404和属性402神经元组成。通过 输入属性值进行测试,该属性值馈送到隐藏神经元400并然后反馈到 类别神经元404。图7示出阈值、预测
精度、及在实验中激发的类别 神经元平均数的关系。类似于其他分类方法,基于最大后验概率的预 测精确度是低的。然而,我们能够以高精度把预测收窄到两个或三个 肿瘤类型。
根据本发明的一实施例,网络是训练后的一个置信网络,这是一 个域相关的
专家系统。对于知识的抽取,我们可输入变量值并观察另 一相关变量值的输出,如果在竞争神经元组内其有大的对比度则是有 效的。这一相关知识等价于逻辑命题“如果A则B”。例如在原发肿瘤 数据的训练的网络中,我们获得“如果肿瘤位置是卵巢则其不是上
锁骨 的”(CF=.97)。确定性因子从动作电位差转换。
当类别变量在监督学习中是连续的时,PLANN推理能够进行功 能和相关估计。PLANN推理的功能估计是通过分析Henon映象数据 展现的,这是著名的混沌动力系统。Henon映象由两个有按时间进化 的非线性关系的交互变量组成。以时间序列和一阶时滞训练数据。为 了预测我们在序列的网络中输入滞后的时间序列,并计算输出值的模 糊质心。这一过程称为去模糊化。图8示出PLANN推理的实验结果。 其同时预测出相关的多个时间序列,这对于多阶推理方法是一个困难。
在计算系统的物理学中,如果通信信道之间没有位能差,则没有 扩散过程;且不能检测到信号。这样,在神经形态学电路系统中广泛 使用对比度计算。例如,在视觉神经系统中空间电位差计算
边缘检测; 在听觉神经系统中时间电位差计算声音检测。根据本发明的一实施例, 对手假设的证据电位的对比度计算置信判断。
对于PLANN的电路设计是基于模拟VLSI神经形态学电路的 (Mead(1989))。一种基本神经形态学电路是跨导。在微分
跨导放大器 中,两个漏极电流的微分对为
I1=Ibexp(κV1)/(exp(κV1)+exp(κV2))以及
I2=Ibexp(κV2)/(exp(κV1)+exp(κV2)), (7)
其中κ是一过程相关的参数。在操作的阈下方式下(低功率),电压 和电流遵循对数和指数关系。两个电流能够看作是乘以偏流Ib的互补 概率p与1-p。实际的偏流并不重要,因为“不确定性度量”的基本性 质是相对不固定的。从方程式(7)对数似然率为
ln(p(1-p))=ln(I1/I2)=κV1-κV2(图5步骤502) (8)
这与方程式(6)等价。电压对应于竞争对手假设证据的权重,而电 流对应于概率或可能性。
通过把微分跨导扩展到n个单元,我们有winner-take-all(WTA) 电路(例如参见Lazzaro,J.,Ryckebusch,S.,Mahowald,M.A.,Mead,C.; “Winner-Take-All Networks of O(n)Complexity,”Advances in Neural Processing Systems,Vol.1,pp.703-711(1989);Elfadel,I.M.and Wyatt, J.L.,“The Softmakx Nonlinearity:Derivation Using Statitical Mechanics and Useful Properties As A Multi-Terminal Analog Circuit Element,”Advances in Neural Information Processing Systems,Vol.6, pp.882-887(1994);以及Asai,T.,Fukai,T.and Tanaka,S.,“A Subthreshold MOS Circuit for Lotka-Volterra Neural Network Producing the Winner-Share All Solution,”Neural Networks,Vol.12, pp.211-216(1999))。WTA电路计算输出电流:
Ii=Ibexp(κVi)/∑j=1,...,nexp(κVj) (9)
WTA电路是带有全局禁止向所有单元反馈的循环网络。以附加 的晶体管控制
偏压,输出产生多个胜利者或单个胜利者(例如参见 Liu,S.C.,A Winner-Take-All Circuit with Controllable Soft Max Property(2001))。这对应于模糊集合的α-切割操作。WTA组合模糊集 合操作与概率标称化为一单个的计算(方程式(2)和(3))。
改变WTA计算性质的另一方式是按以下文献所述通过添加横向 展示和/或禁止,“Winner-Take-All Networks With Lateral Excitation,”Analog Integrated Circuits and Signal Processing,Vol.13,pp.1-9(1997);以及Indiveri,G.,“A Current-Mode Hysteretic Winner-Take-All Networks With Excitatory and Inhibitory Coupling,”Analog Integrated Circuits and Signal Processing,Vol. 28,pp.279-291(2001)。横向展示将向其相邻的神经元扩散
电子刺激 物;这种分布的表示已经在许多大脑区域观察到,并称为主体代码。 数学上,这种分布的表示可解释为连续变量的模糊集合编码,或离散 变量的冗余编码。电路是自标称化的,即输出计算输入电流的平均。 电路单元的冗余性加强了计算的鲁棒性,并克服了电路装置的不匹配。
根据本发明的一实施例,离散和连续变量都由WTA电路表示, 并这样通过相同的网络设计计算。带有以下集合电路(例如参见 Mead,C.,Analog VLSI and Neural System(1989))的WTA计算空间循 环的静态关系。带有跟随器-积分(follower-integrator)电路 (Mead(1989))的WTA计算时间信号的动态关系。
当神经元接收来自其他神经元的电流输入时,其膜电位将增加。 集合组中的神经元竞争动作,如果膜电位通过一阈值,一个尖峰信号 将产生。接收更强信号的神经元将首先激发,并产生较强的振幅。带 有竞争网络的积分与激发神经元芯片的电路设计在Asai等人(2002)的 文献中有述。
为了实现PLANN学习,积分与激发神经元芯片中的突触必须与 非易失存储器相适应,对于这种装置的电路设计在以下文献中有讨论, Diorio,C.,Hsu,D.,and Figueroa,M,;“Adaptive CMOS:From Biological Inspiration to System-On-A-Chip,”IEEE Proceedings 90, Vol.3,pp.345-357(2002),这称为
硅自适应突触。
在PLANN学习中,如果在一个小的延迟学习窗口内前突触神经 元X的尖峰由一个后突触神经元Y的尖峰跟随,则权重增加。如果没 有尖峰由后突触神经元产生,则权重降低。学习算法的细节在以下文 献种有讨论,美国
专利申请No.09/808,101以及Chen,Y.Y.;“Plausible Neural Networks,”Advances in Neural Networks World, pp.180-185(2002)。权重更新的这一计算可通过以下文献中讨论的硅自 适应突触实现,Shon,A.,Hsu,D.and Diorio,C,;Learning Spike-Based Correlations and Coditional Probabilities in Silicon;Advanced Neural Information Processing Systems,vol.14(2002)。
虽然这里公开的本发明是借助于特定的实施例及其应用描述的, 但在不背离权利要求中所述本发明的范围之下,可由业内专业人员对 其作出众多的
修改和
变形。