首页 / 专利库 / 电脑编程 / 算法 / 多层级主题向量空间的构建方法、装置、设备和存储介质

多层级主题向量空间的构建方法、装置、设备和存储介质

阅读:976发布:2021-06-06

专利汇可以提供多层级主题向量空间的构建方法、装置、设备和存储介质专利检索,专利查询,专利分析的服务。并且本 发明 涉及一种多层级主题向量空间的构建方法、装置、设备和存储介质。该构建方法包括从语料库中提取全局词共现矩阵;对全局词共现矩阵进行建模,并生成不同层级的主题库,根据不同层级的主题库分别生成不同层级的主题相关矩阵;对于每一层级的所述主题相关矩阵,构建主题向量空间。因此,本 申请 能够将主题表示成任意维度的主题向量,避免了LDA等 算法 的向量大小只能是字典维度的 缺陷 ;同时,基于对噪声词的建模,能够减弱噪声词对聚类的影响。,下面是多层级主题向量空间的构建方法、装置、设备和存储介质专利的具体信息内容。

1.一种多层级主题向量空间的构建方法,其特征在于,包括:
从语料库中提取全局词共现矩阵;
对所述全局词共现矩阵进行建模,并生成不同层级的主题库,根据不同层级的主题库分别生成不同层级的主题相关矩阵;
对于每一层级的所述主题相关矩阵,构建主题向量空间。
2.根据权利要求1所述的多层级主题向量空间的构建方法,其特征在于,所述从语料库中提取全局词共现矩阵的步骤包括:
通过滑动窗口机制对所述语料库进行遍历,得到n×n的全局词共现矩阵A={Ai,j},其中,n是所述语料库的字典的维度,Ai,j表示了词i与词j的共现频率
3.根据权利要求1所述的多层级主题向量空间的构建方法,其特征在于,所述生成不同层级的主题库,根据不同层级的主题库分别生成不同层级的主题相关矩阵的步骤包括:
通过聚类生成不同层级的主题库,并通过最大后验准则生成不同层级的主题相关矩阵。
4.根据权利要求3所述的多层级主题向量空间的构建方法,其特征在于,所述通过聚类生成不同层级的主题库,并通过最大后验准则生成不同层级的主题相关矩阵的步骤包括:
对所述全局词共现矩阵进行聚类,生成一层级的主题库,并通过最大后验准则生成一层级的主题相关矩阵;
对所述一层级的主题相关矩阵进行聚类,生成下一层级的主题库,并通过最大后验准则生成下一层级的主题相关矩阵,通过迭代生成不同层级的主题相关矩阵。
5.根据权利要求4所述的多层级主题向量空间的构建方法,其特征在于,还包括:
对预设的噪声构建模型,形成噪声模型,在对所述全局词共现矩阵聚类之时,通过所述噪声模型对所述全局词共现矩阵进行噪声处理。
6.根据权利要求4所述的多层级主题向量空间的构建方法,其特征在于,所述对于每一层级的所述主题相关矩阵,构建主题向量空间的步骤包括:
对于每一层级的主题相关矩阵,通过Glove算法构建主题向量空间。
7.根据权利要求6所述的多层级主题向量空间的构建方法,其特征在于,所述Glove算法的数学模型如下:
vivi为主题i的主题向量,vj为主题j的主题向量,vk为主题k的主题向量,主题向量构成主题向量空间;所述主题k为除了主题i和主题j之外的其他主题,F是主题向量的关系函数,Pik是主题i和主题k的共现概率,Pjk是主题j和主题k的共现概率,所述Pik的数学表示为:
所述Pjk的数学表示为:
其中,Θ为主题相关矩阵;Θik和Θjk分别为所述主题i与所述主题k的主题相关系数以及所述主题j与所述主题k的主题相关系数。
8.一种多层级主题向量空间的构建装置,其特征在于,所述装置包括:
提取模,用于从语料库中提取全局词共现矩阵;
生成模块,用于对全局词共现矩阵进行建模,并生成不同层级的主题库,根据不同层级的主题库分别生成不同层级的主题相关矩阵;
构建模块,用于对于每一层级的所述主题相关矩阵,构建主题向量空间。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。

说明书全文

多层级主题向量空间的构建方法、装置、设备和存储介质

技术领域

[0001] 本申请涉及语义分析技术领域,尤其是涉及一种多层级主题向量空间的构建方法、装置、设备和存储介质。

背景技术

[0002] 常用的向量化方法是将文本表示为一个实值元素(二元值、词频值或TF-IDF值)构成的向量。这类算法虽然简单,但是它们将词当作独立个体进行处理,没有考虑词之间的语义关系,影响了分类的准确度。为了克服这个缺点,人们提出了基于主题的向量化算法,潜在语义索引(Latent Semantic Indexing,LSI)算法,利用了奇异值分解降低了文档-词矩阵的维度。之后,LSI算法的变体概率潜在语义分析(Probabilistic Latent Semantic Analysis,PLSA)算法引入了文本的生成模型方法,定义了文本-词的概率生成模型。但是,由于模型参数过多,该PLSA算法会随着语料库中文本数目增多而过拟合。最后,一个较为成熟的主题模型,潜在狄利克雷分布(Latent Dirichlet Allocation,LDA)方法被提出了。与PLSA算法相比,LDA算法对文本、主题、词的概率分布加了一些具体的限制,避免了过拟合现象。尽管上述的主题模型都能够提取出文本中的潜在特征,但是存在以下缺点:LDA等算法的向量大小只能是字典维度,其主题库中的主题无法用一个低维度(即层级)实值向量表示,难以直接定义主题与主题之间的数值距离。同时,由于噪声词的干扰,提取出的主题也会包含很多噪声词。发明内容
[0003] 基于本申请主要解决的技术问题是提供一种多层级主题向量空间的构建方法、装置、设备和存储介质,能够将主题表示成任意维度的主题向量,避免了LDA等算法的向量大小只能是字典维度的缺陷,同时减少了噪声词对主题提取的影响。
[0004] 为解决上述技术问题,本申请采用的一个技术方案是:提供一种多层级主题向量空间的构建方法,包括:
[0005] 从语料库中提取全局词共现矩阵;
[0006] 对全局词共现矩阵进行建模,并生成不同层级的主题库,根据不同层级的主题库分别生成不同层级的主题相关矩阵;
[0007] 对于每一层级的所述主题相关矩阵,构建主题向量空间。
[0008] 可选的,所述从语料库中提取全局词共现矩阵的步骤包括:
[0009] 通过滑动窗口机制对所述语料库进行遍历,得到n×n的全局词共现矩阵A={Ai,j},其中,n是语料库的字典的维度,Ai,j表示了词i与词j的共现频率
[0010] 可选的,所述生成不同层级的主题库,根据不同层级的主题库分别生成不同层级的主题相关矩阵的步骤包括:
[0011] 通过聚类生成不同层级的主题库,并通过最大后验准则生成不同层级的主题相关矩阵。
[0012] 可选的,所述通过聚类生成不同层级的主题库,并通过最大后验准则生成不同层级的主题相关矩阵的步骤包括:
[0013] 对所述全局词共现矩阵进行聚类,生成一层级的主题库,并通过最大后验准则生成一层级的主题相关矩阵;
[0014] 对所述一层级的主题相关矩阵进行聚类,生成下一层级的主题库,并通过最大后验准则生成下一层级的主题相关矩阵,以此类推,不断地进行迭代,以生成不同层级的主题相关矩阵。
[0015] 可选的,还包括:
[0016] 对预设的噪声构建模型,形成噪声模型,在对所述全局词共现矩阵聚类之时,通过所述噪声模型对所述全局词共现矩阵进行噪声处理。
[0017] 可选的,所述对于每一层级的所述主题相关矩阵,构建主题向量空间的步骤包括:
[0018] 对于每一层级的主题相关矩阵,通过Glove算法构建主题向量空间。
[0019] 可选的,所述Glove算法的数学模型如下:
[0020]
[0021] 其中,vi为主题i的主题向量,vj为主题j的主题向量,vk为主题k的主题向量,主题向量构成主题向量空间;所述主题k为除了主题i和主题j之外的其他主题,F是主题向量的关系函数,Pik是主题i和主题k的共现概率,Pjk是主题j和主题k的共现概率,所述Pik的数学表示为:
[0022]
[0023] 所述Pjk的数学表示为:
[0024]
[0025] 其中,Θ为主题相关矩阵;Θik和Θjk分别为所述主题i与所述主题k的主题相关系数以及所述主题j与所述主题k的主题相关系数。
[0026] 为解决上述技术问题,本申请采用的另一个技术方案是:提供一种多层级主题向量空间的构建装置,所述装置包括:
[0027] 提取模,用于从语料库中提取全局词共现矩阵;
[0028] 生成模块,用于对全局词共现矩阵进行建模,并生成不同层级的主题库,根据不同层级的主题库分别生成不同层级的主题相关矩阵;
[0029] 构建模块,用于对于每一层级的所述主题相关矩阵,构建主题向量空间。
[0030] 可选的,提取模块通过滑动窗口机制对所述语料库进行遍历,得到n×n的全局词共现矩阵A={Ai,j},其中,n是所述语料库的字典的维度,Ai,j表示了词i与词j的共现频率。
[0031] 可选的,生成模块通过聚类生成不同层级的主题库,并通过最大后验准则生成不同层级的主题相关矩阵。
[0032] 可选的,生成模块对所述全局词共现矩阵进行聚类,生成一层级的主题库,并通过最大后验准则生成一层级的主题相关矩阵,并对所述一层级的主题相关矩阵进行聚类,生成下一层级的主题库,并通过最大后验准则生成下一层级的主题相关矩阵,通过迭代,生成不同层级的主题相关矩阵。
[0033] 可选的,还包括构建模块,用于对预设的噪声构建模型,形成噪声模型,在对所述全局词共现矩阵聚类之前,通过所述噪声模型对所述全局词共现矩阵进行噪声处理。
[0034] 可选的,构建模块对于每一层级的主题相关矩阵,通过Glove算法构建主题向量空间。
[0035] 可选的,所述Glove算法的数学模型如下:
[0036]
[0037] 其中,vi为主题i的主题向量,vj为主题j的主题向量,vk为主题k的主题向量,主题向量构成主题向量空间;所述主题k为除了主题i和主题j之外的其他主题,F是主题向量的关系函数,Pik是主题i和主题k的共现概率,Pjk是主题j和主题k的共现概率,所述Pik的数学表示为:
[0038]
[0039] 所述Pjk的数学表示为:
[0040]
[0041] 其中,Θ为主题相关矩阵;Θik和Θjk分别为所述主题i与所述主题k的主题相关系数以及所述主题j与所述主题k的主题相关系数。
[0042] 为解决上述技术问题,本申请采用的又一个技术方案是:提供一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现前文所述方法的步骤。
[0043] 为解决上述技术问题,本申请采用的又一个技术方案是:提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现前文所述的方法的步骤。
[0044] 本申请的有益效果是:区别于现有技术的情况,本申请提供一种多层级主题向量空间的构建方法、装置、计算机设备和存储介质。该构建方法包括:首先从语料库中提取全局词共现矩阵,然后对全局词共现矩阵进行建模,并生成不同层级的主题库,根据不同层级的主题库分别生成不同层级的主题相关矩阵,最后对于每一层级的所述主题相关矩阵,构建主题向量空间。因此,本申请能够将主题表示成任意维度的主题向量,避免了LDA等算法的向量大小只能是字典维度的缺陷,有效地降低了计算工作量。同时,在聚类时对噪声进行建模,有效地较低了噪声词的影响。附图说明
[0045] 图1是本申请实施例提供的一种多层级主题向量空间的构建方法的一流程示意图;
[0046] 图2是本申请实施例提供的一种三层级主题库的结构示意图;
[0047] 图3是本申请实施例提供的一种多层级主题向量空间的构建装置的结构示意图;
[0048] 图4是本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

[0049] 现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本申请将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。
[0050] 此外,附图仅为本申请的示意性图解,并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体,不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
[0051] 请参阅图1,图1本申请实施例提供的一种多层级主题向量空间的构建方法的一流程示意图。如图1所示,本实施例的构建方法包括以下步骤:
[0052] 步骤S1:从语料库中提取全局词共现矩阵。
[0053] 步骤S2:对全局词共现矩阵进行建模,并生成不同层级的主题库,根据不同层级的主题库分别生成不同层级的主题相关矩阵。
[0054] 步骤S3:对于每一层级的所述主题相关矩阵,构建主题向量空间。
[0055] 因此,本申请实施例可获得需要的多层级主题向量,有效地降低了计算工作量,避免了LDA等算法的向量大小只能是字典维度的缺陷,另外,对噪声词的建模可以减少噪声词对聚类的影响。同时,可以根据需要选择主题规模,在不同的应用场景下更加灵活,实现了多层级主题向量空间的构建。
[0056] 可选的,本申请的语料库可为中文语料库,生成的主题库、主题相关向量以及主题向量空间,更具体的可分别为中文主题库、中文主题相关向量以及中文主题向量空间。
[0057] 本实施例中的语料库可采用维基百科语料库。可以获取维基百科语料库的内容。由于维基百科语料库有很多符号,因此在获取完成后需要进一步进行抽取,抽取的方式包括:根据自定义字段写程序抽取,使用Wikipedia Extractor(用Python(计算机程序设计语言)写的一个维基百科抽取器)方式抽取以及使用gensim(一个用于从文档中自动提取语义主题的Python库)中的wikicorpus(wiki数据的抽取处理类)库抽取。实际应用过程中,具体应用场景的不同过滤的内容不同,根据需要处理即可。
[0058] 此外,维基百科语料库中包含了大量的繁体中文,因此,根据应用的需求还可将其转换成简体中文,可使用opencc(中文简繁体转换插件)来进行转换。
[0059] 主题向量的训练基础采用维基百科语料库,与后续的nlp(Natural Language Processing,自然语言处理)应用过程独立开,实现了一次实现,多次复用。
[0060] 经过以上处理后得到所需的语料库,进一步从语料库中提取全局词共现矩阵。词共现矩阵主要用来发现主题,解决词向量相近关系的表示。
[0061] 本申请通过滑动窗口机制对所述语料库进行遍历,得到n×n的全局词共现矩阵A={Ai,j}和该层级的主题库,其中,n是字典的维度,Ai,j表示了词i与词j的共现频率。
[0062] 采样滑动窗口机制,为数据传输提供了可靠的流量控制机制。
[0063] 其中,字典的维度是预先设置好的。也就是说预先对语料库构建一个字典词表,词表上记录了词的长度大小,得到字典的维度。
[0064] 得到全局词共现矩阵A={Ai,j}后,通过聚类生成不同层级的主题库,并通过最大后验准则生成不同层级的主题相关矩阵。
[0065] 具体的,通过SIRM(Subset Infinite Relational Model,子集无限相关模型)模型对全局词共现矩阵A={Ai,j}进行建模,SIRM模型的数据表达式如下:
[0066] φ~Gamma(β1)
[0067] Θlm~Gamma(β2)
[0068] λi~Beta(σ)
[0069] ri~Bernoulli(λi)
[0070] zi|ri=1~CRP(α)
[0071] zi|ri=0~I(zi=0)
[0072]
[0073] 其中,φ是噪声词与其它词的相关强度,超参数为β1;Θ={Θlm}是主题相关矩阵,主题l与所述主题m的主题相关系数,表示非噪声词之间的相关强度,超参数为β2;z为主题库,zi、zj为主题库中的主题;ri是一个词是否属于噪声词的伯努利分布,其超参数λi满足伽分布Beta(σ);当两个词都是非噪声词时,两个词所属的主题服从CRP(α)过程;当其中一个词为噪声词时,其所属的主题zi=0;两个词之间的相关强度Ai,j(词共现的频数)服从于参数为 的泊松分布。
[0074] 由上述关系式可以得出:我们利用泊松过程对词共现矩阵进行了建模,假设词i和j分别属于主题zi和zj,主题zi和zj之间存在一个相关的系数为 (满足超参数为β2的伽马分布);则词共现频数服从于参数为 的泊松分布;其中,zi和zj服从于CRP(中国餐馆过程),可以表示如下:
[0075] 假设一个中国餐馆中,可以有无限个桌子,来吃饭的第一位顾客坐了第一张桌子。
[0076] 对于每一位顾客,都按照下面的规则来选择桌子坐下,对于第n个顾客:
[0077] (1)顾客选择坐在已经有人的桌子上,这样的概率是:
[0078]
[0079] 其中,nk表示第k个桌子上已经有的顾客数。n-1表示在这个顾客之前,[0080] 已有的顾客总数,α是超参数。
[0081] (2)顾客可以选择坐在一个没有人坐的桌子上K+1的概率为:
[0082]
[0083] 这里可以将顾客类比成数据,将每一张桌子类别成类。同时,我们利用ri对噪声进行建模,若ri=1则当前词属于噪声词,否则属于非噪声词。
[0084] 在实际应用中,可设置超参数α=log(n),其他超参数根据实际情况设置。
[0085] 基于上述得到的全局词共现矩阵A={Ai,j},利用SIRM模型对矩阵A进行建模,实现了主题库提取与主题共现矩阵的估计过程。具体地,先基于SIRM模型的提取一级主题库和估计主题共现矩阵,设置超参数β1=1,β2=1,α=log(n),对全局词共现矩阵A进行SIM聚类,得到一级的主题库z1。利用最大后验准则估计得到一级主题相关矩阵θ1。将一级的主题库z1和一级主题相关矩阵θ1作为输入,继续进行聚类与最大后验准则估计,可以得到下一级的中文主题库z2与主题相关矩阵θ2。该过程迭代下去,可以获得不同级别的主题库与主题相关矩阵。
[0086] 在中文中,不同主题所包含的语义概念具有不同的深度。简单的几个词可以组成一个较浅层次的主题概念,而几个浅层次的主题又可以构成一个较深层次的主题概念。整个多级中文主题库的结构就是树枝到树干,不断聚合形成的层次树结构。不同层级的主题概念适用于不同的场景。
[0087] 因此,基于已经得到的一层级的主题库与主题相关矩阵,进一步进行聚类和估计,得到不同层级的主题库和主题相关矩阵。具体而言,对所述一层级的主题相关矩阵进行聚类,生成下一层级的主题库,并通过最大后验准则生成下一层级的主题相关矩阵,通过迭代,生成不同层级的主题相关矩阵。
[0088] 主题数的自动聚类,一定程度上避免了自动指定主题数目。此外,将主题表示成了任意维度的主题向量,避免了LDA的向量大小只能是字典维度的缺陷,有效地降低了计算代价。基于SIRM模型,可以在有效识别噪声词的基础上,对全局词共现矩阵或主题相关矩阵进行聚类,得到主题库,使得聚类结果更加准确。
[0089] 请参阅图2,图2是本申请实施例中三层级主题库的结构示意图,如图2所示,一层级主题库是比较简单的语义概念,如电场电荷、磁场等。二层级主题包含了若干个一层级主题,涵盖了物理学的一些其他分支,如学、光学等。其中,主题库中的层级越高,主题的语义概念越广,针对不同规模、不同结构的分类数据集,可以使用不同级别的主题库作为主题字典。
[0090] 可选的,本申请还对预设的噪声构建模型,形成噪声模型,在对全局词共现矩阵聚类之前,通过对全局词共现矩阵进行噪声处理。自动剔除噪声对聚类的影响。
[0091] 因此,本申请基于SIRM模型,可以在有效识别噪声词的基础上,对词共现矩阵的进行聚类,提高了主题库的准确性。
[0092] 可选的,本申请对于每一层级的主题相关矩阵,通过Glove算法构建主题向量空间。
[0093] 其中,Glove算法的数学模型如下:
[0094]
[0095] 其中,vi为主题i的主题向量,vj为主题j的主题向量,vk为主题k的主题向量,主题向量构成主题向量空间;主题k为除了主题i和主题j之外的其他主题,F是主题向量的关系函数,Pik是主题i和主题k的共现概率,Pjk是主题j和主题k的共现概率,所述Pik的数学表示为:
[0096]
[0097] 所述Pjk的数学表示为:
[0098]
[0099] 其中,Θ为主题相关矩阵;Θik和Θjk分别为所述主题i与所述主题k的主题相关系数以及所述主题j与所述主题k的主题相关系数。
[0100] 综上所述,上述介绍了一种主题向量空间的构建方法。与LDA等算法相比较,本申请实施例中的构建方法可将主题表示成了任意维度(层级)的主题向量,避免了LDA等算法的向量大小只能是字典维度的缺陷,有效地降低了计算代价。同时,本申请实施例中的构建方法可以根据需要选择主题规模,在不同的应用场景下更加灵活,实现了多层级中文主题向量空间的构建。另外,本申请实施例中的构建方法能够在聚类过程中对噪声词进行有效地识别,提高了主题库的准确性。同时,主题向量的训练采用维基百科语料库,与后续的nlp应用过程独立开,实现了一次实现,多次复用。
[0101] 请参阅图3,图3是本申请实施例提供的一种多层级主题向量空间的构建装置的结构示意图。如图3所示,本申请实施例的装置30包括:
[0102] 提取模块31,用于从语料库中提取全局词共现矩阵;
[0103] 生成模块32,用于对全局词共现矩阵进行建模,并生成不同层级的主题库,根据不同层级的主题库分别生成不同层级的主题相关矩阵;
[0104] 构建模块33,用于对于每一层级的所述主题相关矩阵,构建主题向量空间。
[0105] 可选的,提取模块31通过滑动窗口机制对所述语料库进行遍历,得到n×n的全局词共现矩阵A={Ai,j},其中,n是字典的维度,Ai,j表示了词i与词j的共现频率。
[0106] 可选的,生成模块32通过聚类生成不同层级的主题库,并通过最大后验准则生成不同层级的主题相关矩阵。
[0107] 可选的,生成模块32对所述全局词共现矩阵进行聚类,生成一层级的主题库,并通过最大后验准则生成一层级的主题相关矩阵,并对所述一层级的主题相关矩阵进行聚类,生成下一层级的主题库,并通过最大后验准则生成下一层级的主题相关矩阵,通过迭代,生成不同层级的主题相关矩阵。
[0108] 可选的,本实施例还包括构建模块34,用于对预设的噪声构建模型,形成噪声模型,在对所述全局词共现矩阵聚类之前,通过所述噪声模型对所述全局词共现矩阵进行噪声处理。
[0109] 可选的,构建模块33对于每一层级的主题相关矩阵,通过Glove算法构建主题向量空间。其中,所述Glove算法的数学模型如下:
[0110]
[0111] 其中,vi为主题i的主题向量,vj为主题j的主题向量,vk为主题k的主题向量,主题向量构成主题向量空间;所述主题k为除了主题i和主题j之外的其他主题,F是主题向量的关系函数,Pik是主题i和主题k的共现概率,Pjk是主题j和主题k的共现概率,所述Pik的数学表示为:
[0112]
[0113] 所述Pjk的数学表示为:
[0114]
[0115] 其中,Θ为主题相关矩阵;Θik和Θjk分别为所述主题i与所述主题k的主题相关系数以及所述主题j与所述主题k的主题相关系数。
[0116] 下面参考图4来描述根据本申请的这种实施例的电子设备800。图4显示的电子设备800仅仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
[0117] 如图4所示,电子设备800以通用计算设备的形式表现。电子设备800的组件可以包括但不限于:上述至少一个处理单元810、上述至少一个存储单元820、连接不同系统组件(包括存储单元820和处理单元810)的总线830、显示单元840。
[0118] 其中,所述存储单元存储有程序代码,所述程序代码可以被所述处理单元810执行,使得所述处理单元810执行本说明书上述“示例性方法”部分中描述的根据本申请各种示例性实施例的步骤。例如,所述处理单元810可以执行如图2中所示的步骤S1:从语料库中提取全局词共现矩阵。步骤S2:对全局词共现矩阵进行建模,并生成不同层级的主题库,根据不同层级的主题库分别生成不同层级的主题相关矩阵。步骤S3:对于每一层级的所述主题相关矩阵,构建主题向量空间。
[0119] 存储单元820可以包括易失性存储单元形式的可读介质,例如随机存取存储单元(RAM)821和/或高速缓存存储单元822,还可以进一步包括只读存储单元(ROM)823。
[0120] 存储单元820还可以包括具有一组(至少一个)程序模块825的程序/实用工具824,这样的程序模块825包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
[0121] 总线830可以为表示几类总线结构中的一种或多种,包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。
[0122] 电子设备800也可以与一个或多个外部设备870(例如键盘、指向设备、蓝牙设备等)通信,还可与一个或者多个使得用户能与该电子设备800交互的设备通信,和/或与使得该电子设备800能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口850进行。并且,电子设备800还可以通过网络适配器860与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器860通过总线830与电子设备800的其它模块通信。应当明白,尽管图中未示出,可以结合电子设备800使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
[0123] 通过以上的实施例的描述,本领域的技术人员易于理解,这里描述的示例实施例可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本申请实施例的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、终端装置、或者网络设备等)执行根据本申请实施例的方法。
[0124] 在本申请的示例性实施例中,还提供了一种计算机可读存储介质,其上存储有能够实现本说明书上述方法的程序产品。在一些可能的实施例中,本申请的各个方面还可以实现为一种程序产品的形式,其包括程序代码,当所述程序产品在终端设备上运行时,所述程序代码用于使所述终端设备执行本说明书上述“示例性方法”部分中描述的根据本申请各种示例性实施例的步骤。
[0125] 用于实现上述方法的程序产品可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码,并可以在终端设备,例如个人电脑上运行。然而,本申请的程序产品不限于此,在本文件中,可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
[0126] 所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
[0127] 计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
[0128] 可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、有线、光缆、RF等等,或者上述的任意合适的组合。
[0129] 可以以一种或多种程序设计语言的任意组合来编写用于执行本申请操作的程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN),连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
[0130] 此外,上述附图仅是根据本申请示例性实施例的方法所包括的处理的示意性说明,而不是限制目的。易于理解,上述附图所示的处理并不表明或限制这些处理的时间顺序。另外,也易于理解,这些处理可以是例如在多个模块中同步或异步执行的。
[0131] 本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本申请的其他实施例。本申请旨在涵盖本申请的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本申请的真正范围和精神由权利要求指出。
[0132] 应当理解的是,本申请并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈