首页 / 专利库 / 人工智能 / 词性标注 / 一种信息处理方法及相关设备

一种信息处理方法及相关设备

阅读:106发布:2020-05-14

专利汇可以提供一种信息处理方法及相关设备专利检索,专利查询,专利分析的服务。并且本 申请 实施例 公开了一种信息处理方法及相关设备,所述方法应用于 数据处理 技术领域,包括:依照预设周期获取预设机构的通知文本,并基于 文本分类 算法 对通知文本进行内容识别,并根据内容识别结果确定通知文本所属的类别,若该类别为通告类别,则基于 关键词识别 算法从通知文本中确定出发文关键词和主题词,进而依照预设格式对发文关键词和主题词进行组合处理,得到通知文本对应的发布信息,并输出该发布信息。采用本申请,有利于提高获取特定机构发布的通知文本对应信息的效率。,下面是一种信息处理方法及相关设备专利的具体信息内容。

1.一种信息处理方法,其特征在于,所述方法包括:
依照预设周期获取预设机构的通知文本;
基于文本分类算法对所述通知文本进行内容识别,并根据内容识别结果确定所述通知文本所属的类别;
若所述类别为通告类别,则基于关键词识别算法从所述通知文本中确定出发文关键词和主题词,所述发文关键词包括发文字号、发文机关、发文标题和发文日期中的至少一种或者多种;
依照预设格式对所述发文关键词和所述主题词进行组合处理,得到所述通知文本对应的发布信息,并输出所述发布信息。
2.根据权利要求1所述的方法,其特征在于,所述关键词识别算法包括主题词识别算法,所述基于关键词识别算法从所述通知文本中确定出主题词,包括:
基于标点符号将所述通知文本分割为至少一个句子;
对所述至少一个句子中的各个句子进行预处理,并从预处理后的至少一个句子中确定出至少一个候选关键词,所述候选关键词的词性包括以下至少一种:名词、动词和动名词;
根据主题词识别算法计算出各个候选关键词在所述通知文本中的权重值,并根据权重值由大到小的顺序对各个候选关键词进行排序;
将排序前N的候选关键词确定为所述通知文本对应的主题词,所述N为大于0的整数。
3.根据权利要求2所述的方法,其特征在于,所述对所述至少一个句子中的各个句子进行预处理,并从预处理后的至少一个句子中确定出至少一个候选关键词,包括:
对所述至少一个句子中的各个句子进行分词处理,得到至少一个关键词;
对所述至少一个关键词中的各个关键词进行去停处理,并对去停处理后的关键词进行词性标注
从去停处理后的关键词中将词性为预设词性的关键词确定为候选关键词,所述预设词性包括名词、动词和动名词中的至少一种。
4.根据权利要求1所述的方法,其特征在于,所述关键词识别算法包括命名体识别算法,所述命名体识别算法用于从所述通知文本中确定出发文关键词,所述基于关键词识别算法从所述通知文本中确定出发文关键词之前,所述方法还包括:
基于预设特征函数对命名体识别算法中的特征函数进行调整;
其中,所述基于关键词识别算法从所述通知文本中确定出发文关键词,包括:
基于调整所述特征函数后的命名体识别算法从所述通知文本中确定出发文关键词。
5.根据权利要求1所述的方法,其特征在于,所述基于文本分类算法对所述通知文本进行内容识别之前,所述方法还包括:
获取M个预设机构的通知文本,所述M个通知文本中包括M1个通告类别的文本和M-M1个文件类别的文本,所述M和M1均为大于0的整数;
对所述M个通知文本进行文本处理,并将文本处理后的M个通知文本整合成M个预设文本格式的训练文本;
基于所述M个预设文本格式的训练文本对所述文本分类算法进行训练。
6.根据权利要求1所述的方法,其特征在于,所述依照预设格式对所述发文关键词和所述主题词进行组合处理,得到所述通知文本对应的发布信息,包括:
检测所述主题词与各个预设分类主题之间的关联值,并将关联值最大的预设分类主题确定为所述主题词所属的目标分类主题;
从至少一个预设格式中确定出所述目标分类主题对应的目标格式,并依照所述目标格式对所述发文关键词和所述主题词进行组合处理,得到所述通知文本在所述目标分类主题中对应的发布信息。
7.根据权利要求6所述的方法,其特征在于,所述依照所述目标格式对所述发文关键词和所述主题词进行组合处理,得到所述通知文本在所述目标分类主题中对应的发布信息之后,所述方法还包括:
将所述发布信息与所述目标分类主题对应的标签信息关联存储至存储装置中;
接收针对所述目标分类主题的查询信息,所述查询信息包括所述目标分类主题的标签信息;
从所述存储装置中获取与所述标签信息关联存储的所述发布信息,并输出所述发布信息。
8.一种信息处理装置,其特征在于,所述装置包括:
获取模,用于依照预设周期获取预设机构的通知文本;
处理模块,用于基于文本分类算法对所述通知文本进行内容识别,并根据内容识别结果确定所述通知文本所属的类别,若所述类别为通告类别,则基于关键词识别算法从所述通知文本中确定出发文关键词和主题词,所述发文关键词包括发文字号、发文机关、发文标题和发文日期中的至少一种或者多种;
处理模块,用于依照预设格式对所述发文关键词和所述主题词进行组合处理,得到所述通知文本对应的发布信息;
输出模块,用于输出所述发布信息。
9.一种服务器,其特征在于,包括处理器和存储器,所述处理器和所述存储器相互连接,其中,所述存储器用于存储计算机程序,所述计算机程序包括程序指令,所述处理器被配置用于调用所述程序指令,执行如权利要求1-7任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行以实现权利要求1-7任意一项所述的方法。

说明书全文

一种信息处理方法及相关设备

技术领域

[0001] 本发明涉及数据处理技术领域,尤其涉及一种信息处理方法及相关设备。

背景技术

[0002] 当下社会是一个高速发展的社会,借助互联网技术的发展,人们每天都会接受到大量的信息,数据的增长从未停歇,甚至呈井喷式增长,如何准确、高效的把握信息成为关键。其中,尤其是对特定机构发布的通告文件(例如政府机构发布的通告文件)对应信息的掌握,用户可以通告该通告文件了解国家和社会发展方向,对于用户而言至关重要。
[0003] 目前,针对特定机构发布的通告文件对应信息的获取,通常需要用户输入相关搜索请求,再进行相关内容匹配,这种方法虽然匹配度较高,但要求用户时时关注、了解社会及国家动态,不利于用户及时了解该特定机构发布的通告文件对应信息。

发明内容

[0004] 本申请实施例提供了一种信息处理方法及相关设备,可以提高获取特定机构发布的通告文件对应信息的效率。
[0005] 第一方面,本申请实施例提供了一种信息处理方法,所述方法应用于服务器,该方法包括:
[0006] 依照预设周期获取预设机构的通知文本;
[0007] 基于文本分类算法对所述通知文本进行内容识别,并根据内容识别结果确定所述通知文本所属的类别;
[0008] 若所述类别为通告类别,则基于关键词识别算法从所述通知文本中确定出发文关键词和主题词,所述发文关键词包括发文字号、发文机关、发文标题和发文日期中的至少一种或者多种;
[0009] 依照预设格式对所述发文关键词和所述主题词进行组合处理,得到所述通知文本对应的发布信息,并输出所述发布信息。
[0010] 在一个实施例中,所述关键词识别算法包括主题词识别算法,所述基于关键词识别算法从所述通知文本中确定出主题词的具体实施方式为:
[0011] 基于标点符号将所述通知文本分割为至少一个句子;
[0012] 对所述至少一个句子中的各个句子进行预处理,并从预处理后的至少一个句子中确定出至少一个候选关键词,所述候选关键词的词性包括以下至少一种:名词、动词和动名词;
[0013] 根据主题词识别算法计算出各个候选关键词在所述通知文本中的权重值,并根据权重值由大到小的顺序对各个候选关键词进行排序;
[0014] 将排序前N的候选关键词确定为所述通知文本对应的主题词,所述N为大于0的整数。
[0015] 在一个实施例中,所述对所述至少一个句子中的各个句子进行预处理,并从预处理后的至少一个句子中确定出至少一个候选关键词的具体实施方式为:
[0016] 对所述至少一个句子中的各个句子进行分词处理,得到至少一个关键词;
[0017] 对所述至少一个关键词中的各个关键词进行去停处理,并对去停处理后的关键词进行词性标注
[0018] 从去停处理后的关键词中将词性为预设词性的关键词确定为候选关键词,所述预设词性包括名词、动词和动名词中的至少一种。
[0019] 在一个实施例中,所述关键词识别算法包括命名体识别算法,所述基于关键词识别算法从所述通知文本中确定出发文关键词之前,还可以基于预设特征函数对命名体识别算法中的特征函数进行调整;其中,所述基于关键词识别算法从所述通知文本中确定出发文关键词的具体实施方式为:基于调整所述特征函数后的命名体识别算法从所述通知文本中确定出发文关键词。
[0020] 在一个实施例中,所述基于文本分类算法对所述通知文本进行内容识别之前,还可以获取M个预设机构的通知文本,所述M个通知文本中包括M1个通告类别的文本和M-M1个文件类别的文本,所述M和M1均为大于0的整数;对所述M个通知文本进行文本处理,并将文本处理后的M个通知文本整合成M个预设文本格式的训练文本;基于所述M个预设文本格式的训练文本对所述文本分类算法进行训练。
[0021] 在一个实施例中,所述依照预设格式对所述发文关键词和所述主题词进行组合处理,得到所述通知文本对应的发布信息的具体实施方式为:
[0022] 检测所述主题词与各个预设分类主题之间的关联值,并将关联值最大的预设分类主题确定为所述主题词所属的目标分类主题;
[0023] 从至少一个预设格式中确定出所述目标分类主题对应的目标格式,并依照所述目标格式对所述发文关键词和所述主题词进行组合处理,得到所述通知文本在所述目标分类主题中对应的发布信息。
[0024] 在一个实施例中,所述依照所述目标格式对所述发文关键词和所述主题词进行组合处理,得到所述通知文本在所述目标分类主题中对应的发布信息之后,还可以将所述发布信息与所述目标分类主题对应的标签信息关联存储至存储装置中;接收针对所述目标分类主题的查询信息,所述查询信息包括所述目标分类主题的标签信息;从所述存储装置中获取与所述标签信息关联存储的所述发布信息,并输出所述发布信息。
[0025] 第二方面,本申请实施例提供了一种信息处理装置,该信息处理装置包括用于执行上述第一方面的方法的模
[0026] 第三方面,本申请实施例提供了一种服务器,该服务器包括处理器、网络接口存储器,所述处理器、网络接口和存储器相互连接,其中,所述网络接口受所述处理器的控制用于收发消息,所述存储器用于存储支持服务器执行上述方法的计算机程序,所述计算机程序包括程序指令,所述处理器被配置用于调用所述程序指令,执行上述第一方面的方法。
[0027] 第四方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时使所述处理器执行上述第一方面的方法。
[0028] 本申请实施例中,服务器依照预设周期获取预设机构的通知文本,并基于文本分类算法对通知文本进行内容识别,并根据内容识别结果确定通知文本所属的类别,若该类别为通告类别,则基于关键词识别算法从通知文本中确定出发文关键词和主题词,进而依照预设格式对发文关键词和主题词进行组合处理,得到通知文本对应的发布信息,并输出该发布信息。一方面,有利于提高获取特定机构发布的通知文本对应信息的效率;另一方面,输出的发布信息为对通知文本中发文关键词和主题词的提取,有利于提高信息的可读性,使得用户快速掌握该通知文本对应的信息。附图说明
[0029] 为了更清楚地说明本申请实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0030] 图1是本申请实施例提供的一种信息处理方法的流程示意图;
[0031] 图2是本申请实施例提供的一种特征函数的示意图;
[0032] 图3是本申请实施例提供的另一种信息处理方法的流程示意图;
[0033] 图4是本申请实施例提供的一种候选关键词图;
[0034] 图5是本申请实施例提供的一种信息处理装置的示意性框图
[0035] 图6是本申请实施例提供的一种服务器的示意性框图。

具体实施方式

[0036] 下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0037] 参见图1,图1是本申请实施例提供的一种信息处理方法的流程示意图,该方法应用于服务器,可由服务器执行,如图所示,该信息处理方法可包括:
[0038] S101:依照预设周期获取预设机构的通知文本。
[0039] 在一个实施例中,服务器可以依照预设周期向预设机构对应的网站、可能展示该预设机构的通知文本的应用或者网站(例如各新闻应用、社交平台等等)等等,爬取该预设机构的通知文本。其中,该预设机构可以为政府机构,该通知文本主要为政府机构下发的各种通知文件,该通知文件表征了国家和社会发展方向的相关信息。在一个实施例中,该预设周期可以为开发人员根据实验测试预先设定的,后续可以根据不同的需求,对该预设周期进行调整。
[0040] S102:基于文本分类算法对通知文本进行内容识别,并根据内容识别结果确定通知文本所属的类别。
[0041] 在一个实施例中,该文本分类算法例如可以为FastText算法,该算法基于词嵌入,同时有效利用n-gram等特征信息,具有训练速度快、鲁棒性高等优势,可以用于识别出通知文本的类别是通告类还是文件类,该通告类的通知文本,是指适用于在一定范围内公布应当遵守或者周知事项的周知性公文,通告的使用面比较广泛,一般机关、企事业单位甚至临时性机构都可使用。该文件类的通知文本,例如可以指该特定机构供自身内部工作所需的普通文本,非周知性公文。
[0042] 在一个实施例中,服务器可以预先获取M个预设机构的通知文本,该M个通知文本中包括M1个通告类别的文本和M-M1个文件类别的文本,该M和M1均为大于0的整数。进一步地,服务器可以对该M个通知文本进行文本处理,并将文本处理后的M个通知文本整合成M个预设文本格式的训练文本,进而基于M个预设文本格式的训练文本对文本分类算法进行训练。进一步地,可以利用训练完成的文本分类算法执行步骤S102。
[0043] 其中,该预设文本格式与使用的文本分类算法相关联,例如该文本分类算法为FastText,那么该预设文本格式则为FastText格式。上述文本处理包括分词处理、去停词处理等等。其中,对通知文本进行分词、去停词等处理后合成为训练文本,可以提高训练后生成的文本分类算法的准确度。
[0044] 示例性地,假设预设机构的通知文本为政府通知文本,文本分类算法为FastText,服务器已抓取M个政府通知文本数据,其中M1个为政府通告(即通告类别的通知文本),标记为label_1,M-M1个为普通文件(即通告类别的通知文本),标记为label_2。进一步地,服务器可以对上述M个政府通知文本数据分别进行分词、去停用词等处理,并合成FastText格式的训练文本,训练生成FastText模型。
[0045] 其中,FastText是一个开源的文本分类器,相较于其他文本分类模型,主要优势就是快,在保持分类结果准确的同时,大大缩短了训练时间。
[0046] S103:若该类别为通告类别,则基于关键词识别算法从通知文本中确定出发文关键词和主题词,该发文关键词包括发文字号、发文机关、发文标题和发文日期中的至少一种或者多种。
[0047] 在一个实施例中,该关键词识别算法包括命名体识别算法和主题词识别算法,其中,该命名体识别算法用于识别通告类别的通知文本对应的发文关键词;该主题词识别算法用于识别通告类别的通知文本对应的主题词。
[0048] 在一个实施例中,服务器执行步骤S103之前,可以获取初始命名体识别算法对应的初始命名体识别模型,以及若干个包括发文关键词标注信息的通告类别的通知训练文本,并基于该若干个包括发文关键词标注信息的通知训练文本对初始命名体识别模型进行训练,得到命名体识别模型,进而得到该命名体识别模型对应的命名体识别算法。进一步地,服务器可以基于该命名体识别算法从通知文本中确定出发文关键词。
[0049] 在一个实施例中,该关键词识别算法包括命名体识别算法,服务器基于关键词识别算法从通知文本中确定出发文关键词之前,还可以基于预设特征函数对命名体识别算法中的特征函数进行调整,并基于调整该特征函数后的命名体识别算法从通知文本中确定出发文关键词。
[0050] 在一个实施例中,该命名体识别算法例如可以为条件随机场算法(conditional random field algorithm,CRF),该CRF算法特征在于特征设计灵活,可以容纳更多上下文信息,最后的识别结果为全局最优。
[0051] 该CRF算法对应的计算公式如公式1-1所示:
[0052]
[0053] 其中,P为条件概率,Z(x)是规范化因子,即所有可能的输出序列的和,tk和sl为特征函数,λk和μl是tk和sl分别对应的权值,x表示输入观测序列,y表示输入观测序列对应的输出标记序列,在本方案中该输入的观测序列即为输入的通知文本,该输入观测序列对应的输出标记序列即为输出的该通知文本对应的发文关键词。
[0054] 在一个实施例中,服务器可以基于预设特征函数对初始命名体识别算法中的上述特征函数tk和sl进行调整,并获取若干个包括发文关键词标注信息的通告类别的通知训练文本。进一步地,可以基于该若干个通知训练文本对调整特征函数的初始命名体识别算法进行优化,得到命名体识别算法。
[0055] 其中,该预设特征函数是针对特定机构的通告类通知文本的检测设置的,该预设特征函数包括多个,增加了初始命名体识别算法中特征函数的数量,可以提高命名体识别算法识别出特定机构的通告类通知文本的发文关键词的准确度。
[0056] 示例性地,上述多个预设特征函数可以如图2所示,其中,U00~U23均为预设特征函数,表征了检测发文关键词过程中的具体检测方式。例如,U00[-2,0],其中,该0表征当前词对应的第一位置,-2表征以该当前词为基准,往前推两个词的目标位置。这种情况下,基于该U00预设特征函数可以首先将通知文本中的任一词确定为当前词,对该当前词进行发文关键词识别;进一步地,可以以该当前词为基准,往前推两个词,得到目标位置对应的目标词,并对该目标词进行发文关键词识别。相应的,其它U01~U23也是相应的理解。
[0057] 在一个实施例中,上述多个预设特征函数是开发人员针对特定机构的通告类通知文本的检测需求设置的,当设置完成后可以使用上述多个预设特征函数中的各个预设特征函数对初始命名体识别算法中的上述特征函数tk和sl进行替换,从而调整检测发文关键词过程中的具体检测方式。
[0058] 在一个实施例中,若服务器检测到该通知文本所属的类别不为通告类别,例如为文件类别,则可以等待下个周期执行步骤S101重新获取预设机构的通知文本。
[0059] S104:依照预设格式对发文关键词和主题词进行组合处理,得到该通知文本对应的发布信息,并输出发布信息。
[0060] 其中,该发文关键词和主题词可以包括多个,该发文关键词例如可以为“发文机关”、“发文标题”、“发文日期”等等。
[0061] 在一个实施例中,该预设格式可以为一个消息的格式,该预设格式规定了该发布信息的字符串长度,组合先后顺序等等。例如,服务器可以按照主题词-发文标题-发文机关-发文日期的先后顺序进行组合,组合成一个字符串不超过预设字符数量的发布信息,进一步地,服务器可以将该发布信息发送至前端,以便于前端展示该发布信息,便于用户快速了解该通知文本对应的关键信息。
[0062] 在一个实施例中,该预设格式可以为表格形式,例如,如表1的表格形式,便于用户可以对关键信息一目了然,有效提高其对通知文本的可读性,在一定程度上节省了用户的阅读时间。
[0063] 表1
[0064]
[0065] 在一个实施例中,当服务器提取出“发文机关”、“发文标题”、“发文日期”等发文关键信息及“主题词”之后,服务器可以将提取出的“发文机关”、“发文标题”、“发文日期”等发文关键信息及“主题词”填入对应的表格(如表1所示的表格),前端可以将该表格中的信息按照预设格式生成发布信息在前端页面展示,该发布信息例如可以为一条推送消息的形式输出,让用户快速了解该通知文本对应的关键信息。当用户对该通知文本有兴趣时,可以点击该推送消息,查看该推送消息对应的通知文本。
[0066] 本申请实施例中,服务器可以依照预设周期获取预设机构的通知文本,并基于文本分类算法对通知文本进行内容识别,并根据内容识别结果确定通知文本所属的类别,若该类别为通告类别,则基于关键词识别算法从通知文本中确定出发文关键词和主题词,进而依照预设格式对发文关键词和主题词进行组合处理,得到通知文本对应的发布信息,并输出该发布信息。一方面,有利于提高获取特定机构发布的通知文本对应信息的效率;另一方面,输出的发布信息为对通知文本中发文关键词和主题词的提取,有利于提高信息的可读性,使得用户快速掌握该通知文本对应的信息。
[0067] 参见图3,图3是本申请实施例提供的另一种信息处理方法的流程示意图,该方法应用于服务器,可由服务器执行,如图所示,该信息处理方法可包括:
[0068] S301:依照预设周期获取预设机构的通知文本。
[0069] S302:基于文本分类算法对通知文本进行内容识别,并根据内容识别结果确定通知文本所属的类别。
[0070] S303:若该类别为通告类别,则基于关键词识别算法从通知文本中确定出发文关键词和主题词。
[0071] 在一个实施例中,该关键词识别算法包括主题词识别算法,服务器可以基于标点符号将通知文本分割为至少一个句子,对至少一个句子中的各个句子进行预处理,并从预处理后的至少一个句子中确定出至少一个候选关键词,该候选关键词的词性包括以下至少一种:名词、动词和动名词。进一步地,服务器可以根据主题词识别算法计算出各个候选关键词在通知文本中的权重值,并根据权重值由大到小的顺序对各个候选关键词进行排序,进而将排序前N的候选关键词确定为通知文本对应的主题词,该N为大于0的整数,为开发人员预先进行统一设定的,例如可以为3,后续可以根据实际需求进行调整。
[0072] 在一个实施例中,服务器可以对至少一个句子中的各个句子进行分词处理,得到至少一个关键词,并对至少一个关键词中的各个关键词进行去停处理,并对去停处理后的关键词进行词性标注,从去停处理后的关键词中将词性为预设词性的关键词确定为候选关键词,该预设词性包括名词、动词和动名词中的至少一种。采用这样的方式,可以利用去停用词及词性标注,减少候选关键词的数量,从而减轻后续运算的复杂性,提高运算速度。
[0073] 其中,去停处理可以理解为去掉至少一个关键词中的停用词,停用词例如可以为语气助词、副词、介词、连接词等,通常自身并无明确的意义,只有将其放入一个完整的句子中才有一定作用,如常见的“的”、“在”之类。
[0074] 在一个实施例中,上述主题词识别算法例如可以为TextRank算法,该TextRank算法的优势在于仅依靠文本自身信息即可实现主题词的提取。
[0075] 该TextRank对应的计算公式如公式2-1所示:
[0076]
[0077] 其中,wij是Vi和Vj两个节点之间的边权重,wij初始值为句子的词数总和的倒数,WS(Vi)是节点Vi在句子中的权重,WS(Vj)是节点Vj在句子中的权重,In(Vj)表示节点Vi的前驱节点集合,wjk表示节点Vj的后驱节点集合,节点Vj的后驱节点表示为Vk,d是阻尼系数确保每个词都有大于0的权重,例如可以取0.85。其中,公式2-1中的节点在句子中可以理解为一个词语。
[0078] 在一个实施例中,当服务器确定出至少一个候选关键词后可以构建候选关键词图G=(V,E),其中V为节点集,由候选关键词构成,E为图中边的集合。进一步地,服务器可以根据共现关系构建任意两个节点之间的边,两个节点之间存在的边仅当它们对应的词汇在长度为预设长度阈值的窗口中共现,也即,当两个词汇在句中的间隔长度小于预设长度阈值时,该两个词汇对应的两个节点之间存在的边才会显示在候选关键词图中。其中,该预设长度阈值例如可以为5,为开发人员预先设定,后续可以根据实际需求进行调整。
[0079] 进一步地,服务器可以上述至少一个候选关键词的所有两两组合的候选关键词根据上述公式2-1进行计算,直至收敛,从而得到每个候选关键词的在通知文本中的权重值。
[0080] 示例性地,假设通知文本对应的一段文本原句为:国务院关于广东、河北两省建立渔业经济体制综合改革试验区的批复,那么服务器将该文本根据标点符号分割为每个句子,然后对句子进行分词、词性标注、去停用词处理,最后只选取词性为名词、动词及动名词的词作为候选关键词的结果为:国务院广东河北两省建立渔业经济体制综合改革试验区批复,基于上述至少一个候选关键词集构建出的候选关键词图如图4所示。当图构建好以后,服务器可以遍历每条边,根据TextRank计算公式可计算出每个候选关键词在通知文本中的权重值。
[0081] S304:检测上述主题词与各个预设分类主题之间的关联值,并将关联值最大的预设分类主题确定为该主题词所属的目标分类主题。
[0082] S305:从至少一个预设格式中确定出目标分类主题对应的目标格式,并依照目标格式对发文关键词和主题词进行组合处理,得到通知文本在目标分类主题中对应的发布信息,并输出该发布信息。
[0083] 其中,该预设分类主题例如可以包括科技、卫生、教育、娱乐、财经、政治等主题。在一个实施例中,各个预设分类主题预先设置有预设格式,针对这种情况,服务器可以确定上述主题词与各个预设分类主题之间的关联值,并将关联值最大的预设分类主题确定为该主题词所属的目标分类主题。进一步地,根据预先设置的预设分类主题与预设格式的对应关系,确定出该目标分类主题对应的目标格式,进而依照目标格式对发文关键词和主题词进行组合处理,得到通知文本在目标分类主题中对应的发布信息,并输出该发布信息。
[0084] 在一个实施例中,当主题词包括多个时,可以确定各个主题词与各个预设分类主题之间的关联值,并将从每个出题词对应的至少一个关联值中,将关联值最大的预设分类主题确定为该主题词所属的目标分类主题。例如,主题词包括2个,分别为渔业改革和经济体制改革,则可以确定出主题词“渔业改革”所属的目标分类主题为“农业”和主题词“经济体制改革”所属的目标分类主题为“经济”,这种情况下,可以得到通知文本在“农业”中对应的第一发布信息和通知文本在“经济”中对应的第二发布信息。其中,该第一发布信息对应的主题词为“渔业改革”,该第二发布信息对应的主题词为“经济体制改革”。
[0085] 在一个实施例中,当主题词包括多个时,可以确定各个主题词与各个预设分类主题之间的关联值,并将关联值最大的预设分类主题确定为上述通知文本所属的目标分类主题。进一步地,根据预先设置的预设分类主题与预设格式的对应关系,确定出该目标分类主题对应的目标格式,进而依照目标格式对发文关键词和主题词进行组合处理,得到通知文本在目标分类主题中对应的发布信息,并输出该发布信息。
[0086] 在一个实施例中,服务器依照目标格式对发文关键词和主题词进行组合处理,得到通知文本在目标分类主题中对应的发布信息之后,可以将该发布信息与目标分类主题对应的标签信息关联存储至存储装置。进一步地,服务器可以接收针对目标分类主题的查询信息,该查询信息包括目标分类主题的标签信息,进而服务器可以从存储装置中获取与标签信息关联存储的发布信息,并输出该发布信息。
[0087] 示例性地,用户可以通过服务器对应的前端页面查询某一分类主题(即目标分类主题)下的发布信息。这种情况下,服务器接收到该针对目标分类出题的查询信息时,可以基于该查询信息中携带的目标分类主题的标签信息,从存储装置中获取与标签信息关联存储的发布信息,并该发布信息返回前端页面,以便于前端页面展示该发布信息。采用这样的方式,方便用户直接查询目标分类主题下的发布信息。
[0088] 本申请实施例中,服务器可以依照预设周期获取预设机构的通知文本,并基于文本分类算法对通知文本进行内容识别,并根据内容识别结果确定通知文本所属的类别,若该类别为通告类别,则基于关键词识别算法从通知文本中确定出发文关键词和主题词。进一步地,服务器可以检测上述主题词与各个预设分类主题之间的关联值,并将关联值最大的预设分类主题确定为该主题词所属的目标分类主题,进而从至少一个预设格式中确定出目标分类主题对应的目标格式,并依照目标格式对发文关键词和主题词进行组合处理,得到通知文本在目标分类主题中对应的发布信息,并输出该发布信息。采用这样的方式,可以直接输出与目标分类主题匹配的发布信息,提高发布信息确定的智能性。
[0089] 本申请实施例还提供了一种信息处理装置。该装置包括用于执行前述图1或者图3所述的方法的模块,配置于服务器。具体地,参见图5,是本申请实施例提供的信息处理装置的示意框图。本实施例的信息处理装置包括:
[0090] 获取模块50,用于依照预设周期获取预设机构的通知文本;
[0091] 处理模块51,用于基于文本分类算法对所述通知文本进行内容识别,并根据内容识别结果确定所述通知文本所属的类别,若所述类别为通告类别,则基于关键词识别算法从所述通知文本中确定出发文关键词和主题词,所述发文关键词包括发文字号、发文机关、发文标题和发文日期中的至少一种或者多种;
[0092] 处理模块51,用于依照预设格式对所述发文关键词和所述主题词进行组合处理,得到所述通知文本对应的发布信息;
[0093] 输出模块52,用于输出所述发布信息。
[0094] 在一个实施例中,所述关键词识别算法包括主题词识别算法,处理模块51,具体用于基于标点符号将所述通知文本分割为至少一个句子;对所述至少一个句子中的各个句子进行预处理,并从预处理后的至少一个句子中确定出至少一个候选关键词,所述候选关键词的词性包括以下至少一种:名词、动词和动名词;根据主题词识别算法计算出各个候选关键词在所述通知文本中的权重值,并根据权重值由大到小的顺序对各个候选关键词进行排序;将排序前N的候选关键词确定为所述通知文本对应的主题词,所述N为大于0的整数。
[0095] 在一个实施例中,所述处理模块51,还具体用于:
[0096] 对所述至少一个句子中的各个句子进行分词处理,得到至少一个关键词;
[0097] 对所述至少一个关键词中的各个关键词进行去停处理,并对去停处理后的关键词进行词性标注;
[0098] 从去停处理后的关键词中将词性为预设词性的关键词确定为候选关键词,所述预设词性包括名词、动词和动名词中的至少一种。
[0099] 在一个实施例中,所述关键词识别算法包括命名体识别算法,所述处理模块51,还具体用于:基于预设特征函数对命名体识别算法中的特征函数进行调整;基于调整所述特征函数后的命名体识别算法从所述通知文本中确定出发文关键词。
[0100] 在一个实施例中,获取模块50,还用于获取M个预设机构的通知文本,所述M个通知文本中包括M1个通告类别的文本和M-M1个文件类别的文本,所述M和M1均为大于0的整数;所述处理模块51,还用于对所述M个通知文本进行文本处理,并将文本处理后的M个通知文本整合成M个预设文本格式的训练文本;基于所述M个预设文本格式的训练文本对所述文本分类算法进行训练。
[0101] 在一个实施例中,所述处理模块51,还具体用于:检测所述主题词与各个预设分类主题之间的关联值,并将关联值最大的预设分类主题确定为所述主题词所属的目标分类主题;从至少一个预设格式中确定出所述目标分类主题对应的目标格式,并依照所述目标格式对所述发文关键词和所述主题词进行组合处理,得到所述通知文本在所述目标分类主题中对应的发布信息。
[0102] 在一个实施例中,所述处理模块51,还具体用于将所述发布信息与所述目标分类主题对应的标签信息关联存储至存储装置中;所述获取模块50,还用于接收针对所述目标分类主题的查询信息,所述查询信息包括所述目标分类主题的标签信息,从所述存储装置中获取与所述标签信息关联存储的所述发布信息,并通过所述输出模块52输出所述发布信息。
[0103] 需要说明的是,本申请实施例所描述的信息处理装置的各功能模块的功能可根据图1或者图3所述的方法实施例中的方法具体实现,其具体实现过程可以参照图1或者图3的方法实施例的相关描述,此处不再赘述。
[0104] 请参见图6,图6是本申请实施例提供的一种服务器的示意性框图,如图6所示,该服务器包括,处理器601、存储器602和网络接口603。上述处理器601、存储器602和网络接口603可通过总线或其他方式连接,在本申请实施例所示图6中以通过总线连接为例。其中,网络接口603受所述处理器的控制用于收发消息,存储器602用于存储计算机程序,所述计算机程序包括程序指令,处理器601用于执行存储器602存储的程序指令。其中,处理器601被配置用于调用所述程序指令执行:调用网络接口603依照预设周期获取预设机构的通知文本;基于文本分类算法对所述通知文本进行内容识别,并根据内容识别结果确定所述通知文本所属的类别;若所述类别为通告类别,则基于关键词识别算法从所述通知文本中确定出发文关键词和主题词,所述发文关键词包括发文字号、发文机关、发文标题和发文日期中的至少一种或者多种;依照预设格式对所述发文关键词和所述主题词进行组合处理,得到所述通知文本对应的发布信息,并通过网络接口603输出所述发布信息。
[0105] 在一个实施例中,所述关键词识别算法包括主题词识别算法,处理器601,具体用于基于标点符号将所述通知文本分割为至少一个句子;对所述至少一个句子中的各个句子进行预处理,并从预处理后的至少一个句子中确定出至少一个候选关键词,所述候选关键词的词性包括以下至少一种:名词、动词和动名词;根据主题词识别算法计算出各个候选关键词在所述通知文本中的权重值,并根据权重值由大到小的顺序对各个候选关键词进行排序;将排序前N的候选关键词确定为所述通知文本对应的主题词,所述N为大于0的整数。
[0106] 在一个实施例中,所述处理器601,还具体用于:
[0107] 对所述至少一个句子中的各个句子进行分词处理,得到至少一个关键词;
[0108] 对所述至少一个关键词中的各个关键词进行去停处理,并对去停处理后的关键词进行词性标注;
[0109] 从去停处理后的关键词中将词性为预设词性的关键词确定为候选关键词,所述预设词性包括名词、动词和动名词中的至少一种。
[0110] 在一个实施例中,所述关键词识别算法包括命名体识别算法,所述处理器601,还具体用于:基于预设特征函数对命名体识别算法中的特征函数进行调整;基于调整所述特征函数后的命名体识别算法从所述通知文本中确定出发文关键词。
[0111] 在一个实施例中,所述处理器601,还用于调用网络接口603获取M个预设机构的通知文本,所述M个通知文本中包括M1个通告类别的文本和M-M1个文件类别的文本,所述M和M1均为大于0的整数;对所述M个通知文本进行文本处理,并将文本处理后的M个通知文本整合成M个预设文本格式的训练文本;基于所述M个预设文本格式的训练文本对所述文本分类算法进行训练。
[0112] 在一个实施例中,所述处理器601,还具体用于:检测所述主题词与各个预设分类主题之间的关联值,并将关联值最大的预设分类主题确定为所述主题词所属的目标分类主题;从至少一个预设格式中确定出所述目标分类主题对应的目标格式,并依照所述目标格式对所述发文关键词和所述主题词进行组合处理,得到所述通知文本在所述目标分类主题中对应的发布信息。
[0113] 在一个实施例中,所述处理器601,还具体用于将所述发布信息与所述目标分类主题对应的标签信息关联存储至存储装置中;通过网络接口603接收针对所述目标分类主题的查询信息,所述查询信息包括所述目标分类主题的标签信息,从所述存储装置中获取与所述标签信息关联存储的所述发布信息,并通过所述网络接口603输出所述发布信息。
[0114] 应当理解,在本申请实施例中,所称处理器601可以是中央处理单元(Central Processing Unit,CPU),该处理器601还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
[0115] 该存储器602可以包括只读存储器随机存取存储器,并向处理器601提供指令和数据。存储器602的一部分还可以包括非易失性随机存取存储器。例如,存储器602还可以存储设备类型的信息。
[0116] 具体实现中,本申请实施例中所描述的处理器601、存储器602和网络接口603可执行本申请实施例提供的图1或者图3所述的方法实施例所描述的实现方式,也可执行本申请实施例所描述的信息处理装置的实现方式,在此不再赘述。
[0117] 在本发明的另一实施例中提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令被处理器执行时实现:依照预设周期获取预设机构的通知文本;基于文本分类算法对所述通知文本进行内容识别,并根据内容识别结果确定所述通知文本所属的类别;若所述类别为通告类别,则基于关键词识别算法从所述通知文本中确定出发文关键词和主题词,所述发文关键词包括发文字号、发文机关、发文标题和发文日期中的至少一种或者多种;依照预设格式对所述发文关键词和所述主题词进行组合处理,得到所述通知文本对应的发布信息,并输出所述发布信息。
[0118] 所述计算机可读存储介质可以是前述任一实施例所述的服务器的内部存储单元,例如服务器的硬盘或内存。所述计算机可读存储介质也可以是所述服务器的外部存储设备,例如所述服务器上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,所述计算机可读存储介质还可以既包括所述服务器的内部存储单元也包括外部存储设备。所述计算机可读存储介质用于存储所述计算机程序以及所述服务器所需的其他程序和数据。所述计算机可读存储介质还可以用于暂时地存储已经输出或者将要输出的数据。
[0119] 本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random Access Memory,RAM)等。
[0120] 以上所揭露的仅为本发明的部分实施例而已,当然不能以此来限定本发明之权利范围,本领域普通技术人员可以理解实现上述实施例的全部或部分流程,并依本发明权利要求所作的等同变化,仍属于发明所涵盖的范围。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈