首页 / 专利库 / 人工智能 / 人工智能 / 自然语言处理 / 一种技术关键词的识别方法、装置、计算机设备和存储介质

一种技术关键词的识别方法、装置、计算机设备和存储介质

阅读:1035发布:2020-06-12

专利汇可以提供一种技术关键词的识别方法、装置、计算机设备和存储介质专利检索,专利查询,专利分析的服务。并且本 发明 实施例 公开了一种技术关键词的识别方法、装置、计算机设备和存储介质,该方法包括:接收文件,所述文件具有一个或多个页面;从所述页面中提取文本信息;根据产品技术对所述文本信息进行分词处理,获得词组;对所述词组进行语义分析,以确定实体词;识别用于描述产品技术的实体词,作为技术关键词。通过语义分析自动甄别描述产品、技术的关键词,在保证准确率的情况下,操作简便,大大降低了耗时。,下面是一种技术关键词的识别方法、装置、计算机设备和存储介质专利的具体信息内容。

1.一种技术关键词的识别方法,其特征在于,包括:
接收文件,所述文件具有一个或多个页面;
从所述页面中提取文本信息;
根据产品技术对所述文本信息进行分词处理,获得词组;
对所述词组进行语义分析,以确定实体词;
识别用于描述产品技术的实体词,作为技术关键词。
2.根据权利要求1所述的方法,其特征在于,所述根据产品技术对所述文本信息进行分词处理,获得词组,包括:
确定科技词典,所述科技词典用于存储描述产品技术的关键词;
使用所述词典对所述文本信息进行分词处理,获得词组。
3.根据权利要求1所述的方法,其特征在于,所述对所述词组进行语义分析,以确定实体词,包括:
确定所述词组的语言类型;
若所述语言类型为中文,则调用预设的汉语言处理包对所述词组进行依存句法分析,以确定实体词;
若所述语言类型为英文,则调用预设的自然语言处理工具包中的语言模型接口对所述词组进行依存句法分析,以确定实体词。
4.根据权利要求1-3任一所述的方法,其特征在于,所述识别用于描述产品技术的实体词,作为技术关键词,包括:
对所述实体词进行分类,获得类别;
若所述类别为产品技术,则对所述实体词生成目标分数,所述目标分数与描述产品技术的概率正相关;
基于所述目标分数确定用于描述产品技术的实体词,作为技术关键词。
5.根据权利要求4所述的方法,其特征在于,所述对所述实体词生成目标分数,包括:
对所述实体词配置基础分数;
基于所述实体词与科技词典的匹配度、与非科技词典的匹配度、在所述文本信息中所处的相对位置、长度对所述基础分数进行调整,获得目标分数;
其中,所述科技词典用于存储描述产品技术的关键词,所述非科技词典用于存储描述产品技术之外的关键词。
6.根据权利要求5所述的方法,其特征在于,所述基于所述实体词与科技词典的匹配度、与非科技词典的匹配度、在所述文本信息中的位置、长度对所述基础分数进行调整,获得目标分数,包括:
若所述实体词与科技词典中的关键词匹配,则在所述基础分数上增加指定的第一分数;
若所述实体词与非科技词典中的关键词匹配,则在所述基础分数上减去指定的第一分数;
确定第一分数段;
确定所述实体词在所述文本信息中所处的第一相对位置;
在所述第一分数段中取处于所述第一相对位置的分数,作为第三分数,以使所述目标分数与所述第一相对位置正相关;
在所述基础分数上增加所述第三分数;
确定第二分数段;
以所有实体词的长度组成长度范围;
确定所述实体词的长度在所述长度范围中所处的第二相对位置;
在所述第一分数段中取处于所述第二相对位置的分数,作为第四分数,以使所述第四分数与所述第二相对位置正相关;
在所述基础分数上增加所述第四分数。
7.根据权利要求5所述的方法,其特征在于,所述基于所述分数确定用于描述产品技术的实体词,作为技术关键词,包括:
确定阈值
滤除分数低于所述阈值的目标分数;
将值最高的n个目标分数所属的实体词,设置为描述产品技术的技术关键词。
8.一种技术关键词的识别装置,其特征在于,包括:
文件接收模,用于接收文件,所述文件具有一个或多个页面;
文本信息提取模块,用于从所述页面中提取文本信息;
分词处理模块,用于根据产品技术对所述文本信息进行分词处理,获得词组;
语义分析模块,用于对所述词组进行语义分析,以确定实体词;
科技关键词确定模块,用于识别用于描述产品技术的实体词,作为技术关键词。
9.一种计算机设备,其特征在于,所述计算机设备包括:
一个或多个处理器;
存储器,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-7中任一所述的技术关键词的识别方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1-7中任一所述的技术关键词的识别方法。

说明书全文

一种技术关键词的识别方法、装置、计算机设备和存储介质

技术领域

[0001] 本发明实施例涉及自然语言处理的技术,尤其涉及一种技术关键词的识别方法、装置、计算机设备和存储介质。

背景技术

[0002] 在采购、交易展会、技术交流会议等场合,会有许多厂家在使用文件展示其新研发的产品、技术,并将这些文件分发给其他人员。
[0003] 通过在分析这些文件中的关键词,可以整理当前热点的产品、技术,以便用于产品研发、技术改进等。
[0004] 目前,人工收集文件后,手动甄别描述产品、技术的关键词,但是,这些文件中包含了许多无关的信息,导致手动甄别的过程较为繁琐,耗时较长。

发明内容

[0005] 本发明实施例提供一种技术关键词的识别方法、装置、计算机设备和存储介质,以解决手动甄别描述产品、技术的关键词较为繁琐,耗时较长的问题。
[0006] 第一方面,本发明实施例提供了一种技术关键词的识别方法,包括:
[0007] 接收文件,所述文件具有一个或多个页面;
[0008] 从所述页面中提取文本信息;
[0009] 根据产品技术对所述文本信息进行分词处理,获得词组;
[0010] 对所述词组进行语义分析,以确定实体词;
[0011] 识别用于描述产品技术的实体词,作为技术关键词。
[0012] 可选地,所述根据产品技术对所述文本信息进行分词处理,获得词组,包括:
[0013] 确定科技词典,所述科技词典用于存储描述产品技术的关键词;
[0014] 使用所述词典对所述文本信息进行分词处理,获得词组。
[0015] 可选地,所述对所述词组进行语义分析,以确定实体词,包括:
[0016] 确定所述词组的语言类型;
[0017] 若所述语言类型为中文,则调用预设的汉语言处理包对所述词组进行依存句法分析,以确定实体词;
[0018] 若所述语言类型为英文,则调用预设的自然语言处理工具包中的语言模型接口对所述词组进行依存句法分析,以确定实体词。
[0019] 可选地,所述识别用于描述产品技术的实体词,作为技术关键词,包括:
[0020] 对所述实体词进行分类,获得类别;
[0021] 若所述类别为产品技术,则对所述实体词生成目标分数,所述目标分数与描述产品技术的概率正相关;
[0022] 基于所述目标分数确定用于描述产品技术的实体词,作为技术关键词。
[0023] 可选地,所述对所述实体词生成目标分数,包括:
[0024] 对所述实体词配置基础分数;
[0025] 基于所述实体词与科技词典的匹配度、与非科技词典的匹配度、在所述文本信息中所处的相对位置、长度对所述基础分数进行调整,获得目标分数;
[0026] 其中,所述科技词典用于存储描述产品技术的关键词,所述非科技词典用于存储描述产品技术之外的关键词。
[0027] 可选地,所述基于所述实体词与科技词典的匹配度、与非科技词典的匹配度、在所述文本信息中的位置、长度对所述基础分数进行调整,获得目标分数,包括:
[0028] 若所述实体词与科技词典中的关键词匹配,则在所述基础分数上增加指定的第一分数;
[0029] 若所述实体词与非科技词典中的关键词匹配,则在所述基础分数上减去指定的第一分数;
[0030] 确定第一分数段;
[0031] 确定所述实体词在所述文本信息中所处的第一相对位置;
[0032] 在所述第一分数段中取处于所述第一相对位置的分数,作为第三分数,以使所述目标分数与所述第一相对位置正相关;
[0033] 在所述基础分数上增加所述第三分数;
[0034] 确定第二分数段;
[0035] 以所有实体词的长度组成长度范围;
[0036] 确定所述实体词的长度在所述长度范围中所处的第二相对位置;
[0037] 在所述第一分数段中取处于所述第二相对位置的分数,作为第四分数,以使所述第四分数与所述第二相对位置正相关;
[0038] 在所述基础分数上增加所述第四分数。
[0039] 可选地,所述基于所述分数确定用于描述产品技术的实体词,作为技术关键词,包括:
[0040] 确定阈值
[0041] 滤除分数低于所述阈值的目标分数;
[0042] 将值最高的n个目标分数所属的实体词,设置为描述产品技术的技术关键词。
[0043] 第二方面,本发明实施例还提供了一种技术关键词的识别装置,包括:
[0044] 文件接收模,用于接收文件,所述文件具有一个或多个页面;
[0045] 文本信息提取模块,用于从所述页面中提取文本信息;
[0046] 分词处理模块,用于根据产品技术对所述文本信息进行分词处理,获得词组;
[0047] 语义分析模块,用于对所述词组进行语义分析,以确定实体词;
[0048] 科技关键词确定模块,用于识别用于描述产品技术的实体词,作为技术关键词。
[0049] 可选地,所述分词处理模块包括:
[0050] 科技词典确定子模块,用于确定科技词典,所述科技词典用于存储描述产品技术的关键词;
[0051] 词典分词子模块,用于使用所述词典对所述文本信息进行分词处理,获得词组。
[0052] 可选地,所述语义分析模块包括:
[0053] 语言类型确定子模块,用于确定所述词组的语言类型;
[0054] 第一实体词确定子模块,用于若所述语言类型为中文,则调用预设的汉语言处理包对所述词组进行依存句法分析,以确定实体词;
[0055] 第二实体词确定子模块,用于若所述语言类型为英文,则调用预设的自然语言处理工具包中的语言模型接口对所述词组进行依存句法分析,以确定实体词。
[0056] 可选地,所述科技关键词确定模块包括:
[0057] 分类子模块,用于对所述实体词进行分类,获得类别;
[0058] 目标分数生成子模块,用于若所述类别为产品技术,则对所述实体词生成目标分数,所述目标分数与描述产品技术的概率正相关;
[0059] 目标分数确定子模块,用于基于所述目标分数确定用于描述产品技术的实体词,作为技术关键词。
[0060] 可选地,所述目标分数生成子模块包括:
[0061] 基础分数配置单元,用于对所述实体词配置基础分数;
[0062] 基础分数调整单元,用于基于所述实体词与科技词典的匹配度、与非科技词典的匹配度、在所述文本信息中所处的相对位置、长度对所述基础分数进行调整,获得目标分数;
[0063] 其中,所述科技词典用于存储描述产品技术的关键词,所述非科技词典用于存储描述产品技术之外的关键词。
[0064] 可选地,所述基础分数调整单元包括:
[0065] 第一分数增加子单元,用于若所述实体词与科技词典中的关键词匹配,则在所述基础分数上增加指定的第一分数;
[0066] 第二分数减去子单元,用于若所述实体词与非科技词典中的关键词匹配,则在所述基础分数上减去指定的第一分数;
[0067] 第一分数段确定子单元,用于确定第一分数段;
[0068] 第一相对位置确定子单元,用于确定所述实体词在所述文本信息中所处的[0069] 第一相对位置;
[0070] 第三分数计算子单元,用于在所述第一分数段中取处于所述第一相对位置的分数,作为第三分数,以使所述目标分数与所述第一相对位置正相关;
[0071] 第三分数增加子单元,用于在所述基础分数上增加所述第三分数;
[0072] 第二分数段确定子单元,用于确定第二分数段;
[0073] 长度范围组成子单元,用于以所有实体词的长度组成长度范围;
[0074] 第二相对位置确定子单元,用于确定所述实体词的长度在所述长度范围中所处的第二相对位置;
[0075] 第四分数计算子单元,用于在所述第一分数段中取处于所述第二相对位置的分数,作为第四分数,以使所述第四分数与所述第二相对位置正相关;
[0076] 第四分数增加子单元,用于在所述基础分数上增加所述第四分数。
[0077] 可选地,所述目标分数确定子模块包括:
[0078] 阈值确定单元,用于确定阈值;
[0079] 目标分数滤除单元,用于滤除分数低于所述阈值的目标分数;
[0080] 技术关键词设置单元,用于将值最高的n个目标分数所属的实体词,设置为描述产品技术的技术关键词。
[0081] 第三方面,本发明实施例还提供了一种计算机设备,所述计算机设备包括:
[0082] 一个或多个处理器;
[0083] 存储器,用于存储一个或多个程序;
[0084] 当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如第一方面中任一所述的技术关键词的识别方法。
[0085] 第四方面,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如第一方面中任一所述的技术关键词的识别方法。
[0086] 在本实施例中,接收文件,文件具有一个或多个页面,从页面中提取文本信息,根据产品技术对文本信息进行分词处理,获得词组,对词组进行语义分析,以确定实体词,识别用于描述产品技术的实体词,作为技术关键词,通过语义分析自动甄别描述产品、技术的关键词,在保证准确率的情况下,操作简便,大大降低了耗时。附图说明
[0087] 图1为本发明实施例一提供的一种技术关键词的识别方法的流程图
[0088] 图2A和图2B是本发明实施例一提供的一种文件的示例图;
[0089] 图3为本发明实施例三提供的一种技术关键词的识别装置的结构示意图;
[0090] 图4为本发明实施例四提供的一种计算机设备的结构示意图。

具体实施方式

[0091] 下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
[0092] 实施例一
[0093] 图1为本发明实施例一提供的一种技术关键词的识别方法的流程图,本实施例可适用于自动甄别描述产品、技术的关键词情况,该方法可以由技术关键词的识别装置来执行,该技术关键词的识别装置可以由软件和/或硬件实现,可配置在计算机设备中,例如,移动终端(如手机、个人电脑等)、个人电脑、服务器、工作站等,该方法具体包括如下步骤:
[0094] S101、接收文件。
[0095] 在本实施例中,可以在采购、交易展会、技术交流会议等场所,收集厂家展示其新研发的产品、技术的文件。
[0096] 该文件可以是数字类型的文件,如PDF(Portable Document Format,便携式文档格式)文件、PPT(PowerPoint,演示文稿)文件、word(一个文字处理器应用程序)文件。
[0097] 该文件也可以是纸质类型的文件,针对此文件,可以通过拍照、扫描等方式,转换为数字类型的文件,如PDF文件、图片等。
[0098] S102、从所述页面中提取文本信息。
[0099] 在具体实现中,文件具有一个或多个页面,提取页面中记载的内容,以文本信息的方式呈现。
[0100] 由于文件的类型众多,为了兼容不同类型的文件,可以对每个页面进行OCR(Optical Character Recognition,光学字符识别),从每个页面中分别提取文本信息。
[0101] 其中,OCR是指检查页面上的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程,供进一步编辑加工。
[0102] 当然,除了OCR之外,还可以采用其它方式提取文本信息,例如,针对某些类型的文件,如PDF文件、PPT文件、word文件,该文件中具有可编辑的文本信息,也可以调用该类型的文件对应的编辑应用,从该文件中的页面直接读取文本信息,等等,本实施例对此不加以限制。
[0103] 需要说明的是,为了方便处理,该文本信息可以存储至指定格式的文件中,如JSON(JavaScript Object Notation,JS对象简谱)文件。
[0104] S103、根据产品技术对所述文本信息进行分词处理,获得词组。
[0105] 在本实施例中,可以根据产品、技术的特性,对文本信息进行分词处理,分词处理的结果即为多个独立的词组。
[0106] 所谓分词,即将一个字符序列进行切分,得到一个个单独的词。
[0107] 本实施例中,可以采用如下的一种或多种方式对本文信息分词处理:
[0108] 1、基于词典匹配的分词:是指按照一定的策略将待分析的字符与一个预置的机器词典中的词条进行匹配,若在词典中找到某个字符串,则匹配成功(识别出一个词)。
[0109] 2、基于特征扫描或标志切分的分词:是指优先在待分析字符串中识别和切分出一些带有明显特征的词,以这些词作为断点,可将原字符串分为较小的串再来进机械分词,从而减少匹配的错误率;或者将分词和词类标注结合起来,利用丰富的词类信息对分词决策提供帮助,并且在标注过程中又反过来对分词结果进行检验、调整,从而提高切分的准确率。
[0110] 3、基于理解的分词:是指通过让计算机模拟人对句子的理解,达到识别词的效果。其基本思想就是在分词的同时进行句法、语义分析,利用句法信息和语义信息来处理歧义现象。它通常包括三个部分:分词子系统、句法语义子系统、总控部分。在总控部分的协调下,分词子系统可以获得有关词、句子等的句法和语义信息来对分词歧义进行判断,即它模拟了人对句子的理解过程。这种分词方法需要使用大量的语言知识和信息。
[0111] 4、基于统计的分词方法:是指,中文信息中由于字与字相邻共现的频率或概率能够较好的反映成词的可信度,所以可以对语料中相邻共现的各个字的组合的频度进行统计,计算它们的互现信息,以及计算两个汉字X、Y的相邻共现概率。互现信息可以体现汉字之间结合关系的紧密程度。当紧密程度高于某一个阈值时,便可认为此字组可能构成了一个词。
[0112] 以基于字符串匹配的分词词典为例,可不断采集描述产品、技术的关键词,并将该关键词更新至科技词典中。
[0113] 例如,针对无人驾驶这个技术,其关键词包括感知、摄像头、计算机视觉、毫米波雷达、激光雷达、V2X、驾驶数据、仿真、预建地图,等等。
[0114] 在本示例中,可确定科技词典,该科技词典用于存储描述产品技术的关键词,使用词典对所述文本信息进行分词处理,获得词组。
[0115] S104、对所述词组进行语义分析,以确定实体词。
[0116] 语义可以分为两部分,分析单个词的语义(即词义)以及单个词的含义是怎么联合起来组成句子(或者更大的单位)的含义。
[0117] 在本实施例中,可对词组进行语义分析,从而获知某些词组为实体词。
[0118] 所谓实体词,对应的一个具体的个体,例如,毫米波雷达、激光雷达等,也包含一些宽泛的代表类别的个体,例如,车、无人驾驶等。
[0119] 在具体实现中,可以确定词组的语言类型。
[0120] 若该语言类型为中文,则调用预设的汉语言处理包HanLP对词组进行依存句法分析,以确定实体词。
[0121] 若该语言类型为英文,则调用预设的自然语言处理工具包NLTK中的语言模型接口(N-Gram)对词组进行依存句法分析,以确定实体词。
[0122] S105、识别用于描述产品技术的实体词,作为技术关键词。
[0123] 在具体实现中,对于识别出的实体词,可进一步识别该实体词是否用于描述产品、技术,如果是,则确定该实体词为技术关键词。
[0124] 在本发明的一个实施例中,S105包括如下步骤:
[0125] S1051、对所述实体词进行分类,获得类别。
[0126] 在本实施例中,可预先采集实体词,并对该实体词标记类别,其中,对用于描述产品、技术的实体词标记的类别为产品技术,对并非用于描述产品、技术的实体词标记的类别为非产品技术。
[0127] 以实体词作为训练样本、该类别作为标签,训练分类器,如SVM(Support Vector Machine,支持向量机)、随机森林、CNN(Convolutional Neural Network,卷积神经网络)等。
[0128] 对于当前文件中的实体词,将该实体词输入该分类器中,输出其所属的类别。
[0129] S1052、若所述类别为产品技术,则对所述实体词生成目标分数。
[0130] 如果实体词所属的类别为非产品技术,则滤除该实体词。
[0131] 如果实体词所属的类别为产品技术,则对该实体词计算目标分数,该目标分数与描述产品技术的概率正相关,即目标分数越高,用于描述产品、技术的概率越大,反之,目标分数越低,用于描述产品、技术的概率越小。
[0132] 在具体实现中,可对每个实体词配置相同的基础分数,如0。
[0133] 基于实体词与科技词典的匹配度、与非科技词典的匹配度、在文本信息中所处的相对位置、长度对基础分数进行调整,获得目标分数。
[0134] 其中,科技词典用于存储描述产品技术的关键词。
[0135] 非科技词典用于存储描述产品技术之外的关键词,如与研发团队或销售平台相关的关键词、与发布或上市时间相关的关键词、与性能相关的关键词等。
[0136] 1、对于实体词与科技词典的匹配度:
[0137] 将实体词与科技词典中的关键词进行比较。
[0138] 若实体词与科技词典中的关键词匹配,则在所述基础分数上增加指定的第一分数,如+0.5。
[0139] 若实体词与科技词典中的关键词不匹配,则忽略。
[0140] 2、对于实体词与非科技词典的匹配度:
[0141] 将实体词与非科技词典中的关键词进行比较。
[0142] 若实体词与非科技词典中的关键词匹配,则在基础分数上减去指定的第一分数,如-1。
[0143] 若实体词与非科技词典中的关键词不匹配,则忽略。
[0144] 3、对于实体词在文本信息中所处的相对位置:
[0145] 确定第一分数段,如[0.1,0]。
[0146] 确定实体词在文本信息中所处的第一相对位置。
[0147] 在第一分数段中取处于第一相对位置的分数,作为第三分数,以使目标分数与第一相对位置正相关,在基础分数上增加所述第三分数。
[0148] 即,排序最前的实体词的第三分数为第一分数段的最大值(如0.1)、排序最后的实体词的第三分数为第一分数段的最小值(如0),其余位置的实体词的第三分数在第一分数段中均匀分配。
[0149] 4、对于实体词的长度:
[0150] 确定第二分数段,如[0.1,0]。
[0151] 以所有实体词的长度组成长度范围,即以所有实体词的长度的最大值、最小值作为长度范围的两个端点值。
[0152] 确定实体词的长度在长度范围中所处的第二相对位置。
[0153] 在第一分数段中取处于第二相对位置的分数,作为第四分数,以使第四分数与第二相对位置正相关,在基础分数上增加第四分数。
[0154] 即,长度最大的实体词的第四分数为第二分数段的最大值(如0.1)、长度最小的实体词的第四分数为第二分数段的最小值(如0),其余长度的实体词的第四分数在第二分数段中均匀分配。
[0155] 在本实施例中,基于实体词与科技词典的匹配度、与非科技词典的匹配度、在文本信息中所处的相对位置、长度对实体词的基础分数进行调整,从而计算出目标分数,基于科技关键词在不同维度的特征,计算实体词在这些维度表达为科技关键词的倾向,作为目标分数,可进一步提高科技关键词的准确度。
[0156] S1053、基于所述目标分数确定用于描述产品技术的实体词,作为技术关键词。
[0157] 由于目标分数与描述产品技术的概率正相关,因此,可选择目标分数较高的实体词,作为科技关键词。
[0158] 在本实施例中,通过对实体词进行分类、计算目标分数,在符合这两个条件下确定为科技关键词,可进一步提高科技关键词的准确度。
[0159] 需要说明的是,在同一个文件中,相同的词可能出现多次,因此,对于技术关键词,可进行去重处理,去除重复的科技关键词。
[0160] 在一种确定科技关键词的方式中,可确定阈值,滤除分数低于阈值的目标分数,对于剩余的目标分数,可将值最高的n个目标分数所属的实体词,设置为描述产品技术的技术关键词,其中,n为正整数,如15。
[0161] 当然,上述确定科技关键词的方式只是作为示例,在实施本实施例时,可以根据实际情况设置其他确定科技关键词的方式,例如,选择值最高的m(m为正整数)个目标分数所属的实体词为科技关键词,等等,本实施例对此不加以限制。另外,除了上述确定科技关键词的方式外,本领域技术人员还可以根据实际需要采用其它确定科技关键词的方式,本发明实施例对此也不加以限制。
[0162] 在本实施例中,接收文件,文件具有一个或多个页面,从页面中提取文本信息,根据产品技术对文本信息进行分词处理,获得词组,对词组进行语义分析,以确定实体词,识别用于描述产品技术的实体词,作为技术关键词,通过语义分析自动甄别描述产品、技术的关键词,在保证准确率的情况下,操作简便,大大降低了耗时。
[0163] 为使本领域技术人员更好地理解本实施例,以下通过具体的示例来说明本实施例中技术关键词的识别方法。
[0164] 接收到一个关于无人驾驶的PPT文件,该文件的部分页面如图2A和如图2B所示。
[0165] 通过OCR从文件的页面中提取文本信息,并存储至JSON文件中。
[0166] 使用科技词典对JSON文件中的文本信息进行分词处理,获得多个词组。
[0167] 由于这两个页面中的文本信息属于英文,则调用NLTK中N-Gram接口从词组中确定实体词,部分实体词如下:
[0168] HERE Connected Driving
[0169] Mandali Khalesi
[0170] Head,Asia-Pacific Connected Driving
[0171] Market,Operations
[0172] Your fastest way
[0173] 2014HERE,Company confidential
[0174] Comprehensive,Worlds biggest global footprint
[0175] 46 Countries,HERE Traffic
[0176] 81 countries,HERE Traffic Patterns
[0177] Precise,100 Map coverage,TMC,DLR
[0178] HERE,level accuracy,we,traffic
[0179] DLR fi11s-in,the gaps,TMC coverage,enough
[0180] Fresh-Data,every minute
[0181] HERE Traffic,swift,traffic updates,every 60 seconds
[0182] HERE Traffic Today
[0183] Intelligent-Advanced,technologies,analytics
[0184] new products,Predictive Traffic,drivers
[0185] 4
[0186] HERE Traffic,Global
[0187] Traffic Input Sources,The fundaments,premium products
[0188] Probe Volume
[0189] 200 growth,2014YoY
[0190] Major provider
[0191] 100GPS Probe Sources
[0192] 通过分类器CNN过滤非科技产品类型的实体词,保留科技产品类型的实体词,部分实体词如下:
[0193] HERE Connected Driving,Asia-Pacific Connected Driving,World s bigg est global footprint,DLR fills-in,TMC coverage,swift,traffic updates,Intell igent-Advanced,Predictive Traffic,navigation apps,speed camera alert apps Sat,Fleet management systems,e.g,Significantly,ETA,navigation,route optimiza tion.Holiday Appendix.Provided,CSV format.Available,HERE Map ID link format,connected applications,applications,Traffic Patterns AvailableBroadcast Traffic,Traffic TPEG,FC1-3,Taipei New Taipei Taichung Kaohsiung Taoyuan,Taiwan Covera ge,Ground Truth Testing,A typical test drive,real-world testing,Baseline Quali ty,internal analysis,Non-highway,excellent,Predictive coverage,-83 5Wide Moving Jam Arterial,robust analysis,Incident Analytics,marketing plan rolled-out Demo,traffic viewer enablement,Real time coverage,geographical cells
[0194] 通过科技词典、非科技词典、相对位置、长度对该实体词进行评分,部分实体词的目标分数如下:
[0195] HERE Connected Driving 2.6020832
[0196] Asia-Pacific Connected Driving 2.6876523
[0197] World s biggest global footprint-201.37262
[0198] DLR fills-in 0.36920732
[0199] TMC coverage-99.13689
[0200] swift 0.27680385
[0201] traffic updates 0.38528964
[0202] Intelligent-Advanced 0.45940042
[0203] Predictive Traffic 0.4074695
[0204] navigation apps 0.86699694
[0205] speed camera alert apps Sat 0.009857774
[0206] Fleet management systems 0.95792687
[0207] e.g 0.21120428
[0208] Significantly-99.68031
[0209] ETA 0.19900915
[0210] navigation 0.7731199
[0211] route optimization.Holiday Appendix.Provided-99.79756
[0212] CSV format.Available-100.10158
[0213] HERE Map ID link format 0.9037856connected applications 0.88622963[0214] applications-299.23444
[0215] Traffic Patterns AvailableBroadcast Traffic 0.61465955
[0216] Traffic TPEG 0.25335366
[0217] FC1-3-0.23295224
[0218] Taipei New Taipei Taichung Kaohsiung Taoyuan-99.846344
[0219] Taiwan Coverage-299.23056
[0220] 对实体词进行排序,去重并使用阈值进行过滤,得到如下科技关键词:
[0221] HERE Connected Driving,Ground Truth Testing,Fleet management systems,HERE Map ID link format,connected applications,navigation apps对于课件关键词,可以以JSON格式返回。
[0222] 实施例二
[0223] 图3为本发明实施例二提供的一种技术关键词的识别装置的结构示意图,该装置具体可以包括如下模块:
[0224] 文件接收模块301,用于接收文件,所述文件具有一个或多个页面;
[0225] 文本信息提取模块302,用于从所述页面中提取文本信息;
[0226] 分词处理模块303,用于根据产品技术对所述文本信息进行分词处理,获得词组;
[0227] 语义分析模块304,用于对所述词组进行语义分析,以确定实体词;
[0228] 科技关键词确定模块305,用于识别用于描述产品技术的实体词,作为技术关键词。
[0229] 在本发明的一个实施例中,所述分词处理模块303包括:
[0230] 科技词典确定子模块,用于确定科技词典,所述科技词典用于存储描述产品技术的关键词;
[0231] 词典分词子模块,用于使用所述词典对所述文本信息进行分词处理,获得词组。
[0232] 在本发明的一个实施例中,所述语义分析模块304包括:
[0233] 语言类型确定子模块,用于确定所述词组的语言类型;
[0234] 第一实体词确定子模块,用于若所述语言类型为中文,则调用预设的汉语言处理包对所述词组进行依存句法分析,以确定实体词;
[0235] 第二实体词确定子模块,用于若所述语言类型为英文,则调用预设的自然语言处理工具包中的语言模型接口对所述词组进行依存句法分析,以确定实体词。
[0236] 在本发明的一个实施例中,所述科技关键词确定模块305包括:
[0237] 分类子模块,用于对所述实体词进行分类,获得类别;
[0238] 目标分数生成子模块,用于若所述类别为产品技术,则对所述实体词生成目标分数,所述目标分数与描述产品技术的概率正相关;
[0239] 目标分数确定子模块,用于基于所述目标分数确定用于描述产品技术的实体词,作为技术关键词。
[0240] 在本发明的一个实施例中,所述目标分数生成子模块包括:
[0241] 基础分数配置单元,用于对所述实体词配置基础分数;
[0242] 基础分数调整单元,用于基于所述实体词与科技词典的匹配度、与非科技词典的匹配度、在所述文本信息中所处的相对位置、长度对所述基础分数进行调整,获得目标分数;
[0243] 其中,所述科技词典用于存储描述产品技术的关键词,所述非科技词典用于存储描述产品技术之外的关键词。
[0244] 在本发明的一个实施例中,所述基础分数调整单元包括:
[0245] 第一分数增加子单元,用于若所述实体词与科技词典中的关键词匹配,则在所述基础分数上增加指定的第一分数;
[0246] 第二分数减去子单元,用于若所述实体词与非科技词典中的关键词匹配,则在所述基础分数上减去指定的第一分数;
[0247] 第一分数段确定子单元,用于确定第一分数段;
[0248] 第一相对位置确定子单元,用于确定所述实体词在所述文本信息中所处的第一相对位置;
[0249] 第三分数计算子单元,用于在所述第一分数段中取处于所述第一相对位置的分数,作为第三分数,以使所述目标分数与所述第一相对位置正相关;
[0250] 第三分数增加子单元,用于在所述基础分数上增加所述第三分数;
[0251] 第二分数段确定子单元,用于确定第二分数段;
[0252] 长度范围组成子单元,用于以所有实体词的长度组成长度范围;
[0253] 第二相对位置确定子单元,用于确定所述实体词的长度在所述长度范围中所处的第二相对位置;
[0254] 第四分数计算子单元,用于在所述第一分数段中取处于所述第二相对位置的分数,作为第四分数,以使所述第四分数与所述第二相对位置正相关;
[0255] 第四分数增加子单元,用于在所述基础分数上增加所述第四分数。
[0256] 在本发明的一个实施例中,所述目标分数确定子模块包括:
[0257] 阈值确定单元,用于确定阈值;
[0258] 目标分数滤除单元,用于滤除分数低于所述阈值的目标分数;
[0259] 技术关键词设置单元,用于将值最高的n个目标分数所属的实体词,设置为描述产品技术的技术关键词。
[0260] 本发明实施例所提供的技术关键词的识别装置可执行本发明任意实施例所提供的技术关键词的识别方法,具备执行方法相应的功能模块和有益效果。
[0261] 实施例三
[0262] 图4为本发明实施例三提供的一种计算机设备的结构示意图。如图4所示,该计算机设备包括处理器400、存储器401、通信模块402、输入装置403和输出装置404;计算机设备中处理器400的数量可以是一个或多个,图4中以一个处理器400为例;计算机设备中的处理器400、存储器401、通信模块402、输入装置403和输出装置404可以通过总线或其他方式连接,图4中以通过总线连接为例。
[0263] 存储器401作为一种计算机可读存储介质,可用于存储软件程序、计算机可执行程序以及模块,如本实施例中的技术关键词的识别方法对应的模块(例如,如图3所示的技术关键词的识别装置中的文件接收模块301、文本信息提取模块302、分词处理模块303、语义分析模块304和科技关键词确定模块305)。处理器400通过运行存储在存储器401中的软件程序、指令以及模块,从而执行计算机设备的各种功能应用以及数据处理,即实现上述的技术关键词的识别方法。
[0264] 存储器401可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序;存储数据区可存储根据计算机设备的使用所创建的数据等。此外,存储器401可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中,存储器401可进一步包括相对于处理器400远程设置的存储器,这些远程存储器可以通过网络连接至计算机设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
[0265] 通信模块402,用于与显示屏建立连接,并实现与显示屏的数据交互。输入装置403可用于接收输入的数字或字符信息,以及产生与计算机设备的用户设置以及功能控制有关的键信号输入。
[0266] 本实施例提供的计算机设备,可执行本发明任一实施例提供的技术关键词的识别方法,具体相应的功能和有益效果。
[0267] 实施例四
[0268] 本发明实施例四还提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现一种技术关键词的识别方法,该方法包括:
[0269] 接收文件,所述文件具有一个或多个页面;
[0270] 从所述页面中提取文本信息;
[0271] 根据产品技术对所述文本信息进行分词处理,获得词组;
[0272] 对所述词组进行语义分析,以确定实体词;
[0273] 识别用于描述产品技术的实体词,作为技术关键词。
[0274] 当然,本发明实施例所提供的计算机可读存储介质,其计算机程序不限于如上所述的方法操作,还可以执行本发明任意实施例所提供的技术关键词的识别方法中的相关操作。
[0275] 通过以上关于实施方式的描述,所属领域的技术人员可以清楚地了解到,本发明可借助软件及必需的通用硬件来实现,当然也可以通过硬件实现,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如计算机的软盘只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、闪存(FLASH)、硬盘或光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
[0276] 值得注意的是,上述技术关键词的识别装置的实施例中,所包括的各个单元和模块只是按照功能逻辑进行划分的,但并不局限于上述的划分,只要能够实现相应的功能即可;另外,各功能单元的具体名称也只是为了便于相互区分,并不用于限制本发明的保护范围。
[0277] 注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈