首页 / 专利库 / 人工智能 / 词性标注 / 专业词抽取和词性标注方法

专业词抽取词性标注方法

阅读:928发布:2020-05-18

专利汇可以提供专业词抽取词性标注方法专利检索,专利查询,专利分析的服务。并且本 发明 公开了一种专业词 抽取 和 词性标注 方法,其包括如下步骤:S1:建立关键词标签 数据库 、保存关键词与行业特征词的对应关系;S2:从查询指令中提取关键词;S3:基于S1所得关键词标签数据库、匹 配对 应于S2所得关键词的行业特征词;S4:基于S3所得行业特征词对视频文件进行筛选;S5:对筛选所得视频文件中的行业特征词进行标注。本发明能够从视频文件中提取行业特征词,并获取与关键词对应的通用行业特征词所关联的文本信息。大幅提升检索的精确性、减少工作量,提升工作效率。,下面是专业词抽取词性标注方法专利的具体信息内容。

1.一种专业词抽取词性标注方法,其特征在于,包括如下步骤:
S1:建立关键词标签数据库、保存关键词与行业特征词的对应关系;
S2:从查询指令中提取关键词;
S3:基于S1所得关键词标签数据库、匹配对应于S2所得关键词的行业特征词;
S4:基于S3所得行业特征词对视频文件进行筛选;
S5:对筛选所得视频文件中的行业特征词进行标注显示。
2.如权利要求1所述专业词抽取和词性标注方法,其特征在于还包括步骤S6,所述步骤S6包括:对S4所得视频文件上添加检索标签、并依据时间顺序进行排序。
3.如权利要求1所述专业词抽取和词性标注方法,其特征在于:所述步骤S1包括如下步骤:
S11:根据行业安全规程和操作手册,收集行业特征词;
S12:将行业特征词输入关键词标签数据库中并进行统一格式化;
S13:对各个行业特征词打上对应的关键词标签;
S14:基于行业特征词的出现频率、对各个行业特征词打上对应的权重值标签,并将各行业特征词依据其权重值标签进行排序。
4.如权利要求1所述专业词抽取和词性标注方法,其特征在于,所述步骤S4包括如下步骤:
S41:截取视频文件中的音轨文件;
S42:将S21所得音轨文件转化为文本描述文件;
S43:对所述文本描述文件进行分词处理、将该文本描述文件拆分为若干个分词;
S44:将所述分词中包含行业特征词的文本描述文件对应的视频文件筛选出来。
5.如权利要求1所述专业词抽取和词性标注方法,其特征在于:步骤S43所述分词处理基于分布式爬虫平台实现。
6.如权利要求1所述专业词抽取和词性标注方法,其特征在于,步骤S5所述标注显示采用调色显示和/或调亮显示。

说明书全文

专业词抽取词性标注方法

技术领域

[0001] 本发明属于语音识别技术领域,具体来说涉及一种对视频文件的专业词抽取和词性 标注方法。

背景技术

[0002] AR技术,也称增强显示技术,是一种将原本在现实空间范围中比较难以进行体验的实 体信息在电脑等科学技术的基础上,实施模拟仿真处理,通过将虚拟信息内容叠加在真实 世界中并使得这一过程被人类感官感知,从而实现超现实感官体验的新技术。近年来,AR 技术被广泛应用于工业、影视、医疗、教育等领域。现有AR技术在进行专业词的抽取过程 中,主要通过计算相邻词之间的耦合度得到领域术语,但这种方法需要对语料中所有的词 计算耦合度,且准确度较低;而如果采用手工标注所有专业术语的方式,又存在工作量大、 效率低的问题。因此,如何在AR领域开发出一种新的专业词抽取和词性标注方法,以克服 上述问题,提升抽取的准确率,提升工作效率,降低工作量,是本领域技术人员需要研究 的方向。

发明内容

[0003] 本发明的目的是提供一种专业词抽取和词性标注方法,能够提升对关键词相关视频文 件的抽取准确率,降低抽取工作量,提升抽取效率。
[0004] 其采用的技术方案如上:
[0005] 一种专业词抽取和词性标注方法,其包括如下步骤:S1:建立关键词标签数据库、保 存关键词与行业特征词的对应关系;S2:从查询指令中提取关键词;S3:基于S1所得关键 词标签数据库、匹配对应于S2所得关键词的行业特征词;S4:基于S3所得行业特征词对视 频文件进行筛选;S5:对筛选所得视频文件中的行业特征词进行标注。
[0006] 采用这种技术方案:通过预先设置于行业特征词一一对应匹配的关键词标签数据库, 以查询指令中的关键词匹配出其对应的行业特征词,并根据本次查询的行业特征词对各个 视频文件进行自动化筛选,并对筛选结果中的行业特征词进行对应批注,从而降低了抽取 工作量,提升了抽取效率。
[0007] 优选的是,上述专业词抽取和词性标注方法中,还包括步骤S6,所述步骤S6包括:对 S4所得视频文件上添加检索标签、并依据时间顺序进行排序。
[0008] 采用这种技术方案:通过基于行业特征词出现时间对视频文件的排序,提升了对视频 文件筛选的准确性,确保了用户能够依据时序优先查找到相关性更大的视频文件。
[0009] 更优选的是,上述专业词抽取和词性标注方法中:所述步骤S1包括如下步骤:S11: 根据行业安全规程和操作手册,收集行业特征词;S12:将行业特征词输入关键词标签数 据库中并进行统一格式化;S13:对各个行业特征词打上对应的关键词标签;S14:基于行 业特征词的出现频率、对各个行业特征词打上对应的权重值标签,并将各行业特征词依据 其权重值标签进行排序。
[0010] 采用这种技术方案:基于通用行业各个企业的安全规程与设备厂家的操作手册等构建 通用行业特征词的词表,此方法特征提取灵活,准确率较高。通过基于行业特征词的频率 统计对各词赋予权重值并排序,进一步提升了检索的准确性。
[0011] 进一步优选的是,上述专业词抽取和词性标注方法中,所述步骤S4包括如下步骤:S41: 截取视频文件中的音轨文件;S42:将S21所得音轨文件转化为文本描述文件;S43:对所 述文本描述文件进行分词处理、将该文本描述文件拆分为若干个分词;S44:将所述分词 中包含行业特征词的文本描述文件对应的视频文件筛选出来。
[0012] 更进一步优选的是,上述专业词抽取和词性标注方法中:步骤S43所述分词处理基于 分布式爬虫平台实现。
[0013] 更进一步优选的是,上述专业词抽取和词性标注方法中,步骤S5中对筛选所得视频文 件中的行业特征词进行调色显示和调亮显示。所述标注显示采用调色显示和/或调亮显示。
[0014] 与现有技术相比,本发明能够从视频文件中提取行业特征词,并获取与关键词对应的 通用行业特征词所关联的文本信息。大幅提升检索的精确性、减少工作量,提升工作效率。附图说明
[0015] 上面结合附图与具体实施方式对本发明作进一步详细的说明:
[0016] 图1为本发明的实施例1的流程示意图。

具体实施方式

[0017] 为了更清楚地说明本发明的技术方案,上面将结合各个实施例作进一步描述。
[0018] 如图1所示为本发明的实施例1:
[0019] 一种专业词抽取和词性标注方法,其包括如下步骤:
[0020] S11:根据行业安全规程和操作手册,收集行业特征词;
[0021] S12:将行业特征词输入关键词标签数据库中并进行统一格式化;
[0022] S13:对各个行业特征词打上对应的关键词标签;
[0023] S14:基于行业特征词的出现频率、对各个行业特征词打上对应的权重值标签,并将 各行业特征词依据其权重值标签进行排序;
[0024] S2:从查询指令中提取关键词;
[0025] S3:基于S1所得关键词标签数据库、匹配对应于S2所得关键词的行业特征词;
[0026] S41:截取视频文件中的音轨文件;
[0027] S42:将S21所得音轨文件转化为文本描述文件;
[0028] S43:对所述文本描述文件进行分词处理、将该文本描述文件拆分为若干个分词;
[0029] S44:将所述分词中包含行业特征词的文本描述文件对应的视频文件筛选出来;
[0030] S5:对筛选所得视频文件中的行业特征词进行调色显示和调亮显示。
[0031] S6:对S4所得视频文件上添加检索标签、并依据时间顺序进行排序。
[0032] 上述实施例中:步骤S43所述分词处理基于分布式爬虫平台实现。
[0033] 在上述技术方案中:可将筛选出的视频片段的文本描述与自然语言表达的场景的文本 表述进行相似度的选择和比对,输出内容上符合自然语言表达的场景的输入文本的关键 集合;在关键帧集合中进行识别和提取对象,生成对象集;依照场景图和对象集最终生成 关键帧,生成视频。利用基于自然语言处理的视频检索方法,比关键词相比极大地减少描 述的模糊度,从而使系统能够更加的高效进行过滤,找到匹配的视频。同时,通过从行业 公司所用的集控规程、检修规程、用户操作手册、产品说明书中提取文本的标题、正文等 十数种重要字段的抽取,以及特殊类型网页的定制化抽取服务。抽取后台完成网页内容的 归一化、结构化处理工作,用户只需要调用抽取API即可高效完成从指定页面获得丰富的 结构化信息。此方法特征提取灵活,准确率高;本方案不需要人工验证准确性,加快了信 息提取速度。
[0034] 以上所述,仅为本发明的具体实施例,但本发明的保护范围并不局限于此,任何熟悉 本领域技术的技术人员在本发明公开的技术范围内,可轻易想到的变化或替换,都应涵盖 在本发明的保护范围之内。本发明的保护范围以权利要求书的保护范围为准。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈