首页 / 专利库 / 专利权 / 检索本 / 一种对电子文件进行语义检索的方法和系统

一种对电子文件进行语义检索的方法和系统

阅读:1032发布:2020-08-14

专利汇可以提供一种对电子文件进行语义检索的方法和系统专利检索,专利查询,专利分析的服务。并且本 发明 涉及一种对 电子 文件进行语义检索的方法和系统,针对具有语义描述的电子书进行语义检索,返回的结果也是图书的一部分。特别是对图书的图片、音视频、动画、小程序等的检索具有明显优势,因为这些内容通过目前传统的方式是检索不到的。这对图书检索技术是一个很大的进步。,下面是一种对电子文件进行语义检索的方法和系统专利的具体信息内容。

1.一种对电子文件进行语义检索的方法,其特征在于该方法包括如下步骤:
步骤(1)在数据库中以结构文件形式建立一个相近词的字典;
步骤(2)确认待处理的电子文件是否包含语义描述内容;
步骤(3)接受用户查询条件,然后对该条件进行中文分词,获得若干词汇;
步骤(4)词汇匹配,依据中文分词后的词汇,然后再读取一个或多个电子文件的每一个语义描述中的项目名与语义内容,把这些内容与上一步获得的中文分词词汇进行比较,如果是相同或者相近,则返回该项目名称及对应的语义内容;
步骤(5)向外部显示所有的返回的项目名称及对应的语义内容,供用户选择其中的一部分;
步骤(6)根据用户的选择,显示该项目名称与语义内容所对应的图片、视频、文字内容。
2.根据权利要求1所述的方法,其特征在于:所述步骤(1)进一步包括:在数据库中建立一张表,表中至少有两个字段,一是用于存储词条,另一个用于存储相近词义的ID号,如果两个词条拥有相同的词义ID号,即理解为相近词。
3.根据权利要求1或2所述的方法,其特征在于:所述步骤(3)进一步包括:把查询条件视为以字为元素的数组;以第一个元素为起点,取出所有连续组合;以第二个元素为起点,取出所有连续组合;以此类推,取出最后一个元素的组合;建立一个字典,该字典中按常用、不常用的分级方式存储词组;在常用词字典中找出上述取出的组合;如果没有常用词,再在不常用词典中查找,如果有则记为分词词汇。
4.根据权利要求3所述的方法,其特征在于:所述步骤(4)进一步包括:
先把分出的词汇与项目名称对应,找出所有相同或相近的,返回项目名称及对应的语义内容,然后再与语义内容比较,如果语义内容中包含了分出的词汇,则返回项目名称及对应的语义内容。
5.一种对电子文件进行语义检索的系统,其特征在于该系统包括:
数据库,在该数据库中以结构文件形式存储有一个相近词的字典;
确认模块,用于确认待处理的电子文件是否包含语义描述内容;
中文分词模块,用于在接受用户查询条件后对该条件进行中文分词,获得若干词汇;
词汇匹配模块,依据中文分词后的词汇,然后再读取一个或多个电子文件的每一个语义描述中的项目名与语义内容,把这些内容与上一步获得的中文分词词汇进行比较,如果是相同或者相近,则返回该项目名称及对应的语义内容;
语义描述显示模块,向外部显示所有的返回的项目名称及对应的语义内容,供用户选择其中的一部分;
内容显示模块,根据用户的选择,显示该项目名称与语义内容所对应的图片、视频、文字块内容。
6.根据权利要求5所述的系统,其特征在于:在数据库中建立一张表,表中至少有两个字段,一是用于存储词条,另一个用于存储相近词义的ID号,如果两个词条拥有相同的词义ID号,即理解为相近词。
7.根据权利要求5或6所述的系统,其特征在于:所述中文分词模块把查询条件视为以字为元素的数组;以第一个元素为起点,取出所有连续组合;以第二个元素为起点,取出所有连续组合;以此类推,取出最后一个元素的组合;建立一个字典,该字典中按常用、不常用的分级方式存储词组;在常用词字典中找出上述取出的组合;如果没有常用词,再在不常用词典中查找,如果有则记为分词词汇。
8.根据权利要求7所述的系统,其特征在于:词汇匹配模块先把分出的词汇与项目名称对应,找出所有相同或相近的,返回项目名称及对应的语义内容,然后再与语义内容比较,如果语义内容中包含了分出的词汇,则返回项目名称及对应的语义内容。

说明书全文

一种对电子文件进行语义检索的方法和系统

技术领域

[0001] 本发明涉及数字图书领域,尤其是涉及一种对电子图书中的电子文件进行语义检索的方法和系统。

背景技术

[0002] 数字出版的核心竞争是对数字内容的快速检索与方便查阅,而快速检索与方便查阅的核心是语义检索,目前基于电子书的语义检索在国内还是空白。
[0003] 目前各大图书馆的电子版图书的检索方法有三种,一是按传统的各种分类方法进行检索,二是按传统的CPI数据查找,三是按关键字检索(这种方法在图书的检索中非常少),所有方法的检索结果是一本完整的图书。目前大部分电子书是没有语义内容的,但是从2011年开始,随着EPUB3.0的发展,逐渐会产生了一些具有语义的电子书。而本发明正是基于这一变化,可以实现通过语义来检索,返回的结果也是图书的一部分。特别是对图书的图片、音视频、动画、小程序等的检索具有明显优势,因为这些内容通过目前传统的方式是检索不到的。这对图书检索技术是一个很大的进步。

发明内容

[0004] 鉴于现有技术中存在的问题,本发明的目的在于提供一种对电子文件进行语义检索的方法,该方法包括如下步骤:步骤(1)在数据库中以结构文件形式建立一个相近词的字典;步骤(2)确认待处理的电子文件是否包含语义描述内容;步骤(3)接受用户查询条件,然后对该条件进行中文分词,获得若干词汇;步骤(4)词汇匹配,依据中文分词后的词汇,然后再读取一个或多个电子文件的每一个语义描述中的项目名与语义内容,把这些内容与上一步获得的中文分词词汇进行比较,如果是相同或者相近,则返回该项目名称及对应的语义内容;步骤(5)向外部显示所有的返回的项目名称及对应的语义内容,供用户选择其中的一部分;步骤(6)根据用户的选择,显示该项目名称与语义内容所对应的图片、视频、文字内容。
[0005] 进一步,本发明方法中的步骤(1)进一步包括:在数据库中建立一张表,表中至少有两个字段,一是用于存储词条,另一个用于存储相近词义的I D号,如果两个词条拥有相同的词义ID号,即理解为相近词。
[0006] 进一步,本发明方法中的步骤(3)进一步包括:把查询条件视为以字为元素的数组;以第一个元素为起点,取出所有连续组合;以第二个元素为起点,取出所有连续组合;以此类推,取出最后一个元素的组合;建立一个字典,该字典中按常用、不常用的分级方式存储词组;在常用词字典中找出上述取出的组合;如果没有常用词,再在不常用词典中查找,如果有则记为分词词汇。
[0007] 进一步,本发明方法中的步骤(4)进一步包括:
[0008] 先把分出的词汇与项目名称对应,找出所有相同或相近的,返回项目名称及对应的语义内容,然后再与语义内容比较,如果语义内容中包含了分出的词汇,则返回项目名称及对应的语义内容。
[0009] 此外,本发明还提供了一种对电子文件进行语义检索的系统,该系统包括:数据库,在该数据库中以结构文件形式存储有一个相近词的字典;确认模块,用于确认待处理的电子文件是否包含语义描述内容;中文分词模块,用于在接受用户查询条件后对该条件进行中文分词,获得若干词汇;词汇匹配模块,依据中文分词后的词汇,然后再读取一个或多个电子文件的每一个语义描述中的项目名与语义内容,把这些内容与上一步获得的中文分词词汇进行比较,如果是相同或者相近,则返回该项目名称及对应的语义内容;语义描述显示模块,向外部显示所有的返回的项目名称及对应的语义内容,供用户选择其中的一部分;内容显示模块,根据用户的选择,显示该项目名称与语义内容所对应的图片、视频、文字块内容。
[0010] 进一步,在数据库中建立一张表,表中至少有两个字段,一是用于存储词条,另一个用于存储相近词义的ID号,如果两个词条拥有相同的词义ID号,即理解为相近词。
[0011] 进一步,本发明系统中的中文分词模块把查询条件视为以字为元素的数组;以第一个元素为起点,取出所有连续组合;以第二个元素为起点,取出所有连续组合;以此类推,取出最后一个元素的组合;建立一个字典,该字典中按常用、不常用的分级方式存储词组;在常用词字典中找出上述取出的组合;如果没有常用词,再在不常用词典中查找,如果有则记为分词词汇。
[0012] 进一步,本发明系统中的词汇匹配模块先把分出的词汇与项目名称对应,找出所有相同或相近的,返回项目名称及对应的语义内容,然后再与语义内容比较,如果语义内容中包含了分出的词汇,则返回项目名称及对应的语义内容。
[0013] 本发明所述的具有以下优点:可以对具有语义描述的电子书进行检索,返回的结果也可以是图书的一部分。特别是对图书的图片、音视频、动画、小程序等的检索具有明显优势。附图说明
[0014] 图1是本发明所述的方法的处理流程图

具体实施方式

[0015] 为使本发明的上述目的、特征和优点更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明:
[0016] 图1是本发明所述方法的处理流程图,如图1所示,本发明包括如下几个步骤:
[0017] 步骤(1)建立一个相近词的字典,通过各种数据库或结构文件的方式均可以实现。具体实现方式如下:在数据库中建立一张表,表中至少有两个字段,一是用于存储词条,另一个用于存储相近词义的ID号,两个词条拥有相同的词义ID号,即理解为相近词。
[0018] 步骤(2)确认待处理的电子文件是否包含语义描述内容。本方法与系统要处理的电子文件(如,EPUB、XML等)中必须包含了图片元素、音视频元素、文字块元素的语义描述,描述的方法采取“项目名称=语义内容”的方式,如文字块元素中:作者=乔布斯。语义描述一般存储在电子文件中的XML元素中的属性中,即,文字块元素、图片元素、音视频元素,三大类元素的属性中。
[0019] 每一类元素的属性是以属性名+属性值的结构方式存在的,一般来说,并不是所有元素都有语义方面的属性,重要的元素,以及并不容易被计算机识别语义的元素会有语义属性。
[0020] 以插图的语义属性为例:语义描述包括:“插图作者=某某”、“插图描绘内容=某件事”、“插图应用领域=某领域”。音视频元素以及文字块元素同样如此。
[0021] 步骤(3)接受用户查询条件,然后对该条件进行中文分词,获得若干词汇,例如查询条件为“作者是谁”;分词后的若干词汇为“作者”、“谁”。本发明的分词方法:
[0022] 1把查询条件视为以字为元素的数组{作,者,是,谁}
[0023] 2以第一个元素为起点,取出所有连续组合:作者,作者是,作者是谁。
[0024] 3以第二个元素为起点,取出所有连续组合:者是,者是谁。
[0025] 4以此类推,取出最后一个元素的组合:谁。
[0026] 5建立一个字典,该字典中按常用、不常用的分级方式存储词组。
[0027] 6在上述“作者,作者是,作者是谁,者是,者是谁,谁”中,在常用词字典中找出常用词:作者、谁。
[0028] 7如果没有常用词,再在不常用词典中查找,如果有,则记为分词词汇。
[0029] 步骤(4)词汇匹配,依据中文分词后的词汇,然后再读取一个或多个电子文件的每一个语义描述中的项目名(或称属性名)与语义内容,把这些内容与上一步获得的中文分词词汇进行比较,如果是相同或者相近,则返回该项目名称及对应的语义内容。
[0030] 在具体比较匹配过程中,先把分出的词汇与项目名称(或称属性名)对应,找出所有相同或相近的,返回项目名称及对应的语义内容。然后再与属性值(或称语义内容)比较,如果语义内容中包含了分出的词汇,则返回项目名称及对应的语义内容。
[0031] 步骤(5)然后向外部显示所有的返回的项目名称及对应的语义内容,供用户选择其中的一部分;根据用户的选择,显示该项目名称与语义内容所对应的图片、视频、文字块等内容。
[0032] 以上是对本发明的优选实施例进行的详细描述,但本领域的普通技术人员应该意识到,在本发明的范围内和精神指导下,各种改进、添加和替换都是可能的。这些都在本发明的权利要求所限定的保护范围内。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈