首页 / 专利库 / 人工智能 / 相似性得分 / 电子文档的处理、浏览以及信息提取的方法、装置及系统

电子文档的处理、浏览以及信息提取的方法、装置及系统

阅读:1026发布:2021-04-06

专利汇可以提供电子文档的处理、浏览以及信息提取的方法、装置及系统专利检索,专利查询,专利分析的服务。并且本 发明 公开了一种 电子 文档的处理方法及装置、一种电子文档的浏览方法及相应的浏览器,一种电子文档的信息提取方法及相应的信息提取系统。所述的电子文档的处理方法包括:在作者写作电子文档时,从所述电子文档中提取一个或多个文档所涉及领域的信息;以及与所述电子文档对应地保存所述信息。其中,利用一种或多种信息提取模式从所述文档中提取关于不同领域的信息。并且所提取的信息是经过作者核实了的信息,以确保其正确性、可靠性和可读性。,下面是电子文档的处理、浏览以及信息提取的方法、装置及系统专利的具体信息内容。

1、一种电子文档的处理方法,其特征在于,包括步骤:
在作者写作电子文档时,从所述电子文档中提取一个或多个文 档内容所涉及领域的信息;以及
与所述电子文档对应地保存所述提取信息。
2、根据权利要求1所述的电子文档的处理方法,其特征在于, 所述的从所述电子文档中提取一个或多个文档内容所涉及领域的信息 的步骤,还包括步骤:
i)从多种信息提取模式中为所述电子文档选择一种信息提取模 式;
ii)根据所选取的信息提取模式,从所述电子文档中提取出包含 文档内容所涉及领域的多个信息。
3、根据权利要求2所述的电子文档的处理方法,其特征在于, 所述从多种信息提取模式中为所述电子文档选择一种信息提取模式的 步骤,包括:
提供与所选取的信息提取模式对应的一些有代表性的、典型提 取信息作为参考信息;
计算所述电子文档中的语句与给出的参考信息之间的相似性;
根据计算出来的相似性值的得分高低,对相应的信息提取模式 进行排序;以及
选择权值较高的信息提取模式,将其选择为用于所述电子文档 的信息提取模式。
4、根据权利要求2所述的电子文档的处理方法,其特征在于, 还包括:
根据每种信息提取模式所属的领域或级别,对所提供的多种信 息提取模式进行结构化分层处理的步骤。
5、根据权利要求2所述的电子文档的处理方法,其特征在于, 还包括:
对从所述文档中提取的信息进行核实的步骤,其中所述核实包 括:查看、修改所提取的信息。
6、根据权利要求5所述的电子文档的处理方法,其特征在于, 所述对从所述文档中提取的信息进行核实的步骤,进一步包括:
提供参考信息,其中所述的参考信息是与所选择的信息提取模 式对应的典型提取信息;
计算所述提取信息与参考信息之间的相似性;以及
根据相似性的结果,来核实所述提取信息。
7、根据权利要求1所述的电子文档的处理方法,其特征在于, 所述与所述电子文档对应地保存所述提取信息的步骤,包括:
将所述提取信息作为知识标记保存在所述电子文档中。
8、根据权利要求1所述的电子文档的处理方法,其特征在于, 所述与所述电子文档对应地保存所述提取信息的步骤,包括:
将所述提取信息保存为与所述电子文档相关联的知识标记文 件。
9、一种电子文档的处理装置,其特征在于,包括:
电子文档编辑单元,用于编辑电子文档;
信息提取模式选择单元,用于从多种信息提取模式中为所述电 子文档选择一种信息提取模式;
信息提取单元,用于根据所选择的信息提取模式,从所述电子 文档中提取出包含文档内容所涉及领域的多个信息的列表;
提取信息生成单元,用于从所述的提取信息的列表中选择与所 述电子文档最相关的信息;以及
提取信息保存单元,用于与电子文档对应地保存由提取信息生 成单元生成的信息。
10、根据权利要求9所述的电子文档的处理装置,其特征在 于,还包括:
提取信息核实单元,用于对所生成的提取信息进行评价、修改 以保证所生成的提取信息的正确性、可读性和有用性。
11、根据权利要求10所述的电子文档的处理装置,其特征在 于,所述的信息核实单元进一步包括:
参考信息呈现单元,用于呈现对应每种信息提取模式的一个或 多个典型提取信息的参考信息;
信息相似性计算单元,用于计算所提取的信息与每种信息提取 模式中的参考信息之间的相似性值;以及
信息确定单元,用于根据相似性值的排序,选择具有高相似性 值的信息。
12、根据权利要求9所述的电子文档的处理装置,其特征在 于,所述的信息提取模式选择单元进一步包括:
参考信息呈现单元,用于呈现对应每种信息提取模式的一个或 多个典型提取信息的参考信息;
信息相似性计算单元,用于计算所编辑文档中的语句与每种信 息提取模式中的参考信息之间的相似性值;以及
信息提取模式确定单元,用于根据相似性值的排序,将具有高 相似性值的信息提取模式确定为用于所述文档的信息提取模式。
13、根据权利要求9所述的电子文档的处理装置,其特征在 于,所述的信息提取模式选择单元进一步包括:
信息提取模式排列单元,用于根据每种信息提取模式所属的领 域或级别,将信息提取模式排列为分层结构。
14、一种浏览电子文档的方法,其特征在于,包括步骤:
读取有关从所述文档中提取出的文档内容所涉及不同领域的信 息;
将读取出的、从所述文档中提取出的信息呈现给用户;以及
将所述提取信息所涉及的文档内容呈现给所述用户。
15、一种电子文档浏览器,其特征在于,包括:
电子文档浏览单元,用于浏览电子文档的内容;
提取信息读取单元,用于读取与所述文档对应地保存的有关从 所述文档中提取出的涉及不同领域的信息;以及
提取信息呈现单元,用于将由提取信息读取单元读取的提取信 息呈现给用户。
16、一种电子文档的信息提取方法,其特征在于,包括步骤:
获取与相应电子文档对应保存的从所述文档中提取出的信息;
将所获取的从所述文档中提取出的信息保存在一个提取信息存 储数据库中;
根据用户的查询,找出与用户输入的查询对应的提取信息的列 表;以及
将与用户输入的查询相同或最接近的提取信息呈现给所述用 户。
17、根据权利要求16所述的电子文档的信息提取方法,其特征 在于,还包括:
计算用户输入的查询与提取信息列表中的各个提取信息的相关 程度,以及
将上述相关程度最高的一个或者相关程度大于一个预定阈值的 提取信息选择出来。
18、根据权利要求16所述的电子文档的信息提取方法,其特征 在于,还包括:
将与用户选择的提取信息对应的电子文档或者与所述电子文档 的链接提供给所述用户的步骤。
19、一种电子文档的信息提取系统,其特征在于,包括:
提取信息获取装置,用于获取与相应电子文档对应保存的、从 所述电子文档中提取出的信息;
提取信息存储数据库,用于保存由所述提取信息获取装置所获 取的提取信息;
提取信息查找装置,用于根据用户的查询,从所述提取信息存 储数据库中找出与用户输入的查询相同或最接近的一个或多个提取信 息;以及提取信息呈现装置,用于将由提取信息查找装置找出的一个或 多个提取信息呈现给用户。
20、根据权利要求18所述的电子文档的信息提取系统,其特征 在于,还包括:
相关度计算装置,用于计算用户输入的查询与提取信息列表中 的各个提取信息的相关程度,以及
所述提取信息查找装置根据相关度计算装置的计算结果,将上 述相关程度最高的一个或者相关程度大于一个预定阈值的提取信息选 择出来。
21、根据权利要求18所述的电子文档的信息提取系统,其特征 在于,还包括:
电子文档提供装置,用于将所述用户选择的提取信息所对应的 电子文档或者与所述电子文档的链接提供给所述用户。

说明书全文

技术领域

发明一般涉及数据处理技术,特别地,本发明涉及一种电子 文档的处理方法及装置、一种电子文档的浏览方法及相应的浏览器、 以及一种电子文档的信息提取方法以及相应的信息提取系统。

背景技术

随着计算机技术的普及以及互连网的迅猛发展,大量的信息以 电子文档的形式出现在人们面前。为了应对信息爆炸带来的严重挑 战,迫切需要一些自动化的工具来帮助人们在海量信息源中迅速找到 真正的信息。信息提取(Information Extraction:IE)研究正是在 这种背景下产生的。
信息提取是一种从以自然语言编写的文档中提取所规定的一组 相关信息(事件、事实等)的简单文本处理形式,目标是把文本里包 含的信息进行结构化处理,变成表格一样的组织形式。信息提取系统 的主要功能是从文本中提取出特定的事实信息。典型地,以信息提取 系统为例,信息提取过程通常包括:1)识别;2)提取位于非结构化 文本数据中的特定信息;以及3)生成用作所请求内容的输出。这例 如可以参考以下文献,该文献在此引述作为参考,N.Catala,N. Castell,M.Martin.ESSENCE:a Portable Methodology for Acquiring Information Extraction Patterns.Proceedings of 14th European Conference on Artificial Intelligence(ECAI-2000),411-415.Berlin, 2000。被提取出来的信息以结构化的形式描述,可以直接存入数据库 中,供用户查询以及进一步分析利用。
有两种主要的方法来设计信息提取系统,一种是知识工程方法 (Knowledge Engineering Approach),另一种是机器学习方法。这 例如可以参考以下文献,Appelt,D.E.and Israel,D.J.Introduction to Information Extraction Technology.In Proceedings of the 16th International Joint Conference on Artificial Intelligence,1999该文献 在此引述作为参考。
知识工程方法主要靠手工编制规则来使系统处理特定知识领域 的信息提取问题。这种方法要求编制规则的知识工程师对该知识领域 有深入的了解。显然,知识工程师的技能在系统要实现的性能上起了 很大的作用。除了特定信息提取系统的需求技巧和详细知识以外,知 识工程方法通常还需要许多额外的工作来改善该方法的性能。例如, 构造高性能的信息提取系统通常是定制一组提取规则的重复的过程。 在定制了信息提取系统的若干规则之后,可以在已经标注好的测试样 本集运行该系统,并对输出的提取结果进行检查和比较,以检测所制 定的规则是否完备。知识工程师然后根据比较结果对规则进行适当修 改。重复上述过程直至获得一个完备的规则集。这是一个费时费且 需要较高智力平的工作。
机器学习方法不一定需要如此专业的知识工程师,即不需要具 备有关信息提取系统如何工作、如何书写信息提取系统规则的详细知 识。该方法需要用户提供大量的具有代表性的学习样本。系统主要通 过学习已经标注好的学习样本提取规则。对该知识领域比较熟悉的人 都可以根据预先约定的规范标注学习样本,构造相应的语料库。这 样,经过训练后的系统就能处理没有见过的新文本。依照这种方法, 不需要让使用者手头具备详细的关于如何使信息提取系统工作的知 识,或者如何书写用于信息提取系统的规则。而仅需要使知晓该技术 领域和任务的使用者获得适量被标注了提取信息的样本集。通常,标 注常集中在一个系统处理的特定方面。例如,通过使用领域相关的正 确名字标注样本集,来训练名字识别器。一旦一个适当的训练样本集 已经被标注好,就可以在该样本集运行学习算法,以获得有用的信息 识别模式知识。
尽管已经提出了很多方法用于从非结构化的文本中来提取信 息,但由于现有的学习和训练算法的局限性,这些方法都不能产生满 意的结果。对于知识工程方法,这种方法要求编制规则的知识工程师 对该知识领域有深入的了解。这样的人有时找不到,而且开发的过程 可能非常耗时。而机器学习方法虽然比知识工程方法快,但需要足够 数量的训练数据,才能保证其处理质量。现有机器学习方法中用于构 造提取模式的方法的主要缺陷是:依赖于语言处理、机器学习或数据 挖掘技术。这些方法的大多数需要有标注的训练样本集,而标注这些 训练样本集是十分费时的而且必须由领域专家来做。
另外,通常文档写作工具是独立于使用者用来管理文档的工具 的,例如,文档写作工具与文档信息提取工具是分开工作的。当前的 使用情况是:作者在准备文档时,并不关心读者将如何利用文档的内 容。同时,从信息访问的观点来看,用户又会感到难于找到他/她所 真正想要的东西。
而且,由于目前计算机对自然语言的理解能力还处于字/词理解 的水平,而对于文档管理工具和文档信息提取工具来说,需要句子甚 至整篇文章的理解和语义能力,才能真正满足客户的需要。

发明内容

为解决现有信息提取技术中存在的上述问题,本发明提出在作 者写作电子文档的过程中,就为以后的信息提取准备相关的信息, 即,在作者准备文档期间,就为作者提供一些工具来方便地为以后用 户进行信息提取做贡献。更具体地说,作者在写作文档时,通过结合 现有技术中为不同领域所设计的提取模式和信息提取引擎,从所编辑 的文档中提取以后特定领域用户所需要的信息。由此,可以帮助用户 通过电子文档中所附着的涉及为特定领域提取的信息,方便地使用从 文档中提取出的涉及不同领域的有关同一主题的信息。此外,当读取 到涉及特定领域的信息的电子文档时,可以读出文档所涉及特定领域 的可靠信息的知识标记,从而方便用户快速作出决策。并且,由于所 述文档所保存的特定领域的信息是经过验证的,因此这些信息能更准 确地反映所属领域的特征信息。
根据本发明的一个方面,提供了一种电子文档的处理方法,包 括步骤:在作者写作电子文档时,从所述电子文档中提取一个或多个 文档内容所涉及领域的信息;以及与所述电子文档对应地保存所述提 取信息。
根据本发明的再一个方面,提供了一种电子文档的处理装置, 包括:电子文档编辑单元,用于编辑电子文档;信息提取模式选择单 元,用于从多种信息提取模式中为所述电子文档选择一种信息提取模 式;信息提取单元,用于根据所选择的信息提取模式,从所述电子文 档中提取出包含文档内容所涉及领域的多个信息的列表;提取信息生 成单元,用于从所述的提取信息的列表中选择与所述电子文档最相关 的信息;以及提取信息保存单元,用于与电子文档对应地保存由提取 信息生成单元生成的信息。
根据本发明的另一个方面,提供了一种浏览电子文档的方法, 包括步骤:读取有关从所述文档中提取出的文档内容所涉及不同领域 的信息;将读取出的、从所述文档中提取出的信息呈现给用户;以及 将所述提取信息所涉及的文档内容呈现给所述用户。
根据本发明的再一个方面,提供了一种电子文档浏览器,包 括:电子文档浏览单元,用于浏览电子文档的内容;提取信息读取单 元,用于读取与所述文档对应地保存的有关从所述文档中提取出的涉 及不同领域的信息;以及提取信息呈现单元,用于将由提取信息读取 单元读取的提取信息呈现给用户。
根据本发明的另一个方面,提供了一种电子文档的信息提取方 法,包括步骤:获取与相应电子文档对应保存的从所述文档中提取出 的信息;将所获取的从所述文档中提取出的信息保存在一个提取信息 存储数据库中;根据用户的查询,找出与用户输入的查询对应的提取 信息的列表;以及将与用户输入的查询相同或最接近的提取信息呈现 给所述用户。
根据本发明的再一个方面,提供了一种电子文档的信息提取系 统,包括:提取信息获取装置,用于获取与相应电子文档对应保存 的、从所述电子文档中提取出信息;提取信息存储数据库,用于保存 由所述提取信息获取装置所获取的提取信息;提取信息查找装置,用 于根据用户的查询,从所述提取信息存储数据库中找出与用户输入的 查询相同或最接近的一个或多个提取信息;以及提取信息呈现装置, 用于将由提取信息查找装置找出的一个或多个提取信息呈现给用户。
附图说明
以下结合附图,对本发明的具体实施方式进行详细的说明,由 此,本发明的特点、优点、目的和有益效果将会变得更明显,其中:
图1是根据本发明的一种实施方式的电子文档的处理方法的流 程图;
图2是根据本发明的一种实施方式的电子文档的处理装置的结 构示意图;
图3是根据本发明的一种实施方式的浏览电子文档的方法的流 程图;
图4是根据本发明的一种实施方式的电子文档浏览器的结构的 方框图
图5是根据本发明的一种实施方式的电子文档的信息提取方法 的流程图;以及
图6是根据本发明的一种实施方式的电子文档的信息提取系统 的结构方框图。

具体实施方式

以下,结合附图对本发明的各优选实施例进行详细的说明。
电子文档的处理方法
根据本发明的一个方面,提出了一种电子文档的处理方法。图1 是根据本发明的一种实施方式的电子文档的处理方法的流程图。
如图1所示,在步骤101,作者写作电子文档。根据本发明的电 子文档的处理方法是基于传统的文档编辑方法,通过传统的文档编辑 工具,例如MS Word,Adobe Writer,或WPS等等,作者可以对所 写的文档进行常规的编辑、浏览等等操作。根据本发明,关于作者写 作的文档的信息提取是在作者写完一篇文档时进行的,或者可以在完 成文档的一部分(例如一个章节)时进行。
接着,在步骤102,为作者编辑的文档(或是文档中的一些章 节)选择信息提取模式。首先对作者所编辑的文档进行预处理,主要 是进行段落分割和去除停用词(即一些最常用的应该排除在搜索范围 内的词,如中文词汇中的‘的’、‘地’、‘得’、‘了’ 等)。其中每种所述的信息提取模式是针对不同领域对文档进行信息 提取所使用的预先定义的匹配规则。现有技术中,已经为不同领域设 计了多种信息提取模式。由此,可由作者选择一种信息提取模式或通 过算法来选择相应的信息提取模式。例如,如果通过从多种信息提取 模式中由作者选择一种信息提取模式的话,则相应地也提供与所选取 的信息提取模式对应的一些有代表性的、典型提取信息作为参考信 息,然后,通过以下方法来进行信息提取模式的选择:
i)计算作者所编辑文档中的语句与给出的参考信息之间的相似 性;这种计算相似性的方法例如可以利用以下公式(1)来计算所编 辑的文档中的语句Si与典型的信息ISj的相似性:
relevanc e keywords ( S i , I S j ) = Σ k ( w k ( K S i ) + w k ( I S j ) ) / Max ( wkn ( S i ) , wkn ( I S j ) ) * 2 - - - ( 1 )
其中,wk(Si)是所编辑的文档中的语句Si和典型的提取信息ISj中 的第k个公共关键词在Si中的权重,wk(ISj)是所编辑的文档中的语句Si 和信息提取模式数据库中信息ISj的第k个公共关键词在ISj中的权重 (缺省,该值为1),wkn(.)是构成一个串的所有词(不包括停用词) 的权重的和。在这里,所编辑的文档中的语句Sj中第k个关键词的权 值wk(Si)可以利用关键词的出现频率来计算关键词的重要性,例如tf (term frequency)方法或者tf-idf(term frequency-inverse document frequency)方法等。tf方法就是按照每个关键词在该文本 段中出现的次数来排序计算权重。tf-idf方法则是通过计算tf×idf来确 定每个关键词的权重,其中,tf是该关键词在该文本段T中出现的次 数,idf是该关键词在该文档的所有文本段中出现的次数的倒数。因 此,tf-idf方法更能够体现关键词在不同文本段之间的相对重要性。当 然,也可以用其他方法来计算关键词的权重。
ii)根据计算出来所编辑文档中的语句与给出的参考信息之间的 相似性值的得分高低,对相应的信息提取模式进行排序;
iii)选择权值较高的信息提取模式,将其作为所编辑文档的候选 信息提取模式。
在步骤102中,还包括,对多种信息提取模式进行结构化分层 的处理。即,根据每种信息提取模式所属的领域或级别,将所述多种 信息提取模式组织成分层结构,以方便进行信息提取模式的查找。
接着,再回到图1,过程进行到步骤103,根据选择的信息提取 模式,从作者所编辑的文档中提取特定领域的信息,从而生成一个所 述文档关于所涉及领域的信息的列表。
接着,在步骤104,由作者核实上述步骤中从文档中提取出来的 文档所涉及领域的信息。在此,“核实”包括作者查看、修改生成的 信息,以保证从所述文档中提取的信息的正确性、可靠性和有用性。
另外,在步骤104中,还可以包括:提供参考信息,其中所述 的参考信息是与所选择的信息提取模式对应的典型提取信息;然后通 过计算所述提取信息与参考信息之间的相似性,根据相似性的结果来 核实所述提取信息的准确性。
接着,在步骤105,判断是否希望从所述文档中提取更多的信 息。通常,一篇文档会包含许多方面的内容,这些内容可能涉及不同 的主题或领域,同样读者在查找和阅读文档时会有各种不同的目的。 因此如果在步骤105中判断需要提取更多的信息,就返回到步骤 102,选择信息提取模式,从文档中提取下一个信息。如果没有其它 信息需要提取的话,则进行到步骤106。
在步骤106,与该文档对应地保存从文档中提取的关于文档涉及 不同领域的信息。具体地,根据本发明的优选实施方式,可以将提取 出的信息作为知识标记(knowledge tag)与电子文档一起保存。例 如,可以使用标记语言将标记附加到文档当中。
如前面所述,本发明没有对提取信息的具体保存方式进行限 定,例如,可以与电子文档一起保存,即作为电子文档的一部分,也 可以与电子文档分开保存,只要能够与所述电子文档对应即可。
举例来说,在以下的一种应用场景中(一则关于会议的报 道),本实施例可应用为:
“新华社北京3月8日电(记者李术峰):中国农工民主党第 十二届中央常务委员会第一次会议今天在北京召开。
会议研究通过了贯彻落实“两会”精神的有关决定,审议通过 了中国农工民主党中央1998年工作要点(草案),并任命了 中央副秘书长。
农工民主党中央主席蒋正华主持了会议,他说,农工民主党 有100多名党员作为代表和委员参加了今年的“两会”,各位党 员要认真履行代表和委员的职责,开好会,在1998年的工作 中认真贯彻“两会”精神,加强农工民主党的自身建设,推动事业 进一步发展,为建设有中国特色社会主义事业作出新的贡献。
会前,农工民主党中央邀请参加“两会”的来自全国各省、自 治区、直辖市的农工民主党党员进行了联谊活动。”
在这个应用实例中,根据本发明的电子文档的处理方法,在作 者准备该篇文档时,可以提取有关会议的时间、地点、组织者、以及 标题的信息。所提取的信息可以通过以下XML(可扩展标记语言) 进行编辑而作为知识标记被保存。

    ConferenceInfo<\Pattern>
    
        
        北京
        蒋正华
        中国农工民主党第十二届中央常委员会第一次会议
    


其中,所使用的信息提取模式是关于新闻报道领域中使用的会 议信息提取模式,提取出的信息包括有关会议的时间、地点、组织 者、以及的标题的信息。
通过以上实施例的描述可知,如果采用本实施例的电子文档的 处理方法,则可以辅助作者在写作的过程中提取关于文档所涉及不同 领域内容的多个信息,在不增加作者负担的情况下,利用作者对所写 作文档的理解,来保证从所述文档中提取出的信息的准确性。并且, 由于可以从文档中提取出充分反映该文档所涉及领域的多个信息,由 此,用户可以利用这些提取出的信息对不同领域但涉及同一主题的文 档进行检索和预览,一方面,在将文档全部内容呈现给读者之前,让 读者了解该文档大致所涉及领域的信息,节省了读者阅读的时间,另 一方面,在用户进行决策时,能快速从所述电子文档中获得正确的信 息
电子文档的处理装置
在同一发明构思下,根据本发明的另一个方面,提供了一种电 子文档的处理装置。图2是根据本发明的一种实施方式的电子文档的 处理装置的结构示意图。
如图2所示,该电子文档的处理装置200,包括:电子文档编辑 单元201,用于编辑电子文档。电子文档编辑单元201可以是一个独 立的文档编辑单元,也可以使用已有的文档编辑器,例如MS word,Adobe Writer,或WPS等等;信息提取模式选择单元202, 用于为所编辑的电子文档选择一种或多种信息提取模式,其中每种所 述的信息提取模式是针对不同领域对文档进行信息提取所使用的预先 定义的匹配规则;信息提取单元203,用于根据所选择的信息提取模 式,从所编辑的电子文档中提取出包含文档内容所涉及领域的多个信 息的列表;提取信息生成单元205,用于从所述的提取信息的列表中 选择与所述电子文档最相关的信息;提取信息核实单元204,用于允 许作者对提取信息生成单元205所生成的信息进行评价、修改以保证 所生成的提取信息的正确性、可读性和有用性;以及提取信息保存单 元206,用于与电子文档对应地保存由提取信息生成单元205生成的 提取信息。
此外,在本实施例的电子文档的处理装置200的信息提取模式 选择单元202还可以包括:参考信息呈现单元(未示出),用于呈现 对应每种信息提取模式的一个或多个典型提取信息的参考信息;信息 相似性计算单元(未示出),用于计算所编辑文档中的语句与每种信 息提取模式中的参考信息之间的相似性值;以及信息提取模式确定单 元(未示出),用于根据相似性值的排序,将具有高相似性值的信息 提取模式确定为用于所述文档的信息提取模式。
此外,本实施例中的信息提取模式选择单元202还可以包括: 信息提取模式排列单元(未示出),用于根据每种信息提取模式所属 的领域或级别,将信息提取模式排列为分层结构。这样,可以方便作 者从多种信息提取模式中进行快速选择。
此外,在本实施例的电子文档的处理装置200的提取信息核实 单元204中,还可以进一步包括:参考信息呈现单元(未示出),用 于呈现对应每种信息提取模式的一个或多个典型提取信息的参考信 息;信息相似性计算单元(未示出),用于计算所提取的信息与每种 信息提取模式中的参考信息之间的相似性值;以及信息确定单元(未 示出),用于根据相似性值的排序,选择具有高相似性值的信息。
通过以上实施例的描述可知,如果采用本实施例的电子文档的 处理装置,则可以利用由前述电子文档的处理方法编制的电子文档中 保存的从所述文档中提取出的涉及不同领域内容的多个信息,在不增 加作者负担的情况下,利用作者对所写作文档的理解,来保证从所述 文档中提取出的信息的准确性。并且,由于可以从文档中提取出充分 反映该文档所涉及领域的多个信息,由此,用户可以利用这些提取出 的信息对不同领域但涉及同一主题的文档进行检索和预览,一方面, 在将文档全部内容呈现给读者之前,让读者了解该文档大致所涉及领 域的信息,节省了读者阅读的时间,另一方面,在用户进行决策时, 能快速从所述电子文档中获得正确的信息。
浏览电子文档的方法
在同一发明构思下,根据本发明的另一个方面,提供一种浏览 电子文档的方法,其中电子文档是通过上述电子文档的处理方法产生 的文档,即,与该文档对应地保存有关从所述文档中提取出的涉及不 同领域的信息。
图3是根据本发明的一种实施方式的浏览电子文档的方法的流 程图。如图3所示,首先在步骤301,读取有关从所述文档中提取出 的涉及不同领域的信息。具体地,根据所提取的信息的保存方式,读 出信息。例如,如果提取信息是被保存在文档的尾部作为知识标记, 则相应地识别出该知识标记并将其中的信息读出。
接着,在步骤302,将读取出的、从所述文档中提取出的信息呈 现给读者(用户)。具体地,可以有多种方式来呈现相应的提取信 息。
接着,在步骤303,读者查看这些提取信息,并判断是否对该文 档感兴趣。如果读者对该文档感兴趣,则确认并进入到步骤304,将 文档内容呈现给读者;否则,不显示文档内容,而进入到步骤305, 关闭文档结束。
通过以上实施例的描述可知,如果采用本实施例的浏览电子文 档的方法,则可以利用由前述电子文档的处理方法编制的电子文档中 保存的、从所述文档中提取出的涉及不同领域内容的多个信息,在不 增加作者负担的情况下,利用作者对所写作文档的理解,来保证从所 述文档中提取出的信息的准确性。并且,由于可以从文档中提取出充 分反映该文档所涉及领域的多个信息,由此,用户可以利用这些提取 出的信息对不同领域但涉及同一主题的文档进行检索和预览,一方 面,在将文档全部内容呈现给读者之前,让读者了解该文档大致所涉 及领域的信息,节省了读者阅读的时间,另一方面,在用户进行决策 时,能快速从所述电子文档中获得正确的信息。
电子文档浏览器
在同一发明构思下,根据本发明的另一个方面,提供了一种浏 览电子文档的浏览器,其中电子文档是通过上述电子文档的处理方法 产生的文档,即,与该文档对应地保存有关从所述文档中提取出的涉 及不同领域的信息。
图4是根据本发明的一种实施方式的电子文档浏览器的结构的 方框图。如图4所示,本实施例的电子文档浏览器400,包括:电子 文档浏览单元401,用于浏览电子文档的内容,它可以是一个现有技 术中的浏览器,如MS Word Viewer,MS Internet Explorer, Netscape Navigator,Acrobat Reader等等;
提取信息读取单元402,用于读取与所述文档对应地保存的有关 从所述文档中提取出的涉及不同领域的信息。具体地,根据提取信息 的保存方式,读出提取信息。例如,如果提取信息是被保存在文档的 尾部作为知识标记,则相应地识别出该知识标记并将其中的提取信息 读出;
提取信息呈现单元403,用于将由提取信息读取单元402读取的 提取信息呈现给用户。具体地,可以有多种方式来呈现相应的从所述 文档中提取出的信息。
通过以上实施例的描述可知,如果采用本实施例的浏览电子文 档的浏览器,则可以利用由前述电子文档的处理方法编制的电子文档 中保存的、从所述文档中提取出的涉及不同领域内容的多个信息,在 不增加作者负担的情况下,利用作者对所写作文档的理解,来保证从 所述文档中提取出的信息的准确性。并且,由于可以从文档中提取出 充分反映该文档所涉及领域的多个信息,由此,用户可以利用这些提 取出的信息从分散在各个文档中但涉及同一主题的文档进行检索和预 览,一方面,在将文档全部内容呈现给读者之前,让读者了解该文档 大致所涉及领域的信息,节省了读者阅读的时间,另一方面,在用户 进行决策时,能快速从所述电子文档中获得正确的信息。
电子文档的信息提取方法
在同一发明构思下,根据本发明的另一个方面,提供了一种电 子文档的信息提取方法,其中电子文档是通过上述电子文档的处理方 法产生的文档,即,与该文档对应地保存有关从所述文档中提取出的 涉及不同领域的信息。
图5是根据本发明的一个实施例的电子文档的信息提取方法的 流程图。如图5所示,首先在步骤501,获取与相应电子文档对应保 存的从所述文档中提取出的信息。具体地,如果电子文档是使用上述 电子文档的处理装置200写作的文档,则每个文档都会有关于从所述 文档中提取出的涉及不同领域的信息。特别地,对于在因特网上发布 的电子文档,可以通过网络搜索器(web crawler)来遍历各个电子 文档,来获取电子文档涉及不同领域内容的信息,例如从知识标记中 获取。
接着,在步骤502,将所获取的从所述文档中提取出的信息保存 在一个提取信息存储数据库中。
接着,在步骤503,由用户输入一个查询。
接着,在步骤504,在所述提取信息数据库中找出与用户输入的 查询对应的提取信息的列表。
然后,在步骤505中,将与用户输入的查询相同或最接近的信 息呈现给所述用户,据此,用户可以了解到文档所涉及的大致内容, 从而可以快捷地作出决策。在该步骤中,可以包括:计算用户输入的 查询与提取信息列表中的各个提取信息的相关程度,以及将上述相关 程度最高的一个或者相关程度大于一个预定阈值的提取信息选择出 来。并且,在步骤506中,如果用户还想了解更多的内容,则可以将 与用户选择的信息对应的电子文档或者与所述电子文档的链接提供给 所述用户。
通过以上实施例的描述可知,如果采用本实施例的电子文档的 信息提取方法,则可以利用由前述电子文档的处理方法编制的电子文 档中保存的、从所述文档中提取出的涉及不同领域内容的多个信息, 在不增加作者负担的情况下,利用作者对所写作文档的理解,来保证 从所述文档中提取出的信息的准确性。并且,由于可以从文档中提取 出充分反映该文档所涉及领域的多个信息,由此,用户可以利用这些 提取出的信息对不同领域但涉及同一主题的文档进行检索和预览,一 方面,在将文档全部内容呈现给读者之前,让读者了解该文档大致所 涉及领域的信息,节省了读者阅读的时间,另一方面,在用户进行决 策时,能快速从所述电子文档中获得正确的信息。
电子文档的信息提取系统
在同一发明构思下,根据本发明的另一个方面,提供了一种电 子文档的信息提取系统,其中电子文档是通过上述电子文档的处理方 法产生的文档,即,与该文档对应地保存有关从所述文档中提取出的 涉及不同领域的信息。
与图5所示的电子文档的信息提取方法相对应,图6是根据本 发明的一个实施方式的电子文档的信息提取系统的结构方框图。
如图6所示,电子文档的信息提取系统600,包括:提取信息获 取装置601,用于提取与相应电子文档对应保存的、从所述文档中提 取出的信息。如前所述,提取信息获取装置601可以是一个网络搜索 器来遍历网络上的各个电子文档,来获取从所述电子文档中提取出的 信息;提取信息存储数据库602,用于保存由提取信息获取装置601 所获取的提取信息;提取信息查找装置603,用于根据用户的查询, 从提取信息存储数据库602中找出与用户输入的查询相同或最接近的 一个或多个提取信息,例如,可以包括一个相关度计算装置,用于计 算用户输入的查询与提取信息列表中的各个提取信息的相关程度,由 此,所述提取信息查找装置603根据相关度计算装置的计算结果,将 上述相关程度最高的一个或者相关程度大于一个预定阈值的提取信息 选择出来;提取信息呈现装置604,用于将由提取信息查找装置603 找出的一个或多个提取信息呈现给用户,据此,用户可以了解到文档 所涉及的大致内容,从而可以快速地作出决策。此外,根据本实施例 的电子文档的信息提取系统,还可以包括:电子文档提供装置605, 用于将所述用户选择的提取信息所对应的电子文档或者与所述电子文 档的链接提供给所述用户。
通过以上实施例的描述可知,如果采用本实施例的电子文档的 信息提取系统,则可以实现上述电子文档的信息提取方法,利用由前 述电子文档的处理方法编制的电子文档中保存的、从所述文档中提取 出的涉及不同领域内容的多个信息,在不增加作者负担的情况下,利 用作者对所写作文档的理解,来保证从所述文档中提取出的信息的准 确性。并且,由于可以从文档中提取出充分反映该文档所涉及领域的 多个信息,由此,用户可以利用这些提取出的信息对不同领域但涉及 同一主题的文档进行检索和预览,一方面,在将文档全部内容呈现给 读者之前,让读者了解该文档大致所涉及领域的信息,节省了读者阅 读的时间,另一方面,在用户进行决策时,能快速从所述电子文档中 获得正确的信息。
以上示例性地说明了本发明的电子文档的处理方法及装置、浏 览电子文档的方法及装置,以及电子文档的信息提取方法及信息提取 系统,但是以上这些实施例仅是示例的,本领域技术人员可以在本发 明的精神和范围内作出各种变化和修改。因此,本发明不限于这些实 施例,本发明的范围由随附权利要求限定为准。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈