首页 / 专利库 / 人工智能 / 词性标注 / 开放式文档同构引擎系统

开放式文档同构引擎系统

阅读:379发布:2021-08-27

专利汇可以提供开放式文档同构引擎系统专利检索,专利查询,专利分析的服务。并且一种信息安全技术领域的开放式文档同构引擎系统,其中:物理结构模 块 接受各种文档的输入,并将文档的物理结构输出给逻辑结构模块;逻辑结构模块对物理结构模块输入的信息进行处理得到文档的逻辑结构,并将该其输入到词法及句法分析模块;词法及句法分析模块接收逻辑结构模块输入的信息,并对该信息进行处理得到经分析处理后的文档,并将得到的该文档输入概念 抽取 模块;概念抽取模块对词法及句法分析模块输入的信息进行处理得到由文档中的词转化出的概念及概念属性,并将得到的该概念及概念属性输入主题表示模块;主题表示模块对概念抽取模块输入的信息进行处理得到以概念为单位的文档主题。本 发明 解决了针对多格式文档无法统一处理的问题。,下面是开放式文档同构引擎系统专利的具体信息内容。

1、一种开放式文档同构引擎系统,其特征在于,包括:物理结构模、逻辑结构模块、词法及句法分析模块、概念抽取模块、主题表示模块,其中: 所述的物理结构模块定义了文档各个部分的物理安排和布置,它接受各种文档的输入,并将文档的物理结构输出给逻辑结构模块,物理结构模块还为整个系统提供规范的数据,该物理结构模块包括段落规范化子模块、格式信息标准化子模块、消除噪音子模块、文章特征识别子模块、小标题识别子模块、小标题纠错子模块和逻辑结构树生成子模块,其中: 所述段落规范化子模块输入含有误用硬回车的不规范文档,去掉文档结构中硬回车不规范使用,并将修正了硬回车误用后的文档输出给格式信息标准化子模块; 所述格式信息标准化子模块接受段落规范化子模块的输入,把物理结构层获得的格式信息在逻辑结构模块进行大粒度统一,并将格式标准化后的文档输出给消除噪音子模块; 所述消除噪音子模块接受格式信息标准化子模块的输入,去除文章中的非正文信息部分,并将去掉了这些噪音后的文档输出给文章特征识别子模块; 所述文章特征识别子模块接受消除噪音子模块的输入,判断各个自然段的逻辑类别,并将标示出了自然段逻辑类别的文档输出给小标题识别子模块; 所述小标题识别子模块接受文章特征识别子模块的输入,利用自动机识别有标号小标题,利用特征识别无标号小标题,并将明确标示了有标号小标题和无标号小标题的文档输出给小标题纠错子模块; 所述小标题纠错子模块接受小标题识别子模块的输入,纠正原文作者的笔误,并将纠错后的文档输出给逻辑结构树生成子模块; 所述逻辑结构树生成子模块接受小标题纠错子模块的输入,把文档逻辑结构描述成逻辑结构树形式,并将文档的逻辑结构树输出给逻辑结构模块; 所述逻辑结构模块规定了文档的各个逻辑元素及其类别,它接收物理结构模块输入的信息,并对该信息进行处理得到文档的逻辑结构,逻辑结构模块将该文档的逻辑结构输入到词法及句法分析模块,即用机器学习的方法识别原始文档各个部分的逻辑类别,识别出各级小标题,并对小标题进行级别确定和纠错处理,形成能够表达原文层次关系的逻辑结构树; 所述词法及句法分析模块给出文本中各个句子的词分割标记、词性标注和句法标注,它接收逻辑结构模块输入的信息,并对该信息进行处理得到经分析处理后的文档,词法及句法分析模块将得到的该文档输入概念抽取模块,即依据带有属性描述的关键词词典,采用词法分析和句法分析相结合对文本中的句子进行分析、标注,所述词法分析给出了多个候选的词切分和词性标注序列,所述句子分析方法是在词法分析的基础上运行词性修饰关系,句子模式标注出句子的成分即主、谓、宾,句子模式用概率来表示,计算出句子分析结果的正确概率,根据句子分析的正确概率,可以反过来从候选的词分析结果中选择一个序列出来; 所述概念抽取模块自动概括出文档包含的概念,它接收词法及句法分析模块输入的信息,并对该信息进行处理得到由文档中的词转化出的概念及概念属性,概念抽取模块将得到的该概念及概念属性输入主题表示模块,该概念抽取模块的概念抽取核心问题是概念库结构和对概念库的访问,所述概念库组织方式是:概念条目和零、一、二、三级扩展字串有较高同义度,概念条目和四、五级扩展字串的同义度较低,概念条目和六级扩展字串的同义度最低,采用了哈希技术把零级和一级扩展字串按字典序排列,并且,每个字串都可映射到相应的概念条目; 所述主题表示模块根据用户的选择计算出每个概念的权重,然后给出该文档的向量空间模型表示,它接收概念抽取模块输入的信息,并对该信息进行处理得到以概念为单位的文档主题。
2、 根据权利要求l所述的开放式文档同构引擎系统,其特征是,所述的物理 结构模块,其输入包括具有各式各样格式的电子文档信息,电子文档包含了多格 式的异构信息,物理结构模块将这些异构信息进行同构化,即用统一的规范来表 示这些异构信息,物理结构模块输出的文档的物理结构是由无格式的字符、字符 对应的格式信息、轮廓信息组成,物理结构能够识别出回车换行符,另外,物理 结构还标明原始文档的语种。
3、 根据权利要求1或2所述的开放式文档同构引擎系统,其特征是,所述的 物理结构模块是由标记提取出纯文本、文本对应的格式信息,而忽略掉垃圾信息,所述的文本对应的格式信息分为两种:字符格式信息和段格式信息,字符格式信 息是用来描述单个字符的,段格式信息是用来描述段的。
4、 根据权利要求l所述的开放式文档同构引擎系统,其特征是,所述的概念 抽取模块,其输出是由文档中的词转化出的概念以及概念的几个属性即概念在文 中出现的频率、概念在文中的位置、概念的分布性,概念抽取模块以知网、词网、《同义词词林》为基础构造概念库,以概念库为基础,结合转换算法求出文档包 含的概念,并给出概念的相关属性。
5、 根据权利要求l所述的开放式文档同构引擎系统,其特征是,所述的主题 表示模块,采用概念频率、概念位置、布尔权重、词频-反文档频率型权重、或基 于信息熵的权重计算概念的权重,然后把文档以向量空间的方式表示,降维方法 釆用值控制的方式实现。

说明书全文

开放式文档同构引擎系统

技术领域

发明涉及的是一种信息安全技术领域的系统,具体是一种开放式文档同构 弓l擎系统(ODIE — Open Document Isomorphic Engine)。

背景技术

在内容安全领域,基于文本信息的内容安全产品都必须对文本进行语义理解 和不良信息过滤。这类产品都面临着一个统一的问题,即从各式各样的文档中提 取出用于理解和过滤的纯文本信息。由于现实中文档格式的复杂和多样性,所以 大多数系统都回避了这个难点问题,从而导致这些系统准确率低。
目前获得纯文本信息的过程有两个难点问题:(1),如何处理多种多样的原 始文档格式,并从中获得纯文字信息。根据结构化程度的不同,现实中的各种电
子文档可以分为结构化文档(如,XM)、半结构化文档(如,HTML, D0C, WPS, PDF等)和自由文档(如,TXT)三类。自由文档仅包含文本内容,获得纯文本信 息极其简单。而结构化文档和半结构化文档包含了文本内容和大量的标记(Tag) 信息,因此获得纯文本信息的过程就相当复杂。如果考虑到各种文档格式的版本 差异,获得纯文本信息的问题就更加复杂了。因此,能够用一个统一的方法来处 理多种多样的原始文档格式是一个关键问题。(2),如何对文字信息进行统一描 述,并使其适用于包含内容安全在内的各种应用系统。除内容安全系统外,基于 文本内容的信息过滤、文本自动分类、信息检索等都需要对多格式文档的预处理。 设计一个能够适用于各种系统的统一描述将是一个关键问题。
开放式同构引擎的目标是从多种多样的文档格式中获取文本内容及其所代 表的语义,并提供给其它高层系统使用。多格式文档的同构化可使其他应用系统 摆脱文档分析这个难点,而只专注于系统本身的专有技术。文档同构化是基于内 容的信息安全、自动分类、自动标引、自动检索等相关研究的基础性工作。
经对现有技术文献的检索发现,论文:Document Logic Structure ByMachine Learning, IEEE Conference on Machine Learning and Cybernetics, 2002, 12 (基于机器学习的文档逻辑结构分析,IEEE机器学习和控制论会议, 2002年12月)提出了开放式文档层次模型(ODLM-Open Document Layer Module), 该模型根据自然语言处理相关技术的实际需要,引文把开放式文档层次模型分为 物理结构层、逻辑结构层、词法和句法分析层、概念抽取层、主题表示层等5 个层次。通过5个层次,ODLM细化了整个电子文档分析的过程,描述了各个层
次的具体内容,为电子文档分析提供了一个清晰层次框架。但是并没有一个完整 的可以具体应用的系统。
检索中还发现,Document Logical Structure Analysis Based on Perc印tive Cycles (基于感知回路的文档逻辑结构分析),引文出处:Lecture Notes in Computer Science 3872, PP. 117-128. Springer-Verlag Berlin Heidelberg 2006 (计算机科学报告,3872巻,117-128页,2006年,德国海德 尔堡Springer出版社出版)。该文献用神经网络的方法把图像文档(或光学扫描 文档)的逻辑结构识别出来,但仅集中在逻辑结构分析上。其缺陷和不足如下: l)主要目标是仅是分析出文档逻辑结构;2)直接从图像文件分析文档逻辑结构, 在识别逻辑结构之前无抽象的接口——文档物理结构识别;3)由于无文档物理 结构这个中间接口,仅仅能够处理单一的文档格式,而不是可以处理多种多样的 格式;4)未能提供涉及词、句、概念、主题等层次的服务。

发明内容

本发明的目的在于克服现有技术的不足,提供一种开放式文档同构引擎系 统,使其能够用于提取多格式文档的纯文本内容及其所代表的语义,解决了针对 多格式文档无法统一处理的问题,可应用于语义和互联网内容安全分析类项目。
本发明是通过以下技术方案实现的,本发明包括5大功能模,按信息处 理的先后顺序依次为:物理结构模块、逻辑结构模块、词法及句法分析模块、概 念抽取模块、主题表示模块,其中:
所述的物理结构模块定义了文档各个部分的物理安排和布置,它接受各种 文档的输入,并将文档的物理结构输出给逻辑结构模块,物理结构模块还为整个 系统提供规范的数据;
所述逻辑结构模块规定了文档的各个逻辑元素及其类别,它接收物理结构模块输入的信息,并对该信息进行处理得到文档的逻辑结构,逻辑结构模块将该 文档的逻辑结构输入到词法及句法分析模块;
所述词法及句法分析模块给出文本中各个句子的词分割标记、词性标注和 句法标注,它接收逻辑结构模块输入的信息,并对该信息进行处理得到经分析处 理后的文档,词法及句法分析模块将得到的该文档输入概念抽取模块;
所述概念抽取模块自动概括出文档包含的概念,它接收词法及句法分析模 块输入的信息,并对该信息进行处理得到由文档中的词转化出的概念及概念属 性,概念抽取模块将得到的该概念及概念属性输入主题表示模块;
所述主题表示模块根据用户的选择计算出每个概念的权重,然后给出该文 档的向量空间模型(VSM)表示,它接收概念抽取模块输入的信息,并对该信息 进行处理得到以概念为单位的文档主题。
所述的物理结构模块,它的输入包括具有各式各样格式的电子文档(例如, TXT, XML, HTML,字符扫描文件,DOC, WPS, PD等等)信息。物理结构模块输 出的文档的物理结构是由无格式的字符(例如,英文字母、汉字等)、字符对应 的格式信息、轮廓信息组成。物理结构能够识别出回车换行符,也就是说能清晰 地区分开自然段。另外,物理结构应该标明原始文档的语种(例如,英语、汉语 等等),同时,如果语种是汉语,原始文档的编码格式(例如,GB、 BIG5等等) 也应该在物理结构中标出。电子文档具有各式各样格式,不便于信息处理。 一般 情况下,电子文档包含了〃多格式〃的〃异构信息〃,通过物理结构模块将这些"异 构信息〃进行同构化,也就是用统一的规范来表示这些异构信息。
所述的物理结构模块是由标记提取出纯文本、文本对应的格式信息,而忽 略掉垃圾信息。所述的文本对应的格式信息可以分为两种:字符格式信息和段格 式信息。字符格式信息是用来描述单个字符的。段格式信息是用来描述段的。
所述的物理结构模块包括段落规范化子模块、格式信息标准化子模块、消除 噪音子模块、文章特征识别子模块、小标题识别子模块、小标题纠错子模块和逻 辑结构树生成子模块,其中:
所述段落规范化子模块输入含有误用硬回车的不规范文档,去掉文档结构中 硬回车不规范使用,并将修正了硬回车误用后的文档输出给格式信息标准化子模 块;所述格式信息标准化子模块接受段落规范化子模块的输入,把物理结构层获 得的格式信息在逻辑结构层进行大粒度统一,并将格式标准化后的文档输出给消 除噪音子模块;
所述消除噪音子模块接受格式信息标准化子模块的输入,去除文章中的非正 文信息部分,并将去掉了这些噪音后的文档输出给文章特征识别子模块;
所述文章特征识别子模块接受文章特征识别子模块的输入,判断各个自然段
的逻辑类别,并将标示出了自然段逻辑类别的文档输出给小标题识别子模块;
所述小标题识别子模块接受小标题识别子模块的输入,利用自动机识别有标 号小标题,利用特征识别无标号小标题,并将明确标示了有标号小标题和无标号 小标题的文档输出给小标题纠错子模块;
所述小标题纠错子模块接受小标题识别子模块的输入,纠正原文作者的笔 误,并将纠错后的文档输出给逻辑结构树生成子模块;
所述逻辑结构树生成子模块接受小标题纠错子模块的输入,把文档逻辑结构 描述成逻辑结构树形式,并将文档的逻辑结构树输出给逻辑结构模块。
所述的逻辑结构模块,其主要任务是识别出文档各个部分的逻辑类别。逻 辑结构标明了原始文档各个部分的逻辑类别(例如,题目,作者摘要,作者信息, 关键字,正文,各级标题,参考文献等),并且用逻辑结构树来描述整个文档。 具体的是用机器学习的方法识别原始文档各个部分的逻辑类别,识别出各级小标 题(有标号小标题和无标号小标题),并对小标题进行级别确定和纠错处理,形 成能够表达原文层次关系的逻辑结构树。
所述的词法及句法分析模块,依据带有属性描述的关键词词典,采用词法分 析和句法分析相结合对文本中的句子进行分析、标注,所述词法分析给出了多个 候选的词切分和词性标注序列。所述句子分析方法是在词法分析的基础上运行词 性修饰关系,句子模式标注出句子的成分(主、谓、宾)。本发明给句法分析的 词性修饰关系,句子模式用概率来表示,计算出句子分析结果的正确概率。根据 句子分析的正确概率,可以反过来从候选的词分析结果中选择一个序列出来。
所述的概念抽取模块,其输出是由文档中的词转化出的概念以及概念的几 个属性,即概念在文中出现的频率、概念在文中的位置、概念的分布性。由于受 地域、时间等社会因素的影响,广泛意义上的词已经非常泛化,有必要用概念把它们加以概括整理,概念抽取模块实现该功能。概念抽取模块以知网(How-Net)、 WordNet (美国普林斯顿大学研发的词汇网络)、《同义词词林》为基础构造概念 库,以概念库为基础,结合转换算法求出文档包含的概念,并给出概念的相关属 性。
所述的概念抽取模块,其概念抽取核心问题是概念库结构和对概念库的访 问。所述概念库组织方式是:概念条目和零、一、二、三级扩展字串有较高同义 度;概念条目和四、五级扩展字串的同义度较低;概念条目和六级扩展字串的同 义度最低。为了快速地访问概念库,采用了哈希技术把零级和一级扩展字串按字 典序排列,并且,每个字串都可映射到相应的概念条目。
所述的主题表示模块,根据选择,采用概念频率、概念位置、布尔权重、 TFIDF (Term Frequency Inverse Document Frequency, 词步页-反文档步贞率)型 权重、基于信息熵的权重(部分方法要求文档集支持)等方法计算概念的权重, 然后把文档以向量空间的方式表示,降维方法采用值控制的方式实现。
本发明基于一个基础理论——开放式文档层次模型实现的。根据自然语言处 理相关技术的实际需要,开放式文档层次模型(0DLM-0pen Document Layer Mo dule)分为物理结构层、逻辑结构层、词法和句法分析层、概念抽取层、主题表 示层等5个层次。以ODIE为核心的系统应用架构自底向上分为原始文档层、0D IE和应用程序层三大部分。ODIE的核心是根据ODLM模型的指导对多格式文档进 行分析和处理,从而分为符合ODLM模型的五个层次。应用程序层可以从ODIE 引擎获得不同质量的服务(对应于ODLM模型的五个层次),以适应应用程序层的 不同需要。
与现有技术相比,本发明能够用于提取多格式文档的纯文本内容及其所代 表的语义。本发明在物理结构和逻辑结构分析过程中,充分提取并利用了字体、 字号、轮廓等格式信息和特征字符串信息,也就是全信息。本发明采用概念来表 示文章的主题,概念比词更加规范,其权重计算也将更加准确。可扩充性体现在 用户可以集成新得文档格式到该引擎,以支持特殊文件格式处理;服务多样性, 应用程序能根据需要从该引擎获得不同层次的服务。本发明系统可应用于语义和 互联网内容安全分析类项目(例如,垃圾邮件防范系统、中文自动摘要系统、互 联网舆情分析与监测系统等),并达到了实际应用平。附图说明
图1本发明系统结构框图
图2本发明应用实施例架构框图
图3本发明应用实施例文档逻辑结构分析过程示意图

具体实施方式

下面结合附图对本发明的实施例作详细说明。本实施例在以本发明技术方案 为前提下进行实施,给出了详细的实施方式和具体的操作过程,但本发明的保护 范围不限于下述的实施例。
如图1所示,在ODLM理论的指导下,本发明实现了一个适用于实际环境的 引擎一开放式文档同构引擎(ODIE)系统。根据自然语言处理相关技术的实际 需要,在理论上把电子文档的处理过程分为5个层次,它们分别是:物理结构层、 逻辑结构层、词、句法分析层、概念抽取层、主题表示层等5个层次。在技术实 现时,5个层次分别对应于物理结构模块、逻辑结构模块、词法及句法分析模块、 概念抽取模块、主题表示模块。
所述的物理结构模块定义了文档各个部分的物理安排和布置,它接受各种文 档的输入,并将文档的物理结构输出给逻辑结构模块,物理结构模块还通过运算 为整个系统提供规范的数据;
所述逻辑结构模块规定了文档的各个逻辑元素及其类别,它接收物理结构模 块输入的信息,并对该信息进行处理得到文档的逻辑结构,逻辑结构模块将该文 档的逻辑结构输入到词法及句法分析模块;
所述词法及句法分析模块给出文本中各个句子的词分割标记、词性标注和 句法标注,它接收逻辑结构模块输入的信息,并对该信息进行处理得到经分析处 理后的文档,词法及句法分析模块将得到的该文档输入概念抽取模块;
所述概念抽取模块自动概括出文档包含的概念,它接收词法及句法分析模 块输入的信息,并对该信息进行处理得到由文档中的词转化出的概念及概念属 性,概念抽取模块将得到的该概念及概念属性输入主题表示模块;
所述主题表示模块根据用户的选择计算出每个概念的权重,然后给出该文 档的向量空间模型(VSM)表示,它接收概念抽取模块输入的信息,并对该信息 进行处理得到以概念为单位的文档主题。如图2所示,以ODIE为核心的系统应用架构自底向上分为原始文档层、ODIE 和应用程序层三大部分。ODIE的核心是根据ODLM模型的指导对多格式文档进行 分析和处理,从而分为符合ODLM模型的五个层次。应用程序层可以从ODIE引擎 系统获得不同质量的服务(对应于ODLM模型的五个层次),以适应应用程序层的 不同需要。
第一,物理结构分析:为了适应未知文档格式加入本系统,该部分设计了一 个可扩展的接口。本实施例以HTML为例,其分析过程如下:
HTML用于编制可以在不同的平台上实施链接的超文本文件。HTML的标记可 以表达超文本的新闻、邮件、文档及超媒体。本实施例的物理结构模块是在这些 标记中提取出纯文本,文本对应的格式信息,而忽略掉垃圾信息。文本对应的格 式信息可以分为两种:字符格式信息和段格式信息。字符格式信息是用来描述单 个字符的。段格式信息是用来描述段的。
所述的标记,对于HTML格式的文档而言,〈P〉表示一段纯文本;font-size, 用CSS格式表示文字的大小;〈Li〉表示文字是标题性文字。
所述的标记,对于PDF格式的文档而言,obj〈XXX〉stream,表示文本和字 体格式流。
所述的标记,对于WORD,WPS格式的文档而言,内部采用0LE(0bject Linking and Embedding)编码模式,需要应用软件附带接口读取文字和相应的字体格式。
所述的标记,对于txt格式的文档而言,由于它是自由文档,因此,可以 直接读取到文本。Txt格式的文档没有字体格式信息。 分别列举如下:
字符格式信息(C表示字符):
font—absolute—size(0二{ 0, 1, 2, ... , N}。表示该字符的字体绝对大小。
font—relative—size (C) = {BIG, EQUAL, SMALL}。表示该字符的字体相对于 正文的大小。文献[95,96]的都只注重了字体的绝对大小,但是,字体的相对大 小有时比绝对数更有作用。例如,title字体大小的主要特点是一般比正文的大, 而不取决于它的绝对字体大小。
font_style(C) = { 0, 1, 2, ... , N}。表示该字符的字体格(字体风格已经映射到自然数集)。
font—color (C) = { 0, 1, 2, . . . , N }。表示该字符的字体颜色(字体颜色 已经映射到自然数集)。
段格式信息(P表示段):
alignment (P) = {LEFT, CENTER, RIGHT}。它们分别代表该段左对齐、右对齐、居中。
width(P)二{BROAD, EQUAL, NARROW}。三个取值表示该段相对于正文的宽度 较宽、相等、较窄。
type—of (P) = {CHARACTER, TABLE, FIGURE, OTHER}。表示该自然段是文字,
表格,图形或其它。
indent (P) = { 0, 1 , 2, ... , N }。表示该自然段的縮进字符数。 第二,逻辑结构分析: 一篇结构化的文档可被分成多个部分,比如〃标题+ 正文+附加信息〃就是最简单的划分方法。很多研究表明,出现在不同部分和位 置的词对主题的贡献是不一样的。因此在提取主题前,预先获得其所在部分与位 置的信息是相当重要的。逻辑结构模块的作用就是分析文档的整体结构,将文章 的标题(包括主标题、副标题、各级小标题等),以及句子在文章的位置(首段、 尾段、段首、段尾等)都剖析出来。这样获得的文本结构信息对于后续的特征提 取有着很重要的作用。
如图3所示,文档逻辑结构分析过程。物理结构模块实现逻辑结构分析包括 段落规范化、格式信息标准化、消除噪音、文章特征识别、小标题识别、小标题 纠错和逻辑结构树的生成等歩骤。段落规范化是去掉不规范使用甚至误用硬回 车。消除噪音模块是为了去除本不该属于文章内容的部分,例如网络新闻中的相 关链接、广告等。文章特征识别判断各个自然段的逻辑类别。小标题识别模块利 用自动机识别有标号小标题,利用一些特殊特征识别无标号小标题。小标题纠错 模块的功能就是纠正原文作者的笔误。最后,把文档逻辑结构描述成逻辑结构树 形式。学习功能增加了逻辑结构层的适应能。离线学习通过对手工标注文档进 行处理,形成知识库。知识库是逻辑结构层运算的规则来源。在线学习利用可视 化界面对系统进行示教,从而使系统具有适应能力。上述逻辑结构分析内容分别 采用以下的子模块來实现:段落规范化子模块的功能是去掉文档结构中不规范使用甚至误用硬回车。其 输入是含有误用硬回车的不规范文档,其输出是修正了硬回车误用后的文档。
格式信息标准化子模块的功能把物理结构层获得的格式信息在逻辑结构层 进行大粒度标准化。经过标准化后,原来只作用于字符的格式信息,扩展到作用 于一个完整的句子或自然段。例如,在一个句子中有大于80% (可调整阀值)的
字符是黑体字,那么,在逻辑结构层就认为整个句子的格式信息为黑体字。
消除噪音子模块的功能是去除本不该属于文章内容的部分,例如网络新闻中 的相关链接、广告等。其输入是含有广告链接、相关新闻链接等非正文信息的文 档,其输出是去掉了这些噪音后的文档。
文章特征识别子模块的功能判断各个自然段的逻辑类别。其输入是没有明确 标示逻辑类别的文档,其输出是标示出了自然段逻辑类别的文档,此时,就可以 知道那个部分是文档的标题、文档的正文了。
小标题识别子模块的功能利用自动机识别有标号小标题,利用一些特征识别 无标号小标题。其输入是没有明确标示小标题的文档,其输出是明确标示了有标 号小标题和无标号小标题的文档。
小标题纠错子模块的功能是纠正原文作者的笔误。其输入是小标题标示模块 的输出,这时的小标题标示由于原文作者的笔误还可能有错误,例如,作者把
"1. 2. 1"误写为"1. 3. 1",此模块可以把这种笔误修复过来。其输出就是做了 纠错工作后的文档。
逻辑结构树生成子模块的功能是把文档逻辑结构描述成逻辑结构树形式。其 输入是小标题纠错子模块的输出,其输出是文档的逻辑结构树。
第三,词、句法分析:自动分词是自然语言处理界的一个非常基本的问题,
包括机械式分词法和理解式切词法两种,两者无严格的先后次序。本实施例词法 及句法分析模块采用词法句法综合分析的方法,分析过程采用了基于常用的语法 树库概率模型。
第四,概念抽取:概念抽取的核心问题是概念库结构和对概念库的访问算法。 本实施例概念抽取模块的概念库组织方式是:概念条目和零、一、二、三级扩展 字串有较高同义度;概念条目和四、五级扩展字串的同义度较低;概念条目和六
级扩展字串的同义度最低。为了快速地访问概念库,采用了哈希技术把零级和一级扩展字串按字典序排列,并且,每个字串都可映射到相应的概念条目。
参见表1概念条目层次扩展表,表示了代表词"香港"和文章中相关字串关 系。例如,"香港特别行政区"和"香港"是含义相同的字串。字串"新界"和 "香港"有上下位关系,但却不能完全代替。当在文章中遇到相关字串时可以规 范为香港这个词的系数向量。例如,如果文档中出现了 "香港";c次,"新界"y 次,则该文章可以由概念香港来代表的系数为:lxx + 0.5x;;。表1如下:
扩展层次 包含内容 示例 系数
零级扩展 代表字串 香港 1
一级扩展 涵义完全相同字串 香港特别行政区、香江、 香海 1
二级扩展 直接相关(子串査询并去除 港督、港币、香港经济、 港澳台 0.5
错误的涵义)
三级扩展 常识知识 一国两制、董建华 0. 25
四级扩展 下位、部分、场所、材料 香港岛、九龙和新界 0. 125
五级扩展 上位(包括同一层次)扩展 中国 0. 063
六级扩展 虚拟节点(递归扩展) 0,031
第五,主题表示:主题表示包含特征选择和加权方法两个内容。主题表示模 块使用概念抽取模块的算法, 一篇文档可以抽取出一系列的概念,这些概念都对 文档具有一定的代表作用。特征选择是选取最能够代表一篇文档的一组概念,并
组成一个向量。本实施例的加权算法采用了概念对文档的代表系数。例如, 一篇 文档可能包含概念"香港",代表系数为1.5;概念"政治",代表系数为10;概 念"选举",代表系数为0.5;…。则该文档的主题表示为:(政治,10;香港,1.5; 选举,0.5; …)
本实施例可扩充性体现在用户可以集成新得文档格式到该引擎系统,以支 持特殊文件格式处理;服务多样性,应用程序能根据需要从该引擎获得不同层次
的服务。本实施例系统可应用于语义和互联网内容安全分析类项目(例如,垃圾 邮件防范系统、中文自动摘要系统、互联网舆情分析与监测系统等),并达到了 实际应用水平。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈