首页 / 专利库 / 专利权 / 专利合作条约 / 第I章 / 国际申请 / 摘要 / 摘要生成装置和摘要生成方法

摘要生成装置和摘要生成方法

阅读:77发布:2020-05-11

专利汇可以提供摘要生成装置和摘要生成方法专利检索,专利查询,专利分析的服务。并且本 发明 目的是提供 摘要 生成装置和摘要生成方法,通过考虑具有多个词义的单词而能够生成适当的摘要。在摘要生成装置(100)中设有:存储文章数据的文章数据存储部(10);对由文章数据表示的文章中的多个单词,基于该文章数据统计各单词的词频,当文章中的单词具有多个词义时,按照每个词义作为不同的副单词处理,统计与各副单词对应的词频的词频统计部(20);基于文章数据和表示文章中的单词和副单词中词频最高者的数据来选择文章中的多个句子,从而生成摘要数据的句子选择部(30)。,下面是摘要生成装置和摘要生成方法专利的具体信息内容。

1.一种摘要生成装置,其特征在于,具有:
存储文章数据的文章数据存储部;
词频统计部,对由上述文章数据表示的文章中的多个单词,基于该文章数据统计各单词的词频,当上述文章中的单词具有多个词义时,按照每个词义作为不同的副单词处理,统计与各副单词对应的词频;
句子选择部,基于上述文章数据和表示上述文章中的单词和副单词中通过上述词频统计部统计的词频最高者的数据,选择上述文章中的多个句子,从而生成摘要数据。
2.根据权利要求1所述的摘要生成装置,其特征在于,
上述词频统计部具有:
存储将单词、与该单词对应的多个词义、与该多个词义各自对应的搭配语关联起来的词典数据的词典数据存储部;
基于上述文章数据和上述词典数据判断上述文章中的各单词是否具有多个词义的单词判断部;
基于上述文章数据和上述词典数据从包含通过上述单词判断部判断为具有多个词义的单词的句子中检测与该单词关联的搭配语的搭配语检出部;
出现数取得部,基于上述文章数据和上述词典数据,对通过上述单词判断部判断为不具有多个词义的单词,取得在上述文章中出现的该单词的数量作为词频,对通过上述单词判断部判断为具有多个词义的单词,按照与通过上述搭配语检出部检出的搭配语对应的每个词义作为不同的副单词处理,取得在上述文章中出现的该副单词的数量作为词频。
3.根据权利要求2所述的摘要生成装置,其特征在于,
上述搭配语检出部构成为,当未检出上述搭配语时,从包含上述判断为具有多个词义的单词的句子的上下文中,检出与该单词关联的搭配语。
4.根据权利要求2或3所述的摘要生成装置,其特征在于,
上述词典数据将单词与跟该单词对应的同义词建立关联,
上述搭配语检出部构成为,当未检出上述搭配语时,从包含该单词的句子中检测与上述判断为具有多个词义的单词对应的同义词关联的搭配语,
上述出现数取得部构成为,对通过上述搭配语检出部检出与上述同义词关联的搭配语的单词,按照与该搭配语对应的每个词义作为不同的第二副单词处理,取得在上述文章中出现的该第二副单词的数量作为词频。
5.根据权利要求2~4中任一项所述的摘要生成装置,其特征在于,
上述词典数据将单词与跟该单词对应的近义词建立关联,
上述搭配语检出部构成为,当未检出上述搭配语时,从包含该单词的句子中检测与上述判断为具有多个词义的单词对应的近义词关联的搭配语,
上述出现数取得部构成为,对通过上述搭配语检出部检出与上述近义词关联的搭配语的单词,按照与该搭配语对应的每个词义作为不同的第三副单词处理,取得在上述文章中出现的该第三副单词的数量作为词频。
6.根据权利要求2~5中任一项所述的摘要生成装置,其特征在于,
上述词典数据将单词与跟该单词对应的反义词建立关联,
上述搭配语检出部构成为,当未检出上述搭配语时,从包含该单词的句子中检测与上述判断为具有多个词义的单词对应的反义词关联的搭配语,
上述出现数取得部构成为,对通过上述搭配语检出部检出与上述反义词关联的搭配语的单词,按照与该搭配语对应的每个词义作为不同的第四副单词处理,取得在上述文章中出现的该第四副单词的数量作为词频。
7.一种摘要生成方法,是从文章数据生成摘要数据的摘要生成装置生成摘要数据时的摘要生成方法,其特征在于,包含以下步骤:
词频统计步骤,对由上述文章数据表示的文章中的多个单词,基于该文章数据统计各单词的词频,当上述文章中的单词有多个词义时,按照每个词义作为不同的副单词处理,统计与各副单词对应的词频;
句子选择步骤,基于上述文章数据和表示上述文章中的单词和副单词中在上述词频统计步骤中统计的词频最高者的数据,选择上述文章中的多个句子,从而生成摘要数据。
8.根据权利要求7所述的摘要生成方法,其特征在于,
上述词频统计步骤包含:
基于上述文章数据以及、将单词、与该单词对应的多个词义、与该多个词义各自对应的搭配语关联起来的词典数据,判断上述文章中的各单词是否具有多个词义的单词判断步骤;
基于上述文章数据和上述词典数据,从包含在上述单词判断步骤中判断为具有多个词义的单词的句子中检出与该单词关联的搭配语的搭配语检出步骤;
出现数取得步骤,基于上述文章数据和上述词典数据,对在上述单词判断步骤中判断为不具有多个词义的单词,取得在上述文章中出现的该单词的数量作为词频,对在上述单词判断步骤中判断为具有多个词义的单词,按照与在上述搭配语检出步骤中检出的搭配语对应的每个词义作为不同的副单词处理,取得在上述文章中出现的该副单词的数量作为词频。

说明书全文

摘要生成装置和摘要生成方法

技术领域

[0001] 本发明涉及摘要生成装置和摘要生成方法。

背景技术

[0002] 为了电子书籍的检索等目的而应用从表示文章的文章数据生成表示摘要的摘要数据的技术。作为摘要生成的步骤,例如有对于构成文章的各句根据各种各样的基准计算
分值而抽出分值较高的句子的步骤。
[0003] 例如JP特开2003-281164号公报记载有利用单词词频作为分值计算的基准的方式。这是因为词频较高的单词被推测为文章中重要的单词。
[0004] 文章由多个句子构成,句子由多个单词构成。并且,在各个单词中存在不只有一个词义而具有多个词义的单词。但是,在JP特开2003-281164号公报记载的方法中,在利用
单词词频时未考虑单词的词义。
[0005] 关于具有多个词义的单词,即使词频高也存在与各词义对应的词频低的情况。因此,具有多个词义的单词即使词频高也可能并非重要单词。因此,按照JP特开2003-281164
号公报记载的方法,对于具有多个词义的单词不加考虑地仅基于各单词的词频计算分值,
即使抽出了句子也无法生成适当的摘要。

发明内容

[0006] 本发明为了解决上述课题而做出,其目的在于提供摘要生成装置和摘要生成方法,通过对具有多个词义的单词进行考虑而能够生成适当的摘要。
[0007] 本发明是摘要生成装置,其特征在于,具有:存储文章数据的文章数据存储部;
[0008] 词频统计部,对由上述文章数据表示的文章中的多个单词,基于该文章数据统计各单词的词频,当上述文章中的单词具有多个词义时,按照每个词义作为不同的副单词处
理,统计与各副单词对应的词频;
[0009] 句子选择部,基于上述文章数据和表示上述文章中的单词和副单词中通过上述词频统计部统计的词频最高者的数据,选择上述文章中的多个句子,从而生成摘要数据。
[0010] 根据本发明,词频统计部,当文章中的单词具有多个词义时,按照每个词义作为不同的副单词处理,统计与各副单词对应的词频。并且,句子选择部,基于表示文章中的单词
和副单词中通过词频统计部统计的词频最高者的数据,选择句子来生成摘要数据。因此,本
发明的摘要生成装置,能够生成考虑了具有多个词义的单词的适当的摘要。
[0011] 并且本发明的摘要生成装置,其特征在于,上述词频统计部具有:
[0012] 存储将单词、与该单词对应的多个词义、与该多个词义各自对应的搭配语关联起来的词典数据的词典数据存储部;
[0013] 基于上述文章数据和上述词典数据判断上述文章中的各单词是否具有多个词义的单词判断部;
[0014] 基于上述文章数据和上述词典数据从包含通过上述单词判断部判断为具有多个词义的单词的句子中检出与该单词关联的搭配语的搭配语检出部;
[0015] 出现数取得部,基于上述文章数据和上述词典数据,对通过上述单词判断部判断为不具有多个词义的单词,取得在上述文章中出现的该单词的数量作为词频,对通过上述
单词判断部判断为具有多个词义的单词,按照与通过上述搭配语检出部检出的搭配语对应
的每个词义作为不同的副单词处理,取得在上述文章中出现的该副单词的数量作为词频。
[0016] 并且根据本发明,能够基于在词典数据存储部中存储的词典数据,通过搭配语检出部检出与具有多个词义的单词关联的搭配语。并且,能够通过出现数取得部对具有多个
词义的单词,按照与搭配语检出部检出的搭配语对应的每个词义作为不同的副单词处理,
取得在文章中出现的该副单词的数量作为词频。
[0017] 并且本发明的摘要生成装置,其特征在于,上述搭配语检出部构成为,当未检出上述搭配语时,从包含上述判断为具有多个词义的单词的句子的前一句和后一句的至少一方
中,检测与该单词关联的搭配语。
[0018] 并且根据本发明,搭配语检出部从包含具有多个词义的单词的句子的前一句和后一句的至少一方中检出搭配语。因此,即使包含具有多个词义的单词的句子中不存在搭配
语,对于该单词,也能够按照与搭配语对应的每个词义作为不同的副单词处理,从而能够生
成适当的摘要。
[0019] 并且本发明的摘要生成装置,其特征在于,上述词典数据将单词与跟该单词对应的同义词建立关联,
[0020] 上述搭配语检出部构成为,当未检出上述搭配语时,从包含该单词的句子中检测与上述判断为具有多个词义的单词对应的同义词关联的搭配语,
[0021] 上述出现数取得部构成为,对通过上述搭配语检出部检出与上述同义词关联的搭配语的单词,按照与该搭配语对应的每个词义作为不同的第二副单词处理,取得在上述文
章中出现的该第二副单词的数量作为词频。
[0022] 并且根据本发明,搭配语检出部从包含具有多个词义的单词的句子中检出与该单词的同义词关联的搭配语。因此,即使包含具有多个词义的单词的句子中不存在该单词的
搭配语,对于该单词,也能够按照与同义词的搭配语对应的每个词义作为不同的第二副单
词处理,从而能够生成适当的摘要。
[0023] 并且,即使在包含具有多个词义的单词的句子的前一句和后一句中不存在该单词的搭配语,对于该单词,也能够按照与同义词的搭配语对应的词义作为不同的第二副单词
处理,从而能够生成适当的摘要。
[0024] 并且本发明的摘要生成装置,其特征在于,上述词典数据将单词与跟该单词对应的近义词建立关联,
[0025] 上述搭配语检出部构成为,当未检出上述搭配语时,从包含该单词的句子中检测与上述判断为具有多个词义的单词对应的近义词关联的搭配语,
[0026] 上述出现数取得部构成为,对通过上述搭配语检出部检出与上述近义词关联的搭配语的单词,按照与该搭配语对应的每个词义作为不同的第三副单词处理,取得在上述文
章中出现的该第三副单词的数量作为词频。
[0027] 并且根据本发明,搭配语检出部从包含具有多个词义的单词的句子中检出与该单词的近义词关联的搭配语。因此,即使包含具有多个词义的单词的句子中不存在该单词的
搭配语,对于该单词,也能够按照与近义词的搭配语对应的每个词义作为不同的第三副单
词处理,从而能够生成适当的摘要。
[0028] 并且,即使在包含具有多个词义的单词的句子的前一句和后一句中不存在该单词的搭配语,或者不存在与该单词的同义词关联的搭配语,对于该单词,也能够按照与近义词
的搭配语对应的每个词义作为不同的第三副单词处理,从而能够生成适当的摘要。
[0029] 并且本发明的摘要生成装置,其特征在于,上述词典数据将单词与跟该单词对应的反义词建立关联,
[0030] 上述搭配语检出部构成为,当未检出上述搭配语时,从包含该单词的句子中检测与上述判断为具有多个词义的单词对应的反义词关联的搭配语,
[0031] 上述出现数取得部构成为,对通过上述搭配语检出部检出与上述反义词关联的搭配语的单词,按照与该搭配语对应的词义作为不同的第四副单词处理,取得在上述文章中
出现的该第四副单词的数量作为词频。
[0032] 并且根据本发明,搭配语检出部从包含具有多个词义的单词的句子中检测与该单词的反义词关联的搭配语。因此,即使包含具有多个词义的单词的句子中不存在该单词的
搭配语,对于该单词,也能够按照与反义词的搭配语对应的每个词义作为不同的第四副单
词处理,从而能够生成适当的摘要。
[0033] 并且,即使在包含具有多个词义的单词的句子的前一句和后一句中不存在该单词的搭配语,或者不存在与该单词的同义词和近义词关联的搭配语,对于该单词,也能够按照
与反义词的搭配语对应的每个词义作为不同的第四副单词处理,从而能够生成适当的摘
要。
[0034] 并且本发明的摘要生成方法,是从文章数据生成摘要数据的摘要生成装置生成摘要数据时的摘要生成方法,其特征在于,包含以下步骤:
[0035] 词频统计步骤,对由上述文章数据表示的文章中的多个单词,基于该文章数据统计各单词的词频,当上述文章中的单词有多个词义时,按照每个词义作为不同的副单词处
理,统计与各副单词对应的词频;
[0036] 句子选择步骤,基于上述文章数据和表示上述文章中的单词和副单词中在上述词频统计步骤中统计的词频最高者的数据选择上述文章中的多个句子,从而生成摘要数据。
[0037] 并且根据本发明,在词频统计步骤中,当文章中的单词具有多个词义时,按照每个词义作为不同的副单词处理,统计与各副单词对应的词频。并且,在句子选择步骤中,基于
表示文章中的单词和副单词中通过词频统计部统计的词频最高者的数据选择句子来生成
摘要数据。因此,采用本发明的摘要生成方法,能够生成考虑了具有多个词义的单词的适当
的摘要。
[0038] 并且本发明的摘要生成方法,其特征在于,上述词频统计步骤,包含:
[0039] 基于上述文章数据以及、将单词、与该单词对应的多个词义、与该多个词义各自对应的搭配语关联起来的词典数据,判断上述文章中的各单词是否具有多个词义的单词判断
步骤;
[0040] 基于上述文章数据和上述词典数据,从包含在上述单词判断步骤中判断为具有多个词义的单词的句子中检出与该单词关联的搭配语的搭配语检出步骤;
[0041] 出现数取得步骤,基于上述文章数据和上述词典数据,对在上述单词判断步骤中判断为不具有多个词义的单词,取得在上述文章中出现的该单词的数量作为词频,对在上
述单词判断步骤中判断为具有多个词义的单词,按照与在上述搭配语检出步骤中检出的搭
配语对应的每个词义作为不同的副单词处理,取得在上述文章中出现的该副单词的数量作
为词频。
[0042] 并且根据本发明,能够基于词典数据,在搭配语检出步骤中,检测与具有多个词义的单词关联的搭配语。并且,能够在出现数取得步骤中,对具有多个词义的单词,按照与在
搭配语检出步骤中检出的搭配语对应的每个词义作为不同的副单词处理,取得在文章中出
现的该副单词的数量作为词频。
附图说明
[0043] 本发明的目的、特色和优点通过下述详细说明和附图能够更加明确。
[0044] 图1为基于功能表示摘要生成装置的构成的框图
[0045] 图2为表示相对于文章数据的摘要数据生成处理的流程图

具体实施方式

[0046] 以下参照附图对本发明的优选实施方式进行详细说明。
[0047] 以下对本发明实施方式的摘要生成装置100进行说明。摘要生成装置100是从文章数据生成摘要数据的装置。
[0048] 图1为功能性表示摘要生成装置100的构成的框图。摘要生成装置100通过PC(Personal Computer)等具备的现有公知的控制运算装置和存储装置实现,在功能上包
含文章数据存储部10、词频统计部20、句子选择部30。词频统计部20包含前处理部21、词
典数据存储部22、单词判断部23、搭配语检出部24、出现数取得部25。
[0049] 文章数据存储部10具有存储作为生成摘要数据的对象的文章数据的功能。通过文章数据表示的文章(以下有时简称为“文章”)例如是论文或小说等。
[0050] 词典数据存储部22具有存储词典数据的功能。词典数据为关于各种单词的总括性数据。具体而言设定为,在词典数据中对各单词关联该单词是否具有多个词义的信息。并
且设定为,在词典数据中,对具有多个词义的单词关联多个词义和与该多个词义各自对应
的搭配语。这里,搭配语是关于具有多个词义的单词的各词义,作为表示该词义的单词在句
中使用该单词时,与其它词义比较,通常与该单词一起在相同句中使用的可能性高的单词。
[0051] 例如,“打”这个中文单词具有“买”、“玩”、“搅拌”、“装订”、“浸泡”等词义。在与该单词“打”一起使用中文单词“酒”时,与其它词义比较,表示“买”的词义的可能性通常较高。因此,单词“酒”在词典数据中设定为与词义“买”对应的搭配语。并且,对于一个单
词,一个搭配语仅对应一个词义。因此,在单词“酒”设定为对应词义“买”的搭配语的情况
下,不会作为与“搅拌”、“浸泡”等其它词义对应的搭配语来设定。
[0052] 搭配语可以利用Wordnet或hownet等数据库,根据人的判断在词典数据中设定,并且也可以使输入了电子报纸或网站等的文章数据的信息处理装置判断来设定搭配语。例
如,使信息处理装置判断与单词“打”的词义“搅拌”对应的搭配语时,从通过文章数据表示
的文章中检测包含单词“搅拌”的句子,按照在包含“搅拌”的单词的句子中出现的次数的
降序将规定个数(例如100个)的单词判断为与单词“打”的词义“搅拌”对应的搭配语。
并且,虽然对于与一个词义对应地设定的搭配语的数量没有特别限制,但是优选为50个以
上。
[0053] 并且,对于具有多个词义的单词,在词典数据中,对该单词关联设定表示与其它词义相比一般情况下最常用的词义的信息。与其它词义相比可能最常用的词义,根据以报纸
等为基础的统计进行选择。
[0054] 并且,在词典数据中,对各单词关联设定同义词、近义词和反义词。并且,在词典数据中,也对各单词关联设定表示该单词的词类的信息。
[0055] 对于词频统计部20、前处理部21、单词判断部23、搭配语检出部24、出现数取得部25和句子选择部30的功能,按照针对文章数据的摘要数据生成处理进行说明。图2为表示
针对文章数据的摘要数据生成处理的流程图。摘要数据生成处理按照词频统计步骤S1、句
子选择步骤S2的顺序进行。
[0056] 在词频统计步骤S1中,词频统计部20对通过文章数据表示的文章中的多个单词,基于该文章数据统计各单词的词频。在词频统计步骤S1中,当文章中的单词具有多个词义
时,词频统计部20按照每个词义作为不同的副单词处理,统计与各副单词对应的词频。在
句子选择步骤S2中,通过句子选择部30,基于文章数据和表示文章中的单词和副单词中在
词频统计步骤S1中统计的词频最高者的数据,选择文章中的多个句子而生成摘要数据。
[0057] 词频统计步骤S1,具体而言,按照前处理步骤S1-1、单词判断步骤S1-2、搭配语检出步骤S1-3、出现数取得步骤S1-4的顺序进行。在前处理步骤S1-1中,通过前处理部21
对文章数据进行前处理。具体而言,作为前处理,首先根据文章中的句号、终止符,将文章分
割为构成该文章的各个句子。接着,依照词典数据将各个句子分割为构成各句的各单词。
[0058] 在单词判断步骤S1-2中,通过单词判断部23,基于文章数据和词典数据,判断文章中的各单词是否具有多个词义。当作为判断对象的单词,在词典数据中没有设定,或者与
不具有多个词义的信息关联时,判断为不具有多个词义,当与具有多个词义的信息关联时,
判断为具有多个词义。
[0059] 在搭配语检出步骤S1-3中,通过搭配语检出部24,基于文章数据和词典数据,从包含在单词判断步骤S1-2中判断为具有多个词义的单词(以下有时称为“对象单词”)的
句子(以下称为“本句”)中检出与该对象单词关联的搭配语。在本实施方式中,当未从本
句中检出搭配语时,通过搭配语检出部24,从本句的前一句(以下称为“前句”)中检测搭配
语。并且,在本实施方式中,当未从前句中检出搭配语时,通过搭配语检出部24,从本句的后
一句(以下称为“后句”)中检测搭配语。并且,作为本发明的其他实施方式,可以构成为,
当未从本句中检出搭配语时,从后句中检测搭配语,此时如果没有从后句中检出搭配语,则
从前句中检测搭配语。
[0060] 并且在本实施方式中,当在本句中、前句中和后句中均未检出与对象单词关联的搭配语时,通过搭配语检出部24,基于词典数据,从本句中检测与该对象单词的同义词关联
的搭配语。如果在词典数据中相对于对象单词没有设定同义词,或者在词典数据中没有设
定与该同义词对应的搭配语,或者未从本句中检出与该同义词关联的搭配语,则通过搭配
语检出部24,基于词典数据,从本句中检测与该对象单词的近义词关联的搭配语。如果在词
典数据中相对于对象单词没有设定近义词,或者在词典数据中没有设定与该近义词对应的
搭配语,或者未从本句中检出与该近义词关联的搭配语,则通过搭配语检出部24,基于词典
数据,从本文中检测与该对象单词的反义词关联的搭配语。
[0061] 并且在本实施方式中,如果在词典数据中相对于对象单词没有设定反义词,或者在词典数据中没有设定与该反义词对应的搭配语,或者没有从本句中检出与该反义词关联
的搭配语,则判断为通过搭配语检出部24,基于词典数据,检出了与其它词义相比可能最常
用的词义对应的搭配语,进行此后的处理。在词典数据中,相对于对象单词,没有设定表示
与其它词义相比可能最常用的词义的信息时,则通过搭配语检出部24判断为本句中不存
在对象单词,进行此后的处理。
[0062] 在出现数取得步骤S1-4中,出现数取得部25,基于文章数据和词典数据,对在单词判断步骤S1-2中判断为不具有多个词义的单词,取得在文章中出现的该单词的数量作
为词频。因此,对在单词判断步骤S1-2中判断为不具有多个词义的单词,在单词判断步骤
S1-2的处理之后,立即进行出现数取得步骤S1-4的处理。
[0063] 另外,在出现数取得步骤S1-4中,出现数取得部25,基于文章数据和词典数据,对在单词判断步骤S1-2中判断为具有多个词义的单词,按照与在搭配语检出步骤S1-3中检
出的该单词的搭配语对应的每个词义作为不同的第一副单词处理,取得在文章中出现的该
第一副单词的数量作为词频。
[0064] 另外,在出现数取得步骤S1-4中,出现数取得部25,基于文章数据和词典数据,对在搭配语检出步骤S1-3中检出了与对象单词的同义词关联的搭配语的该对象单词,按照
与该搭配语对应的每个词义作为不同的第二副单词处理,取得在文章中出现的该第二副单
词的数量作为词频。
[0065] 另外,在出现数取得步骤S1-4中,出现数取得部25,基于文章数据和词典数据,对在搭配语检出步骤S1-3中检出了与对象单词的近义词关联的搭配语的该对象单词,按照
与该搭配语对应的每个词义作为不同的第三副单词处理,取得在文章中出现的该第三副单
词的数量作为词频。
[0066] 另外,在出现数取得步骤S1-4中,出现数取得部25,基于文章数据和词典数据,对在搭配语检出步骤S1-3中检出了与对象单词的反义词关联的搭配语的该对象单词,按照
与该搭配语对应的每个词义作为不同的第四副单词处理,取得在文章中出现的该第四副单
词的数量作为词频。
[0067] 例如,假设在汉语文章中含有“我打酒”的汉语句子。该句子由单词“我”、“打”和“酒”构成。并且,“打”这个中文单词,如上所述具有“买”、“玩”、“搅拌”、“装订”、“浸泡”的意思。在词典数据中,关于单词“打”,与词义“买”对应地关联搭配语“酒”时,在出现数取得步骤S1-4中,单词“打”作为“意思是‘买’的‘打’”的第一副单词处理,判定为出现一个“意思是‘买’的‘打’”的副单词。对于文章中的其它单词“打”,也作为“意思是‘买’的‘打’”的副单词处理时,判定为出现一个“意思是‘买’的‘打’”的副单词。并且,判定的数的合计值,作为“意思是‘买’的‘打’”的副单词的出现数量取得,并将取得的出现数作为词频。
[0068] 另外,例如在词典数据中,关于“A”这个单词,设定“A1”、“A2”和“A3”等词义,设定“B”是同义词、“C”是近义词、“D”是反义词,对同义词“B”设定“B1”、“B2”等词义,对近义词“C”设定“C1”、“C2”的词义,对反义词“D”设定“D1”、“D2”、“D3”的词义,和词义“A1”、词义“A2”、词义“A3”、词义“B1”、词义“B2”、词义“C1”、词义“C2”、词义“D1”、词义“D2”、词义“D3”分别对应地,设定“a”、“b”、“c”、“d”、“e”、“f”、“g”、“h”、“i”、“j”的搭配语时的处理如下所示。并且,此时假设对单词“A”设定一般情况下最常用的词义为“A1”。
[0069] 此时,首先对于单词“A”,从本句、前句和后句中的任一个检测搭配语“a”、“b”、“c”的任一个。例如,在本句中检出了搭配语“b”时,单词“A”作为“意思是‘A2’的‘A’”的第一副单词处理,判定为出现一个“意思是‘A2’的‘A’”的第一副单词。
[0070] 并且,在本实施方式中,从本句中(或者前句中或后句中),检出关于对象单词与两个以上的词义分别对应的搭配语时,基于词典数据,该对象单词作为表示该对象单词的
词义中一般情况下最常用的词义的第一副单词处理,判定为出现一个表示对象单词的词义
中一般情况下最常用的词义的第一副单词。例如,在本句中检出了搭配语“a”、“c”时,对象单词“A”作为“意思是‘A1’的‘A’”的第一副单词处理,判定为出现一个“意思是‘A1’的‘A’”的第一副单词。对于对象单词,没有设定表示与其它词义相比一般情况下最常用的词
义的信息时,作为该对象单词在本句中不存在的情况处理,未取得出现数。
[0071] 在本句中、前句和后句中均未检出与对象单词“A”对应的搭配语“a”、“b”、“c”的任一个时,从本句中检出了与同义词“B”对应的搭配语“d”、“e”的任一个。例如,在本句中检出搭配语“e”时,单词“A”作为“具有与‘B2’基本相同意思的‘A’”这样的第二副单词处理,判定为出现一个“具有与‘B2’基本相同意思的‘A’”这样的第二副单词。
[0072] 并且,在本实施方式中,从本句中对于同义词检出了与两个以上的词义分别对应的搭配语时,基于词典数据,对象单词作为表示与同义词的词义中一般情况下最常用的词
义基本相同的意思的第二副单词处理,判定为出现一个表示与同义词的词义中一般情况下
最常用的词义基本相同的意思的第二副单词。关于同义词,没有设定表示与其它词义相比
一般情况下最常用的词义的信息时,作为对象单词在本句中不存在的情况处理,未取得出
现数。
[0073] 在本句中,与同义词“B”对应的搭配语“d”、“e”均未检出时,从本句中检测与近义词“C”对应的搭配语“f”、“g”的任一个。例如,在本句中检出搭配语“f”时,单词“A”作为“具有与‘C1’类似意思的‘A’”这样的第三副单词处理,判定为出现一个“具有与‘C1’基本相同意思的‘A’”这样的第三副单词。
[0074] 并且,在本实施方式中,从本句中,对于近义词检出了与两个以上的词义分别对应的搭配语时,基于词典数据,对象单词作为表示与近义词的词义中一般情况下最常用的词
义类似的意思的第三副单词处理,判定为出现一个表示与近义词的词义中一般情况下最常
用的词义类似的意思的第三副单词。对于近义词,没有设定与其它词义相比一般情况下最
常用的词义的信息时,作为对象单词在本句中不存在的情况处理,未取得出现数。
[0075] 在本句中,与近义词“C”对应的搭配语“f”、“g”均未检出时,从本句中检测与反义词“D”对应的搭配语“h”、“i”、“j”的任一个。例如,在本句中检出搭配语“j”时,单词“A”作为“具有与‘D3’相反意思的‘A’”这样的第四副单词处理,判定为出现一个“具有与‘D3’相反意思的‘A’”这样的第四副单词。
[0076] 并且,在本实施方式中,从本句中,对于反义词检出了与两个以上的词义分别对应的搭配语时,基于词典数据,对象单词作为表示与反义词的词义中一般情况下最常用的词
义相反意思的第四副单词处理,判定为出现一个表示与反义词的词义中一般情况下最常用
的词义相反意思的第四副单词。对于反义词,没有设定与其它词义相比一般情况下最常用
的词义的信息时,作为对象单词在本句中不存在的情况处理,未取得出现数。
[0077] 在本句中,与反义词“D”对应的搭配语“h”、“i”、“j”均未检出时,基于词典数据,对象单词作为表示该对象单词的词义中一般情况下最常用的词义的第一副单词处理,判定为出现一个表示该对象单词的词义中一般情况下最常用的词义的第一副单词。对于对象单
词,没有设定与其它词义相比可能最常用的词义的信息时,作为该对象单词在本句中不存
在的情况处理,未取得出现数。
[0078] 这样,在本实施方式中,按照(1)从本句中检出对象单词的搭配语,(2)未从本句中检出对象单词的搭配语时,从前句中和后句中检出对象单词的搭配语,(3)从前句中和后
句中未检出对象单词的搭配语时,从本句中检出同义词的搭配语,(4)未检出同义词的搭配
语时,从本句中检出近义词的搭配语,(5)未检出近义词的搭配语时,从本句中检出反义词
的搭配语,(6)未检出反义词的搭配语时,作为表示对象单词的词义中一般情况下最常用的
词义的第一副单词处理这样的顺序,进行词频统计的处理。但是,作为本发明,不限于此,可
以适宜地设定是否分别进行从前句中和后句中检出对象单词的搭配语的处理、检出同义词
的搭配语的处理、检出近义词的搭配语的处理、检出反义词的搭配语的处理、作为表示对象
单词的词义中一般情况下最常用的词义的第一副单词的处理,或者也能够适宜地设定各自
执行的顺序。
[0079] 并且,在本实施方式中,可以设置停止词。停止词是在出现数取得部25进行的出现数取得处理中作为句中不存在的情况处理的单词,例如是前置词或后置词等。对于停止
词不统计词频。
[0080] 并且,虽然在本实施方式中,出现数取得部25将出现数直接作为词频,但是作为本发明的其它实施方式,出现数取得部25也可以构成为将出现数乘以与单词的词类对应
的所定系数所得值作为词频。例如,在单词或者第一~第四副单词为名词时将出现数乘以
1.5的值作为词频,为动词时将出现数乘以0.8的值作为词频等。
[0081] 当上述这样的词频统计步骤S1的处理结束后,在句子选择步骤S2中,通过句子选择部30,基于文章数据和表示文章中的单词和第一~第四副单词中在出现数取得步骤
S1-4中统计的词频最高者的数据,选择文章中的多个句子。然后,句子选择部30生成表示
将选择的句子进行概括的摘要的摘要数据。
[0082] 例如,“E”这个单词的词频为10,“F”这个单词的词频为20,“意思是A2的A”这样的第一副单词的词频为30时,词频最高者是“意思是‘A2’的‘A’”这样的第一副单词。使用表示该第一副单词的数据,例如句子选择部30选择包含“意思是‘A2’的‘A’”的所有句
子,将仅由包含“意思是‘A2’的‘A’”的句子构成的文章作为摘要,生成摘要数据。
[0083] 并且,句子选择部30也可以构成为一并使用词频以外的信息进行句子的选择。作为词频以外的信息,有各句在文章整体中的位置信息、用户设定关键字信息、文章题目所含
单词信息、提示词(Cue word)信息等。提示词是“也就是说”、“即”、“总之”等表示要旨的句子中所含的单词。
[0084] 例如构成为,在一并使用词频以外的信息进行句子的选择时,句子选择部30计算各句的分值进行句子的选择。分值计算的基准,例如在使用各句在文章整体中的位置信息
时,是将文章整体分割为文章前半部和文章后半部,对文章前半部中的句子赋予1分,对文
章后半部中的句子赋予2分等。并且,在使用用户设定的关键字信息时,是对包含该关键字
信息表示的单词的句子赋予10分等,在使用文章题目中所含单词信息时,是对包含该单词
信息表示的单词的句子赋予10分等,在使用提示词信息时,是对包含该提示词信息表示的
单词的句子赋予10分等。
[0085] 以这种基准计算各句的分值的同时,也计算以词频为基准的分值。例如,对包含词频第一高的单词(或者第一~第四副单词)的句子,对每一个该单词(或者第一~第四副
单词)赋予10分,对包含词频第二高的单词(或者第一~第四副单词)的句子,对每一个
该单词(或者第一~第四副单词)赋予5分,对包含词频第三高的单词(或者第一~第四
副单词)的句子,对每一个该单词(或者第一~第四副单词)赋予1分等。然后,句子选择
部30能够按照以全部的基准算出的分值的合计值的降序,选择上位5个句子,生成摘要数
据。
[0086] 根据本发明的摘要生成装置100,词频统计部20,当文章中的单词具有多个词义时,按照每个词义作为不同的副单词(第一~第四副单词)处理,统计与各副单词对应的词
频,句子选择部30,基于表示文章中的单词和副单词中通过词频统计部统计的词频最高者
的数据,生成摘要数据,因此能够生成考虑了具有多个词义的单词的适当的摘要。
[0087] 并且在本实施方式中,基于在词典数据存储部22中存储的词典数据,通过搭配语检出部24,能够检出与具有多个词义的单词关联的搭配语。并且,能够通过出现数取得部
25,对于具有多个词义的单词,按照与搭配语检出部24检出的搭配语对应的每个词义作为
不同的副单词(第一~第四副单词)处理,取得在文章中出现的该副单词的数量作为词频。
[0088] 并且在本实施方式中,搭配语检出部24,在从本句中未检出与对象单词对应的搭配语时,从前句中和后句中检出该搭配语。因此,即使在本句中不存在与对象单词对应的搭
配语,也能够对该对象单词按照与搭配语对应的每个词义作为不同的第一副单词处理,从
而生成适当的摘要。
[0089] 并且在本实施方式中,搭配语检出部24,在从本句、前句和后句中均未检出与对象单词对应的搭配语时,从本句中检测与该单词的同义词关联的搭配语。因此,即使在本句、
前句和后句中不存在与对象单词对应的搭配语,对于该对象单词,也能够按照与同义词的
搭配语对应的每个词义作为不同的第二副单词处理,从而生成适当的摘要。
[0090] 并且在本实施方式中,搭配语检出部24,在从本句中未检出与对象单词的同义词对应的搭配语时,从本句中检测与该单词的近义词关联的搭配语。因此,即使在本句中不存
在与对象单词和该对象单词的同义词对应的搭配语,对于该对象单词,也能够按照与近义
词的搭配语对应的每个词义作为不同的第三副单词处理,从而生成适当的摘要。
[0091] 并且在本实施方式中,搭配语检出部24,在从本句中未检出与对象单词的近义词对应的搭配语时,从本句中检测与该单词的反义词关联的搭配语。因此,即使在本句中不存
在与对象单词、该对象单词的同义词以及近义词对应的搭配语,对于该对象单词,也能够按
照与反义词的搭配语对应的每个词义作为不同的第四副单词处理,从而生成适当的摘要。
[0092] 并且在本实施方式中,搭配语检出部24,在从本句中未检出与对象单词的反义词对应的搭配语时,关于对象单词,判断为在本句中检出了与其它词义相比一般情况下最常
用的词义对应的搭配语。因此,在本句中,即使不存在与对象单词以及该对象单词的同义
词、近义词和反义词对应的搭配语,对于该对象单词,也能够作为表示与该对象单词的词义
中其它词义相比一般情况下最常用的词义的第一副单词处理,从而能够生成适当的摘要。
[0093] 摘要生成装置100,可以通过在现有公知的信息处理装置中存储使该信息处理装置作为摘要生成装置100发挥功能的程序即摘要生成程序而实现。该摘要生成程序可以记
录在现有公知的计算机可读取的记录介质中。
[0094] 通过上述摘要生成程序记录在记录介质中,可以便携地提供记录用于执行摘要生成装置100进行的各种处理的程序代码(执行程序、中间代码程序、源程序等)的记录介
质。
[0095] 并且,记录介质也可以是微型计算机进行处理的存储器,例如ROM(Read OnlyMemory)等程序介质,或者通过插入计算机作为外部存储装置具有的程序读取装置进行读
取的程序介质。
[0096] 在记录介质中存储的程序,可以是微处理器访问记录介质执行的方式,或者也可以是微处理器从记录介质读出程序代码并且将读出的程序代码下载到微型计算机的程序
存储区域来执行该程序的方式。该下载用程序预先存储于主体装置。
[0097] 这里,上述程序介质是构成为能够与本体分离的记录介质,可以是包含磁带、盒带等磁带系、软盘硬盘等磁盘、CD-ROM(Compact Disc-Read Only Memory)、
MO(Magneto Optical disc)、MD(Mini Disc)、DVD(Digital Versatile Disc)等 光 盘
的盘系、IC(Integrated Circuit)卡(包含存储卡)、光卡等卡系,或者基于掩模ROM、
EPROM(Erasable Programmable Read Only Memory)、EEPROM(Electrically Erasable
Programmable Read Only Memory)、闪存ROM等的半导体存储器的固定地保持程序代码的
介质。
[0098] 另外,只要是计算机能够连接包含互联网的通信网络的系统构成,则记录介质也可以是以从通信网络下载程序代码的方式流动地保持程序代码的介质。并且,当这样从通
信网络下载程序时,可以将该下载用程序预先存储于本体装置,或者从其它记录介质安装。
另外,上述摘要生成程序能够以上述程序代码通过电子传输而具体化的嵌入载波的计算机
数据信号的方式实现。
[0099] 本发明可以在不脱离其精神或者主要特征的范围内以其它方式实施。因此,上述实施方式仅为各方面的例示,本发明范围由权利要求范围决定而不限于说明书正文。并且
从属于权利要求范围的变形或变更均落入本发明范围。
相关专利内容
标题 发布/更新时间 阅读量
摘要生成装置和摘要生成方法 2020-05-11 212
包括特定人的视频摘要 2020-05-12 614
视频摘要提取 2020-05-11 508
处理消息摘要指令 2020-05-12 19
音乐摘要自动生成方法 2020-05-12 340
图文摘要的评价方法 2020-05-13 521
选择性会议摘要 2020-05-11 784
实时视频摘要 2020-05-11 887
内容摘要验证接口方法 2020-05-12 559
图文摘要生成方法 2020-05-12 776
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈