技术领域
[0001] 本
发明涉及
数据挖掘领域。更具体地讲,涉及一种从文档中提取关键词的方法和设备。
背景技术
[0002] 随着信息技术的发展,数字化的信息正以惊人的速度增长。人们每天要面对大量的数字化信息来进行阅读。为了节省时间和提高工作效率,原始的数字信息的各种简洁表示(例如,
摘要、关键词等形式)应运而生。
[0003] 人们可以通过这些简洁表示来快速了解原始信息的大致内容,而不需要通读全文。通常,形成这些简洁表示的基本元素是从原始信息提取的关键词。另外,提取关键词在信息技术领域也存在广泛地应用,例如,
信息检索等。目前,除了形式规范的科技文档提供了关键词外,大部分文档都没有配有关键词。传统依靠人工去阅读文本,然后
抽取关键词的方法在文档数量剧增的今天越来越不能满足实际应用的需求。因此,如何自动提取关键词是当前急需解决的一个问题。
发明内容
[0004] 本发明的目的在于提供一种能够自动从文档中提取关键词的方法和设备。
[0005] 本发明的一方面提供一种从文档中提取关键词的方法,包括:接收预定命令;响应于预定命令,对所述文档进行分词以从所述文档中提取至少一个候选关键词;检测每个候选关键词的重要度值;提取具有大于预定
阈值的重要度值的候选关键词。
[0006] 可选地,所述预定命令是多次定向滑动屏幕。
[0007] 可选地,对所述文档进行分词以从所述文档中提取至少一个候选关键词的步骤包括:对所述文档进行分词,以获得多个词汇;检测获得的词汇的词性;根据检测的词性从所述多个词汇之中选择实词作为候选关键词。
[0008] 可选地,所述方法还包括:突出显示提取的关键词;接收对突出显示的关键词的选择;将选择的关键词添加到输入法词库。
[0009] 可选地,所述的方法还包括:基于提取的具有大于预定阈值的重要度值的候选关键词形成所述文档的摘要。
[0010] 可选地,检测每个候选关键词的重要度值的步骤包括:通过如下公式检测每个候选关键词的重要度值:
[0011] IM=tf×df,
[0012]
[0013]
[0014] 其中,IM为候选关键词的重要度值,num为所述候选关键词在所述文档中出现的次数,m为所述文档中除了所述候选关键词之外的其他候选关键词的数量,onumk表示第k个其他候选关键词在所述文档中出现的次数,D为一个预定的文档集合中包含的所有文档的数量,d为所述文档集合之中的具有所述候选关键词的文档的数量。
[0015] 可选地,检测每个候选关键词的重要度值的步骤包括:通过如下公式检测每个候选关键词的重要度值:
[0016]
[0017]
[0018] 其中,C(w,tn+1)表示候选关键词在时刻tn+1的重要度值,numi表示候选关键词在历史时刻ti-1与历史时刻ti之间用户
访问的文档中出现的频次,λ为预定常数,n为大于0的整数。
[0019] 可选地,时刻tm与时刻tm-1之间的时间段的长度小于时刻tm-1与时刻tm-2之间的时间段的长度,其中,n为大于1的整数,m为小于等于n并且大于1的整数。
[0020] 根据本发明的另一方面,提供一种从文档中提取关键词的设备,包括:接收单元,接收预定命令;关键词提取单元,响应于预定命令,对所述文档进行分词以从所述文档中提取至少一个候选关键词;重要度检测单元,检测每个候选关键词的重要度值;选择单元,提取具有大于预定阈值的重要度值的候选关键词。
[0021] 可选地,所述预定命令是多次定向滑动屏幕。
[0022] 可选地,关键词提取单元包括:分词单元,对所述文档进行分词,以获得多个词汇;词性检测单元,检测获得的词汇的词性;实词选择单元,根据检测的词性从所述多个词汇之中选择实词作为候选关键词。
[0023] 可选地,所述设备还包括:突出显示单元,突出显示提取的关键词;关键词选择单元,接收对突出显示的关键词的选择;添加单元,将选择的关键词添加到输入法词库。
[0024] 可选地,所述设备还包括:摘要形成单元,基于提取的具有大于预定阈值的重要度值的候选关键词形成所述文档的摘要。
[0025] 可选地,重要度检测单元通过如下公式检测每个候选关键词的重要度值:
[0026] IM=tf×df,
[0027]
[0028]
[0029] 其中,IM为候选关键词的重要度值,num为所述候选关键词在所述文档中出现的次数,m为所述文档中除了所述候选关键词之外的其他候选关键词的数量,onumk表示第k个其他候选关键词在所述文档中出现的次数,D为一个预定的文档集合中包含的所有文档的数量,d为所述文档集合之中的具有所述候选关键词的文档的数量。
[0030] 可选地,重要度检测单元通过如下公式检测每个候选关键词的重要度值:
[0031]
[0032]
[0033] 其中,C(w,tn+1)表示候选关键词在时刻tn+1的重要度值,numi表示候选关键词在历史时刻ti-1与历史时刻ti之间用户访问的文档中出现的频次,λ为预定常数,n为大于0的整数。
[0034] 可选地,时刻tm与时刻tm-1之间的时间段的长度小于时刻tm-1与时刻tm-2之间的时间段的长度,其中,n为大于1的整数,m为小于等于n并且大于1的整数。
[0035] 根据本发明的从文档中提取关键词的方法和设备,可以自动从文档之中提取关键词。此外,根据本发明的从文档中提取关键词的方法和设备,通过利用候选关键词在一个文档集合中的
频率特点,可以提取出具有历史普遍性的关键词。此外,根据本发明的从文档中提取关键词的方法和设备,通过利用用户访问的历史文档以及候选关键词在用户所访问的历史文档中出现的频次,可以提取出具有历史新颖度的关键词。
[0036] 将在接下来的描述中部分阐述本发明另外的方面和/或优点,还有一部分通过描述将是清楚的,或者可以经过本发明的实施而得知。
附图说明
[0037] 通过下面结合附图进行的详细描述,本发明的上述和其它目的、特点和优点将会变得更加清楚,其中:
[0038] 图1示出根据本发明的
实施例的从文档中提取关键词的方法的
流程图;
[0039] 图2示出根据本发明的实施例的从文档中提取关键词的设备的
框图。
具体实施方式
[0040] 下面将参照附图详细描述本发明的实施例。
[0041] 图1示出根据本发明的实施例的从文档中提取关键词的方法的流程图。可在具有所述文档或能够浏览所述文档的
电子设备上执行所述方法。
[0042] 在步骤101,接收用于执行从文档提取关键词的预定命令。可在用户使用电子设备浏览文档期间,从用户接收所述预定命令。例如,在用户使用具有
触摸屏的电子设备浏览文档期间,从用户接收到多次定向滑动屏幕的输入作为所述预定命令。
[0043] 应该理解,这里的文档可以表示具有文本内容的各种数字化媒体,例如,网页、电子邮件、电子书、word文档等。
[0044] 应该理解,所述预定命令可以是通过任何方式输入的命令,并且也不限于由用户输入(例如,也可以是其他
硬件或
软件发出的预定命令)。
[0045] 在步骤102,响应于预定命令,对所述文档进行分词以从所述文档中提取至少一个候选关键词。
[0046] 可以利用现有的各种提取关键词的技术来执行步骤102。
[0047] 在根据本发明的一个实施例中,首先对所述文档进行分词以获得多个词汇,检测获得的词汇的词性,根据检测的词性从所述多个词汇之中选择实词作为候选关键词。
[0048] 在步骤103,检测每个候选关键词的重要度值。
[0049] 在本发明的一个实施例中,可以利用候选关键词在一个文档集合(例如,网页集合)中的出现频率的特点来确定重要度值。可通过下面的公式(1)检测每个候选关键词的重要度值:
[0050] IM=tf×df,
[0051]
[0052]
[0053] 其中,IM为候选关键词的重要度值,num为所述候选关键词在所述文档中出现的次数,m为所述文档中除了所述候选关键词之外的其他候选关键词的数量,onumk表示第k个其他候选关键词在所述文档中出现的次数,D为一个预定的文档集合中包含的所有文档的数量,d为所述文档集合之中的具有所述候选关键词的文档的数量。
[0054] 公式(1)通过利用候选关键词在一个文档集合中的频率特点,可以提取出具有普遍性的关键词。
[0055] 在另一个实施例中,可通过下面的公式(2)检测每个候选关键词在预定时刻的重要度值作为最终的重要度值:
[0056]
[0057]
[0058] 其中,C(w,tn+1)表示候选关键词在预定时刻tn+1的重要度值,numi表示候选关键词在历史时刻ti-1与历史时刻ti之间用户访问的文档中出现的频次,λ为预定常数,n为大于0的整数。
[0059] 应该理解,对于历史时刻ti,i越小,历史越久远。优选地,时刻tn+1为当前时刻,例如,提取关键词的时刻。此外,时刻tn+1也可以是将来的某个时刻。
[0060] 用户访问的文档是指用户浏览和/或编写的文档。例如,用户浏览的网页、编写的微博、邮件等。可通过现有的各种技术来获取用户访问的文档。
[0061] 公式(2)通过利用用户访问的历史文档以及候选关键词在用户所访问的历史文档中出现的频次,可以提取出具有新颖度的关键词。
[0062] 各对相邻的两个历史时刻之间的时间段可以都是相同的,也可以是不同的。优选地,时间段越靠近当前时间越短。例如,时刻tm与时刻tm-1之间的时间段的长度小于时刻tm-1与时刻tm-2之间的时间段的长度,m为小于等于n并且大于1的整数。应该理解,此时,n为大于1的整数。此时,可以更好地在重要度值中体现最近的历史文档的影响。
[0063] 在步骤104,提取具有大于预定阈值的重要度值的候选关键词。换言之,从在步骤102提取的候选关键词中选择具有大于预定阈值的重要度值的候选关键词作为最终的关键词。
[0064] 在一个实施例中,所述从文档中提取关键词的方法还包括:在显示文档的屏幕上突出显示提取的关键词;接收对突出显示的关键词的选择(例如,用户从突出显示的关键词之中选择预定的关键词);将选择的关键词添加到输入法词库,从而用户自己添加需要的输入法词语。
[0065] 在另一实施例中,所述从文档中提取关键词的方法还包括:基于在步骤104提取的关键词形成所述文档的摘要。这里可以利用现有的各种基于关键词形成摘要的技术。此外,在形成文档的摘要之后,可将形成的摘要提供给(例如,显示给)用户。
[0066] 根据本发明的上述方法可以被实现为安装在电子设备上的
计算机程序。本领域技术人员可以根据对上述方法的描述来实现所述计算机程序。当所述计算机程序中被执行时实现本发明的上述方法。
[0067] 图2示出根据本发明的实施例的从文档中提取关键词的设备的框图。
[0068] 如图2所示,根据本发明的实施例的从文档中提取关键词的设备200包括接收单元210、关键词提取单元220、重要度检测单元230、选择单元240。
[0069] 接收单元210接收用于执行从文档提取关键词的预定命令。接收单元210可在用户使用电子设备浏览文档期间,从用户接收所述预定命令。例如,在用户使用具有触摸屏的电子设备浏览文档期间,接收单元210从用户接收到多次定向滑动屏幕的输入作为所述预定命令。
[0070] 应该理解,这里的文档可以表示具有文本内容的各种数字化媒体,例如,网页、电子邮件、电子书、word文档等。
[0071] 应该理解,所述预定命令可以是通过任何方式输入的命令,并且也不限于由用户输入(例如,也可以是其他硬件或软件发出的预定命令)。
[0072] 关键词提取单元220响应于预定命令,对所述文档进行分词以从所述文档中提取至少一个候选关键词。
[0073] 可以利用现有的各种提取关键词的技术来实现关键词提取单元220。
[0074] 在根据本发明的一个实施例中,关键词提取单元包括分词单元、词性检测单元、实词选择单元。分词单元对文档进行分词,以获得多个词汇。词性检测单元检测获得的词汇的词性。实词选择单元根据检测的词性从所述多个词汇之中选择实词作为候选关键词。
[0075] 重要度检测单元230检测每个候选关键词的重要度值。重要度检测单元230可基于前面描述的公式(1)或公式(2)来检测每个候选关键词的重要度值。
[0076] 选择单元240提取具有大于预定阈值的重要度值的候选关键词。换言之,选择单元240从关键词提取单元220提取的候选关键词中选择具有大于预定阈值的重要度值的候选关键词作为最终的关键词。
[0077] 在一个实施例中,所述从文档中提取关键词的方法还包括:在显示文档的屏幕上突出显示提取的关键词;接收对突出显示的关键词的选择(例如,用户从突出显示的关键词之中选择预定的关键词);将选择的关键词添加到输入法词库,从而用户自己添加需要的输入法词语。
[0078] 在另一实施例中,所述从文档中提取关键词的设备200还包括突出显示单元、关键词选择单元、添加单元。突出显示单元在显示文档的屏幕上突出显示提取的关键词,关键词选择单元接收对突出显示的关键词的选择(例如,用户从突出显示的关键词之中选择预定的关键词),添加单元将选择的关键词添加到输入法词库,从而用户自己添加需要的输入法词语。
[0079] 在另一实施例中,所述从文档中提取关键词的设备200还包括摘要形成单元。摘要形成单元基于选择单元240提取的关键词形成所述文档的摘要。这里可以利用现有的各种基于关键词形成摘要的技术实现摘要形成单元。此外,摘要形成单元在形成文档的摘要之后,可将形成的摘要提供给(例如,显示给)用户。
[0080] 此外,应该理解,根据本发明的示例性实施例的从文档中提取关键词的设备中的各个单元可被实现硬件组件。本领域技术人员根据限定的各个单元所执行的处理,可以例如使用现场可编程
门阵列(FPGA)或专用集成
电路(ASIC)来实现各个单元。
[0081] 根据本发明的从文档中提取关键词的方法和设备,可以自动从文档之中提取关键词。此外,根据本发明的从文档中提取关键词的方法和设备,通过利用候选关键词在一个文档集合中的频率特点,可以提取出具有普遍性的关键词。此外,根据本发明的从文档中提取关键词的方法和设备,通过利用用户访问的历史文档以及候选关键词在用户所访问的历史文档中出现的频次,可以提取出具有新颖度的关键词。
[0082] 尽管已经参照其示例性实施例具体显示和描述了本发明,但是本领域的技术人员应该理解,在不脱离
权利要求所限定的本发明的精神和范围的情况下,可以对其进行形式和细节上的各种改变。