首页 / 专利库 / 专利权 / 实施例 / 一种学词方法和装置

一种学词方法和装置

阅读:154发布:2021-06-10

专利汇可以提供一种学词方法和装置专利检索,专利查询,专利分析的服务。并且本 发明 实施例 提供了一种学词方法和装置,其中的方法具体包括:识别用户删除上屏内容的意图;在所述意图为非误操作意图时,对所述上屏内容进行学词。本发明实施例能够在第一时间保留对用户有价值的词条,从而能够提高输入效率。,下面是一种学词方法和装置专利的具体信息内容。

1.一种学词方法,其特征在于,包括:
识别用户删除上屏内容的意图;
在所述意图为非误操作意图时,对所述上屏内容进行学词。
2.根据权利要求1所述的方法,其特征在于,所述识别用户删除上屏内容的意图的步骤,包括:
依据上屏内容对应的候选位置和/或删除的上屏内容与删除后重新上屏的内容的相关性和/或上屏内容的第一输入串与删除后重新上屏的内容的第二输入串的相关性,识别用户删除上屏内容的意图。
3.根据权利要求2所述的方法,其特征在于,所述依据上屏内容对应的候选位置,识别用户删除上屏内容的意图的步骤,包括:
在上屏内容对应的候选位置为首选位置时,将用户删除上屏内容的意图识别为误操作意图;或者
在上屏内容对应的候选位置为非首选位置时,将用户删除上屏内容的意图识别为非误操作意图。
4.根据权利要求2所述的方法,其特征在于,所述依据删除的上屏内容与删除后重新上屏的内容的相关性,识别用户删除上屏内容的意图的步骤,包括:
在删除的上屏内容与删除后重新上屏的内容的相关性符合预置的相关性条件时,将用户删除上屏内容的意图识别为非误操作意图。
5.根据权利要求2所述的方法,其特征在于,所述第一输入串与所述第二输入串的相关性包括:第一输入串与第二输入串的相似度,则所述依据上屏内容的第一输入串与删除后重新上屏的内容的第二输入串的相关性,识别用户删除上屏内容的意图的步骤,包括:
在第一输入串与第二输入串的相似度超出相似度阈值时,将用户删除上屏内容的意图识别为误操作意图;或者
在第一输入串与第二输入串的相似度未超出相似度阈值时,将用户删除上屏内容的意图识别为非误操作意图。
6.根据权利要求1至5中任一所述的方法,其特征在于,所述在所述意图为非误操作意图时,对所述上屏内容进行学词的步骤,包括:在所述意图为非误操作意图时,将所述上屏内容记录至用户词库,并更新所述上屏内容在所述用户词库中的频率
7.根据权利要求1至5中任一所述的方法,其特征在于,所述方法还包括:
在所述识别用户删除上屏内容的意图的步骤之前,通过缓存记录用户输入的至少一次上屏内容;
按照设定规则删除所述缓存中已进行学词的所述上屏内容。
8.一种学词装置,其特征在于,包括:
识别模,用于识别用户删除上屏内容的意图;及
学词模块,用于在所述意图为非误操作意图时,对所述上屏内容进行学词。
9.根据权利要求8所述的装置,其特征在于,所述识别模块,具体用于依据上屏内容对应的候选位置和/或删除的上屏内容与删除后重新上屏的内容的相关性和/或上屏内容的第一输入串与删除后重新上屏的内容的第二输入串的相关性,识别用户删除上屏内容的意图。
10.根据权利要求9所述的装置,其特征在于,所述识别模块,包括:
第一识别子模块,用于在上屏内容对应的候选位置为首选位置时,将用户删除上屏内容的意图识别为误操作意图;或者
第二识别子模块,用于在上屏内容对应的候选位置为非首选位置时,将用户删除上屏内容的意图识别为非误操作意图。
11.根据权利要求9所述的装置,其特征在于,所述识别模块,包括:
第三识别子模块,用于在删除的上屏内容与删除后重新上屏的内容的相关性符合预置的相关性条件时,将用户删除上屏内容的意图识别为非误操作意图。
12.根据权利要求9所述的装置,其特征在于,所述第一输入串与所述第二输入串的相关性包括:第一输入串与第二输入串的相似度,则所述识别模块,包括:
第四识别子模块,用于在第一输入串与第二输入串的相似度超出相似度阈值时,将用户删除上屏内容的意图识别为误操作意图;或者
第五识别子模块,用于在第一输入串与第二输入串的相似度未超出相似度阈值时,将用户删除上屏内容的意图识别为非误操作意图。
13.根据权利要求8至12中任一所述的装置,其特征在于,所述学词模块,包括:
记录子模块,用于在所述意图为非误操作意图时,将所述上屏内容记录至用户词库;
更新子模块,用于更新所述上屏内容在所述用户词库中的频率。
14.根据权利要求8至12中任一所述的装置,其特征在于,所述装置还包括:
记录模块,用于在所述识别模块识别用户删除上屏内容的意图之前,通过缓存记录用户输入的至少一次上屏内容;
删除模块,用于按照设定规则删除所述缓存中已进行学词的所述上屏内容。

说明书全文

一种学词方法和装置

技术领域

[0001] 本发明涉及输入法技术领域,特别是涉及一种学词方法和一种学词装置。

背景技术

[0002] 随着计算机技术以及互联网技术的普及与发展,输入法系统已经成为用户与计算机交互的重要手段,不同专业领域、不同兴趣以及使用习惯的用户对于输入法系统的智能性要求越来越高。
[0003] 用户在使用输入法系统的过程中,无论是按键习惯还是表达习惯都具有高度个性化的特点。为了满足用户个性化的输入需求,输入法系统中通常的做法是给每个用户建立用户词库,在用户进行输入时,首先会从用户词库中查找与输入的编码字符串相匹配的词条;而用户词库的学词,是指将用户经常使用的词条学习到用户词库中。因此,用户词库的学词可以在一定程度上调整候选项的排序,使其逐渐适应该用户,从而提高输入效率。
[0004] 为避免将对于用户无价值的词条学习到用户词库,现有的学词方法会存在如下情况:在用户上屏一个词条后又对该词条执行了删除行为,则不会对该词条进行学词。例如,在用户B与用户A的聊天过程中,假设在接收用户A的消息“你老家在哪里?”后,用户B首先输入“zhuji”和上屏了第三候选项“诸暨”,然后删除“诸暨”,并继续上屏“你猜,离你不远”;此种情形下,由于对“诸暨”执行了删除行为,故不会对“诸暨”进行学词。
[0005] 然而,对于用户B来说,“诸暨”显然是一个有价值、并且后续仍然很有可能被用到的词条,这样,现有的学词方法不对该词条进行学词,等于漏掉了对用户B有价值的词条,从而,在用户B后续进行“诸暨”的输入时,“诸暨”在候选项中的排序并未改变,因此影响了输入效率。

发明内容

[0006] 鉴于上述问题,提出了本发明实施例以便提供一种克服上述问题或者至少部分地解决上述问题的一种学词方法和相应的一种学词装置,能够在第一时间保留对用户有价值的词条,从而能够提高输入效率。
[0007] 为了解决上述问题,本发明公开了一种学词方法,包括:
[0008] 识别用户删除上屏内容的意图;
[0009] 在所述意图为非误操作意图时,对所述上屏内容进行学词。
[0010] 优选的,所述识别用户删除上屏内容的意图的步骤,包括:
[0011] 依据上屏内容对应的候选位置和/或删除的上屏内容与删除后重新上屏的内容的相关性和/或上屏内容的第一输入串与删除后重新上屏的内容的第二输入串的相关性,识别用户删除上屏内容的意图。
[0012] 优选的,所述依据上屏内容对应的候选位置,识别用户删除上屏内容的意图的步骤,包括:
[0013] 在上屏内容对应的候选位置为首选位置时,将用户删除上屏内容的意图识别为误操作意图;或者
[0014] 在上屏内容对应的候选位置为非首选位置时,将用户删除上屏内容的意图识别为非误操作意图。
[0015] 优选的,所述依据删除的上屏内容与删除后重新上屏的内容的相关性,识别用户删除上屏内容的意图的步骤,包括:
[0016] 在删除的上屏内容与删除后重新上屏的内容的相关性符合预置的相关性条件时,将用户删除上屏内容的意图识别为非误操作意图。
[0017] 优选的,所述第一输入串与所述第二输入串的相关性包括:第一输入串与第二输入串的相似度,则所述依据上屏内容的第一输入串与删除后重新上屏的内容的第二输入串的相关性,识别用户删除上屏内容的意图的步骤,包括:
[0018] 在第一输入串与第二输入串的相似度超出相似度阈值时,将用户删除上屏内容的意图识别为误操作意图;或者
[0019] 在第一输入串与第二输入串的相似度未超出相似度阈值时,将用户删除上屏内容的意图识别为非误操作意图。
[0020] 优选的,所述在所述意图为非误操作意图时,对所述上屏内容进行学词的步骤,包括:在所述意图为非误操作意图时,将所述上屏内容记录至用户词库,并更新所述上屏内容在所述用户词库中的频率
[0021] 优选的,所述方法还包括:
[0022] 在所述识别用户删除上屏内容的意图的步骤之前,通过缓存记录用户输入的至少一次上屏内容;
[0023] 按照设定规则删除所述缓存中已进行学词的所述上屏内容。
[0024] 另一方面,本发明实施例还公开了一种学词装置,包括:
[0025] 识别模,用于识别用户删除上屏内容的意图;及
[0026] 学词模块,用于在所述意图为非误操作意图时,对所述上屏内容进行学词。
[0027] 优选的,所述识别模块,具体用于依据上屏内容对应的候选位置和/或删除的上屏内容与删除后重新上屏的内容的相关性和/或上屏内容的第一输入串与删除后重新上屏的内容的第二输入串的相关性,识别用户删除上屏内容的意图。
[0028] 优选的,所述识别模块,包括:
[0029] 第一识别子模块,用于在上屏内容对应的候选位置为首选位置时,将用户删除上屏内容的意图识别为误操作意图;或者
[0030] 第二识别子模块,用于在上屏内容对应的候选位置为非首选位置时,将用户删除上屏内容的意图识别为非误操作意图。
[0031] 优选的,所述识别模块,包括:
[0032] 第三识别子模块,用于在删除的上屏内容与删除后重新上屏的内容的相关性符合预置的相关性条件时,将用户删除上屏内容的意图识别为非误操作意图。
[0033] 优选的,所述第一输入串与所述第二输入串的相关性包括:第一输入串与第二输入串的相似度,则所述识别模块,包括:
[0034] 第四识别子模块,用于在第一输入串与第二输入串的相似度超出相似度阈值时,将用户删除上屏内容的意图识别为误操作意图;或者
[0035] 第五识别子模块,用于在第一输入串与第二输入串的相似度未超出相似度阈值时,将用户删除上屏内容的意图识别为非误操作意图。
[0036] 优选的,所述学词模块,包括:
[0037] 记录子模块,用于在所述意图为非误操作意图时,将所述上屏内容记录至用户词库;
[0038] 更新子模块,用于更新所述上屏内容在所述用户词库中的频率。
[0039] 优选的,所述装置还包括:
[0040] 记录模块,用于在所述识别模块识别用户删除上屏内容的意图之前,通过缓存记录用户输入的至少一次上屏内容;
[0041] 删除模块,用于按照设定规则删除所述缓存中已进行学词的所述上屏内容。
[0042] 本发明实施例包括以下优点:
[0043] 本发明实施例识别用户删除上屏内容的意图,并在所述意图为非误操作意图时,对所述上屏内容进行学词;在所述意图为非误操作意图时,所述意图可能是表达纠正意图等的非误操作意图,由于上述非误操作意图与误操作无关,故上述非误操作意图对应的上屏内容往往与输入法系统的候选的质量无关,并且,上述非误操作意图对应的上屏内容对用户而言是有价值、并且后续仍然很有可能被用到的词条,因此,本发明实施例对这些上屏内容进行学词,能够在第一时间保留对用户有价值的词条,并提高这些上屏内容在候选项中的排序,这样,在该用户进行之后相应编码字符串的输入时,这些上屏内容将排在候选项的靠前位置,从而能够提高输入效率。附图说明
[0044] 图1是本发明的一种学词方法实施例一的步骤流程图
[0045] 图2是本发明的一种学词方法实施例二的步骤流程图;
[0046] 图3是本发明的一种学词方法实施例三的步骤流程图;及
[0047] 图4是本发明的一种学词装置实施例的结构框图

具体实施方式

[0048] 为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
[0049] 本发明实施例经分析发现,用户删除上屏内容的意图具体可以包括:
[0050] 1、误操作意图;
[0051] 输入过程是一个操作过程,在输入过程中难免发生误操作。在发生误操作的情形下,用户删除上屏内容的意图可以为误操作意图。
[0052] 例如,在上屏候选的过程中,容易发生的误操作是通过空格键将错误的首选上屏;在本发明的一种应用示例1中,用户欲通过输入串“baofu”输入“抱负”,但是,不小心通过空格键将首选“报复”上屏,于是,在删除上屏内容“报复”后,又重新键入了输入串“baofu”并将二选“抱负”上屏。
[0053] 又如,在键入输入串的过程中,容易发生的误操作是因为按错键(PC上)或者点错屏幕位置(移动设备上)等原因而导致键入错误的输入串;在本发明的一种应用示例2中,用户欲通过输入串“humamaob”输入“虎妈猫爸”,但因为按错键而键入了错误的输入串“hubamaob”并上屏了其首选“胡巴毛不”,于是,在删除上屏内容“胡巴毛不”后,又重新键入了输入串“humamaob”并将其首选“虎妈猫爸”上屏。
[0054] 可见,在发生上述误操作的情形下,用户删除“报复”、“胡巴毛不”等上屏内容的意图属于误操作意图,而误操作意图对应的上屏内容往往跟输入法系统候选的质量有关,例如,应用示例1中误操作是因为输入法系统将不合宜的候选排到了首选,应用示例2中“胡巴毛不”显然不是用户想要的候选,因此,误操作意图对应的上屏内容对用户而言往往是无价值的。
[0055] 2、非误操作意图。
[0056] 输入过程是一个操作过程,同时还是一个表达过程。上述表达过程通常为字斟句酌的过程,在将意识付诸于文字的过程中往往会发生对前文的修改。这些修改可能源于思维的转变而非误操作,也可能源于找到了更合宜的表达。因此,在发生思维的转变而非误操作的情形下,用户删除上屏内容的意图可以为非误操作意图。
[0057] 在本发明的一种应用示例3中,在用户B与用户A的聊天过程中,假设在接收用户A的消息“你老家在哪里?”后,用户B首先输入“zhuji”和上屏了第三候选项“诸暨”,然而,在发生思维的转变后欲要改变表达,于是删除“诸暨”,并继续上屏“你猜,离你不远”。经分析可知,“诸暨”的确为用户B的老家,故其对用户B而言是有价值、并且后续仍然很有可能被用到的词条,因此,上述应用示例3中用户删除上屏内容的意图可以属于表达纠正意图也即非误操作意图。
[0058] 在本发明的一种应用示例4中,用户先上屏了“总而言之”,然后,欲要改变表达,于是退格删除“总而言之”后又输入了“言而总之”。经分析可知,用户仅是改变了表达以使“言而总之”更适应于当前的场合,而实际上被删除的上屏内容“总而言之”可能更适应于其他的场合,因此,“总而言之”对用户而言是有价值、并且后续仍然很有可能被用到的词条,因此,上述应用示例4中用户删除上屏内容的意图可以属于表达纠正意图也即非误操作意图。
[0059] 可见,上述表达纠正意图等非误操作意图对应的上屏内容往往与输入法系统的候选的质量无关,并且,上述上屏内容对用户而言是有价值、并且后续仍然很有可能被用到的词条,故本发明实施例可以对这些上屏内容进行学词,以在第一时间保留对用户有价值的词条。
[0060] 综上,本发明实施例识别用户删除上屏内容的意图,并在所述意图为非误操作意图时,对所述上屏内容进行学词;在所述意图为非误操作意图时,所述意图可能是表达纠正意图等的非误操作意图,由于上述非误操作意图与误操作无关,故上述非误操作意图对应的上屏内容往往与输入法系统的候选的质量无关,并且,上述非误操作意图对应的上屏内容对用户而言是有价值、并且后续仍然很有可能被用到的词条,因此,本发明实施例对这些上屏内容进行学词,能够在第一时间保留对用户有价值的词条,并提高这些上屏内容在候选项中的排序,这样,在该用户进行之后相应编码字符串的输入时,这些上屏内容将排在候选项的靠前位置,从而能够提高输入效率。
[0061] 方法实施例一
[0062] 参照图1,示出了本发明的一种学词方法实施例一的步骤流程图,具体可以包括如下步骤:
[0063] 步骤101、识别用户删除上屏内容的意图;
[0064] 本发明可以应用于各种输入方式的输入法系统,包括键盘符号、手写信息等输入方式,即用户可以通过编码字符串、手写输入信息等输入上屏内容。下面仅以编码字符串(以下简称输入串)的输入方式为例进行说明,其它输入方式相互参见即可。
[0065] 在输入法系统领域,无论是中文、日文、韩文还是其它语言的输入法系统,都是把用户输入的编码字符串转换成相应语言的候选项,然后由用户来选择输出至应用程序的内容,这里通过上屏操作输出至应用程序的内容也即上屏内容。
[0066] 在实际应用中,可以监测用户的上屏操作,并记录所述上屏操作对应的上屏内容;并且,可以进一步监测用户对所记录的上屏内容的删除操作,以发现用户删除上屏内容的事件,从而可以在发现该事件后,识别用户删除上屏内容的意图。在本发明的一种应用示例中,可以通过缓存记录用户输入的至少一次上屏内容,并对缓存中内容进行监测,可以理解,本发明实施例对于发现用户删除上屏内容的事件的具体方式不加以限制。
[0067] 本发明实施例中,识别用户删除上屏内容的意图,可以得到用户在不同时机下删除上屏内容的不同意图,从而可以针对不同意图有区别地对上屏内容进行学词,因此可以解决现有方案不对被删除上屏内容进行学词而导致的、漏掉对用户有价值的词条的问题。
[0068] 在本发明的一种可选实施例中,所述识别用户删除上屏内容的意图的步骤,具体可以包括:依据上屏内容对应的候选位置和/或删除的上屏内容与删除后重新上屏的内容的相关性和/或上屏内容的第一输入串与删除后重新上屏的内容的第二输入串的相关性,识别用户删除上屏内容的意图。
[0069] 本发明实施例可以提供识别用户删除上屏内容的意图的如下技术方案;
[0070] 技术方案一
[0071] 技术方案一可以依据上屏内容对应的候选位置,识别用户删除上屏内容的意图。
[0072] 上屏内容对应的候选位置可以反映上屏内容的操作成本,其中,首选的操作成本小于二选、三选等位置的操作成本,首页候选项的操作成本小于第二页候选项、第三页候选项等的操作成本等等。由于在操作成本较大时,用户需要较多注意,故通常上屏内容的操作成本越大,则用户删除上屏内容的意图为误操作意图的概率越小,反之,上屏内容的操作成本越小,则用户删除上屏内容的意图为误操作意图的概率越大;因此,可以依据上屏内容对应的候选位置,确定误操作意图的概率,并依据所述误操作意图的概率,判断用户删除所述上屏内容的意图是否为误操作意图。
[0073] 在本发明的一种可选实施例中,所述依据上屏内容对应的候选位置,识别用户删除上屏内容的意图的步骤,具体可以包括:
[0074] 步骤S11、在上屏内容对应的候选位置为首选位置时,将用户删除上屏内容的意图识别为误操作意图;或者
[0075] 步骤S12、在上屏内容对应的候选位置为非首选位置时,将用户删除上屏内容的意图识别为非误操作意图。
[0076] 由于通过空格键上屏首选通常为用户的习惯性操作、且操作成本较小,而通过数字键上屏非首选需要较多的注意力、且操作成本较大,因此,可以直接将用户删除首选的意图识别为误操作意图,例如,可以将应用示例1中用户删除上屏内容的意图识别为误操作意图;或者,可以直接将用户删除非首选的意图识别为非误操作意图,例如,可以将应用示例3中用户删除上屏内容的意图识别为非误操作意图。
[0077] 上述根据首选位置识别用户删除上屏内容的意图的方案,具有实现简单、计算量小和识别效率高的优点。
[0078] 可以理解,上述根据首选位置识别用户删除上屏内容的意图的方案只是作为可选技术方案,而不理解为本发明实施例对于依据上屏内容对应的候选位置,识别用户删除上屏内容的意图的应用限制,实际上,本领域技术人员可以根据实际应用需求采用依据上屏内容对应的候选位置,识别用户删除上屏内容的意图的其它技术方案,例如,还可以将候选位置与输入该上屏内容的操作、或者该上屏内容对应输入串的长度相结合,共同识别用户删除上屏内容的意图,其中,输入该上屏内容的操作具体可以包括:键入对应输入串的操作、修改输入串的操作和上屏操作等,输入该上屏内容的操作和该输入串的长度均能够反映该上屏内容的操作成本,因此可以用于识别用户删除上屏内容的意图。
[0079] 技术方案二
[0080] 技术方案二可以依据删除的上屏内容与删除后重新上屏的内容的相关性,识别用户删除上屏内容的意图。删除的上屏内容与删除后重新上屏的内容的相关性可用于表示删除操作前后两个内容之间的相关性,通常该相关性越高,则可以认为用户删除上屏内容的意图属于表达修正意图的概率越大。
[0081] 在本发明的一种可选实施例中,所述依据删除的上屏内容与删除后重新上屏的内容的相关性,识别用户删除上屏内容的意图的步骤,包括:
[0082] 步骤S21、在删除的上屏内容与删除后重新上屏的内容的相关性符合预置的相关性条件时,将用户删除上屏内容的意图识别为非误操作意图。
[0083] 本发明实施例中,删除的上屏内容与删除后重新上屏的内容的相关性具体可以包括:内容相关性、语义相关性等,例如,应用示例4中上屏内容“总而言之”与删除后重新上屏的内容“言而总之”的语义相关性较高,且符合预置的相关性条件,故可以认为用户删除上屏内容的意图属于表达修正意图的概率较大,因此可以将用户删除上屏内容的意图识别为非误操作意图。
[0084] 在实际应用中,删除的上屏内容与删除后重新上屏的内容的相关性的计算方法可以有多种,例如,上述计算方法具体可以包括:基于词典的方法和基于统计的方法。其中,基于词典的方法主要借助结构化的词典来计算词与词之间的语义相关性,结构化的词典可以来自于预先定义好的语义结构集合;基于统计的方法是数据驱动(data-driven)的,其主要思想是从词与词的共生关系(即两个词出现在同一文档)中挖掘词的语义相关性。可以理解,本领域技术人员可以根据实际应用需求采用上述计算方法,本发明实施例对于具体的计算方法不加以限制。
[0085] 本发明实施例中,预置的相关性条件可用于表示删除操作前后两个内容之间的相关性较高所对应的条件。可以理解,本领域技术人员还可以根据实际应用需求,预置所采用计算方法对应的相关性条件,例如,一种相关性条件的示例可以为删除的上屏内容与删除后重新上屏的内容的语义相关性参数高于第一阈值,假设语义相关性参数为0表示完全不相关,语义相关性参数为1表示完全相关,则该第一阈值可以为为0-1之间的数值,例如0.8、0.85等等,本发明实施例对于具体的第一阈值和相关性条件不加以限制。
[0086] 技术方案三
[0087] 技术方案三可以依据删除的上屏内容的第一输入串与删除后重新上屏的内容的第二输入串的相关性,识别用户删除上屏内容的意图。删除的上屏内容的第一输入串与删除后重新上屏的内容的第二输入串的相关性可用于表示删除操作前后两个输入串之间的相关性,通常该相关性越高,则可以认为用户删除上屏内容的意图属于误操作意图的概率越大,而该相关性越低,则可以认为用户删除上屏内容的意图属于非误操作意图的概率越大。
[0088] 在本发明的一种可选实施例中,所述第一输入串与所述第二输入串的相关性具体可以包括:第一输入串与第二输入串的相似度,则所述依据上屏内容的第一输入串与删除后重新上屏的内容的第二输入串的相关性,识别用户删除上屏内容的意图的步骤,具体可以包括:
[0089] 步骤S31、在第一输入串与第二输入串的相似度超出相似度阈值时,将用户删除上屏内容的意图识别为误操作意图;或者
[0090] 步骤S32、在第一输入串与第二输入串的相似度未超出相似度阈值时,将用户删除上屏内容的意图识别为非误操作意图。
[0091] 本发明实施例中,相似度可用于表示两个字符串之间的相似度,通常该相似度越高,则可以认为第二输入串是对第一输入串的纠正,也即用户删除上屏内容的意图属于误操作意图的概率越大,而该相似度越低,则可以认为用户删除上屏内容的意图属于非误操作意图的概率越大。本领域技术人员可以根据实际应用需求确定上述相似度阈值的值,如其数值可以为80%、90%等,本发明实施例对于相似度阈值的具体数值不加以限制。
[0092] 在实际应用中,可以采用任意的相似度度量计算第一输入串与第二输入串的相似度,例如,上述相似度度量具体可以包括:编辑距离、LCS(最长公共子串,Longest Common Subsequence)、向量空间、欧式距离等。
[0093] 编辑距离可用于表示两个字符串之间,由一个转成另一个所需的最少编辑操作次数。上述编辑操作具体可以包括将一个字符替换成另一个字符、插入一个字符、及删除一个字符的操作等等。例如,“xingfu”和“xinfu”的编辑距离为1,应用示例2中第二输入串“humamaob”与第一输入串“hubamaob”的编辑距离为1等。
[0094] 其中,在第一输入串与第二输入串的编辑距离小于距离阈值时,可以认为第一输入串与第二输入串之间的相似度较高,也即,可以认为第一输入串存在误操作,而第二输入串是与第一输入串具有相同输入意图的重新输入,因此,第一输入串对应上屏内容是对用户无价值的词条。
[0095] 可以理解,本领域技术人员可以根据实际需要确定上述距离阈值,如,其可以为1、2等数值,本发明实施例对具体的距离阈值不加以限制。例如,在距离阈值为2时,可以将应用示例2中用户删除上屏内容的意图识别为误操作意图等。
[0096] 需要说明的是,在采用向量空间计算第一输入串与第二输入串的相似度时,可以首先分别依据所述第一输入串、第二输入串与各自的上文和/或下文,计算第一输入串、第二输入串对应的第一向量和第二向量,然后,计算第一向量和第二向量的相似度;其中,第一输入串的上文或下文可以是根据用户的历史输入行为数据得到的上文或下文,该历史输入行为数据中可以记录有用户输入过的一个输入串与上文和/或下文的搭配关系;可以理解,本发明实施例对于计算第一输入串与第二输入串的相似度的具体过程不加以限制。
[0097] 以上对识别用户删除上屏内容的意图的几种技术方案进行了详细介绍,可以理解,本领域技术人员可以根据实际应用需求,采用上述技术方案中的任一或者组合,其中,在利用技术方案的组合时,可以依据每种技术方案计算将用户删除上屏内容的意图识别为非误操作意图的概率得分,对多种概率得分进行加权计算,并依据加权计算结果识别用户删除上屏内容的意图,可以理解,本发明实施例对于识别用户删除上屏内容的意图的具体技术方案不加以限制。
[0098] 步骤102、在所述意图为非误操作意图时,对所述上屏内容进行学词。
[0099] 本发明实施例中,学词主要是指将更改后的某一上屏内容存储至目标词库的过程,这里的目标词库可以是系统词库,也可以是用户词库,或者,还可以是人名词库、历史词库等其它词库,本发明实施例对于学词所对应的具体词库不加以限制。可以理解,在所述意图为误操作意图时,可以不对所述上屏内容进行学词。
[0100] 对于目标词库中的词条,输入法系统还可以根据用户输入这个词条的次数和最后一次输入这个词条的时间来对词条赋予一个属性,称为词频,且词频为候选项的主要排序因素。因此,本发明实施例针对目标词库的智能学词,能够在第一时间保留对用户有价值的词条,并提高这些上屏内容在候选项中的排序,这样,在该用户进行之后相应编码字符串的输入时,这些上屏内容将排在候选项的靠前位置,从而能够提高输入效率。
[0101] 在本发明的一种可选实施例中,本发明实施例对删除的上屏内容进行学词的过程可以区别于对未删除的上屏内容的学词过程(以下简称正常学词),二者的一个区别可以体现在学词对象上。
[0102] 其中,正常学词的学词对象具体可以包括:未删除的上屏内容、及未删除的上屏内容与前文的二元关系。以应用示例3为例,假设用户在上屏“诸暨”前已经上屏了一个词“比如”,那么正常学词的过程具体可以包括:将“诸暨”学习到用户词库中,以及,将“比如诸暨”学习为用户二元词。
[0103] 而本发明实施例对于删除的上屏内容的学词对象具体可以包括:删除的上屏内容,以应用示例3为例,假设用户在上屏“诸暨”前已经上屏了一个词“比如”,那么,本发明实施例对于删除的上屏内容的学词过程具体可以包括:将“诸暨”学习到用户词库中。
[0104] 在本发明的另一种可选实施例中,步骤102具体可以包括:将所述上屏内容记录至用户词库,并更新所述上屏内容在所述用户词库中的频率。
[0105] 方法实施例二
[0106] 参照图2,示出了本发明的一种学词方法实施例二的步骤流程图,具体可以包括如下步骤:
[0107] 步骤201、通过缓存记录用户输入的至少一次上屏内容;
[0108] 步骤202、识别用户删除上屏内容的意图;
[0109] 步骤203、在所述意图为非误操作意图时,对所述上屏内容进行学词;
[0110] 步骤204、按照设定规则删除所述缓存中已进行学词的所述上屏内容。
[0111] 相对于方法实施例一,本实施例引入缓存的概念,以在学词前使用缓存来保存用户输入的至少一次上屏内容;并且,还可以按照设定规则删除所述缓存中已进行学词的所述上屏内容,以保障充足的缓存空间。
[0112] 这里的预设规则可以由输入法系统或者用户根据需要来设定,例如,可以在学词完一个上屏内容后,立即将这个上屏内容在缓存中删除;又如,可以在学词完下一个上屏内容后,立即将上一个上屏内容在缓存中删除,以实现用户二元词(上一个上屏内容-下一个上屏内容)的学习;再如,针对后续用户对之前上屏内容的修改,还可以在学词后间隔若干时钟周期后将学词的上屏内容删除,本发明实施例对具体的预设规则不加以限制。
[0113] 方法实施例三
[0114] 参照图3,示出了本发明的一种学词方法实施例三的步骤流程图,具体可以包括如下步骤:
[0115] 步骤301、监测用户的上屏操作,并记录所述上屏操作对应的上屏内容及其对应的候选位置;
[0116] 步骤302、监测用户对所记录的上屏内容的删除操作;
[0117] 步骤303、在监测到上述删除操作后,判断上述上屏内容的候选位置是否为首选,若是,则执行步骤304,否则执行步骤305;
[0118] 步骤304、在上述上屏内容的候选位置为首选时,判定用户删除上屏内容的意图为误操作意图,并不对上述上屏内容进行学词;
[0119] 步骤305、在上述上屏内容的候选位置为非首选时,判定用户删除上屏内容的意图为非误操作意图,并对上述上屏内容进行学词;
[0120] 步骤306、在未监测到上述删除操作时,对上述上屏内容进行学词。
[0121] 需要说明的是,步骤306的学词可以为正常学词,其学词对象具体可以包括:未删除的上屏内容、及未删除的上屏内容与前文的二元关系;而步骤305的学词对象具体可以包括:删除的上屏内容。
[0122] 为使本领域技术人员更好地理解本发明实施例,以下通过不同的应用场景来说明本发明实施例的学词过程。
[0123] 应用场景1
[0124] 应用场景1涉及在PC上进行文字输入,用户的目标词条是“诸暨”,其学词过程具体可以包括:
[0125] 步骤S51、输入法系统在PC上接收到输入串“zhuji”,该输入串的首选是“主机”,二选是“诸暨”;
[0126] 步骤S52、输入法系统在监测到用户对于“诸暨”的上屏操作时,将“诸暨”及其对应的候选位置(二选)记入缓存;
[0127] 步骤S53、输入法系统在监测到用户对于“诸暨”的删除操作时,判定上述上屏内容的候选位置为非首选,因此判定用户删除“诸暨”的意图为非误操作意图;
[0128] 步骤S54、输入法系统将“诸暨”记录至用户词库,更新该词的使用频率,以及其他相关信息,完成“诸暨”的学词。
[0129] 应用场景2
[0130] 应用场景2涉及在手机的九宫格键盘上进行文字输入,用户的目标词条是“诸暨”,其学词过程具体可以包括:
[0131] 步骤S61、输入法系统在九宫格键盘上接收到输入串“94854”、及针对该输入串确认的音节[zhu][ji];该音节的首选是“主机”,二选(第二候选或后续的候选)是“诸暨”;
[0132] 步骤S62、输入法系统在监测到用户对于“诸暨”的上屏操作时,将“诸暨”及其对应的候选位置(二选)记入缓存;
[0133] 步骤S63、输入法系统在监测到用户对于“诸暨”的删除操作时,判定上述上屏内容的候选位置为非首选,因此判定用户删除“诸暨”的意图为非误操作意图;
[0134] 步骤S64、输入法系统将“诸暨”记录至用户词库,更新该词的使用频率,以及其他相关信息,完成“诸暨”的学词。
[0135] 智能学词的意义在于,保留对用户有价值有意义的词条,在候选排序时将之展现在靠前的位置,之所以能够达到这样的效果,是由候选排序策略决定的。一般而言,目标词库的用户词库中用户词的排序优先于系统词库中非用户词,词频高的用户词优先于词频低的用户词;
[0136] 应用场景1和应用场景2中,从用户的度看其用过“诸暨”,只是后来调整表达而进行了删除,故“诸暨”是对用户有价值的词条,因此,本发明实施例对“诸暨”进行学词,能够在第一时间保留对用户有价值的词条,并提高这些上屏内容在候选项中的排序,这样,在该用户进行之后相应编码字符串的输入时,这些上屏内容将排在候选项的靠前位置,从而能够提高输入效率。
[0137] 需要说明的是,对于方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明实施例并不受所描述的动作顺序的限制,因为依据本发明实施例,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作并不一定是本发明实施例所必须的。
[0138] 参照图4,示出了本发明的一种学词装置实施例的结构框图,具体可以包括如下模块:
[0139] 识别模块401,用于识别用户删除上屏内容的意图;及
[0140] 学词模块402,用于在所述意图为非误操作意图时,对所述上屏内容进行学词。
[0141] 在本发明的一种可选实施例中,所述识别模块401,具体用于依据上屏内容对应的候选位置和/或删除的上屏内容与删除后重新上屏的内容的相关性和/或上屏内容的第一输入串与删除后重新上屏的内容的第二输入串的相关性,识别用户删除上屏内容的意图。
[0142] 在本发明的另一种可选实施例中,所述识别模块401,具体可以包括:
[0143] 第一识别子模块,用于在上屏内容对应的候选位置为首选位置时,将用户删除上屏内容的意图识别为误操作意图;或者
[0144] 第二识别子模块,用于在上屏内容对应的候选位置为非首选位置时,将用户删除上屏内容的意图识别为非误操作意图。
[0145] 在本发明的再一种可选实施例中,所述识别模块401,具体可以包括:
[0146] 第三识别子模块,用于在删除的上屏内容与删除后重新上屏的内容的相关性符合预置的相关性条件时,将用户删除上屏内容的意图识别为非误操作意图。
[0147] 在本发明的又一种可选实施例中,所述第一输入串与所述第二输入串的相关性具体可以包括:第一输入串与第二输入串的相似度,则所述识别模块401,具体可以包括:
[0148] 第四识别子模块,用于在第一输入串与第二输入串的相似度超出相似度阈值时,将用户删除上屏内容的意图识别为误操作意图;或者
[0149] 第五识别子模块,用于在第一输入串与第二输入串的相似度未超出相似度阈值时,将用户删除上屏内容的意图识别为非误操作意图。
[0150] 在本发明的另一种可选实施例中,所述学词模块402,具体可以包括:
[0151] 记录子模块,用于在所述意图为非误操作意图时,将所述上屏内容记录至用户词库;
[0152] 更新子模块,用于更新所述上屏内容在所述用户词库中的频率。
[0153] 在本发明的再一种可选实施例中,所述装置还可以包括:
[0154] 记录模块,用于在所述识别模块401识别用户删除上屏内容的意图之前,通过缓存记录用户输入的至少一次上屏内容;
[0155] 删除模块,用于按照设定规则删除所述缓存中已进行学词的所述上屏内容[0156] 对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
[0157] 本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
[0158] 本领域内的技术人员应明白,本发明实施例的实施例可提供为方法、装置、或计算机程序产品。因此,本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
[0159] 在一个典型的配置中,所述计算机设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括非持续性的电脑可读媒体(transitory media),如调制的数据信号和载波。
[0160] 本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
[0161] 这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
[0162] 这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上,使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
[0163] 尽管已描述了本发明实施例的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。
[0164] 最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。
[0165] 以上对本发明所提供的一种学词方法和一种学词装置,进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈