首页 / 专利库 / 软件 / 逻辑文件 / 输入系统语意分析数据散列存储和分析方法

输入系统语意分析数据散列存储和分析方法

阅读:336发布:2024-02-15

专利汇可以提供输入系统语意分析数据散列存储和分析方法专利检索,专利查询,专利分析的服务。并且本 发明 提供了输入系统语意分析数据散列存储方法,该方法包括如下步骤:1)预设一按键映射表,以建立各按键中码元与数字之间的映射关系;2)建立第一信息与第二信息之间存在映射关系的数据集合并赋予每一记录以关键值;3)分配若干存储区域,每一存储区域对应存储一个关键值列表;4)分析数据集合中记录的第一信息的码元,按照按键映射表的映射关系,将该第一信息转换为数字串,按预设的拆分规则将数字串转换为指向多个存储区域的对应个数的 指针 符;5)将已被完成指针符转换的相应记录的关键值存入该些指针符所指向的存储区域的关键值列表中。此外,本发明还提供了一种相应的分析方法。本发明为 人机交互 系统提升智能化程度提供了必要的 基础 。,下面是输入系统语意分析数据散列存储和分析方法专利的具体信息内容。

1.一种输入系统语意分析数据散列存储方法,其特征在于,该方法包括如下步骤:
1)预设一按键映射表,以建立各按键中码元与数字之间的映射关系;
2)建立第一信息与第二信息之间存在映射关系的数据集合并赋予其中每一记录以关键值;
3)分配若干存储区域,每一存储区域用于对应存储一个关键值列表;
4)分析数据集合中各记录的第一信息的码元,按照按键映射表的映射关系,将该第一信息转换为数字串,按预设的拆分规则将数字串转换为指向多个存储区域的对应个数的指针符;
5)将已被完成指针符转换的相应记录的关键值存入该些指针符所指向的存储区域的关键值列表中。
2.根据权利要求1所述的输入系统语意分析数据散列存储方法,其特征在于,包括一冲突处理的步骤,当关键值列表中具有两个或两个以上的关键值时,按关键值大小进行排序。
3.根据权利要求1所述的输入系统语意分析数据散列存储方法,其特征在于,所述关键值列表采用线性结构进行存储。
4.根据权利要求1所述的输入系统语意分析数据散列存储方法,其特征在于,所述关键值列表所采用的线性结构为链表或数组。
5.根据权利要求1所述的输入系统语意分析数据散列存储方法,其特征在于,所述步骤2)的数据集合以电子表格、数据表、文本文件中任意一种形式进行存储。
6.根据权利要求1所述的输入系统语意分析数据散列存储方法,其特征在于,所述第一信息为起标示作用的字符串,所述第二信息为能被解析的与某功能性对象相关联的标识值。
7.根据权利要求1所述的输入系统语意分析数据散列存储方法,其特征在于,步骤2)的数据集合中,对于第一信息完全相同的两条以上的记录,赋予该些记录以相同的关键值。
8.根据权利要求1至7中任意一项所述的输入系统语意分析数据散列存储方法,其特征在于,所有所述存储区域由指向其自身的指针共同形成一指针表。
9.根据权利要求8所述的输入系统语意分析数据散列存储方法,其特征在于,所述存储区域个数为1000个,以三位十进制数对各存储区域进行指针标识。
10.根据权利要求9所述的输入系统语意分析数据散列存储方法,其特征在于,所述步骤4)的所述拆分规则为:将该数字串自最高位起,取前三位,并逐一退位,连续取前三位直至取得最低位时止,所得若干个三位数字段即构成属于该数字串的多个相应指针符,每一指针符与指针表中的一指针相对应。
11.根据权利要求10所述的输入系统语意分析数据散列存储方法,其特征在于,所述步骤4)中的所述拆分规则中,当数字串不足三位时,在其后补0构成最低三位数字段,在其后补9构成最高三位数字段,由最低数字段至最高数字段之间的多个数字段共同构成属于该数字串的多个相应指针符。
12.根据权利要求1至7中任意一项所述的输入系统语意分析数据散列存储方法,其特征在于,所述步骤4)中,其产生的每一指针符直接指向一所述存储区域的物理地址。
13.根据权利要求1至7中任意一项所述的输入系统语意分析数据散列存储方法,其特征在于,所述存储区域属于内存空间的一部分,所述关键值列表常驻内存。
14.一种输入系统语意分析数据分析方法,在引用权利要求11所述的散列存储方法的基础上,其特征在于,其对用户在当前输入过程中已输入的码元组合执行后续步骤:
1)按照一预设的按键映射表的映射关系将该码元组合转换为数字串;
2)将该数字串按照预设的拆分规则转换为多个指针符,每个指针符指向一个独立的存储区域,每个存储区域预存有由多个关键值构成的关键值列表;
3)根据指针符的指向,读取多个相应存储区域中的关键值列表,对多个关键值列表求交集,获取该交集运算所求得的公共的关键值;
4)以该些关键值在预存的数据集合中检索具有相同关键值的匹配记录,显示该些记录给用户选择,解析并执行用户选中的记录的第二信息。
15.根据权利要求14所述的输入系统语意分析数据分析方法,其特征在于,所述步骤4)具体包括如下步骤:
4.1、以该些关键值在预存的数据集合中检索具有相同关键值的记录;
4.2、将用户当前已输入的码元组合按照输入规则构造目标字词,检验该些记录的第一信息是否包含该目标字词,将包含该目标字词的所有匹配记录输出显示以供用户选择;
4.3、解析用户选中的记录的第二信息,获得相关联的功能性对象;
4.4、执行该第二信息所关联的功能性对象。
16.根据权利要求14所述的输入系统语意分析数据分析方法,其特征在于,所述步骤2)的拆分规则为:将该数字串自最高位起,取前三位,并逐一退位,连续取前三位直至取得最低位时止,所得若干个三位数字段即构成属于该数字串的多个相应指针符,每一指针符与一存储区域的逻辑或物理地址相对应。
17.根据权利要求16所述的输入系统语意分析数据分析方法,其特征在于,所述步骤2)的拆分规则中,当数字串不足三位时,在其后以0补位构成最低三位数字段,在其后以9补位构成最高三位数字段,由最低数字段至最高数字段之间的多个数字段共同构成属于该数字串的多个相应指针符。
18.根据权利要求14至17中任意一项所述的输入系统语意分析数据分析方法,其特征在于,所述步骤4)中,所有匹配记录中,仅第一信息被格式化以形成单级菜单列表后输出给用户显示。
19.根据权利要求14至17中任意一项所述的输入系统语意分析数据分析方法,其特征在于,所有匹配记录中,具有相同第一信息和关键值的记录采用其第一信息用于格式化以形成共同的一级菜单项,对属于同一级菜单项的各记录,通过格式化其各自的第二信息形成该一级菜单项的二级菜单项,将所有匹配记录格式化形成多级菜单后输出给用户显示。
20.根据权利要求14至17中任意一项所述的输入系统语意分析数据分析方法,其特征在于,步骤3)在求交集运算过程中,查找与第一个关键值列表是否存在与第二个关键值列表相同的关键值时,以第一个关键值列表中的关键值为基准,采用二分查找法与第二个关键值列表中的关键值相比较。

说明书全文

技术领域

发明涉及人机交互领域,尤其涉及一种输入系统语意分析数据散列存储和分析方法

背景技术

传统的输入系统,尤其是指移动终端中由输入法软件所构成的系统,运用多种输入法规则对用户的按键操作进行构词,构词后相关的字符串供给其它软件进行相应处理。世界上因为语种的差异,出现多种文字(语言),相应也就具有多种输入规则,甚至同一种文字(语言)也会有多种不同的输入规则,例如中文输入法中,公知的,包括五笔、拼音、郑码、自然码、区位码等多种输入规则均可用于构造汉字字词。
针对移动终端体积较小的特殊性,多采用九宫格键盘,并通过“1-9”等按键分布多个构成输入规则基本码元,如英文输入法将其26个字母分布在“1-9”按键中,中文拼音输入法以与英文输入法按键分布相同的方案采用26个英文字母作为其拼音字母、中文五笔输入法以与英文输入法按键分布相同的方案采用25个英文字母作为其字根分布方案等。在这种情况下,运用输入规则进行构词基本上已成为本领域内普通技术人员熟知的技术,而如何在体积较小的移动终端中进一步挖掘其应用潜却始终是本领域探索的重点。
由于国际上通用英文键盘,故按键产生的码元一般也以英文字母予以表征,码元由此作为构成目标字词的基本单位使用。传统的输入系统中的输入规则,都只负责完成从按键码元(如a,b,s,e,n,t等键)到字符或者字词(如连续按下组成单词“absent”)的对应关系,故其存储系统中,也只存储按键的码元组合与相应字词之间的映射关系。因此,传统的输入系统与操作系统上附载的其它软件、数据等功能性对象在使用上是相互独立的,无法从语意上对用户输入进行解析并做出相应的响应,因而一般用户输入只局限于文字编辑,而不涉及功能性对象的操作。
一种例外的情况是:预先赋予某些按键或按键组合与某功能对象之间以特定的对应关系,使两者唯一性对应,这样,在人机交互的过程中,用户可以通过某些特定功能按键启动某程序。这种情况多表现在个人计算机上,如其功能区F1键用于打开系统“帮助”文件;也见于某些手机的预设按键上,如其某个按键可以用于运行摄像机程序等。
无论如何,即使是以上的这些例外,也都无法对用户输入的内容本身进行语意分析,以实现“理解”用户的操作意向的目的。移动终端键盘(包括硬键盘和软键盘)上的按键被分为相互独立性较强的两部分,一为用于编辑文字部分,如“1-9”、回车键、翻页键等;另一为功能操作部分,如指向“word.exe”程序的预设专用按键或按键组合。但是编辑文字部分的按键与功能操作部分的按键之间不存在必然的联系。因而,按照这种情况,将用户的按键操作与其意图所指向的功能性对象在键盘上一一对应将变得不切实际,因为操作系统上功能性对象多不胜数,无法在较小的键盘区域中分布等量数额的按键。
从用户的思维习惯出发,便会对输入系统的智能化有相应的要求,例如,当用户输入“音乐”时,可能希望能得到与“音乐”相关的一些信息,包括机载音乐列表、机载音乐播放器、音乐下载地址、音乐在线搜索网址等,单纯地依靠传统的输入系统,显然无法满足用户的这种需求。
由此可见,目前公知的输入系统中,不具有分析用户输入的词组的语义和意向的基本能力,无法实现更高智能化层次的人机交互功能。要实现对用户输入的词组的语义和意向进行分析,则需运用模糊思维,构建用户可能输入的若干词组与该些词组所蕴涵的语义,及该语义所表征的用户意向之间的对应关系,形成满足用户一般思维活动所需的基础性的语意分析数据,融合于输入系统中,然后再由机器利用此一语意分析数据对用户输入词组的语意进行具体分析,最终能实现对用户输入的及时响应,让用户达到所想即所得(Thinking To Thing)的目的。
以上即为本申请人提出本发明之前的技术演进思路。
但是,难题不限于以上宏观描述,众所周知的,模糊思维所构造出的语意分析数据具有复杂的映射关系,而传统的输入系统的码元(由输入规则所定义的用于构造字词的每一基本按键输入,如a,b,c,d,e......等)组合与字词之间的映射关系则相对简单,如何使语意分析数据很好地融入输入系统,从而实现访问时的高效性,是本申请人一直努力的方向。

发明内容

本发明的首要目的是提供一种输入系统语意分析数据散列存储方法,建立用户输入信息与其输入信息所蕴涵的语义和意向所指功能对象之间对应关系的基础数据支持,完成输入系统向更高智能化人机交互能力发展的基础性准备。
本发明的次要目的是为前一目的的散列存储方法提供一种相应的分析方法,为该散列存储方法所生成的基础数据提供相应的访问支持,以增强前一目的的可行性。
为了实现上述目的,本发明采用如下解决方案:
本发明的输入系统语意分析数据散列存储方法,包括如下步骤:1)预设一按键映射表,以建立各按键中码元与数字之间的映射关系;2)建立第一信息与第二信息之间存在映射关系的数据集合并赋予其中每一记录以关键值;3)分配若干存储区域,每一存储区域用于对应存储一个关键值列表;4)分析数据集合中各记录的第一信息的码元,按照按键映射表的映射关系,将该第一信息转换为数字串,按预设的拆分规则将数字串转换为指向多个存储区域的对应个数的指针符;5)将已被完成指针符转换的相应记录的关键值存入该些指针符所指向的存储区域的关键值列表中。
为处理冲突,本方法还包括一冲突处理的步骤,即当关键值列表中具有两个或两个以上的关键值时,按关键值大小进行排序。这样,当需在关键值列表中检索时,可以采用二分查找法进行快速查找。
所述关键值列表采用线性结构进行存储,更具体的,该线性结构为链表或数组。这些形式便于实现。
实际上,该数据集合的具体存储形式不受限制,具有高度的灵活性。考虑到编辑时的便利性,所述步骤2)的数据集合以电子表格、数据表、文本文件中任意一种形式进行存储。这些文件格式由于其使用广泛而更能突出通用性。
更具体的,所述第一信息为起标示作用的字符串,所述第二信息为能被解析的与某功能性对象相关联的标识值。
步骤2)的数据集合中,对于第一信息完全相同的两条以上的记录,赋予该些记录以相同的关键值。由此,便于通过第一信息和关键值共同定义同一分类,继而可通过第二信息表征具体不同的内容,实现对数据集合中的各个记录进行归类汇总的作用。
考虑到在编程时采用逻辑地址进行内存管理的需要,所有所述存储区域由指向其自身的指针共同形成一指针表。所述存储区域个数为1000个,以三位十进制数对各存储区域进行指针标识。
所述步骤4)的所述拆分规则为:将该数字串自最高位起,取前三位,并逐一退位,连续取前三位直至取得最低位时止,所得若干个三位数字段即构成属于该数字串的多个相应指针符,每一指针符与指针表中的一指针相对应。当数字串不足三位时,在其后补0构成最低三位数字段,在其后补9构成最高三位数字段,由最低数字段至最高数字段之间的多个数字段共同构成属于该数字串的多个相应指针符。
作为另一实施例,前述产生的每一指针符也可通过直接指向一所述存储区域的物理地址,从而实现对关键值列表的寻址操作,此时,存储区域大小及关键值列表大小最好是可预知的。
考虑到需要对用户输入做出快速响应,所述存储区域属于内存空间的一部分,所述关键值列表常驻内存,这样,用户在任意时刻的任意输入均会被快速响应,增强本发明的高效性。
本发明的输入系统语意分析数据分析方法,在引用前述散列存储方法的基础上,对用户在当前输入过程中已输入的码元组合执行后续步骤:1)按照一预设的按键映射表的映射关系将该码元组合转换为数字串;2)将该数字串按照预设的拆分规则转换为多个指针符,每个指针符指向一个独立的存储区域,每个存储区域预存有由多个关键值构成的关键值列表;3)根据指针符的指向,读取多个相应存储区域中的关键值列表,对多个关键值列表求交集,获取该交集运算所求得的公共的关键值;4)以该些关键值在预存的数据集合中检索具有相同关键值的匹配记录,显示该些记录给用户选择,解析并执行用户选中的记录的第二信息。
同理,所述步骤2)的拆分规则为:将该数字串自最高位起,取前三位,并逐一退位,连续取前三位直至取得最低位时止,所得若干个三位数字段即构成属于该数字串的多个相应指针符,每一指针符与一存储区域的逻辑或物理地址相对应。所述步骤2)的拆分规则中,当数字串不足三位时,在其后以0补位构成最低三位数字段,在其后以9补位构成最高三位数字段,由最低数字段至最高数字段之间的多个数字段共同构成属于该数字串的多个相应指针符。
为提交系统响应效率,步骤3)在求交集运算过程中,查找与第一个关键值列表是否存在与第二个关键值列表相同的关键值时,以第一个关键值列表中的关键值为基准,采用二分查找法与第二个关键值列表中的关键值相比较。
所述步骤4)具体包括如下步骤:4.1、以该些关键值在预存的数据集合中检索具有相同关键值的记录;4.2、将用户当前已输入的码元组合按照输入规则构造目标字词,检验该些记录的第一信息是否包含该目标字词,将包含该目标字词的所有匹配记录输出显示以供用户选择;4.3、解析用户选中的记录的第二信息,获得相关联的功能性对象;4.4、执行该第二信息所关联的功能性对象。
作为一种简化的方案,所述步骤4)中,所有匹配记录中,仅第一信息被格式化以形成单级菜单列表后输出给用户显示。作为一种效果更明晰的方案,所有匹配记录中,具有相同第一信息和关键值的记录采用其第一信息用于格式化以形成共同的一级菜单项,对属于同一级菜单项的各记录,通过格式化其各自的第二信息形成该一级菜单项的二级菜单项,将所有匹配记录格式化形成多级菜单后输出给用户显示。
现有技术相比较,本发明至少具有如下有益效果:
1、本发明为人机交互系统提供了语意分析数据的原始信息支持,通过将用户可能输入的信息作为第一信息,将第一信息所包含的语义和意向相关的功能性对象及其参数以某种形式与第一信息相关联,形成数据集合的记录,在人类思维逻辑上,每条记录即蕴涵了一种解析关系,即将第一信息解析到第二信息的关系,而在计算机应用逻辑上,其存储形式自由多样,甚至可由用户自行编辑,并可由语意分析系统对各记录进行分析,为语意分析过得提供了原始信息支持;
2、在建立原始信息支持的基础上,本发明进而建立了相应的存储和索引架构,通过利用多个关键值列表存储多个关键值,又进一步管理指向各个关键值列表所在存储区域的指针(逻辑或物理的),通过将数据集合中的第一信息进行转换和折叠形成多个指针符,从而使数据集合中各记录的第一信息与某些相应的关键值列表之间建立交叉、散列的对应存储关系,使得用户的模糊输入可以在这种索引架构下被多义模糊解释,通过这种模糊解释的结果可以引导用户思维的清晰化,最终这致所想即所得的效果;
3、从功能的度考虑,本发明使得多个功能性对象与输入系统完美的结合,用户只需在系统键盘中输入相关概念,即可动态地显示系统对其语意的分析结果供用户选择,用户只需面对一个输入系统,而不必通过复杂的多级菜单操作进行对功能性对象的调用,不再需要准确记住每个目标功能性对象所在的各级菜单,不再需要繁琐地多次操作键盘......由此种种,改变了传统的人机交互习惯,将人机交互导向一个新的思维;
4、用本发明的方向所实现的输入系统,由于其所采用的存储和分析方法依赖于各存储区域所共同形成的索引架构,而这种架构具有占用空间小、查找速度快等特点,特别是1000个存储区域的限定,尤其与当前主流内存产品的空间利用相匹配,因而,可以将索引架构所涉及各种数据限定在内存而非硬盘等慢速存储器中,在不影响整机正常速度和效率的情况下,可以实现了快速响应用户输入的功能。
本发明的有益效果远不止于上述罗列诸要点,限于篇幅而不加赘述。需要进一步强调的是:其它任何因本发明所想即所得的技术方案的实现而引起的技术变革,以及以这种变革所引起的有益效果,虽未在此明文记载,均是属于本领域内普通技术人员和商业领域人员可以推知的。
下面结合附图和具体实施例对本发明进行具体说明:

附图说明

图1为本发明所称的按键映射表的原理示意图;
图2为本发明所称数据集合所引用的用户输入关键词与功能性对象之间的映射关系的示意图,表现在数据集合中,该些关键词与第一信息相对应,而功能性对象与第二信息相对应;
图3为本发明存储方法所形成的索引架构的逻辑结构示意图,其中,示出一指针表和多个关键值列表。

具体实施方式

本发明输入系统语意分析数据散列存储方法,依赖于一按键映射表和一数据集合。
请参阅图1,图1中救出了1至9共9个按键,其中按键“1”-“9”中分别跟英文字母a-z和数字1-9建立映射关系,如键“2”上的2,a,b,c;键“3”上的对应3,d,e,f,按图1所示以此类推。由于目前公知的输入规则基本延伸自计算机系统,故26个英文字母中至少有一部分被用于某种输入规则中作为其基本码元进行构词。例如,字词“画皮”,其拼音为“huapi”,以全拼输入规则为例,则需要逐个输入码元“h”,“u”,“a”,“p”,“i”,由此,可以逐一在图1中找出其映射数字串为“48274”。对于其它输入规则也同理:如五笔输入规则,构成“画皮”两字的码元为“g”,“l”,“h”,“c”,对应的映射数字串则为“4542”;再如纯英文输入规则,单词“paper”对应的映射数字串便为“72737”。
由此可知,无论运用何种输入规则,均可将其基本码元序列按照图1所示映射关系转换为相应的数字串。因此,在应用本发明的存储方法时,同一字词可能会被两种不同的输入规则解析为两个完全不同的数字串进行存储,例如前述的“画皮”一词,既可以运用拼音输入规则转换为“48274”,又可以运用五笔输入规则转换为“4542”,这种情况无疑可以增强本发明的存储方法和分析方法的模糊思维处理能力,但是,用数字串多义性表达同一字词,也容易导致在输入同一串码元序列时分析到的结果重复率高企,从而用户最终可能需要在一大堆重复选项中选择目标功能性对象,造成较大的不便,因此,在应用本发明存储方法和分析方法时,最好将输入规则约束为同一种输入规则,本发明后述的描述中将约定为以拼音输入规则为准。
所述的数据集合,请参阅图2所示的逻辑结构示意图。其包括多条记录(表现在数据库中可称之为行),每个记录至少包括第一信息、关键值、第二信息等属性(表现在数据库中也可描述为域和列)。其中,第一信息具有一定的标示作用,故可为标示字符串,关键值为预先赋予的一个对机器而言具有索引意义的数值,第二信息则表现为具有一定格式的表达式。虽然本实施例中为便于理解,使用数据库的方式对数据集合进行描述,但是,本领域普通技术人员应当知晓,数据集合的文件格式不限于各种类型的数据库,而应扩展到包括电子表格、文本文件以及广义数据表等任意形式,只要一个文件中存在若干可被本发明的存储和分析方法所识别的多条记录,即应将其理解为本发明的数据集合。
例如,设数据集合中存在记录“音乐,#123,自动播放歌曲|c:\play.exe all”,其中的“,”号表示分隔不同的域,由此,“音乐”即为一标示字符串,属于域第一信息的内容,“#123”属于关键值,为建立该数据集合时所分配的一个数值,符号“#”在此只起识别作用,而“自动播放歌曲|c:\play.exe all”,作为一个表达式,则属于域第二信息的内容,其中“|”号起到分隔参数的作用,即“自动播放歌曲”在此可作为一个细目对后续“c:\play.exe”进行进一步的描述,“c:\play.exe”本身作为一个功能性对象的链接使用,而“all”则为其参数,为功能性对象“play.exe”所识别,意指自动播放当前播放列表中的所有音乐,如此,在逻辑上,属于第一信息的标示字符串即与属于第二信息的表达式建立了一定的映射关系,成为数据集合中的一条记录。由于该记录已赋予关键值“#123”,故只需在数据集合中检索关键值为“#123”的记录,即可检索到该条记录。
第二信息作为一种表达式,其具体的描述方式可以灵活实现,只要本发明的存储方法和分析方法之间存在相同的解析该表达式的协议,并且该第二信息的设计遵循这种协议即可。例如,图2中,“自动播放歌曲|c:\play.exeall”中功能性对象是一个可执行程序,程序可通过识别其路径的方式予以识别,而“在线搜索歌曲|search.guobi.com”中,通过分析其中的功能性对象search.guobi.com,可判断其为一网址,进而程序可自动调用浏览器访问该网址。又如,对于“国笔沐足中心地图|c:\ftmap.jpg”,首先通过表征功能性对象的字符串“c:\ftmap.jpg”进行路径的判断,知其为一本地文件,进而判断其文件类型,知其为JPG格式文件,而后,程序进一步通过注册表之类的操作系统关联数据检索到相应的看图程序,即可通过调用该看图程序打开此本地图片文件。再如,设存在一条记录的第二信息为“NULL”,由于“NULL”为本发明存储方法和分析方法的保留字,被约定为不做任何操作,故当该分析方法解析第二信息时,便不再进行下一步操作。诸如此类,均显示第二信息实质上为一表达式,该表达式中既可进一步包含字符串说明,还可包含其它命令、文件路径、参数、保留字等等信息,具体的设置,在于本发明的存储方法和分析方法所共同遵守的协议,只要保持前后应用的协议的一致性,即可实现此类功能。
由图2也可以看出,第一信息所包含的标示字符串主要起标识作用,可以是人为赋予的标识第二信息所包含表达式的意义,以便于将第一信息进行输出以方便用户理解。在后述描述的本发明的数据集合的另一种实施例中,第一信息也将可被用于作为用户选择菜单的一级菜单名称,以便于对数据集合中多条记录进行归类管理。第一信息所包含的标示字符串,尽管如图2所示灵活多样,但却均被应用为检索的依据,具体而言,在本发明的存储方法中,是以该第一信息为依据建立索引架构的,而在本发明的分析方法中,则同样需要通过将用户输入的字词与找到的相应记录的第一信息进行比较以便滤除冗余信息。
同理,第二信息中所具有的作为细目的字符串如图2所示“自动播放歌曲”、“在线搜索歌曲”、......“国笔沐足中心地图”等,也可被用做检索的依据——在本发明的存储方法中作为建立索引架构的依据,而在本发明的分析方法中作为滤除冗余信息的依据。可以看出,第二信息中作为细目使用的字符串在这种意义上与第一信息的标示意义是相同的,具体的应用,将取决于编程时是否同时以第一信息和第二信息作为检索依据而定。依据此一原理,进一步还可以将第二信息所包含的细目部分分离出来,作为数据集合的一个独立的域(或列)使用。此外,还可赋予每条记录以另外的域(或列)以标示第二信息中功能性对象的其它属性,例如可以设置一个独立的域用于标示功能性对象为网址时的网页类型HTTP还是WAP。本领域内普通技术人员均应知晓此类变通。
在语意上,所述功能性对象对应的第一信息或第二信息的细目包括与功能性对象在功能、用途、名称方面相关的字、词、句。例如,可以是功能性对象的名称;也可以是功能性对象名称的上位词义的字、词、句,或上位词义相关的字、词、句;也可以是功能性对象名称的下位词义或同位词义的字、词、句,或下位词义、同位词义的相关的字、词、句;也可以是位于同一语意场中的其它关键词。
在管理逻辑上,数据集合本身存在分类管理和多级关联特性。如图2中,第一信息“我要听音乐”、“唱歌”、“很无聊”等词均被赋予关键值“#123”,因此,在本发明的分析方法用上述第一信息进行检索时,将检索到关键值为“#123”的所有记录。而这些第一信息在数据集合中在使用同一关键值的情况下,还可分别被与两个第二信息建立映射,如关键值为“#123”的记录分别与“自动播放歌曲|c:\play.exe all”、“在线搜索歌曲|search.guobi.com”对应,这样,便可构成3*2共6条记录,以此类推,可以构建更为复杂的映射关系是不言而喻的。而这种复杂的映射关系以记录的形式出现,将更便于程序人员进行程序设计,更重要的,通过关键字实现了第一信息和第二信息的归类,再通过编程进行合理的信息组合,这样的效果与人类思维逻辑相当契合。
为了更进一步说明本发明所称的数据集合的实用性,出具下表,其揭示手机应用上的一个实施,作为本发明的数据集合的另一实施例,其将一些可能的第一信息和第二信息建立了关联,用第一信息作为类别名称,而用第二信息的细目进行功能性对象的标识,与前述实施例相结合,应可让读者加深对本发明数据集合此一概念的理解:





表1
上述表1中按照服务类型分包括有音乐、图片、彩铃、火车票预定、机票预订、订票、城市公交、订餐、订房、阅读、博彩等,这些字符作为第一信息使用,按照每个服务类别,还包括多种服务,由此便得出多种第二信息的表达式(在程序设计时灵活表达)。按照每个服务类别,以一定的语意功能为核心聚类成不同的细目群,每个细目群对应有一个或多个关键词,例如订房所处的服务类别的细目群包括关键词有:酒店、宾馆、饭店、住店、订房、住宿。每个细目群对应服务类型映射有一个或多个功能性对象,例如机票预订所处的细目群对应的功能性对象有:12580、南航、国航、春秋航空、携程、百度搜索。而每一个服务类别(第一信息),却都使用相同的关键值。
功能性对象是预存在机器上的软件或命令集合,故而,只要数据集合中存在相应功能性对象的表达式(包含在记录中),便可通过程序对其进行识别。而在构造了上述的数据集合后,需要进一步建立相应的索引架构以便实现本发明的存储方法。
本发明的存储方法采用公知的数据结构实现方法,向操作系统申请若干存储区域,这些存储区域既可以是在物理上连续的,也可以是逻辑上连续但物理上分散的。前者可以采用物理寻址的方式予以编程实现,后者可以采用诸如计算机程序语言所定义的指针寻址予以实现。当然,其本质上都是物理寻址实现的,而本发明所称的寻址方式的不同则主要是相对使用高级程序语言进行设计而言。为便于理解,本发明的存储方法和分析方法的主要实施例将以逻辑寻址进行描述。
请参阅图3,当本发明的存储方法向系统申请得若干存储区域后,先形成一个用于对各个存储区域进行管理的指针表,指针表中存储各个存储区域的逻辑的指针符、起始物理地址的指针和最大容量等属性,故可通过访问该指针表对各个存储区域进行定位。每个存储区域用于存储一个关键值列表,关键值列表中的关键值来自于前述数据集合中的关键值属性(即数据表中的域或列),表现在程序设计时,典型的,采用线性链表对各个关键值进行存储,当然,也可采用数组之类的方式进行关键值的存储。所述存储区域的指针符,是为了便于编程时进行标识而设置的,例如,可以在编程时采用一个数组形成指针表进行管理,数组的下标便与指针表所指的各个存储区域的起始物理地址指针建立了对应关系,其下标也就直接作为指针符使用,因此,本发明所称的指针符是逻辑上的概念,是配合利用高级程序语言进行编程而进行的描述,也是为了便于程序设计时更容易实现。因此,本发明中,给出一个指针符范围为000-999共一千个存储区域,采用三位十进制数进行表述,这样便可实现对1000个关键值列表进行管理。根据目前的硬件设备的实际情况而言,该数值是一个较为理想的限定,能充分发挥硬件的潜力,既保证访问速度又保证存储空间的有效利用。具体而言,本发明的存储方法所建立的索引架构,为了提高访问(运用分析方法)时的响应速度,宜被存储在系统内存而非硬盘之类的其它慢速存储设备中,使其常驻内存,而考虑到过大的内存占用将影响整个系统的运行效率,则其空间占用程度必须被适度限制,故而采用该数值,这样的原则符合“空间换时间”的思维,故能综合发挥整机效能。但该数值不应理解为对本发明的限定,随着科学技术的发展,内存、中央处理器等设备的处理能力不断提高时,则该数值将不再受于此限。
在本发明的另一实施例中,存储区域的管理是采用物理寻址的方式进行的,这样便可不必专建立指针表,而直接采用使用其物理地址进行访问即可,若干个存储区域均具有起始物理地址,找到其起始物理地址即找到关键值列表的地址,即可直接进行关键值列表的访问,这种方式适用于低级语言程序设计,不推荐使用,本领域普通技术人员参阅本发明关于高级程序设计的描述后自然能采用低级编程语言加以实现,故而不予详述。
图3中用方框表示关键值列表,其中的多个关键值以逗号的方式区分,如前所述,其在内存中可以用线性结构如链表、数组等形式予以实现,但也可以采用文本文件的方式予以实现,其中采用如图3所示的逗号或其它诸如制表符、空格等方式对多个关键值进行分隔,只要在程序设计时予以识别即可。故当关键值列表采用文本文件或其它文件的方式实现时,存储区域的指针表实际上也起到了文件目录管理单元的作用,但由于本发明认为较佳的实施例是以采用占用内存的存储区域为基础进行的,故后面的描述仍然以内存管理的方式为准。
同一关键值列表中,采用从大到小或从小到大的方式进行排序将有利于在应用本发明分析方法时采用二分查找法进行快速检索。如图3中与指针符“827”相对应的关键值列表中,关键值是从小到大进行排列的。
关键值列表的生成,是应用本发明存储方法实现的。其生成过程如下:
首先,运用输入规则(本实施例以拼音输入法为准)分析数据集合中的每一条记录的第一信息的码元(采用前述数据集合的第二实施例的情况下,因第二信息中存在起标示作用的细目时,还可以进一步分析该细目的码元),因为每一输入规则本身具有文字与码元之间的对应关系,故可利用输入规则本身实现对已有字符串的码元的转换,例如,设有一条记录中的第一信息为“画皮”一词,根据输入规则,可以查找到其对应的码元序列为“huapi”。
然后,查找前述的按键映射表从该表中可以确定码元序列“huapi”所对应的数字串为“48274”。
继而,需要对已获得的数字串“48274”进行折叠截取形成复式索引。具体而言,对应于前述存储区域中指针符以三位十进制数进行描述的情况,存在一个拆分规则:首先,自最高位起,截取该数字串前三个数字成为第一数字段“482”,该数字段直接作为指针表的指针符使用(如对应前述数组管理的方式作为数组下标),然后退一位,继续取前三个数字构成第二数字段“827”,以此类推(不管剩余多少数字),直至取得最后一个数字为止,形成最后一个也是第三数字段“274”,共形成三个数字段,意味着存在三个指针符,由此完成从数字串至指针符的转换。对于数字串不足三位的情况,则采用将不足位全覆盖的方式实现,如,对于数字串“48”,由于缺少一个位,故在其末位补“0”形成“480”,再在其末位补“9”形成“489”,然后以“480”至“489”范围内的数值作为其指针符。同理,如果只有一个位“4”,则其拥有的相应指针符为“400”至“499”之间的指针符。可以看出,指针符的位数决定了存储区域的个数,或者说存储区域的个数决定指针符的位数,指针符进一步又决定了本步骤中对数字串每一次进行截取的位数,而每一次截取的位数相应也决定了一个有限位数字串的指针符个数,所有这些关联,最终将在下一步骤中影响到索引架构的索引关系。同样的拆分规则既然在本发明的存储方法中被应用,当然也会在后述的分析方法中被相应采用。
最后,每完成数据集合中的一条记录的第一信息到指针符的转换,即需要调该条记录的关键值,如,设与“画皮”相关的记录表达为:“画皮,#00158,电影《画皮》|c:\video\画皮.rmvb”。其中,“#00158”为其关键值,第一信息“画皮”已被转换为“482”、“827”、“274”共三个指针符,找到三个指针符所对应的三个存储区域,从而获得其关键值列表,将关键值“#00158”存储于找到的三个关键值列表中,即完成对数据集合中相应的记录的索引构建。
另外,不同的第一信息经过转换后有可能具有一个或多个相同的指针符,例如,设数据集合中还存在另一记录以如下的方式表达:“画册,#20355,相册程序|c:\windows\pisca.exe”,由于“画册”按所述拆分规则转换后得到“482”、“822”、“223”共3个指针符,这种情况下,指针符为“482”的存储区域中的关键值列表由于之前已存入关键值“#00158”,如果再直接存入关键值“#20355”则会替换掉既有的关键值“#00158”,因而,在这种指针符重复的情况下,需要建立一种冲突处理机制,如前所述,只需将关键值列表中的各关键值按照从小到大或从大到小进行排序,以线性结构进行存储即可。相应的,在运用本发明的分析方法时,需要通过一系列的运算去理解该冲突处理机制以获得准确的数据,详见后述。
对数据集合中的每一条记录均执行上述的步骤,则可形成从指针表到存储区域到关键值列表再到数据集合的索引架构,该索引架构也便形成了完整的语意分析数据。此其中,数据集合并未被全部存储到关键值列表中,而是以数据集合中的关键值存储于相应关键值列表中,故而仅起到索引的作用,编程时,便可通过在关键值列表找到关键值,再以该关键值检索数据集合中的相应记录实现对数据集合中记录的检索。
业内人士可以看出,本发明的存储方法所建立的索引架构参考自哈希表,但却不同于哈希表,其核心之处是运用了复式存储,是区别于传统哈希表的关键,也即,对于同一第一信息的标示字符串如“画皮”,将其由码元序列转换而的数字串转换为多个指针,再分别将“画皮”所在记录的关键值作为索引值予以存储在多个关键值列表中而非单个的关键值列表中,这样的设计,尽管占用了更多的存储空间,但却结合了输入规则本身的已有资源,运用了人工智能,拓展了本发明的智能化程度,使用户即使是通过模糊输入的方式也可以快速查找到其需要的目标。
通过上述本发明的散列存储方法所构建的索引架构,已经完成了语意分析数据,只要在程序设计时遵循对该散列存储方法的解读,即可非常灵活地实现本发明的分析方法,以便基于这些语意分析数据对用户所输入的数据进行语意分析。
本发明的分析方法在原理上与该存储方法相对应,其响应于用户的每一个码元的输入,迅即形成供用户选择的功能性对象的列表,在用户选择目标功能性对象后,最终响应于用户的选择而执行相应的功能性对象。由于其受限于存储方法中索引架构的具体实现,故以下将以该存储方法的一个简易的实施例说明其所包括的步骤:
步骤一、用户依据自己的实际需要查找信息,先从一终端设备如手机上输入其用于表达原意的词语,由于本发明的存储方法以拼音输入规则为描述的基础,故在本分析方法中沿用此一基础,用户需要运用拼音输入规则输入其需要表达的字词,例如,用户通过输入“huapi”码元序列以选取“画皮”一词。
步骤二、用户形成“画皮”一词的过程中,各个码元是依次输入的,故每一个码元的输入将形成一个新的码元序列,由“h”到“hu”......最后到“huapi”,在这个过程中,实际也等效于输入了九宫格键盘上的“48274”按键,而该按键按照输入规则除了可以形成“huapi”对应于词组“画皮”之外,还能形成“huaqi”对应于词组“花期”,不管如何,现有的输入法均能在码元的逐个输入后依据当前的码元序列即时动态造词,如对应地,从“呵”到“胡”......最后到“画皮”。对于存在多义构词的情况,由于用户输入最终通过按键映射表进行转换,故暂不考虑其所构造的词组的语义。本发明的分析方法充分运用此一特点,也是依照各个码元被输入后即时进行如下步骤的操作(以下的步骤将假设最后一个拼音字母“i”已被输入):
步骤1、将用户已输入的当前的码元序列(又称码元组合)“huapi”依照按键映射表转换为数字串“48274”,注意到此一转换将导致不管是“画皮”还是“花期”,均能得到同样的转换结果,本发明的分析方法是以字词被映射后的数字串进行的,故若“画皮”与“花期”两词均在数据集合中存在对应记录,则两者最终均会被本分析方法显示,可见,当用户通过键盘输入参与本分析方法时,既有的输入规则所产生的输入多义性实际上并不影响本分析方法的实施;
步骤2、运用与本发明的存储方法完全相同的拆分规则,先将数字串“48274”折叠截取为“482”、“827”、“274”三个数字段,该三个数字段直接作为索引架构中存储区域的指针符使用,具体可与前述相对应表现为数组下标参与运算,然后,如图3所示,通过指针表(可表现为数组)找到“482”、“827”、“274”三个存储区域的关键值列表;
步骤3、由于指针符已找到相关的关键值列表,且关键值列表内各关键值已经由本发明的存储方法完成排序,故可运用二分查找法对关键值列表进行交集操作,即将其中一个关键值列表找出,用另一关键值列表的各个关键值逐一运用二分查找法在前一关键值列表中检索相同项,若找到则表明该两个关键值列表存在交集,以此方法类推包含再一关键值列表参与运算,最终便可得到交集结果,获得三个关键值列表中公共的关键值,对照图3,可知,“482”、“827”、“274”三个指针符所指的三个关键值列表中,其交集运算的结果将找到公共的关键值“#00158”,假设前述词组“花期”也在数据集合中存在相应的记录,且其关键值已被存储在索引架构中,则此时可能同时在前述三个关键值列表中求得关于“花期”一词的交集,如图3中“#00168”,这时,系统中便形成两个公共关键值;
步骤4、由于前一步骤已经检索出关键值“#00158”和“#00168”,两个关键值在数据集合中均有对应记录,本分析方法进而在数据集合中检索具有相应关键值的记录,参阅表1最后两行,假设在一个简易的实施例中,将表1中第一列(该表所称第一信息)与第二列(该表所称第二信息的细目)共同作为第一信息,将表1中第三列(该表所称功能说明)、第四列(该表所称功能对象)及第五列(该表所称属性)共同作为第二信息,检索出记录的表达式如下:
1、“影视画皮,#00158,电影《画皮》|c:\video\画皮.rmvb”;
2、“商贸花期,#00168,广州花市|www.gzflower.com HTTP”;
本分析方法进而将这些检索结果显示给用户选择,在显示给用户选择之前,先将已检索到的记录进行格式化,如仅使用其中的第一信息形成单级菜单输出给用户进行选择,形如:
1、影视-画皮
2、商贸-花期
在用户选择其中之一后,如选择第1项,本分析方法获得其选择的目标对象为关键值“#00158”的记录,进而解析其第二信息“电影《画皮》|c:\video\画皮.rmvb”,去除其中的细目信息“电影《画皮》”,直接调用播放器程序播放“c:\video\画皮.rmvb”文件,由于操作系统中一般已设置各种后缀的文件与某种相应程序的关联,故本分析方法只需执行一个打开文件“c:\video\画皮.rmvb”的命令即可,在此,“c:\video\画皮.rmvb”作为一个功能性对象已经被执行,其与用户原始表达的意思吻合。
另一种对已检索到的记录进行格式化的方式中,设完全按照表1的方式设计数据集合,得出的记录形如:
1、“影视,#00158,画皮|电影《画皮》|c:\video\画皮.rmvb”;
2、“商贸,#00168,花期|广州花市|www.gzflower.com HTTP”;
本分析方法在格式化该两条记录时,可以采取如下的设计多级菜单:
1、影视
1.1、画皮——电影《画皮》
2、商贸
2.1、花期——广州花市
可以看出,在上述的多级菜单上,数据集合的第一信息被作为一级菜单(主菜单)显示,而第二信息中的细目则被作为第二级菜单(子菜单)显示,如果这时从数据集合中还找到一个记录,如:
3、“影视,#00158,画皮|订电影票|www.piao.com WAP”
则进一步的,上述菜单“影视”的主菜单下无疑将增加如下子菜单项:
1.2、画皮——订电影票
可见,经格式化后的菜单,将检索到的若干功能性对象形象化地进行展示,方便用户理解,从而可快速的定位用户需要的相关信息,只在数据集合中的第一信息与第二信息的对应关系合理,即可为用户提供高度智能的分析效果。
需要注意的是,不管第一信息与第二信息之间的起标示作用的字词间如何灵活结合,本发明的功能性对象的表达自始至终是在第二信息中进行的,因此,无论从核心上看,本发明的数据集合中,功能性对象与关键值之间的对应关系对机器而言是非常重要的,直接影响到机器所调用的功能性对象是否正确。
本分析方法中,标示字符串分散存储后,再将其复原会产生一些冗余的信息,如关键值“#8548”的指针符还可以组成“426426426”这样的一个数字串,当用户输入“426426426”时,也可以找到关键值“#8548”,但这显然与“#8548”原代表的意义不相符,所以作为一种严谨的策略,要经过检验,去除不相符的关键值,才能输出。校验的方法是在上述步骤4找出关键值相对应的数据集合的记录之后未进行格式化显示之前,将用户当前已输入的码元组合按照输入规则构造目标字词,如用户输入的“huapi”或“huaqi”构造出的字词为“画皮”或“花期”,检验已检索到的记录的第一信息是否相匹配,具体为逐一检验每条记录中的第一信息是否包含“画皮”或“花期”,如若有其中之一被包含,则视为该条记录与用户的原意相匹配,从而可以确定该记录可被用于后续步骤进行显示。当然,如果用户确定无疑地选中了“画皮”一词,则仅需比较所找到的第一信息中是否包含“画皮”一词即可。
由上述对本发明的存储方法和分析方法所进行的多种实施例的详细分析可以知晓,该存储方法与分析方法具有一定的对应关系,后者受前者的制约,前者决定一个索引架构,而后者则需要根据此一索引架构灵活编程予以实现。前者所定义的寻址方式、数据集合中记录的表达方式以及所限定的输入规则都会影响到后者的程序设计,因此,该存储方法为本发明的核心,而该分析方法则为其派生。
对本发明的描述,为便于理解,主要是基于手机之类的终端设备进行的,在其他实施例中,本发明的各种方法还可以应用于手机以外的电子设备,例如个人计算机和其它使用软硬键盘的设备等,只要建立键盘映射表和数据集合和以此为基础的索引架构,即可通过编程实现本发明所称的各种方法。以上所述,本技术领域的技术人员完全可以根据本发明的各个实施例来实现,由于篇幅有限,恕不赘述。
从上述实施例可以清楚看出,本发明的存储方法和分析方法为智能设备的人机交互提供了语意分析数据基础,业内人士可以据此提升智能设备的智能化程度,导向用户操作意图。对于任意操作系统,不需要设置多级菜单来存储功能性对象,均可通过用户的即时文字表达快速检索到相应的功能性对象,并在用户确定目标后予以执行。用户由此不用记住每个功能性对象所处的具体存储位置,且不需一步一步地查找打开各级菜单来调用目标功能对象。
以上所揭露的仅为本发明的较佳实施例,不得以此来限定本发明之权利范围,因此依本发明申请专利范围所作的等同变化,仍属本发明所涵盖的范围。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈