一种基于关键词和Word2Vec的命令识别方法专利检索-词性标注人工智能专利检索查询-专利查询网

一种基于关键词和Word2Vec的命令识别方法

阅读：293发布：2020-05-12

专利汇可以提供一种基于关键词和Word2Vec的命令识别方法专利检索，专利查询，专利分析的服务。并且本发明涉及一种基于关键词和Word2Vec的命令识别方法，该方法包括以下步骤：1)获取命令文本；2)对命令文本进行句法分析，基于句法分析结果，提取命令文本中的关键词；3)基于关键词中的动作关键词和对象关键词，从预建立的词向量字典中获取所述动作关键词的近义词集和所述对象关键词的近义词集，构建命令备选短语集，所述预建立的词向量字典基于Word2Vec建立；4)将命令备选短语集中的各命令备选短语分别与预建立的命令短语库中的各标准命令进行匹配，获取命令匹配结果；5)基于命令匹配结果和步骤2)中提取的关键词，组合成命令识别结果。与现有技术相比，本发明排除了冗余信息的干扰，具有命令匹配的泛化性能高和人力和时间成本低等优点。，下面是一种基于关键词和Word2Vec的命令识别方法专利的具体信息内容。

权利要求

1.一种基于关键词和Word2Vec的命令识别方法，其特征在于，该方法包括以下步骤：
S1：获取命令文本；
S2：提取命令文本中的关键词；
S3：基于关键词中的动作关键词和对象关键词，从预建立的词向量字典中获取所述动作关键词的近义词集和所述对象关键词的近义词集，构建命令备选短语集，所述预建立的词向量字典基于Word2Vec建立；
S4：将命令备选短语集中的各命令备选短语分别与预建立的命令短语库中的各标准命令进行匹配，获取命令匹配结果；
S5：基于命令匹配结果和步骤S2中提取的关键词，组合成命令识别结果。
2.根据权利要求1所述的一种基于关键词和Word2Vec的命令识别方法，其特征在于，所述步骤S3中，近义词集基于词向量字典中各词语与待获取近义词集的词语的第一相似度进行排序，所述近义词集中包括待获取近义词集的词语，所述第一相似度计算表达式为：
式中，w1为第一词语，w2为第二词语，v1为第一词语在词向量字典中对应的词向量，v2为第二词语在词向量字典中对应的词向量，sim(w1，w2)为第一词语与第二词语间的第一相似度。
3.根据权利要求1所述的一种基于关键词和Word2Vec的命令识别方法，其特征在于，所述步骤S4若匹配不成功，则重新执行步骤S3和步骤S4，并增加步骤S3中近义词集的元素个数。
4.根据权利要求3所述的一种基于关键词和Word2Vec的命令识别方法，其特征在于，若所述近义词集中元素个数增加到30还未匹配成功，则输出该命令文本不匹配任何标准命令的结果。
5.根据权利要求1所述的一种基于关键词和Word2Vec的命令识别方法，其特征在于，所述步骤S4中，如果命令备选短语与标准命令匹配成功的组合存在多个，则分别计算每个所述组合中命令备选短语与步骤S3中的动作关键词和对象关键词组合的第二相似度，第二相似度高的命令备选短语对应匹配成功的标准命令即为命令匹配结果。
6.根据权利要求5所述的一种基于关键词和Word2Vec的命令识别方法，其特征在于，所述第二相似度的计算表达式为：
s_sim(i，j)＝sim(wact，wact，i)×sim(wobj，wobj，j)
式中，s_sim(i，j)为命令备选短语集中第i行第j列对应的命令备选短语与步骤S3中的动作关键词和对象关键词组合的第二相似度，wact为步骤S3中的动作关键词，wobj为步骤S3中的对象关键词，wact，i为命令备选短语集中第i行第j列对应的命令备选短语的动作关键词，wobj，j为命令备选短语集中第i行第j列对应的命令备选短语的对象关键词，w1为第一词语，w2为第二词语，v1为第一词语在词向量字典中对应的词向量，v2为第二词语在词向量字典中对应的词向量，sim(w1，w2)为第一词语与第二词语间的第一相似度。
7.根据权利要求1所述的一种基于关键词和Word2Vec的命令识别方法，其特征在于，所述步骤S2具体为对命令文本进行句法分析，基于句法分析结果，提取命令文本中的关键词，所述句法分析包括以下步骤：
S201：对命令文本进行分词；
S202：对分词结果进行词性标注；
S203：基于词性标注对命令文本进行依存句法分析，获取各个词语间的依存关系。
8.根据权利要求7所述的一种基于关键词和Word2Vec的命令识别方法，其特征在于，所述步骤S202中，标注的词性包括动词、方位词、处所词和数词；
所述步骤S203中，依存关系包括动宾关系、双宾语、把字结构、处所关系、数量关系、定中关系和的字结构；
所述提取命令文本中的关键词包括提取命令文本中的动作关键词、对象关键词、位置关键词、数量关键词和属性关键词；
所述动作关键词包括词性为动词的词语，如果一个句子中有多个动词，保留距离宾语最近的一个动词；
所述对象关键词包括依存关系为动宾关系的名词、依存关系为动宾关系的代词、依存关系为双宾语的名词、依存关系为双宾语的代词、依存关系为把字结构的名词和依存关系为把字结构的代词；
所述位置关键词包括词性为方位词的词语、词性为处所词的词语和依存关系为处所关系的名词；
所述数量关键词包括词性为数词的词语和依存关系为数量关系的词语；
所述属性关键词包括依存关系为定中关系的形容词、依存关系为定中关系的名词、依存关系为的字结构的形容词和依存关系为的字结构的名词。
9.根据权利要求1所述的一种基于关键词和Word2Vec的命令识别方法，其特征在于，所述步骤S1具体为基于语音识别技术对语音数据进行识别，生成命令文本。
10.根据权利要求1所述的一种基于关键词和Word2Vec的命令识别方法，其特征在于，所述词向量字典以分布式的数值形式来表示词的上下文特征。

说明书全文

一种基于关键词和Word2Vec的命令识别方法

技术领域

[0001] 本发明涉及命令识别领域，尤其是涉及一种基于关键词和Word2Vec的命令识别方法。

背景技术

[0002] 人机交互是一门研究系统与用户之间的交互关系的学问，系统可以是计算机化的系统和软件或者机器人。服务机器人是机器人家族中的年轻成员，集机械、电子、材料、计算机、传感器、控制等多门学科于一体，是国家高科技实力和发展水平的重要标志。

[0003] 命令识别是人机交互中的重要领域，它需要事先定义全部能够支持的命令短语库，在使用过程中将用户发出的指令与命令短语库中的命令进行匹配，从而执行相应的命令。其主要优势在于用户不必利用鼠标、键盘、遥控器等输入设备，只需要说出命令语音，机器人就会触发对应的操作。

[0004] 基于声学模型的命令识别，它直接依据音频文件进行命令识别，系统会根据语音数据的声学音素和音素序列，去构件好命令短语库中配出相似度最高的文本，从而给出识别结果。但是在实际应用中，由于某些命令词太短、用户口音各异等问题，会造成识别出来的命令与实际有较大的差异。

[0005] 随着近年自然语言处理技术的发展，文本匹配方法逐渐成为了主流，它首先用目前已经很成熟的语音识别技术将音频转为文本，然后再将该文本和命令短语库中的命令进行匹配。在一般的文本匹配算法中，一般都是直接考虑文本之间的相似度，目前的文本匹配算法的方案有一些：

[0006] 1)字符串级别比如根据(带权)编辑距离，检索模型等；

[0007] 2)浅层语义级别，对文本进行依存句法分析等，引入词序信息进行比较；

[0008] 3)深层语义级别，基于目前较火的深度学习模型，比如RNN，Bi-LSTM，GRU，CNN等进行深层语义比较。

[0009] 但这些方法也都存在的主要缺陷：

[0010] 1)命令短语库中的命令一般都是简单的动宾结构短语，但用户在跟机器人交互时说的句子往往会更长，并且会带有主语、状语、定语、宾语补足语等其他结构。字符串级别相似度受句子长度的影响非常大，而浅层语义级别的相似度会随着句子成分和冗余信息的增多而导致精度下降。

[0011] 2)由于中文中一词多义和近义词大量存在，用户向机器人发出的语音指令往往与命令短语库中的标形式达有很大差别，导致匹配精度大大降低。如果要求用户完全按照命令短语库的格式发出命令，又会打来设备入门门槛过高、可拓展性差等问题。

[0012] 3)深层语义级别的方式，虽然往往能提取出句子的语义信息，但都需要大量的已标注数据，而在这样一个较为新兴的领域，标注数据的获取难道是极大的，甚至短时间内直接是不可能的。

发明内容

[0013] 本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种基于关键词和Word2Vec的命令识别方法。

[0014] 本发明的目的可以通过以下技术方案来实现：

[0015] 一种基于关键词和Word2Vec的命令识别方法，该方法包括以下步骤：

[0016] S1：获取命令文本；

[0017] S2：提取命令文本中的关键词；

[0018] S3：基于关键词中的动作关键词和对象关键词，从预建立的词向量字典中获取所述动作关键词的近义词集和所述对象关键词的近义词集，构建命令备选短语集，所述预建立的词向量字典基于Word2Vec建立，

[0019] S4：将命令备选短语集中的各命令备选短语分别与预建立的命令短语库中的各标准命令进行匹配，获取命令匹配结果；

[0020] S5：基于命令匹配结果和步骤S2中提取的关键词，组合成命令识别结果。

[0021] 所述词向量字典地建立过程具体为在网上通过爬虫收集数据的方法获取大量文本，然后基于Word2Vec构建一个200维的词向量型，以分布式的数值形式来表示词的上下文等特征。每个词语在词向量空间中都有一个200维的向量与之对应，那些意义相近的词语在高维空间中更加靠近。

[0022] 进一步地，所述步骤S3中，近义词集基于词向量字典中各词语与待获取近义词集的词语的第一相似度进行排序，所述近义词集中包括待获取近义词集的词语，所述第一相似度计算表达式为：

[0023]

[0024] 式中，w1为第一词语，w2为第二词语，v1为第一词语在词向量字典中对应的词向量，v2为第二词语在词向量字典中对应的词向量，sim(w1，w2)为第一词语与第二词语间的第一相似度。

[0025] 由余弦函数的性质易得，sim(w1，w2)的取值在[-1，1]内。

[0026] sim(w1，w2)函数取值越大代表两个词的相似度越高。

[0027] sim(w1，w2)＝1当且仅当w1＝w2时成立。

[0028] 进一步地，所述步骤S4若匹配不成功，则重新执行步骤S3和步骤S4，并增加步骤S3中近义词集的元素个数。

[0029] 进一步地，若所述近义词集中元素个数增加到30还未匹配成功，则输出该命令文本不匹配任何标准命令的结果。

[0030] 进一步地，所述步骤S4中，如果命令备选短语与标准命令匹配成功的组合存在多个，则分别计算每个所述组合中命令备选短语与步骤S3中的动作关键词和对象关键词组合的第二相似度，第二相似度高的命令备选短语对应匹配成功的标准命令即为命令匹配结果。

[0031] 进一步地，所述第二相似度的计算表达式为：

[0032] s_sim(i，j)＝sim(wact，wact，i)×sim(wobj，wobj，j)

[0033]

[0034] 式中，s_sim(i，j)为命令备选短语集中第i行第j列对应的命令备选短语与步骤S3中的动作关键词和对象关键词组合的第二相似度，wact为步骤S3中的动作关键词，wobj为步骤S3中的对象关键词，wdct，i为命令备选短语集中第i行第j列对应的命令备选短语的动作关键词，wobj，j为命令备选短语集中第i行第j列对应的命令备选短语的对象关键词，w1为第一词语，w2为第二词语，v1为第一词语在词向量字典中对应的词向量，v2为第二词语在词向量字典中对应的词向量，sim(w1，w2)为第一词语与第二词语间的第一相似度。

[0035] 进一步地，所述步骤S2具体为对命令文本进行句法分析，基于句法分析结果，提取命令文本中的关键词，所述句法分析包括以下步骤：

[0036] S201：对命令文本进行中文分词，将连续的字序列按照一定的规范重新组合成词序列；

[0037] S202：对分词结果进行词性标注，为分词结果中的每个词标注一个词性，也即确定每个词是名词、动词、形容词或者其他词性的过程；

[0038] S203：基于词性标注对命令文本进行依存句法分析，获取各个词语间的依存关系，即将句子分析成一颗依存句法树，描述出各个词语之间的依存关系。

[0039] 进一步地，所述步骤S202中，标注的词性包括动词、方位词、处所词和数词；

[0040] 所述步骤S203中，依存关系包括动宾关系、双宾语、把字结构、处所关系、数量关系、定中关系和的字结构；

[0041] 所述提取命令文本中的关键词包括提取命令文本中的动作关键词、对象关键词、位置关键词、数量关键词和属性关键词，有些关键词可能为空，有些关键词可能不止一个；

[0042] 所述动作关键词包括词性为动词的词语，如果一个句子中有多个动词，保留距离宾语最近的一个动词；

[0043] 所述对象关键词包括依存关系为动宾关系的名词、依存关系为动宾关系的代词、依存关系为双宾语的名词、依存关系为双宾语的代词、依存关系为把字结构的名词和依存关系为把字结构的代词；

[0044] 所述位置关键词包括词性为方位词的词语、词性为处所词的词语和依存关系为处所关系的名词；

[0045] 所述数量关键词包括词性为数词的词语和依存关系为数量关系的词语；

[0046] 所述属性关键词包括依存关系为定中关系的形容词、依存关系为定中关系的名词、依存关系为的字结构的形容词和依存关系为的字结构的名词。

[0047] 进一步地，所述步骤S1具体为基于语音识别技术对语音数据进行识别，生成命令文本。

[0048] 进一步地，所述词向量字典以分布式的数值形式来表示词的上下文特征。每个词语在词向量空间中都有一个向量与之对应，那些意义相近的词语在高维空间中更加靠近，从而可以根据训练所得词向量字典中词向量的值，很好地度量词与词之间的相似性。

[0049] 与现有技术相比，本发明具有以下优点：

[0050] (1)本发明对命令文本首先进行句法分析，然后提取关键词，句法分析包括依次进行的中文分词、词性标注和依存句法分析，相比只考虑字面信息的匹配方法，增加了语义与语法信息，提高关键词提取的准确度。

[0051] (2)本发明进行关键词提取，从句子中提取出动作关键词、对象关键词、位置关键词、数量关键词和属性关键词等关键信息，从而排除了其它冗余信息的干扰，解决了长句子匹配的难题。

[0052] (3)本发明动作关键词、对象关键词、位置关键词、数量关键词和属性关键词的组成成分更加可靠，对意义相似但句法结构不同的句子，得到的关键词信息都是相近甚至一致的，从而排除了语序、表达习惯差异带来的干扰，降低了用户学习门槛，用户可以用自由、口语化的句子进行交互。

[0053] (4)本发明在进行命令匹配时，将单个词语映射为由众多近义词组成的集合，增加了命令匹配的泛化性能，解决了用户发出的命令不符合标准命令格式的问题。

[0054] (5)本发明在进行命令匹配时，利用余弦相似度对词语和短语的相似度进行定量计算，能够从两个相似的命令中选出更接近原文含义的命令。

[0055] (6)本发明中的Word2Vec是一种无监督学习得到的模型，因此不需要对语料数据进行标注，大大降低了工作的人力和时间成本。

[0056] (7)本发明词向量字典为一个基于Word2Vec构建的词向量字典，该词向量字典以分布式的数值形式来表示词的上下文等特征。每个词语在词向量空间中都有一个向量与之对应，那些意义相近的词语在高维空间中更加靠近，从而可以根据训练所得词向量字典中词向量的值，很好地度量词与词之间的相似性。附图说明

[0057] 图1为本发明命令识别方法的流程示意图；

[0058] 图2为本发明实施例1中进行依存句法分析的结果示意图。

具体实施方式

[0059] 下面结合附图和具体实施例对本发明进行详细说明。本实施例以本发明技术方案为前提进行实施，给出了详细的实施方式和具体的操作过程，但本发明的保护范围不限于下述的实施例。

[0060] 实施例1

[0061] 如图1所示，本实施例为一种基于关键词和Word2Vec的命令识别方法，应用于人机交互场景，能够更大程度排除句子长度差异和冗余信息带来的命令匹配误差，以及能提取出命令短语外的数量、位置、物体属性等关键信息，让机器人可以正确理解用户给出的信息并执行相应指令。本实施例基于关键词和Word2Vec的命令识别方法由语音识别、句法分析、关键词提取、基于Word2Vec的命令匹配、获取结果等五个步骤组成，下面对这五个步骤进行详细描述：

[0062] 1、语音识别

[0063] 语音识别的目的是用计算机自动将人类的语音内容转换为相应的文字。语音识别大大提高了我们与机器交互的效率看，语音交互可解放双手、眼睛，不需要与设备接触即可沟通，因此该技术除了在机器人领域应用，在越来越多的领域也会有更加广泛的应用，诸如在处于驾驶状态时，我们就可以通过语音助手来查看智能手机上的信息，从而避免视觉查看而导致的注意力不集中。

[0064] 最近几年语音识别技术发展非常迅速，过去主要依靠算法的进步和样本的积累，随着深度学习算法的出现，语音识别的准确率有了明显的进步。以百度语音助手为例，公开资料显示百度语音识别的准确度已经从2012年的83％提升到了目前的98％左右。各种语音识别应用、云服务也越来越多。

[0065] 具体的，本实施例采用了百度语音识别接口，将用户的语音信息转化为文字信息，获取命令文本。

[0066] 2、句法分析

[0067] 中文分词是中文文本处理的一个基础步骤，也是中文人机自然语言交互的基础模块。不同于英文的是，中文句子中没有词的界限，因此在进行中文自然语言处理时，通常需要先进行分词，分词效果将直接影响后续的词性、依存句法分析的效果。

[0068] 词性标注是指以词的特点作为依据来划分词语的类别。词类是一个语言学术语，是一种语言中词的语法分类，是以语法特征(包括句法功能和形态变化)为主要依据、兼顾词汇意义对词进行划分的结果。词性标注就是在给定句子中判定每个词的语法范畴，确定其词性并加以标注的过程，这也是自然语言处理中一项非常重要的基础性工作。

[0069] 依存句法分析将句子分析成一颗依存句法树，描述出各个词语之间的依存关系。也即指出了词语之间在句法上的搭配关系，这种搭配关系是和语义相关联的，也即利用句子中词与词之间的依存关系来表示词语的句法结构信息(如主谓、动宾、定中等结构关系)并用树状结构来表示整句的结构(如主谓宾、定状补等)。

[0070] 具体的，以句子“你能把桌上的红色水果拿来吗”为例进行阐述：

[0071] 对于句子“你能把桌上的红色水果拿来吗”，以“/”作为切分符中文分词结果为：

[0072] 你/能/把/桌上/的/红色/水果/拿来/吗

[0073] 对上述分词得到的结果做词性标注的结果如表1所示。

[0074] 表1词性标准结果表

[0075]词语词性
你代词
能动词
把介词
桌上处所词
的助词
红色名词
水果名词
拿来动词
吗虚词

[0076] 如图2所示，为对上述分词和词性标注的基础上进行依存句法分析的结果。

[0077] 3、关键词提取

[0078] 根据句法分析结果和规则，提取出句子中的动作、对象、位置、数量、属性等关键信息。下面对各关键词分别包括的组分进行详细描述：

[0079] 1)“动作”关键词：

[0080] a.词性为“动词”的词语；

[0081] b.如果一个句子中有多个“动词”，保留距离“宾语”最近的那个动词。

[0082] 2)“对象”关键词：

[0083] a.依存关系为“动宾关系”的名词；

[0084] b.依存关系为“动宾关系”的代词；

[0085] c.依存关系为“双宾语”的名词；

[0086] d.依存关系为“双宾语”的代词；

[0087] e.依存关系为“把字结构”的名词；

[0088] f.依存关系为“把字结构”的代词。

[0089] 3)“位置”关键词：

[0090] a.词性为“方位词”的词语；

[0091] b.词性为“处所词”的词语；

[0092] c.依存关系为“处所关系”的名词。

[0093] 4)“数量”关键词：

[0094] a.词性为“数词”的词语；

[0095] b.依存关系为“数量关系”的词语。

[0096] 5)“属性”关键词：

[0097] a.依存关系为“定中关系”的形容词；

[0098] b.依存关系为“定中关系”的名词；

[0099] c.依存关系为“的字结构”的形容词；

[0100] d.依存关系为“的字结构”的名词。

[0101] 具体的，以句子“你能把桌上的红色水果拿来吗”为例进行阐述：

[0102] 对句子“你能把桌上的红色水果拿来吗”提取到的关键词如表2所示，表中“-”为没有该关键词信息。

[0103] 表2句子“你能把桌上的红色水果拿来吗”提取到的关键词

[0104] 动作拿来对象水果
位置桌上
数量 -
属性红色

[0105] 4、基于Word2Vec的命令匹配

[0106] 在网上通过爬虫收集数据的方法获取大量文本，然后基于Word2Vec构建一个200维的词向量字典，以分布式的数值形式来表示词的上下文等特征。每个词语在词向量字典的空间中都有一个200维的向量与之对应，那些意义相近的词语在高维空间中更加靠近。从而可以根据训练所得字典中词向量的值，很好地度量词与词之间的相似性。

[0107] 1)设词语w1对应词向量为v1，词语w2的对应词向量为v2。

[0108] 定义衡量w1和w2余弦相似度的函数，即第一相似度：

[0109]

[0110] 由余弦函数的性质易得，sim(w1，w2)的取值在[-1，1]内，sim(w1，w2)函数取值越大代表两个词的相似度越高，sim(w1，w2)＝1当且仅当w1＝w2时成立。

[0111] 2)设与词语w相似度最高的n个词语分别为w1，w2…wn，定义他们为词语w的近义词集：most_sim(w，n)＝[w1，w2…wn]，其中与w相似度最高的w1就是w自身；

[0112] 关键词提取步骤中获取的“动作”关键词wact的近义词集most-sim(wact，n)＝[wact，1，wact，2…wact，n]；

[0113] 关键词提取步骤中获取的“对象”关键词wobj的近义词集most_sim(wobj，n)＝[wobj，1，wobj，2…wobj，n]，n为近义词集中元素的个数，在本实施例中，n的初始取值为5。

[0114] 3)求most_sim(wact，n)和most_sim(wobj，n)的全组合。即每一个wact，i(0≤i≤n)与每一个wobj，j(0≤j≤n)一一组合，构成动宾关系组合(wact，i，wobj，j)。

[0115] 将(wact，i，wobj，j)进行拼接，得到命令备选短语，记为si，j；

[0116] 记所有命令备选短语的集合为：

[0117]

[0118] 4)设容量为m命令短语库中预设的标准命令分别为c1，c2…cm；

[0119] 对C(wact，wobj，n)中的每个si，j，分别对每个ck(0≤k≤m)进行匹配，即判断si，j＝ck是否成立。

[0120] 4.1)如果刚好有一个短语匹配成功使得si，j＝ck成立，那么ck就是匹配成功的命令。

[0121] 4.2)如果没有任何短语匹配成功，就逐步增大n的取值，重复步骤2、3、4步。如果当n增大到30时还没有匹配成功，就认为该文本不匹配任何一条预设命令。

[0122] 4.3)如果有多个短语匹配成功，即si，j＝ck与su，v＝cl同时成立，分别计算关键词提取步骤中获取的“动作”关键词与对应近义词的相似度：wact与wact，i，wact，u的相似度以及“对象”关键词wobj与wobj，j，wobj，v的相似度；

[0123] “动作”关键词wact与wact，i的相似度：sim(wact，wact，i)；

[0124] “动作”关键词wact与wact，u的相似度：sim(wact，wact，u)；

[0125] “对象”关键词wobj与wobj，j的相似度：sim(wobj，wobj，j)；

[0126] “对象”关键词wobj与wobj，v的相似度：sim(wobj，wobj，v)；

[0127] 定义近义词组合(wact，i，wobj，j)与原关键词组合(wact，wobj)的第二相似度为：

[0128] s_sim(i，j)＝sim(wact，wact，i)×sim(wobj，wobj，j)

[0129] 同理，近义词组合(wact，u，wobj，v)与原关键词组合(wact，wobj)的第二相似度为：

[0130] s_sim(u，v)＝sim(wact，wact，u)×sim(wobj，wobj，v)

[0131] 若s_sim(i，j)＞s_sim(u，v)，说明短语si，j比su，v更接近原文语义，那么ck＝si，j是该文本匹配成功的命令；反之，cl＝su，v是该文本匹配成功的命令。

[0132] 推广到当有超过两个短语匹配成功的情况，该算法仍然有效。

[0133] 具体的，以句子“你能把桌上的红色水果拿来吗”为例进行阐述，且命令短语库中预设的标准命令包括“拿水果”与“拿蔬菜”；

[0134] 先前步骤提取的“动作”关键词为“拿来”，“目标”关键词为“水果”。

[0135] 分别获取“拿来”和“水果”的近义词集：

[0136] most_sim(“拿来”，5)＝[“拿来”，“拿出来”，“用来”，“当做”，“拿”][0137] most_sim(“水果”，5)＝[“水果”，“蔬菜”，“香蕉”，“蔬果”，“干果”][0138] 近义词集的全组合C(“拿来”，“水果”，5)为“拿来水果”，“拿来蔬菜”…“拿水果”，“拿蔬菜”…“拿蔬果”，“拿干果”等25组短语组成的集合。其中：

[0139] s5，1＝“拿水果”

[0140] s5，2＝“拿蔬菜”

[0141] s5，1和s5，2两个命令与预设命令匹配成功。

[0142] 计算原词和近义词的相似度：

[0143] sim(“拿来”，“拿”)＝0.685

[0144] sim(“水果”，“水果”)＝1.0

[0145] sim(“水果”，“蔬菜”)＝0.848

[0146] s_sim(5，1)＝0.685×1.000＝0.685

[0147] s_sim(5，2)＝0.685×0.848＝0.581

[0148] “拿水果”比“拿蔬菜”更接近原短语“拿来水果”的意义，因此“拿水果”就是被匹配成功的命令。

[0149] 5、获取结果

[0150] 命令识别的结果由关键词提取步骤提取的关键词信息与基于Word2Vec的命令匹配步骤中匹配的命令共同组成。

[0151] 本实施例中机器人执行的命令短语库中的命令为“拿水果”，而且还根据关键词信息得知“水果”的位置是“桌上”，颜色是“红色”。

[0152] 以上详细描述了本发明的较佳具体实施例。应当理解，本领域的普通技术人员无需创造性劳动就可以根据本发明的构思作出诸多修改和变化。因此，凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案，皆应在由权利要求书所确定的保护范围内。

标题	发布/更新时间	阅读量
一种处理文本的方法和装置	2020-05-12	181
判决预测方法、判决预测模型获得方法及装置	2020-05-12	712
一种图像识别的英语作文跑题判断方法	2020-05-08	70
一种电力营销知识体系平台及应用方法	2020-05-14	979
一种文本摘要和情感分类联合训练方法	2020-05-14	556
一种面向金融事件的混合型因果关系发现方法	2020-05-11	513
基于XML的领域要素提取配置语言系统	2020-05-08	55
一种基于主题模型和语义分析的实体指称项识别方法	2020-05-11	651
留学文书智能自动创作系统	2020-05-12	673
一种基于主题下的情感分析方法	2020-05-12	360

一种基于关键词和Word2Vec的命令识别方法

一种基于关键词和Word2Vec的命令识别方法

技术领域

背景技术

发明内容

具体实施方式

该功能需要专业版企业版VIP权限，您可以：