一种信息处理方法和系统专利检索-隐马尔可夫模型数学与统计专利检索查询-专利查询网

一种信息处理方法和系统

阅读：1021发布：2020-05-15

专利汇可以提供一种信息处理方法和系统专利检索，专利查询，专利分析的服务。并且本实施例之一涉及一种信息处理方法和系统。所述方法包括：获取原始关键词；根据所述原始关键词得到关键词集合，所述关键词集合包括所述原始关键词在内的至少一个关键词；基于所述关键词集合中的关键词从预设文本库中检索出一个或多个关键词对应文本；用机器学习模型处理一个或多个关键词对应文本，得到一个或多个关键词的兴趣成分；统计在所述一个或多个关键词的兴趣成分中各兴趣成分出现的频次，根据统计结果确定所述原始关键词的兴趣成分。，下面是一种信息处理方法和系统专利的具体信息内容。

权利要求

1.一种信息处理方法，包括：
获取原始关键词；
根据所述原始关键词得到关键词集合，所述关键词集合包括所述原始关键词在内的至少一个关键词；
基于所述关键词集合中的关键词从预设文本库中检索出一个或多个关键词对应文本；
用机器学习模型处理一个或多个关键词对应文本，得到一个或多个关键词的兴趣成分；
统计在所述一个或多个关键词的兴趣成分中各兴趣成分出现的频次，根据统计结果确定所述原始关键词的兴趣成分。
2.根据权利要求1所述的信息处理方法，所述根据所述原始关键词得到关键词集合包括：
确定所述原始关键词的至少一个同义词；
根据所述原始关键词和所述至少一个同义词构建所述关键词集合。
3.根据权利要求1或2所述的信息处理方法，所述根据所述原始关键词得到关键词集合包括：
获取多个候选词；
确定所述原始关键词和每个候选词的词向量；
根据所述原始关键词和每个候选词的词向量确定每个候选词与所述原始关键词的相似度；
从所述多个候选词中选出与所述原始关键词的相似度满足设定条件的至少一个候选词；
根据所述原始关键词和所选出的至少一个候选词构建所述关键词集合。
4.根据权利要求1所述的信息处理方法，所述机器学习模型为以下中的一种：
长短期记忆和条件随机场模型；
条件随机场模型；或
隐马尔可夫模型。
5.根据权利要求1所述的信息处理方法，所述兴趣成分包括利益成分，所述利益成分用于指示其对应的关键词携带利益信息。
6.根据权利要求1所述的信息处理方法，所述根据统计结果确定所述原始关键词的兴趣成分包括：
将在所述一个或多个关键词的兴趣成分中出现的频次最大的兴趣成分确定为所述原始关键词的兴趣成分。
7.一种信息处理系统，包括：
原始关键词获取模块，用于获取原始关键词；
关键词集合获取模块，用于根据所述原始关键词得到关键词集合，所述关键词集合包括所述原始关键词在内的至少一个关键词；
文本检索模块，用于基于所述关键词集合中的关键词从预设文本库中检索出一个或多个关键词对应文本；
关键词兴趣成分获取模块，用于用机器学习模型处理一个或多个关键词对应文本，得到一个或多个关键词的兴趣成分；
关键词兴趣成分确定模块，用于统计在所述一个或多个关键词的兴趣成分中各兴趣成分出现的频次，根据统计结果确定所述原始关键词的兴趣成分。
8.根据权利要求7所述的信息处理系统，所述关键词集合获取模块包括：
同义词确定单元，用于确定所述原始关键词的至少一个同义词；
关键词集合构建单元，用于根据所述原始关键词和所述至少一个同义词构建所述关键词集合。
9.根据利要求7或8所述的信息处理系统，所述关键词集合获取模块包括：
候选词获取单元，用于获取多个候选词；
词向量确定单元，用于确定所述原始关键词和每个候选词的词向量；
相似度确定单元，用于根据所述原始关键词和每个候选词的词向量确定每个候选词与所述原始关键词的相似度；
候选词筛选单元，用于从所述多个候选词中选出与所述原始关键词的相似度满足设定条件的至少一个候选词；
关键词集合构建单元，用于根据所述原始关键词和所选出的至少一个候选词构建所述关键词集合。
10.根据权利要求7所述的信息处理系统，所述机器学习模型为以下中的一种：
长短期记忆和条件随机场模型；
条件随机场模型；或
隐马尔可夫模型。
11.根据权利要求7所述的信息处理系统，所述兴趣成分包括利益成分，所述利益成分用于指示其对应的关键词携带利益信息。
12.根据权利要求7所述的信息处理系统，所述关键词兴趣成分确定模块进一步用于：
将在所述一个或多个关键词的兴趣成分中出现的频次最大的兴趣成分确定为所述原始关键词的兴趣成分。
13.一种信息处理装置，所述装置包括至少一个处理器以及至少一个存储器；
所述至少一个存储器用于存储计算机指令；
所述至少一个处理器用于执行所述计算机指令中的至少部分指令以实现如权利要求1～6中任一项所述的信息处理方法。

说明书全文

一种信息处理方法和系统

技术领域

[0001] 本说明书实施例涉及大数据领域，特别涉及一种信息处理方法和系统。

背景技术

[0002] 大数据时代为人们的生活和工作带来了诸多便利。例如，传统的营销文案需要由专人设计，而现有的一些场景下，用户只需输入关键词，即可获得机器由该关键词自动生成的营销文案。然而，由于用户输入的只有关键词，缺乏其他相关信息，机器很难识别出用户的真实兴趣(或意图)，生成迎合用户兴趣的文案。

[0003] 因此，希望提供一种技术方案，能够从用户输入的关键词中精准识别出用户兴趣以自动生成迎合用户兴趣的文案。发明内容

[0004] 本说明书中的一些实施例提供一种信息处理方法，包括：获取原始关键词；根据所述原始关键词得到关键词集合，所述关键词集合包括所述原始关键词在内的至少一个关键词；基于所述关键词集合中的关键词从预设文本库中检索出一个或多个关键词对应文本；用机器学习模型处理一个或多个关键词对应文本，得到一个或多个关键词的兴趣成分；统计在所述一个或多个关键词的兴趣成分中各兴趣成分出现的频次，根据统计结果确定所述原始关键词的兴趣成分。

[0005] 本说明中的另一些实施例提供一种信息处理系统，包括：原始关键词获取模块，用于获取原始关键词；关键词集合获取模块，用于根据所述原始关键词得到关键词集合，所述关键词集合包括所述原始关键词在内的至少一个关键词；文本检索模块，用于基于所述关键词集合中的关键词从预设文本库中检索出一个或多个关键词对应文本；关键词兴趣成分获取模块，用于用机器学习模型处理一个或多个关键词对应文本，得到一个或多个关键词的兴趣成分；关键词兴趣成分确定模块，用于统计在所述一个或多个关键词的兴趣成分中各兴趣成分出现的频次，根据统计结果确定所述原始关键词的兴趣成分。

[0006] 本说明书中的另一些实施例提供一种信息处理装置，所述装置包括至少一个处理器以及至少一个存储器；所述至少一个存储器用于存储计算机指令；所述至少一个处理器用于执行所述计算机指令中的至少部分指令以实现如上所述的信息处理方法。附图说明

[0007] 本说明书将以示例性实施例的方式进一步说明，这些示例性实施例将通过附图进行详细描述。这些实施例并非限制性的，在这些实施例中，相同的编号表示相同的结构，其中：

[0008] 图1为根据本说明书一些实施例所示的文案生成方法的示例性流程图；

[0009] 图2是根据本说明书一些实施例所示的信息处理方法的示例性流程图；

[0010] 图3是根据本说明书一些实施例所示的关键词集合的组成示意图；

[0011] 图4为根据本说明书一些实施例所示的统计兴趣成分出现频次的方法的示例性流程图；

[0012] 图5为根据本说明书一些实施例所示的信息处理系统的示例性框图；以及

[0013] 图6为根据本说明书一些实施例所示的信息处理系统中关键词集合获取模块的示例性框图。

具体实施方式

[0014] 为了更清楚地说明本说明书实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单的介绍。显而易见地，下面描述中的附图仅仅是本技术方案的一些示例或实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图将本技术方案应用于其它类似情景。除非从语言环境中显而易见或另做说明，图中相同标号代表相同结构或操作。

[0015] 应当理解，本文使用的“系统”、“装置”、“单元”和/或“模组”是用于区分不同级别的不同组件、元件、部件、部分或装配的一种方法。然而，如果其他词语可实现相同的目的，则可通过其他表达来替换所述词语。

[0016] 如本说明书和权利要求书中所示，除非上下文明确提示例外情形，“一”、“一个”、“一种”和/或“该”等词并非特指单数，也可包括复数。一般说来，术语“包括”与“包含”仅提示包括已明确标识的步骤和元素，而这些步骤和元素不构成一个排它性的罗列，方法或者设备也可能包含其它的步骤或元素。

[0017] 本说明书中使用了流程图用来说明根据本说明书的实施例的系统所执行的操作。应当理解的是，前面或后面操作不一定按照顺序来精确地执行。相反，可以按照倒序或同时处理各个步骤。同时，也可以将其他操作添加到这些过程中，或从这些过程移除某一步或数步操作。

[0018] 本说明书中的实施例提供了一种信息处理方法和系统。通过所述信息处理方法，所述信息处理系统可以在用户输入关键词后，确定该关键词所属的兴趣成分，从而自动生成迎合用户兴趣的文案。

[0019] 图1为根据本说明书一些实施例所示的文案生成方法的示例性流程图。在一些实施例中，本示例性流程可以在服务器上实现，或者在用户终端上实现。在一些实施例中，本示例性流程也可以通过服务器与用户终端交互实现。例如，用户可以通过其终端输入关键词，用户终端将关键词发送给服务器，服务器生成对应的文案后返回给用户终端。

[0020] 如图1所示，系统首先获取用户输入的关键词，再确定该关键词对应的兴趣成分，进而根据该关键词和该关键词对应的兴趣成分生成文案，以使生成的文案能够迎合用户兴趣。

[0021] 在一些实施例中，兴趣成分可以指示其对应的关键词携带用户感兴趣(或意图)的一类信息。例如，关键词“红包”、“转账”、“优惠券”等均可对应利益成分，利益成分可以指示相应关键词携带用户感兴趣的利益信息。又如，关键词“篮球”、“足球”、“世界杯”、“奥运会”等可以对应体育成分，体育成分可以指示相应关键词携带用户感兴趣的体育信息。又如，关键词“烧烤”、“火锅”、“自助餐”、“海鲜”等均可对应饮食成分，饮食成分以指示相应关键词携带用户感兴趣的饮食信息。以上仅仅作为示例，本说明书实施例对关键词和兴趣成分的对应关系不作具体限制。

[0022] 在一些实施例中，可以预先定义一个包含关键词与兴趣成分的对应关系的词表。该词表可以包含多个二元组，每个二元组包括词语和该词语对应的兴趣成分。如此，若用户输入的关键词可以从词表的二元组中找到，则可以从找到的二元组中确定该关键词对应的兴趣成分。

[0023] 在一些实施例中，可以对用户输入的原始关键词进行拓展得到关键词集合，确定关键词集合中各关键词的兴趣成分，并统计各关键词的兴趣成分中不同兴趣成分的出现频次，根据统计结果确定原始关键词的兴趣成分。

[0024] 在一些实施例中，可以采用预设文案模板生成文案。具体地，文案模板中可以包括固定内容和待填补/调整内容，根据用户输入的关键词和该关键词对应的兴趣成分可以生成/更新待填补/调整内容，从而生成包含用户输入的关键词且迎合用户兴趣的文案。在一些实施例中，也可以采用文案生成模型生成文案。具体地，可以采集大量真实存在过的文案，可以从所采集的文案中提取关键词及其兴趣成分，以所提取的关键词、关键词对应的兴趣成分及文案本身作为样本并对文案生成模型进行训练，得到训练好的文案生成模型。进而，将用户输入的关键词及该关键词对应的兴趣成分输入训练好的文案生成模型，即可得到模型输出的文案。

[0025] 图2是根据本说明书一些实施例所示的信息处理方法的示例性流程图。该流程200可以由图4所示的信息处理系统执行。该流程200包括：

[0026] 步骤210，获取原始关键词。

[0027] 原始关键词指用户输入的词语。在一些实施例中，用户可以通过具有输入功能的用户终端输入原始关键词。例如，具有输入功能的用户终端可以包括触摸屏、手写板、麦克风、键盘等中的一种或多种。在一些实施例中，用户输入关键词的方式包括但不限于打字输入、手写输入、选择输入、语音输入、扫描输入等一种或多种的任意组合。

[0028] 在一些实施例中，系统可以从用户终端直接获取用户输入的关键词。在一些实施例中，用户终端可以将用户输入的关键词上传至通信连接于用户终端和系统的存储设备，系统再从存储设备中获取用户输入的关键词。

[0029] 在一些实施例中，考虑到需要基于标准格式的关键词对关键词进行处理，系统可以对获取到的原始关键词进行预处理。例如，预处理可以包括大小写转换、去除不合法字符、去除符号等。

[0030] 步骤220，根据所述原始关键词得到关键词集合。

[0031] 关键词集合中包括所述原始关键词在内的至少一个关键词。在一些实施例中，可以对原始关键词进行扩展得到关键词集合。

[0032] 在一些实施例中，系统可以确定原始关键词的同义词，并根据原始关键词及其同义词构建关键词集合。在一些实施例中，系统可以在同义词词库中检索原始关键词的同义词，其中，同义词词库可以包括大量同义词对，每个同义词对由互为同义词的若干词语组成。同义词的来源可以是多种多样的，例如，可以是通过现有的渠道(如网络、书籍、词典等等)搜集得到的，也可以是人为构造的。在一些实施例中，可以对同义词词库进行定期或不定期的更新。

[0033] 在一些实施例中，可以通过比较词向量确定与原始关键词相似度满足设定条件的词，并根据原始关键词和与其相似的词(以下称为“相似词”)构建关键词集合。具体地，首先，可以获取多个候选词并确定所述原始关键词和每个候选词的词向量。例如，可以通过Word2Vec模型确定各词语的词向量。然后，根据所述原始关键词和每个候选词的词向量确定每个候选词与所述原始关键词的相似度。在一些实施例中，可以根据所述原始关键词和每个候选词的词向量的距离来确定每个候选词与所述原始关键词的相似度，距离越小表明相似度越高。最后，从所述多个候选词中选出与所述原始关键词的相似度满足设定条件的至少一个候选词，并根据所述原始关键词和所选出的至少一个候选词构建所述关键词集合。在一些实施例中，所述设定条件可以包括与原始关键词的相似度排名位于前预设比例或数量。例如，与原始关键词的相似度排名位于前1、2、3、4或5等。又如，与原始关键词的相似度排名位于前1％、2％、3％、4％或5％等。

[0034] 图3是根据本说明书一些实施例所示的关键词集合的组成示意图。在一些实施例中，可以结合以上确定同义词和/或相似词的方法得到关键词集合。关键词集合可以包括原始关键词、原始关键词的同义词和/或相似词。在一些实施例中，关键词集合还可以包括通过除以上确定同义词和相似词的方法外的其他方法得到的扩展词。例如，可以获取原始关键词的近义词加入到关键词集合中，本说明书对扩展关键词的方式不做出限制。如图3所示，关键词集合300包括原始关键词、原始关键词的同义词、相似词以及其他扩展词。在一些实施例中，通过不同方式获得的扩展词之间可以有重复，例如，关键词集合中可以存在同时为原始关键词的同义词和相似词的词语，可以对重复的词语进行去重。

[0035] 步骤230，基于所述关键词集合中的关键词从预设文本库中检索出一个或多个关键词对应文本。

[0036] 在一些实施例中，预设文本库中可以包括大量语句。其中，语句的来源可以多种多样，例如，可以是通过现有的渠道(如网络、书籍、海报、音频、视频、图片等等)搜集来的，也可以人为构造的。以营销场景为例，预设文本库可以包括营销语料库，其中的语句可以是从营销文案中提取出的语句，例如，从已有的营销主题海报中提取的语句“百万红包等你来抢”、“超值折扣，一网打尽”、“国庆特惠福利派送中”、“让理财给生活多一次机会”等等。在一些实施例中，可以对预设文本库进行定期或不定期的更新。

[0037] 在预设文本库中检索各关键词可得到各关键词对应文本。在一些实施例中，关键词对应文本可以是包含关键词的语句。例如，用户输入的原始关键词为“红包”，经过扩展得到关键词集合，集合中包括以下关键词：红包、优惠券、折扣、奖励金。在预设文本库中检索各关键词，得到各关键词对应文本，如检索“红包”得到文本“百万红包等你来抢”，检索折扣得到文本“超值折扣，一网打尽”。

[0038] 值得说明的是，所采用的预设文本库的类型可以根据需要生成的文案的性质来选择。例如，需要生成营销文案时，可以采用包含营销文本的文本库。又如，需要生成公益文案时，可以采用包含公益文本的文本库。

[0039] 步骤240，用机器学习模型处理一个或多个关键词对应文本，得到一个或多个关键词的兴趣成分。

[0040] 兴趣成分可以指示关键词携带的用户感兴趣的信息。在一些实施例中，兴趣成分可以包括利益成分(也可称为“利益点”)，用来指示关键词携带的用户感兴趣的利益信息，例如优惠信息、返利信息、价格信息等。兴趣成分可以有多种表现形式。例如，兴趣成分可以表现为标签的形式，即关键词可带有相应兴趣标签。仅作为示例，识别出关键词“红包”为利益成分，表现形式为“<红包@BEN>”，其中<>内为关键词及其对应的兴趣标签。

[0041] 对于每个关键词对应文本，可以用机器学习模型处理该关键词对应文本，得到关键词兴趣成分。在一些实施例中，用于识别关键词对应文本中关键词的兴趣成分的机器学习模型可以按照如下方法进行训练：

[0042] 首先，可以获取大量文本，确定这些文本中的关键词及关键词的兴趣成分，然后将这些文本及对应的关键词的兴趣成分作为样本对模型进行训练。具体地，可以将文本作为模型的输入，相应的关键词的兴趣成分作为参考标准(Ground Truth)，对模型进行有监督的训练，当满足一定条件时(如训练样本数量达到一定数值、损失函数的值小于一定数值等)，停止训练并得到训练好的模型。仅作为示例，文本为“新年红包大放送”，确定“红包”为该文本中的关键词且具有利益成分，则给文本添加标签后为“新年<|红包@BEN|>大放送”，该文本及标签处理后的结果即可作为一个样本对。在一些实施例中，可以对样本进行划分，得到训练集和测试集。其中，训练集用于训练模型，测试集用于测试经过训练集训练后的模型的预测准确率是否达标。在一些实施例中，还可以从样本中划分出验证集，对训练后的模型进行验证。

[0043] 在一些实施例中，机器学习模型可以包括长短期记忆和条件随机场(Long Short-Term Memory-Conditional Random Field，LSTM-CRF)模型、条件随机场模型(Conditional Random Field，CRF)模型或隐马尔可夫模型(Hidden Markov Model，HMM)。其中，LSTM–CRF模型包括互相连接的LSTM模型和CRF模型，LSTM模型可以较好地对输入文本的字符特征进行泛化，泛化后相近语义的两个字符特征也可以获得对应关系，同时，CRF模型由于基于长距离依赖建模可以加强当前字符与上下文字符的关联关系，LSTM模型和CRF模型结合可以实现更好的识别效果。

[0044] 步骤250，统计在所述一个或多个关键词的兴趣成分中各兴趣成分出现的频次，根据统计结果确定所述原始关键词的兴趣成分。

[0045] 在一些实施例中，可以汇总机器学习模型对所述一个或多个关键词对应文本的处理结果，得到相关关键词的兴趣成分，对全部相关关键词的兴趣成分再次进行汇总、统计，将在所述一个或多个关键词的兴趣成分中出现的频次最大的兴趣成分确定为所述原始关键词的兴趣成分。

[0046] 图4为根据本说明书一些实施例所示的统计兴趣成分出现频次的方法的示例性流程图。如图4所示，以机器学习模型对所述一个或多个关键词对应文本处理得到的处理结果包括原始关键词以及该原始关键词对应的同义词和相似词及其兴趣成分为例，统计过程400可以包括：针对出现的第一兴趣成分，统计该第一兴趣成分在原始关键词的所有兴趣成分中出现的频次p，统计该第一兴趣成分在各同义词的兴趣成分中出现的频次q，以及统计该第一兴趣成分在各相似词的兴趣成分中出现的频次r，最后计算p、q、r之和得到该第一兴趣成分在关键词集合的所有关键词的兴趣成分中出现的频次。类似地，还可以确定第二兴趣成分、第三兴趣成分等兴趣成分在关键词集合的所有关键词的兴趣成分中出现的频次，最终将统计的所有兴趣成分中出现频次最大的兴趣成分确定为原始关键词的兴趣成分。

[0047] 应当注意的是，上述有关流程200的描述仅仅是为了示例和说明，而不限定本技术方案的适用范围。对于本领域技术人员来说，在本说明书的指导下可以对流程200进行各种修正和改变。然而，这些修正和改变仍在本说明书的范围之内。

[0048] 图5为根据本说明书一些实施例所示的信息处理系统的示例性框图。该系统500包括：原始关键词获取模块510、关键词集合获取模块520、文本检索模块530、关键词兴趣成分获取模块540以及关键词兴趣成分确定模块550。

[0049] 原始关键词获取模块510可以用于获取原始关键词。

[0050] 关键词集合获取模块520可以用于根据所述原始关键词得到关键词集合，所述关键词集合包括所述原始关键词在内的至少一个关键词。图6是关键词集合获取模块520的示例性框图。在一些实施例中，如图6所示，关键词集合获取模块520可以进一步包括同义词确定单元521。同义词确定单元521可以用于确定所述原始关键词的至少一个同义词。关键词集合获取模块520可以进一步包括候选词获取单元522、词向量确定单元523、相似度确定单元524、候选词筛选单元525。候选词获取单元522可以用于获取多个候选词。词向量确定单元523可以用于确定所述原始关键词和每个候选词的词向量。相似度确定单元524可以用于根据所述原始关键词和每个候选词的词向量确定每个候选词与所述原始关键词的相似度。候选词筛选单元525可以用于从所述多个候选词中选出与所述原始关键词的相似度满足设定条件的至少一个候选词。关键词集合构建单元526可以用于构建关键词集合。在一些实施例中，关键词集合构建单元526根据所述原始关键词、所述同义词、所述所选出的至少一个候选词构建所述关键词集合。

[0051] 文本检索模块530可以用于基于所述关键词集合中的关键词从预设文本库中检索出一个或多个关键词对应文本。

[0052] 关键词兴趣成分获取模块540可以用于用机器学习模型处理一个或多个关键词对应文本，得到一个或多个关键词的兴趣成分。在一些实施例中，机器学习模型可以包括长短期记忆和条件随机场模型、条件随机场模型或隐马尔可夫模型。

[0053] 关键词兴趣成分确定模块550可以用于统计在所述一个或多个关键词的兴趣成分中各兴趣成分出现的频次，根据统计结果确定所述原始关键词的兴趣成分。在一些实施例中，关键词兴趣成分确定模块550可以进一步用于将在所述一个或多个关键词的兴趣成分中出现的频次最大的兴趣成分确定为所述原始关键词的兴趣成分。

[0054] 应当理解，图5所示的系统及其模块可以利用各种方式来实现。例如，在一些实施例中，系统及其模块可以通过硬件、软件或者软件和硬件的结合来实现。其中，硬件部分可以利用专用逻辑来实现；软件部分则可以存储在存储器中，由适当的指令执行系统，例如微处理器或者专用设计硬件来执行。本领域技术人员可以理解上述的方法和系统可以使用计算机可执行指令和/或包含在处理器控制代码中来实现，例如在诸如磁盘、CD或DVD-ROM的载体介质、诸如只读存储器(固件)的可编程的存储器或者诸如光学或电子信号载体的数据载体上提供了这样的代码。本说明书的系统及其模块不仅可以有诸如超大规模集成电路或门阵列、诸如逻辑芯片、晶体管等的半导体、或者诸如现场可编程门阵列、可编程逻辑设备等的可编程硬件设备的硬件电路实现，也可以用例如由各种类型的处理器所执行的软件实现，还可以由上述硬件电路和软件的结合(例如，固件)来实现。

[0055] 需要注意的是，以上对于信息处理系统500及其模块的描述，仅为描述方便，并不能把本说明书限制在所举实施例范围之内。可以理解，对于本领域的技术人员来说，在了解该系统的原理后，可能在不背离这一原理的情况下，对各个模块进行任意组合，或者构成子系统与其他模块连接。例如，在一些实施例中，图5中披露的原始关键词获取模块510、关键词集合获取模块520、文本检索模块530、关键词兴趣成分获取模块540以及关键词兴趣成分确定模块550可以是一个系统中的不同模块，也可以是一个模块实现上述的两个或两个以上模块的功能。例如，在一些实施例中，原始关键词获取模块510和关键词集合获取模块520可以合并为一个模块。诸如此类的变形，均在本说明书的保护范围之内。

[0056] 本说明书实施例可能带来的有益效果包括但不限于：(1)通过拓展原始关键词，可以获得对应于多个关键词的多个兴趣成分，从中确定出匹配用户真实兴趣或意图的兴趣成分的可能性更大；(2)在包含关键词的文本中识别关键词的兴趣成分，利用了关键词在文本中的上下文语境，识别出的兴趣成分更加可靠、准确。(3)由于可以更好地识别原始关键词的兴趣成分，进而可以生成较高质量的文案。需要说明的是，不同实施例可能产生的有益效果不同，在不同的实施例里，可能产生的有益效果可以是以上任意一种或几种的组合，也可以是其他任何可能获得的有益效果。

[0057] 上文已对基本概念做了描述，显然，对于本领域技术人员来说，上述详细披露仅仅作为示例，而并不构成对本说明书实施例的限定。虽然此处并没有明确说明，本领域技术人员可能会对本说明书实施例进行各种修改、改进和修正。该类修改、改进和修正在本说明书实施例中被建议，所以该类修改、改进、修正仍属于本说明书示范实施例的精神和范围。

[0058] 同时，本说明书使用了特定词语来描述本说明书的实施例。如“一个实施例”、“一实施例”、和/或“一些实施例”意指与本说明书至少一个实施例相关的某一特征、结构或特点。因此，应强调并注意的是，本说明书中在不同位置两次或多次提及的“一实施例”或“一个实施例”或“一个替代性实施例”并不一定是指同一实施例。此外，本说明书的一个或多个实施例中的某些特征、结构或特点可以进行适当的组合。

[0059] 此外，本领域技术人员可以理解，本说明书实施例的各方面可以通过若干具有可专利性的种类或情况进行说明和描述，包括任何新的和有用的工序、机器、产品或物质的组合，或对他们的任何新的和有用的改进。相应地，本说明书实施例的各个方面可以完全由硬件执行、可以完全由软件(包括固件、常驻软件、微码等)执行、也可以由硬件和软件组合执行。以上硬件或软件均可被称为“数据块”、“模块”、“引擎”、“单元”、“组件”或“系统”。此外，本说明书实施例的各方面可能表现为位于一个或多个计算机可读介质中的计算机产品，该产品包括计算机可读程序编码。

[0060] 计算机存储介质可能包含一个内含有计算机程序编码的传播数据信号，例如在基带上或作为载波的一部分。该传播信号可能有多种表现形式，包括电磁形式、光形式等，或合适的组合形式。计算机存储介质可以是除计算机可读存储介质之外的任何计算机可读介质，该介质可以通过连接至一个指令执行系统、装置或设备以实现通讯、传播或传输供使用的程序。位于计算机存储介质上的程序编码可以通过任何合适的介质进行传播，包括无线电、电缆、光纤电缆、RF、或类似介质，或任何上述介质的组合。

[0061] 本说明书实施例各部分操作所需的计算机程序编码可以用任意一种或多种程序语言编写，包括面向对象编程语言如Java、Scala、Smalltalk、Eiffel、JADE、Emerald、C++、C#、VB.NET、Python等，常规程序化编程语言如C语言、VisualBasic、Fortran2003、Perl、COBOL2002、PHP、ABAP，动态编程语言如Python、Ruby和Groovy，或其他编程语言等。该程序编码可以完全在用户计算机上运行、或作为独立的软件包在用户计算机上运行、或部分在用户计算机上运行部分在远程计算机运行、或完全在远程计算机或处理设备上运行。在后种情况下，远程计算机可以通过任何网络形式与用户计算机连接，比如局域网(LAN)或广域网(WAN)，或连接至外部计算机(例如通过因特网)，或在云计算环境中，或作为服务使用如软件即服务(SaaS)。

[0062] 此外，除非权利要求中明确说明，本说明书实施例所述处理元素和序列的顺序、数字字母的使用、或其他名称的使用，并非用于限定本说明书实施例流程和方法的顺序。尽管上述披露中通过各种示例讨论了一些目前认为有用的实施例，但应当理解的是，该类细节仅起到说明的目的，附加的权利要求并不仅限于披露的实施例，相反，权利要求旨在覆盖所有符合本说明书实施例实质和范围的修正和等价组合。例如，虽然以上所描述的系统组件可以通过硬件设备实现，但是也可以只通过软件的解决方案得以实现，如在现有的处理设备或移动设备上安装所描述的系统。

[0063] 同理，应当注意的是，为了简化本说明书实施例披露的表述，从而帮助对一个或多个实施例的理解，前文对本说明书实施例的描述中，有时会将多种特征归并至一个实施例、附图或对其的描述中。但是，这种披露方法并不意味着本说明书实施例对象所需要的特征比权利要求中提及的特征多。实际上，实施例的特征要少于上述披露的单个实施例的全部特征。

[0064] 一些实施例中使用了描述成分、属性数量的数字，应当理解的是，此类用于实施例描述的数字，在一些示例中使用了修饰词“大约”、“近似”或“大体上”来修饰。除非另外说明，“大约”、“近似”或“大体上”表明所述数字允许有±20％的变化。相应地，在一些实施例中，说明书和权利要求中使用的数值参数均为近似值，该近似值根据个别实施例所需特点可以发生改变。在一些实施例中，数值参数应考虑规定的有效数位并采用一般位数保留的方法。尽管本说明书一些实施例中用于确认其范围广度的数值域和参数为近似值，在具体实施例中，此类数值的设定在可行范围内尽可能精确。

[0065] 针对本说明书引用的每个专利、专利申请、专利申请公开物和其他材料，如文章、书籍、说明书、出版物、文档等，特此将其全部内容并入本说明书作为参考。与本说明书内容不一致或产生冲突的申请历史文件除外，对本说明书权利要求最广范围有限制的文件(当前或之后附加于本说明书中的)也除外。需要说明的是，如果本说明书附属材料中的描述、定义、和/或术语的使用与本说明书所述内容有不一致或冲突的地方，以本说明书的描述、定义和/或术语的使用为准。

[0066] 最后，应当理解的是，本说明书中所述实施例仅用以说明本说明书实施例的原则。其他的变形也可能属于本说明书实施例的范围。因此，作为示例而非限制，本说明书实施例的替代配置可视为与本说明书的教导一致。相应地，本说明书的实施例不仅限于本说明书明确介绍和描述的实施例。

标题	发布/更新时间	阅读量
语音识别方法、服务器及计算机可读存储介质	2020-05-08	237
一种用于防止老人摔倒受伤的安全项圈	2020-05-14	114
一种声音采集对象声纹检测方法、装置和设备	2020-05-08	289
一种利用肌肉协同作用的多阶段下肢训练系统及方法	2020-05-12	98
一种客服系统的服务方法及装置	2020-05-13	382
一种区域性桥梁风险预测方法及系统	2020-05-13	413
基于人工智能的声音识别方法、及其相关设备	2020-05-14	355
一种基于语音控制的测量仪器测试系统及方法	2020-05-14	111
一种服务质量评价方法、装置、电子设备及存储介质	2020-05-12	407
基于统计学习模型的图像隐含信息挖掘方法及装置	2020-05-14	522

一种信息处理方法和系统

一种信息处理方法和系统

技术领域

背景技术

具体实施方式

该功能需要专业版企业版VIP权限，您可以：