技术领域
[0001] 本
申请实施例涉及计算机技术领域,具体涉及用于输出信息的方法和装置。
背景技术
[0002] 随着互联网技术的普及,很多应用场景中,需要从文本中提取出比较重要的词语,也就是对文本内容的贡献程度高的词语。例如从对某文章进行分词后得到的词语集合中,提取出表征文章主要内容的词语。
现有技术中,可以采用TF-IDF(Term Frequency-Inverse Document Frequency,词频-逆向文件
频率)方法,并集合
词性标注的方法等,从文本中提取出相对重要的词语。
发明内容
[0003] 本申请实施例提出了用于输出信息的方法和装置。
[0004] 第一方面,本申请实施例提供了一种用于输出信息的方法,该方法包括:获取预设的词语特征信息集合,其中,词语特征信息用于表征预设的词语集合中的词语;将词语特征信息集合中的词语特征信息进行两两组合,得到至少一个词语特征信息组合;对于至少一个词语特征信息组合中的词语特征信息组合,将该词语特征信息组合中的两个词语特征信息输入预先训练的重要度分析模型,输出用于比较输入的两个词语特征信息分别表征的词语的重要程度的比较结果,其中,重要度分析模型用于表征词语特征信息组合与比较结果的对应关系。
[0005] 在一些实施例中,该方法还包括:获取词语集合;基于所输出的比较结果,对词语集合中的词语进行排序,以及输出排序后的词语集合。
[0006] 在一些实施例中,词语集合预先通过如下步骤得到:获取待处理语句;对待处理语句进行切词,得到词语集合。
[0007] 在一些实施例中,词语特征信息包括以下至少一种信息:词向量、词性信息、
命名实体、词频。
[0008] 在一些实施例中,重要度分析模型预先通过如下步骤训练得到:获取训练样本集合,其中,训练样本包括两个样本词语特征信息,样本词语特征信息用于表征预设的样本词语,训练样本还包括用于比较两个样本词语特征信息分别表征的样本词语的重要程度的标注比较结果;利用
机器学习方法,将训练样本集合中的训练样本包括的两个样本词语特征信息作为输入,将输入的两个样本词语特征信息对应的标注比较结果作为期望输出,训练得到重要度分析模型。
[0009] 第二方面,本申请实施例提供了一种用于输出信息的装置,该装置包括:第一获取单元,被配置成获取预设的词语特征信息集合,其中,词语特征信息用于表征预设的词语集合中的词语;组合单元,被配置成将词语特征信息集合中的词语特征信息进行两两组合,得到至少一个词语特征信息组合;分析单元,被配置成对于至少一个词语特征信息组合中的词语特征信息组合,将该词语特征信息组合中的两个词语特征信息输入预先训练的重要度分析模型,输出用于比较输入的两个词语特征信息分别表征的词语的重要程度的比较结果,其中,重要度分析模型用于表征词语特征信息组合与比较结果的对应关系。
[0010] 在一些实施例中,该装置还包括:第二获取单元,被配置成获取词语集合;输出单元,被配置成基于所输出的比较结果,对词语集合中的词语进行排序,以及输出排序后的词语集合。
[0011] 在一些实施例中,词语集合预先通过如下步骤得到:获取待处理语句;对待处理语句进行切词,得到词语集合。
[0012] 在一些实施例中,词语特征信息包括以下至少一种信息:词向量、词性信息、命名实体、词频。
[0013] 在一些实施例中,重要度分析模型预先通过如下步骤训练得到:获取训练样本集合,其中,训练样本包括两个样本词语特征信息,样本词语特征信息用于表征预设的样本词语,训练样本还包括用于比较两个样本词语特征信息分别表征的样本词语的重要程度的标注比较结果;利用机器学习方法,将训练样本集合中的训练样本包括的两个样本词语特征信息作为输入,将输入的两个样本词语特征信息对应的标注比较结果作为期望输出,训练得到重要度分析模型。
[0014] 第三方面,本申请实施例提供了一种
电子设备,该电子设备包括:一个或多个处理器;存储装置,其上存储有一个或多个程序;当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器实现如第一方面中任一实现方式描述的方法。
[0015] 第四方面,本申请实施例提供了一种计算机可读介质,其上存储有
计算机程序,该计算机程序被处理器执行时实现如第一方面中任一实现方式描述的方法。
[0016] 本申请实施例提供的用于输出信息的方法和装置,通过获取预设的词语特征信息集合,再将词语特征信息集合中的词语特征信息进行两两组合,得到至少一个词语特征信息组合,最后将至少一个词语特征信息组合中的词语特征信息组合输入预先训练的重要度分析模型,输出用于比较输入的两个词语特征信息分别表征的词语的重要程度的比较结果,从而有效地利用词语特征信息,比较两个词语的重要程度,提高了比较词语的重要程度的准确性。
附图说明
[0017] 通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:
[0018] 图1是本申请的一个实施例可以应用于其中的示例性系统架构图;
[0019] 图2是根据本申请实施例的用于输出信息的方法的一个实施例的
流程图;
[0020] 图3是根据本申请实施例的用于输出信息的方法的一个应用场景的示意图;
[0021] 图4是根据本申请实施例的用于输出信息的方法的又一个实施例的流程图;
[0022] 图5是根据本申请实施例的用于输出信息的装置的一个实施例的结构示意图;
[0023] 图6是适于用来实现本申请实施例的电子设备的
计算机系统的结构示意图。
具体实施方式
[0024] 下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。
[0025] 需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
[0026] 图1示出了可以应用本申请实施例的用于输出信息的方法或用于输出信息的装置的示例性系统架构100。
[0027] 如图1所示,系统架构100可以包括终端设备101、102、103,网络104和
服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤
电缆等等。
[0028] 用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用,例如搜索类应用、网页浏览器应用、
即时通信工具、邮箱客户端、购物类应用、社交平台
软件等。
[0029] 终端设备101、102、103可以是
硬件,也可以是软件。当终端设备101、102、103为硬件时,可以是各种电子设备,包括但不限于智能手机、
平板电脑、电子书阅读器、MP3播放器(Moving Picture Experts Group Audio Layer III,动态影像专家压缩标准音频层面3)、MP4(Moving Picture Experts Group Audio Layer IV,动态影像专家压缩标准音频层面4)播放器、膝上型便携计算机和台式计算机等等。当终端设备101、102、103为软件时,可以安装在上述所列举的电子设备中。其可以实现成多个软件或软件模
块(例如用来提供分布式服务的软件或
软件模块),也可以实现成单个软件或软件模块。在此不做具体限定。
[0030] 服务器105可以是提供各种服务的服务器,例如对终端设备101、102、103中的词语之间的重要程度进行分析的后台信息处理服务器。后台信息处理服务器可以对获取的词语特征信息进行分析等处理,并输出处理结果(例如用于比较两个词语特征信息分别表征的词语的重要程度的比较结果)。
[0031] 需要说明的是,本申请实施例所提供的用于输出信息的方法可以由服务器105执行,也可以由终端设备101、102、103执行,相应地,用于输出信息的装置可以设置于服务器105中,也可以设置于终端设备101、102、103中。
[0032] 需要说明的是,服务器可以是硬件,也可以是软件。当服务器为硬件时,可以实现成多个服务器组成的分布式服务器集群,也可以实现成单个服务器。当服务器为软件时,可以实现成多个软件或软件模块(例如用来提供分布式服务的软件或软件模块),也可以实现成单个软件或软件模块。在此不做具体限定。
[0033] 应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。在词语特征信息集合不需要从远程获取的情况下,上述系统架构可以不包括网络,而只需终端设备或服务器。
[0034] 继续参考图2,示出了根据本申请的用于输出信息的方法的一个实施例的流程200。该用于输出信息的方法,包括以下步骤:
[0035] 步骤201,获取预设的词语特征信息集合。
[0036] 在本实施例中,用于输出信息的方法的执行主体(例如图1所示的服务器)可以通过有线连接方式或者无线连接方式从远程获取预设的词语特征信息集合,或者从本地获取预设的词语特征信息集合。其中,词语特征信息用于表征预设的词语集合中的词语。词语集合可以由技术人员预先设置在上述执行主体或其他电子设备中。词语集合中的词语可以是基于各种方式获得的词语。例如,可以是技术人员预先输入的词语,或者是从预设的一个或多个文本中提取的词语。
[0037] 在本实施例的一些可选的实现方式中,词语集合可以预先由上述执行主体或其他电子设备通过如下步骤得到:
[0038] 首先,获取待处理语句。其中,待处理语句可以是待对其进行切词的语句。例如,待处理语句可以是上述执行主体或其他电子设备获取的、用户输入的诸如搜索语句、评论语句等,也可以是预设的文本(例如新闻、用户发表的文章等)中包括的语句。需要说明的是,待处理语句的数量可以是至少一个。
[0039] 然后,对待处理语句进行切词,得到词语集合。具体地,上述执行主体或其他电子设备可以按照现有的对语句进行切词的方法(例如最大正向匹配法、N-gram模型方法、隐
马尔科夫模型方法等),对待处理语句进行切词,得到词语集合。
[0040] 在本实施例中,词语特征信息的形式可以是向量,向量中的元素可以用于表征词语的某种特征。例如用预设的编号表征词语的词性。
[0041] 在本实施例的一些可选的实现方式中,词语特征信息可以包括以下至少一种信息:词向量、词性信息、命名实体、词频等。
[0042] 其中,词向量可以是上述执行主体或其他电子设备利用现有的词向量模型(例如word2vec、sense2vec等)所生成的、词语集合中的词语的词向量。
[0043] 词性信息可以是利用现有的词性标注方法所得到的、用于表征词语集合中的词语的词性的信息。具体地,词性标注(Part-of-Speech tagging或POS tagging),又称词类标注或者简称标注,是指为切词结果中的每个词标注一个正确的词性的方法,也即确定每个词是名词、动词、形容词或其他词性的过程。作为示例,词性标注方法可以包括但不限于以下至少一种:基于HMM(Hidden Markov Model,
隐马尔可夫模型)的方法,基于N-gram模型(N元模型)的方法,基于神经网络的方法等。
[0044] 命名实体可以是利用现有的命名实体识别(Named Entity Recognition,NER)方法得到的、用于表征词语集合中的词语的类型的信息。具体地,命名实体识别又称作“专名识别”,是指识别文本中具有特定意义的实体,主要包括人名、地名、机构名、专有名词等。作为示例,命名实体识别方法可以包括但不限于以下至少一种:基于HMM的方法,基于CRF(Conditional Random Field,条件随机场)的方法等。
[0045] 词频可以是预先对预设的文本集合(例如某
网站、某电子设备上的文本的集合)中的文本包括的词语进行统计得到的、用于表征文本集合中的词语出现的频率的信息。例如,某词语的词频可以是统计出的该词语在预设的文本集合包括的文本中出现的次数与该文本集合包括的文本中的所有词语出现的次数的比值。
[0046] 需要说明的是,上述词性标注方法、命名实体识别方法和生成词向量的方法是目前广泛研究和应用的公知技术,在此不再赘述。
[0047] 步骤202,将词语特征信息集合中的词语特征信息进行两两组合,得到至少一个词语特征信息组合。
[0048] 在本实施例中,基于步骤201中获取的词语特征信息集合,上述执行主体可以将词语特征信息集合中的词语特征信息进行两两组合,得到至少一个词语特征信息组合。作为示例,假设词语特征信息集合包括词语特征信息A、B、C,则两两组合后,可以得到的词语特征信息组合包括:AB、AC、BC。
[0049] 步骤203,对于至少一个词语特征信息组合中的词语特征信息组合,将该词语特征信息组合中的两个词语特征信息输入预先训练的重要度分析模型,输出用于比较输入的两个词语特征信息分别表征的词语的重要程度的比较结果。
[0050] 在本实施例中,对于至少一个词语特征信息组合中的词语特征信息组合,上述执行主体可以将该词语特征信息组合中的两个词语特征信息输入预先训练的重要度分析模型,输出用于比较输入的两个词语特征信息分别表征的词语的重要程度的比较结果。其中,重要度分析模型用于表征词语特征信息组合与比较结果的对应关系。比较结果可以是各种形式的信息,包括但不限于:数值、符号、文字等。作为示例,假设输入的两个词语特征信息分别为“A”和“B”,比较结果可以是数值,当数值大于0时,表示词语特征信息A表征的词语的重要程度大于词语特征信息B表征的词语。当数值小于0时,表示词语特征信息A表征的词语的重要程度小于词语特征信息B表征的词语。
[0051] 具体地,作为示例,重要度分析模型可以包括对应关系表,该对应关系表可以是技术人员基于对大量的词语特征信息组合(包括两个词语特征信息)和用于比较词语特征信息组合对应的比较结果的统计而预先制定的,该对应关系表存储有多个词语特征信息组合和与词语特征信息组合对应的比较结果。这样,上述重要度分析模型可以将输入的词语特征信息组合与对应关系表中的多个词语特征信息组合依次进行比较,若对应关系表中的某一个词语特征信息组合与输入的词语特征信息组合相同或相似(例如相似度大于等于预设的相似度
阈值),则将对应关系表中的、该词语特征信息组合对应的比较结果作为用于比较输入的两个词语特征信息分别表征的词语的重要程度的比较结果。
[0052] 在本实施例的一些可选的实现方式中,上述重要度分析模型可以是上述执行主体或者其他用于训练上述重要度分析模型的执行主体预先通过以下方式训练得到的:
[0053] 首先,获取训练样本集合。其中,训练样本包括两个样本词语特征信息,样本词语特征信息用于表征预设的样本词语,训练样本还包括用于比较两个样本词语特征信息分别表征的样本词语的重要程度的标注比较结果。这里,标注比较结果可以为数值,作为示例,训练样本包括的两个样本词语特征信息分别为A和B,对应的标注比较结果可以是预设的正数(例如“1”,用于表征A表征的样本词语的重要程度大于B表征的样本词语的重要程度),或者是预设的负数(例如“-1”,用于表征A表征的样本词语的重要程度小于B表征的样本词语的重要程度)。
[0054] 然后,利用机器学习方法,将训练样本集合中的训练样本包括的两个样本词语特征信息作为输入,将输入的两个样本词语特征信息对应的标注比较结果作为期望输出,训练得到重要度分析模型。
[0055] 具体地,用于训练重要度分析模型的执行主体可以将两个样本词语特征信息输入到初始模型(例如
深度神经网络、
卷积神经网络等),对初始模型进行训练,得到重要度分析模型。
[0056] 实践中,用于训练重要度分析模型的执行主体可以利用各种方式对初始模型进行训练,获得重要度分析模型。具体的,作为示例,重要度分析模型可以包括初始结果生成子模型和最终结果生成子模型,其中,初始结果生成子模型可以是神经网络模型,最终结果生成子模型可以是根据初始结果生成子模型生成的初始比较结果进行处理的数学模型。用于训练重要度分析模型的执行主体可以从训练样本中选取训练样本,并执行以下训练步骤:
[0057] 步骤一,将所选取的训练样本包括的两个样本词语特征信息输入初始结果生成子模型,获得初始比较结果。其中,初始比较结果可以是数值。
[0058] 步骤二,将所得到的初始比较结果与输入的两个样本词语特征信息对应的标注比较结果进行比较,以确定进行比较所得到的结果是否符合预设条件。作为示例,预设条件可以包括以下至少一项:初始比较结果与标注比较结果同时为正数或同时为负数,初始比较结果与标注比较结果之差的绝对值小于等于预设阈值。
[0059] 步骤三,响应于确定进行比较所得到的结果符合预设条件,确定初始结果生成子模型训练完成,得到重要度分析模型。
[0060] 在本示例中,还可以响应于确定进行比较所得到的结果不符合预设条件,调整初始结果生成子模型中的参数(例如可以采用反向传播
算法(Back Propgation Algorithm,BP算法)和
梯度下降法(例如随机梯度下降算法)对上述初始模型的参数进行调整),以及从上述训练样本集合中重新选取训练样本,使用调整参数后的初始结果生成子模型和重新选取的训练样本继续执行上述训练步骤。
[0061] 需要说明的是,上述重要度分析模型包括的信息生成子模型可以设置为根据初始比较结果生成最终的比较结果并输出。其中,最终的比较结果可以是各种形式的信息,例如文字、符号、数值等。作为示例,假设输入的两个词语特征信息的标识分别为“A”和“B”,如果按照上述步骤二所得到的初始比较结果为正数,表示词语特征信息“A”表征的词语的重要程度大于词语特征信息“B”表征的词语,则最终的比较结果可以是“A>B”。