一种对文本进行分类的方法及装置专利检索-自然语言处理人工智能人工智能专利检索查询-专利查询网

一种对文本进行分类的方法及装置

阅读：983发布：2020-05-19

专利汇可以提供一种对文本进行分类的方法及装置专利检索，专利查询，专利分析的服务。并且本发明公开了对文本进行分类的方法及装置，涉及自然语言处理技术领域，能够使得分类结果更贴近不同业务的需求，提高分类结果的质量和效率，本发明的主要技术方案为：判断待执行分类处理的文本数据是否与预置强规则逻辑匹配，预置强规则逻辑用于区别文本数据是否被归属于为与业务需求无关的类别；若是，则根据预置强规则逻辑对应的匹配结果，确定文本数据的分类；若否，则通过预置文本分类模型对文本数据执行分类处理，预置文本分类模型包含预置弱规则逻辑，预置弱规则逻辑用于在对文本数据执行分类处理时根据业务需求扩展特征，以使得分类处理对应得到的分类结果与业务需求匹配。本发明应用于优化执行文本分类处理。，下面是一种对文本进行分类的方法及装置专利的具体信息内容。

权利要求

1.一种对文本进行分类的方法，其特征在于，所述方法包括：
判断待执行分类处理的文本数据是否与预置强规则逻辑匹配，所述预置强规则逻辑用于区别所述文本数据是否被归属于为与业务需求无关的类别；
若是，则根据所述预置强规则逻辑对应的匹配结果，确定所述文本数据的分类；
若否，则通过预置文本分类模型对所述文本数据执行分类处理，所述预置文本分类模型包含预置弱规则逻辑，所述预置弱规则逻辑用于在对所述文本数据执行分类处理时根据所述业务需求扩展特征，以使得分类处理对应得到的分类结果与所述业务需求匹配。
2.根据权利要求1所述的方法，其特征在于，所述预置强规则逻辑包含规则本体以及每条所述规则本体对应的规则匹配结果，所述规则本体是以正则表达式进行编写的。
3.根据权利要求2所述的方法，其特征在于，所述判断待分类的文本数据是否与预置强规则逻辑匹配，包括：
获取每条所述规则本体对应的正则表达式信息，所述正则表达式信息包含正则表达式的筛选逻辑；
根据所述正则表达式的筛选逻辑对所述文本数据进行筛选处理；
判断在所述文本数据中是否筛选出与所述正则表达式的筛选逻辑匹配的目标文本；
若是，则确定所述文本数据与预置强规则逻辑匹配。
4.根据权利要求1所述的方法，其特征在于，所述通过预置文本分类模型对所述文本数据执行分类处理，包括：
对所述文本数据执行分词；
对所述分词执行向量化处理，输出所述文本数据对应的多个特征维度以及每个特征维度对应的维度信息；
利用特征选择器对所述多个特征维度执行特征选择，输出经筛选后的特征维度以及对应的维度信息；
根据预置弱规则逻辑，扩展所述文本数据的特征维度以及得到对应的维度信息；
将所述经筛选后的特征维度以及对应的维度信息、所述扩展的特征维度以及对应的维度信息输入分类器，输出对所述文本数据执行预测的分类结果。
5.根据权利要求4所述的方法，其特征在于，所述预置弱规则逻辑包含多个规则组别，所述规则组别对应多个规则本体，所述规则本体是以正则表达式进行编写的，一个所述规则本体对应一个规则匹配结果。
6.根据权利要求5所述的方法，其特征在于，所述根据预置弱规则逻辑，扩展所述文本数据的特征维度以及得到对应的维度信息，包括：
获取所述预置弱规则逻辑包含的规则组别；
将所述规则组别确定为扩展的特征维度；
判断所述文本数据是否命中所述规则组别的规则逻辑；
若是，则将所述文本数据命中所述规则组别的规则逻辑对应的信息作为规则匹配结果，将所述规则匹配结果确定为所述特征维度对应的维度信息；
若否，则将所述文本数据未命中所述规则组别的规则逻辑对应的信息作为规则匹配结果，将所述规则匹配结果确定为所述维度特征对应的维度信息。
7.根据权利要求6所述的方法，其特征在于，所述判断所述文本数据是否命中所述规则组别的规则逻辑，包括：
在同一规则组别下，查询每条规则本体对应的正则表达式信息，其中，所述正则表达式信息包含正则表达式的筛选逻辑；
根据所述正则表达式的筛选逻辑，判断所述文本数据是否命中所述规则本体的规则逻辑；
若是，则确定所述文本数据命中所述规则组别的规则逻辑；
若否，则当在同一规则组别下不存在所述文本数据命中多个规则本体中任一规则本体的规则逻辑时，确定所述文本数据未命中所述规则组别的规则逻辑。
8.一种对文本进行分类的装置，其特征在于，所述装置包括：
判断单元，用于判断待执行分类处理的文本数据是否与预置强规则逻辑匹配，所述预置强规则逻辑用于区别所述文本数据是否被归属于为与业务需求无关的类别；
确定单元，用于当所述判断单元判断所述文本数据与预置强规则逻辑匹配时，根据所述预置强规则逻辑对应的匹配结果，确定所述文本数据的分类；
执行单元，用于当所述判断单元判断所述文本数据不与预置强规则逻辑匹配时，则通过预置文本分类模型对所述文本数据执行分类处理，所述预置文本分类模型包含预置弱规则逻辑，所述预置弱规则逻辑用于在对所述文本数据执行分类处理时根据所述业务需求扩展特征，以使得分类处理对应得到的分类结果与所述业务需求匹配。
9.一种存储介质，其特征在于，所述存储介质包括存储的程序，其中，在所述程序运行时控制所述存储介质所在设备执行如权利要求1-7中任一项所述的对文本进行分类的方法。
10.一种处理器，其特征在于，所述处理器用于运行程序，其中，所述程序运行时执行如权利要求1-7中任一项所述的对文本进行分类的方法。

说明书全文

一种对文本进行分类的方法及装置

技术领域

[0001] 本发明涉及自然语言处理技术领域，尤其涉及一种对文本进行分类的方法及装置。

背景技术

[0002] 随着科技的不断创新发展，机器学习可以被应用于判断文本的类别。目前，利用机器学习进行文本分类的主要流程包括：首先，利用已标注类别的文本进行训练文本分类模型，其次，再利用该文本分类模型对未标注类别的原始文本进行处理来预测其所归属类别，从而完成对原始文本执行分类的目的。然而，在将文本分类模型应用到不同的具体业务中时，由于不同业务涉及的内容可以是千差万别的，因而若仅用一个通用的文本分类模型是不能满足不同业务的需求的，但是若对每个具体的业务都训练一个文本分类模型，这不仅耗费大量成本，还将使得对原始文本执行分类的过程变得繁琐、过于冗余、效率低。

发明内容

[0003] 有鉴于此，本发明提供一种对文本进行分类的方法及装置，主要目的在于优化对原始文本执行分类的处理流程，使得分类结果更贴近不同业务的需求，提高分类结果的质量，同时也大大提高分类效率。

[0004] 为了解决上述问题，本发明主要提供如下技术方案：

[0005] 一方面，本发明提供了一种对文本进行分类的方法，该方法包括：

[0006] 判断待执行分类处理的文本数据是否与预置强规则逻辑匹配，所述预置强规则逻辑用于区别所述文本数据是否被归属于为与业务需求无关的类别；

[0007] 若是，则根据所述预置强规则逻辑对应的匹配结果，确定所述文本数据的分类；

[0008] 若否，则通过预置文本分类模型对所述文本数据执行分类处理，所述预置文本分类模型包含预置弱规则逻辑，所述预置弱规则逻辑用于在对所述文本数据执行分类处理时根据所述业务需求扩展特征，以使得分类处理对应得到的分类结果与所述业务需求匹配。

[0009] 可选的，所述预置强规则逻辑包含规则本体以及每条所述规则本体对应的规则匹配结果，所述规则本体是以正则表达式进行编写的。

[0010] 可选的，所述判断待分类的文本数据是否与预置强规则逻辑匹配，包括：

[0011] 获取每条所述规则本体对应的正则表达式信息，所述正则表达式信息包含正则表达式的筛选逻辑；

[0012] 根据所述正则表达式的筛选逻辑对所述文本数据进行筛选处理；

[0013] 判断在所述文本数据中是否筛选出与所述正则表达式的筛选逻辑匹配的目标文本；

[0014] 若是，则确定所述文本数据与预置强规则逻辑匹配。

[0015] 可选的，所述通过预置文本分类模型对所述文本数据执行分类处理，包括：

[0016] 对所述文本数据执行分词；

[0017] 对所述分词执行向量化处理，输出所述文本数据对应的多个特征维度以及每个特征维度对应的维度信息；

[0018] 利用特征选择器对所述多个特征维度执行特征选择，输出经筛选后的特征维度以及对应的维度信息；

[0019] 根据预置弱规则逻辑，扩展所述文本数据的特征维度以及得到对应的维度信息；

[0020] 将所述经筛选后的特征维度以及对应的维度信息、所述扩展的特征维度以及对应的维度信息输入分类器，输出对所述文本数据执行预测的分类结果。

[0021] 可选的，所述预置弱规则逻辑包含多个规则组别，所述规则组别对应多个规则本体，所述规则本体是以正则表达式进行编写的，一个所述规则本体对应一个规则匹配结果。

[0022] 可选的，所述根据预置弱规则逻辑，扩展所述文本数据的特征维度以及得到对应的维度信息，包括：

[0023] 获取所述预置弱规则逻辑包含的规则组别；

[0024] 将所述规则组别确定为扩展的特征维度；

[0025] 判断所述文本数据是否命中所述规则组别的规则逻辑；

[0026] 若是，则将所述文本数据命中所述规则组别的规则逻辑对应的信息作为规则匹配结果，将所述规则匹配结果确定为所述特征维度对应的维度信息；

[0027] 若否，则将所述文本数据未命中所述规则组别的规则逻辑对应的信息作为规则匹配结果，将所述规则匹配结果确定为所述维度特征对应的维度信息。

[0028] 可选的，所述判断所述文本数据是否命中所述规则组别的规则逻辑，包括：

[0029] 在同一规则组别下，查询每条规则本体对应的正则表达式信息，其中，所述正则表达式信息包含正则表达式的筛选逻辑；

[0030] 根据所述正则表达式的筛选逻辑，判断所述文本数据是否命中所述规则本体的规则逻辑；

[0031] 若是，则确定所述文本数据命中所述规则组别的规则逻辑；

[0032] 若否，则当在同一规则组别下不存在所述文本数据命中多个规则本体中任一规则本体的规则逻辑时，确定所述文本数据未命中所述规则组别的规则逻辑。

[0033] 为了实现上述目的，根据本发明的另一方面，提供了一种存储介质，所述存储介质包括存储的程序，其中，在所述程序运行时控制所述存储介质所在设备执行上述所述的对文本进行分类的方法。

[0034] 为了实现上述目的，根据本发明的另一方面，提供了一种处理器，所述处理器用于运行程序，其中，所述程序运行时执行上述所述的对文本进行分类的方法。

[0035] 另一方面，本发明还提供了一种对文本进行分类的装置，该装置包括：

[0036] 判断单元，用于判断待执行分类处理的文本数据是否与预置强规则逻辑匹配，所述预置强规则逻辑用于区别所述文本数据是否被归属于为与业务需求无关的类别；

[0037] 确定单元，用于当所述判断单元判断所述文本数据与预置强规则逻辑匹配时，根据所述预置强规则逻辑对应的匹配结果，确定所述文本数据的分类；

[0038] 执行单元，用于当所述判断单元判断所述文本数据不与预置强规则逻辑匹配时，则通过预置文本分类模型对所述文本数据执行分类处理，所述预置文本分类模型包含预置弱规则逻辑，所述预置弱规则逻辑用于在对所述文本数据执行分类处理时根据所述业务需求扩展特征，以使得分类处理对应得到的分类结果与所述业务需求匹配。

[0039] 可选的，所述预置强规则逻辑包含规则本体以及每条所述规则本体对应的规则匹配结果，所述规则本体是以正则表达式进行编写的。

[0040] 可选的，所述判断单元包括：

[0041] 获取模块，用于获取每条所述规则本体对应的正则表达式信息，所述正则表达式信息包含正则表达式的筛选逻辑；

[0042] 筛选模块，用于根据所述获取模块获取的正则表达式的筛选逻辑对所述文本数据进行筛选处理；

[0043] 判断模块，用于判断在所述文本数据中是否筛选出与所述正则表达式的筛选逻辑匹配的目标文本；

[0044] 确定模块，用于当所述判断模块判断在所述文本数据中筛选出与所述正则表达式的筛选逻辑匹配的目标文本时，确定确定所述文本数据与预置强规则逻辑匹配。

[0045] 可选的，所述执行单元包括：

[0046] 分词模块，用于对所述文本数据执行分词；

[0047] 向量化处理模块，用于对经所述分词模块得到的分词执行向量化处理，输出所述文本数据对应的多个特征维度以及每个特征维度对应的维度信息；

[0048] 特征选择模块，用于利用特征选择器对所述多个特征维度执行特征选择，输出经筛选后的特征维度以及对应的维度信息；

[0049] 扩展模块，用于根据预置弱规则逻辑，扩展所述文本数据的特征维度以及得到对应的维度信息；

[0050] 执行模块，用于将所述特征选择模块筛选后的特征维度以及对应的维度信息、所述扩展模块扩展的特征维度以及对应的维度信息输入分类器，输出对所述文本数据执行预测的分类结果。

[0051] 可选的，所述预置弱规则逻辑包含多个规则组别，所述规则组别对应多个规则本体，所述规则本体是以正则表达式进行编写的，一个所述规则本体对应一个规则匹配结果。

[0052] 可选的，所述扩展模块包括：

[0053] 获取子模块，用于获取所述预置弱规则逻辑包含的规则组别；

[0054] 第一确定子模块，用于将所述获取子模块获取的规则组别确定为扩展的特征维度；

[0055] 第一判断子模块，用于判断所述文本数据是否命中所述获取子模块获取的规则组别的规则逻辑；

[0056] 第一执行子模块，用于当所述第一判断子模块判断所述文本数据命中所述规则组别的规则逻辑时，则将所述文本数据命中所述规则组别的规则逻辑对应的信息作为规则匹配结果，将所述规则匹配结果确定为所述特征维度对应的维度信息；

[0057] 第二执行子模块，用于当所述第一判断子模块判断所述文本数据未命中所述规则组别的规则逻辑时，则将所述文本数据未命中所述规则组别的规则逻辑对应的信息作为规则匹配结果，将所述规则匹配结果确定为所述维度特征对应的维度信息。

[0058] 可选的，所述第一判断子模块包括：

[0059] 查询子模块，用于在同一规则组别下，查询每条规则本体对应的正则表达式信息，其中，所述正则表达式信息包含正则表达式的筛选逻辑；

[0060] 第二判断子模块，用于根据所述正则表达式的筛选逻辑，判断所述文本数据是否命中所述规则本体的规则逻辑；

[0061] 第二确定子模块，用于当所述第二判断子模块判断所述文本数据命中所述规则本体的规则逻辑时，确定所述文本数据命中所述规则组别的规则逻辑；

[0062] 第三确定子模块，用于若所述第二判断子模块判断所述文本数据未命中所述规则本体的规则逻辑，则当在同一规则组别下不存在所述文本数据命中多个规则本体中任一规则本体的规则逻辑时，确定所述文本数据未命中所述规则组别的规则逻辑。

[0063] 借由上述技术方案，本发明提供的技术方案至少具有下列优点：

[0064] 本发明提供的一种对文本进行分类的方法及装置，本发明是预先使用业务强规则逻辑对原始文本预先执行强制分类匹配，若满足业务强规则逻辑，则可以直接根据执行强制分类匹配对应的匹配结果，确定原始文本的分类归属，若不满足业务强规则逻辑，则再利用改进后的文本分类模型对原始文本执行分类处理，由于改进后的文本分类模型包含业务弱规则逻辑，并且根据业务弱规则逻辑可以在对原始文本进行向量化后扩展文本数据的特征，进而结合扩展后的特征对原始文本执行分类处理。与现有技术相比，解决了在利用现有的文本分类模型对原始文本执行分类处理时导致的不能满足不同业务内容的需求、浪费成本、过程繁琐冗余、效率低的问题。本发明在对原始文本执行分类处理时引入业务强规则逻辑与弱规则逻辑，使得分类结果更贴近不同业务的需求，提高分类结果的质量，同时由于仅是加入弱规则逻辑对现有文本分类模型进行改进，因而随着业务内容的变化可以简单、便捷地优化并改进现有模型，也就无需对每个具体的业务都训练一个文本分类模型，继而这将使得对原始文本执行分类的过程变得简单、便捷，大大提高分类效率。

[0065] 上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。附图说明

[0066] 通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

[0067] 图1为本发明实施例提供的一种对文本进行分类的方法流程图；

[0068] 图2为本发明实施例提供的另一种对文本进行分类的方法流程图；

[0069] 图3为本发明实施例提供的通过文本分类模型对文本执行分类处理的流程；

[0070] 图4为本发明实施例提供的一种对文本进行分类的装置的组成框图；

[0071] 图5为本发明实施例提供的另一种对文本进行分类的装置的组成框图。

具体实施方式

[0072] 下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例，然而应当理解，可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本发明，并且能够将本发明的范围完整的传达给本领域的技术人员。

[0073] 本发明实施例提供了一种对文本进行分类的方法，如图1所示，该方法是在对原始文本执行分类处理时引入业务强规则逻辑与弱规则逻辑，优化对原始文本执行分类处理的过程，对此本发明实施例提供以下具体步骤：

[0074] 101、判断待分类的文本数据是否与预置强规则逻辑匹配。

[0075] 在本发明实施例中，文本数据是指待执行分类处理的原始文本，可以通过网络爬虫等技术收集原始文本，比如，利用网络爬虫获取网页上的评论文本数据，具体的，获取原始文本的方法，本发明实施例不做限定。

[0076] 其中，预置强规则逻辑用于区别文本数据是否被归属于为与业务需求无关的类别，预置强规则逻辑用于对文本数据预先执行强制分类匹配，该预置强规则逻辑是由业务方提供的，具有强制性的规则，也就是，一旦文本数据与强规则逻辑匹配，则直接根据匹配时对应的匹配结果，将文本数据执行分类处理并确定文本数据的归属类别。

[0077] 在本发明实施例中，利用强规则逻辑对文本数据预先执行强制分类匹配，相当于是以最高的优先级执行分类处理，比如：在对评论网站上收集的评论文本数据进行筛选时，判断待执行分类的评论文本数据是否是垃圾文本，可以检索评论文本数据内容是否包含与赌博、脏话、广告信息相关的关键字，比如“赌博”“注册博赢就赢千万大礼”，若是则可以直接判断该评论文本数据是垃圾文本，在此“检索评论文本数据内容是否包含与赌博、脏话、广告信息相关的关键字”这个执行规则就可以是业务方提供的强规则逻辑，诸如上述的关键字可以直接表明该评论文本数据是否是垃圾文本。

[0078] 102a、若判断文本数据与预置强规则逻辑匹配，则根据预置强规则逻辑对应的匹配结果，确定文本数据的分类。

[0079] 在本发明实施例中，比如：预置强规则逻辑是业务方提供的，用于判断文本数据是否是垃圾文本，因而当判断文本数据与预置强规则逻辑匹配时，也就是，可以直接判断该文本数据是垃圾文本，进而确定文本数据的归属类别是垃圾文本。

[0080] 102b、若判断文本数据不与预置强规则逻辑匹配，则通过预置文本分类模型对文本数据执行分类处理。

[0081] 其中，预置文本分类模型包含预置弱规则逻辑，预置弱规则逻辑用于在对文本数据执行分类处理时根据业务需求扩展特征，以使得分类处理对应得到的分类结果与业务需求匹配。

[0082] 在本发明实施例中，预置弱规则逻辑是业务方提供的，用于对文本数据的特征执行扩展，进而结合扩展后的特征对原始文本执行分类处理，使得分类结果更贴近不同业务的需求。在本发明实施例中，预置文本分类模型不同于现有的文本分类模型，现有的分类模型对文本数据执行分类处理流程包括：对文本数据执行分词，对分词执行向量化处理，利用特征选择器对前述向量化处理结果执行特征选择，利用分类器对前述输出的特征选择执行分类处理，最终得到对文本数据预测的分类结果。但是对于本发明实施例，是在训练模型时对现有的分类模型进行改进，在训练模型时根据业务的需求增加弱规则逻辑，进而当通过改进的文本分类模型对文本数据执行分类处理时，在现有执行分类处理流程中利用特征选择器对向量化处理结果执行特征选择之后，根据弱规则逻辑又扩展一些特征，从而利用分类器可以对特征选择器输出的特征与扩展的特征一并处理，使得最终对文本数据预测的分类结果相较于前述通过现有模型预测的分类结果更贴近业务需求。

[0083] 在本发明实施例中，若判断文本数据不与预置强规则逻辑匹配，比如接续上述102a的例举，也就是，间接地判断该文本数据不是垃圾文本、诈骗文本、散布谣言文本等等，则进一步地，通过改进的文本分类模型对文本数据执行分类处理，并且随着业务内容的变化，通过加入弱规则逻辑的方法可以简单、便捷、灵活地对现有文本分类模型执行改进，进而确保分类结果更贴近不同业务的需求，提高分类结果的质量。

[0084] 本发明实施例提供的一种对文本进行分类的方法及装置，本发明实施例是预先使用业务强规则逻辑对原始文本预先执行强制分类匹配，若满足业务强规则逻辑，则可以直接根据预置强规则逻辑对应的匹配结果，确定原始文本的分类归属，若不满足业务强规则逻辑，则再利用改进后的文本分类模型对原始文本执行分类处理，由于改进后的文本分类模型包含业务弱规则逻辑，并且根据业务弱规则逻辑可以在对原始文本进行向量化后扩展文本数据的特征，进而结合扩展后的特征对原始文本执行分类处理。与现有技术相比，解决了在利用现有的文本分类模型对原始文本执行分类处理时导致的不能满足不同业务内容的需求、浪费成本、过程繁琐冗余、效率低的问题。本发明实施例在对原始文本执行分类处理时引入业务强规则逻辑与弱规则逻辑，使得分类结果更贴近不同业务的需求，提高分类结果的质量，同时由于仅是加入弱规则逻辑对现有文本分类模型进行改进，因而随着业务内容的变化可以简单、便捷地优化并改进现有模型，也就无需对每个具体的业务都训练一个文本分类模型，继而这将使得对原始文本执行分类的过程变得简单、便捷，大大提高分类效率。

[0085] 为了对上述实施例做出更加详细的说明，本发明实施例还提供了另一种对文本进行分类的方法，如图2所示，该方法通过正则表达式的筛选逻辑判断文本数据是否与强规则逻辑匹配，以及根据弱规则逻辑包含的多个规则组别来扩展文本数据的特征，对此本发明实施例提供以下具体步骤：

[0086] 201、判断待执行分类处理的文本数据是否与预置强规则逻辑匹配。

[0087] 其中，预置强规则逻辑用于区别文本数据是否被归属于为与业务需求无关的类别。

[0088] 在本发明实施例中，预置强规则逻辑包含规则本体以及每条规则本体对应的规则匹配结果，规则本体是以正则表达式进行编写的。例如：编写的强规则逻辑如下：

[0089] body result

[0090] '.*娱乐城.*'1

[0091] '.*投注平台.*'1

[0092] '.*投注网.*'1

[0093] '.*注册.{0,4}赌场.*'1

[0094] '.*注册.{0,4}博彩.*'1

[0095] '.*注册.{0,4}线上.*'1

[0096] '.*新葡京.*'1

[0097] '.*我觉得.*'0

[0098] '.*我认为.*'0

[0099] '.*打.{0,1}分.*'0

[0100] 其中，“body”是规则本体，“result”是规则匹配结果，并且规则结果中“1”代表文本数据命中强规则逻辑，“0”代表文本数据未命中强规则逻辑对应的规则本体。比如：强规则逻辑是用于判断文本数据是否是垃圾文本，当匹配的规则结果是“1”时表明文本数据是垃圾文本，当匹配的规则结果是“0”时表明文本数据不是垃圾文本。

[0101] 在本发明实施例中，判断文本数据是否与预置强规则逻辑匹配的具体步骤，可以包括：获取每条规则本体对应的正则表达式信息，该正则表达式信息包含正则表达式的筛选逻辑，根据正则表达式的筛选逻辑对文本数据进行筛选处理，判断在文本数据中是否筛选出与正则表达式的筛选逻辑匹配的目标文本，若是，则确定文本数据与预置强规则逻辑匹配。需要说明的是，当文本数据与预置强规则逻辑匹配时，还存在文本数据与强规则逻辑的两种匹配关系，也就是：文本数据命中强规则逻辑(即规则匹配结果是“1”)，以及，文本数据未命中强规则逻辑对应的规则本体(即规则匹配结果是“0”)。

[0102] 进一步的，通过具体的应用场景，对判断文本数据是否与强规则逻辑匹配的具体步骤做出详细说明：

[0103] 例如，具体的应用场景是对某评论网站的评论文本数据进行过滤，去除垃圾文本数据，例举如下收集的4条评论文本数据。

[0104] 文本1：我觉得这部电影不错。

[0105] 文本2：电影好评。

[0106] 文本3：今天注册16788线上赌场就送100金豆。

[0107] 文本4：注册博赢app，送千元好礼。

[0108] 将文本1至4分别与上述例举的强规则逻辑进行匹配，对应的匹配结果如下，在此为便于清楚的呈现文本与强规则逻辑执行匹配过程，将如何执行匹配、对应匹配结果以及根据匹配结果确定的分类结果填写至如下表一。

[0109] 表一

[0110]

[0111] 其中，文本1与文本3分别匹配到强逻辑规则，但是根据分别对应的规则结果，确定文本1的归属类别不是垃圾文本，文本3的归属类别是垃圾文本。

[0112] 202a、若判断文本数据与预置强规则逻辑匹配，则根据预置强规则逻辑对应的匹配结果，确定文本数据的分类。

[0113] 对于本发明实施例，接续上述“判断文本数据是否是垃圾文本”的例举，如上述表一所示，当文本数据与强规则逻辑匹配时，根据对应规则匹配结果，进一步地可以确定文本数据的分类，也就是，文本数据命中强规则逻辑(即规则匹配结果是“1”)，确定是垃圾文本，以及，文本数据未命中强规则逻辑对应的规则本体(即规则匹配结果是“0”)，确定不是垃圾文本。

[0114] 在本发明实施例中，若判断文本数据不与预置强规则逻辑匹配，根据如下步骤202b至206b通过预置文本分类模型对文本数据执行分类处理。

[0115] 202b、对文本数据执行分词。

[0116] 203b、对分词执行向量化处理，输出文本数据对应的多个特征维度以及每个特征维度对应的维度信息。

[0117] 204b、利用特征选择器对多个特征维度执行特征选择，输出经筛选后的特征维度以及对应的维度信息。

[0118] 上述步骤202b至204b，对于待执行分类处理的文本数据，首先对其进行分词，具体的，可以利用依存句法对文本数据执行分词，对于本发明实施例，对执行分词的方法不做限定；其次，利用向量化器对分词执行向量化处理，输出文本数据对应的多个特征维度以及每个特征维度对应的维度信息；而后，再利用特征选择器对上述输出的多个特征维度执行特征选择，输出经筛选后的特征维度以及对应的维度信息。以上步骤，在现有的文本分类模型中也可以执行，此处不再具体陈述。

[0119] 205b、根据预置弱规则逻辑，扩展文本数据的特征维度以及得到对应的维度信息。

[0120] 其中，预置弱规则逻辑包含多个规则组别，每个规则组别对应多个规则本体，每个规则本体是以正则表达式进行编写的，一个规则本体对应一个规则匹配结果。例如：编写的弱规则逻辑如下：

[0121] group body result

[0122] 1'.*美高梅.*'1

[0123] 2'.*线上.*'1

[0124] 2'.*娱乐.*'1

[0125] 2'.*投注.*'1

[0126] 2'.*注册.{0,4}app.*'1

[0127] 2'.*注册.{0,4}App.*'1

[0128] 3'.*缅甸.*'1

[0129] 3'.*九五至尊.*'1

[0130] 2'.*必赢.*'1

[0131] 1'.*拉斯维加斯.*'1

[0132] 3'.*送.{0,4}好礼.*'1

[0133] 4'.*有.{0,10}感想.*'1

[0134] 4'.*好评.*'1

[0135] 4'.*差评.*'1

[0136] 其中，“group”是规则组别，分别是“1”“2”“3”“4”，“body”是规则本体，“result”是规则匹配结果，并且规则匹配结果中“1”代表文本数据命中规则本体的规则逻辑。

[0137] 在本发明实施例中，根据弱规则逻辑扩展文本数据的特征维度以及得到对应的维度信息的具体步骤，可以如下：

[0138] 第一，获取预置弱规则逻辑包含的规则组别。

[0139] 在本发明实施例中，接续上述例举的弱规则逻辑，如上“group”分别是“1”“2”“3”“4”，相应的，获取到弱规则逻辑包含的4个规则组别。

[0140] 第二，将规则组别确定为扩展的特征维度。

[0141] 第三，判断文本数据是否命中规则组别的规则逻辑。

[0142] 在本发明实施例中，判断文本数据是否命中规则组别的规则逻辑的具体步骤，可以包括：在同一规则组别下，查询每条规则本体对应的正则表达式信息，该正则表达式信息包含正则表达式的筛选逻辑，根据正则表达式的筛选逻辑，判断文本数据是否命中规则本体的规则逻辑，若是，则确定文本数据命中规则组别的规则逻辑，若否，则当在同一规则组别下不存在文本数据命中多个规则本体中任一规则本体的规则逻辑时，确定文本数据未命中规则组别的规则逻辑。

[0143] 进一步的，通过具体的应用场景，对上述判断文本数据是否命中规则组别的规则逻辑的具体步骤做出详细说明，上述例举的弱规则逻辑也是用于判断文本数据是否是垃圾文本，进一步的，将上述例举的文本2、4与上述例举的若规则逻辑进行匹配，对应的匹配结果如下，在此为便于清楚的呈现文本与弱规则逻辑执行匹配过程，将如何执行匹配、对应匹配结果以及根据匹配结果确定的分类结果填写至如下表二。

[0144] 表二

[0145]

[0146] 其中，如表二所示，在同一规则组别下，该规则组别对应多个规则本体，每个规则本体对应一个规则匹配结果，对上述例举的弱逻辑规则中第4组规则的截取，显示如下：

[0147] group body result

[0148] 4'.*有.{0,10}感想.*'1

[0149] 4'.*好评.*'1

[0150] 4'.*差评.*'1

[0151] 在本发明实施例中，文本2匹配到第4组规则“.*好评.*”，也就是，文本2命中该规则文本的规则逻辑，进一步的，当在同一规则组别下文本数据命中任意一个规则本体的规则逻辑时，则确定文本数据命中该规则组别的规则逻辑，也就是文本2命中第4组规则的规则逻辑，可以标记为“1”，作为对应的规则结果。相应的，若在同一规则组别下文本数据没有命中任意一个规则本体的规则逻辑时，则确定文本数据没有命中该规则组别的规则逻辑，也就是，文本2没有命中第1组、第2组、第3组规则分别对应的规则逻辑，可以分别对应地标记为“0”，如表二记录的特征维度数组[...,0,0,0,1]，在该数组中，“...”省略未写出的部分相当于是上述步骤205b输出的经筛选后的特征维度，相应的，该特征维度数组[...,0,0,0,1]中，后4个特征维度相当于是根据弱规则逻辑扩展的特征维度，其中，按照数组中由左至右的顺序，分别对应弱规则逻辑的4个规则组别，数组中“0”表示没有命中规则组别的规则逻辑，数组中“1”表示命中规则组别的规则逻辑。

[0152] 第四，若是，则将文本数据命中规则组别的规则逻辑对应的信息作为规则匹配结果，将规则匹配结果确定为特征维度对应的维度信息。

[0153] 第五，若否，则将文本数据未命中规则组别的规则逻辑对应的信息作为规则匹配结果，将规则匹配结果确定为维度特征对应的维度信息。

[0154] 在本发明实施例中，根据表二的例举，对“第四”“第五”做出详细说明，文本2匹配到第4组规则“.*好评.*”，也就是，文本2命中第4组规则的规则逻辑，被标记为“1”，“1”就是文本2与第4组规则执行匹配时对应的规则结果，该规则结果也是表二中组成特征维度数组[...,0,0,0,1]中扩展的第4个特征维度的维度信息。相应的，文本2未匹配到第1组、第2组、第3组规则，也就是，文本2没有命中第1组、第2组、第3组规则的规则逻辑，分别对应被标记为“0”，“0”就是文本2与第1组、第2组、第3组规则分别执行匹配时对应的规则结果，该规则结果也是表二中组成特征维度数组[...,0,0,0,1]中扩展的第1、2、3个特征维度的维度信息。

[0155] 206b、将经筛选后的特征维度以及对应的维度信息、扩展的特征维度以及对应的维度信息输入分类器，输出对文本数据执行预测的分类结果。

[0156] 在本发明实施例中，扩展的特征维度以及对应的维度信息是根据弱规则逻辑而引入至现有的文本分类模型，进而将现有的文本模型进行改进，又因弱规则逻辑是根据业务变化需求而设置的，因而利用分类器对经筛选后的特征维度以及对应的维度信息、扩展的特征维度以及对应的维度信息一并处理，输出对文本数据执行预测的分类结果将更贴近于业务的不同需求，提高了输出的分类结果的质量。

[0157] 进一步的，本发明实施例还提供通过文本分类模型对文本执行分类处理的流程，如图3所示，预先使用业务强规则逻辑对原始文本预先执行强制分类匹配，若满足业务强规则逻辑，则可以直接根据执行强制分类匹配对应的匹配结果，确定原始文本的分类归属，若不满足业务强规则逻辑，则再利用改进后的文本分类模型对原始文本执行分类处理。其中，如图3左侧所示，在改进现有的文本分类模型时，是加入弱规则逻辑，扩展文本数据的特征，由于改进后的文本分类模型包含业务弱规则逻辑，进而当通过改进的文本分类模型对文本数据执行分类处理时，如图3右侧所示，在现有执行分类处理流程中利用特征选择器对向量化处理结果执行特征选择之后，根据弱规则逻辑又扩展一些特征，进而结合扩展后的特征对原始文本执行分类处理，使得最终对文本数据预测的分类结果相较于前述通过现有模型预测的分类结果更贴近业务需求。

[0158] 为了实现上述目的，根据本发明的另一方面，本发明实施例还提供了一种存储介质，所述存储介质包括存储的程序，其中，在所述程序运行时控制所述存储介质所在设备执行上述所述的对文本进行分类的方法。

[0159] 为了实现上述目的，根据本发明的另一方面，本发明实施例还提供了一种处理器，所述处理器用于运行程序，其中，所述程序运行时执行上述所述的对文本进行分类的方法。

[0160] 进一步的，作为对上述图1、图2所示方法的实现，本发明实施例提供了一种对文本进行分类的装置。该装置实施例与前述方法实施例对应，为便于阅读，本装置实施例不再对前述方法实施例中的细节内容进行逐一赘述，但应当明确，本实施例中的装置能够对应实现前述方法实施例中的全部内容。该装置应用于加入业务的强规则逻辑与弱规则逻辑优化对文本执行的分类处理过程，具体如图4所示，该装置包括：

[0161] 判断单元41，用于判断待执行分类的文本数据是否与预置强规则逻辑匹配，所述预置强规则逻辑用于区别所述文本数据是否被归属于为与业务需求无关的类别；

[0162] 确定单元42，用于当所述判断单元41判断所述文本数据与预置强规则逻辑匹配时，根据所述预置强规则逻辑对应的匹配结果，确定所述文本数据的分类；

[0163] 执行单元43，用于当所述判断单元41判断所述文本数据不与预置强规则逻辑匹配时，则通过预置文本分类模型对所述文本数据执行分类处理，所述预置文本分类模型包含预置弱规则逻辑，所述预置弱规则逻辑用于在对所述文本数据执行分类处理时根据所述业务需求扩展特征，以使得分类处理对应得到的分类结果与所述业务需求匹配。

[0164] 进一步的，如图5所示，所述预置强规则逻辑包含规则本体以及每条所述规则本体对应的规则匹配结果，所述规则本体是以正则表达式进行编写的。

[0165] 进一步的，如图5所示，所述判断单元41包括：

[0166] 获取模块411，用于获取每条所述规则本体对应的正则表达式信息，所述正则表达式信息包含正则表达式的筛选逻辑；

[0167] 筛选模块412，用于根据所述获取模块411获取的正则表达式的筛选逻辑对所述文本数据进行筛选处理；

[0168] 判断模块413，用于判断在所述文本数据中是否筛选出与所述正则表达式的筛选逻辑匹配的目标文本；

[0169] 确定模块414，用于当所述判断模块413判断在所述文本数据中筛选出与所述正则表达式的筛选逻辑匹配的目标文本时，确定所述文本数据与预置强规则逻辑匹配。

[0170] 进一步的，如图5所示，所述执行单元43包括：

[0171] 分词模块431，用于对所述文本数据执行分词；

[0172] 向量化处理模块432，用于对经所述分词模块431得到的分词执行向量化处理，输出所述文本数据对应的多个特征维度以及每个特征维度对应的维度信息；

[0173] 特征选择模块433，用于利用特征选择器对所述多个特征维度执行特征选择，输出经筛选后的特征维度以及对应的维度信息；

[0174] 扩展模块434，用于根据预置弱规则逻辑，扩展所述文本数据的特征维度以及得到对应的维度信息；

[0175] 执行模块435，用于将所述特征选择模块433筛选后的特征维度以及对应的维度信息、所述扩展模块434扩展的特征维度以及对应的维度信息输入分类器，输出对所述文本数据执行预测的分类结果。

[0176] 进一步的，如图5所示，所述预置弱规则逻辑包含多个规则组别，所述规则组别对应多个规则本体，所述规则本体是以正则表达式进行编写的，一个所述规则本体对应一个规则匹配结果。

[0177] 进一步的，如图5所示，所述扩展模块434包括：

[0178] 获取子模块4341，用于获取所述预置弱规则逻辑包含的规则组别；

[0179] 第一确定子模块4342，用于将所述获取子模块4341获取的规则组别确定为扩展的特征维度；

[0180] 第一判断子模块4343，用于判断所述文本数据是否命中所述获取子模块4441获取的规则组别的规则逻辑；

[0181] 第一执行子模块4344，用于当所述第一判断子模块4343判断所述文本数据命中所述规则组别的规则逻辑时，则将所述文本数据命中所述规则组别的规则逻辑对应的信息作为规则匹配结果，将所述规则匹配结果确定为所述特征维度对应的维度信息；

[0182] 第二执行子模块4345，用于当所述第一判断子模块4343判断所述文本数据未命中所述规则组别的规则逻辑时，则将所述文本数据未命中所述规则组别的规则逻辑对应的信息作为规则匹配结果，将所述规则匹配结果确定为所述维度特征对应的维度信息。

[0183] 进一步的，如图5所示，所述第一判断子模块4343包括：

[0184] 查询子模块43431，用于在同一规则组别下，查询每条规则本体对应的正则表达式信息，其中，所述正则表达式信息包含正则表达式的筛选逻辑；

[0185] 第二判断子模块43432，用于根据所述正则表达式的筛选逻辑，判断所述文本数据是否命中所述规则本体的规则逻辑；

[0186] 第二确定子模块43433，用于当所述第二判断子模块43432判断所述文本数据命中所述规则本体的规则逻辑时，确定所述文本数据命中所述规则组别的规则逻辑；

[0187] 第三确定子模块43434，用于若所述第二判断子模块43432判断所述文本数据未命中所述规则本体的规则逻辑，则当在同一规则组别下不存在所述文本数据命中多个规则本体中任一规则本体的规则逻辑时，确定所述文本数据未命中所述规则组别的规则逻辑。

[0188] 综上所述，本发明是预先使用业务强规则逻辑对原始文本预先执行强制分类匹配，通过正则表达式的筛选逻辑判断文本数据是否与强规则逻辑匹配，若满足业务强规则逻辑，则可以直接根据执行强制分类匹配对应的匹配结果，确定原始文本的分类归属，若不满足业务强规则逻辑，则再利用改进后的文本分类模型对原始文本执行分类处理，由于改进后的文本分类模型包含业务弱规则逻辑，并且根据业务弱规则逻辑可以在对原始文本进行向量化后扩展文本数据的特征，进一步的，根据弱规则逻辑包含的多个规则组别来扩展文本数据的特征，进而结合扩展后的特征对原始文本执行分类处理。本发明在对原始文本执行分类处理时引入业务强规则逻辑与弱规则逻辑，使得分类结果更贴近不同业务的需求，提高分类结果的质量，同时由于仅是加入弱规则逻辑对现有文本分类模型进行改进，因而随着业务内容的变化可以简单、便捷地优化并改进现有模型，也就无需对每个具体的业务都训练一个文本分类模型，继而这将使得对原始文本执行分类的过程变得简单、便捷，大大提高分类效率。

[0189] 所述对文本进行分类的装置包括处理器和存储器，上述判断单元、确定单元和执行单元等均作为程序单元存储在存储器中，由处理器执行存储在存储器中的上述程序单元来实现相应的功能。

[0190] 处理器中包含内核，由内核去存储器中调取相应的程序单元。内核可以设置一个或以上，通过调整内核参数来优化对原始文本执行分类的处理流程，使得分类结果更贴近不同业务的需求，提高分类结果的质量，同时也大大提高分类效率。

[0191] 存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)，存储器包括至少一个存储芯片。

[0192] 本发明实施例提供了一种存储介质，其上存储有程序，该程序被处理器执行时实现所述对文本进行分类的方法。

[0193] 本发明实施例提供了一种处理器，所述处理器用于运行程序，其中，所述程序运行时执行所述对文本进行分类的方法。

[0194] 本发明实施例提供了一种设备，设备包括处理器、存储器及存储在存储器上并可在处理器上运行的程序，处理器执行程序时实现以下步骤：

[0195] 一种对文本进行分类的方法，所述方法包括：判断待执行分类处理的文本数据是否与预置强规则逻辑匹配，所述预置强规则逻辑用于区别所述文本数据是否被归属于为与业务需求无关的类别；若是，则根据所述预置强规则逻辑对应的匹配结果，确定所述文本数据的分类；若否，则通过预置文本分类模型对所述文本数据执行分类处理，所述预置文本分类模型包含预置弱规则逻辑，所述预置弱规则逻辑用于在对所述文本数据执行分类处理时根据所述业务需求扩展特征，以使得分类处理对应得到的分类结果与所述业务需求匹配。

[0196] 进一步的，所述预置强规则逻辑包含规则本体以及每条所述规则本体对应的规则匹配结果，所述规则本体是以正则表达式进行编写的。

[0197] 进一步的，所述判断所述文本数据是否与预置强规则逻辑匹配，包括：

[0198] 获取每条所述规则本体对应的正则表达式信息，所述正则表达式信息包含正则表达式的筛选逻辑；根据所述正则表达式的筛选逻辑对所述文本数据进行筛选处理；判断在所述文本数据中是否筛选出与所述正则表达式的筛选逻辑匹配的目标文本；若是，则确定所述文本数据与预置强规则逻辑匹配。

[0199] 进一步的，所述通过预置文本分类模型对所述文本数据执行分类处理，包括：对所述文本数据执行分词；对所述分词执行向量化处理，输出所述文本数据对应的多个特征维度以及每个特征维度对应的维度信息；利用特征选择器对所述多个特征维度执行特征选择，输出经筛选后的特征维度以及对应的维度信息；根据预置弱规则逻辑，扩展所述文本数据的特征维度以及得到对应的维度信息；将所述经筛选后的特征维度以及对应的维度信息、所述扩展的特征维度以及对应的维度信息输入分类器，输出对所述文本数据执行预测的分类结果。

[0200] 进一步的，所述预置弱规则逻辑包含多个规则组别，所述规则组别对应多个规则本体，所述规则本体是以正则表达式进行编写的，一个所述规则本体对应一个规则匹配结果。

[0201] 进一步的，所述根据预置弱规则逻辑，扩展所述文本数据的特征维度以及得到对应的维度信息，包括：获取所述预置弱规则逻辑包含的规则组别；将所述规则组别确定为扩展的特征维度；判断所述文本数据是否命中所述规则组别的规则逻辑；若是，则将所述文本数据命中所述规则组别的规则逻辑对应的信息作为规则匹配结果，将所述规则匹配结果确定为所述特征维度对应的维度信息；若否，则将所述文本数据未命中所述规则组别的规则逻辑对应的信息作为规则匹配结果，将所述规则匹配结果确定为所述维度特征对应的维度信息。

[0202] 进一步的，所述判断所述文本数据是否命中所述规则组别的规则逻辑，包括：在同一规则组别下，查询每条规则本体对应的正则表达式信息，其中，所述正则表达式信息包含正则表达式的筛选逻辑；根据所述正则表达式的筛选逻辑，判断所述文本数据是否命中所述规则本体的规则逻辑；若是，则确定所述文本数据命中所述规则组别的规则逻辑；若否，则当在同一规则组别下不存在所述文本数据命中多个规则本体中任一规则本体的规则逻辑时，确定所述文本数据未命中所述规则组别的规则逻辑。

[0203] 本文中的设备可以是服务器、PC、PAD、手机等。

[0204] 本申请还提供了一种计算机程序产品，当在数据处理设备上执行时，适于执行初始化有如下方法步骤的程序代码：判断待执行分类处理的文本数据是否与预置强规则逻辑匹配，所述预置强规则逻辑用于区别所述文本数据是否被归属于为与业务需求无关的类别；若是，则根据所述预置强规则逻辑对应的匹配结果，确定所述文本数据的分类；若否，则通过预置文本分类模型对所述文本数据执行分类处理，所述预置文本分类模型包含预置弱规则逻辑，所述预置弱规则逻辑用于在对所述文本数据执行分类处理时根据所述业务需求扩展特征，以使得分类处理对应得到的分类结果与所述业务需求匹配。

[0205] 本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

[0206] 本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

[0207] 这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

[0208] 这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

[0209] 在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

[0210] 存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。

[0211] 计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

[0212] 还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。

[0213] 本领域技术人员应明白，本申请的实施例可提供为方法、系统或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

[0214] 以上仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

标题	发布/更新时间	阅读量
文档的向量化表示方法、装置和计算机设备	2020-05-11	896
收集未回复消息的方法、系统及可读记录介质	2020-05-13	502
一种融合先验信息的命名实体链接方法	2020-05-13	333
一种基于信用大数据的标签分类和定量分析方法	2020-05-11	914
视频内容热度预测方法和装置	2020-05-12	490
基于外部知识增强的机器阅读理解方法、系统、装置	2020-05-12	752
针对虚拟人的性格训练系统及其方法	2020-05-14	178
用于语音助手搜索结果的集成打印的系统和方法	2020-05-08	1001
一种基于双向长短期记忆网络的实体属性值的抽取方法	2020-05-14	134
一种警务相关智能组题系统	2020-05-14	298

一种对文本进行分类的方法及装置

一种对文本进行分类的方法及装置

技术领域

背景技术

发明内容

具体实施方式

该功能需要专业版企业版VIP权限，您可以：