首页 / 专利库 / 电脑零配件 / 系统总线 / 一种文本标点调整方法及装置

一种文本标点调整方法及装置

阅读:102发布:2023-12-29

专利汇可以提供一种文本标点调整方法及装置专利检索,专利查询,专利分析的服务。并且本 申请 公开了一种文本标点调整方法及装置,该方法包括:在获取到待添加标点的初始文本后,为该初始文本添加标点,得到目标文本,然后根据目标文本中的目标 位置 对应的标点判定特征,对目标位置进行标点调整或不进行标点调整。可见,本申请 实施例 先对待添加标点的初始文本进行一次标点添加,得到带标点的目标文本,再对目标文本进行一次标点调整,这样,通过对添加标点后的目标文本进行标点 修改 ,可以提升标点添加结果的效果,从而提升了用户体验。,下面是一种文本标点调整方法及装置专利的具体信息内容。

1.一种文本标点调整方法,其特征在于,包括:
获取待添加标点的初始文本;
为所述初始文本添加标点,得到带有标点的目标文本;
根据所述目标文本中的目标位置对应的标点判定特征,对所述目标位置进行标点调整或不进行标点调整。
2.根据权利要求1所述的方法,其特征在于,所述为所述初始文本添加标点,包括:
利用预先构建的标点预测模型,对所述初始文本进行预测,得到每一标点可添加位置被添加为每一标点类型的概率值,所述每一标点类型包括所述初始文本所属语种所涉及的各个标点类型以及标点不添加类型;
选择最大概率值对应的标点类型,作为所述标点可添加位置的添加结果。
3.根据权利要求1所述的方法,其特征在于,所述标点判定特征包括用户行为特征和/或文本场景特征,所述用户行为特征用于表征所述目标文本所属的目标用户的标点添加习惯,所述文本场景特征用于表征所述目标文本所属的应用场景下的标点添加习惯。
4.根据权利要求3所述的方法,其特征在于,所述标点判定特征还包括目标文本特征、标点预测特征、文本长度特征、标点类型特征、标点关联特征中的至少一项特征;
其中,所述目标文本特征用于表征所述目标文本的语义信息;所述标点预测特征用于表征所述目标位置被添加为每一标点类型的可能性;所述文本长度特征用于表征所述目标文本的文本长度;所述标点类型特征用于表征所述目标位置是否具有带有情感色彩的标点;所述标点关联特征用于表征所述目标位置与所述目标位置的前一标点之间的文本距离。
5.根据权利要求4所述的方法,其特征在于,所述标点预测特征是利用预先构建的标点预测模型预测得到的所述目标位置被添加为每一标点类型的概率值,所述每一标点类型包括所述初始文本所属语种所涉及的各个标点类型以及标点不添加类型。
6.根据权利要求1至5任一项所述的方法,其特征在于,所述根据所述目标文本中的目标位置对应的标点判定特征,对所述目标位置进行标点调整或不进行标点调整,包括:
利用预先构建的标点置信模型,根据所述目标文本中的目标位置对应的标点判定特征,对所述目标位置进行标点调整或不进行标点调整。
7.根据权利要求6所述的方法,其特征在于,所述标点判定特征包括的用户行为特征和文本场景特征,是通过训练所述标点置信模型得到的对应于所述目标用户的特征。
8.根据权利要求1至5任一项所述的方法,其特征在于,所述目标文本中的目标位置为所述目标文本的结尾位置。
9.一种文本标点调整装置,其特征在于,包括:
文本获取单元,用于获取待添加标点的初始文本;
标点添加单元,用于为所述初始文本添加标点,得到带有标点的目标文本;
标点调整单元,用于根据所述目标文本中的目标位置对应的标点判定特征,对所述目标位置进行标点调整或不进行标点调整。
10.根据权利要求9所述的装置,其特征在于,所述标点添加单元包括:
标点预测子单元,用于利用预先构建的标点预测模型,对所述初始文本进行预测,得到每一标点可添加位置被添加为每一标点类型的概率值,所述每一标点类型包括所述初始文本所属语种所涉及的各个标点类型以及标点不添加类型;
标点选择子单元,用于选择最大概率值对应的标点类型,作为所述标点可添加位置的添加结果。
11.根据权利要求9所述的装置,其特征在于,所述标点判定特征包括用户行为特征和/或文本场景特征,所述用户行为特征用于表征所述目标文本所属的目标用户的标点添加习惯,所述文本场景特征用于表征所述目标文本所属的应用场景下的标点添加习惯。
12.根据权利要求11所述的装置,其特征在于,所述标点判定特征还包括目标文本特征、标点预测特征、文本长度特征、标点类型特征、标点关联特征中的至少一项特征;
其中,所述目标文本特征用于表征所述目标文本的语义信息;所述标点预测特征用于表征所述目标位置被添加为每一标点类型的可能性;所述文本长度特征用于表征所述目标文本的文本长度;所述标点类型特征用于表征所述目标位置是否具有带有情感色彩的标点;所述标点关联特征用于表征所述目标位置与所述目标位置的前一标点之间的文本距离。
13.根据权利要求12所述的装置,其特征在于,所述标点预测特征是利用预先构建的标点预测模型预测得到的所述目标位置被添加为每一标点类型的概率值,所述每一标点类型包括所述初始文本所属语种所涉及的各个标点类型以及标点不添加类型。
14.根据权利要求9至13任一项所述的装置,其特征在于,所述标点调整单元,具体用于利用预先构建的标点置信模型,根据所述目标文本中的目标位置对应的标点判定特征,对所述目标位置进行标点调整或不进行标点调整。
15.根据权利要求14所述的装置,其特征在于,所述标点判定特征包括的用户行为特征和文本场景特征,是通过训练所述标点置信模型得到的对应于所述目标用户的特征。
16.根据权利要求9至13任一项所述的装置,其特征在于,所述目标文本中的目标位置为所述目标文本的结尾位置。
17.一种文本标点调整装置,其特征在于,包括:处理器、存储器系统总线
所述处理器以及所述存储器通过所述系统总线相连;
所述存储器用于存储一个或多个程序,所述一个或多个程序包括指令,所述指令当被所述处理器执行时使所述处理器执行权利要求1-8任一项所述的方法。
18.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有指令,当所述指令在终端设备上运行时,使得所述终端设备执行权利要求1-8任一项所述的方法。
19.一种计算机程序产品,其特征在于,所述计算机程序产品在终端设备上运行时,使得所述终端设备执行权利要求1-8任一项所述的方法。

说明书全文

一种文本标点调整方法及装置

技术领域

[0001] 本申请涉及自然语言处理技术领域,尤其涉及一种文本标点调整方法及装置。

背景技术

[0002] 智能添加标点符号不仅是指针对机器识别文本,为该机器识别文本给出相应合理的断句,还需要为该机器识别文本添加对应的标点符号。在现有的打标点断句系统中,通常使用序列标注的方法对文本数据的每个分词进行标记,根据标记结果对文本数据进行标点的输出,比如输出逗号、句号、问号、感叹号等等标点。具体地,当接收到需要打标点的文本数据后,首先,对该需要打标点的文本数据进行分词等预处理,然后,利用预先构建的序列标注模型进行标点预测,以在输入文本数据的一些分词后打标点,得到带有标点的文本数据。
[0003] 现有的打标点断句系统在进行标点预测时,使用序列标注的方法,利用文本数据中每个分词的词汇特征或者词向量特征作为序列标注模型的输入,经过模型处理后得到标点预测结果,即,得到每个分词后对应的标点信息。但是,现有的打标点断句系统是直接将添加的标点作为最终的标点添加结果,导致标点添加结果可能不太理想,用户体验较差。发明内容
[0004] 本申请实施例的主要目的在于提供一种文本标点调整方法及装置,能够提升标点添加结果的效果,从而提升了用户体验。
[0005] 本申请实施例提供了一种文本标点调整方法,包括:
[0006] 获取待添加标点的初始文本;
[0007] 为所述初始文本添加标点,得到带有标点的目标文本;
[0008] 根据所述目标文本中的目标位置对应的标点判定特征,对所述目标位置进行标点调整或不进行标点调整。
[0009] 可选的,所述为所述初始文本添加标点,包括:
[0010] 利用预先构建的标点预测模型,对所述初始文本进行预测,得到每一标点可添加位置被添加为每一标点类型的概率值,所述每一标点类型包括所述初始文本所属语种所涉及的各个标点类型以及标点不添加类型;
[0011] 选择最大概率值对应的标点类型,作为所述标点可添加位置的添加结果。
[0012] 可选的,所述标点判定特征包括用户行为特征和/或文本场景特征,所述用户行为特征用于表征所述目标文本所属的目标用户的标点添加习惯,所述文本场景特征用于表征所述目标文本所属的应用场景下的标点添加习惯。
[0013] 可选的,所述标点判定特征还包括目标文本特征、标点预测特征、文本长度特征、标点类型特征、标点关联特征中的至少一项特征;
[0014] 其中,所述目标文本特征用于表征所述目标文本的语义信息;所述标点预测特征用于表征所述目标位置被添加为每一标点类型的可能性;所述文本长度特征用于表征所述目标文本的文本长度;所述标点类型特征用于表征所述目标位置是否具有带有情感色彩的标点;所述标点关联特征用于表征所述目标位置与所述目标位置的前一标点之间的文本距离。
[0015] 可选的,所述标点预测特征是利用预先构建的标点预测模型预测得到的所述目标位置被添加为每一标点类型的概率值,所述每一标点类型包括所述初始文本所属语种所涉及的各个标点类型以及标点不添加类型。
[0016] 可选的,所述根据所述目标文本中的目标位置对应的标点判定特征,对所述目标位置进行标点调整或不进行标点调整,包括:
[0017] 利用预先构建的标点置信模型,根据所述目标文本中的目标位置对应的标点判定特征,对所述目标位置进行标点调整或不进行标点调整。
[0018] 可选的,所述标点判定特征包括的用户行为特征和文本场景特征,是通过训练所述标点置信模型得到的对应于所述目标用户的特征。
[0019] 可选的,所述目标文本中的目标位置为所述目标文本的结尾位置。
[0020] 本申请实施例还提供了一种文本标点调整装置,包括:
[0021] 文本获取单元,用于获取待添加标点的初始文本;
[0022] 标点添加单元,用于为所述初始文本添加标点,得到带有标点的目标文本;
[0023] 标点调整单元,用于根据所述目标文本中的目标位置对应的标点判定特征,对所述目标位置进行标点调整或不进行标点调整。
[0024] 可选的,所述标点添加单元包括:
[0025] 标点预测子单元,用于利用预先构建的标点预测模型,对所述初始文本进行预测,得到每一标点可添加位置被添加为每一标点类型的概率值,所述每一标点类型包括所述初始文本所属语种所涉及的各个标点类型以及标点不添加类型;
[0026] 标点选择子单元,用于选择最大概率值对应的标点类型,作为所述标点可添加位置的添加结果。
[0027] 可选的,所述标点判定特征包括用户行为特征和/或文本场景特征,所述用户行为特征用于表征所述目标文本所属的目标用户的标点添加习惯,所述文本场景特征用于表征所述目标文本所属的应用场景下的标点添加习惯。
[0028] 可选的,所述标点判定特征还包括目标文本特征、标点预测特征、文本长度特征、标点类型特征、标点关联特征中的至少一项特征;
[0029] 其中,所述目标文本特征用于表征所述目标文本的语义信息;所述标点预测特征用于表征所述目标位置被添加为每一标点类型的可能性;所述文本长度特征用于表征所述目标文本的文本长度;所述标点类型特征用于表征所述目标位置是否具有带有情感色彩的标点;所述标点关联特征用于表征所述目标位置与所述目标位置的前一标点之间的文本距离。
[0030] 可选的,所述标点预测特征是利用预先构建的标点预测模型预测得到的所述目标位置被添加为每一标点类型的概率值,所述每一标点类型包括所述初始文本所属语种所涉及的各个标点类型以及标点不添加类型。
[0031] 可选的,所述标点调整单元,具体用于利用预先构建的标点置信模型,根据所述目标文本中的目标位置对应的标点判定特征,对所述目标位置进行标点调整或不进行标点调整。
[0032] 可选的,所述标点判定特征包括的用户行为特征和文本场景特征,是通过训练所述标点置信模型得到的对应于所述目标用户的特征。
[0033] 可选的,所述目标文本中的目标位置为所述目标文本的结尾位置。
[0034] 本申请实施例还提供了一种文本标点调整装置,包括:处理器、存储器系统总线
[0035] 所述处理器以及所述存储器通过所述系统总线相连;
[0036] 所述存储器用于存储一个或多个程序,所述一个或多个程序包括指令,所述指令当被所述处理器执行时使所述处理器执行上述文本标点调整方法中的任意一种实现方式。
[0037] 本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当所述指令在终端设备上运行时,使得所述终端设备执行上述文本标点调整方法中的任意一种实现方式。
[0038] 本申请实施例还提供了一种计算机程序产品,所述计算机程序产品在终端设备上运行时,使得所述终端设备执行上述文本标点调整方法中的任意一种实现方式。
[0039] 本申请实施例提供的一种文本标点调整方法及装置,在获取到待添加标点的初始文本后,可以为该初始文本添加标点,得到带有标点的目标文本,接着,可以根据目标文本中的目标位置对应的标点判定特征,对目标位置进行标点调整或不进行标点调整。可见,本申请实施例先对待添加标点的初始文本进行一次标点添加,得到带标点的目标文本,再对目标文本进行一次标点调整,这样,通过对添加标点后的目标文本进行标点修改,可以提升标点添加结果的效果,从而提升了用户体验。附图说明
[0040] 为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0041] 图1为本申请实施例提供的一种文本标点调整方法的流程示意图;
[0042] 图2为本申请实施例提供的为初始文本添加标点的流程示意图;
[0043] 图3为本申请实施例提供的构建标点置信模型的流程示意图;
[0044] 图4为本申请实施例提供的一种文本标点调整装置的组成示意图。

具体实施方式

[0045] 在一些文本标点添加方法中,通常是先对需要进行标点添加的文本数据进行分词处理,并将分词后得到的文本数据中每个分词的词汇特征或者词向量特征作为输入数据,输入至预先构建的序列标注模型中,经过该模型的处理,即可输出带有标点的文本数据,即,完成文本的标点添加。例如,假设需要进行标点添加的文本数据为“这个行政服务大厅才能办事厄一方面是现在这个交通压很大停车也难另一方面呢在这个窗口在这个行政服务中心里面我们可以看到经常是某些因为办事他是分季节性的分月份的”,在利用上述文本标点添加方法对该文本数据进行标点添加后,可得到带有标点的文本数据为“这个行政服务大厅才能办事厄,一方面是现在这个交通压力很大,停车也难。另一方面呢,在这个窗口,在这个行政服务中心里面,我们可以看到,经常是某些,因为办事,他是分季节性的分月份的”,这种带有标点的文本数据更便于阅读和理解,且不会产生歧义。
[0046] 但现有的利用序列标注模型进行标点添加的方法,是直接将添加的标点作为最终的标点添加结果,这将导致标点添加结果可能不太理想,用户体验较差。
[0047] 为解决上述缺陷,本申请实施例提供了一种文本标点调整方法,在获取到需要进行标点添加的文本数据后,不再将利用上述序列标注模型对该文本数据进行的标点添加结果作为最终的文本标点,而是在对该文本数据添加标点,得到带有标点的文本数据后,对该文本数据中的某些标点进行调整,比如,可以将某标点由原来的“,”调整为“。”,或者直接删除原标点。可见,本申请实施例先对待添加标点的文本数据进行一次标点添加,得到带标点的文本数据后,再对该文本数据进行一次标点调整,这样,通过对添加标点后的文本数据进行标点修改,可以提升标点添加结果的效果,从而提升了用户体验。
[0048] 进一步地,在实际使用过程中,不同用户使用标点符号的习惯不尽相同,即使是相同用户,在不同的应用场景中,使用标点符号的习惯也并非完全一致。比如,对于某些特定的人或者场景,例如聊天场景,色A首先问角色B是否在线,角色B的回答是“在”,在这种场景下,对此句子增加标点符号后可以显示为“在,”或者“在。”,但在实际情况下,词语“在”后面不添加任何标点反而更符合用户习惯,也更符合两个角色进行聊天的场景。所以,目前的文本标点添加方法,无法很好的对不同用户、不同场景进行标点适配,也就是说,通过现有的文本标点添加方法对文本数据进行添加得到的标点并不符合不同用户、不同场景的需求。
[0049] 在本申请实施例提供的文本标点调整方法中,在得到带有标点的文本数据后,当对该文本数据中的某些标点进行调整时,可以根据该文本数据所属用户的标点添加习惯以及该文本数据所属的应用场景,对该文本数据中的某些标点进行调整,可见,本申请实施例在对需要进行标点添加的文本数据添加标点后,进一步还会根据该文本数据所属用户的标点添加习惯以及所属的应用场景对文本数据中需要进行调整的标点进行调整,从而使得调整后的文本数据的标点更加符合不同用户、不同场景的需求,即,通过这种标点调整方法,能够很好地对不同用户、不同场景进行标点适配。
[0050] 为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
[0051] 第一实施例
[0052] 参见图1,为本实施例提供的一种文本标点调整方法的流程示意图,该方法包括以下步骤:
[0053] S101:获取待添加标点的初始文本。
[0054] 在本实施例中,将需要进行标点添加的文本(即未添加标点的文本)定义为初始文本,本实施例不限制初始文本的语种类型,比如,初始文本可以是中文文本、或英文文本等,本实施例也不限制初始文本的长度,比如,初始文本可以是一句文本、也可以是一段文本。
[0055] S102:为初始文本添加标点,得到带有标点的目标文本。
[0056] 在本实施例中,可以采用现有或未来出现的任意一种标点添加方法为初始文本添加标点,比如采用上述序列标注模型为初始文本添加标点,这里,将添加标点后的文本定义为目标文本。
[0057] 在本实施例中,一种可选的实现方式是,步骤S102具体可以包括步骤S201-S202:
[0058] S201:利用预先构建的标点预测模型,对初始文本进行预测,得到每一标点可添加位置被添加为每一标点类型的概率值,所述每一标点类型包括所述初始文本所属语种所涉及的各个标点类型以及标点不添加类型;
[0059] 在本实现方式中,通过步骤S101获取到待添加标点的初始文本后,可以利用现有或未来出现的分词方法,比如N-Gram语言模型,对初始文本进行分词处理,得到初始文本中的各个词语,具体分词处理实现过程与现有方法一致,本申请在此不再赘述。
[0060] 接着,可以利用预先构建的标点预测模型,该标点预测模型可以是上述序列标注模型,具体可以是条件随机模型、单向长短期记忆网络(Long Short-Term Memory,LSTM)模型或者双向LSTM模型等,通过该序列标注模型对该初始文本进行标点预侧,预测初始文本中的每一标点可添加位置(比如初始文本中的每一词语后面)被添加为每一种标点类型时的概率值。
[0061] 具体地,可以将通过分词处理得到的初始文本中的每个词语的词汇特征或者词向量特征,作为输入数据,输入至预先构建的标点预测模型,通过该模型对初始文本进行标点预侧,并输出初始文本中每个词语后面对应添加每一标点类型的概率值,该概率值用于表征初始文本中每个词语后面对应添加每一标点类型的可能性,概率值越大,则表明添加对应标点类型的可能性越大,反之亦然。例如,假设初始文本为中文文本,则中文文本使用的标点类型包括逗号(,)、句号(。)、感叹号(!)、问号(?)等多种类型,利用预先构建的标点预测模型,对初始文本进行标点预测后,得到初始文本中每一词语后被添加为每一标点类型时的概率值,比如,对于某个词语来讲,其后面被添加为每一种标点类型的概率值可以为:不添加标点概率、添加逗号概率、添加句号概率、添加感叹号概率以及添加问号的概率等。
[0062] 需要说明的是,为实现本步骤S201,需要先构建一个标点预测模型,在具体构建过程中,首先,可以收集大量带标点的文本数据,作为样本数据,然后,再利用分词方法比如N-Gram语言模型,对样本数据进行分词处理,得到样本数据中包含的各个词语,接着,再将样本数据的标点删除,并将删除标点后的样本数据的词汇特征或者词向量特征,作为标点预测模型的输入,对模型进行训练,模型的输出为样本数据中每个词语后面添加每一标点类型的概率值,选择其中最大的概率值对应的标点类型作为本次标点预测结果。并且,在每一轮训练过程中,可以根据样本数据的实际标点类型与通过该模型预测得到的标点类型进行比较,计算出该模型的预测误差,并根据该误差对模型参数进行更新,其目的是使预测得到的标点类型与实际标点类型一致,从而完成本轮的模型训练,通过多轮训练后,最终可以训练得到标点预测模型。
[0063] S202:选择最大概率值对应的标点类型,作为对应标点可添加位置的添加结果。
[0064] 在本实现方式中,通过步骤S201得到每一标点添加位置被添加为每一标点类型的概率值后,可以从中选择最大概率值对应的标点类型,作为对应标点可添加位置的添加结果,这是由于每一标点类型的概率值表征了标点预测模型对所预测的初始文本中每个词语后面对应添加每一标点类型的可能性,若某一标点类型作为某个词语后面的标点的概率值最大,则表明该标点类型作为该词语后面添加标点的可能性最大,即,可以将其作为对应标点可添加位置的添加结果。
[0065] S103:根据目标文本中的目标位置对应的标点判定特征,对目标位置进行标点调整或不进行标点调整。
[0066] 在本实施例中,通过步骤S102得到带有标点的目标文本后,为了提升标点添加结果的效果,进而提升用户体验,可以将目标文本中的一个或多个位置分别作为目标位置,该目标位置可以是目标文本中的任一有标点位置或任一无标点位置,比如,可以将目标文本中每一词语后的位置作为目标位置,该位置可能有标点也可能没有标点,或者,该目标位置也可以是目标文本中的某个指定位置,比如该指定位置可以是目标文本的结尾位置。可以根据目标文本中的目标位置对应的标点判定特征,对目标位置进行标点调整,具体可以是进行标点添加、标点变更、标点删除等调整操作,比如将目标位置的标点“。”调整为“!”,或者不对目标位置进行标点调整。
[0067] 在本实施例中,一种可选的实现方式是,标点判定特征包括用户行为特征和/或文本场景特征,用户行为特征用于表征目标文本所属的目标用户的标点添加习惯,文本场景特征用于表征目标文本所属的应用场景下的标点添加习惯。
[0068] 具体来讲,不同用户使用标点符号的习惯不尽相同,以目标位置为句尾位置为例,可能有的用户习惯于在句尾添加标点,而有的用户可能习惯于在句尾不加标点,因此,可以通过用户行为特征来表征目标文本所属的目标用户的标点添加习惯;此外,即使是相同用户,在不同的应用场景中,使用标点符号的习惯也并非完全一致,因此,可以用文本场景特征表征目标文本所属的应用场景下的标点添加习惯,其中,应用场景可以是聊天、游戏等非正式应用场景,也可以是邮件、办公类应用(Application,简称APP)等正式应用场景。需要说明的是,用户行为特征和文本场景特征的确定方式可参见后续第三实施例的相关介绍。
[0069] 在本实施例中,一种可选的实现方式是,步骤S103中的标点判定特征还可以包括目标文本特征、标点预测特征、文本长度特征、标点类型特征、标点关联特征中的至少一项特征。
[0070] 其中,目标文本特征用于表征目标文本的语义信息;标点预测特征用于表征目标位置被添加为每一标点类型的可能性;文本长度特征用于表征目标文本的文本长度;标点类型特征用于表征目标位置是否具有带有情感色彩的标点;标点关联特征用于表征目标位置与该目标位置的前一标点之间的文本距离。
[0071] 在本实现方式中,可以根据目标文本中的目标位置对应的用户行为特征和/或文本场景特征,以及目标文本特征、标点预测特征、文本长度特征、标点类型特征、标点关联特征中的至少一项特征,对目标位置进行标点调整或不进行标点调整。
[0072] 具体来讲,目标文本特征用于表征目标文本的语义信息,比如当目标文本为一个句子时,则目标文本特征表征了这整个句子的语义信息。并且目标文本特征可以由该句子中每个词的词向量表达平均得到,也可以由整个句子中所有词向量表达加权得到,当然,也可以利用神经网络模型得到,比如利用长短期记忆网络(Long Short-Term Memory,简称LSTM)模型、卷积神经网络(Convolutional Neural Network,简称CNN)模型等,将目标文本的各个词语的词向量或各个字的字向量作为输入数据输入至神经网络模型后,可以通过池化(pooling)、注意力机制(Attention)等方式得到目标文本特征。需要说明的是,具体的获取目标文本特征的方式可根据实际情况进行设置,本案对此不进行具体限定。
[0073] 标点预测特征用于表征目标位置被添加为每一标点类型的可能性,一种可选的实现方式是,标点预测特征是利用预先构建的标点预测模型预测得到的所述目标位置被添加为每一标点类型的概率值,所述每一标点类型包括所述初始文本所属语种所涉及的各个标点类型以及标点不添加类型,具体地,该标点预测特征可以为步骤S201中标点预测模型预测得到的目标位置对应的各个概率值,相关内容可参见步骤S201的描述内容。
[0074] 文本长度特征用于表征目标文本的文本长度,其中,文本长度可以指目标文本包含的字数,可直接统计出目标文本中包含的字数即可。若统计出目标文本包含的字数较少,即,目标文本的长度较短,则通常倾向于不对目标文本添加标点;若统计出目标文本包含的字数较多,即,目标文本的长度较长,则倾向于对目标文本添加标点。
[0075] 标点类型特征用于表征目标文本中目标位置是否具有带有情感色彩的标点,比如是否带有问号或者感叹号等。对于问号或者感叹号这样的标点,对应带有的感情一般较为强烈,很多用户在较多场景下更倾向于保留能够表示自己强烈感情的标点,而对于其他标点,其表达的感情较为平淡,则基本处于无明显规律性的状态。
[0076] 标点关联特征用于表征目标文本中目标位置与该目标位置的前一标点之间的文本距离。对于某目标位置与该目标位置之前的标点,若这二者之间的文本距离较远,则在对该目标位置进行标点调整时,更倾向于使该目标位置具有标点,若这二者之间的文本距离较近,则在对该目标位置进行标点调整时,更倾向于使该目标位置不具有标点,以避免目标文本中的语句过于零碎。
[0077] 由此,在获得目标文本中的目标位置对应的用户行为特征和/或文本场景特征,以及目标文本特征、标点预测特征、文本长度特征、标点类型特征、标点关联特征中的至少一项特征后,可根据这些特征,对目标文本中的目标位置进行标点调整或不进行标点调整。
[0078] 在本实施例的一种实现方式中,可以利用预先构建的标点置信模型实现本步骤S103,需要说明的是,标点置信模型的具体工作过程可参见后续第二实施例的相关介绍。并且,为实现本步骤S103,需要先构建一个标点置信模型,具体构建过程可参见后续第三实施例的相关介绍。
[0079] 在本实施例的一种实现方式中,可以根据目标文本中的每一目标位置对应的标点判定特征,将该目标位置的标点保留或不保留,比如,以目标位置为句尾位置且该句尾位置已添加有标点“。”为例,可以根据用户行为特征,将“。”保留或删除,例如,若用户行为特征表明其习惯于在句尾添加标点,则将“。”保留,否则不保留。
[0080] 综上,本实施例提供的一种文本标点调整方法,在获取到待添加标点的初始文本后,可以为该初始文本添加标点,得到带有标点的目标文本,接着,可以根据目标文本中的目标位置对应的标点判定特征,对目标位置进行标点调整或不进行标点调整。可见,本申请实施例先对待添加标点的初始文本进行一次标点添加,得到带标点的目标文本,再对目标文本进行一次标点调整,这样,通过对添加标点后的目标文本进行标点修改,可以提升标点添加结果的效果,从而提升了用户体验。
[0081] 第二实施例
[0082] 需要说明的是,本实施例将对上述步骤S103的具体实现方式进行介绍。
[0083] 通常情况下,不同用户使用标点符号的习惯不尽相同,即使是相同用户,在不同的应用场景使用标点符号的习惯也并非完全一致,尤其是句尾标点尤为明显,传统的文本标点添加形式比较单一,仅能实现文本的基本标点添加,无法根据文本所属的不同用户、不同场景进行标点适配,即,无法符合不同用户、不同场景的标点需求,因此,需要对目标文本中有标点的目标位置进行标点调整,比如进行标点更换或删除,也可以对没有标点的目标位置进行标点调整,比如进行标点添加,当然,也可以不对目标位置进行标点调整,从而使得最终的文本标点符合不同用户、不同场景的标点需求。
[0084] 现以某一聊天场景下两个用户之间的一段短对话为例,每个用户的每次会话均可作为一个目标文本,若目标位置为目标文本中的结尾位置,则可以根据该结尾位置对应的标点判断特征,判断是否保留该结尾位置的标点。
[0085] 举例说明:假设获取到用户A和用户B在聊天场景的对话为:
[0086] “用户A:xxx,明天有空吗?
[0087] 用户B:明天啊,应该是有空的。目前还没安排其它事情。
[0088] 用户A:那好,有空的话我们一起爬山吧。”
[0089] 则可以从上述对话中确定出三个目标文本,分别是用户A的提问“xxx,明天有空吗?”、用户B的回答“明天啊,应该是有空的。目前还没安排其它事情。”,以及用户A听了用户B的回答后提出的建议“那好,有空的话我们一起爬山吧。”
[0090] 此时,若上述三个目标文本的目标位置依次为最后一个标点位置,即“?”、“。”、“。”,则相应的,可以分别根据这三个目标文本分别所属的目标用户(按序为:用户A、用户B、用户A)的用户行为特征和/或该聊天场景特征,以及目标文本特征、标点预测特征、文本长度特征、标点类型特征、标点关联特征中的至少一项特征,对“?”、“。”、“。”进行调整或不调整。例如,假设用户B的用户行为特征表征了用户B在聊天场景中,习惯每次会话结束后,在句尾不添加标点,则可以根据用户B的该用户行为特征,将第二个目标文本中的句尾标点“。”去掉,否则,就保留“。”。
[0091] 在本实施例的一种实现方式中,具体可以利用预先构建的标点置信模型实现上述步骤S103,即,可以利用预先构建的标点置信模型,根据目标文本中的目标位置对应的标点判定特征,对目标位置进行标点调整或不进行标点调整。
[0092] 在本实现方式中,当通过步骤S101-S102获取到带有标点的目标文本后,为了使目标文本的标点能够符合不同用户、不同场景的需求,可以利用预先构建的标点置信模型对目标位置进行标点处理,具体处理过程如下:
[0093] (1)提取目标文本的目标位置对应的标点判定特征,其中,该目标位置为目标文本的句尾位置。
[0094] 在获取到带有标点的目标文本,并确定了其中的目标位置为句尾位置后,可以首先提取出该句尾位置对应的标点判定特征,比如可以包括用户行为特征、文本场景特征、目标文本特征、标点预测特征、文本长度特征、标点类型特征、标点关联特征共7个特征向量
[0095] 其中,关于标点判定特征中的目标文本特征、标点预测特征、文本长度特征、标点类型特征以及标点关联特征的获取方式,可参见第一实施例步骤S103中相关描述,在此不再赘述。
[0096] 其中,关于标点判定特征中的用户行为特征和文本场景特征,一种可选的实现方式是,其可以是通过训练标点置信模型得到的对应于目标用户的特征。相关介绍请参见第三实施例。
[0097] (2)根据句尾位置对应的标点判定特征,对句尾位置进行标点调整或不进行标点调整。
[0098] 在本实施例中,通过步骤(1)提取到目标位置对应的标点判定特征后,可以将该标点判定特征所包括的各个特征进行特征拼接,形成一个特征向量,接着,将拼接后的特征向量作为输入数据,输入至标点置信模型,该模型可以是具有S型阈值函数sigmoid的输出层,可以得到句尾位置的标点保留得分,该保留得分可以为区间[0,1]中的一个数值,并且,该保留得分表征了保留句尾位置标点的可能性,其中,得分0表示可以不保留句尾位置标点,得分1表示可以保留句尾位置标点,得分越高,代表保留句尾位置标点的可能性越大。
[0099] 可以预先设置一个保留阈值,比如0.6,若标点置信模型的输出值大于该保留阈值,则当句尾位置有标点时,则保留该标点,当句尾位置没有标点时,则为句尾位置添加标点;反之,若标点置信模型的输出值不大于该保留阈值,则通过保持或删除操作,使句尾位置没有标点。
[0100] 综上,本实施例在获取到带有标点的目标文本后,首先,提取出目标文本中目标位置对应的标点判定特征,再基于标点判定特征所包括的各个特征,利用预先构建的标点置信模型,对目标位置进行标点调整,由于标点判定特征包括用户行为特征和/或文本场景特征等特征,当对目标位置进行标点调整时,使得调整后的文本标点更加符合不同用户、不同场景的需求。
[0101] 第三实施例
[0102] 本实施例将对上述实施例中提及的标点置信模型的构建过程进行介绍。
[0103] 参见图3,其示出了本实施例提供的构建标点置信模型的流程示意图,该流程包括以下步骤:
[0104] S301:预先收集大量不同用户各自对应的多条文本数据,并对这些数据进行处理得到模型训练数据
[0105] 在本实施例中,为了构建标点置信模型,需要预先进行大量的准备工作,首先,需要收集不同用户在不同场景下的大量文本数据,例如,可以在某聊天场景(比如QQ聊天、短信聊天等)下收集到用户A和用户B的大量短对话,或者,也可以从某邮件场景下收集到用户C与用户D之间来往邮件中包含的文本数据,等等。可以理解的是,不用应用场景对文本数据的标点要求不尽相同,尤其是在句尾标点处,例如,在聊天或者游戏等非正式场景下,句尾标点添加与否显得并不是特别重要,用户的接受度较高,但是在邮件等办公场景下,句尾标点添加就显得比较重要了,因此,需要对不同应用场景下用户的句尾标点添加习惯进行区分,以便尽可能的满足不同用户在各个应用场景下的需求。
[0106] 然后,在收集到大量不同用户各自对应的一条或多条文本数据后,需要利用预先构建的标点预测模型,得到带有标点的文本数据,以构成模型训练数据,其中,标点预测模型的相关介绍请参见第一实施例中的步骤S102。
[0107] 接着,对这些带有标点的文本数据按照用户编号以及应用场景的编号进行分类,其中,用户编号指的是产生这些文本数据的各个实际用户的编号,每个文本数据对应各自所属的用户编号,而场景编号指的则是产生这些文本数据所对应的应用场景的编号,比如,对聊天场景、游戏场景、邮件场景等进行场景编号。
[0108] 需要说明的是,对于无法确定所属应用场景的文本数据,也可以预先利用有应用场景的文本数据构建应用场景分类模型,然后,利用该应用场景分类模型自动预测出无法确定所属应用场景的文本数据对应的应用场景,其中,应用场景分类模型的构建方法与现有方法一致,本申请在此不再详述。
[0109] 进一步的,假设S103中的目标位置是句尾位置,则在确定每一文本数据对应的用户编号以及应用场景编号后,可以提取出每一文本数据的句尾位置各自对应的标点判定特征,至少包括步骤S103中标点判定特征所包括的各个特征,比如包括用户行为特征、文本场景特征、目标文本特征、标点预测特征、文本长度特征、标点类型特征、标点关联特征,每一特征的相关介绍请参见上述实施例。
[0110] S302:利用预先收集的模型训练数据,对标点置信模型进行训练。
[0111] 可以构建一个初始的标点置信模型,并初始化模型参数,然后利用预先收集的模型训练数据对初始构建的标点置信模型进行训练。
[0112] 在本实施例中,依次从模型训练数据中提取一条文本数据,进行多轮模型训练,直到满足训练结束条件为止,此时,即训练得到标点置信模型。
[0113] 具体地,在进行本轮训练时,本轮训练使用的样本数据为一个带有标点的样本文本,可以将第二实施例中的目标文本替换为该样本文本,通过当前的标点置信模型,按照第二实施例中的执行过程,便可以预测得到该样本文本句尾位置对应的预测结果,该预测结果即为句尾位置对应的标点保留得分,该预测保留得分是区间[0,1]中的一个数值。
[0114] 然后,再根据该预测保留得分与期望保留得分之间的差值,对标点置信模型参数进行更新,其目的是使预测保留得分逼近期望保留得分,从而完成本轮的模型训练。需要说明的是,当预测保留得分在区间[0,1]内时,期望保留得分为0或1,其中,预测保留得分为0表示不保留句尾位置的标点,而得分为1则表示保留句尾位置的标点。
[0115] 需要说明的是,当标点置信模型训练结束后,还可以进一步结合目标用户的反馈,对标点置信模型的参数进行实时更新,具体来讲,对于第一实施例中的目标文本,当通过S103得到最终的带标点文本,并将其反馈给目标用户后,如果目标用户对该带标点文本的句尾标点进行了调整,此时,可以将调整后的文本作为训练数据,进一步对模型参数进行更新,使得更新后的标点置信模型,可以更准确的对后续的目标文本进行准确的标点调整。
[0116] 还需要说明的是,由于模型训练数据中包括不同用户的文本数据,当某用户的文本数据较充足时,在训练标点置信模型时,可以训练得到对应于该用户(后续称之为特定用户)的用户行为特征,反之,对于某用户的文本数据不充足时,无法训练得到对应于该用户的用户行为特征,但是,可以利用这些数据不充足的所有用户的文本数据训练得到对应于普通用户的用户行为特征。因此,当第二实施例中的目标用户为其中的特定用户时,在模型训练结束后,可以直接获取到对应于该特定用户的用户行为特征,作为目标用户的用户行为特征,但是,当第二实施例中的目标用户不是其中的特定用户时,可以获取对应于普通用户的用户行为特征,作为目标用户的用户行为特征。
[0117] 其中,用于衡量某用户的文本数据是否充足的条件可以是,对应于该用户的文本数据的条目数量是否超过预设的条数阈值,如果超过该条数阈值,则表明该用户的文本数据充足,否则,则表明该用户的文本数据不充足。
[0118] 在本实施例中,为了训练得到对应于特定用户的用户行为特征,在模型训练时,当利用该特定用户的一条文本数据进行当前轮训练时,可以利用该条文本数据对应的用户信息与模型的预测结果对模型参数进行更新,通过对参数更新实现对该特定用户的用户行为特征的更新,其中,该用户行为特征可以是一个固定维度(比如50维)的向量,类似的,普通用户的用户行为特征也按照上述方式训练得到,这样,便训练得到不同特定用户以及普通用户对应的不同用户行为特征。例如,假设模型训练数据中包含两个用户,分别为A用户和B用户,当A用户对应的用户行为特征向量全为0,B用户对应的用户行为特征向量全为1,而且,A用户的文本数据的句尾都不带标点,B用户的文本数据的句尾都添加了标点,因此,在模型训练过程中,能够学习到遇到全1的用户行为特征(与用户B的用户行为特征一致)时,则在相应文本数据的句尾添加标点,且能够学习到遇到全0的用户行为特征(与用户A的用户行为特征一致)时,则在相应文本数据的句尾不添加标点。
[0119] 在本实施例中,为了训练得到对应于某个应用场景的文本场景特征,在模型训练时,将模型训练数据中的每条文本数据所属的应用场景预先使用一个向量表示,作为标点置信模型的输入,这样,对于每条文本数据,均对应一个预先标注的应用场景以及一个模型预测的应用场景,可以根据这两个场景的差异对模型参数进行更新,当模型训练结束后,便得每条文本数据在对应标注场景下的文本场景特征,其中,该文本场景特征也可以是一个固定维度(比如30维)的向量。
[0120] 第四实施例
[0121] 本实施例将对一种文本标点调整装置进行介绍,相关内容请参见上述方法实施例。
[0122] 参见图4,为本实施例提供的一种文本标点调整装置的组成示意图,该装置400包括:
[0123] 文本获取单元401,用于获取待添加标点的初始文本;
[0124] 标点添加单元402,用于为所述初始文本添加标点,得到带有标点的目标文本;
[0125] 标点调整单元403,用于根据所述目标文本中的目标位置对应的标点判定特征,对所述目标位置进行标点调整或不进行标点调整。
[0126] 在本实施例的一种实现方式中,所述标点添加单元402包括:
[0127] 标点预测子单元,用于利用预先构建的标点预测模型,对所述初始文本进行预测,得到每一标点可添加位置被添加为每一标点类型的概率值,所述每一标点类型包括所述初始文本所属语种所涉及的各个标点类型以及标点不添加类型;
[0128] 标点选择子单元,用于选择最大概率值对应的标点类型,作为所述标点可添加位置的添加结果。
[0129] 在本实施例的一种实现方式中,所述标点判定特征包括用户行为特征和/或文本场景特征,所述用户行为特征用于表征所述目标文本所属的目标用户的标点添加习惯,所述文本场景特征用于表征所述目标文本所属的应用场景下的标点添加习惯。
[0130] 在本实施例的一种实现方式中,所述标点判定特征还包括目标文本特征、标点预测特征、文本长度特征、标点类型特征、标点关联特征中的至少一项特征;
[0131] 其中,所述目标文本特征用于表征所述目标文本的语义信息;所述标点预测特征用于表征所述目标位置被添加为每一标点类型的可能性;所述文本长度特征用于表征所述目标文本的文本长度;所述标点类型特征用于表征所述目标位置是否具有带有情感色彩的标点;所述标点关联特征用于表征所述目标位置与所述目标位置的前一标点之间的文本距离。
[0132] 在本实施例的一种实现方式中,所述标点预测特征是利用预先构建的标点预测模型预测得到的所述目标位置被添加为每一标点类型的概率值,所述每一标点类型包括所述初始文本所属语种所涉及的各个标点类型以及标点不添加类型。
[0133] 在本实施例的一种实现方式中,所述标点调整单元403,具体用于利用预先构建的标点置信模型,根据所述目标文本中的目标位置对应的标点判定特征,对所述目标位置进行标点调整或不进行标点调整。
[0134] 在本实施例的一种实现方式中,所述标点判定特征包括的用户行为特征和文本场景特征,是通过训练所述标点置信模型得到的对应于所述目标用户的特征。
[0135] 在本实施例的一种实现方式中,所述目标文本中的目标位置为所述目标文本的结尾位置。
[0136] 进一步地,本申请实施例还提供了一种文本标点调整装置,包括:处理器、存储器、系统总线;
[0137] 所述处理器以及所述存储器通过所述系统总线相连;
[0138] 所述存储器用于存储一个或多个程序,所述一个或多个程序包括指令,所述指令当被所述处理器执行时使所述处理器执行上述文本标点调整方法的任一种实现方法。
[0139] 进一步地,本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当所述指令在终端设备上运行时,使得所述终端设备执行上述文本标点调整方法的任一种实现方法。
[0140] 进一步地,本申请实施例还提供了一种计算机程序产品,所述计算机程序产品在终端设备上运行时,使得所述终端设备执行上述文本标点调整方法的任一种实现方法。
[0141] 通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到上述实施例方法中的全部或部分步骤可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者诸如媒体网关等网络通信设备,等等)执行本申请各个实施例或者实施例的某些部分所述的方法。
[0142] 需要说明的是,本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
[0143] 还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
[0144] 对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈