首页 / 专利库 / 人工智能 / 人工智能 / 机器学习 / 人工神经网络 / 前馈神经网络 / 多层感知器 / 生成法律文书的方法、装置、设备和存储介质

生成法律文书的方法、装置、设备和存储介质

阅读:180发布:2020-05-15

专利汇可以提供生成法律文书的方法、装置、设备和存储介质专利检索,专利查询,专利分析的服务。并且本 申请 涉及 人工智能 领域,提供了一种生成法律文书的方法、装置、设备和存储介质,方法包括:接收用户输入的语音数据;将语音数据通过语音转换技术转换成待处理的文本数据;创建图Graph数据,通过图Graph数据辨识特定的分隔符,以分句处理待处理的文本,通过图Graph数据的 节点 保存多个候选关键句;将多个候选关键句输入至分词模型,以得到分词后的词汇;构建边集E,通过边集E以及文本句子的内容 覆盖 率,以计算任意两个候选关键句以及的权重,并将权重高于 阈值 的候选关键句链接起来;分析权重高于阈值的候选关键句的重要性;对候选关键句进行排序,并按顺序提取候选关键句,以得到多个文摘句子。最大化的减少重复劳动,提高办案效率。,下面是生成法律文书的方法、装置、设备和存储介质专利的具体信息内容。

1.一种生成法律文书的方法,其特征在于,所述方法包括:
接收用户输入的语音数据;
将所述语音数据通过语音转换技术转换成待处理的文本数据;
创建图Graph数据,通过所述图Graph数据辨识特定的分隔符,以分句处理所述待处理的文本数据,并通过所述图Graph数据的节点保存多个候选关键句;
将所述多个候选关键句输入至分词模型,以得到分词后的词汇;
构建边集E,通过所述边集E以及文本句子的内容覆盖率,计算任意两个所述候选关键句Si以及所述候选关键句Sj的权重,并将所述权重高于阈值的所述候选关键句链接起来;
分析所述权重高于阈值的候选关键句的重要性,重复计算多次,直至计算前的S(Vi)以及计算后的S(Vi)之间差值小于阈值,S(Vi)表示第i个所述节点Vi的重要性,Vj表示与所述第i个节点相连的第j个节点;
根据计算的每一个所述候选句S(Vi)的值,将所述多个候选关键句按照S(Vi)的值从大到小排序,并按顺序提取多个所述候选关键句,以得到多个文摘句子;
根据句子要求以及字数要求,从所述多个文摘句子中抽取句子组成文摘。
2.根据权利要求1所述的方法,其特征在于,所述接收用户输入的语音数据之前,所述方法还包括:
获取针对所述分词模型输出的反馈信息;
根据所述反馈信息对所述分词模型进行优化;
采集具有多元语义的网络词库,根据法律领域对网络词库进行训练;
接收待分词文本,根据所述网络词库对所述待分词文本进行初始分词;
对所述待分词文本进行初始分词后,对所述待分词文本进行特征提取,从而获得所述待分词文本的领域特征;
根据所述待分词文本的领域特征,对所述待分词文本的词条进行权重调整从而获得所述分词模型。
3.根据权利要求2所述的方法,其特征在于,所述根据所述待分词文本的领域特征,对所述待分词文本的词条进行权重调整从而获得分词模型,包括:
根据法律领域的词语特征标注所述网络词库,得到标注好的网络词库;
将所述标注好的网络词库输入至所述分词模型;
通过 训练所述分词模型,其中, 代表根据所述分词模
型神经网络层的多层感知器中第n-1层的输出,训练所述分词模型神经网络层的多层感知器中第n层中第k个神经元得到的权值, 表示 相应的偏置,fin表示第i个训练数据输入至所述分词模型后在所述分词模型的第n层的输出,i、j以及k为任意正整数,n为自然数;当n为所述分词模型的最后一层时,fin是指所述分词模型的输出。
4.根据权利要求1所述的方法,其特征在于,所述接收用户输入的语音数据,包括:
接收所述用户的采集请求
根据所述采集请求采集多个语音测试数据;
对所述多个语音测试数据进行语音活动检测,获得所述多个语音测试数据的语音指标检测结果;
根据所述语音指标检测结果调整所述用户输入的语音数据的指标阈值;
保存调整后的所述指标阈值;
接收所述用户输入的语音数据;
通过所述调整后的指标阈值对所述用户输入的语音数据进行指标检测;
若所述指标检测不及格,则剔除所述用户输入的语音数据。
5.根据权利要求1所述的方法,其特征在于,所述接收用户输入的语音数据之后,所述方法还包括:
检测所述输入的语音数据的时长;
在所述时长超出预设值时,根据预设处理规则将所述输入的语音数据分割为多个片段,以得到多个语音片段;
对所述多个语音片段进行去燥处理,以生成多个标准化语音信息。
6.根据权利要求1所述的方法,其特征在于,所述将所述语音数据通过语音转换技术转换成待处理的文本数据,包括:
获取所述用户输入的语音数据;
检测所述语音数据中包含的高频词,计算所述高频词与预设语言类型的匹配度,并根据所述匹配度确定所述语音信息的语言类型;
获取与所述语言类型匹配的神经网络模型,并利用所述神经网络模型处理所述语音数据进,生成标准化语音数据;
获取与所述语言类型匹配的语音转化文本模型,并利用所述语音转化文本模型处理所述标准化语音数据,生成文本信息。
7.根据权利要求1-6任一项所述的方法,其特征在于,所述分词模型包括:顺序相连的语义表示层、循环神经网络层、Softmax层以及条件随机场层。
8.一种生成法律文书的装置,其特征在于,所述装置包括:
输入输出模,用于接收用户输入的语音数据;
处理模块,用于将所述语音数据通过语音转换技术转换成待处理的文本数据;创建图Graph数据,通过所述图Graph数据辨识特定的分隔符,以分句处理所述待处理的文本数据,并通过所述图Graph数据的节点保存多个候选关键句;通过所述输入输出模块将所述多个候选关键句输入至分词模型,以得到分词后的词汇;构建边集E,通过所述边集E以及文本句子的内容覆盖率,以计算任意两个所述候选关键句Si以及所述候选关键,Sj的权重,并将所述权重高于阈值的所述候选关键句链接起来;分析所述保留候选关键句的重要性,重复计算多次,直至计算前S(Vi)以及计算后的S(Vi)之间差值小于阈值,其中S(Vi)表示第i个所述节点Vi的重要性,Vj表示与所述第i个节点相连的第j个节点;根据计算的每一个所述候选句S(Vi)的值,将所述多个候选关键句按照S(Vi)的值从大到小排序,并按顺序提取多个所述候选关键句,以得到多个文摘句子;根据句子要求以及字数要求,从所述多个文摘句子中抽取句子组成文摘。
9.一种计算机设备,其特征在于,所述计算机设备包括:
至少一个处理器、存储器和输入输出单元;
其中,所述存储器用于存储程序代码,所述处理器用于调用所述存储器中存储的程序代码来执行如权利要求1-7中任一项所述的方法。
10.一种计算机存储介质,其特征在于,其包括指令,当其在计算机上运行时,使得计算机执行如权利要求1-7中任一项所述的方法。

说明书全文

生成法律文书的方法、装置、设备和存储介质

技术领域

[0001] 本申请涉及智能决策领域,尤其涉及一种生成法律文书的方法、装置、设备和存储介质。

背景技术

[0002] 法律文书是记载人民法院审理过程和结果的载体,一份结构完整、要素齐全、逻辑严谨的法律摘要,既是当事人享有权利和负担义务的凭证,也是上级人民法院监督下级人民法院民事审判活动的重要依据。但法律文摘的书写过程繁杂而冗长,并带有大量的重复性劳动。通过法律知识图谱对案件中原告、被告以及证据项等关键节点的解析进而自动生成法律文摘可以提高审案效率将法官从书写文摘的工作中解放出来。
[0003] 现有的法律文摘自动生成系统中,用户需要根据固定模板中关键词对应的内容进行填写进行法律文摘的初步生成,基于固定模板的文书生产方式对于案件由来和审理经过、事实、理由、裁判依据部分的书写均不能起到很好的效果,依然需要用户进行大量的内容填写,并且大量填写的内容不一定能符合法律要求所需要的形式。发明内容
[0004] 本申请提供了一种通过配置生成法律文书的方法,能够解决现法律文摘的书写过程繁杂而冗长的问题。
[0005] 第一方面,本申请提供一种生成法律文书的方法,包括:
[0006] 接收用户输入的语音数据,将所述语音数据通过语音转换技术转换成待处理的文本数据;
[0007] 创建图Graph数据,通过所述图Graph数据辨识特定的分隔符,以分句处理所述待处理的文本数据,并通过所述图Graph数据的节点保存多个候选关键句;
[0008] 将所述多个候选关键句输入至分词模型,以得到分词后的词汇;
[0009] 构建边集E,通过所述边集E以及文本句子的内容覆盖率,计算任意两个所述候选关键句Si以及所述候选关键句Sj的权重,并将所述权重高于阈值的所述候选关键句链接起来;
[0010] 分析所述权重高于阈值的候选关键句的重要性,重复计算多次,直至计算前的S(Vi)以及计算后的S(Vi)之间差值小于阈值,其中S(Vi)表示第i个所述节点Vi的重要性,Vj表示与所述第i个节点相连的第j个节点;
[0011] 根据计算的每一个所述候选句S(Vi)的值,将所述多个候选关键句按照S(Vi)的值从大到小排序,并按顺序提取多个所述候选关键句,以得到多个文摘句子;
[0012] 在一些可能的设计中,所述接收用户输入的语音数据之前,所述方法还包括:
[0013] 获取针对所述分词模型输出的反馈信息;
[0014] 根据所述反馈信息对所述分词模型进行优化;
[0015] 采集具有多元语义的网络词库,根据法律领域对网络词库进行训练;
[0016] 接收待分词文本,根据所述网络词库对所述待分词文本进行初始分词;
[0017] 对所述待分词文本进行初始分词后,对所述待分词文本进行特征提取,从而获得所述待分词文本的领域特征;
[0018] 根据所述待分词文本的领域特征,对所述待分词文本的词条进行权重调整从而获得所述分词模型。
[0019] 在一些可能的设计中,所述根据所述待分词文本的领域特征,对所述待分词文本的词条进行权重调整从而获得分词模型,包括:
[0020] 根据法律领域的词语特征标注所述网络词库,得到标注好的网络词库;
[0021] 将所述标注好的网络词库输入至所述分词模型;
[0022] 通过 训练所述分词模型,其中, 代表根据所述分词模型神经网络层的多层感知器中第n-1层的输出,训练所述分词模型神经网络层的多层感知器中第n层中第k个神经元得到的权值, 表示 相应的偏置,fin表示第i个训练数据输入至所述分词模型后在所述分词模型的第n层的输出,i、j以及k为任意正整数,n为自然数;当n为所述分词模型的最后一层时,fin是指所述分词模型的输出。
[0023] 在一些可能的设计中,所述接收用户输入的语音数据,包括:
[0024] 接收所述用户的采集请求
[0025] 根据所述采集请求采集多个语音测试数据;
[0026] 对所述多个语音测试数据进行语音活动检测,获得所述多个语音测试数据的语音指标检测结果;
[0027] 根据所述语音指标检测结果调整所述用户输入的语音数据的指标阈值;
[0028] 保存调整后的所述指标阈值;
[0029] 接收所述用户输入的语音数据;
[0030] 通过所述调整后的指标阈值对所述用户输入的语音数据进行指标检测;
[0031] 若所述指标检测不及格,则剔除所述用户输入的语音数据。
[0032] 在一些可能的设计中,其特征在于,所述接收用户输入的语音数据之后,所述方法还包括:
[0033] 检测所述输入的语音数据的时长;
[0034] 在所述时长超出预设值时,根据预设处理规则将所述输入的语音数据分割为多个片段,以得到多个语音片段;
[0035] 对所述多个语音片段进行去燥处理,以生成多个标准化语音信息。
[0036] 在一些可能的设计中,所述将所述语音数据通过语音转换技术转换成待处理的文本数据,包括:
[0037] 获取所述用户输入的语音数据;
[0038] 检测所述语音数据中包含的高频词,计算所述高频词与预设语言类型的匹配度,并根据所述匹配度确定所述语音信息的语言类型;
[0039] 获取与所述语言类型匹配的神经网络模型,并利用所述神经网络模型处理所述语音数据进,生成标准化语音数据;
[0040] 获取与所述语言类型匹配的语音转化文本模型,并利用所述语音转化文本模型处理所述标准化语音数据,生成文本信息。
[0041] 在一些可能的设计中,所述分词模型包括:顺序相连的语义表示层、循环神经网络层、Softmax层以及条件随机场层。
[0042] 第二方面,本申请提供一种生成法律文书的装置,具有实现对应于上述第一方面提供的生成法律文书的平台的方法的功能。所述功能可以通过硬件实现,也可以通过硬件执行相应的软件实现。硬件或软件包括一个或多个与上述功能相对应的模,所述模块可以是软件和/或硬件。
[0043] 所述生成法律文书的装置包括:
[0044] 输入输出模块,用于接收用户输入的语音数据;
[0045] 处理模块,用于将所述语音数据通过语音转换技术转换成待处理的文本数据;创建图Graph数据,通过所述图Graph数据辨识特定的分隔符,以分句处理所述待处理的文本数据,并通过所述图Graph数据的节点保存多个候选关键句;通过所述输入输出模块将所述多个候选关键句输入至分词模型,以得到分词后的词汇;构建边集E,通过所述边集E以及文本句子的内容覆盖率,以计算任意两个所述候选关键句Si以及所述候选关键,Sj的权重,并将所述权重高于阈值的所述候选关键句链接起来;分析所述保留候选关键句的重要性,重复计算多次,直至计算前S(Vi)以及计算后的S(Vi)之间差值小于阈值,其中S(Vi)表示第i个所述节点Vi的重要性,Vj表示与所述第i个节点相连的第j个节点;根据计算的每一个所述候选句S(Vi)的值,将所述多个候选关键句按照S(Vi)的值从大到小排序,并按顺序提取多个所述候选关键句,以得到多个文摘句子;根据句子要求以及字数要求,从所述多个文摘句子中抽取句子组成文摘。
[0046] 在一些可能的设计中,所述处理模块还用于:
[0047] 获取针对所述分词模型输出的反馈信息;
[0048] 根据所述反馈信息对所述分词模型进行优化;
[0049] 采集具有多元语义的网络词库,根据法律领域对网络词库进行训练;
[0050] 接收待分词文本,根据所述网络词库对所述待分词文本进行初始分词;
[0051] 对所述待分词文本进行初始分词后,对所述待分词文本进行特征提取,从而获得所述待分词文本的领域特征;
[0052] 根据所述待分词文本的领域特征,对所述待分词文本的词条进行权重调整从而获得所述分词模型。
[0053] 在一些可能的设计中,所述处理模块还用于:
[0054] 根据法律领域的词语特征标注所述网络词库,得到标注好的网络词库;
[0055] 将所述标注好的网络词库输入至所述分词模型;
[0056] 通过 训练所述分词模型,其中, 代表根据所述分词模型神经网络层的多层感知器中第n-1层的输出,训练所述分词模型神经网络层的多层感知器中第n层中第k个神经元得到的权值, 表示 相应的偏置,fin表示第i个训练数据输入至所述分词模型后在所述分词模型的第n层的输出,i、j以及k为任意正整数,n为自然数;当n为所述分词模型的最后一层时,fin是指所述分词模型的输出。
[0057] 在一些可能的设计中,所述处理模块还用于:
[0058] 接收所述用户的采集请求;
[0059] 根据所述采集请求采集多个语音测试数据;
[0060] 对所述多个语音测试数据进行语音活动检测,获得所述多个语音测试数据的语音指标检测结果;
[0061] 根据所述语音指标检测结果调整所述用户输入的语音数据的指标阈值;
[0062] 保存调整后的所述指标阈值;
[0063] 接收所述用户输入的语音数据;
[0064] 通过所述调整后的指标阈值对所述用户输入的语音数据进行指标检测;
[0065] 若所述指标检测不及格,则剔除所述用户输入的语音数据。
[0066] 在一些可能的设计中,所述处理模块还用于:
[0067] 检测所述输入的语音数据的时长;
[0068] 在所述时长超出预设值时,根据预设处理规则将所述输入的语音数据分割为多个片段,以得到多个语音片段;
[0069] 对所述多个语音片段进行去燥处理,以生成多个标准化语音信息。
[0070] 在一些可能的设计中,所述将所述用户输入的语音通过语音转换技术转换成待处理的文本数据,包括:
[0071] 获取所述用户输入的语音数据;
[0072] 检测所述语音数据中包含的高频词,计算所述高频词与预设语言类型的匹配度,并根据所述匹配度确定所述语音信息的语言类型;
[0073] 获取与所述语言类型匹配的神经网络模型,并利用所述神经网络模型处理所述语音数据进,生成标准化语音数据;
[0074] 获取与所述语言类型匹配的语音转化文本模型,并利用所述语音转化文本模型处理所述标准化语音数据,生成文本信息。
[0075] 在一些可能的设计中,所述分词模型包括:顺序相连的语义表示层、循环神经网络层、Softmax层以及条件随机场层。
[0076] 本申请又一方面提供了一种计算机设备,其包括至少一个连接的处理器、存储器、输入输出单元,其中,所述存储器用于存储程序代码,所述处理器用于调用所述存储器中的程序代码来执行上述各方面所述的方法。
[0077] 本申请又一方面提供了一种计算机存储介质,其包括指令,当其在计算机上运行时,使得计算机执行上述各方面所述的方法。
[0078] 本申请基于由开庭笔录或是开庭时的录音进行语音文字转换,并使用NLP中文本摘要生成的相关技术进行审理经过部分的摘要生成。通过知识图谱结合NLP的文本生成技术生成裁判文书的方式可以生成内容更详尽的法律文摘,最大化的减少重复劳动,提高办案效率。对案件中原告、被告以及证据项等关键节点的解析进而自动生成法律文摘可以提高审案效率将法官从书写文摘的工作中解放出来。附图说明
[0079] 图1为本申请实施例中生成法律文书的方法的流程示意图。
[0080] 图2为本申请实施例中生成法律文书的装置的结构示意图。
[0081] 图3为本申请实施例中计算机设备的结构示意图。
[0082] 本申请目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。

具体实施方式

[0083] 应当理解,此处所描述的具体实施例仅用以解释本申请,并不用于限定本申请。本申请的说明书权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或模块的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或模块,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或模块,本申请中所出现的模块的划分,仅仅是一种逻辑上的划分,实际应用中实现时可以有另外的划分方式,例如多个模块可以结合成或集成在另一个系统中,或一些特征可以忽略,或不执行。
[0084] 为解决上述技术问题,本申请主要提供以下技术方案
[0085] 本发明实施例基于由开庭笔录或是开庭时的录音进行语音文字转换,并使用NLP中文本摘要生成的相关技术进行审理经过部分的摘要生成。通过知识图谱结合NLP的文本生成技术生成裁判文书的方式可以生成内容更详尽的法律文摘,最大化的减少重复劳动,提高办案效率。对案件中原告、被告以及证据项等关键节点的解析进而自动生成法律文摘可以提高审案效率将法官从书写文摘的工作中解放出来。
[0086] 请参照图1,以下对本申请提供一种生成法律文书的方法进行举例说明,所述方法包括:
[0087] 101、接收用户输入的语音数据。
[0088] 训练数据包括语音信息以及与语音信息对应的文本标签。通话录音是指通过监测电话线路上的语音通讯信号,并将这些信号转化为可以保存和回放的介质的一种技术或方法。通话录音的采样指标包括格式、采样频率、采样精度、声道、压缩率以及每秒数据量。
[0089] 102、将语音数据通过语音转换技术转换成待处理的文本数据。
[0090] 输入的语音数据为开庭笔录或是开庭时的录音。语音转换技术通过序列神经网络实现。序列神经网络模型是指将人类的语音中的词汇内容转换为计算机可读的输入。序列神经网络是一类以序列数据为输入,在序列的演进方向进行递归且所有节点(循环单元)按链式连接的递归神经网络。序列神经网络具有记忆性、参数共享并且图灵完备,因此在对序列的非线性特征进行学习时具有一定优势。循环神经网络在自然语言处理,例如语音识别语言建模机器翻译等领域有应用,也被用于各类时间序列预报。引入了卷积神经网络构筑的循环神经网络可以处理包含序列输入的计算机视觉问题。
[0091] 103、创建图Graph数据,通过图Graph数据辨识特定的分隔符,以分句处理待处理的文本数据,通过图Graph数据的节点保存多个候选关键句。
[0092] 通过图数据将输入的文本或文本集的内容分割成句子;分隔符至少包括:逗号、问号、句号以及感叹号。目前基于图的并行计算框架已经有很多,比如来自Google的Pregel、来自Apache开源的图计算框架Giraph/HAMA以及最为著名的GraphLab,其中Pregel、HAMA和Giraph都是非常类似的,都是基于BSP模式。整体同步并行,它将计算分成一系列的超步的迭代。从纵向上看,它是一个串行模式,而从横向上看,它是一个并行的模式,每两个superstep之间设置一个栅栏,即整体同步点,确定所有并行的计算都完成后再启动下一轮超级步数。
[0093] 104、将多个候选关键句输入至分词模型,以得到分词后的词汇。
[0094] 分词后的词汇是指保留的候选关键词。分词模型是指神经网络。神经网络是指一种复制这种密集的神经元网络的方法。通过一次处理多个数据流,计算机能够显著减少处理数据所需的时间。将这种技术应用于深度学习已经产生了人工神经网络。这些人工神经网络由输入节点、输出节点和节点层组成。
[0095] 输入节点,用于接收数据的输入节点。
[0096] 输出节点,用于输出结果数据。
[0097] 节点层,用于将从输入节点输入的数据转换为输出节点可以使用的内容。节点层是指在输入节点和输出节点之间的多个隐藏节点,节点层也可以成为隐藏层。当数据通过这些隐藏节点前进时,神经网络使用逻辑来决定将数据传递给下一个隐藏节点。
[0098] 105、构建边集E,通过边集E以及文本句子的内容覆盖率,以计算任意两个候选关键句Si以及候选关键句Sj的权重,并将权重高于阈值的候选关键句链接起来。
[0099] 候选关键句权重的计算公式为 其中|Si|是候选关键句i分词后的单词,wk是指Si以及Sj中的对关键句分词后的词汇。
[0100] 通过此步骤可以判断两个句子之间的相似度是否大于给定的阈值,就认为这两个句子语义相关并将它们连接起来。
[0101] 106、分析保留候选关键句的重要性,重复计算多次,直至计算前S(Vi)以及计算后的S(Vi)之间差值小于阈值。
[0102] 分析通过通过 进行分析,S(Vi)表示第i个节点Vi的重要性,Vj表示与第i个节点相连的第j个节点,Vk与第j个节点相连的第k个节点,wji表示第i个节点与第j个节点相连的边的权重,wjk表示第j个节点与第k个节点相连的边的权重。
[0103] 这个在摘要提取过程中首先进行实体识别主要针对时间地点人物等关键实体进行识别,对于含有关键实体的相应句子进行提取,提取方式采用抽取式文档摘要的相关算法。等式左边表示一个句子的权重),右侧的求和表示每个相邻句子对本句子的贡献程度。与提取关键字的时候不同,一般认为全部句子都是相邻的,不再提取窗口。求和的分母wji表示两个句子的相似程度,分母又是一个求和公式。整个公式是一个迭代的过程。
[0104] 107、根据计算的每一个候选句S(Vi)的值,将多个候选关键句按照S(Vi)的值从大到小排序,并按顺序提取多个候选关键句,以得到多个文摘句子。
[0105] 108、根据句子要求以及字数要求,从多个文摘句子中抽取句子组成文摘。
[0106] 本申请基于由开庭笔录或是开庭时的录音进行语音文字转换,并使用NLP中文本摘要生成的相关技术进行审理经过部分的摘要生成。通过知识图谱结合NLP的文本生成技术生成裁判文书的方式可以生成内容更详尽的法律文摘,最大化的减少重复劳动,提高办案效率。对案件中原告、被告以及证据项等关键节点的解析进而自动生成法律文摘可以提高审案效率将法官从书写文摘的工作中解放出来。
[0107] 一些实施方式中,接收用户输入的语音数据之前,方法还包括:
[0108] 获取针对分词模型输出的反馈信息;
[0109] 根据反馈信息对分词模型进行优化;
[0110] 采集具有多元语义的网络词库,根据法律领域对网络词库进行训练;
[0111] 接收待分词文本,根据网络词库对待分词文本进行初始分词;
[0112] 对待分词文本进行初始分词后,对待分词文本进行特征提取,从而获得待分词文本的领域特征;
[0113] 根据待分词文本的领域特征,对待分词文本的词条进行权重调整从而获得分词模型。
[0114] 上述实施方式中,通过获取专业的法律词库,并通过法律词库对分词模型训练,可以训练出针对法律领域的高精度模型。
[0115] 一些实施方式中,根据待分词文本的领域特征,对待分词文本的词条进行权重调整从而获得分词模型,包括:
[0116] 根据法律领域的词语特征标注网络词库,得到标注好的网络词库;
[0117] 将标注好的网络词库输入至分词模型;
[0118] 通过 训练分词模型,其中, 代表根据分词模型神经网络层的多层感知器中第n-1层的输出,训练分词模型神经网络层的多层感知器中第n层中第k个神经元得到的权值, 表示 相应的偏置,fin表示第i个训练数据输入至分词模型后在分词模型的第n层的输出,i、j以及k为任意正整数,n为自然数;当n为分词模型的最后一层时,fin是指分词模型的输出。
[0119] 上述实施方式中,通过这个方式可以对实施的分词模型进行迭代,以获得一个较好效果的分词模型。
[0120] 一些实施方式中,接收用户输入的语音数据,包括:
[0121] 接收用户的采集请求;
[0122] 根据采集请求采集多个语音测试数据;
[0123] 对多个语音测试数据进行语音活动检测,获得多个语音测试数据的语音指标检测结果;
[0124] 根据语音指标检测结果调整用户输入的语音数据的指标阈值;
[0125] 保存调整后的指标阈值;
[0126] 接收用户输入的语音数据;
[0127] 通过调整后的指标阈值对用户输入的语音数据进行指标检测;
[0128] 若指标检测不及格,则剔除用户输入的语音数据。
[0129] 上述实施方式中,通过采集满足符合要求的语音数据,使得模型的效果更好,精度提高。若不满足,则剔除相应语音数据重新采集。语音测试数据是指通过标准的输入语音数据。用户输入的语音数据是指用户要进行检测的语音数据。通过语音测试数据确定指标的标准区间,然后判定用户输入的语音数据是否有效,当确定用户输入的语音有效时再对语音进行检测。
[0130] 一些实施方式中,接收用户输入的语音数据之后,方法还包括:
[0131] 检测输入的语音数据的时长;
[0132] 在时长超出预设值时,根据预设处理规则将输入的语音数据分割为多个片段,以得到多个语音片段;
[0133] 对多个语音片段进行去燥处理,以生成多个标准化语音信息。
[0134] 上述实施方式中,可以对输入的语音数据进行预处理,以生成更多的训练数据。
[0135] 一些实施方式中,将语音数据通过语音转换技术转换成待处理的文本数据,包括:
[0136] 获取用户输入的语音数据;
[0137] 检测语音数据中包含的高频词,计算高频词与预设语言类型的匹配度,并根据匹配度确定语音信息的语言类型;
[0138] 获取与语言类型匹配的神经网络模型,并利用神经网络模型处理语音数据进,生成标准化语音数据;
[0139] 获取与语言类型匹配的语音转化文本模型,并利用语音转化文本模型处理标准化语音数据,生成文本信息。
[0140] 上述实施方式中,通过NLP技术将语音信息转化成相应的文本信息,才能对数据做进一步的处理。
[0141] 一些实施方式中,分词模型包括:顺序相连的语义表示层、循环神经网络层、Softmax层以及条件随机场层。
[0142] 上述实施方式中,顺序相连的语义表示层用于从语音信息中提取声学特征,并消除声学特征中的非极大值,降低声学特征的复杂度。声学特征包括特定音节的发音、用户连读习惯以及语音频谱等。
[0143] 循环神经网络层于将声学特征映射到隐层特征空间。
[0144] Softmax层用于根据各种文本类型所对应的概率输出语音信息所对应的文本。
[0145] 如图2所示的一种生成法律文书的装置20的结构示意图,其可应用于生成法律文书。本申请实施例中的生成法律文书的装置能够实现对应于上述图1所对应的实施例中所执行的生成法律文书的方法的步骤。生成法律文书的装置20实现的功能可以通过硬件实现,也可以通过硬件执行相应的软件实现。硬件或软件包括一个或多个与上述功能相对应的模块,所述模块可以是软件和/或硬件。所述生成法律文书的装置可包括输入输出模块201和处理模块202,所述处理模块202和输入输出模块201的功能实现可参考图1所对应的实施例中所执行的操作,此处不作赘述。输入输出模块201可用于控制所述输入输出模块
201的输入、输出以及获取操作。
[0146] 一些实施方式中,所述输入输出模块201可用于接收用户输入的语音数据。
[0147] 所述处理模块202可用于将所述语音数据通过语音转换技术转换成待处理的文本数据;创建图Graph数据,通过所述图Graph数据辨识特定的分隔符,以分句处理所述待处理的文本数据,并通过所述图Graph数据的节点保存多个候选关键句;通过所述输入输出模块将所述多个候选关键句输入至分词模型,以得到分词后的词汇;构建边集E,通过所述边集E以及文本句子的内容覆盖率,以计算任意两个所述候选关键句Si以及所述候选关键,Sj的权重,并将所述权重高于阈值的所述候选关键句链接起来;分析所述保留候选关键句的重要性,重复计算多次,直至计算前S(Vi)以及计算后的S(Vi)之间差值小于阈值,其中S(Vi)表示第i个所述节点Vi的重要性,Vj表示与所述第i个节点相连的第j个节点;根据计算的每一个所述候选句S(Vi)的值,将所述多个候选关键句按照S(Vi)的值从大到小排序,并按顺序提取多个所述候选关键句,以得到多个文摘句子;根据句子要求以及字数要求,从所述多个文摘句子中抽取句子组成文摘。
[0148] 一些实施方式中,所述处理模块202还用于:
[0149] 获取针对所述分词模型输出的反馈信息;
[0150] 根据所述反馈信息对所述分词模型进行优化;
[0151] 采集具有多元语义的网络词库,根据法律领域对网络词库进行训练;
[0152] 接收待分词文本,根据所述网络词库对所述待分词文本进行初始分词;
[0153] 对所述待分词文本进行初始分词后,对所述待分词文本进行特征提取,从而获得所述待分词文本的领域特征;
[0154] 根据所述待分词文本的领域特征,对所述待分词文本的词条进行权重调整从而获得所述分词模型。
[0155] 一些实施方式中,所述处理模块202还用于:
[0156] 根据法律领域的词语特征标注所述网络词库,得到标注好的网络词库;
[0157] 将所述标注好的网络词库输入至所述分词模型;
[0158] 通过 训练所述分词模型,其中, 代表根据所述分词模型神经网络层的多层感知器中第n-1层的输出,训练所述分词模型神经网络层的多层感知器中第n层中第k个神经元得到的权值, 表示 相应的偏置,fin表示第i个训练数据输入至所述分词模型后在所述分词模型的第n层的输出,i、j以及k为任意正整数,n为自然数;当n为所述分词模型的最后一层时,fin是指所述分词模型的输出。
[0159] 一些实施方式中,所述处理模块202还用于:
[0160] 接收所述用户的采集请求;
[0161] 根据所述采集请求采集多个语音测试数据;
[0162] 对所述多个语音测试数据进行语音活动检测,获得所述多个语音测试数据的语音指标检测结果;
[0163] 根据所述语音指标检测结果调整所述用户输入的语音数据的指标阈值;
[0164] 保存调整后的所述指标阈值;
[0165] 接收所述用户输入的语音数据;
[0166] 通过所述调整后的指标阈值对所述用户输入的语音数据进行指标检测;
[0167] 若所述指标检测不及格,则剔除所述用户输入的语音数据。
[0168] 一些实施方式中,所述处理模块202还用于:
[0169] 检测所述输入的语音数据的时长;
[0170] 在所述时长超出预设值时,根据预设处理规则将所述输入的语音数据分割为多个片段,以得到多个语音片段;
[0171] 对所述多个语音片段进行去燥处理,以生成多个标准化语音信息。
[0172] 一些实施方式中所述处理模块202还用于:
[0173] 获取所述用户输入的语音数据;
[0174] 检测所述语音数据中包含的高频词,计算所述高频词与预设语言类型的匹配度,并根据所述匹配度确定所述语音信息的语言类型;
[0175] 获取与所述语言类型匹配的神经网络模型,并利用所述神经网络模型处理所述语音数据进,生成标准化语音数据;
[0176] 获取与所述语言类型匹配的语音转化文本模型,并利用所述语音转化文本模型处理所述标准化语音数据,生成文本信息。
[0177] 一些实施方式中,所述分词模型包括:顺序相连的语义表示层、循环神经网络层、Softmax层以及条件随机场层。
[0178] 上面从模块化功能实体的度分别介绍了本申请实施例中的创建装置,以下从硬件角度介绍一种计算机设备,如图3所示,其包括:处理器、存储器、输入输出单元(也可以是收发器,图3中未标识出)以及存储在所述存储器中并可在所述处理器上运行的计算机程序。例如,该计算机程序可以为图1所对应的实施例中生成法律文书的方法对应的程序。例如,当计算机设备实现如图2所示的生成法律文书的装置20的功能时,所述处理器执行所述计算机程序时实现上述图2所对应的实施例中由生成法律文书的装置20执行的生成法律文书的方法中的各步骤。或者,所述处理器执行所述计算机程序时实现上述图2所对应的实施例的生成法律文书的装置20中各模块的功能。又例如,该计算机程序可以为图1所对应的实施例中生成法律文书的方法对应的程序。
[0179] 所称处理器可以是中央处理单元(central processing unit,CPU),还可以是其他通用处理器、数字信号处理器(digital signal processor,DSP)、专用集成电路(application specific integrated circuit,ASIC)、现成可编程阵列(field-programmable gate array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等,所述处理器是所述计算机装置的控制中心,利用各种接口和线路连接整个计算机装置的各个部分。
[0180] 所述存储器可用于存储所述计算机程序和/或模块,所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块,以及调用存储在存储器内的数据,实现所述计算机装置的各种功能。所述存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如音频数据、视频数据等)等。此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如硬盘、内存、插接式硬盘,智能存储卡(smart media card,SMC),安全数字(decure digital,SD)卡,闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
[0181] 所述输入输出单元也可以用接收器和发送器代替,可以为相同或者不同的物理实体。为相同的物理实体时,可以统称为输入输出单元。该输入输出可以为收发器。
[0182] 所述存储器可以集成在所述处理器中,也可以与所述处理器分开设置。
[0183] 通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM)中,包括若干指令用以使得一台终端(可以是手机,计算机,服务器或者网络设备等)执行本申请各个实施例所述的方法。
[0184] 上面结合附图对本申请的实施例进行了描述,但是本申请并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本申请的启示下,在不脱离本申请宗旨和权利要求所保护的范围情况下,还可做出很多形式,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,这些均属于本申请的保护之内。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈