首页 / 专利库 / 赌博 / 赌博 / 一种法律本体知识库自动构建方法

一种法律本体知识库自动构建方法

阅读:400发布:2020-07-16

专利汇可以提供一种法律本体知识库自动构建方法专利检索,专利查询,专利分析的服务。并且本 发明 提供一种法律本体 知识库 自动构建方法,能够根据法律审判文书构建法律本体知识库。所述方法包括:利用网络法律文本数据统计法律审判文书中的专业高频词,并根据统计得到的专业高频词构建法律领域词表;根据构建的法律领域词表对法律审判文书去停用词后并进行分词;根据已分词的法律审判文书数据对法律审判文书数据进行 迭代 分类,提取每一次分类中每一类别的主题词语,并将每一类别的主题词语按照分类层次顺序进行划分,得到主题词语间的层次关系;根据提取的主题词语及得到的主题词语间的层次关系,构建法律本体知识库。本发明适用于知识工程技术领域。,下面是一种法律本体知识库自动构建方法专利的具体信息内容。

1.一种法律本体知识库自动构建方法,其特征在于,包括:
利用网络法律文本数据统计法律审判文书中的专业高频词,并根据统计得到的专业高频词构建法律领域词表;
根据构建的法律领域词表对法律审判文书去停用词后并进行分词;
根据已分词的法律审判文书数据对法律审判文书数据进行迭代分类,提取每一次分类中每一类别的主题词语,并将每一类别的主题词语按照分类层次顺序进行划分,得到主题词语间的层次关系;
根据提取的主题词语及得到的主题词语间的层次关系,构建法律本体知识库。
2.根据权利要求1所述的法律本体知识库自动构建方法,其特征在于,所述利用网络法律文本数据统计法律审判文书中的专业高频词,并根据统计得到的专业高频词构建法律领域词表包括:
利用网络法律文本数据统计民事、刑事、行政审判文书专业高频词;
根据统计的民事、刑事、行政审判文书专业高频词,结合预设的输入法词典构建法律领域词表。
3.根据权利要求2所述的法律本体知识库自动构建方法,其特征在于,所述民事审判文书专业高频词包括:民事审判、民事案件、民事纠纷、民事权益、财产、人身、公民、未成年人、民事权利能、民事行为能力、监护、宣告失踪、宣告死亡、选民资格、认定财产无主、返还财产、个体工商户、农村承包经营户、债权、债务、个人合伙、法人、企业法人、社会团体法人、联营、民事法律行为、民事权利、民事责任、代理、委托代理、法定代理、指定代理、财产所有权、留置权、买卖、出租、抵押、转让、借贷关系、不当得利、知识产权、著作权、专利权、商标专用权、人身权、健康权、姓名权、肖像权、荣誉权、发现权、发明权、名誉权、婚姻、离婚、抚养、收养、扶养、遗产、继承、遗嘱、遗赠、遗赠扶养协议、房地产、房屋承租中的一种或多种。
4.根据权利要求2所述的法律本体知识库自动构建方法,其特征在于,所述刑事审判文书专业高频词包括:刑事、刑事审判、刑事案件、犯罪、大案要案、经济犯罪、少年犯罪、刑事类推、刑事责任、犯罪客体、犯罪主体、刑事责任能力、刑事责任年龄、法人犯罪、正当防卫、紧急避险、犯罪既遂、犯罪预备、犯罪未遂、犯罪中止、共同犯罪、犯罪集团、刑罚、管制、拘役、有期徒刑、无期徒刑、死刑、罚金、剥夺政治权利、没收财产、驱逐出境、量刑、累犯、自首、数罪并罚、刑期计算、刑期折抵、缓刑、减刑、假释、追诉时效、赦免、反革命、组织越狱、间谍、特务、放火、爆炸、投毒、危害公共安全、破坏交通工具、破坏交通设备、破坏通讯设备、破坏电力设备、交通肇事、重大责任事故、走私、投机倒把、逃套外汇、伪造货币、伪造有价证券、伪造有价票证、偷税、抗税、假冒商标、假冒专利、盗伐林木、滥伐林木、故意杀人、过失杀人、故意伤害、过失重伤、卖淫嫖娼、刑讯逼供、诬告陷害、强奸妇女、奸淫幼女、卖淫、拐卖人口、绑架妇女儿童、拐卖妇女儿童、非法拘禁、非法搜查、侮辱、诽谤、报复陷害、伪证、侵犯通信自由、破坏选举、侵犯财产、抢劫、抢夺、敲诈勒索、盗窃、惯窃、诈骗、惯骗、贪污、挪用公款、绑架勒索、妨害公务、拒不执行判决裁定、扰乱社会秩序、流氓、脱逃、窝藏、包庇、制造贩卖假药、招摇撞骗、赌博、淫秽物品、毒品、窝赃、销赃、破坏珍贵文物、偷越国边境、侮辱国旗国徽、传授犯罪方法、妨害婚姻家庭、重婚、破坏军人婚姻、虐待、遗弃、拐骗儿童、渎职、受贿、行贿、介绍贿赂、泄露国家秘密、玩忽职守、徇私枉法、私放罪犯、破坏邮电通讯、军人违反职责、走私毒品、贩卖毒品、运输毒品中的一种或多种。
5.根据权利要求2所述的法律本体知识库自动构建方法,其特征在于,所述行政审判文书专业高频词包括:行政审判、行政案件、国家行政机关、国家公务员、行政行为、行政责任、行政处分、行政处罚、行政处理、行政赔偿、行政复议、公安、海关、商检、土地管理、地质矿产、能源、行政执行、交通缉查、野生动植物保护、计划生育、渔业、盐业、利资源、盐政、行政强制措施、路征、技术监督、专利、畜牧、房屋拆迁、河道、邮电、科技、交通、卫生、医药、环境保护、工业、经贸、农业、林业、文化、教育、统计、体育、民政、城市规划、城乡建设、计量、物价、工商、劳动、文物、财政、审计、税务、水利、企业管理、路、民航、人事、新闻出版、广播影视、旅游、气象中的一种或多种。
6.根据权利要求1所述的法律本体知识库自动构建方法,其特征在于,所述根据构建的法律领域词表对法律审判文书去停用词后并进行分词包括:
利用构建的法律领域词表自定义去停用词词典和分词词典;
根据自定义的去停用词词典和分词词典,利用Java中文分词器Ansj对法律审判文书去停用词后并进行分词。
7.根据权利要求1所述的法律本体知识库自动构建方法,其特征在于,所述根据已分词的法律审判文书数据对法律审判文书数据进行迭代分类,提取每一次分类中每一类别的主题词语,并将每一类别的主题词语按照分类层次顺序进行划分,得到主题词语间的层次关系包括:
利用已分词的法律审判文书数据,应用LDA主题模型对法律审判文书进行主题分类,提取每一类别主题词语;
对每一类别下的法律审判文书应用LDA主题模型继续进行主题分类,提取每一类别的主题词语,并将每一类别的主题词语按照分类层次顺序进行划分,直至符合预设的终止迭代条件,则停止迭代。
8.根据权利要求7所述的法律本体知识库自动构建方法,其特征在于,所述应用LDA主题模型对法律审判文书进行主题分类,提取每一类别主题词语包括:
对法律审判文书按照最大主题概率选择主题;
根据选择的主题对法律审判文书进行主题分类,并通过LDA主题模型得到每一类别主题词语。
9.根据权利要求7所述的法律本体知识库自动构建方法,其特征在于,所述直至符合预设的终止迭代条件,则停止迭代包括:
在应用LDA主题模型不断迭代按主题分类和提取主题词语过程中,判断主题分类结果中是否有预设比例的数据的最大主题概率小于预设的阈值
若是,则判定不能按照主题继续分类,停止迭代。
10.根据权利要求1所述的法律本体知识库自动构建方法,其特征在于,所述根据提取的主题词语及得到的主题词语间的层次关系,构建法律本体知识库包括:
将提取的主题词语作为法律本体知识库的本体、得到的主题词语间的层次关系作为法律本体知识库的子父类关系,形成本体-子父类关系-本体的三元组结构,完成法律本体知识库的构建。

说明书全文

一种法律本体知识库自动构建方法

技术领域

[0001] 本发明涉及知识工程技术领域,特别是指一种法律本体知识库自动构建方法。

背景技术

[0002] 知识本体是对概念体系明确的、形式化的、可共享的规范说明。本体定义了组成主题领域的词汇表的基本术语及其关系,以及结合这些术语和关系来定义词汇表外延的规则。知识库是知识工程中结构化,易操作,易利用,全面有组织的知识集群,是针对某一领域问题求解的需要,采用某种知识表示方式在计算机存储器中存储、组织、管理和使用的互相联系的知识片集合。本体知识库将信息表达成更接近人类认知世界的形式,提供了一种更好地组织、管理和理解互联网海量信息的能。本体知识库给互联网语义搜索带来了活力,同时也在智能问答、大数据分析与决策中显示出强大威力,已经成为互联网基于知识的智能服务的基础设施。随着大数据时代的到来,将大数据转化为知识,增强对互联网资源的内容理解,将促进当代信息处理技术从信息服务向知识服务转变。
[0003] 构建法律特定领域本体知识库对整合法律知识、挖掘法律热点、预测法律事件、构建法律领域专家系统等将起到重要作用,但是,现有技术中,还没有构建好的法律本体知识库。

发明内容

[0004] 本发明要解决的技术问题是提供一种法律本体知识库自动构建方法,以解决现有技术所存在的缺少法律本体知识库的问题。
[0005] 为解决上述技术问题,本发明实施例提供一种法律本体知识库自动构建方法,包括:
[0006] 利用网络法律文本数据统计法律审判文书中的专业高频词,并根据统计得到的专业高频词构建法律领域词表;
[0007] 根据构建的法律领域词表对法律审判文书去停用词后并进行分词;
[0008] 根据已分词的法律审判文书数据对法律审判文书数据进行迭代分类,提取每一次分类中每一类别的主题词语,并将每一类别的主题词语按照分类层次顺序进行划分,得到主题词语间的层次关系;
[0009] 根据提取的主题词语及得到的主题词语间的层次关系,构建法律本体知识库。
[0010] 进一步地,所述利用网络法律文本数据统计法律审判文书中的专业高频词,并根据统计得到的专业高频词构建法律领域词表包括:
[0011] 利用网络法律文本数据统计民事、刑事、行政审判文书专业高频词;
[0012] 根据统计的民事、刑事、行政审判文书专业高频词,结合预设的输入法词典构建法律领域词表。
[0013] 进一步地,所述民事审判文书专业高频词包括:民事审判、民事案件、民事纠纷、民事权益、财产、人身、公民、未成年人、民事权利能力、民事行为能力、监护、宣告失踪、宣告死亡、选民资格、认定财产无主、返还财产、个体工商户、农村承包经营户、债权、债务、个人合伙、法人、企业法人、社会团体法人、联营、民事法律行为、民事权利、民事责任、代理、委托代理、法定代理、指定代理、财产所有权、留置权、买卖、出租、抵押、转让、借贷关系、不当得利、知识产权、著作权、专利权、商标专用权、人身权、健康权、姓名权、肖像权、荣誉权、发现权、发明权、名誉权、婚姻、离婚、抚养、收养、扶养、遗产、继承、遗嘱、遗赠、遗赠扶养协议、房地产、房屋承租中的一种或多种。
[0014] 进一步地,所述刑事审判文书专业高频词包括:刑事、刑事审判、刑事案件、犯罪、大案要案、经济犯罪、少年犯罪、刑事类推、刑事责任、犯罪客体、犯罪主体、刑事责任能力、刑事责任年龄、法人犯罪、正当防卫、紧急避险、犯罪既遂、犯罪预备、犯罪未遂、犯罪中止、共同犯罪、犯罪集团、刑罚、管制、拘役、有期徒刑、无期徒刑、死刑、罚金、剥夺政治权利、没收财产、驱逐出境、量刑、累犯、自首、数罪并罚、刑期计算、刑期折抵、缓刑、减刑、假释、追诉时效、赦免、反革命、组织越狱、间谍、特务、放火、爆炸、投毒、危害公共安全、破坏交通工具、破坏交通设备、破坏通讯设备、破坏电力设备、交通肇事、重大责任事故、走私、投机倒把、逃套外汇、伪造货币、伪造有价证券、伪造有价票证、偷税、抗税、假冒商标、假冒专利、盗伐林木、滥伐林木、故意杀人、过失杀人、故意伤害、过失重伤、卖淫嫖娼、刑讯逼供、诬告陷害、强奸妇女、奸淫幼女、卖淫、拐卖人口、绑架妇女儿童、拐卖妇女儿童、非法拘禁、非法搜查、侮辱、诽谤、报复陷害、伪证、侵犯通信自由、破坏选举、侵犯财产、抢劫、抢夺、敲诈勒索、盗窃、惯窃、诈骗、惯骗、贪污、挪用公款、绑架勒索、妨害公务、拒不执行判决裁定、扰乱社会秩序、流氓、脱逃、窝藏、包庇、制造贩卖假药、招摇撞骗、赌博、淫秽物品、毒品、窝赃、销赃、破坏珍贵文物、偷越国边境、侮辱国旗国徽、传授犯罪方法、妨害婚姻家庭、重婚、破坏军人婚姻、虐待、遗弃、拐骗儿童、渎职、受贿、行贿、介绍贿赂、泄露国家秘密、玩忽职守、徇私枉法、私放罪犯、破坏邮电通讯、军人违反职责、走私毒品、贩卖毒品、运输毒品中的一种或多种。
[0015] 进一步地,所述行政审判文书专业高频词包括:行政审判、行政案件、国家行政机关、国家公务员、行政行为、行政责任、行政处分、行政处罚、行政处理、行政赔偿、行政复议、公安、海关、商检、土地管理、地质矿产、能源、行政执行、交通缉查、野生动植物保护、计划生育、渔业、盐业、利资源、盐政、行政强制措施、路征、技术监督、专利、畜牧、房屋拆迁、河道、邮电、科技、交通、卫生、医药、环境保护、工业、经贸、农业、林业、文化、教育、统计、体育、民政、城市规划、城乡建设、计量、物价、工商、劳动、文物、财政、审计、税务、水利、企业管理、路、民航、人事、新闻出版、广播影视、旅游、气象中的一种或多种。
[0016] 进一步地,所述根据构建的法律领域词表对法律审判文书去停用词后并进行分词包括:
[0017] 利用构建的法律领域词表自定义去停用词词典和分词词典;
[0018] 根据自定义的去停用词词典和分词词典,利用Java中文分词器Ansj对法律审判文书去停用词后并进行分词。
[0019] 进一步地,所述根据已分词的法律审判文书数据对法律审判文书数据进行迭代分类,提取每一次分类中每一类别的主题词语,并将每一类别的主题词语按照分类层次顺序进行划分,得到主题词语间的层次关系包括:
[0020] 利用已分词的法律审判文书数据,应用LDA主题模型对法律审判文书进行主题分类,提取每一类别主题词语;
[0021] 对每一类别下的法律审判文书应用LDA主题模型继续进行主题分类,提取每一类别的主题词语,并将每一类别的主题词语按照分类层次顺序进行划分,直至符合预设的终止迭代条件,则停止迭代。
[0022] 进一步地,所述应用LDA主题模型对法律审判文书进行主题分类,提取每一类别主题词语包括:
[0023] 对法律审判文书按照最大主题概率选择主题;
[0024] 根据选择的主题对法律审判文书进行主题分类,并通过LDA主题模型得到每一类别主题词语。
[0025] 进一步地,所述直至符合预设的终止迭代条件,则停止迭代包括:
[0026] 在应用LDA主题模型不断迭代按主题分类和提取主题词语过程中,判断主题分类结果中是否有预设比例的数据的最大主题概率小于预设的阈值
[0027] 若是,则判定不能按照主题继续分类,停止迭代。
[0028] 进一步地,所述根据提取的主题词语及得到的主题词语间的层次关系,构建法律本体知识库包括:
[0029] 将提取的主题词语作为法律本体知识库的本体、得到的主题词语间的层次关系作为法律本体知识库的子父类关系,形成本体-子父类关系-本体的三元组结构,完成法律本体知识库的构建。
[0030] 本发明的上述技术方案的有益效果如下:
[0031] 上述方案中,通过利用网络法律文本数据统计法律审判文书中的专业高频词,并根据统计得到的专业高频词构建法律领域词表;根据构建的法律领域词表对法律审判文书去停用词后并进行分词;根据已分词的法律审判文书数据对法律审判文书数据进行迭代分类,提取每一次分类中每一类别的主题词语,并将每一类别的主题词语按照分类层次顺序进行划分,得到主题词语间的层次关系;根据提取的主题词语及得到的主题词语间的层次关系,构建法律本体知识库。附图说明
[0032] 图1为本发明实施例提供的法律本体知识库自动构建方法的流程示意图;
[0033] 图2为本发明实施例提供的第一次分类得到的法律本体知识库中实体词语及其关系层次示意图;
[0034] 图3为本发明实施例提供的对第一次分类得到的分类0进行主题分类,得到的实体词语及其关系层次示意图;
[0035] 图4为本发明实施例提供的对第一次分类得到的分类1进行主题分类,得到的实体词语及其关系层次示意图;
[0036] 图5为本发明实施例提供的对第一次分类得到的分类2进行主题分类,得到的实体词语及其关系层次示意图;
[0037] 图6为本发明实施例提供的对第二次分类得到的分类0进行主题分类,得到的实体词语及其关系层次示意图。

具体实施方式

[0038] 为使本发明要解决的技术问题、技术方案和优点更加清楚,下面将结合附图及具体实施例进行详细描述。
[0039] 本发明针对现有的缺少法律本体知识库的问题,提供一种法律本体知识库自动构建方法。
[0040] 如图1所示,本发明实施例提供的法律本体知识库自动构建方法,包括:
[0041] 步骤101,利用网络法律文本数据统计法律审判文书中的专业高频词,并根据统计得到的专业高频词构建法律领域词表;
[0042] 步骤102,根据构建的法律领域词表对法律审判文书去停用词后并进行分词;
[0043] 步骤103,根据已分词的法律审判文书数据对法律审判文书数据进行迭代分类,提取每一次分类中每一类别的主题词语,并将每一类别的主题词语按照分类层次顺序进行划分,得到主题词语间的层次关系;
[0044] 步骤104,根据提取的主题词语及得到的主题词语间的层次关系,构建法律本体知识库。
[0045] 本发明实施例所述的法律本体知识库自动构建方法,通过利用网络法律文本数据统计法律审判文书中的专业高频词,并根据统计得到的专业高频词构建法律领域词表;根据构建的法律领域词表对法律审判文书去停用词后并进行分词;根据已分词的法律审判文书数据对法律审判文书数据进行迭代分类,提取每一次分类中每一类别的主题词语,并将每一类别的主题词语按照分类层次顺序进行划分,得到主题词语间的层次关系;根据提取的主题词语及得到的主题词语间的层次关系,构建法律本体知识库。
[0046] 在前述法律本体知识库自动构建方法的具体实施方式中,进一步地,所述利用网络法律文本数据统计法律审判文书中的专业高频词,并根据统计得到的专业高频词构建法律领域词表包括:
[0047] 利用网络法律文本数据统计民事、刑事、行政审判文书专业高频词;
[0048] 根据统计的民事、刑事、行政审判文书专业高频词,结合预设的输入法词典构建法律领域词表。
[0049] 本实施例中,先获取网络法律文本数据,利用获取的网络法律文本数据统计民事、刑事、行政专业高频词,所述高频词指出现次数超过预定阈值或使用次数超过预定阈值的词语,并结合预设的输入法词典构建法律领域词表,优选地,所述预设的输入法词典为搜狗输入法词典。
[0050] 本实施例中,统计得到的民事、刑事、行政审判文书专业高频词有268个,在实际应用中,统计得到的民事、刑事、行政审判文书专业高频词与获取的网络法律文本数据有关。
[0051] 在前述法律本体知识库自动构建方法的具体实施方式中,进一步地,所述民事审判文书专业高频词包括:民事审判、民事案件、民事纠纷、民事权益、财产、人身、公民、未成年人、民事权利能力、民事行为能力、监护、宣告失踪、宣告死亡、选民资格、认定财产无主、返还财产、个体工商户、农村承包经营户、债权、债务、个人合伙、法人、企业法人、社会团体法人、联营、民事法律行为、民事权利、民事责任、代理、委托代理、法定代理、指定代理、财产所有权、留置权、买卖、出租、抵押、转让、借贷关系、不当得利、知识产权、著作权、专利权、商标专用权、人身权、健康权、姓名权、肖像权、荣誉权、发现权、发明权、名誉权、婚姻、离婚、抚养、收养、扶养、遗产、继承、遗嘱、遗赠、遗赠扶养协议、房地产、房屋承租中的一种或多种。
[0052] 在前述法律本体知识库自动构建方法的具体实施方式中,进一步地,所述刑事审判文书专业高频词包括:刑事、刑事审判、刑事案件、犯罪、大案要案、经济犯罪、少年犯罪、刑事类推、刑事责任、犯罪客体、犯罪主体、刑事责任能力、刑事责任年龄、法人犯罪、正当防卫、紧急避险、犯罪既遂、犯罪预备、犯罪未遂、犯罪中止、共同犯罪、犯罪集团、刑罚、管制、拘役、有期徒刑、无期徒刑、死刑、罚金、剥夺政治权利、没收财产、驱逐出境、量刑、累犯、自首、数罪并罚、刑期计算、刑期折抵、缓刑、减刑、假释、追诉时效、赦免、反革命、组织越狱、间谍、特务、放火、爆炸、投毒、危害公共安全、破坏交通工具、破坏交通设备、破坏通讯设备、破坏电力设备、交通肇事、重大责任事故、走私、投机倒把、逃套外汇、伪造货币、伪造有价证券、伪造有价票证、偷税、抗税、假冒商标、假冒专利、盗伐林木、滥伐林木、故意杀人、过失杀人、故意伤害、过失重伤、卖淫嫖娼、刑讯逼供、诬告陷害、强奸妇女、奸淫幼女、卖淫、拐卖人口、绑架妇女儿童、拐卖妇女儿童、非法拘禁、非法搜查、侮辱、诽谤、报复陷害、伪证、侵犯通信自由、破坏选举、侵犯财产、抢劫、抢夺、敲诈勒索、盗窃、惯窃、诈骗、惯骗、贪污、挪用公款、绑架勒索、妨害公务、拒不执行判决裁定、扰乱社会秩序、流氓、脱逃、窝藏、包庇、制造贩卖假药、招摇撞骗、赌博、淫秽物品、毒品、窝赃、销赃、破坏珍贵文物、偷越国边境、侮辱国旗国徽、传授犯罪方法、妨害婚姻家庭、重婚、破坏军人婚姻、虐待、遗弃、拐骗儿童、渎职、受贿、行贿、介绍贿赂、泄露国家秘密、玩忽职守、徇私枉法、私放罪犯、破坏邮电通讯、军人违反职责、走私毒品、贩卖毒品、运输毒品中的一种或多种。
[0053] 在前述法律本体知识库自动构建方法的具体实施方式中,进一步地,所述行政审判文书专业高频词包括:行政审判、行政案件、国家行政机关、国家公务员、行政行为、行政责任、行政处分、行政处罚、行政处理、行政赔偿、行政复议、公安、海关、商检、土地管理、地质矿产、能源、行政执行、交通缉查、野生动植物保护、计划生育、渔业、盐业、水利资源、盐政、行政强制措施、路征、技术监督、专利、畜牧、房屋拆迁、河道、邮电、科技、交通、卫生、医药、环境保护、工业、经贸、农业、林业、文化、教育、统计、体育、民政、城市规划、城乡建设、计量、物价、工商、劳动、文物、财政、审计、税务、水利、企业管理、铁路、民航、人事、新闻出版、广播影视、旅游、气象中的一种或多种。
[0054] 在前述法律本体知识库自动构建方法的具体实施方式中,进一步地,所述根据构建的法律领域词表对法律审判文书去停用词后并进行分词包括:
[0055] 利用构建的法律领域词表自定义去停用词词典和分词词典;
[0056] 根据自定义的去停用词词典和分词词典,利用Java中文分词器Ansj对法律审判文书去停用词后并进行分词。
[0057] 本实施例中,可以利用构建的法律领域词表自定义去停用词词典NewWordFilter.dic和分词词典LegalWord.dic,并根据自定义的去停用词词典
NewWordFilter.dic和分词词典LegalWord.dic,利用Java中文分词器Ansj对法律审判文书去停用词后并进行分词,为自动构建法律本体知识库做准备。
[0058] 本实施例中,所述中文分词器Ansj是基于Java实现的,利用自定义的去停用词词典实现去停用词代码如下:
[0059]
[0060] 本实施例中,调用自定义分词词典的代码如下:
[0061]
[0062]
[0063] 本实施例中,利用已分词的法律审判文书数据,可以应用隐含狄利克雷分布(Latent Dirichlet Allocation,LDA)主题模型对法律审判文书进行主题分类,并提取每一类别主题词语;然后对每一类别下的法律审判文书继续应用LDA主题模型进行主题分类并提取每一类别的主题词语,同时将每一类别的主题词语按照分类层次顺序进行划分,直至符合预设的终止迭代条件,则停止迭代。
[0064] 本实施例中,所述LDA是一种文档主题生成模型,也称为一个三层贝叶斯概率模型,包含词、主题和文档三层结构。每篇文章的每个词都是通过"以一定概率选择了某个主题,并从这个主题中以一定概率选择某个词语"这样一个过程得到。文档到主题服从多项式分布,主题到词服从多项式分布。这样就可以通过主题得到文章的主题词语。所以应用LDA主题模型,对法律审判文书按照最大概率选择某主题,然后按照主题对法律审判文书进行主题分类,并通过LDA主题模型得到每一类别主题词语;然后对每一类别下的审判文书分别继续应用LDA主题模型进行主题分类并得到每一类别(子类别)的主题词语。同理,分类后在每一类别(子类别)中继续应用LDA主题模型分类并得到每一类别的主题词语,并将每一类别的主题词语按照分类层次顺序进行划分。
[0065] 本实施例中,应用所述LDA主题模型,对2000份民事、刑事、行政审判文书进行第一次分类并得到每一类别的主题词语。将主题数定为3(每次分类的类别数为3),并取前20个概率最高的词语作为每一类别主题词语;分类后,得到的三个主题下的主题词语及其概率如下:
[0066] topic 0:
[0067] 上诉0.020716457203748394
[0068] 被告人0.015358624096518602
[0069] 土地0.013313991406572972
[0070] 补偿0.011940953395806564
[0071] 管理0.011463374957279117
[0072] 拆迁0.009224726026681711
[0073] 人民法院0.009090407090845867
[0074] 依法0.008612828652318421
[0075] 判决0.008582979999910454
[0076] 审理0.008299417802034784
[0077] 政府0.008045704256567077
[0078] 原告0.00783676368971132
[0079] 裁定0.007791990711099372
[0080] 认定0.007642747449059544
[0081] 证实0.007045774400900236
[0082] 人民0.006702514898208634
[0083] 临时0.00662789326718872
[0084] 某甲0.006553271636168806
[0085] 人民币0.006329406743109066
[0086] 标准0.006210012133477204
[0087] topic 1:
[0088] 公司0.06931993926904303
[0089] 诉讼0.020827735689207656
[0090] 本案0.017832326507314325
[0091] 二审0.014348395656271011
[0092] 再审0.01391129732071576
[0093] 合同0.01370560398633682
[0094] 规定0.013242793983984202
[0095] 民事0.012240038978886866
[0096] 判决0.01215004814509608
[0097] 一审0.011597247308952674
[0098] 法院0.011584391475553991
[0099] 申请0.010825897305031645
[0100] 申请人0.010530213136861918
[0101] 人民法院0.010183105635097455
[0102] 法律0.009643160632352734
[0103] 证据0.008936089795425125
[0104] 代理0.008370433125883035
[0105] 认定0.007984758123922521
[0106] 协议0.007907623123530418
[0107] 有限公司0.007869055623334367
[0108] topic 2:
[0109] 商标0.04003179012285558
[0110] 公司0.028305286471471677
[0111] 上诉0.027311845132234835
[0112] 一审0.021623906484055266
[0113] 申请0.01940327290223174
[0114] 起诉0.016052843287550623
[0115] 出生0.013559500318485606
[0116] 证据0.01324783244735248
[0117] 旅游0.01194272323698251
[0118] 要求0.01188428551114505
[0119] 规定0.011221991284987154
[0120] 专利0.011144074317203873
[0121] 行政0.010910323413854027
[0122] 权利0.010715530994395824
[0123] 判决0.010248029187696133
[0124] 技术0.01018959146185867
[0125] 争议0.01017011221991285
[0126] 委员会0.009975319800454647
[0127] 产品0.009605214203484059
[0128] 认定0.009468859509863314
[0129] 本实施例中,第一次分类得到的法律本体知识库中实体词语及其关系层次,如图2所示。
[0130] 本实施例中,将主题0(topic 0)、主题1(topic 1)、主题2(topic 2)的文书分为三类,分别记为分类0,分类1,分类2,然后进行第二轮分类:
[0131] 本实施例中,第二次分类,对第一次分类得到的分类0进行主题分类,得到的三个主题下的主题词语及其概率如下:
[0132] topic 0:
[0133] 补偿0.025827294598994424
[0134] 管理0.02316208779335283
[0135] 上诉0.022909973636062408
[0136] 土地0.021361272384135536
[0137] 拆迁0.020857044069554694
[0138] 原告0.017471511100226184
[0139] 公司0.016643136011986227
[0140] 临时0.01581476092374627
[0141] 支付0.01549061415008716
[0142] 一审0.014518173829109821
[0143] 合同0.012933456268998602
[0144] 被告0.012825407344445566
[0145] 政府0.012465244262602107
[0146] 标准0.012465244262602107
[0147] 行政0.011744918098915189
[0148] 管委会0.01156483655799346
[0149] 协议0.010808494086122196
[0150] 本案0.010628412545200467
[0151] 约定0.010052151614250934
[0152] 规定0.00972800484059182
[0153] topic 1:
[0154] 被告人0.039311415137042616
[0155] 人民法院0.020743457335267113
[0156] 裁定0.020466323636733147
[0157] 审理0.019773489390398243
[0158] 罪犯0.01857257669675107
[0159] 刑事0.015662672862144462
[0160] 判决0.015246972314343517
[0161] 依法0.014923649666053893
[0162] 判处0.014646515967519931
[0163] 执行0.014046059620696345
[0164] 中华人民共和国0.011828990032424644
[0165] 认定0.01155185633389068
[0166] 被害人0.010443321539754828
[0167] 机关0.009750487293419922
[0168] 法律0.0096581093939086
[0169] 故意0.0096581093939086
[0170] 上诉0.00961192044415294
[0171] 有期徒刑0.009427164645130298
[0172] 发生0.009057653047085015
[0173] 审判员0.009011464097329355
[0174] topic 2:
[0175] 公司0.025217530195625056
[0176] 上诉0.01833414463476224
[0177] 行0.012971949253095623
[0178] 没有0.01137469956493961
[0179] 证明0.010804253247741032
[0180] 人民币0.010576074720861603
[0181] 证言0.010461985457421887
[0182] 情况0.010119717667102741
[0183] 项目0.009929568894703216
[0184] 工程0.009207003559585019
[0185] 证实0.008902765523745778
[0186] 账户0.008560497733426632
[0187] 证人0.008294289452067297
[0188] 证据0.008028081170707961
[0189] 现金0.007571724116949101
[0190] 吴起0.007533694362469196
[0191] 工作0.0071533968176701445
[0192] 辩护人0.0065829505004715684
[0193] 职务0.006468861237031854
[0194] 认定0.006392801728072043
[0195] 本实施例中,对第一次分类得到的分类0进行主题分类,得到的实体词语及其关系层次,如图3所示。
[0196] 本实施例中,第二次分类,对第一次分类得到的分类1进行主题分类,得到的三个主题下的主题词语及其概率如下:
[0197] topic 0:
[0198] 诉讼0.03758776353541387
[0199] 二审0.03037409869990828
[0200] 再审0.03030881666519782
[0201] 申请人0.023927497772250565
[0202] 本案0.02302986979498177
[0203] 申请0.02226280588713389
[0204] 规定0.019863691111524563
[0205] 一审0.019618883481360348
[0206] 民事0.019178229747064755
[0207] 判决0.0167464739541002
[0208] 法院0.015783563942120948
[0209] 中华人民共和国0.015147064103693984
[0210] 公司0.014788012912786466
[0211] 时效0.013939346461550515
[0212] 上诉0.013727179848741526
[0213] 证据0.013319167131801165
[0214] 法律0.013221244079735479
[0215] 代理0.012796910854117502
[0216] 期间0.01253578271527567
[0217] 人民法院0.01206248796362485
[0218] topic 1:
[0219] 公司0.09230282265274267
[0220] 工程0.016336205438475256
[0221] 人民法院0.014668999144650686
[0222] 合同0.014209913353597543
[0223] 提供0.01203529644860897
[0224] 证明0.010295602924618114
[0225] 执行0.010223115694451829
[0226] 有限公司0.009739867493343256
[0227] 产品0.008894183141403257
[0228] 高级0.0085075845805164
[0229] 仲裁0.007541088178299257
[0230] 判决0.007444438538077543
[0231] 协议0.007444438538077543
[0232] 认定0.0073236264878004
[0233] 裁定0.007251139257634114
[0234] 本案0.007251139257634114
[0235] 签订0.007178652027467828
[0236] 房屋0.007106164797301543
[0237] 证据0.007106164797301543
[0238] 上诉0.007082002387246114
[0239] topic 2:
[0240] 公司0.07835860181090756
[0241] 合同0.019682281289988175
[0242] 转让0.01802201273142524
[0243] 协议0.013324667541344738
[0244] 财产0.013243678831170936
[0245] 双方0.012231319953998414
[0246] 支付0.011785882048042503
[0247] 土地0.011502421562434197
[0248] 判决0.010530557040348576
[0249] 规定0.010145860667023018
[0250] 本案0.010064871956849216
[0251] 技术0.009740917116154008
[0252] 证据0.008546333641090432
[0253] 共同0.008303367510569027
[0254] 法律0.008262873155482126
[0255] 约定0.00797941266987382
[0256] 夫妻0.007817435249526217
[0257] 款项0.007371997343570307
[0258] 证明0.007108784035505451
[0259] 申请0.006724087662179893
[0260] 本实施例中,对第一次分类得到的分类1进行主题分类,得到的实体词语及其关系层次,如图4所示。
[0261] 本实施例中,第二次分类,对第一次分类得到的分类2进行主题分类,得到三个主题下的主题词语及其概率如下:
[0262] topic 0:
[0263] 专利0.046073634052009656
[0264] 要求0.03962050471163914
[0265] 权利0.037270027137332
[0266] 技术0.03427851022457745
[0267] 公司0.023081689779696147
[0268] 产品0.01735507168956602
[0269] 证据0.015132801982948354
[0270] 申请0.01457723455629394
[0271] 公开0.014363554776811472
[0272] 特征0.012825060364537705
[0273] 说明书0.012269492937883288
[0274] 判决0.011030150216884978
[0275] 二审0.010944678305091991
[0276] 决定0.009833543451783158
[0277] 复审0.009705335584093677
[0278] 认定0.009662599628197183
[0279] 审查0.009577127716404196
[0280] 设计0.009064296245646274
[0281] 效果0.008807880510267313
[0282] 专利权0.00863693668668134
[0283] topic 1:
[0284] 商标0.1053547720902788
[0285] 公司0.04951387305716853
[0286] 申请0.02668937494132951
[0287] 争议0.020493770869932548
[0288] 委员会0.01821400313803323
[0289] 本案0.013976317236385094
[0290] 证据0.013466722096313482
[0291] 二审0.013252155721546487
[0292] 认定0.012796202175166626
[0293] 判决0.01239389022247851
[0294] 再审0.012045219863482145
[0295] 规定0.011991578269790396
[0296] 裁定0.01183065348871515
[0297] 异议0.010865104802263676
[0298] 构成0.010194584881116818
[0299] 申请人0.00957770655366171
[0300] 中华人民共和国0.009524064959969962
[0301] 相关0.009443602569432339
[0302] 行政0.00882672424197723
[0303] 提交0.00845123308613499
[0304] topic 2:
[0305] 上诉0.07846932751310445
[0306] 一审0.049236989462761865
[0307] 起诉0.04644614201119917
[0308] 出生0.04186628978299372
[0309] 旅游0.03871764137610247
[0310] 行政0.01696334329212659
[0311] 原告0.016784442814462317
[0312] 公司0.015603699661878098
[0313] 处罚0.012741292019249692
[0314] 规定0.011560548866665474
[0315] 原审0.011417428484534054
[0316] 科技0.010916507147074083
[0317] 行为0.010129345045351273
[0318] 被告0.009449523230227026
[0319] 作出0.009127502370431329
[0320] 旅行社0.007803638835715691
[0321] 证明0.006730235969730039
[0322] 法定0.006336654918868633
[0323] 进行0.006336654918868633
[0324] 决定0.006300874823335778
[0325] 本实施例中,对第一次分类得到的分类2进行主题分类,得到的实体词语及其关系层次,如图5所示。
[0326] 本实施例中,第三次分类,以第二次分类得到topic0主题类别(分类0)为例,对第二次分类得到的分类0进行主题分类,得到的分类结果如下:
[0327] topic 0:
[0328] 拆迁0.02838756716488881
[0329] 管理0.02680255503954605
[0330] 补偿0.026327051401943222
[0331] 上诉0.02490054048913474
[0332] 临时0.019987002900572187
[0333] 原告0.019352998050435083
[0334] 支付0.017767985925092326
[0335] 一审0.01681697864988667
[0336] 公司0.015390467737078186
[0337] 合同0.015390467737078186
[0338] 管委会0.015231966524543911
[0339] 被告0.014597961674406808
[0340] 标准0.014439460461872531
[0341] 协议0.013171450761598324
[0342] 房屋0.013171450761598324
[0343] 约定0.012378944698926945
[0344] 面积0.01142793742372129
[0345] 政府0.010952433786118463
[0346] 履行0.010635431361049911
[0347] 本案0.010635431361049911
[0348] topic 1:
[0349] 被告人0.03511978747776071
[0350] 人民法院0.019034388632984813
[0351] 依法0.018790670468670025
[0352] 审理0.018303234140040453
[0353] 判决0.015622334332577804
[0354] 裁定0.015622334332577804
[0355] 刑事0.015134898003948233
[0356] 判处0.013428870853744728
[0357] 认定0.01269771636080037
[0358] 中华人民共和国0.01196656186785601
[0359] 被害人0.01196656186785601
[0360] 执行0.010747971046282079
[0361] 罪犯0.010504252881967293
[0362] 上诉0.010260534717652507
[0363] 人民币0.010016816553337719
[0364] 有期徒刑0.009773098389022933
[0365] 犯罪0.009529380224708147
[0366] 意见0.009529380224708147
[0367] 审判员0.00928566206039336
[0368] 证实0.009041943896078574
[0369] topic 2:
[0370] 吴起0.040996668115312176
[0371] 工程0.03354649117360981
[0372] 项目0.030028352062250362
[0373] 公司0.027544959748349574
[0374] 建设0.015955795616812565
[0375] 科技0.01574884625732083
[0376] 情况0.011816808426977918
[0377] 职务0.011816808426977918
[0378] 没有0.011609859067486185
[0379] 同意0.011609859067486185
[0380] 账户0.010989010989010988
[0381] 证言0.010989010989010988
[0382] 上诉0.010989010989010988
[0383] 合同0.010989010989010988
[0384] 行贿0.010782061629519257
[0385] 湖南0.009747314832060594
[0386] 经理0.008091719956126736
[0387] 投资0.007884770596635003
[0388] 出资0.007470871877651539
[0389] 分红0.007263922518159806
[0390] 本实施例中,对第二次分类得到的分类0进行主题分类,形成的层次关系如图6所示。
[0391] 在前述法律本体知识库自动构建方法的具体实施方式中,进一步地,所述直至符合预设的终止迭代条件,则停止迭代包括:
[0392] 在应用LDA主题模型不断迭代按主题分类和提取主题词语过程中,判断主题分类结果中是否有预设比例的数据的最大主题概率小于预设的阈值;
[0393] 若是,则判定不能按照主题继续分类,停止迭代。
[0394] 本实施例中,LDA主题模型中每一篇文档代表了一些主题所构成的一个概率分布,而每一个主题又代表了很多单词所构成的一个概率分布。因此,可以看作一篇文档按照一定概率选择了某一主题,该主题又对应一些单词分布,本实施例中将文档最大选择概率的主题作为文档的主题。所以,在应用LDA主题模型不断迭代按主题分类和提取主题词语过程中,需设置合理的临界值,例如,可以假设所述预设比例为30%,预设的阈值为0.5,即:在应用LDA主题模型不断迭代按主题分类和提取主题词语过程中,需判断主题分类结果中是否有30%的数据的最大主题概率小于<0.5,若是,则判断不能按照主题继续分类,停止迭代。
[0395] 在前述法律本体知识库自动构建方法的具体实施方式中,进一步地,所述根据提取的主题词语及得到的主题词语间的层次关系,构建法律本体知识库包括:
[0396] 将提取的主题词语作为法律本体知识库的本体、得到的主题词语间的层次关系作为法律本体知识库的子父类关系,形成本体-子父类关系-本体的三元组结构,完成法律领域本体知识库的构建。
[0397] 本实施例中,将迭代分类过程中提取的主题词语作为法律本体知识库的本体,将每一次分类得到的主题词语间的层次关系作为法律本体知识库的子父类关系,形成本体(实体词语)-子父类关系-本体(实体词语)的三元组结构,从而自动构建法律本体知识库。
[0398] 本实施例所述的自动构建法律本体知识库的方法不仅可以应用于法律领域本体知识库的构建,也适用于其他特定领域本体知识库的构建,具体的,统计其他特定领域的专业高频词,构建其他特定领域词表,基于构建的其他特定领域词表,自动构建其他特定领域的本体知识库。
[0399] 以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明所述原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈