首页 / 专利库 / 赌博 / 赌博 / 一种基于语义分析技术的赌博人员识别方法

一种基于语义分析技术的赌博人员识别方法

阅读:152发布:2020-05-13

专利汇可以提供一种基于语义分析技术的赌博人员识别方法专利检索,专利查询,专利分析的服务。并且本 发明 公开了一种基于语义分析技术的 赌博 人员识别方法,属于移动通信网及外部 大数据 技术领域。本发明的基于语义分析技术的赌博人员识别方法,该方法采用爬虫技术爬取失信人员信息,构建失信人员行为 数据库 ;采用 自然语言处理 技术和 文本挖掘 技术进行失信事实 数据处理 ,得到分词结果,与赌博关键词进行短语相似度匹配,匹配成功则保留分词结果完善赌博关键词库, 抽取 赌博人员关键信息,依据抽取的赌博人员关键信息进行赌博用户多维验真。该发明的基于语义分析技术的赌博人员识别方法能够为金融征信、反欺诈等提供高价值的 基础 数据 支撑 ,从而促进社会稳定、经济发展,具有很好的推广应用价值。,下面是一种基于语义分析技术的赌博人员识别方法专利的具体信息内容。

1.一种基于语义分析技术的赌博人员识别方法,其特征在于:该方法采用爬虫技术爬取失信人员信息,构建失信人员行为数据库;采用自然语言处理技术和文本挖掘技术进行失信事实数据处理,得到分词结果,与赌博关键词进行短语相似度匹配,匹配成功则保留分词结果完善赌博关键词库,抽取赌博人员关键信息,依据抽取的赌博人员关键信息进行赌博用户多维验真。
2.根据权利要求1所述的基于语义分析技术的赌博人员识别方法,其特征在于:该方法具体包括以下步骤:
S1、失信人员行为数据库构建;
S2、失信事实语义分析;
S3、赌博用户识别;
S4、赌博关键信息抽取;
S5、赌博用户多维验真。
3.根据权利要求2所述的基于语义分析技术的赌博人员识别方法,其特征在于:步骤S1中,失信人员行为数据库构建过程中,通过爬虫技术对公开的失信人员信息进行数据爬取,获取失信人员信息,构建失信人员行为数据库。
4.根据权利要求3所述的基于语义分析技术的赌博人员识别方法,其特征在于:步骤S2中,针对爬虫技术进行数据爬取的失信人员信息,利用自然语言统计模式,从失信事实数据中提取赌博关键信息,进行格式化处理,具体过程为:1)中文分词库构建;2)分词处理;3)分词向量构建。
5.根据权利要求4所述的基于语义分析技术的赌博人员识别方法,其特征在于:中文分词库构建利用公开词库收集中文通用词语,基于预处理后的中文通用词语,进行赌博关键词添加。
6.根据权利要求5所述的基于语义分析技术的赌博人员识别方法,其特征在于:分词处理过程针对中文分词库,使用中文分词算法对失信事实数据进行分词处理,分词向量构建过程中将分词结果中的词转化为稠密向量,挖掘出具有类似语义的关键信息,完善赌博关键词库。
7.根据权利要求6所述的基于语义分析技术的赌博人员识别方法,其特征在于:步骤S3中赌博用户识别中,通过已构建的赌博关键词库,与分词后的结果进行短语相似度匹配,匹配符合赌博特征,则保留分词结果,进行信息抽取。
8.根据权利要求7所述的基于语义分析技术的赌博人员识别方法,其特征在于:步骤S4中,赌博关键信息抽取包括实体抽取和实体关系抽取。
9.根据权利要求8所述的基于语义分析技术的赌博人员识别方法,其特征在于:步骤S5中,赌博用户多维验真基于抽取的赌博关键信息,结合运营商数据进行多维度校验。

说明书全文

一种基于语义分析技术的赌博人员识别方法

技术领域

[0001] 本发明涉及移动通信网及外部大数据技术领域,具体提供一种基于语义分析技术的赌博人员识别方法。

背景技术

[0002] 赌博具有很大的不确定性,赌博成为了社会公害之一。特别是近年来,赌博群体数量、区域分布、群体结构均呈现蔓延发展的态势,由赌博滋生的金融欺诈更是层出不穷,给社会的稳定及经济发展带来了很多的不良影响。现今的金融征信评估维度大而全,但是缺少细化的特性的评估维度,无法应对不同场景的特殊需求,例如,创业失败导致的贷款未还失信人群和赌博导致的贷款未还失信人群,同样为失信,但是在借贷场景下,创业失败导致的贷款未还失信的征信等级应高于赌博导致的贷款未还失信的征信等级,在金融征信等经济领域不能很好的分辨出征信等级,导致社会中诈骗等情况的发生,给社会带来诸多不稳定因素。

发明内容

[0003] 本发明的技术任务是针对上述存在的问题,提供一种能够为金融征信、反欺诈等提供高价值的基础数据支撑,从而促进社会稳定、经济发展的基于语义分析技术的赌博人员识别方法。
[0004] 为实现上述目的,本发明提供了如下技术方案:
[0005] 一种基于语义分析技术的赌博人员识别方法,该方法采用爬虫技术爬取失信人员信息,构建失信人员行为数据库;采用自然语言处理技术和文本挖掘技术进行失信事实数据处理,得到分词结果,与赌博关键词进行短语相似度匹配,匹配成功则保留分词结果完善赌博关键词库,抽取赌博人员关键信息,依据抽取的赌博人员关键信息进行赌博用户多维验真。
[0006] 该基于语义分析技术的赌博人员识别方法在深入分析金融征信传统分析维度和效果上的壁垒后,引入大量失信数据,通过自然语言处理和文本挖掘技术实现赌博用户精准识别,为金融征信、反欺诈等提供基础数据支撑。
[0007] 作为优选,该方法具体包括以下步骤:
[0008] S1、失信人员行为数据库构建;
[0009] S2、失信事实语义分析;
[0010] S3、赌博用户识别;
[0011] S4、赌博关键信息抽取;
[0012] S5、赌博用户多维验真。
[0013] 作为优选,步骤S1中,失信人员行为数据库构建过程中,通过爬虫技术对公开的失信人员信息进行数据爬取,获取失信人员信息,构建失信人员行为数据库。
[0014] 通过爬虫技术,对公开的失信黑名单、失信被执行人、人民法院、检察院公式的法律文书、重要案件进行数据爬取、处理,获取失信人员信息,包括姓名、性别、身份证号码、家庭地址、出生日期、失信事实、失信时间、公示截止时间、认定单位,建立失信人员行为数据库。其中,针对部分图片格式的数据,需要采用OCR技术进行图片转文本。
[0015] 作为优选,步骤S2中,针对爬虫技术进行数据爬取的失信人员信息,利用自然语言统计模式,从失信事实数据中提取赌博关键信息,进行格式化处理,具体过程为:1)中文分词库构建;2)分词处理;3)分词向量构建。
[0016] 针对非格式化的、无法通过固定规则提取有效信息的失信事实数据,利用自然语言的统计模式,使用分词算法、文本挖掘技术从失信事实数据中提取赌博关键信息,并进行格式化处理。
[0017] 作为优选,中文分词库构建利用公开词库收集中文通用词语,基于预处理后的中文通用词语,进行赌博关键词添加。
[0018] 该过程中,利用搜狗输入法、高校公开词库、互联网公开词库收集中文通用词语,基于预处理后的中文通用词语,进行赌博关键词添加,以hash结构构件中文分词词库,作为分词的基础。
[0019] 作为优选,分词处理过程针对中文分词库,使用中文分词算法对失信事实数据进行分词处理,分词向量构建过程中将分词结果中的词转化为稠密向量,挖掘出具有类似语义的关键信息,完善赌博关键词库。
[0020] 针对中文分词词库,使用基于隐尔科夫模型的中文分词算法对失信事实文本数据进行分词处理,将文本分为主语、谓语、宾语、语气词等。在分词过程中,进行词法歧义、句法歧义、语义歧义、语音歧义消除,提高分词准确率;歧义消除后,为分词结果中的每个单词标注一个正确的词性,即确定每个词是名词、动词、形容词或者其他词性。词性标注后,根据赌博用户识别场景,把一些没有意义的词去掉,包括句号、语气词、形容词等。
[0021] 作为优选,步骤S3中赌博用户识别中,通过已构建的赌博关键词库,与分词后的结果进行短语相似度匹配,匹配符合赌博特征,则保留分词结果,进行信息抽取。若不匹配赌博特性,则不进行处理。
[0022] 作为优选,步骤S4中,赌博关键信息抽取包括实体抽取和实体关系抽取。
[0023] 实体抽取包括地点、人物、组织、时间、数量词等,抽取赌博人员的姓名、性别、身份号码、居住地址、所属地市、关键时间地点。实体关系抽取包括抽取赌博人员的行为信息,如哪个人在什么时间、什么地方进行赌博。
[0024] 作为优选,步骤S5中,赌博用户多维验真基于抽取的赌博关键信息,结合运营商数据进行多维度校验。包括姓名、性别、身份证对比、居住地址和常驻位置对比,所述地市和归属地对比,关键事件地点时空交叉验证,支撑赌博用户多维验真。
[0025] 与现有技术相比,本发明的基于语义分析技术的赌博人员识别方法具有以下突出的有益效果:所述基于语义分析技术的赌博人员识别方法深度分析赌博影响、金融欺诈、金融征信的矛盾与冲突,创新实现了基于爬虫技术、自然语言处理技术和文本挖掘技术的赌博用户识别,再结合关键信息抽取与多维验真手段,有效提高赌博样本准确性,为金融征信、反欺诈等提供高价值的基础数据支撑,具有良好的推广应用价值。附图说明
[0026] 图1是本发明所述基于语义分析技术的赌博人员识别方法的流程图

具体实施方式

[0027] 下面将结合附图和实施例,对本发明的基于语义分析技术的赌博人员识别方法作进一步详细说明。
[0028] 实施例
[0029] 如图1所示,本发明的基于语义分析技术的赌博人员识别方法,采用爬虫技术爬取失信人员信息,构建失信人员行为数据库;采用自然语言处理技术和文本挖掘技术进行失信事实数据处理,得到分词结果,与赌博关键词进行短语相似度匹配,匹配成功则保留分词结果完善赌博关键词库,抽取赌博人员关键信息,依据抽取的赌博人员关键信息进行赌博用户多维验真。具体包括以下步骤:
[0030] S1、失信人员行为数据库构建。
[0031] 通过爬虫技术,对公开的失信黑名单、失信被执行人、人民法院、检察院公式的法律文书、重要案件进行数据爬取、处理,获取失信人员信息,包括姓名、性别、身份证号码、家庭地址、出生日期、失信事实、失信时间、公示截止时间、认定单位,建立失信人员行为数据库。其中,针对部分图片格式的数据,需要采用OCR技术进行图片转文本。
[0032] S2、失信事实语义分析。
[0033] 针对非格式化的,无法通过固定规则提取有效信息的失信事实数据,利用自然语言统计模式,使用分词算法、文本挖掘技术从失信事实数据中提取赌博关键信息,进行格式化处理。具体过程为:1)中文分词库构建;2)分词处理; 3)分词向量构建。
[0034] 中文分词库构建利用搜狗输入法、高校公开词库、互联网公开词库收集中文通用词语,基于预处理后的中文通用词语,进行赌博关键词添加,以hash结构构件中文分词词库,作为分词的基础。
[0035] 分词处理过程针对中文分词库,使用基于隐马尔科夫模型的中文分词算法对失信事实文本数据进行分词处理,将文本分为主语、谓语、宾语、语气词等。在分词过程中,进行词法歧义、句法歧义、语义歧义、语音歧义消除,提高分词准确率;歧义消除后,为分词结果中的每个单词标注一个正确的词性,即确定每个词是名词、动词、形容词或者其他词性。词性标注后,根据赌博用户识别场景,把一些没有意义的词去掉,包括句号、语气词、形容词等。
[0036] 分词向量构建将分词结果中的词转化为稠密向量,借助于词向量距离远近的特性,可以挖掘出具有类似语义的一组关键信息,支撑赌博关键词库完善。
[0037] S3、赌博用户识别。
[0038] 通过已构建的赌博关键词库,与分词后的结果进行短语相似度匹配,匹配符合赌博特征,则保留分词结果,进行信息抽取。若不匹配赌博特性,则不进行处理。
[0039] S4、赌博关键信息抽取。
[0040] 赌博关键信息抽取包括实体抽取和实体关系抽取。实体抽取包括地点、人物、组织、时间、数量词等,抽取赌博人员的姓名、性别、身份号码、居住地址、所属地市、关键时间地点。实体关系抽取包括抽取赌博人员的行为信息,如哪个人在什么时间、什么地方进行赌博。
[0041] S5、赌博用户多维验真。
[0042] 赌博用户多维验真基于抽取的赌博关键信息,结合运营商数据进行多维度校验。包括姓名、性别、身份证对比、居住地址和常驻位置对比,所述地市和归属地对比,关键事件地点时空交叉验证,支撑赌博用户多维验真。
[0043] 基于语义分析技术的赌博人员识别方法,基于语义分析技术的赌博人员识别方法深度分析赌博影响、金融欺诈、金融征信的矛盾与冲突,创新实现了基于爬虫技术、自然语言处理技术和文本挖掘技术的赌博用户识别,再结合关键信息抽取与多维验真手段,有效提高赌博样本准确性,为金融征信、反欺诈等提供高价值的基础数据支撑。
[0044] 以上所述的实施例,只是本发明较优选的具体实施方式,本领域的技术人员在本发明技术方案范围内进行的通常变化和替换都应包含在本发明的保护范围内。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈