首页 / 专利库 / 专利权 / 第I章 / 国际公布 / 一种企业关系挖掘方法

一种企业关系挖掘方法

阅读:272发布:2020-07-23

专利汇可以提供一种企业关系挖掘方法专利检索,专利查询,专利分析的服务。并且一种企业关系挖掘方法,属于 数据挖掘 领域,包括:关系定义:企业关系包括法人关系、股东关系、任职关系、分支机构关系、对外投资关系和竞争关系;数据获取:企业数据包括营业执照信息、股东信息、员工信息、分支机构信息和经营范围标注信息;数据清洗:检查数据一致性、处理无效值和缺失值;多源数据融合:将调查、分析得到的所有信息综合到一起,并对所有信息进行统一的评价;关系 抽取 。企业关系挖掘是构建企业关系图谱的核心,企业关系图谱可将企业关系以结构化的图形展示给用户,方便用户快速理解和进一步探索。挖掘企业关系可以发现企业社交圈、发现企业投资圈、发现企业股权结构、发现企业实际控制人、进行企业 风 险评估等。,下面是一种企业关系挖掘方法专利的具体信息内容。

1.一种企业关系挖掘方法,其特征在于,包括以下步骤:
步骤一、关系定义
企业关系包括法人关系、股东关系、任职关系、分支机构关系、对外投资关系和竞争关系;
步骤二、数据获取
企业数据包括营业执照信息、股东信息、员工信息、分支机构信息和经营范围标注信息;
步骤三、数据清洗
检查数据一致性、处理无效值和缺失值;
步骤四、多源数据融合
将调查、分析得到的所有信息综合到一起,并对所有信息进行统一的评价;
步骤五、关系抽取
2.根据权利要求1所述的一种企业关系挖掘方法,其特征在于,步骤一具体包括以下步骤:
S101:法人关系
法定代表人是由出资人或股东依法设立的公司所有事项负责人,法定代表人与公司关系密切,法定代表人和公司之间有法人关系;
S102:股东关系
股东是公司的资金投入者,将发起人和投资人统称为股东,股东可以分为个人股东和企业股东,个人股东、企业股东都和公司之间有股东关系;
S103:任职关系
公司的员工和公司之间有任职关系,公司的员工包括董事、高管、普通员工;
S104:分支机构关系
分支机构是总公司所属的不具有独立法人地位的派出机构,分支机构在不同的企业或行业有不同的名称,分支机构和总公司有分支机构关系;
S105:对外投资关系
企业以企业的名义去投资其他企业,成为其它企业的股东,企业和被投资的企业之间有对外投资关系;
S106:竞争关系
同一行业的企业存在竞争关系,经营范围重叠度高的企业之间竞争关系强,重叠度低的企业竞争关系弱,地理位置相距远的企业之间竞争关系弱,地理位置相距近的企业之间竞争关系强。
3.根据权利要求2所述的一种企业关系挖掘方法,其特征在于,步骤二具体包括以下步骤:
S201:营业执照信息
营业执照信息包括统一社会信用代码、企业名称、法定代表人、登记机关、住所、经营范围;
数据来源:黄页88网站、一呼百应网站、全国企业信用信息公示系统网站;
数据获取方法为:
S20101:建立企业名录
分别打开黄页88网站和一呼百应网站,找到企业名录列表并下载企业名称数据到数据库表即企业名录表;
S20102:查询条件
打开全国企业信用信息公示系统网站,在查询框内输入企业名录表内的第一个企业名,并下载查询到的营业执照信息数据到数据库表即企业营业执照信息表;
S20103:重复查询
重复步骤S20102,依次录入企业名录表的下一个企业名,直至所有单位查询完毕;
S202:股东信息
股东信息包括股东名称、股东类型、证件类型、证件号码;
数据来源:全国企业信用信息公示系统网站、百度信用网站、天眼查网站、企查查网站、启信宝网站;
数据获取方法为:
S20201:查询条件
分别打开数据来源中的网站,在查询框内输入企业名录表内的第一个企业名,并下载查询到的股东信息数据到数据库表即企业股东信息表;
S20202:重复查询
重复步骤S20201,依次录入企业名录表的下一个企业名,直至所有单位查询完毕;
S203:员工信息
员工信息包括员工姓名、职位;
数据来源:全国企业信用信息公示系统网站;
数据获取方法为:
S20301:查询条件
打开全国企业信用信息公示系统网站,在查询框内输入企业名录表内的第一个企业名,下载查询到的企业主要员工信息数据到数据库表即企业员工信息表;
S20302:重复查询
重复步骤S20301,依次录入企业名录表的下一个企业名,直至所有单位查询完毕;
S204:分支机构信息
分级机构信息包括分支机构统一社会信用代码、分支机构名称;
数据来源:全国企业信用信息公示系统网站、启信宝、天眼查;
数据获取方法为:
S20401:查询条件
分别打开数据来源中的网站,在查询框内输入企业名录表内的第一个企业名,并下载查询到的分支机构信息数据到数据库表即企业分支机构信息表;
S20402:重复查询
重复步骤S20401,依次录入企业名录表的下一个企业名,直至所有单位查询完毕;
S205:经营范围标注信息
经营范围标注信息包括企业名称、经营范围、所属行业;
数据来源:天眼查网站;
数据获取方法为:
S20501:查询条件
打开天眼查网站,在查询框内输入企业名录表内的第一个企业名,并下载查询到的分支机构信息数据到数据库表即企业经营范围标注表;
S20502:重复查询
重复步骤S20501,依次录入企业名录表的下一个企业名,直至所有单位查询完毕。
4.根据权利要求3所述的一种企业关系挖掘方法,其特征在于,步骤三具体包括以下步骤:
S301:一致性检查
根据每个变量的合理取值范围和相互关系,检查数据是否合乎要求,发现超出正常范围、逻辑上不合理或相互矛盾的数据;
S302:无效值和缺失值处理。
5.根据权利要求4所述的一种企业关系挖掘方法,其特征在于,步骤301具体包括以下步骤:
S30101:统一社会信用代码检查
统一社会信用代码编码是18位阿拉伯字母或者大写英文字母,不符合编码规则的数据都被重置为空;
S30102:股东类型检查
股东类型取值包括股东、自然人股东、企业股东、其他投资者、内资合伙企业、企业法人、法人股东,其他取值或空值重置为股东;
S30103:证件类型检查
股东信息中的证件类型取值包括合伙企业营业执照、公司法人营业执照,其他取值重置为空。
6.根据权利要求5所述的一种企业关系挖掘方法,其特征在于,步骤302具体包括以下步骤:
S30201:股东信息处理
股东信息表中的股东姓名字段缺失则删掉此条股东信息记录;
S30202:员工信息处理
员工信息表中员工姓名字段缺失则删掉此条员工信息记录;
S30203:分支机构信息处理
分支机构信息表中分支机构名称字段缺失则删掉此条分支机构信息记录。
7.根据权利要求6所述的一种企业关系挖掘方法,其特征在于,步骤四具体包括以下步骤:
S401:企业名录去重
企业名录从两个源数据获取,企业名称存在重叠现象。多源数据进行融合时需要进行去重处理;
企业名录表的主键为企业名称,在Oracle数据库中添加主键约束,将企业数据插入数据库时,企业名称相同的记录无法被插进企业名录表;
S402:属性决策
数据来源于不同的网站,不同网站上的属性值有冲突,为每一份数据设置一个置信度,属性值冲突时,选择置信度高的属性值,将置信度等级设为五个等级,如下:
一级:信任程度极低;
二级:信任程度低;
三级:一般信任;
四级:信任程度较高;
五级:信任程度高;
根据数据来源进行数据置信度等级划分,规定置信度等级如下表所示:
8.根据权利要求7所述的一种企业关系挖掘方法,其特征在于,步骤402具体包括以下步骤:
S40201:置信度初始化
在置信度等级的基础上,为每一个网站设置一个初始置信度n,n=可信度等级*100;
S40202:股东信息表属性决策
当多个网站上的股东信息存在冲突时,判断各个数据来源的股东信息置信度,选择置信度大的数据来源的属性值;
S40203:分支机构信息表属性决策
当多个网站上的股东信息存在冲突时,判断各个数据来源的股东信息置信度,选择置信度大的数据来源的属性值;
S403:实体对齐
假设企业名称不会变更,首先收集企业名录信息,然后根据企业名录信息到各个网站中收集需要的信息,能够保证所得到的的信息属于同一实体。
9.根据权利要求8所述的一种企业关系挖掘方法,其特征在于,步骤五具体包括以下步骤:
S501:法人关系
法人关系是企业法定代表人和企业之间的关系,一个企业有一个法定代表人,从企业营业执照信息表中抽取企业名称和企业法定代表人信息,生成“企业-法人-法人姓名”三元组;
S502:股东关系
企业的发起人、投资人、发起企业、投资企业都是股东,从企业股东信息表中抽取企业名称和股东信息,生成企业-股东-股东名称三元组;
S503:任职关系
企业的主要人员、高管、员工都与企业形成任职关系,从企业员工信息表中抽取企业名称和员工姓名信息,生成“企业-任职-员工姓名”三元组;
S504:分支机构关系
分支机构设立应向有关部申请登记,并在国家企业信用信息公示系统网站公布,从企业分支机构信息表中抽取企业名称和分支机构名称信息,生成“企业-分支机构-分支机构名称”三元组;
S505:对外投资关系
全国企业信用信息公示系统网站上没有对外投资信息,关系是相互的,从企业股东信息表中抽取企业名称和股东名称信息,股东投资企业,生成“企业-投资-企业”三元组;
S506:竞争关系
假设一:属于同一行业的企业有竞争关系;
假设二:属于同一城市的企业有竞争关系;
假设三:经营范围相似的企业有竞争关系;
竞争值m设置为0到100,初始值m=0;
竞争值变更规则如下表所示:
规则 变更
两个企业属于同一行业 m+20
两个企业属于同一城市 m+5
两个企业经营范围相似 m+(10-80)
10.根据权利要求9所述的一种企业关系挖掘方法,其特征在于,步骤506具体包括以下步骤:
S50601:同行业竞争关系
按照《国际标准产业分类》(1SIC)2008年第四次修订版的分类标准,将行业分为99类;
将企业经营范围标注表中80%的数据用于训练分类模型,剩余20%的数据用于测试分类模型;
(1)从企业经营范围标注表读取经营范围信息和所属行业信息;
(2)用Jieba分词工具将经营范围信息分词,生成分词结果集;
(3)去除分词结果集中的标点符号停用词;
(4)用Word2vec工具将分词集中的中文单词转为k维空间向量;
(5)所属行业按《国际标准产业分类》中的编号表示;
(6)选择80%的数据,用Python语言Scikit-learn库中的Multiclass训练多分类模型;
(7)用剩余20%的数据用于模型测试,并计算模型准确率;
将企业营业执照信息表中企业经营范围信息输入分类模型,计算企业所属行业,如果两个企业属于同一行业,按照规则变更置信度;
S50602:同城市竞争关系
企业所在城市信息可能存在企业名称、登记机关、住所信息中,抽取城市信息的优先级是登记机关、企业名称、住所信息;
(1)登记机关-城市信息抽取
用正则表达式“(.*?)市|区”抽取所在城市信息;
(2)企业名称/住所信息-城市信息抽取
用哈尔滨工业大学的自然语言处理库pyltp对输入信息进行命名实体识别;
pyltp可以识别的实体包括人名Nh、机构名Ni、地名Ns,识别模的标注结果采用O-S-B-I-E标注形式,其含义如下表所示:
标记 含义
O 这个词不是实体
S 这个词单独构成一个实体
B 一个实体的开始
I 一个实体的中间
E 一个实体的结束
S50603:同经营范围竞争关系
计算企业A和企业B的经营范围相似度,具体步骤如下:
(1)从企业营业执照信息表读取企业A的经营范围数据和企业B的经营范围数据;
(2)用Jieba分词工具将企业A和企业B的经营范围信息分别分词,生成分词结果集SEGA和SEGB;
(3)去除分词结果集SEGA和SEGB中的标点符号停用词;
(4)用Word2vec工具将分词集SEGA和SEGB中的中文单词转为k维空间向量vec(A)和vec(B);
(5)计算企业A的经营范围向量vec(A)和企业B的经营范围向量vec(B)的余弦相似度cos(A,B),计算公式为:
式中,cos(A,B)为企业A的经营范围向量的企业B的经营范围向量的余弦相似度,vec(A)为企业A的经营范围向量;vec(B)为企业B的经营范围向量。
若cos(A,B)为30%,则竞争值变更m+10,然后相似度提升1%,则竞争值同样提升1%。

说明书全文

一种企业关系挖掘方法

技术领域

[0001] 本发明属于数据挖掘技术领域,具体涉及一种企业关系挖掘方法。

背景技术

[0002] 2012年,谷歌提出了知识图谱的概念,用于增强搜索引擎功能。知识图谱是对客观物理世界的一种结构化的符号表达,也是一个网状知识库,它由具有属性的实体通过关系链接而成,关系也包含自身的属性。从图论的度理解,知识图谱其在本质上是一种概念网络,其节点表示客观物理世界中的实体,而边则表示实体之间存在的各种语义关系。企业与企业之间、企业与人物之间存在着各种关系。通过这些关系,可以构建企业关系网络,也就是企业知识图谱。构建企业知识图谱,能够帮助我们从大量杂乱的数据中挖掘出企业潜在关联,生成企业画像。
[0003] 企业知识图谱构建的关键点在于企业关系挖掘。企业关系挖掘常用的方法有基于规则的方法、基于有监督的统计学习的方法、无监督的开放关系抽取方法、引入第三方数据等。其中,基于规则的方法是使用关系抽取模板从文本中抽取实体关系的一种方法;基于有监督的统计学习的方法是将关系抽取任务转变为分类问题的一种方法;无监督的开放关系抽取方法的主要思想是将所有的动词短语都看作是潜在的关系动词进行关系抽取,然后通过关系判别器来判断每一个动词短语是否正确的表达了某一种关系;引入第三方数据是指引用第三方数据服务商的结构化的企业关系数据。
[0004] 《中文企业知识图谱构建与分析》(华东师范大学,2016届研究生硕士学位论文,程文亮),该方案从上市公司的公报数据中抽取了企业之间的商业往来关系,进行关系挖掘的步骤是将上市公司公报数据进行分词,统计公报中的动词词频。根据动词词频将公司之间的商业往来关系定义为持有关系、投资关系、转让关系、合并关系、收购关系五种。定义关系抽取的特征模板,根据特征模板构造关系抽取器。然后用最大熵模型训练关系分类器。该方案存在以下问题:
[0005] (1)上市公司数目只占总公司数目的很小一部分。非上市公司绝大部分不会公布本公司公报数据。基于公报数据定义的公司关系语义规则也不适用于其它来源数据。
[0006] (2)该方案中定义的企业关系分类并不合理。五种关系可以统一合并成股东关系。
[0007] (3)基于规则的关系抽取器准确率高、召回率低,在新数据集上的表现差,不利于拓展。
[0008] 《企业关系挖掘技术研究》(哈尔滨工业大学,2010年研究生硕士学位论文,郭凯),该方案中,信息抽取的数据源是阿里巴巴网站上的IT领域企业网页。从企业网页中抽取经营产品等信息作为代表企业信息的文本。基于“文本描述相似的企业在经营上也存在较大的相似性”这一假设,该方案引入了文本相似度,通过相似度值判定企业间竞争大小。因为企业间的关系主要体现在企业产品间的联系上,为了获得产品间的联系,该方案引入了本体,通过领域本体对产品进行推理查询,以产品关系判定企业关系。该方案将企业间的关系简单的分为竞争关系和合作关系。对生产同类产品的企业考虑了企业的经营模式信息。对于经营模式分别为“生产经营”和“经销批发”的同类产品企业间判定为存在潜在合作关系。该方案采用Jena工具包进行关系推理。该方案存在以下问题:
[0009] (1)数据集中在某一行业,类型单一。
[0010] (2)关系分类简单。同一行业的公司可以分为竞争合作关系。不同行业的企业关系按竞争合作关系分类并不太合适。该方案中只关注某一行业企业关系,没有指出跨行业的企业竞争合作关系如何抽取。竞争合作关系只是企业关系中的很小一部分,不适用于挖掘其它企业关系。
[0011] 《基于大数据的企业图谱的研究与应用》(华南理工大学,2017年研究生硕士学位论文,袁安)将数据源分为一级数据源和二级数据源。一级数据源为全国企业信用信息公示系统、中国执行信息公开网、国家知识产权局、商标局、中国裁判文书网、版权局以及地方工商局等国家机构网站,具有权威性、实时性。二级数据源为天眼查、企查查、启信宝等企业网站,综合性强,但不如政府类网站数据更新及时。该方法先从二级数据源中获取经过处理厂商处理的结构化数据快速抽取企业关系,然后再根据已构建的企业实体和企业关系去一级数据源中抽取更多更新的数据更新到知识图谱。该方法中将企业与人之间关系分为法人关系、股东关系、任职关系;企业与企业之间的关系分为分支机构关系、对外投资关系。其中法人关系和股东关系可以在企业工商注册信息中得到;任职关系从招聘类网站获取;分支机构关系和对外投资关系从企查查等网站的查询结构中获取。上述政府网站和企业网站提供的都是结构化数据,可以直接用爬虫获取后生成“实体-关系-实体”、“实体-属性-属性值”关系三元组。
[0012] 多源数据融合时需要考虑实体对齐和属性决策。多源数据实体对齐包括企业名称对齐和人物名称对齐。企业名称对齐采用的方法是将企业名称的哈希值作为企业ID,ID相同则为同一企业。人物名称对齐采用的方法是每次遇到人名都看作新的实体。随着属性和关系的增多,用知识推理结合结合聚类分析的方法缩小实体范围,最终合并成一个实体。多源数据属性决策解决多源数据属性值不一致的问题。当出现不一致时,根据互联网验证的结果来选择一个正确的结果。该方案存在以下问题:
[0013] (1)抽取关系时引入了企查查、天眼查等第三方数据。第三方结构化关系数据是数据服务商提供的挖掘好的关系,不能保证关系数据的权威性。
[0014] (2)招聘网站的人员任职信息实时性差、不准确。将这些信息作为关系抽取的验证信息比较合理,而作为生成关系的依据并不合理。
[0015] (3)企业名称实体对齐时用的方法略显画蛇添足。
[0016] (4)人物名称对齐时用的知识推理、聚类分析等方法并没有做详细介绍。
[0017] (5)属性决策所用方法描述不清晰。
[0018] 综上所述,现有的企业关系挖掘方法侧重点不同,各有优劣。企业关系分类没有统一的标准。不同的关系划分衍生出了多种多样的关系抽取方法。有的企业关系挖掘方法构建侧重于企业间的竞争合作关系,将研究重点放在某一行业的数据。有的企业关系挖掘将研究重点放在上市公司,上市公司的关系挖掘方式不适用于非上市公司的关系挖掘。有的为了快速构建企业关系,所以在挖掘关系时引入第三方数据,不能保证关系数据的权威性。

发明内容

[0019] 为了解决现有企业关系挖掘方法存在的上述诸多问题,本发明提供一种企业关系挖掘方法。
[0020] 本发明为解决技术问题所采用的技术方案如下:
[0021] 本发明的一种企业关系挖掘方法,包括以下步骤:
[0022] 步骤一、关系定义
[0023] 企业关系包括法人关系、股东关系、任职关系、分支机构关系、对外投资关系和竞争关系;
[0024] 步骤二、数据获取
[0025] 企业数据包括营业执照信息、股东信息、员工信息、分支机构信息和经营范围标注信息;
[0026] 步骤三、数据清洗
[0027] 检查数据一致性、处理无效值和缺失值;
[0028] 步骤四、多源数据融合
[0029] 将调查、分析得到的所有信息综合到一起,并对所有信息进行统一的评价;
[0030] 步骤五、关系抽取。
[0031] 进一步的,步骤一具体包括以下步骤:
[0032] S101:法人关系
[0033] 法定代表人是由出资人或股东依法设立的公司所有事项负责人,法定代表人与公司关系密切,法定代表人和公司之间有法人关系;
[0034] S102:股东关系
[0035] 股东是公司的资金投入者,将发起人和投资人统称为股东,股东可以分为个人股东和企业股东,个人股东、企业股东都和公司之间有股东关系;
[0036] S103:任职关系
[0037] 公司的员工和公司之间有任职关系,公司的员工包括董事、高管、普通员工;
[0038] S104:分支机构关系
[0039] 分支机构是总公司所属的不具有独立法人地位的派出机构,分支机构在不同的企业或行业有不同的名称,分支机构和总公司有分支机构关系;
[0040] S105:对外投资关系
[0041] 企业以企业的名义去投资其他企业,成为其它企业的股东,企业和被投资的企业之间有对外投资关系;
[0042] S106:竞争关系
[0043] 同一行业的企业存在竞争关系,经营范围重叠度高的企业之间竞争关系强,重叠度低的企业竞争关系弱,地理位置相距远的企业之间竞争关系弱,地理位置相距近的企业之间竞争关系强。
[0044] 进一步的,步骤二具体包括以下步骤:
[0045] S201:营业执照信息
[0046] 营业执照信息包括统一社会信用代码、企业名称、法定代表人、登记机关、住所、经营范围;
[0047] 数据来源:黄页88网站、一呼百应网站、全国企业信用信息公示系统网站;
[0048] 数据获取方法为:
[0049] S20101:建立企业名录
[0050] 分别打开黄页88网站和一呼百应网站,找到企业名录列表并下载企业名称数据到数据库表即企业名录表;
[0051] S20102:查询条件
[0052] 打开全国企业信用信息公示系统网站,在查询框内输入企业名录表内的第一个企业名,并下载查询到的营业执照信息数据到数据库表即企业营业执照信息表;
[0053] S20103:重复查询
[0054] 重复步骤S20102,依次录入企业名录表的下一个企业名,直至所有单位查询完毕;
[0055] S202:股东信息
[0056] 股东信息包括股东名称、股东类型、证件类型、证件号码;
[0057] 数据来源:全国企业信用信息公示系统网站、百度信用网站、天眼查网站、企查查网站、启信宝网站;
[0058] 数据获取方法为:
[0059] S20201:查询条件
[0060] 分别打开数据来源中的网站,在查询框内输入企业名录表内的第一个企业名,并下载查询到的股东信息数据到数据库表即企业股东信息表;
[0061] S20202:重复查询
[0062] 重复步骤S20201,依次录入企业名录表的下一个企业名,直至所有单位查询完毕;
[0063] S203:员工信息
[0064] 员工信息包括员工姓名、职位;
[0065] 数据来源:全国企业信用信息公示系统网站;
[0066] 数据获取方法为:
[0067] S20301:查询条件
[0068] 打开全国企业信用信息公示系统网站,在查询框内输入企业名录表内的第一个企业名,下载查询到的企业主要员工信息数据到数据库表即企业员工信息表;
[0069] S20302:重复查询
[0070] 重复步骤S20301,依次录入企业名录表的下一个企业名,直至所有单位查询完毕;
[0071] S204:分支机构信息
[0072] 分级机构信息包括分支机构统一社会信用代码、分支机构名称;
[0073] 数据来源:全国企业信用信息公示系统网站、启信宝、天眼查;
[0074] 数据获取方法为:
[0075] S20401:查询条件
[0076] 分别打开数据来源中的网站,在查询框内输入企业名录表内的第一个企业名,并下载查询到的分支机构信息数据到数据库表即企业分支机构信息表;
[0077] S20402:重复查询
[0078] 重复步骤S20401,依次录入企业名录表的下一个企业名,直至所有单位查询完毕;
[0079] S205:经营范围标注信息
[0080] 经营范围标注信息包括企业名称、经营范围、所属行业;
[0081] 数据来源:天眼查网站;
[0082] 数据获取方法为:
[0083] S20501:查询条件
[0084] 打开天眼查网站,在查询框内输入企业名录表内的第一个企业名,并下载查询到的分支机构信息数据到数据库表即企业经营范围标注表;
[0085] S20502:重复查询
[0086] 重复步骤S20501,依次录入企业名录表的下一个企业名,直至所有单位查询完毕。
[0087] 进一步的,步骤三具体包括以下步骤:
[0088] S301:一致性检查
[0089] 根据每个变量的合理取值范围和相互关系,检查数据是否合乎要求,发现超出正常范围、逻辑上不合理或相互矛盾的数据;
[0090] S302:无效值和缺失值处理。
[0091] 更进一步的,步骤301具体包括以下步骤:
[0092] S30101:统一社会信用代码检查
[0093] 统一社会信用代码编码是18位阿拉伯字母或者大写英文字母,不符合编码规则的数据都被重置为空;
[0094] S30102:股东类型检查
[0095] 股东类型取值包括股东、自然人股东、企业股东、其他投资者、内资合伙企业、企业法人、法人股东,其他取值或空值重置为股东;
[0096] S30103:证件类型检查
[0097] 股东信息中的证件类型取值包括合伙企业营业执照、公司法人营业执照,其他取值重置为空。
[0098] 更进一步的,步骤302具体包括以下步骤:
[0099] S30201:股东信息处理
[0100] 股东信息表中的股东姓名字段缺失则删掉此条股东信息记录;
[0101] S30202:员工信息处理
[0102] 员工信息表中员工姓名字段缺失则删掉此条员工信息记录;
[0103] S30203:分支机构信息处理
[0104] 分支机构信息表中分支机构名称字段缺失则删掉此条分支机构信息记录。
[0105] 进一步的,步骤四具体包括以下步骤:
[0106] S401:企业名录去重
[0107] 企业名录从两个源数据获取,企业名称存在重叠现象。多源数据进行融合时需要进行去重处理;
[0108] 企业名录表的主键为企业名称,在Oracle数据库中添加主键约束,将企业数据插入数据库时,企业名称相同的记录无法被插进企业名录表;
[0109] S402:属性决策
[0110] 数据来源于不同的网站,不同网站上的属性值有冲突,为每一份数据设置一个置信度,属性值冲突时,选择置信度高的属性值,将置信度等级设为五个等级,如下:
[0111] 一级:信任程度极低;
[0112] 二级:信任程度低;
[0113] 三级:一般信任;
[0114] 四级:信任程度较高;
[0115] 五级:信任程度高;
[0116] 根据数据来源进行数据置信度等级划分,规定置信度等级如下表所示:
[0117]数据来源 置信度
全国企业信用信息公示系统等政府类网站 五级
天眼查、企查查等商业数据服务商网站 四级
智联招聘、黄页88等其它网站 三级
[0118] 更进一步的,步骤402具体包括以下步骤:
[0119] S40201:置信度初始化
[0120] 在置信度等级的基础上,为每一个网站设置一个初始置信度n,n=可信度等级*100;
[0121] S40202:股东信息表属性决策
[0122] 当多个网站上的股东信息存在冲突时,判断各个数据来源的股东信息置信度,选择置信度大的数据来源的属性值;
[0123] S40203:分支机构信息表属性决策
[0124] 当多个网站上的股东信息存在冲突时,判断各个数据来源的股东信息置信度,选择置信度大的数据来源的属性值;
[0125] S403:实体对齐
[0126] 假设企业名称不会变更,首先收集企业名录信息,然后根据企业名录信息到各个网站中收集需要的信息,能够保证所得到的的信息属于同一实体。
[0127] 进一步的,步骤五具体包括以下步骤:
[0128] S501:法人关系
[0129] 法人关系是企业法定代表人和企业之间的关系,一个企业有一个法定代表人,从企业营业执照信息表中抽取企业名称和企业法定代表人信息,生成“企业-法人-法人姓名”三元组;
[0130] S502:股东关系
[0131] 企业的发起人、投资人、发起企业、投资企业都是股东,从企业股东信息表中抽取企业名称和股东信息,生成企业-股东-股东名称三元组;
[0132] S503:任职关系
[0133] 企业的主要人员、高管、员工都与企业形成任职关系,从企业员工信息表中抽取企业名称和员工姓名信息,生成“企业-任职-员工姓名”三元组;
[0134] S504:分支机构关系
[0135] 分支机构设立应向有关部申请登记,并在国家企业信用信息公示系统网站公布,从企业分支机构信息表中抽取企业名称和分支机构名称信息,生成“企业-分支机构-分支机构名称”三元组;
[0136] S505:对外投资关系
[0137] 全国企业信用信息公示系统网站上没有对外投资信息,关系是相互的,从企业股东信息表中抽取企业名称和股东名称信息,股东投资企业,生成“企业-投资-企业”三元组;
[0138] S506:竞争关系
[0139] 假设一:属于同一行业的企业有竞争关系;
[0140] 假设二:属于同一城市的企业有竞争关系;
[0141] 假设三:经营范围相似的企业有竞争关系;
[0142] 竞争值m设置为0到100,初始值m=0;
[0143] 竞争值变更规则如下表所示:
[0144]规则 变更
两个企业属于同一行业 m+20
两个企业属于同一城市 m+5
两个企业经营范围相似 m+(10-80)
[0145] 更进一步的,步骤506具体包括以下步骤:
[0146] S50601:同行业竞争关系
[0147] 按照《国际标准产业分类》(1SIC)2008年第四次修订版的分类标准,将行业分为99类;
[0148] 将企业经营范围标注表中80%的数据用于训练分类模型,剩余20%的数据用于测试分类模型;
[0149] (1)从企业经营范围标注表读取经营范围信息和所属行业信息;
[0150] (2)用Jieba分词工具将经营范围信息分词,生成分词结果集;
[0151] (3)去除分词结果集中的标点符号停用词;
[0152] (4)用Word2vec工具将分词集中的中文单词转为k维空间向量;
[0153] (5)所属行业按《国际标准产业分类》中的编号表示;
[0154] (6)选择80%的数据,用Python语言Scikit-learn库中的Multiclass训练多分类模型;
[0155] (7)用剩余20%的数据用于模型测试,并计算模型准确率;
[0156] 将企业营业执照信息表中企业经营范围信息输入分类模型,计算企业所属行业,如果两个企业属于同一行业,按照规则变更置信度;
[0157] S50602:同城市竞争关系
[0158] 企业所在城市信息可能存在企业名称、登记机关、住所信息中,抽取城市信息的优先级是登记机关、企业名称、住所信息;
[0159] (1)登记机关-城市信息抽取
[0160] 用正则表达式“(.*?)市|区”抽取所在城市信息;
[0161] (2)企业名称/住所信息-城市信息抽取
[0162] 用哈尔滨工业大学的自然语言处理库pyltp对输入信息进行命名实体识别;
[0163] pyltp可以识别的实体包括人名Nh、机构名Ni、地名Ns,识别模的标注结果采用O-S-B-I-E标注形式,其含义如下表所示:
[0164]标记 含义
O 这个词不是实体
S 这个词单独构成一个实体
B 一个实体的开始
I 一个实体的中间
E 一个实体的结束
[0165] S50603:同经营范围竞争关系
[0166] 计算企业A和企业B的经营范围相似度,具体步骤如下:
[0167] (1)从企业营业执照信息表读取企业A的经营范围数据和企业B的经营范围数据;
[0168] (2)用Jieba分词工具将企业A和企业B的经营范围信息分别分词,生成分词结果集SEGA和SEGB;
[0169] (3)去除分词结果集SEGA和SEGB中的标点符号停用词;
[0170] (4)用Word2vec工具将分词集SEGA和SEGB中的中文单词转为k维空间向量vec(A)和vec(B);
[0171] (5)计算企业A的经营范围向量vec(A)和企业B的经营范围向量vec(B)的余弦相似度cos(A,B),计算公式为:
[0172]
[0173] 式中,cos(A,B)为企业A的经营范围向量的企业B的经营范围向量的余弦相似度,vec(A)为企业A的经营范围向量;vec(B)为企业B的经营范围向量。
[0174] (6)若cos(A,B)为30%,则竞争值变更m+10,然后相似度提升1%,则竞争值同样提升1%。
[0175] 本发明的有益效果是:
[0176] 本发明提供了一种企业关系挖掘方法,包括关系定义、数据获取、多源数据融合、关系图构建、关系抽取等步骤。企业关系挖掘是构建企业关系图谱的核心,企业关系图谱可以将企业关系以结构化的图形展示给用户,方便用户快速理解,有利于引导用户进行进一步的探索。
[0177] 本发明将企业关系定义为法人关系、股东关系、任职关系、分支机构关系、对外投资关系和竞争关系。挖掘企业关系可以发现企业社交圈、发现企业投资圈、发现企业股权结构、发现企业实际控制人、进行企业险评估等。附图说明
[0178] 图1为本发明步骤一的流程图
[0179] 图2为本发明步骤二的流程图。
[0180] 图3为本发明步骤三的流程图。
[0181] 图4为本发明步骤四的流程图。
[0182] 图5为本发明步骤五的流程图。

具体实施方式

[0183] 以下结合附图对本发明作进一步详细说明。
[0184] 本发明的一种企业关系挖掘方法,主要包括以下步骤:
[0185] 步骤一、关系定义
[0186] 如图1所示,本发明将企业关系定义为法人关系、股东关系、任职关系、分支机构关系、对外投资关系和竞争关系。
[0187] S101:法人关系
[0188] 法定代表人是由出资人或股东依法设立的公司所有事项负责人。法定代表人与公司关系密切。法定代表人和公司之间有法人关系。
[0189] S102:股东关系
[0190] 股东是公司的资金投入者。将发起人和投资人统称为股东。股东可以分为个人股东和企业股东。个人股东、企业股东都和公司之间有股东关系。
[0191] S103:任职关系
[0192] 公司的员工和公司之间有任职关系。公司的员工包括董事、高管、普通员工。
[0193] S104:分支机构关系
[0194] 分支机构是总公司所属的不具有独立法人地位的派出机构。分支机构是企业发展到一定规模后,为了继续扩展其业务,扩大其产品销售范围,常常在不同的城市或同一城市的不同地区开设分支机构。分支机构名字一般是总公司名字加上后缀。分支机构在不同的企业或行业有不同的名称,例如,在有些企业称为分公司,有些企业称为分厂,商业系统称为分店,行系统称为分行等。分支机构和总公司有分支机构关系。
[0195] S105:对外投资关系
[0196] 企业可以以企业的名义去投资其他企业,成为其它企业的股东。企业和被投资的企业之间有对外投资关系。
[0197] S106:竞争关系
[0198] 同一行业的企业存在竞争关系。经营范围重叠度高的企业之间竞争关系强,重叠度低的企业竞争关系弱。地理位置相距远的企业之间竞争关系弱,地理位置相距近的企业之间竞争关系强。
[0199] 步骤二、数据获取
[0200] 如图2所示,企业关系挖掘需要的数据包括营业执照信息、股东信息、员工信息、分支机构信息、经营范围标注信息等。
[0201] S201:营业执照信息
[0202] 营业执照信息包括统一社会信用代码、企业名称、法定代表人、登记机关、住所、经营范围等信息。
[0203] 营业执照信息的数据来源有:黄页88网站、一呼百应网站、全国企业信用信息公示系统网站等。
[0204] 营业执照信息的数据获取方法具体包括以下步骤:
[0205] S20101:建立企业名录
[0206] 分别打开黄页88网站和一呼百应网站,找到企业名录列表并下载企业名称数据到数据库表“企业名录表”。
[0207] S20102:查询条件
[0208] 打开全国企业信用信息公示系统网站。在查询框内输入“企业名录表”内的第一个企业名,并下载查询到的营业执照信息数据到数据库表“企业营业执照信息表”。
[0209] S20103:重复查询
[0210] 重复步骤S20102,依次录入“企业名录表”的下一个企业名,直至所有单位查询完毕。
[0211] S202:股东信息
[0212] 股东信息包括股东名称、股东类型、证件类型、证件号码等信息。
[0213] 股东信息的数据来源有:全国企业信用信息公示系统网站、百度信用网站、天眼查网站、企查查网站、启信宝网站等。
[0214] 股东信息的数据获取方法具体包括以下步骤:
[0215] S20201:查询条件
[0216] 分别打开数据来源中的网站,在查询框内输入“企业名录表”内的第一个企业名,并下载查询到的股东信息数据到数据库表“企业股东信息表”。
[0217] S20202:重复查询
[0218] 重复步骤S20201,依次录入“企业名录表”的下一个企业名,直至所有单位查询完毕。
[0219] S203:员工信息
[0220] 员工信息包括员工姓名、职位等信息。
[0221] 员工信息的数据来源有:全国企业信用信息公示系统网站。
[0222] 员工信息的数据获取方法具体包括以下步骤:
[0223] S20301:查询条件
[0224] 打开全国企业信用信息公示系统网站,在查询框内输入“企业名录表”内的第一个企业名,下载查询到的企业主要员工信息数据到数据库表“企业员工信息表”。
[0225] S20302:重复查询
[0226] 重复步骤S20301,依次录入“企业名录表”的下一个企业名,直至所有单位查询完毕。
[0227] S204:分支机构信息
[0228] 分级机构信息包括分支机构统一社会信用代码、分支机构名称等信息。
[0229] 分级机构信息的数据来源有:全国企业信用信息公示系统网站、启信宝、天眼查等。
[0230] 分级机构信息的数据获取方法具体包括以下步骤:
[0231] S20401:查询条件
[0232] 分别打开数据来源中的网站,在查询框内输入“企业名录表”内的第一个企业名,并下载查询到的分支机构信息数据到数据库表“企业分支机构信息表”。
[0233] S20402:重复查询
[0234] 重复步骤S20401,依次录入“企业名录表”的下一个企业名,直至所有单位查询完毕。
[0235] S205:经营范围标注信息
[0236] 经营范围标注信息包括企业名称、经营范围、所属行业等。
[0237] 经营范围标注信息的数据来源有:天眼查网站。
[0238] 全国企业信用信息公示系统网站中的营业执照信息中有经营范围信息,没有所属行业信息,后续需要经营范围和对应的所属行业信息。
[0239] 经营范围标注信息的数据获取方法具体包括以下步骤:
[0240] S20501:查询条件
[0241] 打开天眼查网站,在查询框内输入“企业名录表”内的第一个企业名,并下载查询到的分支机构信息数据到数据库表“企业经营范围标注表”。
[0242] S20502:重复查询
[0243] 重复步骤S20501,依次录入“企业名录表”的下一个企业名,直至所有单位查询完毕。
[0244] 步骤三、数据清洗
[0245] 如图3所示,数据清洗是指发现并纠正数据文件中可识别的错误,包括检查数据一致性、处理无效值和缺失值等。
[0246] S301:一致性检查
[0247] 根据每个变量的合理取值范围和相互关系,检查数据是否合乎要求,发现超出正常范围、逻辑上不合理或者相互矛盾的数据。
[0248] 一致性检查的具体步骤如下:
[0249] S30101:统一社会信用代码检查
[0250] 统一社会信用代码编码是18位阿拉伯字母或者大写英文字母。不符合编码规则的数据都被重置为空。
[0251] S30102:股东类型检查
[0252] 股东类型取值包括股东、自然人股东、企业股东、其他投资者、内资合伙企业、企业法人、法人股东。其他取值或空值重置为股东。
[0253] S30103:证件类型检查
[0254] 股东信息中的证件类型取值包括合伙企业营业执照、公司法人营业执照。其他取值重置为空。
[0255] S302:无效值和缺失值处理
[0256] 由于调查、编码和录入误差,数据中可能存在一些无效值和缺失值,需要给予适当的处理。
[0257] 无效值和缺失值处理的具体步骤如下:
[0258] S30201:股东信息处理
[0259] 股东信息表中的股东姓名字段缺失则删掉此条股东信息记录。
[0260] S30202:员工信息处理
[0261] 员工信息表中员工姓名字段缺失则删掉此条员工信息记录。
[0262] S30203:分支机构信息处理
[0263] 分支机构信息表中分支机构名称字段缺失则删掉此条分支机构信息记录。
[0264] 步骤四、多源数据融合
[0265] 如图4所示,多源数据融合指利用相关手段将调查、分析到的所有信息全部综合到一起,并对信息进行统一的评价。本发明中数据来自许多不同的来源,整合到一张数据表中时需要进行数据融合处理。
[0266] 多源数据融合的具体步骤如下:
[0267] S401:企业名录去重
[0268] 企业名录从两个源数据获取,企业名称存在重叠现象。多源数据进行融合时需要进行去重处理。
[0269] 企业名录表的主键为企业名称。在Oracle数据库中添加主键约束。将企业数据插入数据库时,企业名称相同的记录无法被插进企业名录表。
[0270] S402:属性决策
[0271] 数据来源于不同的网站。不同网站上的属性值有冲突,为每一份数据设置一个置信度。属性值冲突时,选择置信度高的属性值。本发明中将置信度等级设置为五个等级。
[0272] 一级:信任程度极低。
[0273] 二级:信任程度低。
[0274] 三级:一般信任。
[0275] 四级:信任程度较高。
[0276] 五级:信任程度高。
[0277] 根据数据来源进行数据置信度等级划分。规定置信度等级如下表所示。
[0278]数据来源 置信度
全国企业信用信息公示系统等政府类网站 五级
天眼查、企查查等商业数据服务商网站 四级
智联招聘、黄页88等其它网站 三级
[0279] S40201:置信度初始化
[0280] 在置信度等级的基础上,为每一个网站设置一个初始置信度n。n=可信度等级*100。
[0281] S40202:股东信息表属性决策
[0282] 当多个网站上的股东信息存在冲突时,判断各个数据来源的股东信息置信度。选择置信度大的数据来源的属性值。
[0283] S40203:分支机构信息表属性决策
[0284] 当多个网站上的股东信息存在冲突时,判断各个数据来源的股东信息置信度。选择置信度大的数据来源的属性值。
[0285] S403:实体对齐
[0286] 假设企业名称不会变更。首先收集企业名录信息,然后根据企业名录信息到各个网站中收集需要的信息,能够保证所得到的的信息属于同一实体。
[0287] 步骤五、关系抽取
[0288] 如图5所示,具体包括以下步骤:
[0289] S501:法人关系
[0290] 法人关系是企业法定代表人和企业之间的关系。一个企业有一个法定代表人。从“企业营业执照信息表”中抽取企业名称和企业法定代表人信息,生成“企业-法人-法人姓名”三元组。
[0291] S502:股东关系
[0292] 企业的发起人、投资人、发起企业、投资企业都是股东。从“企业股东信息表”中抽取企业名称和股东信息,生成“企业-股东-股东名称”三元组。
[0293] S503:任职关系
[0294] 企业的主要人员、高管、员工都与企业形成任职关系。从“企业员工信息表”中抽取企业名称和员工姓名信息,生成“企业-任职-员工姓名”三元组。
[0295] S504:分支机构关系
[0296] 分支机构设立应向有关部门申请登记,并在国家企业信用信息公示系统网站公布。从“企业分支机构信息表”中抽取企业名称和分支机构名称信息,生成“企业-分支机构-分支机构名称”三元组。
[0297] S505:对外投资关系
[0298] 全国企业信用信息公示系统网站上没有对外投资信息。关系是相互的。企业A的股东是企业B,可以说企业B投资了企业A。从“企业股东信息表”中抽取企业名称和股东名称信息,股东投资企业,生成“企业-投资-企业”三元组。
[0299] S506:竞争关系
[0300] 假设一:属于同一行业的企业有竞争关系。
[0301] 假设二:属于同一城市的企业有竞争关系。
[0302] 假设三:经营范围相似的企业有竞争关系。
[0303] 竞争值m设置为0到100。初始值m=0。
[0304] 竞争值变更规则如下表所示。
[0305] 规则 变更两个企业属于同一行业 m+20
两个企业属于同一城市 m+5
两个企业经营范围相似 m+(10-80)
[0306] 竞争关系的具体步骤如下:
[0307] S50601:同行业竞争关系
[0308] 按照《国际标准产业分类》(1SIC)2008年第四次修订版的分类标准,将行业分为99类。
[0309] 将“企业经营范围标注表”中80%的数据用于训练分类模型,剩余20%的数据用于测试分类模型。
[0310] (1)从“企业经营范围标注表”读取经营范围信息和所属行业信息。
[0311] (2)用Jieba分词工具将经营范围信息分词,生成分词结果集。
[0312] (3)去除分词结果集中的标点符号等停用词。
[0313] (4)用Word2vec工具将分词集中的中文单词转为k维空间向量。
[0314] (5)所属行业按《国际标准产业分类》中的编号表示。
[0315] (6)选择80%的数据,用Python语言Scikit-learn库中的Multiclass训练多分类模型。
[0316] (7)用剩余20%的数据用于模型测试,并计算模型准确率。
[0317] 将“企业营业执照信息表”中企业经营范围信息输入分类模型,计算企业所属行业。如果两个企业属于同一行业,按照规则变更置信度。
[0318] S50602:同城市竞争关系
[0319] 企业所在城市信息可能存在企业名称、登记机关、住所信息中。抽取城市信息的优先级是登记机关、企业名称、住所信息。
[0320] (1)登记机关-城市信息抽取
[0321] 登记机关的一般格式有XX市工商行政管理局XX分局、XX市市场监督管理局、XX新区市场监管局、XX区市场监管局等。用正则表达式“(.*?)市|区”抽取所在城市信息。
[0322] (2)企业名称/住所信息-城市信息抽取
[0323] 用哈工大的自然语言处理库pyltp对输入信息进行命名实体识别。
[0324] pyltp可以识别的实体包括人名(Nh)、机构名(Ni)、地名(Ns)。识别模块的标注结果采用O-S-B-I-E标注形式。其含义如下表所示。
[0325] 标记 含义O 这个词不是实体
S 这个词单独构成一个实体
B 一个实体的开始
I 一个实体的中间
E 一个实体的结束
[0326] S50603:同经营范围竞争关系
[0327] 计算企业A和企业B的经营范围相似度,具体步骤如下:
[0328] (1)从企业营业执照信息表读取企业A的经营范围数据和企业B的经营范围数据;
[0329] (2)用Jieba分词工具将企业A和企业B的经营范围信息分别分词,生成分词结果集SEGA和SEGB;
[0330] (3)去除分词结果集SEGA和SEGB中的标点符号停用词;
[0331] (4)用Word2vec工具将分词集SEGA和SEGB中的中文单词转为k维空间向量vec(A)和vec(B);
[0332] (5)计算企业A的经营范围向量vec(A)和企业B的经营范围向量vec(B)的余弦相似度cos(A,B),计算公式为:
[0333]
[0334] 式中,cos(A,B)为企业A的经营范围向量的企业B的经营范围向量的余弦相似度,vec(A)为企业A的经营范围向量;vec(B)为企业B的经营范围向量。
[0335] (6)若cos(A,B)为30%,则竞争值变更m+10,然后相似度提升1%,则竞争值同样提升1%。
[0336] 以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈