首页 / 专利库 / 作物管理 / 植物繁殖材料 / 种子 / 一种基于政策性资源汇聚的互联网科技金融智能匹配方法

一种基于政策性资源汇聚的互联网科技金融智能匹配方法

阅读:0发布:2021-03-13

专利汇可以提供一种基于政策性资源汇聚的互联网科技金融智能匹配方法专利检索,专利查询,专利分析的服务。并且本 发明 公开了一种基于政策性资源汇聚的互联网科技金融智能匹配方法,包括以下步骤:S1、建立关键词库,导入设定的目标关键词;S2、设立 网络爬虫 ,根据关键词库中的目标关键词进行网页目标抓取,获得目标网页文本;S3、对网络爬虫抓取的目标网页文本进行文本预分析和过滤,筛选出有效文本;S4、对筛选出的有效文本进行分类处理,然后传至质检单元进行分类质检;S5、将分类质检通过的有效文本按照其分类发送给对应的客户,将分类质检不通过的有效文本进行人工分类,再发送至人工分类后对应的客户。其应用时,可以实现互联网政策性资源的精准高效收集,并对收集的政策性资源精准智能分类,然后根据分类结果对应发送给匹配客户。,下面是一种基于政策性资源汇聚的互联网科技金融智能匹配方法专利的具体信息内容。

1.一种基于政策性资源汇聚的互联网科技金融智能匹配方法,其特征在于,包括以下步骤:
S1、建立关键词库,在关键词库中导入设定的目标关键词;
S2、设立网络爬虫,将其与关键词库关联,并放入网络中根据关键词库中的目标关键词进行网页目标抓取,获得目标网页文本;
S3、对网络爬虫抓取的目标网页文本进行文本预分析和过滤,筛选出有效文本;
S4、对筛选出的有效文本进行分类处理,然后传至质检单元进行分类质检;
S5、将分类质检通过的有效文本按照其分类发送给对应的客户,将分类质检不通过的有效文本进行人工分类,再发送至人工分类后对应的客户。
2.根据权利要求1所述的一种基于政策性资源汇聚的互联网科技金融智能匹配方法,其特征在于,在步骤S1中,关键词库包括主词库和目标词库,主词库用于存储历史关键词数据,目标词库用于导入目标关键词,步骤S2中的网络爬虫与目标词库进行关联。
3.根据权利要求2所述的一种基于政策性资源汇聚的互联网科技金融智能匹配方法,其特征在于,在步骤S1中,目标词库中的目标关键词由客户提供或/和从主词库中选取,其包括但不仅限于政府组织机构名称、领域人物名称、领域协会商会名称、互联网科技金融行业名词。
4.根据权利要求1所述的一种基于政策性资源汇聚的互联网科技金融智能匹配方法,其特征在于,在步骤S2中,目标网页文本抓取的步骤包括:
S21、将目标关键词设定为网络爬虫的抓取种子
S22、采用基于目标网页特征、基于目标数据模式和基于领域概念并行的方式根据抓取种子抓取互联网目标网页文本;
S23、将抓取的目标网页文本进行反馈,并集中存储。
5.根据权利要求1所述的一种基于政策性资源汇聚的互联网科技金融智能匹配方法,其特征在于,在步骤S2中,所述网络爬虫包括通用网络爬虫、聚焦网络爬虫、增量式网络爬虫和深层网络爬虫。
6.根据权利要求1所述的一种基于政策性资源汇聚的互联网科技金融智能匹配方法,其特征在于,在步骤S3中,筛选有效文本的步骤包括:
S31、对所有目标网页文本进行重复率检索,对内容重复率达到设定阈值的多个目标网页文本进行提取;
S32、将提取出的多个目标网页文本进行字数比对,留下字数最多的一个,其余丢弃;
S33、建立敏感词库,利用敏感词库对未提取和提取比对留下的目标网页文本进行敏感词句检索;
S34、将检索到含有敏感词句的目标网页文本清除,剩余的目标网页文本为有效文本。
7.根据权利要求1所述的一种基于政策性资源汇聚的互联网科技金融智能匹配方法,其特征在于,在步骤S4中,有效文本的分类处理过程包括:
S41、对有效文本的目标关键词进行分词提取,然后对目标关键词的词频、词序和语义进行设定评分统计;
S42、根据词频、词序和语义的综合评分进行排序,选取前N个综合评分最高的目标关键词作为词向量,其中N为大于0的整数;
S43、将词向量导入预先建立的文本分类训练模型,进行自动分类,得到有效文本的自动分类结果;
S44、根据分类结果对有效文本进行分类标记,然后传送至质检单元。
8.根据权利要求7所述的一种基于政策性资源汇聚的互联网科技金融智能匹配方法,其特征在于,在质检单元设人工质检员来对有效文本进行分类质检,然后对质检通过的有效文本按其分类标记发送给对应客户,对质检不通过的有效文本进行人工分类并标记,将人工分类标记后的有效文本按人工分类标记发送给对应客户,并反馈对应质检不通过信息,用于分类训练模型的改进参照。

说明书全文

一种基于政策性资源汇聚的互联网科技金融智能匹配方法

技术领域

[0001] 本发明涉及数据分析处理技术领域,具体涉及一种基于政策性资源汇聚的互联网科技金融智能匹配方法。

背景技术

[0002] 互联网应用遍及生活的方方面面,如即时通讯、社交网络、新闻网站、智能生活家电等,我们已经习惯依赖互联网提供便捷的信息去了解世界、形成人际社交网络,网络交互过程中生成的信息大多是文本形式。文本信息成为互联网社交媒体信息的重要承载者。
[0003] 现有技术还没有专针对互联网金融行业提供政策性资源收集匹配的有效技术手段。

发明内容

[0004] 本发明针对现有技术存在的不足,提供一种基于政策性资源汇聚的互联网科技金融智能匹配方法,其应用时,可以实现互联网政策性资源的精准高效收集,并对收集的政策性资源精准智能分类,然后根据分类结果对应发送给匹配客户。
[0005] 本发明通过以下技术方案实现:
[0006] 一种基于政策性资源汇聚的互联网科技金融智能匹配方法,包括以下步骤:
[0007] S1、建立关键词库,在关键词库中导入设定的目标关键词;
[0008] S2、设立网络爬虫,将其与关键词库关联,并放入网络中根据关键词库中的目标关键词进行网页目标抓取,获得目标网页文本;
[0009] S3、对网络爬虫抓取的目标网页文本进行文本预分析和过滤,筛选出有效文本;
[0010] S4、对筛选出的有效文本进行分类处理,然后传至质检单元进行分类质检;
[0011] S5、将分类质检通过的有效文本按照其分类发送给对应的客户,将分类质检不通过的有效文本进行人工分类,再发送至人工分类后对应的客户。
[0012] 优选地,在步骤S1中,关键词库包括主词库和目标词库,主词库用于存储历史关键词数据,目标词库用于导入目标关键词,步骤S2中的网络爬虫与目标词库进行关联。
[0013] 优选地,在步骤S1中,目标词库中的目标关键词由客户提供或/和从主词库中选取,其包括但不仅限于政府组织机构名称、领域人物名称、领域协会商会名称、互联网科技金融行业名词。
[0014] 优选地,在步骤S2中,目标网页文本抓取的步骤包括:
[0015] S21、将目标关键词设定为网络爬虫的抓取种子
[0016] S22、采用基于目标网页特征、基于目标数据模式和基于领域概念并行的方式根据抓取种子抓取互联网目标网页文本;
[0017] S23、将抓取的目标网页文本进行反馈,并集中存储。
[0018] 优选地,在步骤S2中,所述网络爬虫包括通用网络爬虫、聚焦网络爬虫、增量式网络爬虫和深层网络爬虫。
[0019] 优选地,在步骤S3中,筛选有效文本的步骤包括:
[0020] S31、对所有目标网页文本进行重复率检索,对内容重复率达到设定阈值的多个目标网页文本进行提取;
[0021] S32、将提取出的多个目标网页文本进行字数比对,留下字数最多的一个,其余丢弃;
[0022] S33、建立敏感词库,利用敏感词库对未提取和提取比对留下的目标网页文本进行敏感词句检索;
[0023] S34、将检索到含有敏感词句的目标网页文本清除,剩余的目标网页文本为有效文本。
[0024] 优选地,在步骤S4中,有效文本的分类处理过程包括:
[0025] S41、对有效文本的目标关键词进行分词提取,然后对目标关键词的词频、词序和语义进行设定评分统计;
[0026] S42、根据词频、词序和语义的综合评分进行排序,选取前N个综合评分最高的目标关键词作为词向量,其中N为大于0的整数;
[0027] S43、将词向量导入预先建立的文本分类训练模型,进行自动分类,得到有效文本的自动分类结果;
[0028] S44、根据分类结果对有效文本进行分类标记,然后传送至质检单元。
[0029] 优选地,在质检单元设人工质检员来对有效文本进行分类质检,然后对质检通过的有效文本按其分类标记发送给对应客户,对质检不通过的有效文本进行人工分类并标记,将人工分类标记后的有效文本按人工分类标记发送给对应客户,并反馈对应质检不通过信息,用于分类训练模型的改进参照。
[0030] 本发明具有如下的优点和有益效果:
[0031] 1、本发明一种基于政策性资源汇聚的互联网科技金融智能匹配方法,可以实现互联网政策性资源的精准高效收集。
[0032] 2、本发明一种基于政策性资源汇聚的互联网科技金融智能匹配方法,可以对收集的政策性资源进行预分析和过滤,筛除重复内容和含敏感词句的资源。
[0033] 3、本发明一种基于政策性资源汇聚的互联网科技金融智能匹配方法,可以对收集的政策性资源精准智能分类,然后根据分类结果对应发送给匹配客户。附图说明
[0034] 此处所说明的附图用来提供对本发明实施例的进一步理解,构成本申请的一部分,并不构成对本发明实施例的限定。在附图中:
[0035] 图1为本发明的步骤示意框图
[0036] 图2为有效文本的分类处理过程示意图。

具体实施方式

[0037] 为使本发明的目的、技术方案和优点更加清楚明白,下面结合实施例和附图,对本发明作进一步的详细说明,本发明的示意性实施方式及其说明仅用于解释本发明,并不作为对本发明的限定。
[0038] 实施例
[0039] 如图1所示,一种基于政策性资源汇聚的互联网科技金融智能匹配方法,包括以下步骤:
[0040] S1、建立关键词库,在关键词库中导入设定的目标关键词;
[0041] S2、设立网络爬虫,将其与关键词库关联,并放入网络中根据关键词库中的目标关键词进行网页目标抓取,获得目标网页文本;
[0042] S3、对网络爬虫抓取的目标网页文本进行文本预分析和过滤,筛选出有效文本;
[0043] S4、对筛选出的有效文本进行分类处理,然后传至质检单元进行分类质检;
[0044] S5、将分类质检通过的有效文本按照其分类发送给对应的客户,将分类质检不通过的有效文本进行人工分类,再发送至人工分类后对应的客户。
[0045] 在步骤S1中,关键词库包括主词库和目标词库,主词库用于存储历史关键词数据,目标词库用于导入目标关键词,步骤S2中的网络爬虫与目标词库进行关联。
[0046] 在步骤S1中,目标词库中的目标关键词由客户提供或/和从主词库中选取,其包括但不仅限于政府组织机构名称、领域人物名称、领域协会商会名称、互联网科技金融行业名词。
[0047] 在步骤S2中,目标网页文本抓取的步骤包括:
[0048] S21、将目标关键词设定为网络爬虫的抓取种子;
[0049] S22、采用基于目标网页特征、基于目标数据模式和基于领域概念并行的方式根据抓取种子抓取互联网目标网页文本;
[0050] S23、将抓取的目标网页文本进行反馈,并集中存储。
[0051] 抓取目标的描述和定义是决定网页分析算法与URL搜索策略如何制订的基础。而网页分析算法和候选URL排序算法是决定搜索引擎所提供的服务形式和爬虫网页抓取行为的关键所在。这两个部分的算法又是紧密相关的。网络爬虫对抓取目标的描述可分为基于目标网页特征、基于目标数据模式和基于领域概念3种。
[0052] 基于目标网页特征的爬虫所抓取、存储并索引的对象一般为网站或网页。根据种子样本获取方式可分为:
[0053] 1、预先给定的初始抓取种子样本;
[0054] 2、预先给定的网页分类目录和与分类目录对应的种子样本;
[0055] 3、通过用户行为确定的抓取目标样例;
[0056] 其中,网页特征可以是网页的内容特征,也可以是网页的链接结构特征等。
[0057] 基于目标数据模式的爬虫针对的是网页上的数据,所抓取的数据一般要符合一定的模式,或者可以转化或映射为目标数据模式。
[0058] 另一种描述方式是建立目标领域的本体或词典,用于从语义度分析不同特征在某一主题中的重要程度。
[0059] 在步骤S2中,所述网络爬虫包括通用网络爬虫、聚焦网络爬虫、增量式网络爬虫和深层网络爬虫。网络爬虫按照系统结构和实现技术,大致可以分为以下几种类型:通用网络爬虫 (General Purpose Web Crawler)、聚焦网络爬虫(Focused Web Crawler)、增量式网络爬虫 (Incremental Web Crawler)、深层网络爬虫(Deep Web Crawler)。通用网络爬虫又称全网爬虫(Scalable Web Crawler),爬行对象从一些种子URL扩充到整个Web,主要为门户站点搜索引擎和大型Web服务提供商采集数据;聚焦网络爬虫(Focused Crawler),又称主题网络爬虫(Topical Crawler),是指选择性地爬行那些与预先定义好的主题相关页面的网络爬虫。和通用网络爬虫相比,聚焦爬虫只需要爬行与主题相关的页面,极大地节省了硬件和网络资源,保存的页面也由于数量少而更新快,还可以很好地满足一些特定人群对特定领域信息的需求;增量式网络爬虫(Incremental Web Crawler)是指对已下载网页采取增量式更新和只爬行新产生的或者已经发生变化网页的爬虫,它能够在一定程度上保证所爬行的页面是尽可能新的页面;Web页面按存在方式可以分为表层网页(Surface Web)和深层网页(Deep Web,也称Invisible Web Pages或Hidden Web)。表层网页是指传统搜索引擎可以索引的页面,以超链接可以到达的静态网页为主构成的Web页面。Deep Web是那些大部分内容不能通过静态链接获取的、隐藏在搜索表单后的,只有用户提交一些关键词才能获得的Web页面,Deep Web爬虫体系结构包含六个基本功能模(爬行控制器、解析器、表单分析器、表单处理器、响应分析器、LVS控制器)和两个爬虫内部数据结构(URL列表、LVS表)。其中LVS(Label Value Set)表示标签/数值集合,用来表示填充表单的数据源,Deep Web爬虫将包含表单的页面提交表单处理器处理,表单处理器先从页面中提取表单,从预先准备好的数据集中选择数据自动填充并提交表单,由爬行控制器下载相应的结果页面。
[0060] 在步骤S3中,筛选有效文本的步骤包括:
[0061] S31、对所有目标网页文本进行重复率检索,对内容重复率达到设定阈值的多个目标网页文本进行提取;
[0062] S32、将提取出的多个目标网页文本进行字数比对,留下字数最多的一个,其余丢弃;
[0063] S33、建立敏感词库,利用敏感词库对未提取和提取比对留下的目标网页文本进行敏感词句检索;
[0064] S34、将检索到含有敏感词句的目标网页文本清除,剩余的目标网页文本为有效文本。
[0065] 如图2所示,在步骤S4中,有效文本的分类处理过程包括:
[0066] S41、对有效文本的目标关键词进行分词提取,然后对目标关键词的词频、词序和语义进行设定评分统计;
[0067] S42、根据词频、词序和语义的综合评分进行排序,选取前N个综合评分最高的目标关键词作为词向量,其中N为大于0的整数;
[0068] S43、将词向量导入预先建立的文本分类训练模型,进行自动分类,得到有效文本的自动分类结果;
[0069] S44、根据分类结果对有效文本进行分类标记,然后传送至质检单元。
[0070] 在有效文本的分类处理过程中,采用SVM对文本分类,使用下列公式添加新样本:
[0071]
[0072] 其中(Xi,X)表示两个向量的内积;在对文本进行分类预测的过程中,预测新点X的类别时,只需要计算预测新点X与训练数据点的内积即可;用到的训练数据点是支持向量的点,只有支持向量的点会被用来进行新样本的预测。
[0073] 若输入的模型的数据点为支持向量,则有:
[0074] yi(WTXi+b)=1
[0075] 且ai是一个非0的数,故支持向量的点被纳入模型中,进行新点的分类预测的计算;若输入的模型的数据点不是支持向量,则有:
[0076] yi(WTXi+b)>1
[0077] 且由于ai非负,为满足最大化则ai为0,因此在预测新点X时,在模型中,由于ai为0,故非支持向量的点不纳入计算。
[0078] 词频的评分是先对通知进行证据分词,并统计通知中分词在证据通知中出现的次数,从而计算词频得分。
[0079] 词序的评分是构建通知词的2-gram表达式,统计2-gram表达式与证据匹配的次数,从而计算词序得分。
[0080] 语义的评分是先向量化表示问题和证据,然后分别进行证据向量、主向量集合、问题主向量,计算证据问题相关度,证据向量集合上通过Page Rank算法计算证据权重,结合证据权重和证据问题相关度,计算得到语义得分。
[0081] 在质检单元设人工质检员来对有效文本进行分类质检,然后对质检通过的有效文本按其分类标记发送给对应客户,对质检不通过的有效文本进行人工分类并标记,将人工分类标记后的有效文本按人工分类标记发送给对应客户,并反馈对应质检不通过信息,用于分类训练模型的改进参照。
[0082] 以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈