首页 / 专利库 / 专利权 / 专利合作条约 / 第I章 / 国际申请 / 请求书 / 保护类型 / 专利 / 一种企业专利公告信息抓取与管理的方法

一种企业专利公告信息抓取与管理的方法

阅读:1036发布:2020-07-01

专利汇可以提供一种企业专利公告信息抓取与管理的方法专利检索,专利查询,专利分析的服务。并且一种企业 专利 公告信息抓取与管理的方法。本 发明 公开了一种基于专利公众公开的登记或变更公告数据的页面级别的通过getHTTPPage方法的抓取技术,再结合标记分析方法获得第一信息码、第二信息码和第三信息码,再通过上述信息码之间的对比,在相应程序下生成第四信息码,然后依对应的方法写入第一知识产权信息库和第二知识产权信息库,以备不同的场合使用的一种企业知识产权信息抓取与管理的方法。,下面是一种企业专利公告信息抓取与管理的方法专利的具体信息内容。

1.一种企业专利公告信息抓取与管理的方法,其特征包括,其主要包含以下步骤:
步骤S102,在企业信息库中读出企业名称的待查数据;
步骤S103,将步骤S102所读出的企业名称通过函数转为UTF8编码方式进行数据编码;
步骤S104,在步骤S103生成的对应编码方式的数据后,通过URLencode/URLDecode加密/解密函数将上述步骤S103的数据进行加密,并输出为第一变量;
步骤S105,以上述第一变量作为对应的URL的对应参数值生成第一URL;
步骤S106,通过getHTTPPage方式访问步骤S105生成的第一URL,获得第一URL对应的页面的HTML格式的数据源码供步骤S107进行标记截取;
步骤S107,通过S106获得的HTML格式的数据源码,通过以“”标记开始和“”标记结束生成第一信息码;通过如下标记截取生成第二信息码:开始标记为“sop-totalCount”,结束标记为“]”;
当第一信息码的值为空时,返回S102步骤,同时检查网络是否正常;当第二信息码为空时,跳过步骤S108和S109,并设置第三信息码的值为“0”;当第二信息码不为空时,执行步骤S108;
步骤S108,生成第三信息码:第二信息码不为空时,第三信息码通过第二信息码去杂质后剩下数字获得;
步骤S109,当第二信息码不为空时,将第一信息码、第二信息码和第三信息码的信息,以及相应的辅助数据对应存贮在拥有专利申请的企业信息库中;
将所有数据执行步骤S110存入专利企业信息总表,同时返回步骤S101将已经成功检索的记录的进行已执行的标记然后,返回步骤S102循环执行,直至所有符合条件的企业数据检索完成为止。
2.根据权利要求1所述的一种企业专利公告信息抓取与管理的方法,其特征包括,执行步骤S102前执行步骤S101进行企业信息查询中,进行企业类型、企业名称、企业成立时间、企业注册资金和企业注册地址的一种条件或者多个条件组合检索筛选出所需要检索的数据。
3.根据权利要求1和权利要求2所述的一种企业专利公告信息抓取与管理的方法,其特征包括,所述的步骤S110还可以通过将数据存贮在步骤S101所述的企业信息表对应的字段中,同时将相应的执行标记字段的值标记为已执行,然后步骤S102循环执行,直至所有符合条件的企业数据检索完成为止。
4.根据权利要求1所述的一种企业专利公告信息抓取与管理的方法,其特征包括,步骤S109所述的辅助数据包括通过步骤S102所读出的企业名称传递而获得企业名称,通过步骤S107和步骤S108追加获取当前的系统时间。
5.根据权利要求1所述的一种企业专利公告信息抓取与管理的方法,其特征包括,在执行步骤S102前,通过设置一定数量的采样数据进行采样,采样数据包括企业拥有三种知识产权类别的一种、两种、三种及上述组合的一定量的企业,以及没有任何知识产权的一定量的企业,采样走完整个流程,查看相关采集是否正常,此步骤确定网络是否正常,官方公布数据格式是否发生变化和确定所设置的数据编码方式是否正确。
6.根据权利要求1所述的一种企业专利公告信息抓取与管理的方法,其特征包括,步骤S103所述的编码方式,当官方机构公布的数据对应的编码发生变更时,本方法将根据实际所发生的变化变更编码方式。
7.根据权利要求1所述的一种企业专利公告信息抓取与管理的方法,其特征包括,步骤S104所述的URL中,当官方机构公布时采用的URL进行加密发布时,本方法将根据实际情况进行数据加密编码。
8.根据权利要求1所述的一种企业专利公告信息抓取与管理的方法,其特征包括,步骤S104所述的URLencode/URLDecode加密/解密函数将上述步骤S103的数据进行加密,其加密编码根据实际情况进行一次加密、二次和多次加密。

说明书全文

一种企业专利公告信息抓取与管理的方法

技术领域

[0001] 本发明主要涉及一种企业专利公告信息抓取与管理的方法,尤其是通过专利公告公布网站的页面信息抓取、分析、整理和建档的方法。

背景技术

[0002] 目前,知识产权的信息获取大多基于通过相关部所公开的数据接口来实现知识产权信息的同步,或者通过复杂的运算与抓取而获得信息量较少的信息。此方法对于经常性的、大数据的企业知识产权的信息获取显得难以胜任,并且应用成本高,险大,不利于中小中介服务机构推广应用。
[0003] 专利公告的信息,尤其是建立企业研发信用体系,更显得非常重要,同时也是中介服务机构提高自身服务质量的有支持。

发明内容

[0004] 为了解决上述问题,本发明提出了一种基于专利公众公开的登记或变更公告数据的页面级别的通过getHTTPPage方法的抓取技术,再结合标记分析方法获得第一信息码、第二信息码和第三信息码,再通过上述信息码之间的对比,在相应程序下生成第三信息码,然后依对应的方法写入第一知识产权信息库和第二知识产权信息库,以备不同的场合使用的一种企业专利公告信息抓取与管理的方法。
[0005] 一种企业专利公告信息抓取与管理的方法,其主要包含以下步骤:步骤S102,在企业信息库中读出企业名称的待查数据;
步骤S103,将步骤S102所读出的企业名称通过函数转为UTF8编码方式进行数据编码;
步骤S104,在步骤S103生成的对应编码方式的数据后,通过URLencode/URLDecode加密/解密函数将上述步骤S103的数据进行加密,并输出为第一变量;
步骤S105,以上述第一变量作为对应的URL的对应参数值生成第一URL;
步骤S106,通过getHTTPPage方式访问步骤S105生成的第一URL,获得第一URL对应的页面的HTML格式的数据源码供步骤S107进行标记截取;
步骤S107,通过S106获得的HTML格式的数据源码,通过以“”标记开始和“”标记结束生成第一信息码;通过如下标记截取生成第二信息码:开始标记为“sop-totalCount”,结束标记为“]”;
当第一信息码的值为空时,返回S102步骤,同时检查网络是否正常;当第二信息码为空时,跳过步骤S108和S109,并设置第三信息码的值为“0”;当第二信息码不为空时,执行步骤S108;
步骤S108,生成第三信息码:第二信息码不为空时,第三信息码通过第二信息码去杂质后剩下数字获得;
步骤S109,当第二信息码不为空时,将第一信息码、第二信息码和第三信息码的信息,以及相应的辅助数据对应存贮在拥有专利申请的企业信息库中;
将所有数据执行步骤S110存入专利企业信息总表,同时返回步骤S101将已经成功检索的记录的进行已执行的标记然后,返回步骤S102循环执行,直至所有符合条件的企业数据检索完成为止。
[0006] 执行步骤S102前执行步骤S101进行企业信息查询中,进行企业类型、企业名称、企业成立时间、企业注册资金和企业注册地址的一种条件或者多个条件组合检索筛选出所需要检索的数据。
[0007] 其特征包括,所述的步骤S110还可以通过将数据存贮在步骤S101所述的企业信息表对应的字段中,同时将相应的执行标记字段的值标记为已执行,然后步骤S102循环执行,直至所有符合条件的企业数据检索完成为止。
[0008] 步骤S109所述的辅助数据包括通过步骤S102所读出的企业名称传递而获得企业名称,通过步骤S107和步骤S108追加获取当前的系统时间。
[0009] 在执行步骤S102前,通过设置一定数量的采样数据进行采样,采样数据包括企业拥有三种知识产权类别的一种、两种、三种及上述组合的一定量的企业,以及没有任何知识产权的一定量的企业,采样走完整个流程,查看相关采集是否正常,此步骤确定网络是否正常,官方公布数据格式是否发生变化和确定所设置的数据编码方式是否正确。
[0010] 步骤S103所述的编码方式,当官方机构公布的数据对应的编码发生变更时,本方法将根据实际所发生的变化变更编码方式。
[0011] 步骤S104所述的URL中,当官方机构公布时采用的URL进行加密发布时,本方法将根据实际情况进行数据加密编码。
[0012] 步骤S104所述的URLencode/URLDecode加密/解密函数将上述步骤S103的数据进行加密,其加密编码根据实际情况进行一次加密、二次和多次加密。附图说明
[0013] 图1一种企业专利公告信息抓取与管理的方法流程图

具体实施方式

[0014] 一种企业专利公告信息抓取与管理的方法,其主要包含以下步骤:步骤S101,进行企业信息查询中,进行企业类型等条件检索筛选出所需要检索的数据。
[0015] 步骤S102,在企业信息库中读出企业名称的待查数据,设变量为“aa”。
[0016] 步骤S103,根据三种类别将步骤S102所读出的企业名称通过函数转为UTF8方式进行数据编码。
[0017] 其中UTF8编码的需要在文件头加入以下代码段:


步骤S104,在步骤S103生成的对应编码方式的数据后,通过URLencode/URLDecode加密/解密函数将上述步骤S103的数据进行加密,并输出为第一变量,其中软件著作权公告信息中,第一变量为明文,不进行加密;URLencode/URLDecode加密/解密函数将上述步骤S103的数据进行加密,其加密编码根据实际情况进行一次加密、二次和多次加密,其中一次加密的bb=ce(""&aa&""),两次加密的方式为cc= ce(""&bb&""),多次加密的方法类似。
[0018] 步骤S105,以上述第一变量作为对应的URL的对应参数值生成第一URL,使用ASP开发语言表达如下:第一变量假设为cname,专利公告发布网站假设为www.abcde.com:http://www.abcde.com//txnQueryOrdinaryPatents.do?select-key%3Ashenqingh=&select-key%3Azhuanlimc=&select-key%3Ashenqingrxm=<%=cname%>&select-key%3Azhuanlilx=&select-key%3Ashenqingr_from=&select-key%3Ashenqingr_to=&attribute-node:record_start-row=60&attribute-node:record_
page-row=100&#anchor
步骤S106,通过getHTTPPage方式访问步骤S105生成的第一URL,获得第一URL对应的页面的HTML格式的数据源码供步骤S107进行标记截取。
[0019] 步骤S107,通过S106获得的HTML格式的数据源码,通过以“”标记开始和“”标记结束生成第一信息码;通过开始标记为“sop-totalCount”,结束标记为“]”标记截取生成第二信息码。
[0020] 当第一信息码的值为空时,返回S102步骤,同时检查网络是否正常;当第二信息码为空时,跳过步骤S108,并设置第三信息码的值为“0”;当第二信息码不为空时,执行步骤S108。
[0021] 步骤S108,生成第三信息码:第二信息码不为空时,第三信息码通过第二信息码去杂质后剩下数字为第三信息码的值;知识产权类型为商标时,第二信息码不为空时,第三信息码的值为“1”。
[0022] 步骤S109,当第二信息码不为空时,将第一信息码、第二信息码和第三信息码的信息,以及相应的辅助数据对应存贮在拥有知识产权的企业信息库中,辅助数据包括通过步骤S102所读出的企业名称传递而获得企业名称,通过步骤S107和步骤S108追加获取当前的系统时间。
[0023] 将所有数据执行步骤S110存入知识产权的企业信息总表,同时返回步骤S101将已经成功检索的记录的进行已执行的标记然后,返回步骤S102循环执行,直至所有符合条件的企业数据检索完成为止。
[0024] 在执行步骤S102前,通过设置一定数量的采样数据进行采样,采样数据包括企业拥有三种知识产权类别的一种、两种、三种及上述组合的一定量的企业,以及没有任何知识产权的一定量的企业,采样走完整个流程,查看相关采集是否正常,此步骤确定网络是否正常,官方公布数据格式是否发生变化和确定所设置的数据编码方式是否正确。
[0025] 上述实施方式仅仅为本发明的其中实施方式之一。
相关专利内容
标题 发布/更新时间 阅读量
一种专利文献聚类方法 2020-05-11 265
专利数据分析系统 2020-05-12 276
专利文献的标引方法 2020-05-12 593
一种专利在线交易系统 2020-05-12 71
一种专利检索时智能推荐专利的方法 2020-05-11 441
专利数据显示方法 2020-05-12 626
专利检索系统 2020-05-11 700
专利检索方法 2020-05-11 651
专利邮封快拆装置 2020-05-11 827
核心专利挖掘方法 2020-05-11 827
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈