技术领域
[0001] 本
发明涉及一种电子文件管理系统及方法,特别是关于一种专利电子回执文件分析系统及方法。
背景技术
[0002] 随着E化
进程的加快,世界上很多官方专利局,如美国专利商标局(United StatesPatent and Trademark Office)、中华人民共和国国家知识产权局(the StateIntellectual Property Office of the People’s Republic of China)、日本专利局(the Japanese Patent Office)、欧洲专利局(European Patent Office)等,都相继推出了专利电子送件。
[0003] 利用专利电子送件可以节省大量的人
力和物力,非常快捷方便。在专利电子送件完成后,官方专利局会返回一个或者多个专利电子送件的回执文件。电子回执文件中包含有专利信息,例如专利的
申请号、申请日、
发明人及申请
费用等,但是这些专利信息只能靠人工操作的方式来识别。例如通过人工查看并对比内部存储有专利信息的
数据库系统及电子回执文件来保证是否内容一致。然而,这种人工查看专利电子回执文件的缺点是工作量大、操作麻烦,而且对于一些细微错误很难检查出来。
发明内容
[0004] 鉴于以上内容,有必要提供一种专利电子回执文件分析系统,能够及时、快速、批量地处理专利电子回执文件,不仅可以节省工作人员时间,而且可以减少人工错误识别以及错误操作带来的
风险。
[0005] 此外,还有必要提供一种专利电子回执文件分析方法,能够及时、快速、批量地处理专利电子回执文件,不仅可以节省工作人员时间,而且可以减少人工错误识别以及错误操作带来的风险。
[0006] 一种专利电子回执文件分析系统,运行于
服务器中,该服务器通过国际互联网与专利局
网站连接,并分别与数据库及客户端计算机连接。该专利电子回执文件分析系统包括:文件下载模
块,用于根据用户从客户端计算机中输入的下载指令从专利局网站下载用户所需的专利电子回执文件,以及根据官方来文代码识别专利电子回执文件的文件类型;文件转换模块,用于根据文件转换函数将PDF格式的专利电子回执文件转换为TIF格式的图像文件;文字识别模块,用于根据文字识别函数从TIF格式的图像文件中识别出图像文字信息;容错处理模块,用于对识别出的图像文字信息进行容错处理;信息分析模块,用于根据正则表达式从容错后的图像文字信息中获取专利信息,将获取的专利信息与存储在数据库的专利基本信息进行比较分析来判断获取的专利信息是否正确,以及将比较分析结果发送至客户端计算机。
[0007] 一种专利电子回执文件分析方法,通过服务器对专利电子回执文件进行比较分析后将比较分析结果发送至客户端计算机上。该专利电子回执文件分析方法包括如下步骤:(a)、根据用户从客户端计算机中输入的下载指令从专利局网站下载用户所需的专利电子回执文件;(b)、根据官方来文代码识别专利电子回执文件的文件类型;(c)、利用文件转换函数将PDF格式的专利电子回执文件转换为TIF格式的图像文件;(d)、利用文字识别函数从TIF格式的图像文件中识别出图像文字信息;(e)、对图像文字信息进行容错处理;(f)、根据正则表达式从容错后的图像文字信息中获取专利信息;(g)、将获取的专利信息与存储在数据库的专利基本信息进行比较分析来判断获取的专利信息是否正确;(h)、将比较分析结果发送至客户端计算机。
[0008] 相较于
现有技术,本发明所述的专利电子回执文件分析系统及方法,其能够及时、快速、批量地处理专利电子回执文件,不仅可以节省工作人员时间,而且可以减少人工错误识别及错误操作带来的风险。
附图说明
[0009] 图1是本发明专利电子回执文件分析系统较佳
实施例的运行环境示意图。
[0010] 图2是本发明专利电子回执文件分析系统的功能模块示意图。
[0011] 图3是本发明专利电子回执文件分析方法较佳实施例的
流程图。
[0012] 图4是图3中步骤S32的子流程图。
[0013] 图5是图3中步骤S34的子流程图。
[0014] 主要元件符号说明
[0015]
[0016]
具体实施方式
[0017] 如图1所示,是本发明专利电子回执文件分析系统较佳实施例的运行环境示意图。在本实施例中,专利电子回执文件分析系统10安装并运行于服务器1中。该服务器1通过国际互联网(Internet)21与专利局网站2连接,负责接收由专利局网站2发送的专利电子回执文件。所述的专利电子回执文件是一种专利局发出的专利通知书,或者其它专利回执文件,该专利电子回执文件通常为一种PDF格式的文件。所述的专利局网站2可以为美国专利商标局(United States Patent and Trademark Office)、中华人民共和国国家知识产权局(theState Intellectual Property Office of the People’s Republic of China)、日本专利局(the Japanese Patent Office)、或者欧洲专利局(European Patent Office)等。
[0018] 服务器1通过链接31与数据库3连接。所述的链接31是一种数据库连接,如开放式数据库连接(Open Database Connectivity,ODBC),或者Java数据库连接(Java DatabaseConnectivity,JDBC)等。所述的数据库3用于存储专利基本信息以及专利电子回执文件,负责对专利基本信息进行读写和维护,并能够迅速执行大量数据的更新和检索。所述的专利基本信息包括专利申请号、申请日、
发明名称、发明人信息、优先权信息以及专利申请费用等。
[0019] 服务器1通过内部网络41与分散的客户端计算机4连接。所述的客户端计算机4用于发送下载指令透过服务器1从专利局网站2下载专利电子回执文件,以及接收服务器1对专利电子回执文件进行比较分析后的分析结果。
[0020] 如图2所示,是本发明专利电子回执文件分析系统10的功能模块示意图。在本实施例中,所述的专利电子回执文件分析系统10包括文件下载模块101、文件转换模块102、文字识别模块103、容错处理模块104以及信息分析模块105。本发明所称的模块是完成特定功能的
计算机程序段,比程序更适合于描述
软件在计算机中的执行过程。因此本发明以下对软件都用模块加以描述。所述的服务器1包括
中央处理器11以及
存储器12,专利电子回执文件分析系统10可以存储于存储器12中,也可以安装于服务器1的
操作系统中,并能够被中央处理器11执行。
[0021] 文件下载模块101用于根据用户从客户端计算机4中输入的下载指令从专利局网站2下载用户所需的专利电子回执文件,以及根据官方来文代码识别专利电子回执文件的文件类型。在本实施例中,如果官方来文代码为“APP.FILE.REC”,文件下载模块101则识别出下载的专利电子回执文件为申请接收回执文件(Filling receipt);如果官方来文代码为“CNTF”,文件下载模块101则识别出下载的专利电子回执文件为答复审查意见文件(Officeaction)。
[0022] 文件转换模块102用于通过文件转换函数(例如Windows中的API SavePicture函数)将PDF格式的专利电子回执文件转换为TIF格式的图像文件。文字识别模块103用于根据文字识别函数(例如Windows中的DocumentCalss对象的OCR
接口函数)从TIF格式的图像文件中识别出图像文字信息。例如,如果专利电子回执文件为申请接收回执文件(Filling receipt),根据使用者的需要从TIF格式的图像文件中取得专利申请日期,
申请人信息、发明人信息、优先权信息以及发明标题等图像文字信息。
[0023] 容错处理模块104用于对识别出的图像文字信息进行容错处理。由于
图像处理过程中可能造成专利电子回执文件的专利信息产生一些误差,例如可能会将数字“1”读成字母“I”,以及将数字“0”读成字母“O”等。在本实施例中,为了保证专利信息的正确性,容错处理模块104需要对识别出的图像文字信息进行容错处理。
[0024] 信息分析模块105用于根据正则表达式(regular expression)从图像文字信息中获取专利信息。所述正则表达式是一种描述各种文本信息的文字匹配规则,信息分析模块105根据该文字匹配规则能够以最小数据单位的形式从图像文字信息中分解出所需的专利信息。信息分析模块105还用于从数据库3中读取专利基本信息,并将获取的专利信息与专利基本信息进行比较分析来判断从专利电子回执文件中获取的专利信息是否正确,以及通过电子邮件形式将比较分析结果发送给相应的客户端计算机4,由此用户可以了解所需获取的专利信息。
[0025] 如图3所示,是本发明专利电子回执文件分析方法较佳实施例的流程图。步骤S30,用户通过客户端计算机4发送下载指令至服务器1,服务器1中的文件下载模块101通过该下载指令从专利局网站2下载用户所需的专利电子回执文件,例如专利局发出的专利通知书等,该专利电子回执文件通常为一种PDF格式的文件。步骤S31,文件下载模块101根据官方来文代码识别专利电子回执文件的文件类型。例如,如果官方来文代码为“APP.FILE.REC”,文件下载模块101则识别出下载的专利电子回执文件为申请接收回执文件(Filling receipt);如果官方来文代码为“CNTF”,文件下载模块101则识别出下载的专利电子回执文件为答复审查意见文件(Office action)。
[0026] 步骤S32,文件转换模块102利用文件转换函数将PDF格式的专利电子回执文件转换为TIF格式的图像文件。该文件转换模块102使用的文件转换方法将在下图4中进行详细描述。步骤S33,文字识别模块103根据用户对各种专利电子回执文件的需求利用文字识别函数从图像文件中识别出图像文字信息。例如,如果专利电子回执文件为申请接收回执文件(Filling receipt),根据使用者的需要从该图像文件中取得专利申请日期,申请人信息、发明人信息、优先权信息以及发明标题等图像文字信息。
[0027] 步骤S34,容错处理模块104对识别出的图像文字信息进行容错处理。由于专利电子回执文件的专利信息可能会存在一些错误,例如可能会将数字“1”读成字母“I”,以及将数字“0”读成字母“O”等。为了保证专利信息的正确性,容错处理模块104需要对识别出的图像文字信息进行容错处理,具体的图像文字信息容错处理方法将在下图5中进行详细描述。
[0028] 步骤S35,信息分析模块105利用正则表达式(regular expression,regexes)从容错处理后的图像文字信息中获取专利信息。所述的正则表达式是一种描述各种文本信息的匹配规则,根据该匹配规则能够以最小数据单位的形式从文本信息中分解出所需的数据。本实施例中,信息分析模块105利用正则表达式从图像文字信息
抽取出各种专利信息,例如申请日期,申请人信息、发明人信息、优先权信息以及发明标题等专利信息。
[0029] 步骤S36,信息分析模块105将专利信息按照专利局官方格式进行组合。例如,当一件专利申请中有多个发明人时,信息分析模块105将多个发明人信息按照专利局官方格式进行组合成完整的发明人信息。步骤S37,信息分析模块105从数据库3中读取专利基本信息,并将获取的专利信息与专利基本信息进行比较分析,来判断从专利电子回执文件中获取的专利信息是否正确。步骤S38,信息分析模块105通过电子邮件形式将比较分析结果发送给相应的客户端计算机4,由此用户即可了解所需获取的专利信息。
[0030] 如图4所示,是图3中步骤S32的子流程图。步骤S321,用户开启PDF格式的专利电子回执文件。步骤S322,文件转换模块102将专利电子回执文件各页的内容存入剪切板中。步骤S323,文件转换模块102利用文件转换函数(例如Windows中的API SavePicture函数)将剪切板中的图像内容存储成JPG格式的图像文件。步骤S324,文件转换模块102将JPG格式的图像文件转换为TIF格式的图像文件。步骤S325,文字识别模块103利用文字识别函数(例如Windows中的DocumentCalss对象的OCR接口函数)从TIF格式的图像文件中获取图像文字信息,例如从TIF格式的图像文件中获取专利申请日期,申请人信息、发明人信息、优先权信息以及发明标题等图像文字信息。
[0031] 如图5所示,是图3中步骤S34的子流程图。步骤S341,容错处理模块104建立一个文字误差识别表单。步骤S342,容错处理模块104将识别出的图像文字信息存入文字误差识别表单中。步骤S343,容错处理模块104从数据库3中读取专利基本信息,例如专利申请日期,申请人信息、发明人信息、优先权信息以及发明标题等专利基本信息。步骤S344,容错处理模块104将各种图像文字信息与其对应的专利基本信息进行比较,例如将图像文字信息中的发明人信息与专利基本信息中的发明人信息进行比较。步骤S345,容错处理模块104根据比较结果判断图像文字信息是否存在错误。如果图像文字信息存在错误,步骤S346,则容错处理模块104识别出错误的图像文字信息。如果图像文字信息没有错误,则流程进入图3所示的步骤S35。步骤S347,容错处理模块104用专利基本信息替换字误差识别表单中的错误图像文字信息,而后流程进入图3所示的步骤S35。
[0032] 通过本发明所述的电子回执文件分析系统及方法,用户可以在客户端计算机4上设定下载条件从专利局网站2下载PDF格式的专利电子回执文件,并对PDF格式的专利电子回执文件进行图像转换处理,使得PDF格式文件变为可以进行文字识别的图象格式文件,通过图象识别技术取得图象内的文字信息,并对根据图象识别分析出来的文字信息进行容错处理,根据用户需要取得专利信息的基本规则获取各类用户所需的专利信息。通过本发明所述的专利电子回执文件分析系统及方法能够及时、快速、批量地处理专利电子回执文件,不仅可以大量节省工作人员时间,而且可以减少人工错误识别及错误操作带来的风险。