首页 / 专利库 / 电子零件及设备 / 机电一体化 / 机电系统 / 轨道交通工程造价成果excel文件解析的技术方法

轨道交通工程造价成果excel文件解析的技术方法

阅读:304发布:2020-05-08

专利汇可以提供轨道交通工程造价成果excel文件解析的技术方法专利检索,专利查询,专利分析的服务。并且本 发明 公开一种轨道交通工程造价成果excel文件解析的技术方法,包括如下步骤:获取轨道交通造价成果文件并提取字段 属性信息 、关键特征字段以及数值,通过Simhash 算法 形成标准化文本,并进行规约、统计、汇总及存储,未经标准化的文本通过Nakatsu算法查找近似标准化文本,再通过排序算法二次解析未经标准化的关键特征字段,最后形成标准化文本,实现了对轨道交通工程造价成果excel文件的解析,为轨道交通工程的数据标准化提供有 力 的帮助,而且本发明还具有识别效率高,准确度精准的特点。,下面是轨道交通工程造价成果excel文件解析的技术方法专利的具体信息内容。

1.一种轨道交通工程造价成果excel文件解析的技术方法,其特征在于,包括如下步骤:
S1.获取各轨道交通造价成果excel文件,对excel文件内容格式进行识别,获取表格的行数、列数及有效单元格的信息,并提取有效单元格中的字段属性信息
S2.根据提取的字段属性信息进行坐标定位并提取有效的关键特征字段以及数值;
S3.将有效的关键特征字段加入缓存消息队列,并通过Simhash算法对关键特征字段相似对度进行计算及统计,识别出未知特征和标准格式特征;
S4.将未知特征、标准格式特征以及相应的数值进行规约,并按照轨道交通工程项目标准结构自动统计和汇总形成初始解析文本;
S5.判断初始解析文本中是否存在未知特征,如果不存在,则设定其为标准解析文本,并存储至数据库中;如果存在未知特征,则将其进行二次解析,步骤如下:
S5.1.将初始解析文本中存在未知特征的部分进行屏蔽或拆分;
S5.2.通过Nakatsu算法从数据库中查找相似度匹配的标准解析文本;
S5.3.通过排序算法对比步骤S5.1中的初始解析文本以及步骤S5.2中的标准解析文本中,将步骤S5.2中的标准解析文本中的标准格式特征匹配至步骤S5.1中的初始解析文本中的未知特征,最后形成标准解析文本,并存储至数据库中。
2.根据权利要求1所述的一种轨道交通工程造价成果excel文件解析的技术方法,其特征在于,步骤S1中字段属性信息包括行名称和列名称。
3.根据权利要求1所述的一种轨道交通工程造价成果excel文件解析的技术方法,其特征在于,步骤S2中具体包括:将包含有关键特征字段的文本信息进行分词处理,并与关键词库进行匹配,得到有效的关键特征字段,所述关键词库以《城市轨道交通工程项目建设标准》中记载的工程种类及各个工程种类项目下的造价指标作为关键词。
4.根据权利要求1所述的一种轨道交通工程造价成果excel文件解析的技术方法,其特征在于,步骤S5和S5.3包括对标准解析文本按照工程项目数据层级进行统一编码。
5.根据权利要求4所述的一种轨道交通工程造价成果excel文件解析的技术方法,其特征在于,所述工程项目数据层级包括:建设规模、项目构成、总体布局、线路工程、车辆、限界、运营组织与管理、车站建筑、车站结构工程、机电系统、机电设备、安全防护、环保、主要技术经济指标。

说明书全文

轨道交通工程造价成果excel文件解析的技术方法

技术领域

[0001] 本发明涉及轨道交通工程文件的处理方法,具体为一种轨 道交通工程造价成果excel文件解析的技术方法。

背景技术

[0002] 随着我国经济实不断增强,城市化发展的步伐也在逐渐 加快,作为解决城市交通的重要手段——轨道交通建设也日益 受到高度重视。目前城市轨道交通工程建设过程中存在的主要 问题是前期工作缺乏深度,项目决策与建设管理程序不规范, 投资控制难度大,出现部分建设工程返工重建,既浪费了国家 资金,又不能保证建设质量,对轨道交通工程造价文件进行归 集审编,有利于审计部对其进行工程审计和审核。
[0003] 但是由于轨道交通建设由于历史背景复杂,存在线路多、 站点多、施工方多等特点,各个施工方起草的工程造价成果文 件虽然一般采用Excel格式文件进行存储,但是文件的内容的 撰写格式各不相同,这些Excel源文件收集在一后,会发现 这些源文件在撰写格式上存在各种乱、杂和非结构化的问题, 这些撰写格式不统一的Excel文件数据上传到大数据分析平台 后,系统难以对其数据自动进行识别及分析,因此对分析工作 带来了很大困难。现有的解决方案主要仍是通过人工进行识别 及分析,效率很低且成本过高。

发明内容

[0004] 为了克服现有技术提及的Excel源文件的乱、杂、非结构 化的缺点,本发明提供一种轨道交通工程造价成果excel文件 解析的技术方法,把这些乱、杂、非结构化的内容识别出来。
[0005] 本发明为解决上述问题采取的方案是:一种轨道交通工程 造价成果excel文件解析的技术方法,其步骤如下:
[0006] S1.基于高并发分布式的计算机技术,获取各客户端上的轨 道交通造价成果excel文件,对excel文件内容格式进行识别, 获取表格的行数、列数及有效单元格的数量和位置的信息,并 提取有效单元格中的字段属性信息
[0007] S2.根据提取的字段属性信息进行坐标定位并提取有效的 关键特征字段以及数值;
[0008] S3.将有效的关键特征字段加入缓存消息队列,并通过 Simhash算法对关键特征字段相似对度进行计算及统计,识别出 未知特征和标准格式特征;
[0009] S4.将未知特征、标准格式特征以及相应的数值进行规约, 并按照轨道交通工程项目标准结构自动统计和汇总形成初始解 析文本;
[0010] S5.判断初始解析文本中是否存在未知特征,如果不存在, 则设定其为标准解析文本,并存储至数据库中;如果存在未知 特征,则将其进行二次解析,步骤如下:
[0011] S5.1.将初始解析文本中存在未知特征的部分进行屏蔽或 拆分;
[0012] S5.2.通过Nakatsu算法从数据库中查找相似度匹配的标准 解析文本;
[0013] S5.3.通过排序算法对比步骤S5.1中的初始解析文本以及 步骤S5.2中的标准解析文本中,将步骤S5.2中的标准解析文 本中的标准格式特征匹配至步骤S5.1中的初始解析文本中的未 知特征,最后形成标准解析文本,并存储至数据库中。
[0014] 作为本发明的进一步方案,步骤S1中字段属性信息包括行 名称和列名称。
[0015] 作为本发明的进一步方案,步骤S2中具体包括:将包含有 关键特征字段的文本信息进行分词处理,并与关键词库进行匹 配,得到有效的关键特征字段,所述关键词库以《城市轨道交 通工程项目建设标准》(建标104-2008)中记载的工程种类及 各个工程种类项目下的造价指标作为关键词。
[0016] 作为本发明的进一步方案,步骤S5和S5.3包括对标准解 析文本按照工程项目数据层级进行统一编码,以便于数据横向 及纵向对比分析。其中,所述工程项目数据层级包括:建设规 模、项目构成、总体布局、线路工程、车辆、限界、运营组织 与管理、车站建筑、车站结构工程、机电系统、机电设备、安 全防护、环保、主要技术经济指标等等。
[0017] 具体地,所述初始解析文本和标准解析文本按照轨道交通 工程的专业,分部分项,清单,定额,清单耗量和措施费用等 等进行分类并汇总。
[0018] 本发明的有益效果是:本发明通过提取excel文件数据的 字段属性信息、关键特征字段以及数值,通过Simhash算法形 成标准化文本,并进行规约、统计、汇总及存储,未经标准化 的文本通过Nakatsu算法查找近似标准化文本,再通过排序算 法二次解析未经标准化的关键特征字段,最后形成标准化文本, 实现了对轨道交通工程造价成果excel文件的解析,为轨道交 通工程的数据标准化和管理提供有力的帮助,而且本发明还具 有识别效率高,准确度精准的特点。附图说明
[0019] 图1为本发明的方法流程框图
[0020] 图2-图4为本发明的具体实施例的表格处理示意图。

具体实施方式

[0021] 下面结合附图对本发明进行进一步的说明。
[0022] 如图1所示,一种轨道交通工程造价成果excel文件解析 的技术方法,其步骤如下:
[0023] S1.基于高并发分布式的计算机技术,获取各客户端上的轨 道交通造价成果excel文件,对excel文件内容格式进行识别, 获取表格的行数、列数及有效单元格的数量和位置的信息,并 提取有效单元格(非空白内容单元格)中的字段属性信息,该 字段属性信息包括行名称、列名称和数值,譬如:序号、编号、 项目名称、单位、数量等等;
[0024] S2.根据提取的字段属性信息,进行坐标定位并提取有效的 关键特征字段以及数值;其中,提取有效的关键特征字段的方 法是将包含有关键特征字段的文本信息进行分词处理,并与关 键词库进行匹配,得到有效的关键特征字段,所述关键词库以 《城市轨道交通工程项目建设标准》(建标104-2008)中记载 的工程种类及各个工程种类项目下的造价指标作为关键词;
[0025] S3.将有效的关键特征字段加入缓存消息队列,并通过 Simhash算法对关键特征字段相似对度进行计算及统计,识别出 未知特征和标准格式特征;
[0026] S4.将未知特征、标准格式特征以及相应的数值进行规约, 并按照轨道交通工程项目标准结构自动统计和汇总形成初始解 析文本,具体地,所述初始解析文本和标准解析文本按照轨道 交通工程的专业,分部分项,清单,定额,清单耗量和措施费 用等等进行分类并汇总;
[0027] S5.判断初始解析文本中是否存在未知特征,如果不存在, 则设定其为标准解析文本,并存储至数据库中;如果存在未知 特征,则将其进行二次解析,步骤如下:
[0028] S5.1.将初始解析文本中存在未知特征的部分进行屏蔽或 拆分;
[0029] S5.2.通过Nakatsu算法从数据库中查找相似度匹配的标准 解析文本;
[0030] S5.3.通过排序算法对比步骤S5.1中的初始解析文本以及 步骤S5.2中的标准解析文本中,将步骤S5.2中的标准解析文 本中的标准格式特征匹配至步骤S5.1中的初始解析文本中的未 知特征,最后形成标准解析文本,并存储至数据库中。
[0031] 具体地,步骤S4中的所述初始解析文本和步骤S5.3中的 标准解析文本按照轨道交通工程的专业,分部分项,清单,定 额,清单耗量和措施费用等等进行分类并汇总。
[0032] 作为本发明的进一步方案,步骤S5和S5.3包括对标准解 析文本按照工程项目数据层级进行统一编码,以便于数据横向 及纵向对比分析。其中,所述工程项目数据层级包括:建设规 模、项目构成、总体布局、线路工程、车辆、限界、运营组织 与管理、车站建筑、车站结构工程、机电系统、机电设备、安 全防护、环保、主要技术经济指标等等。
[0033] 以下结合具体实施例对本发明作进一步说明:
[0034] 步骤S1获取如图2所示的目标轨道交通造价成果excel文 件,通过步骤S2和S3分析该excel文件中的字段属性信息, 得知该excel文件为名称为L的明挖造价指标成果表格,最终 将其形成如图3所示的标准解析文本,并按照工程项目数据层 级进行统一编码记录在数据库中;如图4所示,假若初始解析 文本中发生无法解析的未知特征A,则通过Nakatsu算法从数据 库中查找相似度匹配的标准解析文本,此实施例中相似度匹配 最高的为图3所示的标准解析文本,通过排序算法对比图3和 图4两个文本,最终确定未知特征A对应的特征为“土石方指 标/(元/m3)”,则赋予A为“土石方指标/(元/m3)”并形成 标准解析文本存储;由于实际情况中两个工程间的指标数值未 必一致,但是由于工程的相似性数值的差距一般都会差不不大, 作排序算法时允许适当的差值变化可以提高解析的精度和效 率,如果一个初始解析文本中存在较多的未知特征,则可以屏 蔽部分未知特征通过Nakatsu算法匹配相似标准解析文本,又 或者单独将未知特征对应的行或列拆分出来,单独通过Nakatsu 算法匹配相似标准解析文本信息。
[0035] 以上所述者,仅为本发明的较佳实施例而已,当不能以此 限定本发明实施的范围,即大凡依本发明申请专利范围及发明 说明内容所作的简单等效变化与修饰,皆仍属本发明专利涵盖 的范围内。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈