首页 / 国际专利分类库 / 电学 / 电通信技术 / 无线通信网络 / 网络业务量或资源管理 / 海量数据大规模并行处理中基于数据流的负载均衡方法

海量数据大规模并行处理中基于数据流的负载均衡方法

申请号 CN200610085766.X 申请日 2006-06-30 公开(公告)号 CN1870598A 公开(公告)日 2006-11-29
申请人 南京联创科技股份有限公司; 发明人 邵九松; 黄诚; 王涛; 施大伟; 纪振华; 周仲华; 欧小祥; 周连华;
摘要 基于数据流的负载均衡方法,数据流的负载均衡是通过对输出通道的数据流文件量参数检测,文件量现分二种:文件的个数和文件的总大小,通过对各输出通道文件量的参数配置调节各通道的数据流文件。尤其是1)根据配置的输入通道,到输入通道搜索数据流文件;2)检查配置的各输出通道的数据流文件量,当某个通道的数据流文件量较小或者没有时,将输入通道的数据流文件送到该输出通道,直到该通道的文件量达到所配置的 阈值 ;当某个通道的文件量较大时,等待该通道处理;3)不停地循环检查各输出通道的文件量,实时地将文件送到各个文件量较小的通道。
权利要求

1、基于数据流的负载均衡方法,其特征是数据流的负载均衡是通过对输出通 道的数据流文件量参数检测,文件量现分二种:文件的个数和文件的总大小,通 过对各输出通道文件量的参数配置调节各通道的数据流文件。
2、由权利要求1所述的基于数据流的负载均衡方法,其特征是1)根据配置 的输入通道,到输入通道搜索数据流文件;2)检查配置的各输出通道的数据流 文件量,当某个通道的数据流文件量较小或者没有时,即没有达到配置的阈值, 将输入通道的数据流文件送到该输出通道,直到该通道的文件量达到所配置的阈 值;当某个通道的文件量较大时,等待该通道处理;3)不停地循环检查各输出 通道的文件量,实时地将文件送到各个文件量较小的通道。
3、由权利要求1所述的基于数据流的负载均衡方法,其特征是在搜索输入通 道文件的时候,如果文件没有相应的权限,将文件移到错误文件目录,并且实时 告警。

说明书全文

                             技术领域

发明涉及用于海量数据实时处理的基于数据流的负载均衡方法或一种负载均 衡器,尤其是涉及电信运营商大规模并行准确数据处理应用方法。

                             背景技术

随着通信业务的不断迅速发展,话务量急剧增加,目前的电信计费结算系统通常 每个月需要处理十几亿甚至几十亿条记录,在这种情况下,对数据处理的及时性要求 越来越高。如何在利用最少的资源的前提下提高系统的处理效率,是每个业务支撑系 统考虑的重点之一。

由于不同交换机上采集的话单文件的大小不一样,每个通道在每条话单记录处理 所需要的时间也不相同,因此系统要考虑每个通道的运行的均衡,保证系统的处理性 能,以避免一个或几个通道忙,其他通道闲置的状态,使预处理和其他的功能模进 行合理的、等负荷的运行。

CN03812802涉及数据网络中的负载平衡装置,该装置包括:用于对到来数据分 组计算哈希函数的哈希逻辑;连接到所述哈希逻辑的阈值检测器,用于响应对下游对 象超出预定阈值的使用,引发所述哈希逻辑中哈希函数的参数从第一组参数到第二组 参数的重新规定,以在下游对象之间重新分布数据分组;随后基于一种单独的哈希计 算的结果,而经由从第一和第二路由选择通路中选择出的一条通路对分组进行路由选 择。

CN03810946用于控制通信系统中的数据流的方法和装置,包括接收一确认消息, 表明目的地处数据分组的接收;确定与相应的多个所述数据分组相关联的多个所述确 认消息的延迟的统计均值和方差,其中所述延迟是发送所述数据分组和接收所述确认 之间的时间段;基于所述延迟的统计均值和方差来确定延迟时间;将所述接收确认消 息的传递延迟一时间段,该时间段等于所述所确定的延迟时间。

CN200410070070基于业务数据流计费的计费信息处理方法,该方法包括以下步 骤:传输面功能实体获取计费配置信息,并根据计费配置信息生成计费信息,然后上 报给计费功能实体。其中,传输面功能实体获取计费配置信息可以是通过接收计费规 则功能实体发送的计费规则,从中获取计费配置信息,也可以是获取配置在传输面功 能实体自身的计费配置信息。

负载均衡器可以把数据按地区和业务划分到多个通道进行处理,另外通道也可以 分配到多台主机上运行,分配方式是通过参数配置形式来设置的。

                            发明内容

本发明的目的是:提出一种基于数据流的负载均衡方法及均衡器。支持多对多目 录的均衡负载功能;支持单对多目录的均衡负载功能;支持按文件大小均衡分配功能; 提出一种负载均衡器把数据按地区和业务划分到多个通道进行处理,另外通道也可以 分配到多台主机上运行,尤其是针对传统处理方法虽然是多通道,但通道间的数据不 均衡,导致一些通道长期空闲,但有些通道数据积压太多,最后数据无法及时处理的 问题而提出的。

本发明的技术方案是:基于数据流的负载均衡方法,数据流的负载均衡是通过对 输出通道的数据流文件量参数检测,通过对各输出通道文件量的参数配置调节各通道 的数据流文件。文件量现分二种:文件的个数和文件的总大小。

具体而言:1)根据配置的输入通道,到输入通道搜索文件;2)检查配置的各 输出通道的文件量,当某个通道的文件量较小(没有达到配置的阈值)或者没有时, 将输入通道的文件送到该输出通道,直到该通道的文件量达到所配置的阈值;当某个 通道的文件量较大时,等待该通道处理;3)不停地循环检查各输出通道的文件量, 实时地将文件送到各个文件量较小的通道。

本发明分配方式是通过参数配置形式来设置的。在搜索输入通道文件的时候,如 果文件没有相应的权限(后续模块无法处理),将文件移到错误文件目录,并且实时 告警。

基于数据流的负载均衡器技术主要功能是根据不同的交换机分为不同的交换机 组,按照设定的文件过滤规则,以轮循的方式,轮流在输入通道下搜索符合过滤条件 的文件,以区别不同业务平台。然后按照每个交换机组输出通道里文件的大小或者是 多少,找出文件数目最少或者文件总大小最小的一个通道,并和标准之间进行比较, 将文件按照要求进行改名后向这个通道分发文件减小这样的差别,直到该通道大于或 者等于标准条件,接着继续扫描输出通道,找出符合条件的下一个输出通道,改名并 分发文件使得在每个时刻的每个交换机组的输出通道能保持近似的负载均衡(文件总 数目或者文件总大小满足标准条件),以确保系统的主线进程(预处理、计费结算) 的各部分能均衡分担任务,更高效地处理话单文件。

本发明的特点是:支持多对多目录的均衡负载功能;支持单对多目录的均衡负载 功能;支持按文件大小均衡分配功能;支持文件的压缩、解压缩功能;支持文件进行 改名操作功能;提供与集中监控的接口功能等。提出一种负载均衡器把数据按地区和 业务划分到多个通道进行处理,另外通道也可以分配到多台主机上运行,分配方式是 通过参数配置形式来设置,

按这样的方式能满足高峰值海量数据处理的要求,对大容量的数据处理具有很强 的实时能和效率,并能使得系统的整体处理能力随着业务的不断发展而实现平滑的 扩充,以高效、自动的“负载平衡动态调度”,使系统的并行处理达到最大的效率。

负载均衡器还可以根据各通道文件的大小和数目,同时检测硬件的运行参数情 况,结合文件的属性要素和硬件资源的情况按规则进行优化计算,按最优算法分配每 个通道进行负载均衡,保证每个通道的负载基本均衡和结算系统的实时、有效的运行, 相关的配置可以通过逻辑表达式设定,灵活完成系统的动态功能。

本发明主要特点在于:

1、不管每个省、每个地市的各台交换机数据量的差别有多大,都可以将各 台交换机上下下来的数据均衡到不同通道,及时处理;

2、可以适当减少处理通道,降低主机的能耗;

3、不需要读写文件,处理速度很快;

4、只需一个进程就可以均衡所有通道,能耗低;

本发明基于数据流的负载均衡器技术采用构件化设计思想进行设计。该技术可以 作为独立的可配置的应用模块存在于应用平台,通过文件接口的方式输入输出。该技 术只要一个进程就可以支持多通道的均衡,能耗低。负载均衡器技术考虑了等异常情 况下的及时告警。

功能描述:

支持文件名称的逻辑表达式动态搜索;

支持文件名称的规则命名配置;

支持文件遗漏、重复的检查;

硬件重要参数的实时数值;

支持多对多目录的均衡负载功能;

支持单对多目录的均衡负载功能;

支持按文件大小均衡分配功能;

支持文件的压缩、解压缩功能;

支持文件进行改名操作功能;

提供与集中监控的接口功能;

对运行的过程和结果进行日志记录等功能;

API接口功能包括基本的信息输出功能和本功能被其他模块插入调用。

本发明的效果:在电信计费系统的实际使用表明,采用基于数据流的负载均衡器 技术比没有使用负载均衡器的系统至少提高2.5倍以上的处理效率。

                           附图说明

图1是本发明方法与面向过程和面向数据的方法进行所费时间比较的示意图

图2是本发明数据流的负载均衡过程的程序图

                           具体实施方式

基于数据流的负载均衡器技术主要采用轮流循环的算法,每次总是找出文件总数 或文件数目最小的通道,然后向该通道分发文件,直到所有输出通道达到文件总量满 足配置文件所设定的标准,保证了其后续进程能有近似均衡的负荷。

数据流的负载均衡器技术中的几个关键对象类设计如下:

Schedule函数:负载均衡部分主函数。

List函数:搜索输入通道下文件函数。

BatchMove函数:向指定输出通道下分发文件函数。

ChangeName函数:将指定的文件改名后移动到指定通道。

可以利用上述程序(但不限于上述程序)实现下述步骤:

1)根据配置的输入通道,到输入通道搜索文件; 检查配置的各输出通道的文件量,当某个通道的文件量较小(没有达到配置 的阈值,阈值是一个配置在配置文件的标志量,可以是文件的个数或者是文件 的大小,如十个文件或500M的文件)或者没有时,将输入通道的文件送到该 输出通道,直到该通道的文件量达到所配置的阈值。当某个通道的文件量较 大时,继续检查下一个通道。同时等待该通道处理。

2)不停地循环检查各输出通道的文件量,当输出通道的文件个数或者文件的 总共大小没有达到配置的阈值时,实时地将文件送到各个文件量较小的通道。

3)在搜索输入通道文件的时候,如果文件没有相应的权限(比如:文件的读 权限,如果没有读权限,后续模块无法处理),将文件移到错误文件目录,并 且实时告警。错误文件不算流量。

数据流的负载均衡过程如图2所示。

QQ群二维码
意见反馈