首页 / 专利库 / 软件 / 共享初始过滤规则集 / 包括增值和请求式数据传送的可共享多租户参考数据实用工具和储存库以及运行方法

包括增值和请求式数据传送的可共享多租户参考数据实用工具和储存库以及运行方法

阅读:271发布:2020-06-27

专利汇可以提供包括增值和请求式数据传送的可共享多租户参考数据实用工具和储存库以及运行方法专利检索,专利查询,专利分析的服务。并且一种多源多租户参考数据实用工具(1)以及用于形成和维护该实用工具的方法,其响应于来自客户(6,7,8,9)的 请求 传送高品质参考数据,其使用共享的 基础 设施实现,并使用客户的参考数据提供增值服务。还包括了通过对每个值的完整寻源 跟踪 对所接收的数据进行数据 净化 与品质保证、在允许检索并强制执行客户的基于源的资格的储存库(20)中存储结果得到的实体值、以及以支持多种客户应用需求的请求式数据集(30,31,32,33)的形式传送检索得到的数据。一种有利的实现具有用于对数据品质和使用率、商业文档存储与增值数据驱动计算的选择进行报告的附加服务。共享基础设施以及摊还数据品质保证的成本保证以更低的成本传送品质更好的数据。,下面是包括增值和请求式数据传送的可共享多租户参考数据实用工具和储存库以及运行方法专利的具体信息内容。

1.一种用于服务于多个接受者的参考数据实用工具,包括:
数据输入,用于从多个源接收未处理的参考数据;
处理器,用于对所接收的所述未处理参考数据进行处理,以便生成具 有增加价值的处理后的参考数据;
储存库,用于对所述未处理的参考数据以及所述处理后的参考数据进 行存储;以及
输出生成器,用于根据接受者的说明生成用于传送到接受者的输出数 据;使得被传送的输出数据包含未处理的参考数据以及处理后的参考数据 中所述接受者有资格接收的至少一个;
其中,所述参考数据实用工具是可缩放的,以便支持增大数量的源以 及增大数量的接受者。
2.根据权利要求1的参考数据实用工具,其被配置为多租户实用工具。
3.根据权利要求2的参考数据实用工具,其中,所述实用工具被实现 为共享资源的系统。
4.根据权利要求3的参考数据实用工具,其中,所述共享资源包括下 列当中的至少一个:储存库、专家、处理、通信链路以及数据存储设施。
5.根据权利要求1的参考数据实用工具,还包括租户执行对其客户的 自服务管理的装置。
6.根据权利要求1的参考数据实用工具,其中,所述储存库还存储多 个商业文档,且所述输出生成器提供作为输出的所述文档的被选群组。
7.根据权利要求1的参考数据实用工具,还包括存储器部分,该部分 用于存储处理后与未处理的参考数据,并用每个未处理或处理后的参考数 据元存储用于得出所述元的所应用的处理以及数据源的记录;所述寻源与 处理确定独立接受者对接收所述元的资格。
8.根据权利要求7的参考数据实用工具,其中,所述接受者是被共享 所述参考数据实用工具的使用的多个租户组织中的至少一个授予对特定参 考数据源以及增强过程的资格的个体。
9.根据权利要求1的参考数据实用工具,其中,所述未处理的参考数 据包括信息元,且所述参考数据实用工具还包括用寻源信息对多个所述信 息元进行注释的装置。
10.根据权利要求9的参考数据实用工具,其中,所述信息元具有属 性,且所述参考数据实用工具还包括用寻源信息对所述属性进行注释的装 置。
11.根据权利要求9的参考数据实用工具,还包括基于所述寻源信息 维护关于接受者对所述信息元的资格的信息的装置。
12.根据权利要求1的参考数据实用工具,包括位于在地理上分散的 区域中的部件。
13.根据权利要求12的参考数据实用工具,其中,位于所述在地理上 分散的区域中的一个区域的部件足够作为独立参考数据实用工具操作。
14.根据权利要求13的参考数据实用工具,其中,每个独立参考数据 实用工具包括本地储存库,其还包括用于在所述本地储存库之间交换信息 的通信设施。
15.根据权利要求13的参考数据实用工具,其中,每个独立参考数据 实用工具被专用于提供与特定地理区域有关的信息,并使用所述通信设 施获取和提供来自其他地理区域中的其他独立参考数据实用工具的信息。
16.根据权利要求1的参考数据实用工具,还包括用于报告所述参考 数据实用工具所执行过程的准确度的准确度报告器。
17.根据权利要求1的参考数据实用工具,还包括用于管理所述参考 数据实用工具的参数的配置管理器。
18.根据权利要求17的参考数据实用工具,其中,所述配置管理器包 括下列中的至少一个:
用于管理多个最大可允许并行数据增强过程的装置,
用于管理在数据增强过程期间应用的单源净化过程的类型的装置,
用于管理在数据增强过程期间应用的源间过程的类型的装置,
用于管理将在特定单源净化过程期间应用的规则的装置,以及
用于管理将在特定源间过程期间应用的规则的装置。
19.根据权利要求1的参考数据实用工具,其中,所述输出生成器包 括:
用于从接受者接收至少一个请求的装置;
用于对所述至少一个请求进行解析以提取请求说明的装置;以及
用于初始化至少一个工作流以向所述接受者提供输出数据的装置。
20.一种操作用于服务于多个接受者的参考数据实用工具的方法,包 括:
从多个源接收未处理参考数据输入;
对所接收的所述未处理参考数据进行处理,以便生成具有增加价值的 处理后的参考数据;
对所述未处理的参考数据以及所述处理后的参考数据进行存储;以及
为特定的接受者生成输出数据;使得所述输出数据仅包含未处理的参 考数据以及处理后的参考数据中所述接受者有资格接收的至少一个;
21.根据权利要求20的方法,还包括对所述参考数据实用工具进行配 置,以便使其对于支持增加数量的源、增加数量的接受者、增加数量的过 程、以及增加数量和复杂度的资格安排中的至少一个是可缩放的。
22.根据权利要求20的方法,还包括在储存库中存储多个商业文档, 并生成作为输出的所述文档的被选群组。
23.根据权利要求20的方法,还包括存储对源的访问权,其中,接受 者有资格接收的数据由所述访问权定义。
24.根据权利要求20的方法,其中,所述接受者是由共享所述参考数 据实用工具的使用的多个租户组织中的至少一个授予对特定参考数据源以 及增强过程的资格的个体,所述租户组织中的所述至少一个独立地与一个 或一个以上的数据源进行商定以便对其数据有资格,并与所述参考数据实 用工具进行商定以便对将特定数据增强过程应用到所述至少一个租户组织 有资格的其他参考数据得到的结果有资格。
25.根据权利要求20的方法,其中,所述未处理的参考数据包括信息 元,且所述参考数据实用工具用寻源信息对多个所述信息元进行注释。
26.根据权利要求25的方法,其中,所述信息元具有属性,且所述参 考数据实用工具用寻源信息对所述属性进行注释。
27.根据权利要求26的方法,还包括基于所述寻源信息维护关于接受 者对所述信息元的资格的信息。
28.根据权利要求20的方法,还包括使用位于在地理上分散的区域中 的装置。
29.根据权利要求28的方法,还包括将位于所述在地理上分散的区域 中的一个的部件作为独立参考数据实用工具操作。
30.根据权利要求29的方法,其中,每个独立参考数据实用工具包括 本地储存库,其还包括在所述本地储存库之间传送信息。
31.根据权利要求19的方法,其中,每个独立参考数据实用工具被专 门用于提供与特定地理区域有关的信息,其还包括传送来自其他地理区域 中的其他独立参考数据实用工具的信息。
32.根据权利要求20的方法,还包括通过记录对于接收自源的值的品 质增强动作、将新到达的参考值与对于该项目的当前多源推荐值进行比较、 以及记录由源提供的值与推荐值匹配的一致性的组合来评估源的准确度。
33.根据权利要求20的方法,还包括通过管理下列中的至少一个来管 理参考数据实用工具的配置:
多个最大可允许并行数据增强过程,
在数据增强过程期间应用的单源净化过程的类型,
在数据增强过程期间应用的源间过程的类型,
将在特定单源净化过程期间应用的规则,以及
将在特定源间过程期间应用的规则。
34.根据权利要求20的方法,其中,所述生成输出包括:
从接受者接收至少一个请求;
对所述至少一个请求进行解析以提取请求说明;
初始化至少一个工作流以向所述接受者提供所述输出数据。
35.根据权利要求20的方法,包括提供增值服务,所述增值服务包括 从群组中选择的至少一个服务,所述群组包括:基于动态传送输入数据集 的数据驱动增值计算功能、商业文档的存储和检索、被存储的商业文档对 商业事务的适用性的基于规则的验证、以及在支持商业事务时与商业文档 相关联的参考数据的编排。
36.根据权利要求20的方法,还包括在所述参考数据实用工具的部件 间维护数据流中的时间准确度。
37.根据权利要求20的方法,还包括维护针对每个接受者的源的总使 用率的记录。
38.根据权利要求37的方法,还包括为每个接受者生成关于源品质和 源使用率的至少一个的报告。
39.根据权利要求20的方法,还包括通过以下内容创建增值计算服务 的市场:
建立可用服务的登记表;
接受来自接受者的执行具有提供请求式数据集的输入数据的被识别的 服务的请求;
调用被请求的服务;
使用请求式数据集将来自所述服务计算的结果返回到做出请求的所述 接受者;以及
监视服务实例,以便记录报告信息。
40.根据权利要求39的方法,其中,所述建立可用服务的登记表包括:
基于来自服务源的信息、使用所述服务需要的参考数据输入的说明、 由每个服务计算生成的所述输出的说明,提供所述服务的描述;以及
维护来自识别有资格使用所述服务的接受者的服务起源的资格信息。
41.根据权利要求20的方法,还包括通过接收被请求服务的标识、所 述服务使用的输入参考数据的说明、以及指示来自所述服务的输出如何被 返回到客户的传送说明,处理对于增值服务实例的接受者请求。
42.根据权利要求41的方法,其中,调用被请求的服务包括:
验证使用所述服务的接受者资格;
基于对于服务执行的原始请求的变换,通过形成和执行对传送子系统 的请求式数据集请求,收集接受者指定的输入数据;
验证接受者输入数据满足服务输入要求;以及
执行服务实例。
43.根据权利要求20的方法,还包括存储具有将其内容联系到参考数 据值的注释的商业文档。
44.根据权利要求20的方法,还包括从至少一个接受者接受具有参考 数据注释的文档,在所述储存库中存储注释后的文档,以及基于从所述源 到达的与所述注释有关的信息向接受者提供服务。
45.根据权利要求20的方法,还包括对于未处理参考数据与处理后的 参考数据中的至少一个的当前值执行验证测试。
46.一种计算机可用介质,其具有包含于其中的计算机可读程序代码 装置,所述计算机可读程序代码装置用于使计算机完成权利要求20至46 中任意一项的方法。
47.一种对请求者有用的数据的多源多租户数据储存库,包括:
数据库管理系统,所述系统对数据库进行管理,该数据库包括来自多 个源的描述至少一个被引用实体的信息元;对于所述元的寻源信息的注释; 以及请求者基于所述寻源信息对信息元的资格;
数据输入装置,用于将所述信息元放在所述数据库中;以及
数据输出装置,用于响应于来自请求者的请求基于所述信息元提供数 据输出,所述输出包含所述请求者基于所述资格而有资格的信息。
48.根据权利要求47的储存库,其中,所述请求者选自包括以下的群 组:租户、客户、参考数据源、代表所述储存库的代理、代表租户的软件 程序、以及代表所述储存库的软件程序。
49.根据权利要求47的储存库,还包括用于将请求者认证为被授权于 从所述储存库获取数据的装置。
50.根据权利要求47的储存库,其中,所述资格包括下列中的至少一 个:
对特定数据源所提供数据的资格;
对特定值增强过程所生成数据项的资格;以及
对来自特定过程的数据的资格,如果用于得出该数据的所有值来自请 求者有资格的数据源的话。
51.根据权利要求50的储存库,包括数据库部分,该部分用于存储关 于基于与数据源独立签订合同的租户对与所述储存库的租户相关联的请求 者有资格接收的输出进行管理的一组资格的信息。
52.根据权利要求47的储存库,其中,所述信息元包括从元类型列表 中采用的元类型,所述元类型包括:项目实例、版本化属性、特性、属性 值、商业文档、功能定义、规则集、操作信息、媒体文档、标准描述、分 层商业数据、新闻信息、结构化文档、配置信息、以及程序代码。
53.根据权利要求47的储存库,其中,储存库实体包括至少一个项目 实例信息元,每个项目实例元包括至少一个版本化属性信息元。
54.根据权利要求53的储存库,其中,储存库实体具有至少一个用于 在信息元选择操作中选择所述储存库实体的特性。
55.根据权利要求53的储存库,其中,项目实例包括至少一个用于在 信息元选择操作中选择所述项目实例的特性。
56.根据权利要求47的储存库,其中,所述储存库从至少一个项目实 例接收用于包括在所述储存库中的过程项目实例或元数据,其中,所述项 目实例过程由所述储存库唯一地标识;所述储存库还包括:
用于形成与至少一个被引用实体对应的至少一个储存库实体的装置; 以及
用于在对所述至少一个被引用实体的引用的基础上将用于被包括的所 述项目实例或元数据关联于至少一个所述储存库实体的装置。
57.根据权利要求47的储存库,其中,所述数据库管理系统包括:
用于在所述数据库中将标识产生所述项目实例的项目实例过程的信息 存储为至少一个项目实例的至少一个特性的装置;
用于在所述数据库中以至少一个发展跟踪的源数据标签的形式存储所 述项目实例历史中的至少一个事件的装置,所述至少一个事件包括从至少 一个项目实例过程接收到的所述至少一个事件的代理和源以及时间信息;
用于以至少一个发展跟踪的源数据标签的形式存储所述项目实例的版 本化属性历史中的事件的装置,所述至少一个事件包括从项目实例过程接 收到的所述至少一个事件的代理和源以及时间信息;
用于存储每个所述项目实例的元数据的装置;
用于存储每个储存库实体的元数据的装置;以及
用于存储每个所述版本化属性的元数据的装置。
58.根据权利要求47的储存库,其中,所述数据库管理系统包括下列 中的至少一个:
用于在至少一个发展跟踪源数据标签中存储至少一个反映涉及项目实 例的操作的事件的装置,所述至少一个事件包括所述至少一个事件的代理 和源以及时间信息;
用于创建新项目实例的装置;
用于影响已有项目实例的装置;
用于提供多个项目实例的复合处理的装置;
用于向项目实例供应从源数据集接收的储存库实体的属性值的装置;
用于向项目实例供应从单源数据集接收的值增强以及品质保证产生的 储存库实体的属性值的装置;以及
用于向项目实例供应通过来自与同一被引用实体的同一属性有关的多 个源数据集的值之间的比较和选择产生的储存库实体的属性值的装置。
59.根据权利要求47的储存库,其中,所述数据库管理系统包括:
用于对请求进行解释以产生至少一个请求说明的装置;
用于基于所述请求说明在所述储存库中选择被请求的信息元以形成返 回数据集的装置;
用于过滤所述返回数据集以便仅包括所述请求者有资格的信息元以形 成过滤后的返回数据集的装置;以及
用于将所述过滤后的返回数据集供应给所述数据输出装置的装置。
60.根据权利要求59的储存库,其中,用于解释的所述装置产生请求 说明,所述请求说明包括从包括以下内容的方面群组中采取的多个方面: 所述请求者的标识;对将被返回的所述信息元的选择进行管理的选择判定; 以及当来自不同源的多个信息元可用于满足所述信息元选择判定时包括请 求者的所述至少一个偏好的优先化的寻源偏好。
61.根据权利要求58的储存库,其中,用于选择的所述装置包括从包 括以下内容的群组中采取的至少一个:
用于选择与所述请求说明匹配的任何储存库实体的装置;
用于选择属于与所述请求说明匹配的所述储存库实体的任何项目实例 的装置;
用于选择组成与所述请求说明匹配的所述项目实例的任何属性值的装 置;
用于选择与匹配于所述请求说明的所述任何储存库实体相关联的任何 元数据的装置;
用于选择与匹配于所述请求说明的所述任何项目实例相关联的任何元 数据的装置;
用于选择与匹配于所述请求说明的所述任何属性值相关联的任何元数 据的装置;以及
用于应用指定的请求者寻源偏好以形成返回数据集的装置,所述返回 数据集包括:所述项目实例、属于所述项目实例的所述属性值、以及所述 元数据。
62.根据权利要求58的储存库,其中,用于过滤的所述装置包括从包 括以下内容的群组中采取的至少一个:
用于保证所述至少一个请求者对负责生成任何所选项目实例的任何项 目实例过程的资格的装置;
用于保证所述至少一个请求者对任何所选属性值的资格的装置,其中, 仅在所述请求者对提供所述属性值的至少一个源有资格的条件下所述请求 者有资格接收所述任何属性值;以及
用于从所述返回数据集中移除所述请求者没有资格的任何信息元的装 置。
63.一种信息处理装置,包括用于维护多源多租户数据储存库的装置, 其中,用于维护的所述装置包括:
用于将所述多源多租户数据储存库形成为包括来自多个源的、对至少 一个被引用实体进行描述的信息元的装置;
用于在所述多源多租户数据储存库中用寻源信息对来自所述信息元的 多个元进行注释的装置;以及
用于基于所述寻源信息维护关于请求者对信息元的资格的信息的装 置。
64.一种多源多租户参考数据储存库,包括:
用于将来自多个源的关于商业工具信息、企业层次信息、企业新闻信 息以及其他信息的信息输入到所述储存库中的装置;
用于对所述商业工具信息、企业层次信息、企业新闻信息以及其他信 息的改变以及每个改变的源进行注释的装置;
用于对关于请求者获取所述商业工具信息、企业层次信息、企业新闻 信息以及其他信息的资格的信息进行维护的装置,这种维护是基于对已提 供或修改该信息的源以及过程的资格的;以及
用于基于对请求者指定的选择和寻源偏好并以所述资格为条件,响应 于来自至少一个请求者的至少一个请求,返回所述商业工具信息、企业层 次信息、企业新闻信息以及其他信息的至少一个子集的装置。
65.一种储存库装置,包括:
用于形成在适当的地方具有信息元结构的储存库的装置;
用于将到达的信息元插入所述储存库的存储的装置;
用于在形成每个信息元的发展跟踪的源数据标签时用描述所述每个信 息元的发展历史的注释对所述每个信息元进行注释的装置;
用于为每个授权请求者对之有资格的储存库信息和数据源的授权请求 者维护基于源的资格信息的装置;以及
用于在提供对包括在所述储存库中的信息的资格强制执行受控访问的 过程中使用所述发展跟踪源数据标签连同基于源的资格的装置。
66.一种用于维护对请求者有用的数据的多源多租户数据储存库的方 法,包括:
将所述多源多租户数据储存库形成为包括来自多个源的、描述至少一 个被引用实体的信息元;
用寻源信息对多个所述元进行注释;以及
基于所述寻源信息,维护关于请求者对信息元的资格的信息。
67.根据权利要求66的方法,其中,所述资格包括下列中的至少一个:
对由特定数据源提供的数据的资格;
对由特定值增强过程生成的数据项的资格;以及
对来自特定过程的数据的资格,如果用于得出所述数据的所有值来自 请求者有资格的数据源的话。
68.根据权利要求67的方法,其中,所述储存库的租户独立与数据源 以及数据增强过程所有者签订合同,以确定管理与租户相关联的请求者有 资格接收的数据的一组资格。
69.根据权利要求66的方法,还包括基于请求者指定的选择判定和寻 源偏好并以至少一个请求者的所述资格为条件,响应于来自所述至少一个 请求者的至少一个请求,返回一组信息元。
70.根据权利要求66的方法,其中,用于响应的所述步骤包括:
从至少一个请求者接收至少一个请求;
对所述至少一个请求进行解释,以产生至少一个请求说明;
基于所述请求说明在所述多源多租户数据储存库中选择被请求的信息 元,以形成返回数据集;
过滤所述返回数据集,以便仅包括所述请求者有资格的信息元以形成 过滤后的返回数据集;以及
向所述请求者返回所述过滤后的返回数据集。
71.根据权利要求70的方法,其中,进行解释的所述步骤产生请求说 明,所述请求说明包括从包括以下内容的方面群组中采取的多个方面:所 述请求者的标识;对将被返回的信息元的选择进行管理的选择判定;以及 当来自不同源的多个信息元可用于满足所述信息元选择判定时包括所述至 少一个请求者的偏好的优先化的寻源偏好。
72.根据权利要求70的方法,其中,进行选择的所述步骤包括从包括 以下内容的群组中采取的至少一个步骤:
选择与所述请求说明匹配的任何储存库实体;
选择属于与所述请求说明匹配的所述储存库实体的任何项目实例;
选择组成与所述请求说明匹配的所述项目实例的任何属性值;
选择与匹配于所述请求说明的所述任何储存库实体相关联的任何元数 据;
选择与匹配于所述请求说明的所述任何项目实例相关联的任何元数 据;
选择与匹配于所述请求说明的所述任何属性值相关联的任何元数据; 以及
应用指定的请求者寻源偏好以形成返回数据集,所述返回数据集包括: 所述项目实例、属于所述项目实例的所述属性值、以及所述元数据。
73.根据权利要求70的方法,其中,用于过滤的所述步骤包括从包括 以下内容的步骤群组中采取的至少一个步骤:
保证所述至少一个请求者对负责生成任何所选项目实例的任何项目实 例过程的资格;
保证所述至少一个请求者对任何所选属性值的资格,其中,仅在所述 请求者对提供所述属性值的至少一个源有资格的条件下所述请求者有资格 接收所述任何属性值;以及
从所述返回数据集中移除所述请求者没有资格的任何信息元。
74.根据权利要求66的方法,其中,所述多源多租户数据储存库包括 多个信息元类型,这些类型从包括以下内容的信息元类型列表中采取:项 目实例;版本化属性;特性;属性值;商业文档;功能定义;规则集;操 作信息;媒体文档;标准描述;分层商业数据;新闻信息;结构化文档; 配置信息;以及程序代码。
75.根据权利要求66的方法,其中,储存库实体具有至少一个项目实 例信息元,每个项目实例包括至少一个版本化属性信息元。
76.根据权利要求75的方法,其中,储存库实体包括用于在信息元选 择操作中选择所述储存库实体的至少一个特性。
77.根据权利要求75的方法,其中,项目实例包括用于在信息元选择 操作中选择所述项目实例的至少一个特性。
78.根据权利要求66的方法,其中,所述形成包括从包括以下内容的 步骤群组中采取的至少一个步骤:
所述多源多租户数据储存库从至少一个项目实例过程接收用于包括在 所述储存库中的项目实例或元数据,其中,所述项目实例过程由所述储存 库唯一识别;
所述储存库形成与至少一个被引用实体对应的至少一个储存库实体; 以及
所述储存库基于对所述至少一个被引用实体的引用将用于包括的所述 项目实例或元数据与至少一个所述储存库实体相关联。
79.根据权利要求66的方法,其中,所述注释包括从包括以下内容的 步骤群组中采取的至少一个步骤:
将识别产生所述项目实例的项目实例过程的信息存储为至少一个项目 实例的至少一个特性;
以至少一个发展跟踪源数据标签的形式存储所述项目实例的历史中的 至少一个事件,所述至少一个事件包括从至少一个项目实例过程接收的所 述至少一个事件的代理和源以及时间信息;
以至少一个发展跟踪的源数据标签的形式存储所述项目实例的版本化 属性的历史中的事件,所述至少一个事件包括从项目实例过程接收的所述 至少一个事件的代理和源以及时间信息;
存储每个所述项目实例的元数据;
存储每个储存库实体的元数据;以及
存储每个所述版本化属性的元数据。
80.根据权利要求78的方法,其中,所述储存库项目实例过程包括从 包括下列内容的步骤群组中采取的至少一个步骤:
在至少一个发展跟踪源数据标签中存储反映涉及项目实例的操作的至 少一个事件,所述至少一个事件包括所述至少一个事件的代理和源以及时 间信息;
使用创建新项目实例的过程;
使用影响已有项目实例的过程;
使用包括多个项目实例过程的复合过程;
向项目实例供应接收自源数据集的储存库实体的属性值;
向项目实例供应接收自单源数据集的值增强和品质保证产生的储存库 实体的属性值;以及
向项目实例供应通过来自与同一被引用实体的同一属性有关的多个源 数据集的值之间的比较和选择所产生的储存库实体的属性值。
81.根据权利要求66的方法,其中,所述请求者从包括下列的请求者 群组中取得:代表储存库租户的代理,代表所述储存库的代理;代表储存 库租户的软件程序;以及代表所述储存库的软件程序。
82.一种用于维护多源多租户参考数据储存库的方法,包括:
将所述多源多租户数据储存库形成为包括关于以下内容的信息:来自 多个源的商业工具信息、企业分层信息、企业新闻信息以及其他信息;
对所述商业工具信息、企业分层信息、企业新闻信息以及其他信息的 改变以及每个改变的源进行注释;
基于对已提供或修改该信息的过程和源的资格,维护关于请求者获取 所述商业工具信息、企业分层信息、企业新闻信息以及其他信息的资格的 信息;以及
基于请求者指定的选择和寻源偏好并以所述资格为条件,响应于来自 至少一个请求者的至少一个请求,返回所述商业工具信息、企业分层信息、 企业新闻信息以及其他信息的至少一个子集。
83.根据权利要求82的方法,其中,所述源来自包括以下内容的源群 组:商业数据的提供者;金融数据的提供者;等级数据的提供者;企业新 闻数据的提供者;以及企业分层数据的提供者。
84.根据权利要求82的方法,其中,所述信息包括金融信息数据,该 数据从包括下列内容的至少一个的数据群组中采取:股票工具;债券工具; 衍生工具;固定收益工具;不动产抵押工具;对等关系人信息;金融事务 信息;企业事件信息;金融交易信息;金融结算信息;金融文档;其他金 融工具;以及其他金融数据。
85.根据权利要求82的方法,其中,所述形成包括:保持所述商业工 具信息、企业分层信息、企业新闻信息以及其他信息的历史状态的不同版 本。
86.一种数据储存库方法,包括:
形成在适当的地方具有信息元结构的储存库;
将到达的信息元插入所述储存库的存储;
在形成所述每个信息元的发展跟踪源数据标签时用描述所述每个信息 元的发展历史的注释对每个信息元进行注释;
为每个授权请求者对之有资格的储存库信息和数据源的授权请求者维 护基于源的资格信息;以及
在提供对包括在所述储存库中的信息的资格强制执行受控访问的过程 中使用所述发展跟踪源数据标签连同基于源的资格。
87.根据权利要求86的方法,还包括作为输入到达的检索请求;且所 述提供的过程包括形成将作为该处理的输出而返回的检索响应。
88.根据权利要求87的方法,还包括使用所述储存库存储驻留于数据 存储内的其他项目,所述其他项目包括下列中的至少一个:商业增值功能、 商业文档、功能规则集、操作规则集、功能日志记录、以及操作日志记录。
89.根据权利要求86的方法,还包括将所述发展跟踪源数据标签与所 述储存库中的至少一个信息元相关联,且所述注释步骤包括记录寻源信息, 以便提供对创建信息元值有贡献的源的可跟踪性。
90.一种计算机可用介质,其具有包含于其中的计算机可读程序代码 装置,所述计算机可读程序代码装置用于使计算机完成权利要求66至89 中任意一项的方法。
91.一种用于增强参考数据的值的方法,包括:
使所述数据经受至少一个值增强过程;以及
维护对所述参考数据的每个增强元的生成有贡献的所有数据源和所有 增强处理步骤的完整记录。
92.根据权利要求91的方法,还包括:
接收与来自第一数据源的被引用项目有关的数据;以及
基于对来自多个源的同一被引用项目的值的比较和处理生成增强的 值。
93.根据权利要求91的方法,还包括执行下列内容中的至少一个:
通过手动过程与自动过程中的至少一个对所述数据进行验证;
通过手动过程与自动过程中的至少一个对所述数据进行规格化;以及
通过手动过程与自动过程中的至少一个对所述数据进行净化。
94.根据权利要求93的方法,其中,所述参考数据包括源元,且所述 验证包括:
从源描述获取所述至少一个源元;以及
执行从包括以下内容的步骤群组中采取的至少一个步骤:
检测任何不符合所述源描述的源元;
对任何不符合所述源描述的源元进行标记;
对任何不符合所述源描述的源元进行校正;以及
移除任何不符合所述源描述的源元;以及
将通过执行验证的所述步骤生成的任何事件记录到至少一个发展跟踪 寻源数据标签。
95.根据权利要求93的方法,其中,所述参考数据包括源元,且所述 规格化包括:
获得在源描述中的所述源元;
将基于所述源描述的所述源元转换为基于对应的目标描述的至少一个 目标信息元,其中,所述目标描述是描述储存库信息元当被存储在储存库 中时的结构、内容和约束的信息;以及
执行从包括以下内容的步骤群组中采取的至少一个步骤:
检测任何不能被规格化的源元;
对任何不能被规格化的源元进行标记;
对任何不能被规格化的源元进行校正;
移除任何不能被规格化的源元;以及
将通过执行规格化的所述步骤生成的任何事件记录到至少一个发展跟 踪寻源数据标签。
96.根据权利要求93的方法,其中,所述参考数据包括源元,且所述 净化包括下列中的至少一个:
自动化执行来自包含源特有的净化规则的至少一个规则集中的至少一 个规则;
由熟悉关于至少一个被引用实体的主题的人检查所述源元值;
由熟悉关于至少一个被引用实体的主题的人应用来自包含源特有的规 则的所述至少一个规则集中的任何规则;
任何所述源元值的移除;
任何所述源元值的增加;
任何所述源元值的校正;
任何品质关注事项的注释;
向所述源报告关于所讨论源元的品质的查询;以及
将从所述动作群组中所采取的任何动作生成的任何事件记录到至少一 个发展跟踪寻源数据标签。
97.根据权利要求91的方法,还包括从多个源接收所述参考数据,以 及通过手动过程与自动过程中的至少一个选择和增强所述数据,以便产生 增值的数据。
98.根据权利要求97的方法,包括:
选择所有包含描述同一被引用实体的信息的源元;
将预定规则应用到所述元的属性与所述源元中的至少一个;
通过下列中的至少一个,从由不同的源提供的替代物中选择优选项目 或推荐项目中的一个:
基于由所述不同源提供的属性组合,创建至少一个新项目;或者
修改由所述不同源提供的所述元;
当至少一个新项目被创建时,创建新的对应的发展跟踪源数据标签;
在源项目层用关于应用到所述项目的源间处理的信息对所述发展跟踪 源数据标签进行注释。
99.根据权利要求98的方法,其中,如果已有元被选择但没有属性被 修改,则该方法还包括在项目层提供注释,以便指示哪些母源与所做出的 选择匹配。
100.根据权利要求98的方法,其中,如果发生了数据在属性层的修 改或新项目的创建,则该方法还包括为每个属性单独注释精确的一组源。
101.一种数据处理方法,包括产生至少一个发展跟踪源标签的数据集, 其包括:
从至少一个源接收至少一个源数据集,其中,源元包括源项目与源属 性中的一个,每个源数据集具有至少一个源项目,每个源项目具有至少一 个源属性;
在至少一个发展跟踪源数据标签中记录针对每个源元的源标识以及针 对每个源数据集的源标识;
获取从所述接收步骤与所述记录步骤产生的有关信息以便在至少一个 发展跟踪源数据标签中形成至少一个可记录事件;以及
形成所述至少一个发展跟踪源标签的数据集以包括至少一个发展跟踪 源数据标签,所述至少一个发展跟踪源数据标签包括所述至少一个可记录 事件,并包括所述至少一个可记录事件的至少一个源。
102.根据权利要求101的方法,还包括:
从关于所述源数据集、所述源元、以及信息元中的至少一个的至少一 个规则集中调用至少一个规则;以及
获取由所述调用步骤发展的相关信息以便在至少一个发展跟踪源数据 标签中形成至少一个其他可记录事件。
103.根据权利要求102的方法,其中,所述至少一个规则集包括从规 则群组中采取的至少一个规则,所述规则群组包括:
用于检查源属性值的范围容差的规则;
用于检查源属性值的改变率的规则;
用于检查源属性值与其他相关源属性值的一致性的规则;
用于检查源元的结构一致性的规则;
用于检查源元与其他相关源元的一致性的规则;
用于检查源元在多源多租户数据储存库中如目标描述所述地变换为目 标信息源的适用性的规则;
用于检查源元值与已有被引用实体信息的兼容性的规则;
用于将源元识别为来自特定源的规则;
用于在特定源间过程的背景下比较源元的规则;
适用于源数据集的规则;
适用于源元的规则;以及
适用于信息源的规则。
104.根据权利要求103的方法,其中,根据所述至少一个规则对从处 理阶段群组中采取的至少一个处理阶段的适用性,所述至少一个规则被分 组为至少一个规则集,所述处理阶段群组包括:验证、规格化、源特有的 净化、以及源间过程。
105.根据权利要求102的方法,其中,规则包括下列当中的至少一个: 可执行测试条件;校正方法;识别所述规则所属于的所述至少一个规则集 的信息。
106.根据权利要求102的方法,其中,可记录事件包括从包括以下内 容的数据群组中采取的数据:事件描述;事件的代理;与事件有关联的时 间信息;事件的至少一个源;事件的标识符;将事件与其所应用的信息元 相关联所需要的信息;以及事件的分类。
107.根据权利要求102的方法,其中,所述调用步骤包括从包括以下 内容的步骤群组中采取的至少一个步骤:对至少一个源元执行验证;对所 述至少一个源元执行规格化;对所述至少一个源元执行源特有的净化;以 及对所述至少一个源元执行至少一个源间过程。
108.根据权利要求107的方法,其中,对所述至少一个源元执行验证 的所述步骤包括:
从源描述获取所述至少一个源元;以及
执行从包括以下内容的步骤群组中采取的至少一个步骤:
检测不符合所述源描述的任何源元;
对不符合所述源描述的任何源元进行标记;
校正不符合所述源描述的任何源元;
移除不符合所述源描述的任何源元;以及
将执行验证的所述步骤所生成的任何事件记录到至少一个发展跟踪寻 源数据标签。
109.根据权利要求107的方法,其中,对所述至少一个源元执行规格 化的所述步骤包括:
获取源描述中的所述源元;
将基于所述源描述的所述源元转换为基于对应的目标描述的至少一个 目标信息元,其中,所述目标描述是描述储存库信息元当其被存储在储存 库中时的结构、内容以及约束的信息;以及
执行从包括以下内容的步骤群组中采取的至少一个步骤:
检测不能被规格化的任何源元;
对不能被规格化的任何源元进行标记;
校正不能被规格化的任何源元;
移除不能被规格化的任何源元;以及
将执行规格化的所述步骤所生成的任何事件记录到至少一个发展跟踪 寻源数据标签。
110.根据权利要求107的方法,其中,执行源特有的净化的所述步骤 包括从包括以下内容的动作群组中采取的动作:
自动化执行来自包含对源特有的净化规则的所述至少一个规则集的所 述至少一个规则;
由熟悉与至少一个被引用实体有关的主题的人检查所述源元值;
由熟悉与至少一个被引用实体有关的主题的人应用来自包含对源特有 的规则的所述至少一个规则集的任何规则;
任何所述源元值的移除;
任何所述源元值的增加;
任何所述源元值的校正;
任何品质关注事项的注释;
向源报告关于所讨论源元的品质的查询;以及
将从所述动作群组中所采取的任何动作生成的任何事件记录到至少一 个发展跟踪寻源数据标签。
111.根据权利要求107的方法,其中,执行至少一个源间过程的所述 步骤包括从包括以下内容的动作群组中采取的动作:
检查来自引用同一被引用实体的多个数据源的源元;
自动执行来自所述至少一个规则集的至少一个规则,该规则集包括对 所述至少一个源间过程特有的源间过程规则;
由熟悉与所述同一被引用实体有关的主题的人检查所述源元;
由熟悉该主题的人应用来自包含对所述至少一个源间过程特有的源间 过程规则的所述至少一个规则集的任何规则;
选择作为优选值的任何所述源元值;
任何所述源元的比较;
任何所述源元值的移除;
任何所述源元值的增加;
任何所述源元值的修改;
注释任何品质关注事项;
创建至少一个项目实例以包括所述至少一个源间过程的结果;
修改至少一个项目实例以包括所述至少一个源间过程的结果;
将标识信息添加到至少一个项目实例以便将所述至少一个项目实例识 别为所述至少一个源间过程的目标;以及
将通过从所述动作群组中采取的任何动作生成的任何事件记录到至少 一个发展跟踪寻源数据标签。
112.根据权利要求111的方法,还包括通过从包括以下内容的步骤群 组中采取的至少一个步骤消除在比较所述源元的所述步骤中检测到的差 别:
基于商业规则自动选择源元;
基于算法自动选择源元;
由熟悉该主题的人基于所述主题领域的知识手动选择推荐源元;
由熟悉该主题的人基于自由获得的公共信息手动选择推荐源元;
由熟悉该主题的人基于该主题领域的知识手动创建推荐源元;
由熟悉该主题的人基于自由获得的公共信息手动创建推荐源元;以及
将从所述步骤群组中采取的任何步骤生成的任何事件记录到至少一个 发展跟踪寻源数据标签。
113.根据权利要求111的方法,其中,所述记录步骤包括识别哪些源 与被选的优选源元值匹配。
114.根据权利要求108的方法,还包括:
向熟悉该主题的人呈现所述至少一个源元;
使能所述至少一个源元的手动验证的执行;
执行手动验证;以及
将执行手动规格化的所述步骤生成的任何事件记录到至少一个发展跟 踪寻源数据标签。
115.根据权利要求109的方法,还包括:
向熟悉该主题的人呈现所述至少一个源元;
使能所述至少一个源元的手动规格化的执行;
执行手动规格化;以及
将执行手动规格化的所述步骤所生成的任何事件记录到至少一个发展 跟踪寻源数据标签。
116.根据权利要求101的方法,其中,被处理的整个一组参考数据关 于多种不同话题,其中参考数据的源数据集被独立净化,每个源供应关于 至少一个话题的源项目。
117.一种用于参考数据品质保证的数据处理方法,包括:
接收来自至少一个源的源数据集中的参考数据,每个源数据集具有至 少一个源项目,每个源项目具有至少一个源属性,其中,源元为源项目与 源属性中的一个;
在至少一个发展跟踪源数据标签中记录针对每个源元的源标识以及针 对每个源数据集的源标识,使得至少一个发展跟踪源数据标签与每个源元 相关联;
在所述至少一个发展跟踪源数据标签中记录来自源元的验证、规格化、 单源处理、及源间处理的步骤的数据发展事件;以及
形成所述至少一个发展跟踪源标签的数据集以包括至少一个发展跟踪 源数据标签,所述至少一个发展跟踪源数据标签包括所述至少一个数据发 展事件与所述至少一个数据发展事件的源。
118.一种制品,包括其中含有计算机可读程序代码装置以便产生数据 处理的计算机可用介质,所述制品中的所述计算机可读程序代码装置包括 使计算机完成根据权利要求91-117中任意一项的步骤的计算机可读程序代 码装置。
119.一种用于增强参考数据的值的装置,包括:
使所述数据经受至少一个增值过程的装置;以及
数据库,用于维护对所述参考数据的每个增强元的生成有贡献的所有 增强处理步骤以及所有数据源的完整记录。
120.根据权利要求119的装置,还包括:
用于从第一数据源接收关于被引用项目的数据的装置;以及
基于来自对多个源的同一被引用项目的值的比较与处理生成增加值的 装置。
121.根据权利要求119的装置,还包括下列之中的至少一个:
用于通过手动过程与自动过程中的至少一个验证所述数据的验证装 置;
用于通过手动过程与自动过程中的至少一个对所述数据进行规格化的 规格化装置;以及
用于通过手动过程与自动过程中的至少一个对所述数据进行净化的净 化装置。
122.根据权利要求121的装置,其中,所述参考数据包括源元,且所 述验证装置包括:
用于从源描述获取所述至少一个源元的装置;以及
用于执行从包括以下内容的步骤群组中采取的至少一个步骤的装置:
检测不符合所述源描述的任何源元;
对不符合所述源描述的任何源元进行标记;
校正不符合所述源描述的任何源元;以及
移除不符合所述源描述的任何源元;以及
用于将执行验证的所述步骤生成的任何事件记录到至少一个发展跟踪 寻源数据标签的装置。
123.根据权利要求121的装置,其中,所述参考数据包括源元,且所 述规格化装置包括:
用于获取源描述中的所述源元的装置;
用于将基于所述源描述的所述源元转换为基于对应的目标描述的至少 一个目标信息元的装置,其中,所述目标描述是描述储存库信息元当被存 储在储存库中时的结构、内容与约束的信息;以及
用于执行从包括以下内容的步骤群组中采取的至少一个步骤的装置:
检测不能被规格化的任何源元;
对不能被规格化的任何源元进行标记;
校正不能被规格化的任何源元;
用于移除不能被规格化的任何源元的装置;以及
用于将执行规格化的所述步骤所生成的任何事件记录到至少一个发展 跟踪寻源数据标签的装置。
124.根据权利要求121的装置,其中,所述参考数据包括源元,且所 述净化装置包含下列之中的至少一个:
用于自动化执行来自包含对源特有的净化规则的至少一个规则集的至 少一个规则的装置;
用于由熟悉与至少一个被引用实体有关的主题的人检查所述源元值的 装置;
用于由熟悉与至少一个被引用实体有关的主题的人应用来自包含对源 特有的规则的所述至少一个规则集的任何规则的装置;
用于任何所述源元值的移除的装置;
用于任何所述源元值的增加的装置;
用于任何所述源元值的校正的装置;
用于注释任何品质关注事项的装置;
用于向所述源报告关于所讨论源元的品质的查询的装置;以及
用于将从所述动作群组中所采取的任何动作生成的任何事件记录到至 少一个发展跟踪寻源数据标签的装置。
125.根据权利要求119的装置,还包括:用于从多个源接收所述参考 数据的装置,以及用于通过手动过程与自动过程中的至少一个对所述数据 进行选择和增强以产生增强值的数据的装置。
126.根据权利要求125的装置,包括:
用于选择包含描述同一被引用实体的信息的所有源元的装置;
用于将预定规则应用到源元与元属性中的至少一个的装置;
用于通过以下当中的至少一个从不同源提供的替代物中选择优选项目 或推荐项目中的一个的装置:
基于由不同源提供的属性的组合创建至少一个新项目;或
修改由不同的源提供的元;
用于当创建至少一个新项目时创建新的对应的发展跟踪源数据标签的 装置;以及
用于在源项目层次上用关于应用到项目的源间处理的信息注释所述发 展跟踪源数据标签的装置。
127.根据权利要求126的装置,还包括:用于如果已有的元已被选择 但没有属性被修改,则在项目层提供注释以便指示哪些母源与所做出的选 择匹配的装置。
128.根据权利要求126的装置,还包括:用于如果发生数据在属性层 的修改或新项目的创建,则为每个属性单独注释精确的一组源的装置。
129.一种用于产生至少一个发展跟踪源标签的数据集的数据处理装 置,包括:
用于从至少一个源接收至少一个源数据集的至少一个输入,每个源数 据集具有至少一个源项目,每个源项目具有至少一个源属性;
用于记录每个源属性的源标识、每个源项目的源标识以及每个源数据 集的源标识的存储器;
用于调用来自关于以下内容中的至少一个的至少一个规则集的至少一 个规则的装置:
所述源数据集;
所述源项目;以及
所述属性;以及
用于保留关于调用、接收和记录的步骤的相关信息从而产生至少一个 可记录事件的装置;以及
处理器,用于形成所述至少一个发展跟踪源标签的数据集以包括所述 至少一个可记录事件以及所述至少一个可记录事件的事件发起者。
130.一种用于保证参考数据品质的数据处理装置,包括:
用于接收来自至少一个源的源数据集中的参考数据的装置,每个源数 据集具有至少一个源项目,每个源项目具有至少一个源属性,其中,源元 为源项目与源属性中的一个;
用于在至少一个发展跟踪源数据标签中记录针对每个源元的源标识以 及针对每个源数据集的源标识、使得至少一个发展跟踪源数据标签与每个 源元相关联的装置;
用于在所述至少一个发展跟踪源数据标签中记录来自源元的验证、规 格化、单源处理、以及源间处理的步骤的数据发展事件的装置;以及
用于形成所述至少一个发展跟踪源标签的数据集以包括至少一个发展 跟踪源数据标签的装置,所述至少一个发展跟踪源数据标签包括所述至少 一个数据发展事件与所述至少一个数据发展事件的源。
131.一种用于满足至少一个请求式数据集请求的信息传送方法,包括:
处理来自至少一个请求者的所述至少一个请求式数据集请求;
产生至少一个解析后的请求式数据集请求说明;
配置至少一个请求式数据集产生过程以产生满足所述至少一个请求式 数据集请求的至少一个请求式数据集;以及
执行所述至少一个请求式数据集产生过程以便将所述至少一个请求式 数据集返回到所述至少一个请求者;
其中,所述请求式数据集被限制为从所述请求者有资格的源和数据增 强得到的数据。
132.根据权利要求131的方法,其中,所述请求式数据集请求包括使 得所述请求者能够指定从包括以下内容的性质群组中采取的性质的至少一 个请求式数据集请求说明:
被返回的信息项目;被返回的信息项目的选择;在替代可用值之间进 行选择的寻源偏好;传送模式;传送定时;传输协议;传输协议端口;安 全令牌;优选数据格式;数据变换规则;被调用的定制功能;定制过滤规 则;异常处理指令;注释指令;数据传送反馈机制指令;传送端点;传送 中介;元数据处理指令;记入日志指令;路由指令;数据合并指令;以及 数据分割指令。
133.根据权利要求131的方法,还包括从多源多租户数据储存库接收 汇编在请求式数据集中的信息。
134.根据权利要求131的方法,其中,所述至少一个请求者从包括以 下内容的请求者群组中采取:
多源多租户储存库的租户;
代表所述租户的代理;
代表所述储存库的代理;
代表所述储存库的程序;以及
代表所述租户的程序。
135.根据权利要求131的方法,还包括使用传送模式传送所述至少一 个请求式数据集,所述传送模式包括来自包括以下内容的传送模态群组的 至少一个传送模态:
准实时传送;已调度的分批传送;数据集市传送;一次性查询传送; 电子邮件传送;传真传送;在线传送;打印硬拷贝传送;自动化语音传送; 磁带传送;光盘传送;数字媒体传送;视频传送;以及条件触发传送。
136.根据权利要求131的方法,其中,配置所述至少一个请求式数据 集产生过程通过针对所述至少一个请求式数据集产生过程中可分离的步骤 使用至少一个动作构造而使能。
137.根据权利要求136的方法,所述至少一个动作构造块从动作构造 块集合中采取,其中,每个块使能从包括以下内容的功能群组中采取的至 少一个功能:
信息元选择;寻源选择;资格强制执行;数据汇编;传送调度;传输 协议处理;标准格式变换;数据库加载;定制数据变换;记入日志;功能 执行;过滤;注释;路由;数据分割;数据合并;以及数据发送。
138.根据权利要求131的方法,其中,配置至少一个请求式数据集产 生过程的所述步骤包括:
使用所述至少一个解析后的请求式数据集请求说明;
选择用于包括在请求式数据集产生过程中的至少一个动作构造块,其 中,所述至少一个动作构造块满足所述至少一个解析后的请求式数据集请 求说明的至少一个性质;
用执行参数对任何被选动作构造块进行参数化;以及
将所选的参数化的动作块汇编到所述至少一个请求式数据集产生过程 中。
139.根据权利要求131的方法,其中,执行所述请求式数据集产生过 程包括从包括以下内容的步骤群组中采取的至少一个步骤:
执行包括在所述请求式数据集产生过程中的汇编流的逻辑;
按照所述逻辑所指示的次数执行所述请求式数据集产生过程的每一参 数化动作构造块;
向所述至少一个请求者发送所述至少一个请求式数据集;
记录响应于所述至少一个请求所采取的动作的方面,以便使能在其后 的时间重复所述执行步骤;以及
将从包括以下内容的方面群组中采取的至少一个传送方面记入日志:
传送时间;传送日期;传送内容;传送的请求者;传送模式;传送大 小;传送过程的执行时间;传送的标识符;传送过程的任何错误;传送过 程的任何警告;传送过程的成功;传送过程的反馈;与传送过程相关联的 认可信息;传送的安全特征;以及所述至少一个请求式数据集请求。
140.根据权利要求131的方法,其中,所述请求式数据集请求由从包 括以下内容的动作群组中采取的动作发起:手动发起的请求;自动发起的 请求;一次性请求;数据到达事件;数据可用性事件;数据删除事件;数 据改变事件;数据时间事件;已调度请求;通过中介接收到的请求;以及 在线发起的请求。
141.根据权利要求131的方法,该方法可缩放为允许通过来自多个请 求者的多个传送请求的信息传送。该方法使用信息传送请求的自动化处理, 该方法对于每个传送请求的需要被特定地进行配置。
142.一种响应于来自请求者的请求从多源多租户数据储存库返回参考 数据的方法,包括:
接收来自请求者的至少一个请求;
解析所述至少一个请求以提取请求说明;
基于所述请求者的资格、选择标准、寻源偏好以及其他包含在请求者 的请求中的偏好,对至少一个工作流进行配置,以便传送被请求的参考数 据;以及
执行所述工作流,将所述被请求的参考数据传送到所述请求者。
143.根据权利要求142的方法,其中,所述请求说明包括从包括以下 内容的偏好群组中采取的至少一个偏好:
选择标准;寻源偏好;数据格式偏好;传送传输偏好;以及对所述请 求者特有的偏好。
144.根据权利要求142的方法,其中,所述配置包括从包括以下内容 的动作群组中采取的至少一个动作:
检索所述被请求的参考数据;
对所述被请求的参考数据进行过滤;以及
对所述被请求的参考数据进行格式化。
145.一种包括计算机可用介质的制品,该介质具有包含于其中的用于 产生信息处理的计算机可读程序代码装置,所述制品中的计算机可读程序 代码装置包括用于使计算机完成权利要求131-144中任意一项的步骤的计 算机可读程序代码装置。
146.一种用于满足至少一个请求式数据集请求的信息处理装置,包括:
处理器,用于处理来自至少一个请求者的所述至少一个请求式数据集 请求;
计算机程序部件,可被执行用于产生至少一个解析后的请求式数据集 请求说明;
程序配置装置,用于配置至少一个请求式数据集产生过程,以便产生 满足所述至少一个请求式数据集请求的至少一个请求式数据集;以及
计算机代码,用于执行所述至少一个请求式数据集产生过程,以便将 所述至少一个请求式数据集返回到所述至少一个请求者;
其中,所述请求式数据集被限制为从所述请求者有资格的源和数据增 强得到的数据。
147.根据权利要求146的装置,其中,所述处理器处理请求式数据集 请求,其包括使得所述请求者能够指定从包括以下内容的性质群组中采取 的性质的至少一个请求式数据集请求说明:
被返回的信息项目;被返回的信息项目的选择;在替代可用值之间进 行选择的寻源偏好;传送模式;传送定时;传输协议;传输协议端口;安 全令牌;优选数据格式;数据变换规则;被调用的定制功能;定制过滤规 则;异常处理指令;注释指令;数据传送反馈机制指令;传送端点;传送 中介;元数据处理指令;记入日志指令;路由指令;数据合并指令;以及 数据分割指令。
148.根据权利要求146的装置,还包括用于从多源多租户数据储存库 接收在请求式数据集中汇编的信息的装置。
149.根据权利要求146的装置,还包括用于从包括以下内容的请求者 群组中采取的至少一个请求者接收所述请求式数据集请求的装置:
多源多租户储存库的租户;
代表所述租户的代理;
代表所述储存库的代理;
代表所述储存库的程序;以及
代表所述租户的程序。
150.根据权利要求146的装置,还包括传送部件,其中,所述传送部 件包括从包括以下内容的传送模态群组中采取的至少一个传送模态:
准实时传送;已调度的分批传送;数据集市传送;一次性查询传送; 电子邮件传送;传真传送;在线传送;打印硬拷贝传送;自动化语音传送; 磁带传送;光盘传送;数字媒体传送;视频传送;以及条件触发传送。
151.根据权利要求146的装置,还包括至少一个动作构造块,用于构 造所述至少一个请求式数据集产生过程的可分离的步骤,从而配置所述至 少一个请求式数据集产生过程。
152.根据权利要求151的装置,其中,所述至少一个动作构造块从动 作构造块集合中采取,其中,每个块使能从包括以下内容的功能群组中采 取的至少一个功能:
信息元选择;寻源选择;资格强制执行;数据汇编;传送调度;传输 协议处理;标准格式变换;数据库加载;定制数据变换;记入日志;功能 执行;过滤;注释;路由;数据分割;数据合并;以及数据发送。
153.根据权利要求146的装置,其中,所述程序配置装置包括:
用于使用所述至少一个解析后的请求式数据集请求说明的装置;
用于选择用于包括在请求式数据集产生过程中的至少一个动作构造块 的装置,其中,所述至少一个动作构造块满足所述至少一个解析后的请求 式数据集请求说明的至少一个性质;
用于用执行参数对被选动作构造块进行参数化的装置;以及
用于将被选参数化的动作块汇编到所述至少一个请求式数据集产生过 程中的装置。
154.根据权利要求146的装置,其中,用于执行请求式数据集产生过 程的计算机代码包括从计算机代码部件群组中采取的至少一个计算机代码 部件,其包括:
用于执行包括在所述请求式数据集产生过程中的汇编流的逻辑的计算 机代码;
用于按照所述逻辑所指示的次数执行所述请求式数据集产生过程的每 一参数化动作构造块的计算机代码;
用于向所述至少一个请求者发送所述至少一个请求式数据集的计算机 代码;
用于记录响应于所述至少一个请求所采取的动作的方面,以便使能在 其后的时间重复所述执行步骤的计算机代码;以及
用于将从包括以下内容的方面群组中采取的至少一个传送方面记入日 志的计算机代码:
传送时间;传送日期;传送内容;传送的请求者;传送模式;传送大 小;传送过程的执行时间;传送的标识符;传送过程的任何错误;传送过 程的任何警告;传送过程的成功;传送过程的反馈;与传送过程相关联的 认可信息;传送的安全特征;以及所述至少一个请求式数据集请求。
155.根据权利要求146的装置,还包括用于响应于从包括以下内容的 动作群组中采取的动作而发起所述请求式数据集请求的装置:
手动发起的请求;自动发起的请求;一次性请求;数据到达事件;数 据可用性事件;数据删除事件;数据改变事件;数据时间事件;已调度请 求;通过中介接收到的请求;以及在线发起的请求。
156.一种用于响应于来自请求者的请求从多源多租户数据储存库返回 参考数据的装置,包括:
用于接收来自请求者的至少一个请求的装置;
用于解析所述至少一个请求以提取请求说明的装置;
用于基于所述请求者的资格、选择标准、寻源偏好以及其他包含在请 求者的请求中的偏好,对至少一个工作流进行配置以便传送被请求的参考 数据的装置;
用于执行所述工作流并将所述被请求的参考数据传送到请求者的装 置;以及
用于将所述请求式数据集限制在从所述请求者有资格的源和数据增强 中得到的数据的装置。
157.根据权利要求156的装置,包括响应于所述请求说明的装置,所 述请求说明包括从包括以下内容的偏好群组中采取的至少一个偏好:
选择标准;寻源偏好;数据格式偏好;传送传输偏好;以及对所述请 求者特有的偏好。
158.根据权利要求156的装置,其中,用于配置的所述装置包括从包 括以下内容的装置群组采取的至少一个装置:
用于检索所述被请求的参考数据的装置;
用于对所述被请求的参考数据进行过滤的装置;以及
用于对所述被请求的参考数据进行格式化的装置。
159.一种用于响应于来自请求者的请求从多源多租户数据储存库返回 参考数据的装置,包括:
用于接收来自请求者的至少一个请求的装置;
用于解析所述至少一个请求以提取请求说明的装置;
用于基于所述请求者资格、选择标准、寻源偏好以及包含在请求者的 请求中的其他偏好,配置至少一个工作流以便传送被请求的参考数据的装 置;以及
用于执行所述工作流并向所述请求者传送所述被请求的参考数据的装 置。

说明书全文

技术领域

发明涉及数据管理实用工具(utility)服务。其具体涉及在多源多租 户数据实用工具的背景中使得商业数据的请求式接收、净化、增强、存储、 跟踪和提供成为可能。本发明还涉及可用于这种背景以及其他背景中的数 据储存库。其还涉及请求式数据集的灵活的、可缩放的传送。

背景技术

金融市场参考数据包括关于金融工具、市场评估、利害关系人以及影 响金融工具的企业行为的描述性信息。参考数据组成了金融事务处理、决 策、险测量、证券与有价证券定价以及金融市场交易操作的机能的共享 基础。成千上万的数据项包括于其中,其范围从名称与地址信息及税务识 别到未定权益计划、过户代理人详情、保管人合格性以及税务条约蕴含内 容。产业上面临的问题之一是缺少命名标准,其扩展到如何描述不同类型 的参考数据。金融工具数据包括这样的项目:这些项目描述该工具是什么、 其在何时、何地以及如何进行交易、解决和澄清该工具的交易需要什么、 以及多种规章和客户报告要求。包括在金融工具数据的可替代标签中的是 证券工具数据、产品数据和指示性数据(“指示性”也被有些人用作表示 指示性定价数据的术语)。关系人数据描述在金融事务中涉及的实体,例 如企业、对等关系人、客户、交易伙伴和个体投资者。包括在关系人数据 的可替代标签中的是商业数据、法律实体等级数据、客户数据以及对等关 系人数据。企业行为数据反映对企业的金融工具或法律结构所作的改变, 例如所有权改变或股份拆分。这里,替代物又一次包括企业事件和受托事 件。
金融市场参考数据可定义公众实体的特性,例如股票报价、金融工具 限定、企业致词和新闻稿,或定义私人实体的特性,包括客户识别、模型 推导分析和风险计算。
公司或者通过经由交易所或数据服务卖主的传送、或者通过由应用计 算或模型的推导来获取参考数据。需要这些数据的公司典型地与多个数据 卖主订立合同,并为访问卖主的产品付许可费。除了原始数据的提供和捕 获以外,许多公司——包括金融服务公司——专从事于分析数据的创建, 该数据又接着传播到整个产业。
金融市场参考数据被平地嵌入由金融公司进行的商业过程的整个寿 命周期中,照此,及时、准确、高品质的参考数据对这些公司具有极大价 值。没有这些数据,公司将不能为他们的客户处理即使是最简单的事务或 是处理他们内部的金融管理过程。
例如,对于在金融机构之间准确且完整地执行的交易,所有交易关系 人必须具有对相关参考数据的同等的看法。股票交易需要在以下方面达成 一致:(1)被交易工具的定义和描述;(2)交易细节和事务的正式证明 文件;以及(3)参与过程的对等关系人和传送指令。具有不兼容参考数据 的机构将需要额外的时间和资源来解决每个受影响的交易执行上的不同。 在自动化交易环境中以及在高交易额期间增加了对参考数据的一致的需 要。
因此,每个金融公司需要对高品质参考数据库的快捷访问,在该数据 库中,基本参考数据可以用高级分析与定价计算的结果以及诸如合同细节、 帐户信息的附加信息来增加。这种信息必须为容易且充分地在它们的商业 应用的有价证券间集成的格式。在历史上,公司各自孤立于其他公司建立 并维护了它们自己的信息或数据存储。随着公司的发展,无论是有组织地 还是通过获取来建立或获取附加的数据存储区(silo)。这些数据库典型地 通过来自外部卖主、内部应用以及人工输入与调整的自动化数据馈给的组 合进行维护。
技术的进步和卖主数据源的可用性大大增加了公司可获得的信息量。 结果,公司必须在大量数据中进行筛选,所述数据可能取决于源和更新的 定时而不同。
金融市场参考数据的分段摄取与维护、数据管理的分散化方法、多个 或冗余品质保证活动、以及重复数据存储引向了在参考数据获取与维护时 增加的成本以及低的运行效率。因此,在企业层面上,数据管理的难题是 由于极大的数据量而产生的成本与品质的难题。冗余购买与验证、不同的 格式/工具、不一致的格式/标准/数据以及改变和/或管理卖主的困难都带来 低下的效率。
这可能使得在不准确的信息上做出决策或交易对等关系人所用数据的 差别。这些影响在Tower Group从2002年他们对金融市场参考数据的研 究得出的发现中有清楚的例证。例如,在交易处理领域,其中,平均16.4% 的交易从自动化处理程序中被拒绝,Tower Group发现这些异议(例如从 自动化处理程序中被拒绝的交易)中有45%是由于有缺陷的(不完整、不 标准或不准确的)参考数据(“TowerGroup Survey:Is the Securities Insustry Making Progress on Reference Data Management?”2002年9 月)。实际上,不准确调解导致的无效交易对国内证券产业的花费超过每 年1亿美元(IBM Institute for Business Value analysis)。尽管参考数据 在交易记录中包括少数数据元,但该数据准确度的问题产生了数量上不成 比例的异议,无疑降低了直通处理(STP)速度。
金融公司面对的数据不一致性不可被辨别为错误或不一致信息。在许 多情况下,外部卖主提供的数据包含错误,公司通过比较来自多个卖主的 数据可能不会发现该事实,或者该事实作为在内部商业过程或与外部实体 的事务中使用该数据的结果而被暴露。主要由于缺乏管理数据表示的行业 标准,每个数据卖主有表示数据的专用方法。同样,金融服务公司使用多 种格式——包括卖主或交易所特有的和专用的定义——来定义企业中的数 据。
尽管行业中多种对某些数据的标准达成一致的数据标准化倡议正在发 起,这些倡议中没有一种是成熟的。尽管金融服务公司可从清楚的数据标 准的实现获得事务处理效率上的显著改进,但买主和证券公司在历史上将 接受新数据格式的现有应用的预期改装或改编看作广泛采用的障碍。
由于金融市场数据的庞大数量和不规则的品质,金融公司有义务在数 据管理上投入大量关注和资源,在许多情况下,这没有为它们提供可辨别 的竞争优势。
另外,近来的规则改变要求公司更为努地存储和跟踪金融信息。例 如,Sarbanes-Oxley Act在金融服务商业之间、甚至是一个公司的部门内 的信息传送上规定了严格的要求。
作为行业,金融市场参考数据缺乏标准和不一致的品质等级降低了公 司之间通信的准确度和效率,为所有的事务参与方带来了增加的成本和更 高风险等级。当由金融事务的端到端执行中涉及的多个关系人混合而成时, 显然,数据品质和标准化的问题对金融服务行业以显著程度完成直通处理 的能力具有极大的不利影响。由于跨国主权的问题,这种复杂性的影响被 逐渐增加的商业的国际范围所加剧;规则和货币引入了增加的数据元以及 现有数据的附加变种。
所有这些因素为金融公司在收集高品质数据、跟踪起源与数据修改历 史、以及存储与管理对该数据以及可能已使用该数据被创建的任何附加信 息的访问方面寻求自动化帮助提供了附加动力。
在金融服务中,存在组织和维护高品质参考数据时使用的多种当前实 践。历史上,公司各自孤立于其他公司建立和维护了它们自己的信息或数 据存储。金融工具描述以及相关联的数据通常被存储在被称为产品或证券 主文件的数据库中。关系人和用户数据通常被存储在被称为用户主文件的 数据库中,在公司之间,大部分证券与用户主文件在性质和内容上类似。
许多金融服务公司当前具有分散化的、通常是不兼容的、以及分段的 数据存储。随着公司的发展,无论是有组织地还是通过获取来建立或获取 附加的数据存储区。这些数据存储区通过极少协同的工作而由来自多个卖 主的大量数据所填充。缺少企业范围的集成妨碍了许多商业功能充分实现 大量的公司内数据的价值。另外,这种分散化的数据管理方法经常产生相 同数据的冗余存储,其常常由公司内各个组织付费的重复数据馈给来创建 和更新。
作为试图解决这种数据管理问题的尝试的结果,某种对数据管理外包 的支持在市场上可用作为对个体客户的服务。某些特定的参考数据管理部 件——包括储存库(repository)——也是可用的。然而,这些提供物的现 有技术状态为:
-仅对参考数据的特定子集可用;
-不能用所述多租户/多客户支持来开发;
-作为对于单个客户的一次性服务被传送;或者
-作为对于单个客户的独立服务被实现和定价。
另外,由上述组织或为了上述组织而执行的管理其参考数据的大部分 工作实际上相当普遍。因此,与参考数据管理相关联的大量工作量在金融 行业部门以及其他行业之间重复。因此,存在对建立这样一种多租户参考 数据实用工具的需求:其能够提供最佳的实践数据管理与处理,并通过规 模经济减小个体组织的成本。然而,建立这样一种实用工具、同时适当地 处理集中式实用工具方法中的某些固有复杂性(例如多源多租户的资格管 理)的技术当前在市场上不能获得,而仅存在单客户、本地化的方法。
本地化技术适用的特定例子包括:
-一个组织中由其内部部门使用的基本参考数据模型的标准化;
-用于金融参考数据的特定领域的模型与标准化格式;以及
-协助将数据输入单个组织使用的数据模型的工具和自动化。
存在在金融服务参考数据管理领域具有已有技术与服务提供物的多个 公司,其使用这种本地化方法。这些公司提供的解决方案通常以解决单个 企业或企业中一个部门的参考数据管理问题为目标,通常在狭义问题的领 域内。它们提供的软件和服务通常为单个客户/部门安装、配置、定制和操 作。结果,每个用户实现实际上是一种专用的定制产品安装。因此,这些 提供物可以看作对内部参考数据管理问题的独立解决方案,不能以与具有 多租户能力的解决方案相同的水平提供规模经济。另外,这些解决方案不 能提供共享实用工具环境所给予的附加好处,例如完全包办的数据卖家切 换、请求式记账、杠杆化的人力资本等。
已经做出使用单客户解决方案来支持多客户安装的孤立尝试。然而, 在现有技术中,针对多客户对这些解决方案的杠杆调节本质上需要单客户 操作的多次重复。这些尝试通常在金融服务行业中是不成功的。

发明内容

A.参考数据实用工具
本发明是用于形成和维护多源多租户参考数据实用工具的方法、装置 和软件,其使用共享的基础设施实现,响应于来自客户的请求传送高品质 参考数据,并使用客户的参考数据提供增值服务。该方法包括:通过对每 个值的寻源的充分跟踪所接收到的数据进行数据净化和品质保证、在允许 检索和强制执行基于源的资格的储存库中存储结果得到的实体值、以及以 支持多种客户应用需求的请求式数据集的形式传送检索得到的数据。一种 有利的实现具有附加的服务,其用于对数据品质和使用率、商业文档存储 和增值数据驱动计算的选择进行报告。通过在多个客户之间使用共享的基 础设施并摊还数据品质保证的成本,在保证客户仅从他们被许可的数据源 接收值的同时,这种参考数据实用工具以比当前可用的其他方法更低的成 本传送品质更好的数据。
因此,本发明的第一方面涉及用于服务于多个接受者的参考数据实用 工具,包括:数据输入,用于从多个源接收未处理的参考数据;处理器, 用于处理所接收的未处理参考数据,以便生成具有增加价值处理后的参考 数据;储存库,用于存储未处理参考数据与所述处理后的参考数据;以及 输出生成器,用于根据接受者的说明生成用于传送到接受者的输出数据; 因此,被传送的输出数据包含未处理参考数据与处理后的参考数据中接受 者有资格接收的至少一个;其中,参考数据实用工具是可缩放的,以便支 持增大数量的源以及增大数量的接受者。这种参考数据实用工具可被配置 为多租户实用工具。这种参考数据实用工具可被实现为共享资源的系统。 共享资源包括下列当中的至少一个:储存库、专家、处理、通信链路以及 数据存储设施。
参考数据实用工具还可包括由租户执行对其客户的自服务管理的装 置。
储存库可存储多个商业文档,且输出生成器可提供作为输出的一组被 选文档。可提供对未处理参考数据进行净化的数据净化部分。参考数据实 用工具还可包括:存储器部分,用于存储处理后与未处理的参考数据;并 用每个未处理或处理后的参考数据元存储用于得出该元的所应用处理与数 据源的记录。所述寻源与处理确定独立接受者对接收该元的资格。
接受者可以为由共享参考数据实用工具的使用的多个租户组织中的至 少一个授予对特定参考数据源以及增强过程的资格的个体。接受者优选为 基于它们的资格从订阅输出数据所选部分的独立个体和不同的商业组织中 选出。
未处理的参考数据包括信息元,且参考数据实用工具还包括用寻源信 息注释多个信息元的装置。信息元具有属性,且参考数据实用工具还包括 通过寻源信息注释属性的装置。参考数据实用工具还可包括基于寻源信息 维护关于接受者对信息元的资格的信息的装置。
参考数据实用工具可以由位于在地理上分散的区域中的部件组成。优 选为,位于在地理上分散的区域中之一的部件足够作为独立的参考数据实 用工具操作。每个独立参考数据实用工具包括本地储存库,并可包括用于 在本地储存库之间交换信息的通信设施。每个独立参考数据实用工具可被 专门用于提供与特定地理区域有关的信息,并可使用通信设施获得和提供 来自其他地理区域中的其他独立参考数据实用工具的信息。
参考数据实用工具还可包括准确度报告器,准确度报告器用于报告由 参考数据实用工具所执行的过程的准确度。其还可包括配置管理器,配置 管理器用于管理参考数据实用工具的参数。
配置管理器包括下列中的至少一个:用于管理多个最大可允许并行数 据增强过程的装置;用于管理在数据增强过程期间应用的单源净化过程的 类型的装置;用于管理在数据增强过程期间应用的源间过程的类型的装置; 用于管理将特定单源净化过程期间应用的规则的装置;以及用于管理将在 特定源间过程期间应用的规则的装置。
输出生成器可包括:用于从接受者接收至少一个请求的装置;用于对 所述至少一个请求进行解析以提取请求说明的装置;以及用于初始化至少 一个工作流以便向接受者提供输出数据的装置。
本发明还涉及一种操作用于服务于多个接受者的参考数据实用工具的 方法,包括:从多个源接收未处理的参考数据输入;处理所接收的未处理 参考数据,以便生成具有增加价值的处理后的参考数据;存储未处理参考 数据与处理后的参考数据;以及为特定的接受者生成输出数据;使得输出 数据仅包含未处理参考数据与处理后的参考数据中接受者有资格接收的至 少一个。
该方法还可包括对参考数据实用工具进行配置,以便使其对于支持增 加数量的源、增加数量的接受者、增加数量的过程、以及增加数量与复杂 度的资格中的至少一个是可缩放的。该方法还可包括在储存库中存储多个 商业文档以及生成作为输出的文档的被选群组。优选为,该方法还包括净 化未处理的参考数据。该方法还包括存储对源的访问权,其中,接受者有 资格接收的数据由访问权定义。接受者是被共享参考数据实用工具的使用 的多个租户组织中的至少一个授予对特定参考数据源以及增强过程的资格 的个体,所述租户组织中的至少一个独立地与一个或一个以上的数据源进 行商定以便具有对其数据的资格,并与参考数据实用工具进行商定以便具 有将特定数据增强过程应用到所述至少一个租户组织有资格的其他参考数 据得到的结果的资格。
未处理的参考数据包括信息元,且参考数据实用工具用寻源信息注释 多个信息元。信息元具有属性,且参考数据实用工具用寻源信息注释属性。 该方法还包括基于寻源信息维护关于接受者对信息元的资格的信息。
该方法还包括使用位于在地理上分散的区域中的装置。位于在地理上 分散的区域中之一的装置可作为独立的参考数据实用工具被操作。每个独 立的参考数据实用工具可包括本地储存库,且该方法还可包括在本地储存 库之间传送信息。每个独立的参考数据实用工具可被专门用于提供与特定 地理区域有关的信息,且该方法还可包括传送来自其他地理区域中的其他 独立参考数据实用工具的信息。
该方法可包括报告由参考数据实用工具所执行的过程的准确度。源的 准确度可通过记录对于从源接收到的值的品质增强动作、将新到达的参考 值与该项目的当前多源推荐值进行比较、以及记录由源提供的值与推荐值 的一致性的组合进行评估。
该方法还可包括管理参考数据实用工具的参数。参考数据实用工具的 配置管理可包括管理下列中的至少一个:多个最大可允许并行数据增强过 程;在数据增强过程期间应用的单源净化过程的类型;在数据增强过程期 间应用的源间过程的类型;将在特定单源净化过程期间应用的规则;以及 将在特定源间过程期间应用的规则。
生成输出可包括:从接受者接收至少一个请求;对所述至少一个请求 进行解析以便提取请求说明;以及初始化至少一个工作流以便向接受者提 供输出数据。
该方法还包括提供增值服务,其包括从包括下列的群组中选择的至少 一个服务:基于动态传送输入数据集的数据驱动增值计算功能、商业文档 的存储与检索、被存储的商业文档对商业事务的适用性的基于规则的验证、 以及在支持商业事务时与商业文档相关联的参考数据的编排。
优选为,该方法还包括在参考数据实用工具的部件之间维护数据流中 的时间准确度,以及维护针对每个接受者的源的总使用率的记录。可生成 关于针对每个接受者的源品质与源使用率中的至少一个的报告。
该方法还包括通过以下手段创建增值计算服务的市场:建立可用服务 的登记表;接受来自接受者的执行具有提供请求式数据集的输入数据的被 识别的服务的请求;调用被请求的服务;使用请求式数据集将来自服务计 算的结果返回到做出请求的接受者;监视服务实例以便记录报告信息。建 立可用服务的登记表可包括:基于来自服务源的信息、使用服务所需的参 考数据输入的说明、由每个服务计算生成的输出的说明,提供服务的描述, 以及维护来自识别有资格使用服务的接受者的服务起源的资格信息。
对于增值服务实例的接受者请求可通过接收被请求服务的标识、服务 所用的输入参考数据的说明以及指示来自服务的输出如何被返回到客户的 传送说明而进行处理。调用被请求的服务可包括:验证使用服务的接受者 资格;基于对于服务执行的原始请求的变换,通过形成并执行对传送子系 统的请求式数据集请求来收集接受者指定的输入数据;验证接受者输入数 据满足服务输入要求;以及执行服务实例。
可存储具有将其内容联系到参考数据值的注释的商业文档。该方法还 可包括:从至少一个接受者接受具有参考数据注释的文档,在储存库中存 储被注释的文档,以及基于从源到达的与注释有关的信息向接受者提供服 务。验证测试可对于未处理参考数据与处理后的参考数据中至少一个的当 前值执行。验证测试可应来自接受者的请求而执行。
本发明还涉及一种计算机可用介质,其具有包含于其中的计算机可读 程序代码装置,所述计算机可读程序代码装置用于使计算机完成文中上面 和下面所介绍的任何方法。本发明还涉及使用这种计算机可用介质的任何 数据处理装置。
B.数据储存库
本发明的一个方面涉及一种对请求者有用的数据的多源多租户数据储 存库,包括:数据库管理系统,该系统对数据库进行管理,该数据库包括 来自多个源的描述至少一个被引用的实体的信息元;对于元的寻源信息的 注释;以及请求者基于寻源信息的对信息元的资格;数据输入装置,用于 将信息元放入数据库;以及数据输出装置,用于响应于来自请求者的请求 基于信息元提供数据输出,,所述输出包含请求者基于资格而有资格的信 息。请求者从包括以下的群组中选出:租户、客户、参考数据源、代表储 存库的代理;代表租户的软件程序;以及代表储存库的软件程序。储存库 还可包括用于将请求者认证为被授权于从所述储存库获取数据的装置。
资格包括下列中的至少一个:对于特定数据源所提供数据的资格;对 于特定增强过程所生成的数据项的资格;以及对于来自特定过程的数据的 资格,如果用于得出该数据的所有值是来自请求者有资格的数据源的话。
储存库可包括数据库部分,该部分用于存储这样的信息:该信息关于 基于与数据源独立签订合同的租户对与所述储存库的租户相关联的请求者 有资格接收的输出进行管理的一组资格。
信息元可包括从包括以下内容的元类型列表中取得的元类型:项目实 例;版本化属性;特性;属性值;商业文档;功能定义;规则集;操作信 息;媒体文档;标准描述;分层商业数据;新闻信息;结构化文档;配置 信息;以及程序代码。
储存库实体可包括至少一个项目实例信息元,每个项目实例元包括至 少一个版本化属性信息元。储存库实体还可包括用于在信息元选择操作中 选择储存库实体的至少一个特性。项目实例可包括用于在信息元选择操作 中选择项目实例的至少一个特性。
储存库可从至少一个项目实例接收用于包括在该储存库中的过程项目 实例或元数据,其中,项目实例过程由储存库唯一地标识。储存库还可包 括:用于形成与至少一个被引用实体对应的至少一个储存库实体的装置; 以及用于基于对所述至少一个被引用实体的引用将用于被包括的项目实例 或元数据与至少一个储存库实体相关联的装置。
数据库管理系统可包括:用于在数据库中将标识产生项目实例的项目 实例过程的信息存储为至少一个项目实例的至少一个特性的装置;用于在 数据库中以至少一个发展跟踪源数据标签的形式存储项目实例历史中的至 少一个事件的装置,所述至少一个事件包括从至少一个项目实例过程接收 到的所述至少一个事件的代理和源以及时间信息;用于以至少一个发展跟 踪源数据标签的形式存储项目实例的版本化属性历史中的事件的装置,所 述至少一个事件包括从项目实例过程接收到的所述至少一个事件的代理和 源以及时间信息;用于存储每个项目实例的元数据的装置;用于存储每个 储存库实体的元数据的装置;以及用于存储每个版本化属性的元数据的装 置。
数据库管理系统可包括下列中的至少一个:用于在至少一个发展跟踪 源数据标签中存储反映涉及项目实例的操作的至少一个事件的装置,所述 至少一个事件包括所述至少一个事件的代理和源以及时间信息;用于创建 新项目实例的装置;用于影响已有项目实例的装置;用于提供多个项目实 例的复合处理的装置;用于向项目实例供应接收自源数据集的储存库实体 的属性值的的装置;用于向项目实例供应接收自单源数据集的值增强以及 品质保证产生的储存库实体的属性值的装置;以及用于向项目实例供应通 过来自与同一被引用实体的同一属性有关的多个源数据集的值之间的比较 和选择产生的储存库实体的属性值的装置。
数据库管理系统还可包括:用于解释请求以产生至少一个请求说明的 装置;用于基于请求说明在储存库中选择被请求信息元以形成返回数据集 的装置;用于将返回数据集过滤以便仅包括请求者有资格的信息元以形成 过滤后的返回数据集的装置;以及用于向数据输出装置供应过滤后的返回 数据集的装置。
请求者可来自包括以下内容的请求者群组:代表储存库租户的代理; 代表储存库的代理;代表储存库租户的软件程序;以及代表储存库的软件 程序。
用于解释的装置可产生请求说明,请求说明包括从包括以下内容的群 组中采取的多个方面:请求者的标识;管理将被返回信息元的选择的选择 判定;以及寻源偏好,当来自不同源的多个信息元可用于满足信息元选择 判定时其包括请求者的所述至少一个偏好的优先化。
用于选择的装置可包括从包括以下内容的群组中采取的至少一个:用 于选择与请求说明匹配的任何储存库实体的装置;用于选择属于与请求说 明匹配的储存库实体的任何项目实例的装置;用于选择组成与请求说明匹 配的项目实例的任何属性值的装置;用于选择与匹配于请求说明的任何储 存库实体相关联的任何元数据的装置;用于选择与匹配于请求说明的任何 项目实例相关联的任何元数据的装置;用于选择与匹配于请求说明的任何 属性值相关联的任何元数据的装置;以及用于应用指定的请求者寻源偏好 以形成返回数据集的装置,返回数据集包括:项目实例、属于该项目实例 的属性值以及元数据。
用于过滤的装置可包括从包括以下内容的群组中采取的至少一个:用 于保证所述至少一个请求者对负责生成任何被选项目实例的任何项目实例 过程的资格的装置;用于保证所述至少一个请求者对任何被选属性值的资 格的装置,其中,仅在请求者对提供属性值的至少一个源有资格的条件下, 请求者有资格接收所述任何属性值;以及用于从返回数据集中移除请求者 无资格的任何信息元的装置。
本发明还涉及一种信息处理装置,该装置包括用于维护多源多租户数 据储存库的装置,其中,用于维护的装置包括:用于将所述多源多租户数 据储存库形成为包括来自多个源的、对至少一个被引用实体进行描述的信 息元的装置;用于在多源多租户数据储存库中用寻源信息注释来自信息元 的多个元的装置;以及用于基于寻源信息对关于请求者对信息元的资格的 信息进行维护的装置。
本发明还涉及一种多源多租户参考数据储存库,包括:用于向储存库 输入来自多个源的关于商业工具信息、企业层次信息、企业新闻信息以及 其他信息的信息的装置;用于对商业工具信息、企业层次信息、企业新闻 信息和其他信息的改变以及每个改变的源进行注释的装置;用于基于对已 提供或修改该信息的源和过程的资格对关于请求者获得商业工具信息、企 业分级信息、企业新闻信息以及其他信息的资格的信息进行维护的装置; 以及用于基于请求者指定的选择与寻源偏好并以资格为条件,响应于来自 至少一个请求者的至少一个请求,返回商业工具信息、企业层次信息、企 业新闻信息以及其他信息的至少一个子集的装置。
本发明还包括一种储存库装置,该装置包括:用于形成在适当的地方 具有信息元结构的储存库的装置;用于将到达的信息元插入储存库的存储 的装置;用于在形成每个信息元的发展跟踪源数据标签时用描述每个信息 元的发展历史的注释对每个信息元进行注释的装置;用于为每个授权请求 者对之有资格的储存库信息和数据源的授权请求者维护基于源的资格信息 的装置;以及用于在提供对包括在储存库中的信息的资格强制执行受控访 问的过程中使用发展跟踪源数据标签连同基于源的资格的装置。
本发明还涉及一种用于维护对请求者有用的数据的多源多租户数据储 存库的方法,该方法包括:将多源多租户数据储存库形成为包括来自多个 源的、描述至少一个被引用实体的信息元;用寻源信息注释多个元;以及 基于寻源信息维护关于请求者对信息元的资格的信息。
资格包括以下当中的至少一个:对特定数据源提供的数据的资格;对 特定值增强过程生成的数据项的资格;以及对来自特定过程的数据的资格, 如果用于得出该数据的所有值来自请求者有资格的数据源的话。储存库的 租户独立地与数据源和数据增强过程所有者签订合同,以便确定管理与租 户相关联的请求者有资格接收的数据的一组资格。
该方法还可包括基于请求者指定的选择判定和寻源偏好并以至少一个 请求者的资格为条件,响应于来自至少一个请求者的至少一个请求,返回 一组信息元。用于响应的步骤可包括:从至少一个请求者接收至少一个请 求;解释所述至少一个请求以产生至少一个请求说明;基于请求说明在多 源多租户数据储存库中选择被请求的信息元以形成返回数据集;对返回数 据集过滤,以便仅包括请求者有资格的信息元以形成过滤后的返回数据集; 以及向请求者返回过滤后的返回数据集。
解释步骤可产生请求说明,所述请求说明包括从包括以下内容的方面 群组中采取的多个方面:请求者的标识;管理被返回信息元的选择的选择 判定;以及寻源偏好,其包括当来自不同源的多个信息元可用于满足信息 元选择判定时对所述至少一个请求者的偏好的优先化。
选择步骤可包括从包括以下内容的群组中采取的至少一个步骤:选择 与请求说明匹配的任何储存库实体;选择属于与请求说明匹配的储存库实 体的任何项目实例;选择组成匹配于请求说明的项目实例的任何属性值; 选择与匹配于请求说明的任何储存库实体相关联的任何元数据;选择与匹 配于请求说明的任何项目实例相关联的任何元数据;选择与匹配于请求说 明的任何属性值相关联的任何元数据;以及应用指定的请求者寻源偏好以 形成返回数据集,该返回数据集包括:项目实例、属于该项目实例的属性 值以及元数据。
过滤步骤可包括从包括以下内容的步骤群组中采取的至少一个步骤: 保证所述至少一个请求者对负责生成任何被选项目实例的任何项目实例过 程的的资格;保证所述至少一个请求者对任何被选属性值的资格,其中, 仅在请求者对提供属性值的至少一个源有资格的条件下,请求者有资格接 收所述任何属性值;以及从返回数据集中移除请求者无资格的任何信息元。
在该方法中,多源多租户数据储存库可包括从包括以下内容的信息元 类型列表中采取的多个信息元类型:项目实例;版本化属性;特性;属性 值;商业文档;功能定义;规则集;操作信息;媒体文档;标准描述;分 层商业数据;新闻信息;结构化文档;配置信息;以及程序代码。
根据该方法,储存库实体可具有至少一个项目实例信息元,每个项目 实例包括至少一个版本化属性信息元。储存库实体还可包括用于在信息元 选择操作中选择储存库实体的至少一个特性。项目实例可包括用于在信息 元选择操作中选择项目实例的至少一个特性。
形成多源多租户数据储存库可包括从包括以下内容的步骤群组中采取 的至少一个步骤:多源多租户数据储存库从至少一个项目实例过程接收用 于包括在该储存库中的项目实例或元数据,其中,项目实例过程由储存库 唯一地识别;储存库形成与至少一个被引用实体对应的至少一个储存库实 体;以及储存库基于对所述至少一个被引用实体的引用将用于包括的项目 实例或元数据与至少一个储存库实体相关联。
注释可包括从包括以下内容的步骤群组中采取的至少一个步骤:将识 别产生项目实例的项目实例过程的信息存储为至少一个项目实例的至少一 个特性;以至少一个发展跟踪源数据标签的形式存储项目实例历史中的至 少一个事件,所述至少一个事件包括从至少一个项目实例过程接收到的所 述至少一个事件的代理和源以及时间信息;以至少一个发展跟踪源数据标 签的形式存储项目实例的版本化属性历史中的事件,所述至少一个事件包 括从项目实例过程接收到的所述至少一个事件的代理和源以及时间信息; 存储每个项目实例的元数据;存储每个储存库实体的元数据;以及存储每 个版本化属性的元数据。
储存库项目实例过程可包括从包括以下内容的步骤群组中采取的至少 一个步骤:在至少一个发展跟踪源数据标签中存储反映涉及项目实例的操 作的至少一个事件,所述至少一个事件包括所述至少一个事件的代理和源 以及时间信息;使用创建新项目实例的过程;使用影响已有项目实例的过 程;使用包括多个项目实例过程的复合过程;向项目实例供应接收自源数 据集的储存库实体的属性值;向项目实例供应接收自单源数据集的值增强 和品质保证产生的储存库实体的属性值;以及向项目实例供应通过来自与 同一被引用实体的同一属性有关的多个源数据集的值之间的比较和选择所 产生的储存库实体的属性值。
在该方法中,请求者可来自包括以下内容的请求者群组:代表储存库 租户的代理;代表储存库的代理;代表储存库租户的软件程序;以及代表 储存库的软件程序。
本发明还涉及一种用于维护多源多租户参考数据储存库的方法,该方 法包括:将多源多租户参考数据储存库形成为包括关于来自多个源的商业 工具信息、企业分层信息、企业新闻信息以及其他信息的信息;对商业工 具信息、企业分层信息、企业新闻信息和其他信息的改变以及每个改变的 源进行注释;基于对已提供或修改该信息的源和过程的资格,对关于请求 者获取商业工具信息、企业分层信息、企业新闻信息以及其他信息的资格 的信息进行维护;以及基于请求者指定的选择与寻源偏好并以资格为条件, 响应于来自至少一个请求者的至少一个请求,返回商业工具信息、企业分 层信息、企业新闻信息以及其他信息的至少一个子集。至少一个请求者可 以是至少一个服务提供者的客户。根据该方法,
根据该方法,源可以来自包括以下内容的源的群组:商业数据的提供 者;金融数据的提供者;等级数据的提供者;企业新闻数据的提供者;以 及企业分层数据的提供者。金融信息可包括从包括下列内容中至少一个的 数据群组中采取的数据:股票工具;债券工具;衍生工具;固定收益工具; 不动产抵押工具;对等关系人信息;金融事务信息;企业事件信息;金融 交易信息;金融结算信息;金融文档;其他金融工具;以及其他金融数据。
在该方法中,多源多租户参考数据储存库的形成可包括:保持商业工 具信息、企业分层信息、企业新闻信息以及其他信息的历史状态的不同版 本。
该方法还涉及一种数据储存库方法,包括:形成在适当的地方具有信 息元结构的储存库;将到达的信息元插入储存库的存储;在形成每个信息 元的发展跟踪源数据标签时用描述每个信息元的发展历史的注释对每个信 息元进行注释;为每个授权请求者对其有资格的储存库信息与数据源的授 权请求者维护基于源的资格信息;以及在提供对包括在储存库中的信息的 资格强制执行受控访问的过程中使用发展跟踪源数据标签连同基于源的资 格。
该方法还可包括作为输入到达的检索请求;且所述提供过程可包括形 成将作为处理输出而返回的检索响应。
该方法还可包括使用该储存库来存储驻留于数据存储中的其他项目, 所述其他项目包括下列当中的至少一个:商业增值功能、商业文档、功能 规则集;操作规则集、功能日志记录、以及操作日志记录。
该方法还可包括将发展跟踪源数据标签与储存库中的至少一个信息元 相关联;且所述注释可包括记录寻源信息以提供对信息元值的创建有贡献 的源的可跟踪性。所述维护可包括更新作为输入接收到的资格信息。维护 中的步骤可由服务提供者执行。
本发明还涉及一种计算机可用介质,该介质具有包含于其中的计算机 可读程序代码装置,该计算机可读程序代码装置用于使计算机完成上文提 到以及下文介绍的所有或任何方法。
本发明还与文中介绍的多源多租户参考数据实用工具一起使用,用于 响应于来自客户的请求传送高品质的参考数据,其使用共享的基础设施实 现,并使用客户的参考数据提供增值服务。可以利用:通过对每个值的完 整寻源跟踪对所接收的数据进行数据净化与品质保证、在允许检索并强制 执行基于源的资格的储存库中存储结果得到的实体值、以及以支持多种客 户应用需求的请求式数据集的形式传送检索得到的数据。一种有利的实现 具有用于对数据品质和使用率、商业文档存储与增值数据驱动计算的选择 进行报告的附加服务。通过在多个客户之间使用共享基础设施以及摊还数 据品质保证的成本,在保证客户仅从他们被许可的数据源接收值的同时, 以比当前可用的其他方法更低的成本传送品质更好的数据。
C.数据值增强
本发明的一个方面涉及一种增强参考数据的值的方法,包括:使数据 经受至少一个值增强过程;以及维护对参考数据的每个增值元的生成有贡 献的所有数据源以及所有增强处理步骤的完整记录。该方法还包括:接收 与来自第一数据源的被引用项目有关的数据;以及基于对来自多个源的同 一引用项目的值的比较和处理生成增强的值。此外,该方法一般包括执行 下列中的至少一个:通过手动过程与自动过程中的至少一个对数据进行验 证;通过手动过程与自动过程中的至少一个对数据进行规格化;以及通过 手动过程与自动过程中的至少一个对数据进行净化。
通常,参考数据包括源元,且所述验证包括:从源描述获取至少一个 源元;以及执行从包括以下内容的步骤群组中采取的至少一个步骤:检测 不符合源描述的任何源元;对不符合源描述的任何源元进行标识;校正不 符合源描述的任何源元;以及移除不符合源描述的任何源元;以及将通过 执行验证的步骤所生成的任何事件记录到至少一个发展跟踪寻源数据标 签。
规格化包括:获取在源描述中的源元;将基于源描述的源元转换为基 于对应的目标描述的至少一个目标信息元,其中,所述目标描述是描述储 存库信息元当其被存储在储存库中时的结构、内容以及约束的信息;以及 执行从包括以下内容的步骤群组中采取的至少一个步骤:检测不能被规格 化的任何源元;对不能被规格化的任何源元进行标记;校正不能被规格化 的任何源元;移除不能被规格化的任何源元;以及将通过执行规格化的步 骤所生成的任何事件记录到至少一个发展跟踪寻源数据标签。
所述净化包括下列中的至少一个:自动化执行来自包含对源特有的净 化规则的至少一个规则集中的至少一个规则;由熟悉与至少一个被引用实 体有关的主题的人检查源元值;由熟悉与至少一个被引用实体有关的主题 的人应用来自包含对源特有的规则的所述至少一个规则集中的任何规则; 任何源元值的移除;任何源元值的增加;任何源元值的校正;任何品质关 注事项的注释;向源报告关于所讨论源元的品质的查询;以及将从动作群 组中所采取的任何动作生成的任何事件记录到至少一个发展跟踪寻源数据 标签。
有利的是,该方法包括:选择包含描述同一被引用实体的信息的所有 源元;将预定规则应用到源元与元属性中的至少一个;通过以下当中的至 少一个从由不同源提供的替代物中选择优选项目或推荐项目中的一个:基 于由不同源提供的属性组合创建至少一个新项目;或修改由不同的源提供 的元;当创建至少一个新项目时创建新的对应的发展跟踪源数据标签;在 源项目层用关于应用到项目的源间处理的信息来注释发展跟踪源数据标 签。
如果已有的元已被选择但没有属性被修改,则本方法还包括:在项目 的层提供注释以便指示哪些母源与所做出的选择匹配。如果发生数据在属 性层的修改或新项目的创建,则该方法还包括为每个属性单独注释精确的 一组源。
本发明还涉及一种数据处理方法,该方法包括产生至少一个发展跟踪 源标签的数据集,其包括:从至少一个源接收至少一个源数据集,其中, 源元包括源项目与源属性中的一个,每个源数据集具有至少一个源项目, 每个源项目具有至少一个源属性;在至少一个发展跟踪源数据标签中记录 针对每个源元的源标识,以及针对每个源数据集的源标识;获取从接收步 骤与记录步骤产生的有关信息以便在至少一个发展跟踪源数据标签中形成 至少一个可记录事件;以及形成所述至少一个发展跟踪源标签的数据集以 包括至少一个发展跟踪源数据标签,所述至少一个发展跟踪源数据标签包 括所述至少一个可记录事件,并包括所述至少一个可记录事件的至少一个 源。
该方法还包括:从关于源数据集、源元、以及信息元中的至少一个的 至少一个规则集中调用至少一个规则;以及获取由调用步骤发展的相关信 息以便在至少一个发展跟踪源数据标签中形成至少一个其他可记录事件。
所述至少一个规则集可包括从规则群组中采取的至少一个规则,所述 规则群组包括:用于检查源属性值的范围容差的规则;用于检查源属性值 的改变率的规则;用于检查源属性值与其他相关源属性值的一致性的规则; 用于检查源元的结构一致性的规则;用于检查源元与其他相关源元的一致 性的规则;用于检查源元在多源多租户数据储存库中如目标描述所述地变 换为目标信息源的适用性的规则;用于检查源元值与已有被引用实体信息 的兼容性的规则;用于将源元识别为来自特定源的规则;用于在特定源间 过程的背景下比较源元的规则;适用于源数据集的规则;适用于源元的规 则;以及适用于信息源的规则。根据所述至少一个规则对从处理阶段群组 中采取的至少一个处理阶段的适用性,所述至少一个规则被分组为至少一 个规则集,所述处理阶段群组包括:验证、规格化、源特有的净化、以及 源间过程。
规则可包括下列当中的至少一个:可执行测试条件;校正方法;识别 规则所属于的至少一个规则集的信息。
根据该方法,可记录事件可包括从包括以下内容的数据群组中采取的 数据:事件描述;事件代理;与事件有关联的时间信息;事件的至少一个 源;事件的标识符;将事件与其所应用的信息元相关联所需要的信息;以 及事件的分类。
所述调用步骤可包括从包括以下内容的步骤群组中采取的至少一个步 骤:对至少一个源元执行验证;对所述至少一个源元执行规格化;对所述 至少一个源元执行源特有的净化;以及对所述至少一个源元执行至少一个 源间过程。
对所述至少一个源元执行验证的步骤可包括:从源描述获取至少一个 源元;以及执行从包括以下内容的步骤群组中采取的至少一个步骤:检测 不符合源描述的任何源元;对不符合源描述的任何源元进行标记;校正不 符合源描述的任何源元;移除不符合源描述的任何源元;以及将执行验证 的步骤所生成的任何事件记录到至少一个发展跟踪寻源数据标签。
对所述至少一个源元执行规格化的步骤包括:获取源描述中的源元; 将基于源描述的源元转换为基于对应的目标描述的至少一个目标信息元, 其中,所述目标描述是描述储存库信息元当其被存储在储存库中时的结构、 内容以及约束的信息;以及执行从包括以下内容的步骤群组中采取的至少 一个步骤:检测不能被规格化的任何源元;对不能被规格化的任何源元进 行标记;校正不能被规格化的任何源元;移除不能被规格化的任何源元; 以及将执行规格化的步骤所生成的任何事件记录到至少一个发展跟踪寻源 数据标签。
执行源特有的净化的步骤包括从包括以下内容的动作群组中采取的动 作:自动化执行来自包含对源特有的净化规则的至少一个规则集的至少一 个规则;由熟悉与至少一个被引用实体有关的主题的人检查源元值;由熟 悉与至少一个被引用实体有关的主题的人应用来自包含对源特有的规则的 所述至少一个规则集的任何规则;任何源元值的移除;任何源元值的增加; 任何源元值的校正;任何品质关注事项的注释、向源报告关于所讨论源元 的品质的查询;以及将从动作群组中所采取的任何动作生成的任何事件记 录到至少一个发展跟踪寻源数据标签。
执行至少一个源间过程的步骤可包括从包括以下内容的动作群组中采 取的动作:检查来自引用同一被引用实体的多个数据元的源元;自动执行 来自所述至少一个规则集的至少一个规则,该规则集包括对所述至少一个 源间过程特有的源间过程规则;由熟悉与同一被引用实体有关的主题的人 检查源元;由熟悉该主题的人应用来自包含对所述至少一个源间过程特有 的源间过程规则的所述至少一个规则集的任何规则;选择作为优选值的任 何源元值;任何源元的比较;任何源元值的移除;任何源元值的增加;任 何源元值的修改;注释任何品质关注事项;创建至少一个项目实例以包括 所述至少一个源间过程的结果;修改至少一个项目实例以包括所述至少一 个源间过程的结果;将标识信息添加到至少一个项目实例以便将所述至少 一个项目实例识别为所述至少一个源间过程的目标;以及将通过从该动作 群组中采取的任何动作生成的任何事件记录到至少一个发展跟踪寻源数据 标签。
该方法还可包括通过从包括以下内容的步骤群组中采取的至少一个步 骤消除在比较源元的步骤中检测到的差别:基于商业规则自动选择源元; 基于算法自动选择源元;由熟悉该主题的人基于该主题领域的知识手动选 择推荐源元;由熟悉该主题的人基于自由获得的公共信息手动选择推荐源 元;由熟悉该主题的人基于该主题领域的知识手动创建推荐源元;由熟悉 该主题的人基于自由获得的公共信息手动创建推荐源元;以及将从步骤群 组中采取的任何步骤生成的任何事件记录到至少一个发展跟踪寻源数据标 签。
所述记录步骤可包括识别哪些源与被选的优选源元值匹配。另外,该 方法还可包括:向熟悉该主题的人呈现所述至少一个源元;使能所述至少 一个源元的手动验证的执行;执行手动验证;将执行手动规格化的步骤生 成的任何事件记录到至少一个发展跟踪寻源数据标签。
该方法还可包括:向熟悉该主题的人呈现所述至少一个源元;使能所 述至少一个源元的手动规格化的执行;执行手动规格化;以及将执行手动 规格化的步骤所生成的任何事件记录到至少一个发展跟踪寻源数据标签。
被处理的整个一组参考数据可以关于多种不同话题,其中参考数据的 源数据集被独立净化,每个源供应关于至少一个话题的源项目。
本发明还涉及用于参考数据的品质保证过程,其包括:接收来自至少 一个源的源数据集中的参考数据,每个源数据集具有至少一个源项目,每 个源项目具有至少一个源属性。其中,源元为源项目与源属性中的一个; 在至少一个发展跟踪源数据标签中记录针对每个源元的源标识以及针对每 个源数据集的源标识,使得至少一个发展跟踪源数据标签与每个源元相关 联;在所述至少一个发展跟踪源数据标签中记录来自源元的验证、规格化、 单源处理、及源间处理的步骤的数据发展事件;以及形成所述至少一个发 展跟踪源标签的数据集以包括至少一个发展跟踪源数据标签,所述至少一 个发展跟踪源数据标签包括所述至少一个数据发展事件与所述至少一个数 据发展事件的源。
本发明还涉及一种制品,其包括其中含有计算机可读程序代码装置以 便产生数据处理的计算机可用介质,所述制品中的计算机可读程序代码装 置包括使计算机完成上面提到以及在下面详细介绍的任何一种方法的计算 机可读程序代码装置。
根据又一方面,本发明涉及一种用于增强参考数据的值的装置,包括: 使数据经受至少一个增值过程的装置;以及用于维护对参考数据的每一增 强元的生成有贡献的所有增强处理步骤以及所有数据源的完整记录的数据 库。该装置还可包括:用于从第一数据源接收关于被引用项目的数据的装 置;以及基于来自对多个源的同一被引用项目的值的比较与处理生成增加 值的装置。
该装置还可包括下列之中的至少一个:用于通过手动过程与自动过程 中的至少一个验证该数据的验证装置;用于通过手动过程与自动过程中的 至少一个对数据进行规格化的规格化装置;以及通过手动过程与自动过程 中的至少一个对数据进行净化的净化装置。
通常,参考数据包括源元,且所述验证装置包括:用于从源描述获取 所述至少一个源元的装置;执行选择含有以下内容的步骤群组的至少一个 步骤的装置:以及用于执行从包括以下内容的步骤群组中采取的至少一个 步骤的装置:检测不符合源描述的任何源元、对不符合源描述的任何源元 进行标记、校正不符合源描述的任何源元、以及移除不符合源描述的任何 源元;以及用于将执行验证的步骤生成的任何事件记录到至少一个发展跟 踪寻源数据标签的装置。
所述规格化装置包括:用于获取源描述中的源元的装置;用于将基于 源描述的源元转换为基于对应的目标描述的至少一个目标信息元的装置, 其中,目标描述是描述储存库信息元当被存储在储存库中时的结构、内容 与约束的信息;以及用于执行从包括以下内容的步骤群组中采取的至少一 个步骤的装置:检测不能被规格化的任何源元、对不能被规格化的任何源 元进行标记、校正不能被规格化的任何源元;用于移除不能被规格化的任 何源元的装置;以及用于将执行规格化的步骤所生成的任何事件记录到至 少一个发展跟踪寻源数据标签的装置。
所述净化装置包含下列之中的至少一个:用于自动化执行来自包含对 源特有的净化规则的至少一个规则集的至少一个规则的装置;用于由熟悉 与至少一个被引用实体有关的主题的人检查源元值的装置;用于由熟悉与 至少一个被引用实体有关的主题的人应用来自包含对源特有的规则的所述 至少一个规则集的任何规则的装置;用于任何源元值的移除的装置;用于 任何源元值的增加的装置;用于任何源元值的校正的装置;用于注释任何 品质关注事项的装置;用于向源报告关于所讨论源元的品质的查询的装置; 以及用于将从动作群组中所采取的任何动作生成的任何事件记录到至少一 个发展跟踪寻源数据标签的装置。
该装置还包括用于从多个源接收参考数据的装置以及用于通过手动过 程与自动过程中的至少一个对数据进行选择和增强以产生增强值的数据的 装置。
该装置可包括:用于选择包含描述同一被引用实体的信息的所有源元 的装置;用于将预定规则应用到源元与元属性中的至少一个的装置;用于 通过以下当中的至少一个从不同源提供的替代物中选择优选项目或推荐项 目中的一个的装置:基于由不同源提供的属性的组合创建至少一个新项目、 或修改由不同的源提供的元;用于当创建至少一个新项目时创建新的对应 的发展跟踪源数据标签的装置;以及用于在源项目层次上用关于应用到项 目的源间处理的信息注释发展跟踪源数据标签的装置。
该装置还包括:用于如果已有的元已被选择但没有属性被修改,则在 项目层提供注释以指示哪些母源与所做出的选择匹配的装置。该装置还包 括:用于如果发生数据在属性层的修改或新项目的创建,则为每个属性单 独注释精确的一组源的装置。
根据另一方面,本发明涉及一种用于产生至少一个发展跟踪源标签的 数据集的数据处理装置,其包括:用于从至少一个源接收至少一个源数据 集的至少一个输入,每个源数据集具有至少一个源项目,每个源项目具有 至少一个源属性;用于记录每个源属性的源标识、每个源项目的源标识以 及每个源数据集的源标识的存储器;用于调用来自关于以下内容中的至少 一个上的至少一个规则集的至少一个规则的装置:源数据集、源项目与属 性;用于保留关于调用、接收和记录的步骤的相关信息从而产生至少一个 可记录事件的装置;处理器,用于形成至少一个发展跟踪源标签的数据集 以包括至少一个可记录事件以及所述至少一个可记录事件的事件发起者。
根据本发明,一种用于保证参考数据品质的数据处理装置包括:用于 接收来自至少一个源的源数据集中的参考数据的装置,每个源数据集具有 至少一个源项目,每个源项目具有至少一个源属性,其中,源元为源项目 与源属性中的一个;用于在至少一个发展跟踪源数据标签中记录针对每个 源元的源标识以及针对每个源数据集的源标识、使得至少一个发展跟踪源 数据标签与每个源元相关联的装置;用于在所述至少一个发展跟踪源数据 标签中记录来自源元的验证、规格化、单源处理、以及源间处理的步骤的 数据发展事件的装置;以及用于形成所述至少一个发展跟踪源标签的数据 集以包括至少一个发展跟踪源数据标签的装置,所述至少一个发展跟踪源 数据标签包括所述至少一个数据发展事件与所述至少一个数据发展事件的 源。
本发明可与文中介绍的多源多租户参考数据实用工具一起使用,用于 响应于来自客户的请求传送高品质的参考数据,其使用共享的基础设施实 现,并使用客户的参考数据提供增值服务。可以利用:通过对每个值的完 整寻源跟踪对所接收的数据进行数据净化与品质保证、在允许检索并强制 执行基于源的资格的储存库中存储结果得到的实体值、以及以支持多种客 户应用需求的请求式数据集的形式传送检索得到的数据。一种有利的实现 具有用于对数据品质和使用率、商业文档存储与增值数据驱动计算的选择 进行报告的附加服务。通过在多个客户之间使用共享基础设施以及摊还数 据品质保证的成本,在保证客户仅从他们被许可的数据源接收值的同时, 以比当前可用的其他方法更低的成本传送品质更好的数据。
D.请求式数据传送
本发明的另一方面涉及一种用于满足至少一个请求式数据集请求的信 息传送方法,该方法包括:处理来自至少一个请求者的所述至少一个请求 式数据集请求;产生至少一个解析后的请求式数据集请求说明;配置至少 一个请求式数据集产生过程以产生满足所述至少一个请求式数据集请求的 至少一个请求式数据集;以及执行所述至少一个请求式数据集产生过程以 便将所述至少一个请求式数据集返回到所述至少一个请求者,其中,请求 式数据集被限制为从请求者有资格的源和数据增强得到的数据。
请求式数据集请求可包括使得请求者能够指定从包括以下内容的性质 群组中采取的性质的至少一个请求式数据集请求说明:被返回的信息项目; 被返回的信息项目的选择;在替代可用值之间进行选择的寻源偏好;传送 模式;传送定时;传输协议;传输协议端口;安全令牌;优选数据格式; 数据变换规则;被调用的定制功能;定制过滤规则;异常处理指令;注释 指令;数据传送反馈机制指令;传送端点;传送中介;元数据处理指令; 记入日志指令;路由指令;数据合并指令;以及数据分割指令。该方法还 可包括从多源多租户数据储存库接收汇编在请求式数据集中的信息。
所述至少一个请求者可从包括以下内容的请求者群组中采取:多源多 租户储存库的租户;代表租户的代理;代表储存库的代理;代表储存库的 程序;以及代表租户的程序。
该方法还可包括使用传送模式传送所述至少一个请求式数据集,传送 模式包括来自包括以下内容的传送模态群组的至少一个传送模态:准实时 传送;已调度的分批传送;数据集市(mart)传送;一次性查询传送;电 子邮件传送;传真传送;在线传送;打印硬拷贝传送;自动化语音传送; 磁带传送;光盘传送;数字媒体传送;视频传送;以及条件触发传送。
所述至少一个请求式数据集产生过程的配置可通过针对所述至少一个 请求式数据集产生过程中可分离的步骤使用至少一个动作构造而使能。
所述至少一个动作构造块可从动作构造块集合中采取,其中,每个块 使能从包括以下内容的功能群组中采取的至少一个功能:信息元选择;寻 源选择;资格强制执行;数据汇编;传送调度;传输协议处理;标准格式 变换;数据库加载;定制数据变换;记入日志;功能执行;过滤;注释; 路由;数据分割;数据合并;以及数据发送。
至少一个请求式数据集产生过程的配置可包括:使用所述至少一个解 析后的请求式数据集请求说明;选择用于包括在请求式数据集产生过程中 的至少一个动作构造块,其中,所述至少一个动作构造块满足所述至少一 个解析后的请求式数据集请求说明的至少一个性质;用执行参数对任何被 选动作构造块进行参数化;以及将所选的参数化的动作块汇编到所述至少 一个请求式数据集产生过程中。
请求式数据集产生过程的执行可包括从包括以下内容的步骤群组中采 取的至少一个步骤:执行包括在请求式数据集产生过程中的汇编流的逻辑; 按照所述逻辑所指示的次数执行请求式数据集产生过程的每一参数化动作 构造块;向所述至少一个请求者发送所述至少一个请求式数据集;记录响 应于所述至少一个请求所采取的动作的方面,以便使能在其后的时间重复 所述执行步骤;以及将从包括以下内容的方面群组中采取的至少一个传送 方面记入日志:传送时间;传送日期;传送内容;传送的请求者;传送模 式;传送大小;传送过程的执行时间;传送的标识符;传送过程的任何错 误;传送过程的任何警告;传送过程的成功;传送过程的反馈;与传送过 程相关联的认可信息;传送的安全特征;以及所述至少一个请求式数据集 请求。
请求式数据集请求可由从包括以下内容的动作群组中采取的动作发 起:手动发起的请求;自动发起的请求;一次性请求;数据到达事件;数 据可用性事件;数据删除事件;数据改变事件;数据时间事件;已调度请 求;通过中介接收到的请求;以及在线发起的请求。
值得注意的是,该方法可缩放为允许通过来自多个请求者的多个传送 请求的信息传送。该方法可使用信息传送请求的自动化处理,并可以对于 每个传送请求的需要被特定地进行配置。
本发明还涉及响应于来自请求者的请求从多源多租户数据储存库返回 参考数据的方法,其包括:接收来自请求者的至少一个请求;解析所述至 少一个请求以提取请求说明;基于请求者的资格、选择标准、寻源偏好以 及其他包含在请求者的请求中的偏好,对至少一个工作流进行配置,以便 传送被请求的参考数据;以及执行工作流,将被请求的参考数据传送到请 求者。
请求说明包括从包括以下内容的偏好群组中采取的至少一个偏好:选 择标准;寻源偏好;数据格式偏好;传送传输偏好;以及对请求者特有的 偏好。
所述配置可包括从包括以下内容的动作群组中采取的至少一个动作: 检索被请求的参考数据;对被请求的参考数据进行过滤;以及对被请求的 参考数据进行格式化。
本发明还涉及一种包括计算机可用介质的制品,该介质具有包含于其 中的用于产生信息处理的计算机可读程序代码装置,所述制品中的计算机 可读程序代码装置包括用于使计算机完成上面提到以及下面更为详细地介 绍的任何或全部方法的计算机可读程序代码装置。
本发明还涉及一种用于满足至少一个请求式数据集请求的信息处理装 置,该装置包括:处理器,用于处理来自至少一个请求者的所述至少一个 请求式数据集请求;计算机程序部件,可被执行用于产生至少一个解析后 的请求式数据集请求说明;程序配置装置,用于配置至少一个请求式数据 集产生过程,以便产生满足所述至少一个请求式数据集请求的至少一个请 求式数据集;以及计算机代码,用于执行所述至少一个请求式数据集产生 过程,以便将所述至少一个请求式数据集返回到所述至少一个请求者;其 中,请求式数据集被限制为从请求者有资格的源和数据增强得到的数据。
处理器处理请求式数据集请求,其包括使得请求者能够指定从包括以 下内容的性质群组中采取的性质的至少一个请求式数据集请求说明:被返 回的信息项目;被返回的信息项目的选择;在替代可用值之间进行选择的 寻源偏好;传送模式;传送定时;传输协议;传输协议端口;安全令牌; 优选数据格式;数据变换规则;被调用的定制功能;定制过滤规则;异常 处理指令;注释指令;数据传送反馈机制指令;传送端点;传送中介;元 数据处理指令;记入日志指令;路由指令;数据合并指令;以及数据分割 指令。
在优选实施例中,该装置还包括用于从多源多租户数据储存库接收在 请求式数据集中汇编的信息的装置。
该装置还包括用于从包括以下内容的请求者群组中采取的至少一个请 求者接收请求式数据集请求的装置:多源多租户储存库的租户;代表租户 的代理;代表储存库的代理;代表储存库的程序;以及代表租户的程序。
该装置还包括传送部件,其中,传送部件包括从包括以下内容的传送 模态群组中采取的至少一个传送模态:准实时传送;已调度的分批传送; 数据集市传送;一次性查询传送;电子邮件传送;传真传送;在线传送; 打印硬拷贝传送;自动化语音传送;磁带传送;光盘传送;数字媒体传送; 视频传送;以及条件触发传送。
该装置还可包括至少一个动作构造块,用于构造所述至少一个请求式 数据集产生过程的可分离的步骤,从而配置所述至少一个请求式数据集产 生过程。所述至少一个动作构造块可从动作构造块集合中采取,其中,每 个块使能从包括以下内容的功能群组中采取的至少一个功能:信息元选择; 寻源选择;资格强制执行;数据汇编;传送调度;传输协议处理;标准格 式变换;数据库加载;定制数据变换;记入日志;功能执行;过滤;注释; 路由;数据分割;数据合并;以及数据发送。
所述程序配置装置可包括:用于使用所述至少一个解析后的请求式数 据集请求说明的装置;用于选择用于包括在请求式数据集产生过程中的至 少一个动作构造块的装置,其中,所述至少一个动作构造块满足所述至少 一个解析后的请求式数据集请求说明的至少一个性质;用于用执行参数对 被选动作构造块进行参数化的装置;以及用于将被选参数化的动作块汇编 到所述至少一个请求式数据集产生过程中的装置。
用于执行请求式数据集产生过程的计算机代码可包括从计算机代码部 件群组中采取的至少一个计算机代码部件,其包括:用于执行包括在请求 式数据集产生过程中的汇编流的逻辑的计算机代码;用于按照所述逻辑所 指示的次数执行所述请求式数据集产生过程的每一参数化动作构造块的计 算机代码;用于向所述至少一个请求者发送所述至少一个请求式数据集的 计算机代码;用于记录响应于所述至少一个请求所采取的动作的方面,以 便使能在其后的时间重复所述执行步骤的计算机代码;以及将从包括以下 内容的方面群组中采取的至少一个传送方面记入日志的计算机代码:传送 时间;传送日期;传送内容;传送的请求者;传送模式;传送大小;传送 处理的执行时间;传送的标识符;传送过程的任何错误;传送过程的任何 警告;传送过程的成功;传送过程的反馈;与传送过程相关联的认可信息; 传送的安全特征;以及所述至少一个请求式数据集请求。
该装置还可包括用于响应于从包括以下内容的动作群组中采取的动作 而发起请求式数据集请求的装置:手动发起的请求;自动发起的请求;一 次性请求;数据到达事件;数据可用性事件;数据删除事件;数据改变事 件;数据时间事件;已调度请求;通过中介接收到的请求;以及在线发起 的请求。
本发明还涉及一种用于响应于来自请求者的请求从多源多租户数据储 存库返回参考数据的装置,包括:用于接收来自请求者的至少一个请求的 装置;用于解析所述至少一个请求以提取请求说明的装置;用于基于请求 者的资格、选择标准、寻源偏好以及其他包含在请求者的请求中的偏好, 对至少一个工作流进行配置以便传送被请求的参考数据的装置;用于执行 工作流并将被请求的参考数据传送到请求者的装置;以及用于将请求式数 据集限制在从请求者有资格的源和数据增强中得到的数据的装置。
该装置还包括响应于请求说明的装置,所述请求说明包括从包括以下 内容的偏好群组中采取的至少一个偏好:选择标准;寻源偏好;数据格式 偏好;传送传输偏好;以及对请求者特有的偏好。
所述用于配置的装置包括从包括以下内容的装置群组中采取的至少一 个装置:用于检索被请求的参考数据的装置;用于对被请求的参考数据进 行过滤的装置;以及用于对被请求的参考数据进行格式化的装置。
本发明还涉及一种用于响应于来自请求者的请求从多源多租户数据储 存库返回参考数据的装置,该装置包括:用于接收来自请求者的至少一个 请求的装置;用于对所述至少一个请求进行解析以提取请求说明的装置; 用于基于请求者资格、选择标准、寻源偏好以及包含在请求者的请求中的 其他偏好,配置至少一个工作流以便传送被请求的参考数据的装置;以及 用于执行工作流并向请求者传送被请求的参考数据的装置。
本发明还与文中介绍的多源多租户参考数据实用工具一起使用,用于 响应于来自客户的请求传送高品质的参考数据,其使用共享的基础设施实 现,并使用客户的参考数据提供增值服务。可以利用:通过对每个值的完 整寻源跟踪对所接收的数据进行数据净化与品质保证、在允许检索并强制 执行基于源的资格的储存库中存储结果得到的实体值、以及以支持多种客 户应用需求的请求式数据集的形式传送检索得到的数据。一种有利的实现 具有用于对数据品质和使用率、商业文档存储与增值数据驱动计算的选择 进行报告的附加服务。通过在多个客户之间使用共享基础设施以及摊还数 据品质保证的成本,在保证客户仅从他们被许可的数据源接收值的同时, 以比当前可用的其他方法更低的成本传送品质更好的数据。
附图说明
通过下面对有利实施例的详细介绍以及附图将可以更明了本发明的这 些以及进一步的方面、优点和特征,在附图中:
图1A示出了该实用工具的示例部件结构。
图1B示出了参考数据实用工具储存库的示例内容。
图2示出了由实用工具进行的请求处理的最高级流程图的示例。
图3A示出了处理到达的源数据集的示例流程图。
图3B示出了处理客户传送请求的示例流程图。
图3C示出了处理源、客户与资格源数据的示例流程图。
图3D示出了处理增值服务请求的示例流程图。
图3E示出了处理报告与中央服务请求的示例流程图。
图4A示出了处理基于数据的计算服务请求的示例流程图。
图4B示出了处理商业文档存储或访问请求的示例流程图。
图4C示出了处理商业文档验证请求的示例流程图。
图4D示出了处理参考数据编排请求的示例流程图。
图5A示出了来自实用工具的示例报告类型。
图5B示出了实用工具管理服务的示例类型。
图6示出了实用工具的可缩放性、可用性和地理分散性。
图7A为在多源多租户数据储存库中对信息与相关联的基于源的资格 进行管理的方法的示例。
图7B为在多源多租户数据储存库中对到达的信息、基于源的资格与 检索请求进行交叉处理的流程图示例。
图8A为储存库的组织的示例.
图8B为储存库中实体的组织的示例。
图8C为实体中项目实例的组织的示例。
图8D为项目实例中版本化属性的组织的示例。
图9为用于将具有寻源注释的信息元插入储存库的流程图示例。
图10为用于维护基于源的资格信息的流程图示例。
图11A为基于请求者偏好响应于请求而返回来自储存库的信息元的流 程图示例。
图11B为解释检索请求的流程图示例。
图11C为获取项目与项目信息选择判定的流程图示例。
图11D为定位被请求的信息元的流程图示例。
图11E为用于通过过滤检索所得值强制执行资格的示例流程图。
图12A示出了数据获取与品质增强部件的总体视图。
图12B示出了源间净化的总体视图。
图13示出了验证、规格化、单源净化与源间处理的流程图。
图14示出了单源数据集的验证的流程图。
图15示出了源输入流的规格化的流程图。
图16示出了源输入流的净化的流程图。
图17示出了校正验证错误的流程图。
图18A示出了校正规格化错误的流程图。
图18B示出了校正净化错误的流程图。
图19示出了源间处理的流程图。
图20A为示出响应于请求式数据集请求产生请求式数据集的流程图。
图20B为示出了请求式数据集请求说明的分析与解析中的步骤的流程 图。
图21A为示出了请求式数据集产生过程的建立中的步骤的流程图。
图22A为示出了请求式数据集请求说明的结构的流程图。
图22B为示出了请求式模式案例树的流程图。
图23A为示出了请求式数据集产生过程中的处理步骤的流程图。
图23B为检索值并插入传送数据集步骤的流程图。
图23C为执行传送实例步骤的流程图。

具体实施方式

定义
属性——属性包含属性名与属性值。示例:属性名=“Exchange where traded”,而属性值=“NYSE”。属性中的每个属性值具有导向其创建的 单个发展历史并具有至少一个源。在储存库中,同一属性的多个版本组成 版本化属性。在一有利实施例中,关于每个属性的寻源与事件信息被存储 在版本化属性的ETSDT中。
属性选择——属性列表或属性值的判定,其识别将作为请求的输出返 回的被选储存库实体的特定属性值。
商业文档存储服务——一种在参考数据实用工具中存储商业文档并向 所有者或其他有资格的客户提供对文档的访问的服务。每个商业文档可以 与其验证以及数据编排功能关联在一起,所述功能在客户的商业操作中使 用存储的商业文档为客户提供增值。这些增值能力可使用做出请求的客户 的有资格的参考数据。
客户——参考数据实用工具的用户。每个客户与多源多租户储存库的 租户相关联,在该储存库中,数据代表多客户被存储。租户可具有一个或 一个以上的客户,每个客户具有租户的资格的子集。客户资格的管理被典 型地留给租户,但可作为服务由实用工具提供。在任何时间点上,可以有 多个代理或程序代表客户并在参考数据实用工具上进行请求。接着这些代 理中的每一个被参考实用工具或参考数据实用工具的部件理解为请求者。 代表客户的请求是为了获取传送数据、或是为了执行增值服务、或是为了 提供报告等集中式服务或客户服务。每个客户通过定义其性质、授权、合 同规约、服务级别与合同协议以及数据与服务资格的元数据请求对参考数 据实用工具来说是可见的。这种信息在客户简档中概括。
客户简档——一组对参考数据实用工具客户的允许行为和偏好进行特 征化的信息。其将典型地包括针对客户对身份、认证过程、合同协议、授 权与授权更新过程、服务级别协议、缴费单安排、报告过程以及资格更新 过程进行特征化的信息。该组客户简档由参考数据实用工具用于为其客户 集合管理和配置数据与关联的服务传送。
数据净化——为每个源数据集判定到达的项目是否符合源数据集的源 说明并验证在每个项目中收到的属性的完整性和正确性的过程。数据净化 包括:获取、项目验证、项目规格化、源数据集特有项目净化、以及多源 项目实例比较与值选择。
数据驱动计算服务——一种存储在参考数据实用工具中的商业计算或 功能,其可以应来自实用工具客户的请求而调用。其是可用参考数据实用 工具提供的增值服务的示例。每个数据驱动计算服务具有唯一的提供者, 其使得该服务在参考数据实用工具中可用。提供者向实用工具的某组客户 授予使用服务的资格。数据驱动计算服务定义包括数据输入与输出定义, 其对它们作为输入需要的以及作为每个服务实例的结果返回的参考数据进 行特征化。数据驱动计算服务的实例(调用)通过向请求者提供的特定组 输入数据应用计算并返回一组输出数据来执行服务,该组输出数据成为请 求者的特性,并被传送给请求者或为它们在储存库中进行存储。请求式数 据集用于将功能提供者与每个请求者的特定输入与输出数据传送与格式需 要隔离开来。示例:对复杂工具的投资组合(portfolio)计算评价功能。
数据驱动计算服务登记表(registry)——具有在此参考数据实用工具 中被提供者变为可用的所有数据驱动计算服务的访问信息和描述的目录。 此增值服务的登记表具有相关联的资格管理,这种资格管理是由参考数据 实用工具的标准资格管理设施强制执行的,因此,数据驱动计算服务的提 供者可向参考数据实用工具的特定客户授予执行它的资格。当其完成时, 合适的SLA、缴费单和报告安排将被放到合适的地方。
数据驱动计算服务提供者——已经使参考数据实用工具中的至少一个 数据驱动计算服务可用于实用工具客户使用的任何关系人。提供者自身可 以是使得计算服务对其他人可用的实用工具客户,其可以是使得实用工具 作为增值服务对某个客户可用的实用工具的代理,或者其可以是完全独立 的第三方。增值计算服务的提供者控制其资格。
数据发展事件——任何导致信息元或源元变化的事件,其包括删除和 创建信息元或源元。每个事件最小限度地包括标识符、时间戳、事件的至 少一个源、事件的任何代理以及将事件与其属于的信息元或源元相关联的 足够的信息。数据发展事件的扩展属性包括多种附加标识符、文本描述、 分类等。简称“事件”也用于同样的概念。
传送数据集——作为请求式数据集的传送的一部分一次向请求者传送 的数据块。传送数据集可以是大量或少量的数据。
传送实例——在一时间点上作为传送请求式数据集的一部分向请求者 传输传送数据集的动作。
资格——请求者访问并接收由源和项目实例过程提供的信息的权利。 如果特定的属性值由源X提供但出现在由项目实例过程P维护的项目实例 中,则请求者仅在对源X与项目实例过程P都有资格时才对该项目实例属 性值有资格。
资格储存库——维护含有以下内容的列表的信息储存库:所有被识别 的请求者;所有源;所有项目实例过程;以及每个被识别的请求者对每个 源及项目实例过程的资格。
实体选择——储存库实体或储存库实体属性判定的列表,其确定请求 对之返回信息的一组实体。
发展跟踪源数据标签(ETSDT)——反映实体、项目实例或版本化属 性的历史中的所有事件的信息集合。ETSDT记录这些事件的版本以及所有 源和代理。在有利的实施例中,ETSDT被附着于:每个储存库实体、每个 项目实例、以及每个项目实例的每个版本化属性。在替代实施例中,ETSDT 可被分组、分割或附着于替代信息元。
信息元——储存库实体、项目实例、版本化属性、属性或特性中的一 个。
项目实例——从单个源或项目实例过程提供的储存库实体的所有属性 的信息。项目实例包括版本化属性的集合。项目实例承载识别用于创建其 的源或项目实例过程的源信息。示例:基于来自卖主A、卖主B、卖主C 的信息通过比较与选择过程产生的IBM股票的描述。某些项目实例是单源 的,例如来自卖主A的关于特定IBM债券的数据。其他的项目实例是多 源的并由项目实例过程创建,例如通过对一组源运行比较过程产生的特定 IBM债券的信息。资格需要能够既授予对单独的源的访问,又授予对项目 实例过程及其产生的项目实例的访问。在不同的时间从同一源到达的属性 可导致:被认为是导致创建每个这种源数据集的独立项目实例的独立源数 据集的属性、以及被认为是同一源数据集内的定时间隔且因此被包括为单 个项目实例中的版本化值的属性。
项目实例过程——用于再检查、验证、净化、过滤或从数据集或多个 数据集中进行选择以产生项目实例的过程,还有任何用于再检查、验证、 净化、过滤或以其他方式影响已有项目实例的过程。项目实例过程可反映 单源过程(在本文档的其他位置也称为“源特有的”)以及使用来自多个 源的数据的过程。复合项目实例过程也是可行的,“规格化”和“规格化 且单源净化”分别是简单与复合项目实例过程的例子。
元数据——关于信息元的描述性信息。示例:内部标识符、时间戳、 分类信息、文本描述。
多源多租户数据储存库——具有多个资格授予源与多个租户的储存 库,其独立地安排具有源与储存库所有者的所述资格的接收。
规格化——对于源数据集中的每个源项目,确定该项目包含关于其的 信息的被引用实体并将项目中的属性转换为与对应于该引用实体的储存库 实体的目标描述相兼容。这可包括将属性值改变为目标形式。
请求式数据集——响应于请求式数据集请求通过所产生的定制运行时 过程动态创建和传送的数据逻辑流。请求式数据集中的数据来自从多源多 租户数据储存库中检索的信息。请求式数据集或者作为单一传送实例或者 作为传送实例序列被传送。
请求式数据集请求——创建并传送请求式数据集的请求。被请求数据 的描述作为请求的一部分被传递。
请求式数据集请求说明——请求式数据集请求中描述被请求数据的部 分。其描述请求式数据集的内容、源策略、格式以及传送详情。
请求式源——一种数据源,数据可以响应于来自实用工具客户的对该 数据的请求从中被推入参考数据实用工具,通常在其被接收时具有输入处 理、净化和品质保证。一旦被引入实用工具并被存储在实用工具的多源多 租户储存库中,数据就可被传送到其他有资格的客户。
特性——不需要版本化的信息,因为其是公开的或以其他方式一般地 可用于对储存库的所有租户的分发(例如元数据)。包含在特性中的信息 典型地可用于在不需要检查资格的层次上进行针对储存库的一般请求。特 性可应用于储存库实体或项目实例。示例:对查询“储存库中存在多少股 票”做出响应,股票是所需要的一条分类信息。由于其是固有公开的可用 数据,其可被作为特性暴露而不是作为版本化属性。
参考数据实用工具——用于作为服务从多个源向客户集合提供净化和 增强后的参考信息的普通共享基础设施。其还提供增值服务和一般实用工 具支持服务以及参考数据的传送。普通共享基础设施包括多源多租户储存 库,其中存储原始和增强数据;其包括共享输入处理数据净化与增强,其 中,所有信息源被跟踪;其包括请求式数据集传送,这允许对被授予资格 的数据进行选择、检索和传送到所有匹配其传送说明的客户;其包括增值 与集中式服务的提供。参考数据储存库的客户是用于为参考数据实用工具 存储数据的多源多租户储存库部件的租户。术语“参考数据实用工具”常 被简称为“实用工具”。
被引用实体——由存储在储存库中的信息描述的真实世界实体。示例: IBM发行的真实债券、企业、对等关系人或股票交易。
储存库——信息集合,其包括:储存库实体、增值服务与商业文档, 在其中维护集合中每条信息的发展历史和有贡献的源的知识。
储存库实体——存储在储存库中的、描述单个被引用实体的信息集合。 储存库实体由定义该实体的一组属性(其元数据,例如名称、特性)和项 目实例的集合组成,每个项目实例包含从被识别的源或项目实例过程添加 到储存库中的、关于储存库实体的附加信息。示例:储存库中对IBM所发 行的特定债券、企业、对等关系人或股票交易进行特征化的信息。
储存库所有者——拥有储存库的组织或企业实体,其使得储存库数据 服务对这样的租户可用:该租户受其与源的资格协议以及对储存库的项目 实例过程的附加资格的控制。
储存库访问请求——来自被识别的请求者的、对存储在储存库实体中 的信息进行访问的请求。处理储存库访问请求所需要的信息包括请求者标 识、寻源偏好和选择判定。还可包括实体与属性选择。
请求说明——处理对多源多租户储存库的信息的请求所需的信息。在 最低限度上包括请求者标识、寻源偏好和选择判定。还可包括实体与属性 选择。
请求者——做出储存库访问或其他请求的代理。此代理可代表储存库 客户做出动作或为储存库做出动作,或是代表这些关系人中的一个做出动 作的计算机程序。对请求负责的请求者需要被识别,使得资格可响应于该 请求被强制执行。请求者由请求者标识符唯一地识别。
选择判定——响应于对多源多租户储存库的信息的请求进行接收时请 求者感兴趣的那些信息元的说明。请求说明的部件最常见的是指储存库实 体、项目实例和版本化属性。
源——各自包含关于被引用实体的信息的一个或一个以上的源数据集 的可识别供应者。源可由其源标识符唯一地识别。示例:卖家A与卖家C。
源准确度——源供应的属性值与从某些多源项目实例过程得到的被选 值(推荐值)相一致的频率。这提供了储存库的不同信息源的相对品质的 客观量度。
源属性——源属性组成源数据集中的源项目。参见下面对源项目的定 义。例如,如果源项目将X公司的普通股票表示为从某个源接收而来,则 X公司股票进行交易的交易所为源属性。源属性一般表示为名称-值对。
源数据集——来自特定的被识别源的源项目的集合;源数据集可在特 定的时间点上变得可用,可变得连续可用,或可被请求序列应请求取回。 示例:卖家A公开债券信息服务。源数据集由源数据集标识符唯一地识别。 提供源的源标识符可以是源数据集标识符的一部分,也可以不是。
源数据集描述——描述源数据集的结构、内容以及出现在源数据集项 目中的属性值的任何限制的信息。源描述由负责源数据集的源提供。
源数据集标识符——参见上面的源数据集的定义。
源元——源项目或源属性。
源标识符——参见上面对源的定义。
源项目——包含在单个源数据集中的信息,其描述特定的被引用实体。 源项目是源属性的集合,其可包括被引用实体的全部或任何属性。
源使用率——特定源的客户的源使用率是来自该客户的请求导致该源 提供的信息被传送的次数。其可以作为在某一固定时段内来自每个源的整 体使用率被提供。注意,源的使用率可以是显式的或隐式的;显式的使用 率是当该源通过识别该源的特定请求者策略被选择时;隐式的使用率是当 偏好是针对某个多源项目实例且该源是该项目实例的被选值的供应者时。
源简档——源简档包含对参考数据实用工具使用的数据源的行为进行 特征化的信息。其典型地将包括关于身份、认证过程、联系信息、授权、 输入格式、源数据传送协议、数据校正协议、资格更新与该数据源的报告 安排的信息。参考数据实用工具使用其源简档集合来管理和配置从所有数 据源接收的数据的输入处理与净化。
寻源,寻源信息——数据的源;可以是项目实例过程(例如源间比较 和选择过程)或特定数据提供者(例如卖家A)。
寻源偏好——源和项目实例过程的有序列表;请求者可能偏好属性和 作为输出从请求返回的属性在初期以该次序从项目实例来到。由于储存库 的请求处理强制执行资格,请求者将不会总是从该列表中的首选源接收属 性和值,而是对于针对返回选择的值具有部分控制。
目标数据集——描述储存库实体信息的约束、内容和结构的信息,其 包括存储在储存库中的属性、版本化属性以及项目实例。注意,这是仅从 输入净化的观点的目标描述。储存库的客户可将目标描述看作对于储存库 实体的概要(schema),其在客户的观点上看来是客户参考信息的提供者。
租户——一种安排为参考数据实体的用户或更具体地为储存库的用户 的组织、个人或企业实体,且可以通过实用工具或储存库的所有者以及源 安排为对信息和服务有资格。租户可向代表它们的被识别的客户传递资格。
话题(topic)——用于储存库中的分层组织的储存库实体特性。对于 进一步的粒度,话题可被分为子话题。原则上,数据储存库中的每个储存 库实体唯一地位于这种分层话题空间中。示例:金融工具定义或企业所有 权分层是金融参考数据储存库中的话题的示例。金融工具定义话题可以分 解为诸如普通股票定义以及债券定义的子话题;在债券定义中进一步分为 企业债券与政府保证债券等等。
增值服务——在参考数据实用工具的背景下,为参考数据实用工具的 客户提供增值的可选的服务,其与参考数据间接相关,并利用基础参考数 据实用工具的性能。数据驱动计算服务与商业文档服务是可选地提供有参 考数据实用工具的增值服务的示例。客户通过向参考数据实用工具发布增 值服务请求来获得增值服务。有用地提供有参考数据实用工具的增值服务 的示例包括数据驱动计算服务与商业文档存储服务。
增值服务请求——从客户到参考数据实用工具的获取增值服务的请 求。
版本化属性——同一属性的一个或一个以上版本的集合,其中,每个 版本由不同的一个或多个源产生。在有利的实施例中为属性名与一个或一 个以上属性值的集合。在储存库中组织和存储版本化属性的有利实施例是 属性的集合(如上所定义的),其中,集合中的所有属性具有同样的属性 名。这种组织通过从一个源数据集向项目实例中的版本化属性移动或复制 属性以及通过当某种增值过程创建已修改属性值时增加附加属性,而允许 在储存库中构建版本化属性。版本化属性具有ETSDT,其中,关于版本化 属性中的属性值的所有事件和源被记录。因此,多个“值”(有利实施例 中为多个被包含的属性)可在项目实例的单个版本化属性中存在,其或者 关于来自由某些项目实例过程修改的同一原始源的值,或关于从多个原始 源中选择或组成的值。
一般组织
本发明将在四个部分中介绍,每个部分介绍一个单独的方面,如同上 面在“发明内容”部分所用的那样。第一部分介绍具有特性的参考数据实 用工具的方法和操作,该实用工具是可外包的、可共享的、能够支持多租 户和多数据源并对其包含的信息强制执行资格和隐私权。每个源可向租户 的任何组合授予对得自其数据的信息的资格。向每个租户授予资格的信息 取决于用于得出它的源以及施加到源数据上的增强过程。该部分还介绍了 可选的附加文档编排和计算服务,其可由参考数据实用工具提供以增加其 对租户的价值。在有利的实施例中,参考数据实用工具包括这种增值服务。
第二部分介绍了形成与操作储存库的方法和结构,在该储存库中,信 息被存储,对被存储信息的访问被授予请求者,并且与源和数据的增强处 理有关的资格权通过用生成个体数据源的历史概要对个体数据源加标签来 强制执行。
在有利的实施例中,参考数据实用工具将这样的储存库用作其参考数 据的信息存储和访问方法。
第三部分介绍了执行到达参考信息的可缩放数据净化与增强的方法和 组织,其中,支持单数据源增强处理和多数据源比较与增强处理,同时, 该方法还维护对得到参考数据元时使用的所有源的完整认知。在有利的实 施例中,参考数据实用工具将这种数据净化与增强处理作为其输入方法应 用到来自源的到达信息。
第四部分也是最后的部分介绍了用于从储存库到请求客户的参考数据 的可缩放请求式传送的方法和组织,其中容纳了对于数据传送的不同传迭 内容、格式和模式的多种客户需求。在有利的实施例中,参考数据实用工 具将该方法用作其输出方法以可缩放的方式从实用工具向与实用工具租户 相关联的客户传送数据。
A.参考数据实用工具的操作的一般结构与方法
在第一主要方面中,本发明是一种方法和新颖的系统组织,其用于响 应于来自客户的请求而形成和维护传送高品质参考数据的多源多租户参考 数据实用工具,其用共享基础设施实现,并使用客户的参考数据提供增值 服务。一种有利的实现提供用于报告数据品质和使用率的附加服务、增值 数据驱动计算的选择和商业文档存储。
该方法实际上是一种对于参考数据的数据收集、品质保证、存储和传 送的“装配线方法”。通过使得昂贵但关键的人类专业知识和再检查功能 能够被集中化并高度杠杆化,被组织为自动化可扩充系统的、支持对不同 话题、源、品质、模式与格式的多种客户要求的能力提供有价值的服务。 该实用工具的设计允许对数据的有效率的全球寻源,产生了显著的规模经 济。部件结构允许实用工具的不同功能的有效率的全球分布,这也使得随 着商业的发展替换部件和对变化做出响应的能力成为可能。实用工具的客 户从一个或一个以上的源通过实用工具间接接收它们的参考数据,该实用 工具给它们带来重新配置其应用以便从不同的源接收参考数据的灵活性。 收集和提供关于单个实用工具服务中的多种话题的参考数据的统一品质保 证增加了客户的单独客户应用发现并使用最佳可用参考数据值的可能性。 多源多租户共享储存库中基于源的资格的维护与强制执行允许单个共享基 础设施容纳多个租户组织,在跨租户组织以及在租户组织之间具有独立的 部门和应用,以便进行它们自己对来自所支持源的许可数据的安排。参考 数据实用工具通过审计日志支持来保证数据源,使得实用工具的每个客户 接收仅从它们被许可的源得到的值。这种可审计的保证基于为每个储存库 实体值提供完全的数据透明性的方法。可获得完全的寻源文件编写;对客 户的每个值传送被记入日志,其识别可用值和用户访问。处理参考数据时 的规则适应性是对于每个单独的金融服务企业的昂贵事务,使用参考数据 实用工具储存库通过统一的机制——其成本在所有客户组织间分摊——来 提供这一事务提供了成本优势。标准的参考数据源促进了行业内部的连贯 性与一致性。
通过共享储存库传送参考数据以及被跟踪的数据源与访问创建了这样 的市场:其中,更高级别的金融服务提供者可向许多客户提供它们的模型 并保证接收针对合同强制执行或记账的可靠的使用信息。客户使用对于储 存库中它们有资格的数据的更高级别的服务,并保证数据访问规则将被强 制执行并被监视以保证符合数据访问和传送规则。
参考数据实用工具提供实用工具解决方案中所预期的监视、报告和用 户服务。一个有价值的创新点在于,实用工具基于其用于将来自不同源的 同一属性值进行比较的过程提供不同可用数据源的准确度和品质的客观量 度。
上面的能力在客户行为的安全和隐私得到维护的环境中提供。没有一 个客户或数据卖家能够发现关于他人数据、查询或储存库对它们进行支持 所采取的其他行动的信息。
参考数据实用工具通过用于访问操作以及实用工具中的数据和操作的 集中式管理方案提供益处,其允许客户和数据卖家的适当访问以更新和自 我管理在实用工具中不可见或适当地反映到其他动作者的资源。
该方法在这里被介绍为应用于金融服务企业所用的参考数据。这种用 于提供多源多租户数据储存库——其提供对一组织用作参考的数据的共享 访问——的方法具有许多其他可能的应用领域。对用户信用信息、政府法 规和注册信息、以及电信使用信息的访问是该方法可能有用的三个附加示 例。该方法将会有用的背景的特性及参考数据的特性为:(1)信息来自多 个源;(2)在独立组织中可能有多个用户需要访问同一信息,但可能具有 不同的源资格权利;(3)被参考信息由用户主要在只读模式下访问,除了 他们参与到对无效值的校正时以外;(4)高品质且及时的信息是有价值的, 对收集来说也是复杂的,因此,来自实用工具方法的高效率、共享基本设 施与共享数据品质增强提供了显著的好处;(5)资格强制执行和隐私管理 由储存库提供。尽管这里在金融服务参考数据——其是一个重要应用领 域——的背景中介绍了本发明,但这里公开的方法使得提供满足上述要求 的数据访问的有效储存库成为可能,其将在具有这些要求的任何背景下有 价值。
图1A提供了参考数据实用工具的主要功能单元与部件结构及其相关 联的操作环境的概图。在图1A中,多边形1描绘了参考数据实用工具的 边界。代表实用工具1的客户6、7、8、9的圆圈出现在右边。代表不同类 型的数据和服务源的虚线框2、3、4、5出现在左边。参考数据实用工具1 可具有供给数据以及其他输入的多个源。出于说明目的,图1A使用七个 数据源S1、S2、S3、S4、S5、S7和S8。这些数据源被分为三种类型,如 下文所述。每个类型的源的数量不受限制。
在图1A的框2中分别被示为椭圆10、11、12的源S1、源S2和源S3 代表被许可的、预先具有资格的数据源。从这些源接收的数据是专有的。 每个源可独立地许可将其数据传送到参考数据实用工具1的客户。当参考 数据实用工具1增强、存储和传送从这些源得到的数据时,其保有对每个 所接收的数据项以及由其得到的任何值的源的认知。另外,参考数据实用 工具1强制执行资格,以确保每个客户仅从其具有资格的源接收数据。在 框3中用椭圆13和14表示的源S4和源S5属于由参考数据实用工具1连 续使用和监视的原始源数据的未许可和公共类别。由于这种数据是公共的、 未许可的,因此不预期对于这些值的分发的增加支付。这种信息典型地作 为储存库实体的特性而不是实体属性——其被明确地版本化和跟踪——并 入参考数据实用工具1的储存库20(下面讨论)。这种类别中的数据可由 参考数据实用工具1自由使用以验证或增加其他的值与数据流。该类别中 的源信息包括企业行为的新闻报告以及金融工具名称和性质的公布登记 表。尽管该类别中的数据不需要跟踪以强制执行资格,但实用工具1的操 作者也可出于多种原因——例如提供可审计寻源信息——选择对这种类型 的数据进行跟踪,使得可以随时间对公共源的品质进行分析以消除低品质 数据的公共源。
框4中用椭圆15、16表示的源S7与源S8属于提供这样的数据的请 求式数据源类别:该数据仅作为来自实用工具客户的请求的结果应请求取 回。因此,其与接收自规则许可数据卖家的推入数据流以及影响框3中的 集中使用数据的解释的被连续监视的公共数据区分开来。关于罕见交易工 具的定义与定价信息——例如地方当局或公共服务组织发布的债券——是 框4代表的类别中的信息的示例。当特定的参考数据实用工具客户(最常 见的是作为零售行操作的一部分)需要这种信息时,储存库采取的行动 将从适当的源请求该参考项的值并执行标准数据验证、存储和传送处理。
框5中用椭圆17和18表示的服务V1和服务V2是向实用工具1提供 输入的不同类别的非数据源。通过第三方提供者使得数据驱动计算服务对 实用工具1可用并用于为客户的数据增值。参考数据实用工具1提供了帮 助客户寻找相关增值服务的市场并管理数据驱动计算服务对于客户数据的 执行。实用工具的客户仅可使用有资格的服务,且服务当在代表客户采取 行动时仅可访问客户有资格的数据。作为这种处理的一部分,服务的每个 客户使用被实用工具1监视并记录。使用这种信息,参考数据实用工具1 可有效率地代表并结合服务提供者从客户为它们的数据驱动计算服务使用 索费和收费。在替代实施例中,实用工具对客户对计算服务的使用进行测 量,且记账和支付由服务提供者处理。实用工具可综合这两种实现方式, 为某些计算服务记账而不为其他计算服务记账。更高级别的增值服务是可 选的。实用工具1使得它们的存在成为可能。它们增加到实用工具1上的 功能为实用工具的客户提供了显著的增加值。
每个客户6、7、8、9可以为独立的企业或企业中的部门。每个客户从 实用工具1接收以被传送的请求式数据集形式的高品质数据值。每个请求 式数据集或者是对长期预订(代表了对特定参考项值的规则更新或准实时 更新的持续兴趣)的响应,或者是对一次性特别查询的响应。每个客户还 将控制数据值何时、如何、以何种形式传送。为了使实用工具能有广泛的 吸引力,对大范围和灵活的数据传送服务进行限定、使得每个用户能具有 以便利的格式传送给它们的数据值而不需要实用工具1内部的定制工程工 作,这一点是很重要的。具有嵌入实用工具1的系统结构中的定制支持的 灵活传送使得许多租户之间的数据成本的分摊成为可能,因此实现了作为 有利的系统和方法的多源多租户数据实用工具1。
框19、20、21代表了数据值通过系统、从原始数据源通过传送到实用 工具1的用户的流动中涉及的三个主要部件。框19代表负责将数据值收集 到储存库系统并保证数据的高品质的数据获取和品质保证部件。框20代表 负责储存库中所有被需要的持久信息的存储和访问管理的参考数据实用工 具储存库部件。框21代表负责捕获每一请求者的请求式数据集请求说明并 构建自动化传送过程以传送该信息的传送部件。
在框19中,数据获取和品质增强部件或框22、23、24分别表示对不 同的数据话题T1、T2、T3的独立输入与品质处理。每个话题可具有为其 提供数据的任意数量的源;单个话题可合并来自被许可的预先具有资格的 数据源、自由访问数据源以及有资格的请求式源的任意组合的数据。例如, 框24指示出自由源S5即椭圆14、请求式源S7即椭圆15与S8即椭圆16 都供应关于话题T3的数据。框23从预先具有资格的源S3即椭圆12和自 由源S4即椭圆13接收数据。框22从预先具有资格的源S1即椭圆10、源 S2即椭圆11、源S3即椭圆12接收关于话题T1的数据。箭头39显示在 数据获取和品质保证过程中接收或产生的数据被存储在储存库20中。为了 使参考数据实用工具向用于其多个客户的数据强制执行基于源的资格,在 框19的处理中必须维护对每个数据值有贡献的所有源的认知。框19的数 据获取与品质增强处理还既支持单源值——其基于对描述被引用实体的一 个被许可数据源的数据的分析——又支持多源值,多源值是通过将来自描 述单个被引用实体属性的多个源的值进行比较并从该集中选择出优选值或 推荐值而获得的。
下面介绍通过采用满足上述要求的发展跟踪源数据标签来使得参考数 据的可缩放净化与值增强成为可能的方法。
数据获取与增强处理在框19中被应用于其上的所生成的数据还可作 为数据驱动计算服务的输出或响应于某种客户请求从请求式数据源检索得 出的数据而到达。在图1B中介绍可被存储在储存库中的这种类型的数据。
框21为客户传送部件,框30、31、32和33表示对于每个客户的请求 式数据集处理。具体而言,框30为客户C1即圆圈6的传送处理,框31 为客户C2即圆圈7的传送处理,框32为客户C3即圆圈8的传送处理, 而框33为客户C4即圆圈9的传送处理。参考数据实用工具1可并行或串 行地具有任意数量的客户。出于说明目的,使用四个客户C1、C2、C3、 C4。对于每个客户,响应于来自该客户的请求的独立处理选择感兴趣的实 体值并通过合适的传送协议与变换对它们进行传送。箭头41表示作为被送 给参考数据实用工具1的储存库20的请求式数据集处理的一部分而生成的 检索请求以及结果得到的信息返回,通过所述返回信息被存储在参考数据 实用工具1的储存库20中,以便传送到客户。因此,箭头41显示,储存 库20提供客户数据传送部件(框21)所需要的被请求参考数据值。
其他类型的功能被包括在实用工具的背景中。框34表示实用工具管理 与报告生成服务。报告生成服务为客户和数据源创建一次性或周期性报告。 这些报告提供关于利用、传送摘要、准确度和服务层报告的类似方面的信 息。框35表示一般的客户服务功能,其通过操作请求、问题诊断、用户问 题、对于特定参考值的关注或建议校正等等对客户进行协助。
框36表示由实用工具1提供的附加的增值服务。这包括应用在实用工 具1对客户数据的请求上的数据驱动计算服务、数据集市(mart)托管和 数据变换服务、以及商业文档存储服务。
椭圆37表示人工话题专家池,其为实用工具1中的手动处理提供关键 决策。还可能需要这些人的专门知识参与到客户服务功能中。
箭头39示出了从数据获取与品质增强部件(框19)流入储存库20的 数据。
箭头40显示,增值服务的实例在它们运行的同时使用对于被调用客户 有资格的参考数据。箭头38显示,储存库20将探究(canvas)请求式数 据源以收集附加信息。箭头42示出了调用参考数据实用工具1的增值服务 (框36)、报告与实用工具管理(框34)以及一般服务(框35)的客户 的示例。
图1B示出了参考数据实用工具储存库中存储的信息的示例。该信息 包括框50中的资格管理实例数据。资格管理实体数据包括从单个源即框 26得到的实体数据以及从提供替代值的多个源的比较——由这种比较已 经选择出优选值或推荐值——得出的实体值,即框27。下面介绍用基于参 考数据的源跟踪的资格管理提供和维护多源多租户数据储存库的方法。
图1B中的其他数据元示出了在参考数据实用工具1的储存库20中维 护的信息,其并非作为资格管理实体数据被组织。适当地使用存储在被示 为数据元53的资格储存库中的访问控制,对所有这种数据维护并强制执行 资格。如上所述,实体数据的资格管理是基于源的,并需要维护关于对每 个特定值的得出做出贡献的所有数据源的信息。对于储存库中的其他数据, 资格管理包含简单访问控制,其使用现有技术中已知的技术来为每个对象 记录哪些客户访问了它以及哪些操作对它们可用。所示的优选实施例包括 集成到参考数据实用工具1的储存库20中的资格储存库;替代实施例在独 立的资格储存库中维护同样的信息。
下面列出存储在参考数据储存库中的非实体数据结构,该储存库具有 通过资格储存库提供的访问控制。数据元25代表从数据源接收的数据的日 志。针对认可(non-repudiation)以及信息源跟踪维护这些日志。数据元 29表示被传送到实用工具1的客户的数据的日志,其严格记录何时向每个 客户传送了什么值。出于审计、透明性、符合规则以及记账的目的,对客 户传送日志进行维护。数据元28表示用于合并来自独立源的输入以及确定 来自多个源的信息何时描述单个被引用实体的规格化表和元数据。与图1A 中的处理中使用的净化、规格化以及验证相关联的规则,框19,也可存储 在参考数据实用工具1的储存库20中。数据元51代表源简档。每个源简 档包含关于数据或其他输入源使用的交互协议、源格式化和编码的信息。 数据元52代表客户简档。每个客户简档包含参考数据实用工具客户的租户 信息、联系信息、记账与报告要求、操作授权、寻源、格式与传送策略偏 好。租户简档为特定形式的客户简档,其对租户的每个客户拥有的总体资 格进行特征化。源与客户简档用在参考数据实用工具1的配置操作中,以 便保证对源以及客户特性更改以及对新源及客户的引入的灵活、独立的适 应。
数据元54、55、56、57、58、59、60、61和62为可选的元,其用于 支持与客户参考数据相关联的报告与增值服务。数据元54、55、56、61 为分别对于数据源、客户功能提供者以及调节者在参考数据实用工具1的 储存库20中累积和保存的报告。数据元57为增值数据驱动计算服务的登 记表。数据元60代表以可执行形式的数据驱动计算功能。数据元58代表 作为请求式数据集或作为数据驱动计算服务的输出而产生的客户数据集。 数据元59代表商业文档储存库。数据元62管理对于参考数据实用工具的 操作生成的报告。
图2以流程图的形式提供了由实用工具进行的请求处理的最高级视 图。在此流程图以及下面的流程图中,实线表示控制流,虚线表示数据移 动。作为此图的边界的框100与本发明的总体方法以及图1A与图1B中介 绍的参考数据实用工具1的控制流对应。虚线箭头200表示由这种控制流 处理的所有对参考数据实用工具处理的不同请求。
控制从左边流入框100,并进入单元201,单元201表示对于实用工具 1的处理的请求的到达。对于处理的请求可由数据源、实用工具的客户、 数据驱动计算服务提供者或实用工具自身的员工发起。单元201还包括唯 一识别做出处理请求的人或代理的认证处理、确定请求者被授权做出请求 的授权检查以及将请求记入日志以保证对实用工具所作所有处理的可审计 记录。
决定单元202通过请求类型对请求处理进行区分,从而对于到达实用 工具的每一类型的请求显示不同的处理路径。通过结果单元203的路径处 理到达实用工具的新的源数据集。到达的源数据集在单元208中被处理, 对该处理的介绍用图3A详细说明。处理203与208的结合是在图1A的方 块19中执行的功能。通过结果单元204的路径处理来自客户的对于从实用 工具传送参考数据的请求。客户传送请求的处理在单元209中被处理,对 该处理的介绍用图3B详细说明。方块204与209的结合与图1A中方块 21的处理对应。通过结果单元205的路径处理简档更新与资格更新。这些 请求识别数据或增值功能的新客户、新源、新资格,或者对这些类型的先 前注册信息的改变。这些请求的处理在单元210中处理,这种处理的介绍 用图3C详细说明。方块205与210的处理是图1A中方块20内对数据进 行处理的一部分。通过结果单元206的路径对与使用实用工具中的信息以 便向客户提供可选的附加能力的增值服务相关联的处理的请求进行处理。 这些请求的处理在框211中处理,并在图3D中详细说明。方块206与211 的处理与图1A中方块36的处理对应。通过结果单元207的路径处理对于 包括由实用工具生成报告的一般服务的请求,这些请求的处理在框212中 处理并在图3E中详细说明。方块207和212的处理在图1A中用于一般服 务的方块35与图1A中用于报告与实用工具管理请求的方块34之间分割。 替代实施例将包含同样的功能但可将它们组织到不同的方块中。
在实用工具对于不同类型的处理请求中的每一个进行的单独请求处理 后,控制流集合在决定单元213上。该决定单元确定处理是以下一个请求 继续还是终止。在连续处理的情况下,控制流回到单元201,提供循环结 构。从单元201到单元213的循环的每次迭代处理一个请求。在终止请求 处理的情况下,控制流出框100,结束方法的流程。
为说明上的便利,图2的控制图示出了由参考数据实用工具顺序地对 请求进行处理。通过使用事务处理、数据库与工作流或是本领域中其他公 知技术,实用工具的替代实施例并行处理来自多个客户、源、功能提供者 以及实用工具员工的请求。
从框100的处理退出可能发生以关闭实用工具。返回到单元201中的 附加请求处理向参考数据实用工具1的客户提供了对其参考数据以及相关 联的实用工具服务的连续可用访问。
图3A提供了示出了在对从源到达的数据集进行处理时的步骤的高级 流程图。其是对图2中首先介绍的处理单元208的详细说明。到达的数据 被净化并被用于生成新值,以便插入多源多租户数据储存库20(这里称为 “储存库”)中。新值可触发数据向客户的附加传送。净化数据以及生成 存储在储存库20中的值时的事件可被记入文档并用于更新关于数据寻源 过程的实用工具报告。
单元208作为图3A中的流程的边界,其显示出该流程是对新的源数 据集的处理的详细说明。控制从上方进入单元208并流向单元301,在单 元301中,到达的源数据集与其源相关联。储存库20将为其正在使用的每 个数据源维护说明性以及处理控制信息。关于每个数据源的信息被保存在 单元51中的一组源简档中的一个源简档中。源简档中的信息包括认证令 牌,实用工具可使用认证令牌来验证数据集来自期望的源、准确的源数据 格式的定义、该数据源与联系安排对于处理源的误差校正过程所使用的其 他传统与协议、以及对于来自该源的附加数据的请求。
数据元51是实用工具1对于源使用的一组源简档。从单元51到单元 301的虚线箭头表示单元301对于提供新数据集的源选择合适的源简档并 使用来自该源简档的信息改善对数据集的后面的处理的行动。在有利的实 施例中,源简档被存储在参考数据实用工具1上的储存库20中,如图1B 所示。
流程中的下一个步骤,单元302,提供了新源数据集中信息的净化和 品质保证,并在品质保证与数据增强处理中对于储存库实体及其特性以及 文档事件生成增强的值。该步骤需要用于通过增强事件跟踪对参考数据的 可缩放净化和值增强的方法,例如如下面所介绍的。
净化与数据保证处理的动作之一是出于认可、源跟踪与审计目的生成 从数据源接收的数据的日志。该动作用将单元302连接到被接收数据日志 即数据元25的虚线箭头表示。在有利的实施例中,被接收数据日志被存储 在参考数据实用工具1的储存库20,如图1B所介绍。
控制流中的下一个步骤,单元303,将从单元302得到的值存储为如 数据元50示出的资格管理实体数据。用每个被存储信息元的起源信息对这 种实体数据进行注释,使得当实用工具向客户传送信息时,基于源的资格 可被强制执行。在有利的实施例中,如图1B所示,资格管理实体数据被 存储在参考数据实用工具1的储存库20中。维护多源多租户数据储存库的 一种方法以及向其中插入新值的处理步骤在下面详细介绍。
将单元303与数据元50即资格管理实体数据连接的虚线箭头显示,所 得到的值被添加到该数据元中。从数据元50到(处理)单元308的第二虚 线箭头示出了对资格管理实体数据的更新与插入,其触发将新值添加到请 求式数据集中用以进行向客户的后续传送的传送处理。这种触发在图3B 中讨论的传送处理流程中介绍。
在步骤302的处理期间,事件出现在实体值的发展历史中。示例包括: 对来自源的不正确值的校正、对来自源的校正的后续确认、以及基于对来 自多个源的对应值的比较对推荐值的选择。这些净化事件被捕获并承载关 于从每个源到达的数据的品质的重要信息。接下来的步骤,单元304是对 所捕获的源数据品质信息进行分析并将之包括在由实用工具为每个源生成 的关于其所提供的数据集的品质的报告中的处理。来自单元304的虚线箭 头显示该信息被传递到表示源报告的数据元54。实用工具1上进行的处理 维护关于源数据品质的报告。可向每个源给予对关于其所提供的数据集的
实用工具报告的访问。
图3B提供了示出了处理客户传送请求的步骤的高级流程图。
在下面详细说明框209,以便显示在完整的实用工具背景下,响应于 来自实用工具客户的请求式传送请求提供增值数据传送。
请求式数据集请求(下面称作“请求”)在框311中进入实用工具。 第一个步骤是将请求式数据集请求与实用工具客户相关联并对之进行验 证。这以本领域技术人员已知的标准方式进行,使用多种已知方法中的一 种针对存储在实用工具的储存库中并被表示为数据元52的实用工具简档 信息来验证包含在传送请求中的凭证。包含在请求者的客户简档中的信息 被检索,如表示从数据元52到框311的数据流的箭头所示。
一旦请求已被验证并找到匹配的客户简档,由决定框312代表的步骤 确定是否在对请求进行响应的过程之前收集附加的值,如下面所介绍。在 该步骤中独立地对请求进行解析,在替代实施例中,其可以与所做的解析 合并为对请求进行响应的一部分。附加值收集包括:从请求式源请求附加 输入数据以及针对现有储存库数据动态执行数据驱动计算服务。在有利的 实施例中,结果得到的新数据经过图1A中介绍的框19所介绍的数据获取 与品质增强过程,接着被存储在参考数据实用工具1的储存库20中。照此, 附加值收集构成了实用工具提供的单独服务,其具有自身的相关联的资格。 因此,步骤312检查来自资格储存库即单元53的信息,以保证请求者对附 加值收集服务有资格。可进行针对储存库20中的当前可用实体数据的查 询,以便访问其相对于请求的状态。可以考虑其他的约束,例如客户所请 求的传送时间是否容许附加值收集。如果需要附加值收集,则在框313 中发起合适的值收集过程。这可包括从请求式数据源4请求数据。结果得 到的新实体值被添加到资格管理实体数据,由从框313到数据元50的虚线 箭头显示。一旦完成附加值收集,或如果不必要进行附加值收集,则对请 求进行响应的过程如下面所述地发起(框314)。过程包括:从多源多租 户数据储存库20即参考数据实用工具的储存库检索有资格的数据值,框 50。当传送过程结束于请求式数据集的形成以及向请求者的传送之后,生 成对客户传送日志的更新,即单元29。框314显示,更新被产生并被添加 到数据元29中的客户传送日志。在该流程中接下来的框315创建并存储关 于数据源使用以及所接收数据摘要的客户报告。将框315与数据元55连接 的虚线箭头表示这种报告活动。在有利的实施例中,客户传送日志与客户 报告被保留在参考数据实用工具储存库中,如图1B所示。
图3C提供了显示对到达的元数据进行处理的步骤,所述元数据对实 用工具的数据源、租户、客户以及特定客户的资格进行特征化,该资格包 括对来自特定源的数据的资格以及对增值服务的资格。实用工具1维护关 于源、客户以及资格的当前元数据,以便对其配置进行适应,并控制其对 所有其他请求的处理。图3C是在图2中首先介绍的框210的详细说明, 其还被示为作为图3C中的控制流的边界的框210。
控制从上方进入框210,并流进决定单元321,该单元确定元数据请求 的类型。每个元数据请求或者是结果单元322表示的关于源的新信息,或 者是结果单元324表示的关于客户的新信息,或者是结果单元328表示的 关于资格的新信息。
对源进行特征化的新的元数据信息在单元323中通过创建或更新源简 档被处理。实用工具维护针对每个提供源数据集的源的源简档,即数据元 51。这些可以是提供原始数据或过程的基本源(例如项目实例过程),其 从其他的数据创建附加或增强的数据值。如果到达的元数据描述了新的源 数据,则在步骤323中创建源简档。如果到达的元数据是对实用工具先前 已知的源的更新,则在步骤323中对该源的简档进行更新。元数据请求也 可触发在该步骤中删除不再使用的源的简档。源简档包含净化、品质增强 并将数据从该源变换到储存库实体区域所需要的控制信息。这包括验证作 为到达数据的起源的源的验证令牌、来自该源的接收数据集的格式、编码 和协议、校正交互的联系安排、报告安排、授予代表该源的代理的数据访 问与更新授权。对用于得出增强值的项目实例过程进行特征化的元数据类 似于原始源数据并在同一步骤中被处理。
对实用工具的客户或租户进行特征化的新的元数据信息在单元325中 通过创建或更新该客户或租户的简档被处理。实用工具为其客户中的每一 个维护客户简档,即数据单元52。如果到达的元数据描述新的客户,则在 步骤325中创建客户简档。如果到达的元数据是对实用工具先前已知的客 户的更新,则在步骤325中更新该客户的简档。元数据请求还可触发在该 步骤中删除不再有效的客户的简档。客户简档包含处理和控制来自该客户 的对数据传送、增值服务、用户服务及报告的请求进行的处理所必需的信 息。这包括确定请求何时通过该客户或其代理发起的验证令牌、识别和规 定该客户的每个代理的操作访问权利的授权信息、适用于实用工具所提供 的响应的服务层协议、该客户的定价与容量安排、将由实用工具提供的报 告服务、用于与该客户交互的联系信息以及优选数据输出。
在更新源或客户简档之后,控制流到决定单元326,其测试新的源或 新的客户是否已被引入。如果已被引入,处理流到步骤327,在步骤327 中,用对新数据源或客户的引用更新资格储存库53。这种更新将允许新源 授予的或授予新客户的基于源的资格被添加到资格储存库53中。相反地, 如果决定单元326中的测试显示,元数据更新是针对现有源的简档或客户 简档的,则在此时不需要对资格储存库53的改变。
如果决定单元321中的测试结果是新的元数据是资格改变,则控制流 经结果单元328,流入处理方块329,在方块329中,对资格储存库53进 行更新以反映这种资格元数据。
资格的改变是对原始实体数据的基于源的资格的改变、对数据增强过 程的资格改变、或是对增值服务或其他实用工具对象的简单资格的改变。 基于源的资格的改变采用新的修改或删除的授予的形式,其向一个或一个 以上的客户授予对来自一个或一个以上的源或项目实例过程的数据的访 问。这种情况下所需要的处理是进行对资格储存库中资格授予列表的适当 改变。下面更详细介绍了示出了对资格储存库的更新的应用的典型流程, 其对应于单元327与329。先前介绍的步骤327的处理保证对于授予源和 被授予客户的有效引用已在资格储存库53中处于适当的位置。作为替代且 在逻辑上等效的实施例提供了一个步骤的过程,其将开始的被授予客户列 表并入对于新源的元数据更新,或将被授予的源的列表并入对于新客户的 元数据更新。
步骤329还提供了对于控制客户对参考数据实用工具的增值服务或其 他资源的访问的简单资格更新的资格储存库53。对于这种子情况,该过程 是使用现有技术中公知的访问控制技术在资格储存库53中的简单访问控 制列表更新。作为替代且等效的实施例将用于简单访问的该步骤并入新客 户元数据的处理以便减少独立处理步骤的数量。
在有利的实施例中,数据元51(源简档)、52(客户简档)以及资格 储存库53被存储在参考数据实用工具1的储存库20中,如图1B所示。 尽管资格被描述为主要作为客户或租户组织对特定源的资格授予,但在替 代实施例中,资格还可与增值服务相关联,该增值服务指示出有资格使用 服务的任何人也取得对与该服务相关联的某些数据或源的资格。具有这种 特性的增值服务的提供者有望获得再分配权利,以便在此基础上从数据的 任何源传送对被提供给客户的数据的资格。
在对资格储存库53、客户与源简档进行适当的更新之后,控制流出框 210。元数据更新的处理完成。
图3D示出了用于处理对于增值服务的请求的高级处理流程,其是图2 中的框211的扩展。在参考数据实用工具的背景下,增值服务被间接关联 到参考数据;例如,其将参考数据用作不同数据驱动计算服务的输入或提 供对于与参考数据有关的商业文档的存储服务。增值服务与参考数据之间 的关系存在,使得在单个逻辑系统(例如实用工具)中把它们放在一起是 有利的。图3D示出了两种类型的增值服务:基于参考数据的数据驱动计 算服务和商业文档存储服务。
决定单元331确定所接收到的增值请求是否与数据驱动计算服务即框 332相关联,或者是用于商业文档存储服务即框333的。如果该请求是用 于数据驱动计算服务的,则控制流到结果框332。在这种情况下,处理流 到决定单元334,该单元是区分与数据驱动计算服务相关联的两类请求的 测试。请求可包含来自提供者的更新后的或新的数据驱动计算服务的说明 和可执行文件,该服务对参考数据实用工具1的某些用户组可用。对其的 处理——用框335表示——用描述这种新近可用的数据驱动计算服务的信 息更新可用增值服务的登记表,如从框335到数据元57的虚线所示。功能 的可执行文件也可存储在图1B所介绍的参考数据实用工具1的储存库20 中的数据驱动计算功能即数据元60的库中,如从框335到数据元的虚线所 示。
在有利的实施例中,数据驱动计算服务的输入与输出数据集被指定, 使得它们可以如下所介绍地产生和消耗请求式数据集。这意味着数据驱动 计算服务的提供者可以将之设计和开发为接受单一格式和传送模式的输入 数据;类似地,其将产生单一格式与传送模式的输出数据。参考数据实用 工具客户接着可使用请求式数据集处理来将其与它们有资格的任何数据连 接,并将计算结果馈给到它们自己的应用,而不需要开发定制的数据格式 化和传送逻辑。
与数据驱动计算服务相关联的其他类型的请求是来自参考数据实用工 具1的客户的、通过调用具有规定输入数据的特定数据驱动计算功能并将 产生的结果作为请求式数据集返回而提供服务实例的请求。这种处理用框 336表示,其显示数据驱动计算的输入与输出可以为请求式数据集,该数 据集或者用以单元50表示的资格管理实体数据填充,或者用以单元58表 示的参考数据实用工具1的储存库20中的客户数据集填充。图4A提供了 关于流程图中的方块336的处理的附加细节,其示出了数据驱动计算服务 的计算增值服务流程的步骤。优选实施例将请求式数据集作为增值功能的 输入接受,等效的替代实施例允许增值功能请求作为其计算的一部分的请 求式数据集的创建。
决定单元337在与商业文档存储服务相关联的三种不同类型的请求的 处理之间进行区分。框338、339和340表示不同类型的商业文档存储服务 请求。框338是将商业文档插入商业文档储存库(数据元59)或更新或检 索先前存储的商业文档的简单请求。这种处理在图4B中进一步介绍。
框340表示定位适于通过特定商业事务使用或管理特定商业事务的商 业文档或验证针对特定商业事务的被识别文档的适用性的请求。这种类型 的商业导向文档查询的示例为:“对等当事人X与Y之间处理金融工具A 与B的主交换协议存在吗?”对这些请求进行处理的这种处理在图4C中 进一步介绍。
框339代表更复杂类型的商业文档存储服务请求,其涉及对客户参考 数据的编排以在特定商业操作中支持一个或一个以上被存储的商业文档的 使用。这种功能在图4D中更为详细地介绍。
图3E更为详细地介绍了实现图2的框212中先前所介绍的一般服务 或报告请求所需要的处理。控制进行到决定单元350。对该请求进行检查, 以便确定一般服务请求的类型,并将该请求作为用户服务请求即框352、 实用工具报告请求即框359或实用工具管理功能即框353进行路由。用户 服务请求在框354中被处理,其后,控制进行到框212外。在框358中, 实用工具报告请求收集数据,其后,被请求的报告在框360中生成,其后, 控制进行到框212外。在框357中执行实用工具管理功能,其后,控制进 行到框212外。将框360连接到数据元54、55、56、62的虚线箭头分别表 示源、客户、功能提供者以及管理报告的生成。在有利的实施例中,这些 报告被保留在引用数据实用工具1的储存库20中,以便由拥有关系人进行 后面的访问。
图4A提供了示例流程图,其示出了提供数据驱动计算服务的功能服 务实例的步骤。该流程是对于图3D所介绍的框336的详细说明,并示出 了设置和执行数据驱动计算服务的功能服务实例所涉及的详细流程。如关 于图3D所介绍,对于数据驱动计算服务的请求使用与请求式数据集请求 相同的一般结构。框636显示了与计算服务请求有关的请求说明的主要方 面。这些方面为:1)将被调用的计算服务(功能)的标识;2)将被使用 的输入数据的说明;3)将返回结果的传送模式、格式等等的说明;以及4) 请求者的身份。请求者的身份以几种方式使用,其中之一是检查请求者对 所请求的计算服务有资格并满足服务所施加的任何特殊要求。决定单元 638使用资格储存库(数据元53)和增值功能登记表(数据元57)测试这 种资格。如果请求者对被请求的计算服务没有资格,则处理停止,控制从 框336的底部退出。
在成功完成检查后,该过程公式化请求式数据集请求以便为被请求的 功能实例收集输入数据。这是通过计算服务请求使用与下面介绍的请求式 数据集请求相同的结构而使能的。结果,诸如选择偏好与寻源偏好的数据 集说明方面可被包括在计算服务请求中。计算服务可代表请求者动态地公 式化一次性请求式数据集请求,并将该请求提交到实用工具1的数据传送 部件。作为此请求的一部分,计算服务可规定将被返回的数据的结构和其 自己的优选格式,从而移除理解预先定义的数据模型的限制。
将原始的功能调用请求映射到对数据传送子系统的新的子请求所需要 的分析在框639中示出。原始请求的选择判定与寻源偏好照原来的样子被 复制到所生成的请求,而格式与传送模式由计算服务直接规定以便适合接 收和使用输入数据的偏好。原始请求者的身份也被传送。在框645中,所 生成的请求被组成并提交到实用工具的数据传送子系统,并且响应被作为 请求式数据集接收。从框50到框645的箭头表示来自资格强制执行储存库 的请求式数据集的移动。由于数据是从用数据元50表示的资格强制执行储 存库中提取的,所以自动保证了基于原始请求者身份对数据的资格的强制 执行。这提供了附加的好处,因为其移除了进行它们自身的输入数据的资 格管理对计算服务的需求。输入数据还可作为来自客户数据集的请求式数 据集到达,如来自数据元58的箭头所示。
用决定单元643表示的处理中的下一个步骤进行测试,以确定满足功 能要求以及请求客户资格的输入数据是否可用。如果从上一个步骤返回的 数据不够,则进行适当的日志记录并绕过其余的处理,控制立即从框336 流出。如果足够的数据可用,则在框640中执行功能服务实例。
框641显示出以请求式数据集的形式向原始请求者(客户)返回结果 或代表请求者将它们保存在参考数据实用工具1的储存库20中作为客户数 据集(数据元58)的步骤。在有利的实施例中,这使用实用工具的能力来 支持如下面的部分D所述的请求式数据集传送。由于请求式数据集请求说 明允许作为可能的输出格式的数据集市和客户数据集,因此可以在储存库 20中存储计算服务的结果。在此情况下,结果被视为客户特有的数据流, 并可如下面的部分C中所介绍的那样得到品质保证。数据驱动计算功能的 执行如来自数据元60即数据驱动计算功能集的箭头所示地使用存储在参 考数据实用工具1的储存库20中的可执行表示。
在有利的实施例中,数据驱动计算功能的输出可以可选地存储在资格 管理数据集单元50中。
作为过程中的最后一个步骤,在框642中生成与计算服务的使用相关 联的报告所需要的任何数据。报告类型包括被传送到客户(功能请求者) 与功能提供者的那些报告,分别用数据元55和56表示。存在其他的报告 类型。
图4B提供了示例流程图,其详细说明了对如图3D中的框338所介绍 的存储或访问商业文档的请求进行处理的步骤。控制从上方流入该方块, 进入决定单元420,该单元确定商业文档访问请求是向存储结果单元插入 新的商业文档(421)还是检索或更新先前存储的商业文档,即结果单元 422。
对于插入类型,在框423中接收将被插入的文档以及与该文档相关联 的资格信息。与来自数据提供者的参考数据不同,直接从实用工具的客户 接收商业文档。一个客户提交的文档可应用于一个以上的关系人,因此用 于多个关系人的资格可以是想要的。在框423中所示的步骤期间,基于请 求者以及请求本身中包含的信息做出资格确定。
在框424中接收伴随着文档的编目信息。该信息识别、描述并对商业 文档储存库(数据元59)中的文档进行分类。该信息用于查询以及用于图 4C所介绍的商业文档验证处理。
可选地可与文档一起接收附加的一组数据编排规则。数据编排规则适 用于实用工具中的参考数据与正被存储的文档之间存在隐含关系的情形。 例如,管理容许共同基金投资的文档可被链接到与某个风险简档匹配的金 融工具。因此,可提供用于检查金融工具的风险简档是否处于商业文档所 介绍的可接受范围内的规则。可选地在框425中与文档一起接收这种数据 相关规则。图4D提供了更为复杂的与文档有关的过程中如何涉及数据相 关规则的更多细节。
在步骤426中,文档和所伴随的编目、验证以及数据编排规则信息(如 果有的话)被存储入数据元59中的商业文档储存库,控制对新文档的访问 的资格信息被存入资格储存库,即数据元53。有利的实施例使用用于具有 资格管理的储存库的方法,如下面在部分B中所介绍的。文档的资格可在 插入时规定。文档插入过程可增加手动验证过程,以便保证插入时规定的 资格符合实用工具的安全标准。替代实施例使用了标准文档管理储存库解 决方案。
更新或查询文档的功能在以结果单元422开始的流程中示出。框427 表示用于选择商业文档以进行访问的判定或文档标识的接收。有利的实施 例使用了请求式数据集请求中的选择偏好,如下面在部分D中所介绍的。
框428是在文档储存库中定位被请求的文档并保证请求者对该文档有 资格的步骤。在有利实施例中,资格管理用下面在部分B中介绍的技术处 理。
如果操作是更新操作,则在框429中应用更新。更新适用于文档编目 信息、数据相关规则以及相关联的商业文档。被更新的文档存储在商业文 档储存库59中。在该处理步骤中,还可以存在对该商业文档的资格的更新, 其给予或移除第三关系人的访问以及导致资格储存库即数据元53中的更 新。
如果操作为查询操作,则框430为这样的功能:针对查询功能向请求 者返回被请求的文档和/或相关联的信息。对于更新操作,可向请求者返回 更新确认消息。以这样的方式准备并格式化响应:其与如下面在部分D中 所介绍的对请求式数据集请求的应答一致。
图4C提供了示例流程图,其示出了处理商业文档验证请求时的步骤。 该附图是对首先在图3D中介绍的处理方块340的详细说明,另外,处理 块340在图4C中示为围绕控制流的框。商业文档验证定位先前保存在实 用工具的商业文档存储中的商业文档,该文档可被用作特定商业事务的参 考文档。在金融服务的背景下,一个示例是将根据特定程序进行的同意一 对企业之间特定类别的事务的一对企业。它们通过在图4A中的插入或更 新流程之后存储在实用工具的文档存储中的商业文档为该过程提供文档。 它们还为验证条件提供文档,作为附加于图4B的步骤424所存储的商业 文档的一组验证规则,验证条件规定该过程何时为有效且合适的过程。在 管理交易的主协议的实践中,这些验证规则可能对于这样的问题是敏感的: 交易项目的数量和值、正执行的交易所代表的关系人、以及办理交易的背 景和市场。这些验证规则典型地涉及参考数据实用工具向诸如企业等级、 金融工具定义与特性、以及对等当事人等等的事务当事人提供值的参考实 体。在参考数据实用工具中存储和验证商业文档是高效率的,这是因为所 包含的、对在验证过程中需要值的其他金融实体的引用,并因为文档在执 行交易的客户之间共享。最后,文档验证必须具有资格。验证代表请求者 进行。为使请求成功,请求者必须对验证请求、以及验证需要的所有数据 与文档有资格。
验证请求的处理从图4C中的框340的上方进入并流到单元431,在单 元431中,从请求当事人双方或其中一方接收对商业操作进行特征化的参 数。这些参数规定需要相关联的被存储的商业文档的商业事务的特征。在 上面介绍的金融交易示例的情况下,它们包括这样的信息:该信息识别被 交易的项目、数量、执行的关系人、交易背景、代表其执行如上所述的操 作的关系人。通过使用这种信息,步骤432检索一组的一个或一个以上存 储的商业文档,其是将被用作规定商业操作的管理文档的潜在备选匹配。 资格储存库即数据元53提供资格信息,且文档自身来自商业文档储存库即 数据元59。
决定单元438开始循环,该循环重复进行到列表中的下一个备选文档 并对之进行处理,以确定其是否为满足这种客户请求的所有验证规则的有 效匹配。步骤432的处理可能没有产生请求客户有资格验证的任何备选文 档。在这种情况下,控制经由“否”分支流出决定单元438并流到框437。 框437到框29的虚线指示将结果记入日志。向客户报告“无匹配文档”。 如果初始列表中的所有备选对象均被评估且没有找到有效的匹配,则在循 环的多次迭代后也可发生用“否”出口从决定单元438离开的同样流程。
循环中在“是”分支之后退出决定单元438的步骤433进行到下一个 备选文档。步骤434——其也在循环中——使用请求中提供的背景以及来 自数据元50中的资格管理参考数据的参考数据对备选文档评估规定的验 证规则。接着,决定单元435测试该备选文档的验证是否成功。如果成功, 控制流出循环,流到方块436,方块436将被识别的当前文档作为成功匹 配返回到请求者。从框436到框29的虚线指示将结果记入日志。如果当前 的备选文档不满足验证规则,则控制流回循环的开头,在那里,决定单元 438测试是否有更多的备选文档可用于验证。如果没有,则没找到任何匹 配且其为被报告的处理结果。
替代实施例总是对所有的备选文档评估验证规则,并向请求者返回成 功验证的匹配文档的列表而不是如上所述地返回第一个成功的匹配。
尽管参考数据实用工具存储、定位和返回用于管理特定商业操作的执 行的有效商业文档,但是被指定的商业操作的实际执行保持客户及其交易 执行系统的响应性。
图4D提供了一流程图,其示出了对编排供到关联于特定的商业事务 的特定商业过程实例的参考数据的请求进行处理的步骤。该图是对图3D 中首次介绍的处理框339的详细说明,处理框339还在图4D中被示为围 绕控制流的框。
参考数据编排提供支持被指定的商业事务与执行所述事务的处理的当 前有效参考信息。商业事务典型地在做出请求的客户的交易执行系统上执 行,但将参考数据实用工具1提供的参考值用作参考数据编排。在金融服 务的背景下,例如,普通股票的交易可能需要这样的信息:该股票最近的 红利支付,红利支付给到买方还是卖方,对转让进行登记的对等关系人(例 如股票发行者)的联系地址。还可能需要凭证储存库的联系地址以及其他 感兴趣的关系人来完成转让,并可能需要知道股票被交易的地点和交易所, 以便理解与该转让相关联的费用和税务问题。这些信息中的大部分作为储 存库20实体的当前值和特性对参考数据实用工具1的客户可用。参考数据 实用工具1使得与处理交易有关的有资格的信息对于作为其参考数据编排 处理的一部分的关系人双方或一方可用。
如图4B中的步骤425所示,商业过程数据编排说明可附加于存储在 商业文档储存库中的每个商业文档。参考数据编排规则指定从资格管理参 考数据实用工具1中选择哪些值来支持特定的商业过程,对于该商业过程, 该商业文档被用作指南。用被支持的商业事务的特性对编排值选择进行参 数化。由于商业过程典型地涉及多个步骤,其中不同参考数据由不同步骤 所需,所以对于给定商业过程的参考数据编排说明采取与商业过程中的步 骤相关联的一组参考数据选择的形式。
例如,对于作为管理一般股票交易的主协议的商业文档,每个特定商 业事务的参数包括股票代码、交易额、交易日期与时间、交易价格等等。 合适的参考数据编排步骤返回股票的当前有资格的定义、其最近的红利历 史与公告、对交易进行登记的对等关系人等等。这种信息被供给执行交易 的实用工具客户的交易执行系统,从而提高了它们的操作的可靠性、一致 性和准确性。
在图4D中,控制从上方进入并流到框440,在框440中,在请求中从 实用工具的客户接收商业过程实例参数、商业文档标识以及商业过程标识。 商业过程实例参数是对这种特定商业操作进行特征化的唯一特性。如上所 述,示例包括交易项目、交易日期、交易额等。客户还选择特定的商业文 档来管理交易执行过程。这是通过执行图4C所详细说明的商业过程文档 验证请求或通过由一个或多个客户进行的商业文档的明确选择而进行的。 由于可能存在与存储中的单个商业文档有关联的多个商业过程,请求参考 数据编排的特定商业过程也在步骤440中识别。
下面的步骤即框441从商业文档储存库中检索被识别的商业文档,并 定位由客户识别的被识别商业过程数据编排请求。在首先检查做出请求的 客户有资格使用资格储存库即数据元53以及该请求中的信息对商业文档 进行访问之后,从商业文档储存库即数据元59中检索商业文档。接着,决 定单元446进行测试,以便确定具有匹配的编排且做出请求的客户对之有 资格的文档是否已在步骤441中被返回。如果没有,则没有可能的数据编 排,控制流出框339,将此报告为请求的结果。如果已经找到具有匹配的 编排的商业文档,控制经由“是”出口流出该测试。
在对于特定商业过程的数据编排中可存在多个步骤,每个步骤用不同 的输入数据进行参数化,且每个步骤返回不同的一组参考值用以在过程的 下一步骤中使用。单元442开始一个循环。循环的每次迭代针对被识别的 商业过程实例的一个步骤提供参考数据编排。单元442的动作进行到事务 的下一个过程步骤。在单元443中,步骤特有的参数可从做出请求的客户 接收。单元444使用在过程编排注释中提供给被存储的商业文档的步骤说 明并遵循它,从与步骤输入以及步骤说明一致的资格管理储存库实体数据 中检索合适的有资格的储存库实体值。这些值被返回到做出请求的一个或 多个客户,用以在它们的交易执行系统中使用。如从框444到数据元29 的虚线所示,对于客户传送日志进行对传送的合适的日志记录与报告。
决定单元445包含确定商业过程实例的数据编排是否完成或是否存在 要处理的附加步骤。如果商业过程的数据编排完成,则控制流出框339。 如果存在要处理的附加步骤,则控制返回到单元442,并处理数据编排的 下一个步骤。
参考数据实用工具1向做出请求的一个或多个客户提供参考值。这些 客户使用它们自己的交易执行系统来完成交易。有利的实施例用现有技术 中公知的技术(诸如面向服务的体系结构与Web服务)来使不同客户交易 执行系统对参考数据实用工具1的高效接口成为可能。由于每个商业过程 实例步骤中提供的参考数据值是只读的,所以需要关于客户交易执行系统 与参考数据实用工具1之间交互的最小状态信息。
将步骤441以及单元444与资格储存库53、资格管理储存库实体数据 50、以及商业文档储存库59相连接的虚线显示这些数据源在哪里被使用。
验证和提供参考数据编排的服务是对于在参考数据实用工具存储中存 储和访问商业文档的基本能力的有用的但又可选的扩展。
商业文档功能的替代实施例在存在影响商业文档储存库中客户文档的 含义或有用性的参考数据改变时向客户提供警报。例如,企业所有权层级 的变化可以影响一组商业文档,特别是在可以作为参与者的企业实体层级 中存在改变时可能需要重新检查管理事务的主协议。通过使用请求式数据 集能力,参考数据实用工具1可监视代表客户影响特定组的商业文档的改 变,并在这些变化发生时向客户传送被影响的文档标识符。
图5A介绍了实用工具1可以针对客户、数据源、增值功能的提供者、 调节者以及内部管理生成的报告的类型。简单的分层结构在框502中以报 告类型开始。实用工具1可提供多种类型的报告:对客户的报告即框505、 对数据源的报告即框511、对功能提供者的报告即框519、对调节者的报告 即框520、以及用于管理实用工具的内部报告即框518。
对于调节者的报告520由相关的调节代理定义。内部报告518由实用 工具操作者按照需要定义。
客户报告包括但不限于:传送日志报告即框506、源使用报告即框507、 源准确度报告即框508、关于源定时的报告即框509、服务层报告即框510、 以及针对用户生成的报告(用户必须将其给予调节者)即框504。客户可 由不同于实用工具的代理来调节,照此,它们的报告要求可以不同。这些 报告由调节代理定义并根据需要生成。
实用工具针对数据源生成三类报告:准确度报告即框512、定时报告 即框513、以及品质与使用率报告即框514。这些报告被设计为通过协助识 别对于源卖家的用户的关键问题来帮助源卖家改进和管理它们的数据品 质。
框519中的功能提供者报告提供了由参考数据实用工具1收集的关于 所提供功能的使用率的信息,以便支持来自参考数据实用工具1的、在客 户使用率报账和记账上的协助。
图5B给出了框503所示的实用工具管理功能的概览。实用工具管理 功能被分为三个宽泛的类别:性能即椭圆515、服务层协议即椭圆516、以 及基础设施即椭圆517。性能功能允许实用工具操作者基于由操作者定义 的度量监视性能。监视使得实用工具能够手动、自动或通过二者的结合对 性能进行管理。服务层协议(SLA)功能允许实用工具针对其SLA承诺 (commitment)来监视其性能并手动或自动管理其操作,以便如SLA所 估计地那样改善实用工具性能。基础设施功能支持对处理器存储、软件以 及参考数据实用工具1或其操作所用的其他信息技术的高效管理。
图6示出了影响多源多租户参考数据实用工具的高可用性问题以及地 理分散性。
框601、602、603各自表示位于世界不同城市的实用工具站点;在本 实例中分别为纽约、伦敦和新加坡。该技术可应用于任何地点组中的任何 数量的站点。这些站点各自具有实用工具处理能力,大致对应于在图1A 中用参考数据实用工具1表示的能力。在每个站点中示出了图1A中首次 介绍的数据获取与品质增强部件即框19以及客户数据传送部件即框21 每个储存库608、609、610中的数据值的高品质是通过人类专家池进行维 护的,人类专家具有对相关话题的深入的行业知识;这些专家做出关于到 达值的判断,以保证被传送到用户的数据具有最高品质。因此,实用工具 的有效性取决于每个话题的最优专家以及时的方式用最低成本对该话题的 信息进行处理的可用性。假设区域问题的专家位于该区域附近。椭圆605、 606和607表示提供关于到达数据的这些品质保证服务以及相关联的用户 服务的人类专家池。这些池中的每个池的功能对应于图1A中的椭圆37。 类似地,单元608、609和610是图1A中参考数据实用工具1的储存库20 的站点特有的版本。图6通过包括多个站点扩展了图1A所介绍的实用工 具概念。在多站点实用工具中,对于特定子话题的数据品质增强只需要在 一个站点上执行;该任务可分配给执行该任务最为高效的站点。因此,对 话题或子话题进行划分,并出于主要品质保证将其各自分配给框601、602 或603所表示的站点。
链路604表示连接地理上分散的站点的高速、世界范围的通信结构。 这种能力保证:多站点实用工具能够像单个逻辑服务那样运行,使得数据 对于客户可用而无论它们或它们的订购卖方源被连接在哪里,以及在站点 禁用时保证备份服务对来自另一站点的实用工具能力可用。尽管对于一话 题的参考数据在被选中的主要站点上被净化,但在有利的实施例中,出于 向客户传送的方便性和速度,关于每个话题的净化后的实体数据接着被复 制到所有站点。另外,更新后的资格储存库在每个站点被维护,至少覆盖 附着于该站点的客户的资格。因此,在净化中涉及所有站点;到达的数据 的每个项目被进行一次的获取以及品质增强,所有的实体数据对经由具有 本地资格强制执行的本地储存库访问的所有有资格客户可用。用于从主要 站点向其他站点传播净化后数据的有保证的消息传送系统的使用保证了更 新在没有数据损失风险的情况下传播到远程站点。在替代实施例中,净化 后的数据与资格被存储在数量更有限的站点上;检索和传送参考数据的请 求必须被发送到数据所位于的站点中的一个。这种限制的一种形式是仅在 其主要净化站点上保留和存储净化后的数据。在多个站点上存储每个数据 项具有可用性、弹性、以及冗余性的优点,促使了其中每个数据项存储在 一个以上的站点但不是所有站点上的中间替代实施例。
在图6中的示例中,数据源S1、S2、S3、S4、S5、S6分别用圆620、 621、622、623、624、625表示,其各自连接到实用工具站点中的一个。 存在一种假设,即,高速、世界范围的通信(连接链路604)允许来自每 个源的数据被分发到储存库中需要输入处理、品质保证或存储的任意地方。 类似地,客户C1、C2、C3(用圆611、612、613表示)附着于储存库站 点A,客户C4、C5、C6(用圆614、615、616表示)附着于储存库站点 B,以及客户C7、C8、C9(用圆617、618、619表示)附着于储存库站点 C。这组示例客户与源的附着示出了多源多租户参考数据实用工具的性质。
参考数据实用工具将每个连接的租户看作具有可向其传送数据的特定 资格的独立逻辑实体。单个企业租户可与其客户相关联,所述客户连接在 多个参考数据实用工具站点上。较高层的企业所有权可反映在资格结构上 以及客户简档中,但不能改变向此方法描述的每个连接客户传送所检索的 数据的方法。出于传送请求式数据集并执行增值功能的目的,实用工具将 每个本地客户看作客户简档的独立所有者以及请求实用工具检索并传送数 据的提交者。出于报账、资格跟踪、服务层报告、合同管理与授权管理的 目的,实用工具可保持对这样的分层关系的认知:该分层关系将连接客户 与其所属于的、可能在地理上分散的企业实体相关联。
每个客户C1、C2……C9附着在单个站点上,但可访问分散的参考数 据实用工具中它们有资格的所有参考数据,而不管用于提供关于这些值的 品质保证的站点、该用户有资格的数据源的连接点的站点、该数据的主要 存储站点(当使用数据划分时)或在主站点临时故障期间提供针对该话题 或子话题的值的主存储与更新的故障修复或备份站点。
储存库608、609、610表示在每个实用工具站点上维护的参考数据实 用工具储存库(对应于图1A中的储存库20的逻辑能力)。每个站点上的 储存库认识到其是某些参考话题的主导(源)。这些话题的品质保证与数 据收集结果接下来被从该站点传播到远程站点。对于其他参考话题,该站 点将接收并保有来自作为主导的无论哪一其他储存库站点的值。在替代实 施例中,数据在所有站点上被复制和增强。在另一替代实施例中,数据可 在站点间划分,且每个数据元仅存储在单个站点上。将数据复制到所有站 点提供了更好的可用性,并保证每个站点对请求数据的本地附着用户做出 响应。到达的原始数据日志以及用户传送日志仅被存储在数据被接收且进 行品质保证或逻辑用户被本地附着的储存库站点上是足够的。在数据被划 分并在少量站点上被保有的替代实施例中,存储和数据品质保证责任的分 配上的差别使得各个储存库站点不同,并使各个储存库——尽管功能类 似——能够保有不同的数据。
这推断出对部分A的流程图的描述,其介绍了总体参考数据实用工具 以及相关联的增值功能。在优选实施例中,工作流用于实现这里介绍的过 程和流程。替代实施例使用了脚本、分散分布的过程或所有这些的组合。 任何合适的机制或编程语言适用于实现这里介绍的流程和过程。
B.储存库的一般结构和操作方法
本发明的这一方面涉及具有基于参考数据值的源跟踪的资格管理的多 源多租户数据储存库(下面称为“储存库”)及其操作方法。这种具有资 格管理的多源多租户数据储存库是上面介绍的实用工具1的多源多租户参 考数据管理服务的重要部件。其在其他的背景下同样有用。多源多租户数 据储存库管理并提供储存库信息元、相关联的元数据、资格、增值功能与 文档的永久存储,并可作为上面介绍的储存库20发挥功能。
贯穿始终,我们用诸如金融工具、对等关系人、企业合法实体分层结 构以及企业行为事件的描述的金融参考数据的示例说明本发明的各方面。 这些类别中的参考数据广泛用于金融市场。本发明的方法还适用于提供和 支持具有类似特性的其他类参考数据。特别地,具有基于源的资格管理的 多源多租户资格储存库在存在多个源以及这样的多个租户的任何情况下都 是有用的,所述租户具有对它们有资格的值进行搜索和检索时需要但直接 更新数据通常不需要的、独立的基于源的资格。
储存库还包括对请求者(例如租户或代表其采取行动的代理)可用的 数据检索、访问和查询机制。将之与标准数据库区分开来的储存库部件的 有利革新在于:
-储存库合并了存储属性的多个版本(版本化属性)的能力,其中,每 个版本基于值、元数据、临时信息或寻源信息而被认为不同;
-储存库保留关于所有信息元的历史和寻源的完整信息。历史包括下列 方面:
-关于所指信息元的所有事件;
-这些事件的所有源和代理;以及
-这些事件的时间顺序。
-储存库维护关于所有已授权请求者的以及关于从特定源到特定请求 者的所有资格授予的基于源的资格信息;以及
-基于请求者的选择和寻源偏好以及源访问驱动资格,储存库合并了对 其包括的信息的服务请求的能力。
对储存库中的数据进行组织以便使共享访问路径成为可能。访问路径 和索引对所有请求者可用以选择感兴趣的参考项目值,且它们提供了客户 特有的基于资格的对参考数据值的访问。
储存库允许独立请求者在字段级指定其对于所检索数据的优选源。此 偏好将被用于在来自对于请求者有资格的不同源的可用值之间进行选择。
所有上述能力在这样的环境中提供:其中,维护用户和卖家行为的安 全性和私密性。用户或数据卖家不能够发现关于另一个的数据、查询或由 储存库对它们进行支持的其他动作的信息。
该方法在这里被介绍为适用于金融服务商业所用的参考数据。这种形 成或组织具有基于参考数据值的源跟踪的资格管理的参考信息的多源多租 户数据储存库的方法具有许多其他可能的应用领域。对用户信用信息的访 问、政府规章与注册信息以及电信使用率信息是该方法已经使用的三个附 加示例。参考数据以及该方法使用的背景的特性为:(1)信息来自许多源; (2)存在潜在地位于独立组织中的多个用户,其需要访问同一信息但潜在 地具有不同的源资格权利;(3)被参考信息主要由用户以只读模式访问, 除了在它们参与校正无效值时以外;(4)高品质及时信息的收集既是有价 值的又是复杂的,因此,实用工具方法、共享基本设施和共享数据品质增 强的高效率提供了显著的好处;以及(5)资格强制执行和隐私管理必须由 这样的实用工具提供。尽管本发明在金融服务参考数据——其是一个重要 的应用领域——的背景中介绍,但这里揭示的方法使得有效实用工具能够 提供满足上面的要求的数据访问,所述方法在任何具有这些要求的背景中 具有价值。
当储存库在参考数据实用工具的背景中使用时,其对应于单元50,即 资格管理实体数据,其在图1B中显现为参考数据实用工具储存库20的一 部分。
图7A示出了在多源多租户数据储存库中对信息与相关联的基于源的 资格进行管理的方法的示例。该图表示形成、维护以及操作储存库所需要 的有利过程的高级概览。在图7A中,框1100表示整个方法。其中,框1101 表示用适当位置的必要信息元结构(在图8A、8B、8C、8D中详细介绍) 形成储存库的起始步骤。除这些之外,储存库还用于存储驻留于数据存储 内的其他项目。这些附加项目为在性质上如图1B中的框20的描述中所介 绍的商业性(增值功能、商业文档等)或功能性/操作性(规则集、日志记 录等)。
框1102为将到达信息插入存储、用描述其发展历史的注释对每个元进 行注释的功能。这些注释称作发展跟踪源数据标签(ETSDT),并可与储 存库中的任何信息元(或元组)相关联。ETSDT中的每个事件(贯穿本文 档,同义地使用术语“注释”)有效地对应于在被描述的信息源上执行的 某些动作,并对应于该信息源的不同版本。ETSDT中的每个事件承载重要 信息,特别是事件的一个或多个源(源可以为单源或多源过程以及例如“原 始文档”等原子源)、执行事件的代理、关于事件的说明信息、时间戳信 息、以及事件标识符信息。其他的属性也是可能的。以这种方式记录完整 寻源信息为对创建信息元值有贡献的所有源提供了完全的可跟踪性。这种 完全的可跟踪历史是多源多租户数据储存库的有利使能者,其中,可保护 源提供者的知识产权和数据消费者的隐私权。参见作为信息元和相关联的 ETSDT的示例的图8A、8B、8C和8D。箭头1110表示作为输入到达框 1102的插入步骤的信息元。
框1103表示储存库维护基于源的资格信息的能力,该信息关于数据源 和储存库信息的授权请求者,所述授权请求者对所述数据源和储存库信息 有资格。例如,在金融参考数据储存库中,一记录指定了:储存库租户A 仅对来自源提供者A与C的金融工具数据有资格(而储存库可包括来自提 供者A、B、C、D、E、F、G的数据)。箭头1111表示作为输入被接收 并由框1103的资格维护过程进行处理的资格信息中的更新。框1103的实 施例的一种可能的选择是用于将更新后的资格信息存储在多源多租户储存 库中;替代实施例是在这里介绍的过程之后维护资格信息,但将更新后的 资格信息存储在单独的储存库中。
框1104表示储存库在提供对包括在储存库中的信息的可控访问的过 程中使用ETSDT连同基于源的资格的能力。这种过程将请求者的各种寻 源和选择偏好考虑在内。例如,在金融参考数据储存库中,这种过程能够 对返回来自所有可用源的关于兴趣列表A上的所有股票的信息的请求做出 响应。在本示例中,该过程将识别请求者、检索其资格、并接着选择和返 回形成请求说明和资格约束的交集的信息集。
箭头1112示出了作为输入到达框1104的处理的检索请求;箭头1113 示出了作为对于该处理的输出被返回的检索响应。
因此,本发明包括一种维持多源多租户数据储存库的方法。维持步骤 包括以下步骤:形成多源多租户数据储存库,以包括描述至少一个被引用 实体的来自多个源的信息元;在多源多租户数据储存库中用寻源信息注释 来自信息元的多个元;基于寻源信息维护关于请求者对信息元的资格的信 息;以及对来自至少一个请求者的至少一个请求做出响应,以基于请求者 特有的选择判定和寻源偏好并以所述至少一个请求者的资格为条件返回一 组信息元。
在这里所用的金融市场示例中,该方法用于维持金融多源多租户数据 储存库。维持步骤包括这样的步骤:形成金融多源多租户数据储存库,以 便包括描述至少一个被引用实体的来自多个源的信息元。考虑来自卖家A、 卖家B和卖家C的源馈给。该方法还包括这样的步骤:用寻源信息在多源 多租户数据储存库中对来自信息元的多个元进行注释。寻源信息的示例包 括:定义公司A的普通股票从卖家B的馈给中在时刻T收到的具有记录标 识符R的数据记录中接收的一组特定的值。其还包括这样的步骤:基于寻 源信息维护关于请求者对信息元的资格的信息。其示例包括客户C有资格 接收来自卖家A和卖家C馈给而不是来自卖家B馈给的数据。其还包括 这样的步骤:对来自至少一个请求者的至少一个请求做出响应,以基于请 求者特有的选择判定和寻源偏好并以所述至少一个请求者的资格为条件, 返回一组信息元。其示例包括向客户C返回公司A的普通股票的当前有资 格的推荐定义。
图7B为一有利实施例的替代的更为详细的控制流程,该实施例针对 显示每个单独的到达输入即信息元、对资格的更新或检索请求在到达先前 形成的储存库时如何被处理的方法。该图显示,新的被注释信息元、资格 信息的更新以及对检索其功能求得响应的插入可被交叉存取。
在图7B中,框1100又一次表示整个方法。控制从上方进入。起始步 骤是形成用上面介绍的框1101建立必要的数据结构的储存库。在此时,储 存库准备好接收输入。输入用箭头1110、1111、1112表示,分别表示新信 息元的到达、资格信息更新以及对信息检索的请求。框1115是控制流程中 所有这些到达的输入被首先处理的步骤。其开始从框1105到框1114的循 环;该循环的每次迭代将处理一个到达的输入。
处理输入中的第一控制流程步骤是确定其类型。这是在决定单元1106 中进行的。该方法处理三种主要类型的到达的动作提示:新的或更新后的 数据元、资格更新以及信息请求。来自决定单元106的这些结果分别由以 框1107、1108、1109开始的路径处理。单个到达的信息元的处理由框1102 中插入和注释过程的控制实例进行处理。该处理当框1102在上面图7A中 被首次介绍时讨论。单个到达的资格更新的处理由框1103所示的“维护基 于源的资格”的过程的控制实例进行处理。该处理当框1103在上面图7A 中被首次介绍时讨论。对储存库信息的单个请求的响应和处理由框1104 所示的“响应请求以返回信息元”的过程进行处理。该处理当框1104在图 7A中被首次介绍时讨论。
在完成到达信息元、资格更新或信息请求的处理后,在决定单元1114 中做出是否返回循环开头来处理更多输入的选择。在储存库没有关闭的通 常情况下,将采取“是”分支,控制流回动作循环的顶端,等待下一个到 达的动作提示。这种动作循环的重复实例导致附加的信息元在具有注释的 情况下被添加到储存库,附加的资格更新被接收并被保存,并且对存储在 储存库中的信息进行检索的附加请求得到服务。
上面的流程是介绍该方法的逻辑控制流程。使用公知的事务、数据库 和计算机并行技术,该方法的有利实施例能够并行处理来自不同源和请求 者的多个动作。
图8A显示出储存库的顶层信息元的概念组织的示例。框1201表示整 个储存库,在上面的讨论中通常表示为20。在顶层,储存库包括框1202 中所示的储存库实体列表。该列表中的示例储存库实体ENT1、ENT2、 ENT3分别用框1203、1204、1205表示。储存库实体(例如框1203)是信 息集合,其中,所有信息描述单个被引用实体。例如,在金融参考数据储 存库中,储存库实体可对应于“公司X的普通股票”。
每个实体将其与发展跟踪源数据标签(ETSDT)相关联。在有利的实 施例中,ETSDT也作为注释附着于储存库中的其他低层信息元。ETSDT 存储与其注释的信息元相关联的事件信息并基本地记录信息元的发展历 史。这包括描述以下内容的信息:元的创建、其特性的修改、版本的创建 等等。用ETSDT存储的每个事件承载各种信息(标识符、事件描述、用 户ID、时间戳等),但更重要的是,每个事件具有源(或有时具有多个源) 以及如果适合的话具有代理。结果得到的对每个信息元的完全寻源的历史 的可用性是储存库的多元多租户方面的使能者。信息元1206、1207、1208 分别表示作为注释附着于示例实体ENT1、ENT2、ENT3的ETSDT。在 实体层,ETSDT记录信息以及相关联的品质增强动作,其促使这种储存库 实体的创建。
图8B示出了对于储存库中的实体信息的示例组织,其更为详细地示 出了实体的内容。框1203是重新绘制的,因为其在图8A中被介绍为实体 ENT1。先前介绍的ENT1的实体ETSDT也在图8B中重新绘制,其作为 注释附着于表示为数据元1206的ENT1。
每个储存库实体包括用框1209表示的实体特性列表和用框1216表示 的实体项目实例列表。实体特性是关于实体的附加信息,其可包括关于不 必与支付或其他受限源相关联的被引用实体的商业信息和元数据信息。因 此,特性可以为内部标识符、非卖家所有的分类信息等。一般地,在特性 中存储的信息以未受限的方式对请求者可用,并因此用于构建索引并用于 通过对储存库的所有租户可用的共享访问通道定位和选择实体。指代金融 工具的储存库实体的特性示例包括:工具的全名、作为股票或债券的标识、 发行企业的工业部门等。这些特性或者是公开的信息,或者由于与租户和/ 或数据提供者的某些商业安排而对于所有租户可同等访问。如果特性需要 由于任何理由的受限访问,则作为替代其应当被表示为版本化属性。
示例储存库实体ENT1被示为具有分别用框1210、1211、1212表示的 三个实体特性P1、P2、P3。在本示例中,每个实体特性在与它们有关的母 实体ETSDT(框1206)中具有注释。有利的实施例将特性注释放在母实 体ETSDT中。替代实现可具有与特性相关联的独立ETSDT。
储存库实体包括项目实例列表。每个项目实例收集并包括由单个公共 寻源提供的母实体的一组所有的属性值。一种公共寻源可以为来源于由一 个源(例如数据卖家A)提供的单源数据集的项目实例的所有数据。另一 种公共寻源是项目实例中的数据由单个被识别的项目实例过程(例如值比 较过程B)提供。对两种类型的寻源的不同支持是重要的,因为在多源数 据增强过程的情况下,项目实例过程和对该项目实例过程有贡献的数据源 在确定资格中起到重要作用。这在图11E的资格强制执行处理描述中进一 步介绍。
为了进一步说明项目实例过程,项目实例过程是用于创建、更新或重 新检查项目实例的任何过程。项目实例过程的概念覆盖了创建项目实例和 通过项目实例工作的许多公共方法。项目实例过程的示例包括:从源得到 项目的馈给/数据集并向数据集应用验证、规格化和净化;使用源间过程将 来自几个源的信息进行比较并基于这种比较选择优选值;使用源间过程创 建包括来自多个源的属性的复合值;以及针对另一源提供的值运行算法值 增强过程。每个这种不同的过程生成单独的项目实例,其被存储在合适的 储存库实体下。可以具有复合的项目实例过程——因此,“规格化”和“规 格化且单个元净化”是有效的项目实例过程,其中,前者是简单的项目实 例过程,而后者是复合的项目实例过程,其包括规格化过程与单个元净化 过程。在处理中仅使用信息的单个源还是多个源是项目实例过程的有利特 性。
框1216表示包括在图2A中的示例储存库实体ENT1中的项目实例的 列表。框1217、1218、1219分别表示该列表中的示例项目实例ITM1、ITM2、 ITM3。其中的每一个具有作为注释附着到它的相关联的ETSTD,其在该 附图中分别被表示为矩形1220、1221、1222。
在金融工具参考数据储存库的背景中,表示“公司X的普通股票”的 实体的项目实例的可能示例包括:(1)关于由卖家A提供的该工具的信 息,(2)关于由卖家B提供的该工具的数据,或(3)关于从储存库服务 获取的该工具的数据,该储存库服务将来自多个源的数据进行比较并从这 些可能中选择推荐值。
注意,替代实施例可具有对于所介绍的各种ETSDT的不同范围(例 如,可以存在针对实体和项目实例具有单个逻辑ETSDT的实现,反映了 两个信息元的历史中的事件)。然而,任何这种替代实现在逻辑上对应于 这里介绍的结构。
图8C为更为详细地显示出其内容的项目实例的信息的示例组织。框 1217表示最初在图8B中介绍的示例项目实例ITM1的扩展视图。数据元 1220表示先前在图8B中介绍的项目实例的ETSDT。在图8C中,项目实 例ITM1包括用框1223表示的版本化属性的列表和用框1230表示的特性 的列表。特性具有存储在其母项目实例的ETSDT(框1220)中的与它们 有关的注释。
版本化属性列表中的每个版本化属性包括一组属性值,该组属性值用 由与母项目实例相关联的项目实例过程或源提供的值对母储存库实体进行 特征化。对于先前介绍的、具有关于“公司X的普通股票”的信息的储存 库实体的示例,版本化属性的示例包括:(1)当前价格,(2)进行交易 的交易所,(3)宣布的红利获利日期,以及(4)宣布的红利额。
在图8C中,对于项目实例ITM1,版本化属性列表中的版本化属性 VA1、VA2、VA3分别用数据元1224、1225、1226表示。这些版本化属性 中的每一个具有作为注释附着于它的相关联的ETSTD,这里表示为数据元 1227、1228、1229。
项目实例还具有相关联的特性,其可由请求者用于访问存储在储存库 中的信息。ITM1的特性列表中的项目实例特性P4、P5、P6分别用框1231、 1232、1233表示。项目实例特性的重要示例是唯一的项目实例过程标识符 或对项目实例中的信息源进行特征化的源数据集标识符。项目实例特性也 是信息元,并在与它们相关联的项目实例ETSDT中具有注释。
图8D示出了版本化属性的信息的示例组织,其更为详细地显示出其 内容。
具有附属版本化属性ETSDT——用数据元1227表示——的扩大框 1224包括此扩展图。其显示出版本化属性由属性值列表组成。框1237表 示例如对于版本化属性VA1——例如分别在框1238、1239、1240中的属 性值V1、V2、V3——的值的列表。
属性值是信息元的最低层次,并表示由之组成较高层次的版本化属性、 项目实例以及储存库实体的商业数据的原子部分。出于以下原因之一,在 项目实例中存在多个属性值:(1)几种收集和品质增强动作已被应用于原 始源数据,产生几个可行的值,(2)多个值已经由针对该属性的单个源提 供,或(3)给定项目实例表示由多源项目实例过程产生的数据,且可从不 同的源得到该属性的替代值。
当项目实例过程多于一次地修改属性时,每次修改创建版本化属性的 一个新值(版本)。允许详细跟踪这些变化的结构是版本化属性ETSDT, 其包括与每个属性值有关的注释。每个注释与特定的属性值直接相关联。 ETSDT中存储的信息允许每个属性修改的历史可跟踪性,更重要的是, ETSDT中存储的信息包括关于这种修改的代理以及源的信息。该知识在其 后用于决定是否可向特定请求者提供该值。
为了详细说明金融工具示例(使用公司X的普通股票),项目实例过 程P是自动化的源间比较和值选择过程,其创建复合项目实例。代表参考 数据储存库被雇佣的雇员负责检查和校正(如果必要)结果得到的复合项 目实例。过程P第一次被执行时,将在表示公司X的普通股票的储存库实 体下创建新的项目实例I。关于该项目实例的特性指示出过程P是产生该 项目实例的项目实例过程。由于项目实例由属性组成,所以对于I中的给 定属性A,过程P包括例如由不同的源(数据提供者)提供的五个属性值 V1、V2、V3、V4、V5的比较和检查。在过程P完成时,属性A的值V3 被选择。在本示例中,值V3将作为版本化属性A中的单独值(版本)存 在,并将在版本化属性层ETSDT中具有对应的注释,该注释陈述V3与由 数据提供者DP1(源1)和数据提供者DP5(源2)提供的值匹配,并基 于数据净化器DC1(代理)进行进一步证实,数据净化器DC1(代理)又 基于公司X(源3)的公共文档的检查做出决定。如已经证明的,给定复 杂化的潜在项目实例过程,这种寻源信息可以是复杂的。储存库的注释是 这样的一种能力:其仔细对所有这些寻源历史进行跟踪并接着在请求者资 格的范围内将之用作对数据请求做出响应的基础(在图11A、11B、11C、 11D和11E中介绍)。
除了用相关联的特性、项目实例、版本化属性和属性值存储储存库实 体以外,储存库还用于存储其他对象,例如增值功能和商业文档。也需要 对这些对象进行跟踪的资格,并可以完全使用上面介绍的数据结构对之进 行处理。然而,如果对于这些对象的版本化和多寻源的层次与所述方法被 设计提供的层次相比简单得多,则替代和有利的实施例将在储存库的单独 列表中存储每个这种对象的方法,其中相关联的ETSDT记录源和创建历 史,但在简单的资格管理值框中存储所有的对象信息。这种被存储的对象 还在顶层具有一般可访问的特性,使得请求者能够直接对它们进行访问。
如同在图8A中一样,应当注意,替代实施例可选择对于所介绍的不 同ETSDT(例如对于项目实例特性具有单独ETSDT)具有不同的范围。 然而,任何这种替代实现在逻辑上对应于这里所介绍的结构。
图9扩展了图7A中被标记为“插入具有寻源注释的信息元”的框1102, 提供关于该框的有利实施例的样本控制流程的更多细节。基于被更新的数 据源的类型和事件类型,存在多种控制流程,然而,它们都遵循同样的一 般原理。出于说明目的,选择四种过程:创建或更新新的实体、创建或更 新新的实体特性、创建或更新新的项目实例、以及创建或更新新的属性值。
当新信息元事件到达储存库时,控制流进入图9中的框1102。将被插 入储存库的新信息元作为输入参数对于图9的流程可用。框1301表示输入 事件的接受。决定单元1302是确定对于注释和插入储存库而呈现的新信息 元类型的测试。提供与创建或更新新的实体、创建或更新实体特性、创建 或更新项目实例、以及已有版本化属性的新值或更新值对应的详细流程。 这些流程用从决定单元1302分别引到框1303、1306、1310、1314的结果 路径表示。
图9中从框1303开始的控制路径示出了创建新储存库实体或更新已有 储存库实体特性的详细流程的示例。在金融工具示例的背景下,这仅在以 下时候发生:当储存库开始保存关于新金融工具的信息或改变该工具在其 中被分类的诸如“行业分组”的特性时。
框1303表示这样的标识:到达的信息元定义新的实体。框1304是将 新实体添加到储存库实体列表之中的动作。框1305是为新插入的实体创建 注释实体ETSDT的动作。将框1305与数据元1206相连接的虚线显示该 更新被应用在图8A所介绍的实体ETSDT中。
图9中从框1306开始的控制路径显示出更新或创建新的储存库实体特 性的详细流程的示例。在上述金融工具示例的背景下,这仅在以下时候发 生:当工具的某种分类被首先知道或改变,使得其与运输业相关联时。
框1306标注我们出正在新实体特性路径上。框1307为定位此特性描 述的母实体的步骤。框1308是将接收到的特性值插入用于该实体的特性列 表或更新先前的值的步骤。框1309是用记录其源和创建所接收信息的品质 保证版本的路径中的其他事件的ETSDT对这种新特性进行注释的步骤。 到框1213的虚线显示,该注释被存储在储存库中,如同图8B所介绍的实 体特性ETSDT一样。
图9中从框1310开始的控制路径示出了用于为已有的储存库实体创建 新的项目实例的详细流程的示例。在前面介绍的金融工具示例的背景中, 为其被引用实体为企业债券或普通股票的储存库实体创建新项目实例仅在 以下时候发生:当信息提供者即信息源或项目实例过程——例如与储存库 本身相关联的多源数据品质增强过程——开始提供该债券或股票的属性值 时。
框1310表示对于已有储存库实体的新项目实例的标识。框1311表示 新项目实例所属于的合适的母储存库实体的位置的标识。这基于被引用实 体进行,或者如果当前不存在针对被引用实体的储存库实体,则触发用于 创建新储存库实体的过程。图8A中的框1216显示,项目实例的列表是每 个储存库实体中的顶层数据结构。框1312表示,使用所提供的项目实例信 息在该列表中创建新的项目实例,或者如果到达的元是对已有项目实例的 特性更新则应用该改变。框1313是创建新的项目实例ETSDT或在已有项 目实例ETSDT中对特性改变进行注释的动作。新的ETSDT记录项目实例 的创建,并在该项目实例的历史中作为第一注释。将框1313与数据元1219 相连的虚线显示出此更新动作与图8A所介绍的项目实例ETSDT之间的关 联。
图9中从框1314开始的控制路径显示出在已有储存库实体的已有项目 实例中创建或更新属性值的详细流程的实例。在较早时讨论的金融工具示 例中,对新属性值进行处理的示例包括:当特定的源或项目实例过程提供 对于该工具的属性的新值时,例如进行交易的交易所、到期日或债券等级、 普通股票红利支付额以及获利日期。
框1314表示对于已有储存库实体的已有项目实例的新属性值的标识。 框1315表示新属性值属于的母储存库实体的位置的标识。这基于被引用实 体进行。框1316表示新属性值属于的母项目实例的位置的标识。这基于触 发输入事件的项目实例过程进行。框1317表示新属性值属于的特定版本化 属性的位置的标识。图8B中的框1223显示出版本化属性列表,其是项目 实例的顶层数据结构。在前面讨论的金融工具示例中,例如进行交易的交 易所、息票支付细节、等级、红利额和数据的信息是主体金融工具的不同 的版本化属性。框1318表示将新值或更新值添加到版本化属性。图8D中 的框1237显示,在版本化属性VA1的背景下,被包括值的列表是版本化 属性的顶层数据结构。
框1319表示在版本化属性的ETSDT中对新值的注释。包括在注释中 的寻源信息确切地识别新值的源。寻源信息也是存储与此事件有关的其他 信息的方便的位置,所述信息例如:(1)具有新值的理由的特定文档(例 如对值进行标记以便由净化引擎进行检查),(2)所采取的研究或验证动 作的特定文档(例如在源A中查阅值),(3)改变的代理(例如,以对 值进行检查为任务的雇员),等等。将框1319连接到数据元1231的虚线 显示,在储存库实体ENT1中的项目实例ITM1中的版本化属性VA1的 ETSDT的背景下,由这种标记过程影响的数据对象是如图8D所介绍的版 本化属性ETSDT。
针对所述示例,控制流分别从框1305、1309、1313、1319退出框1102。
注意,储存库还可用于存储信息,例如增值功能或用户的商业文档。 这些对象需要具有项目实例和版本化属性的储存库实体的全部或部分能 力。可以用如这里确切地介绍的储存库和ETSDT来支持这种对象的存储。 替代实施例涉及使用这些对象的简化数据结构,其包括对象的存储、用于 帮助在储存库中对其进行定位的特性,以及具有管理对于对象的资格的寻 源信息的单个ETSDT。处理这种对象向存储的添加以及对之进行注释需要 从图9的控制流中简化和省略某些步骤。在阅读这里的材料之后,这种修 改对本领域的实践者来说将是显然的。
图10扩展了图7A与7B中介绍的并标识为“维护基于源的资格信息” 的框1103,其提供了对于该框的优选实施例的更为详细的控制流。
无论何时当新的基于源的资格信息作为输入到达储存库时,控制进入 框1103。被接收到的资格信息更新作为输入参数被传递到该图的流程中。 框1401表示接收到更新后的资格信息。决定单元1402是确定所供给的资 格信息更新的类型的步骤。介绍了三种类型的更新资格信息:提供关于寻 源、关于请求者或关于从源到请求者的授予的已更新信息。
框1403表示描述新的源或源过程的资格信息。每个源向储存库提供关 于储存库实体的信息,并向被提供的值授予特定的被识别请求者资格。在 包括关于金融工具的信息的储存库的背景下,源的示例为卖家A或卖家B。 每个源做出它们自己与外部实体的合同安排,以提供原始数据以得到服务 费。增强并存储来自多个源的此信息并响应于请求将之传送到多个租户组 织的储存库必须能够向每个数据元提供者证明没有任何信息已被传递到没 有资格接收它的请求者。
决定单元1406表示将新的寻源信息分成两种类型:值源和过程源。框 1407表示值源的处理,框1409表示过程源的处理。先前提供的卖家A与 卖家B的源示例表示值源的示例。以例如关于债券的信息流或关于企业层 次结构的信息流的源数据集的形式,值源以这样的方式传送特定的数据服 务:所提供的特定值、以及通过应用基于单源数据集的验证过程从之得到 的任何值仅可以由与源明确签订合同以接收它们的请求者访问。过程源表 示值增强过程,其典型地被提供为与储存库相关联的数据品质保证与增强 过程。值增强过程是一种类型的项目实例过程。示例包括孤立地验证和净 化单源数据集以及使用为同一被引用实体提供替代值以选择最为可靠的值 的多源数据集的比较过程。请求者需要对项目实例过程以及在项目实例过 程的应用中使用的属性值有资格,以便有资格接收通过将该过程应用到这 些源值所生成的值。框1408和1410表示创建和维护如数据元1418所示的 资格信息的一部分的、唯一地分别识别值和过程源的信息。
除了唯一地识别并特征化可授予资格的所有源(过程与值)以外,数 据元1418表示的信息还识别并特征化接收资格的所有请求者。在使用这种 储存库方法的参考数据实用工具的有利实现中,数据元1418表示的资格信 息被保存在资格储存库中,即图1B中的数据元53中。
框1405表示描述新请求者的资格信息。维护对请求者进行特征化的信 息,使得良好地形成所有的资格授予,产生可被认证的、良好定义的目标 请求者。决定单元1411表示将新请求者信息分为两种类型的请求者:租户 请求者(客户)和其他请求者。框1412表示租户请求者的处理,租户请求 者是储存库的用户。框1413表示其他请求者的处理,其他请求者包括与储 存库有关联的人员,该人员提供储存库维护或用户服务,并且在金融背景 下包括代表交易所、数据提供者以及法律或适应性检查与审计功能相关联 的个体或实体。框1414表示对关于所有这种请求者的信息进行维护(包括 用于验证特定请求代表储存库请求者被发起的认证过程)并确保该信息被 包括在由数据元1418表示的资格信息中。关于租户以及其他请求者被维护 的信息以及用于对它们进行验证的方法可能不同也可能类似。
框1404表示对从特定授予者到被识别的被授予者的资格的处理。框 1415表示在已经存储在由数据元1418表示的寻源列表中的信息中定位授 予源。资格授予者可以为值源、源数据集或项目实例过程。框1416表示在 有效请求者列表中识别需要资格的请求者,即被授予者。框1417表示从此 源向此请求者创建新的或更新后的资格授予(更新可补充或调用在前的资 格)以便包括在用数据元1418表示的资格信息中。如同前面所述的,这种 资格信息可被存储在储存库中或单独存储。
数据元1418表示的资格信息使能在请求处理过程中强制执行当前的 资格。所发布的授予以及源和请求者定义的流发生,其各自在不同的时间 点上通过图10所介绍的逻辑生成单独的流程。
图11A详细介绍了储存库基于请求者偏好对信息请求做出响应所使用 的整个过程。图7A与7B中介绍的框1104表示过程的整个高层流程。框 1501表示接收到信息请求以及对请求进行解释,以便提取请求说明。请求 来自任何请求者,请求者是代表用户或租户的任何当事人或过程,或者在 储存库被使用的背景下是任何数据管理实用工具或系统的代理。
框1502表示储存库定位被请求信息元所采取的动作。
框1503表示资格应用,由此将该组返回值限制为请求者有资格的那些 值。这是基于寻源进行的,其可能由于储存库中的信息元用先前所介绍的 寻源信息注释。由于本发明的这种特征,框1503所表示的动作主要成为将 请求者有资格的源和过程与对被请求信息有贡献的源和过程(从图11B可 以看到这种过程的某些更详细细节)进行比较。这可与传统的系统形成对 比,在传统系统中,资格典型地仅处理用户执行特定功能而不是从特定源 访问数据的能力。
框1504表示将结果得到的数据集返回到请求者的最终步骤。如虚线箭 头1113所示,其是生成对检索请求的响应并在适当时记入日志的步骤,所 述响应最初被介绍为图7A与7B中整个方法1100的输出。
在图11B中,框1501——其表示接收请求并提取请求说明——被进一 步分解为框1505、1506、1507。储存库接收的请求说明包括任意数量的参 数,但最少包括以下内容:
-请求者的标识(用框1505表示)
-管理被返回信息元的选择的判定(用框1506表示)。选择判定可使 用独立于实现的语言(例如SQL)来指定哪些信息元是请求者感兴趣的, 并包括典型通过诸如兴趣列表、时间约束、条件选择等方式表示的参数。
-有序列表或其他的指定请求者对源的偏好的优先级结构,如果来自不 同源的多个信息元可用于满足前面的步骤中的选择判定的话。这被称作寻 源偏好(用框1507表示)。寻源偏好是本发明非常重要的一方面,因为其 是用于对储存库进行导航的一段有利信息,其中来自多个源且属于多个客 户的数据位于储存库中。请求者的寻源偏好与信息元的发展跟踪源数据标 签以及资格相结合使用,以保证请求者仅得到他们有资格的信息。(该过 程的资格强制方面在图11B中更为详细地介绍,也可参见上面对框1503 的介绍)。同样重要的是要实现:某些寻源偏好可具有复杂的多层结构并 在多个信息层上存在。例如,当在金融信息的背景下创建寻源偏好时,其 反映了下面的复杂偏好(样本):“对于欧洲股票,偏好为:首先,单源 净化卖家A;如果不可用,则为单源净化卖家B;如果不可用,则为仅规 格化的卖家C。对于美国债券,偏好为:首先,仅规格化的卖家A;如果 不可用,则为单源净化卖家C,除非该债券被分类为企业债券:在这种情 况下,首先,单源净化卖家C,然后,净化卖家B。对于所有其他债券, 偏好为来自所有三个卖家A、卖家B、卖家C的单源净化值。最后,对于 美国股票,偏好为由源间比较和选择过程X生成的值。”在该示例中,寻 源偏好涉及多个信息层(储存库实体、项目实例、属性和元数据)以及潜 在的寻源选择,并需要多个层次的处理来满足。
图11C中示出了用于得到信息选择判定的更为详细说明的流程的示 例。请求说明的选择判定部分可涉及储存库中任何层次的信息,并且同样 地有效地包括涉及任何可用信息项的判定,即储存库实体(用框1509表 示)、项目实例(用框1510表示)和任何属性值(用框1509表示)。一 旦被执行,选择判定会得到零个或零个以上的信息元。
图11B中用框1501表示的过程的主要任务是解析、验证和从所接收 的请求中提取上述项目。解析这种信息所需要的过程的细节为本领域实践 者所公知。不是本发明的主题。
在图11D中,框1502被进一步分解为框1512、1513、1514、1515、 1508,其更详细地显示出储存库对与上面提取的请求说明匹配的信息元进 行定位所采取步骤的示例流程。该过程与关于框1501介绍的请求说明方面 相结合。如所阐释的那样,请求说明的两个有利方面——即选择判定与寻 源偏好——频繁用于表达相当复杂的概念。为了满足该请求,储存库首先 根据需要在所有层面上——即在储存库实体层、项目实例层、版本化属性 与属性值层——执行信息选择。也可以选择与这些信息元相关联的元数据。 这些行为分别用框1512、1513、1514、1515表示。这种过程形成返回数据 集,接着,请求者的寻源偏好被应用于该数据集,从而通常缩小了该数据 集(用框1508表示)。这是通过针对每个信息项将寻源偏好中指定的源与 储存库中记录的寻源信息进行比较来完成的。可能不能满足寻源偏好的某 些元(例如,没有找到来自优选的数据源的信息);在这种情况下,储存 库将需要把反映这一点的特殊记录包括在返回数据集中,或使用通知请求 者的其他手段。在例如多租户参考数据储存库的背景下的储存库的实现中, 多种最优化选项可用于使定位信息元的过程更加高效。这些包括形成允许 请求、对于优选寻源选择数量上的最小要求或限制、表视图、多种储存库 索引技术等受控的数据驱动方法。然而,在其功能内核上,任何这样的实 现与所介绍的步骤保持一致。
在图11D中,信息的选择用框1502表示。被选信息元接着通过资格 框1503被过滤。在替代实施例中,资格1503可在1502之前或作为1502 的一部分发生。当这完成时,框1502中具体是1512、1513、1514、1515、 1508中的所有动作服从于资格。它们各自基于请求者的资格返回响应。
图11E提供了关于图11A的框1503表示的行为的附加细节,即作为 请求响应过程的一部分的强制执行资格。储存库的多源多租户性质使得对 资格信息的处理与单租户数据管理应用中可能采用的简单过滤方案相比是 更为复杂的任务。具体而言,在单个点上(例如在最低的数据结构层—— 属性)上强制执行资格是不够的,因为多源多租户数据储存库支持存储由 源间过程(一种类型的项目实例过程)生成的自身可能需要资格的项目实 例。另外,可以对过程有资格,而并非对该过程生成的所有值有资格,这 就是为什么发生多层次资格检查的原因。例如,继续金融工具参考数据储 存库的示例,其中存在储存库的参考数据实用工具可作为附加服务提供根 据某种算法基于多个源产生复合记录的多源项目实例过程P。储存库的租 户A订购这种服务。然而,基于驱动服务的规则,其生成的复合记录有时 包括来自租户A没有资格的数据源的信息。在这些情况下,这些结果不被 返回到租户A,即使租户A订购了该服务。需要两个层次的源检查(过程 层次与属性值层次)来检测和正确处理这种情况。最优化包括指定不同的 项目,例如“简单源”与“复杂源”,以便帮助在运行时在需要一层次资 格检查与两层次资格检查的项目实例过程之间进行区分。在其功能内核上, 资格检查过程明了并适应这两种可能性。
在图11E中,资格过程用在储存库实体层开始的框1503表示(即所 希望的储存库实体已经被定位)。框1516表示使用图10所示的数据元1418 表示的资格信息检索请求者对当前储存库实体的项目实例过程的资格。这 种资格信息以及创建其所需要的步骤在图10中介绍。框1517表示基于这 种资格信息的检查,以确定此请求者是否有资格访问被选的项目实例(回 想每个项目实例与项目实例过程相关联)。关于生成给定项目实例的项目 实例过程的信息就是在该层次上被存储。还可能需要使用存储在用于该项 目实例的ETSDT中的附加信息,如将框1517与数据元1220相连的虚线 所示。决定框1518表示流程检查点;如果框1517表示的检查失败,则请 求者没有资格访问该项目实例;如果检查成功,则发生在属性层的进一步 检查。在决定单元1518有成功结果的情况下,框1519表示从由数据元1418 表示的资格信息中检索请求者对特定源的资格。在替代实现中,该步骤与 用框1516表示的行为相结合。框1520表示在属性层上的实际资格检查。 该检查使用来自版本化属性ETSDT(数据元1227)的寻源信息来保证仅 有资格的源被用于产生所希望的值。如果检查通过(在决定框1521表示的 决定点上),属性和所包含的项目实例是有资格的,并适合于返回到请求 者。否则,基于项目实例过程的性质,特定的版本化属性或整个项目实例 被从返回集中移除(用框1522表示)。此过程在所有被选项目实例和被选 属性中进行,以产生过滤后的、返回到请求者的数据集。此过程结束于对 关于本发明储存库方面的流程图的介绍。如果框1518中的测试失败,则没 有有资格项目实例可用,故控制流出框1503。
C.数据净化与值增强的介绍
这一部分介绍用于执行到达的参考信息的可缩放数据净化和值增强的 方法和组织,其中支持单个数据源增强处理以及多个数据源比较与增强处 理,同时,该方法还维护对得到参考数据元中使用的所有源的充分知识。 在参考数据实用工具的背景下,这种方法可提供图1A中框19所示的数据 获取与品质增强处理。
图12A与12B一起采用时显示出用于数据净化与值增强方法(DCVE) 的完整的高层次控制流程。图12A显示出DCVE的单源数据净化部分。图 12B显示出多源数据处理。
在图12A中,数据的卖家源由椭圆2101、2102、2103表示。多个数 据源由DCVE并行处理。在图12A中,由椭圆2101、2102、2103表示的 每个源提供关于参考数据话题T1的数据集。在参考数据实用工具的背景 下,这对应于图1A的框22所介绍的T1。箭头2132、2133、2134表示当 单源DCVE处理完成且图12中的多源DCVE处理可被发起时的控制转移。 图12A描述了在高层面上如何处理该数据集的源属性。源项目以类似的方 式被处理。关于源和属性处理的更多细节在图14中给出。
一般而言,在该部件中接收和处理针对多个话题的数据。话题是使得 储存库中的分层组织成为可能的特性。在金融参考数据储存库中,不同的 参考话题的示例包括:
-关于金融工具的参考数据;
-企业层次与对等关系人信息;以及
-企业动作事件通知。
不同话题的DCVE处理是独立的。然而,同样的源介绍用于任何一般 概念,并且在有利的实施例中,所接收到的合格参考数据值被存储在同一 储存库中。源介绍包含对特定源提供的数据集中的数据的结构、内容和约 束进行介绍的信息。
图12A示出了对于提供参考数据值的三种数据源——分别用椭圆 2101、2102、2103表示的源S1、源S2、源S3——的DCVE处理。关于在 许可卖家、自由公用源和合格请求式源中划分的特定话题,可以有任何数 量的数据值源。在我们对该附图的介绍中,我们假设源为同一话题供给数 据。这种假设允许我们说明图12B中的源间处理。然而,DCVE对来自多 个源关于不同话题的数据并行进行处理。DCVE处理尽可能多的可用的源 和话题,且不限于并行处理三个。DCVE处理将每个源看作参考数据值的 独立数据集。单元2105、2111、2120、2129、2114、2123处理源S1的值, 单元2106、2112、2121、2130、2115、2124处理源S2的值,而单元2107、 2113、2122、2131、2116、2123处理源S3的值。储存库用单元2108、2109、 2110表示。我们将其呈现为对于每个流的单独的存储,以显示出DCVE 处理过程中的中间处理结果是对于各个流独立地进行管理的。在使用用于 输入处理的这种DCVE方法的参考数据实用工具的有利实现中,这种存储 将在图1A中的单元20所示的单个实用工具储存库中提供。每个源数据集 的不同的DCVE处理使得对每个被处理值的源的记录成为可能。对于源 S1值的DCVE处理更详细地进行介绍;其他源的对应处理是类似的。单 个源的DCVE处理在以下步骤中进行:
-属性与项目验证以及ETSDT的创建,用针对源S1的框2105和椭圆 2129表示;
-属性和项目规格化,用针对源S1的框2111和椭圆2114表示;以及
-对源特有的属性与项目值净化,用针对源S1的框2120与椭圆2123 表示。
修改后的属性和项目值被存储在储存库中。所有用于创建修改后的值 的事件和源被记录为也包含在储存库中的ETSDT注释。储存库用单元 2108表示。这些步骤有时接着有这样的步骤:潜在地使用来自提供关于此 话题的数据的多个源的数据,应用一个或一个以上的源间属性值比较过程。 这在下面介绍的图12B中示出。
框2105表示DCVE部件中的第一步骤;接收和处理从源S1到达的数 据集。该步骤处理接收协议,并将来自源S1的数据集获取到储存库中。属 性验证处理通常包括:
  -源、肯定应答、协议和格式处理的验证;
  -向输入记录分配唯一的标识符和/或时间戳;
  -验证源属性值符合源说明;以及
  -对于不能自动验证的数据集中的任何元进行手动验证。
  在接收数据集并对之进行验证以便接受到DCVE部件中之后,被验证 的属性被存储在储存库中,并将对来自源S1的属性进行验证时产生的事件 如箭头2181所示作为日志记入ETSDT,其也被存储在储存库中。储存库 用框2108表示。这种记入日志是通过记录作为ETSDT注释的验证结果、 验证过程中采取的动作以及属性验证完成而进行的。
异常(anomaly)可能在不能被自动验证的被接收数据集中存在。当 其发生时,数据集的那些部分被传递到由椭圆2129表示的手动验证,其中, 具有商业知识的人在可能的情况下校正错误。在手动验证之后,被验证的 属性被存储在储存库中,且在对源S1的手动验证中产生的事件被作为 ETSDT注释记入日志,如箭头2151所示。
框2111表示对从源S1到达的数据的自动化属性规格化处理。该步骤 处理这样的问题:特定的参考数据属性可能被不同数据集源称为不同属性 名。另外,对于参考数据项目的特定属性值可在不同源中以不同的方表示。 虚线箭头2171显示,来自前面的手动或自动验证步骤的被验证数据作为输 入对自动规格化2111可用。
目标说明包含描述储存库实体信息的结构、内容和约束的信息,包括 存储在储存库中的项目实例、版本化属性和属性。被接收到的对于参考数 据项的属性被翻译成为标准表示。属性规格化处理通常包括:基于目标说 明将来自源说明的源属性映射到目标属性。这种处理在源说明中查阅由源 S1供给的参考数据属性,使得标准属性名被匹配。查阅和翻译属性是出于 高效率原因通过应用一组查阅和自动化规则步骤来自动完成的。这包括将 源属性值翻译为目标属性值。规格化的属性名和值被存储在储存库中。用 于创建规格化属性名和值的事件和源被记录为ETSDT注释,如箭头2182 所示。
有些时候,在自动属性规格化步骤中,属性名和值查阅失败或检测到 其他异常。对于每种异常情况,问题参考数据被转发到椭圆2114表示的手 动属性规格化处理步骤。在该步骤中,具有商业知识并谙熟主题话题的人 决定是否接受或如何修改异常值。例如,此人决定其名称不在源描述中的 金融工具实体是否为新创建类型的、以往没有见过且需要添加到源描述中 的金融工具,或者该名称是否为已有的已命名工具的误拼或其他数据输入 错误。规格化的属性名与值被存储在储存库中。用于创建规格化的属性名 与值的事件和源被记录为ETSDT注释并存储在储存库中,如箭头2152所 示。
在被接收的参考数据属性被规格化之后,通过自动处理或在检验和可 能的手动校正后,规格化的属性被存储在储存库中,并且用于对来自源S1 的属性进行规格化的事件被作为日志记入ETSDT,分别如箭头2182和 2152所示。这种记入日志是通过将规格化结果、规格化过程中采取的动作、 以及属性规格化的完成记录为ETSDT注释而完成的。
在属性规格化完成后,从源S1到达的参考数据通过对源特有的项目净 化过程,如框2120、2123所示。对源特有的项目净化的目的是通过商业规 则的应用验证数据内容的正确性,而不用参考任何其他的源。
第一个步骤是自动净化阶段,其用框2120表示。虚线箭头2172显示, 在先前的规格化步骤中保存的规格化数据作为输入对自动净化可用。在步 骤2120中,自动净化检查有没有丢失的数据、被篡改的数据、超出预期范 围(容许范围)的数据值、以距离先前已知值的某种不合理偏移(变化率) 所改变的数据、数据的良好构成程度、与目标项目实例的一致性(由目标 说明描述)、与类似目标说明的公知被引用实体的兼容性、对近期新闻的 敏感性以及其他的可编程源属性值检查。这些检查是基于包含在源与目标 说明中的信息的。再一次地,出于高效率的原因,为了对将需要通过所有 这些测试的大量到达数据进行过滤,使初始净化阶段自动化是有利的。净 化后的属性被存储在储存库中,且用于创建净化后属性的事件和源被记录 为ETSDT标签注释并也被存储在储存库中,如箭头2183所示。
某些项目对于用框2120表示的自动净化检查失败,其被作为异常分离 出来并传递到用椭圆2123表示的手动净化。在此时,具有商业知识并谙熟 主题话题的人重新检查异常项目,并决定接受、拒绝还是校正到达的异常 规格化值。这种对源特有的项目净化仍仅参考从源S1到达的数据而进行。 自由分发的公共信息用于改善、净化或增加数据,但不使用其他被出售的 许可数据。为了防止污染数据所有权以及对其他源的访问权,这种限制是 有必要的。自由获得的信息的使用也可被记入日志。被净化的属性被存储 在储存库中,且用于创建净化属性的事件和源被记录为ETSDT标签注释 并也被存储在储存库中,如箭头2153所示。
在规格化属性净化后,通过自动处理或在检验以及可能的手动校正之 后,净化的规格化属性被存储在储存库中,且用于创建来自源S1的净化后 的规格化属性的事件被作为日志记入ETSDT中的储存库,分别如箭头 2183、2153所示。这种记入日志是通过将净化结果、净化过程中采取的动 作、以及净化的完成记录为ETSDT注释而完成的。
在替代实施例中,首先进行从源到达的数据集的净化,然后进行规格 化。上述排序的优点在于,用于检验和手动净化到达的数据的有价值的人 力资源可更为自由地从一个源被分配到另一个源,如果他们对重新检查已 规格化的值熟悉的话。
错误检查通常导致手动步骤:手动规格化(椭圆2114)、手动验证(椭 圆2129)、手动净化(椭圆2123);和/或向数据源(椭圆2101)产生用 箭头2135、2150以及2176表示的反馈或问题报告。典型地,如果错误或 问题被发现或被认为可能在从源S1接收的参考数据值中,则通知或要求数 据提供者确认或校正所提供值。
DCVE处理与源之间这种类型的反馈通过进一步地使用ETSDT进行 最好的处理。已经通过DCVE处理而没有问题的值被加标签为正常。其他 的值被传送以用于潜在的使用,但被加标签为“有问题”或“等待确认”。 以这种方式加标签的值典型地由需要实时接收更新值而不错误的可能性的 那些储存库租户使用。当源响应于从它们接收到的先前值被加标签为“有 问题”的通知而提供更新或确认值时,用对应的正常标签对更新值进行处 理。
在单源验证、规格化和净化完成之后,使得净化且增强的数据对一个 或一个以上的多源DCVE过程可用。箭头2132显示出将单源DCVE处理 的数据从源S1转移到图12B中的多源DCVE过程的控制流程。类似地, 箭头2133和2134表示使得分别来自源S2和S3的单源DCVE处理数据对 图12B中的同一示例的多源数据净化过程可用。对来自源S2和S3的数据 的单源DCVE处理由独立并行处理进行处理,其在结构上类似于详细介绍 过的、应用到对来自源A的数据的单源DCVE处理的方法。
在这里用图12A与12B示出的示例中,显示出三个源,每个源被单独 净化,接着,结果被用作单源DCVE过程的输入。该方法可从这种介绍推 广,并可应用于任意数量的源的单独单源净化,接着是将来自任何一个单 源DCVE过程的结果传送到任意数量的多源DCVE过程的阶段。
自动化工作流管理技术可用于促进手动步骤2129、2114、2123、2130、 2115、2124、2131、2116、2125的协同与管理。存在多种替代实现,例如, 信号量或松耦合的分布式过程。本领域技术人员知道如何协同异步的过程。 用于协同所介绍流程的独立步骤的确切机制对本过程来说不重要。存在可 用于这些目的的对本领域实践者已知的许多种技术。
图12B示出了数据净化与值增强过程(DCVE)——其在对源特有的 项目净化完成后被应用——的源间净化值增强部分。DCVE过程可应用一 个或一个以上的源间项目比较和/或源间项目净化过程。这种源间过程的一 个示例提供了对于所有源数据集中的规格化属性的推荐值的选择。该示例 用于说明该附图的概念。这种过程的基本部件用框2138和椭圆2170表示。
从图12A到框2130表示的自动选择与增强步骤的箭头2132、2133、 2134表示当新的单源DCVE处理数据从源S1、S2、S3变得可用时控制向 着图12B的多源DCVE处理的转移。同步的方法对于本发明来说不重要。 通常,一旦来自任何输入源的新数据可用,则其可与先前从之接收到的值 进行比较,且可发生一级多源DCVE处理。在其他情况下,遵循某种固定 的调度或当来自所有期望源的完整的一组单源净化数据对于特定参考实体 可用时,成批进行多源处理可以是高效率的。框2138的处理使用来自用于 该话题的源数据集的某个子集的单独的规格化以及净化值,从而应用自动 化的商业规则来为此参考数据项选择优选或推荐值。箭头2191、2192、2193 表示从储存库检索这些值,在该储存库中,它们在图12A的单源处理过程 中被存储为用存储单元2108、2109、2110表示的已保存数据。
结果得到的推荐的源间比较与净化值接着被存储在储存库中,如箭头 2194所示。在源间净化过程中使用的事件和源以及源间净化过程的完成被 记录为ETSDT注释,其也由箭头2194反映。ETSDT也被存储在单元2140 表示的储存库中。如上所述,该单元显示,特定多源DCVE过程的结果被 保存,以便使它们可被后来的、对来自这种值创建过程的值有资格的请求 者访问。在参考数据实用工具的背景下,存储单元2140与存储单元2108、 2109、2110将共享用于如图1B中作为实用工具储存库20一部分的单元 50所表示的资格管理实体数据的公共存储。
当自动化处理不能达到希望的结果时,使用手动干预,如单元2170 所示。结果得到的推荐源间比较与净化值接着被作为日志记入ETSDT,如 箭头2175所示。这种手动过程产生的事件被类似地作为ETSDT注释记入 储存库2140。这种记入日志也用单元2175示出。
所有被接收、验证、规格化、净化并准备为目标数据集的源数据集以 及通过源间比较和/或净化过程增强的任何属性值被单独存储在ETSDT储 存库中。参考数据值的这些数据集中的每一个具有可清楚理解的寻源。 DCVE中的多个源间数据集过程产生用所有被参考源加标签的ETSDT中 的数据集。所有产生数据集的源间过程存储通过所有被参考源记入日志的 ETSDT中采取的动作。ETSDT被存储在用单元2140表示的储存库中。在 替代实施例中,在适当时可以使用不同数量的ETSDT。
自动化工作流管理技术促进了控制转移2132、2133、2134以及处理步 骤2138、2170的协同与管理。存在多个替代实现,例如信号量或松耦合的 分布式过程。本领域技术人员知道如何协同过程。
这里介绍了针对单个话题的DCVE处理的详细流程。这种处理对于每 个参考数据话题来说是可重复的,在具有以下认识的情况下:
-可能存在性质上的不同,因为某些话题几乎全部由具有原子工具数据 的许可馈给所驱动;以及
-诸如企业和对等关系人层次的话题可具有更为耦合的记录,并需要更 为积极的数据收集。
不论这些强调的性质差异,数据的模式和结构、获取、品质保证和增 强本质上是同样的交叉话题。数据获取、净化和增强过程的净效应是提供 “生产线”方案,其用于接收和设计高品质水平的参考数据,同时完全保 持对数据的可审计且透明的所有权。
图13提供了对验证、规格化、单源净化与多源的过程的高层次概览。 术语“多源处理”而不是“多源净化”被用于表示多源过程在性质上变化 很大且不仅包括数据的基本品质保证,还在不兼容值间进行选择,基于几 个源或参考多个数据源的任何其他可编程过程生成新的值。图13特别着重 于在所介绍过程的各种步骤上与相应的信息单元的ETSDT的交互。
从框2200开始的第一列介绍了验证过程。其对应于在图12A中对于 自动化版本的步骤2105、2106、2107的处理,以及对于手动版本的2129、 2130、2131的处理。验证典型地为应用于到达的数据集的第一过程,且其 功能是进行基本结构与内容验证。第一个步骤是从数据集提取源项目,用 框2201表示。这是典型地基于由数据提供者供应的源数据集说明进行的, 该说明一般详细说明头部、记录结构或定界符以及类似的信息。一旦源项 目被提取,就开始对每个源项目的完整跟踪历史。框2202表示创建或更新 每个源项目的ETSDT,以便记录源项目历史的事件。记录在ETSDT中的 前几段信息之一是项目的源,用框2203表示。由于后来项目中收集的信息 可不再通过源进行分组,所以非常希望在最低可用层次上保持源信息。一 旦完成这一点,验证规则就被应用到源项目,如框2204所示。这种规则是 典型地基于源说明信息创建的,并在源项目层次和属性层次上存在。在某 些实施例中,可能没有应用于源项目的规则。框2205表示ETSDT的注释, 以反映源项目层次的规则的应用。所存储的信息包括应用哪种规则以及应 用该规则的结果(例如通过/失败)。如果校正被应用,也对校正进行记录。 当校正被应用时(在任何层次),原始记录不被覆盖,但被保存为先前的 版本,其中ETSDT作为详细说明诸如何时、为何以及在何种过程中进行 校正的信息的历史。如果校正具有特定的源(例如,如果校正被将原始商 业文档用作源的雇员手动应用),这也被记录在ETSDT中。
一旦源项目层的验证规则被应用,则处理移动到属性层。与应用于从 源数据集提取源项目的过程类似,框2206表示从每个源项目提取属性。这 以后,为每个属性创建ETSDT,且属性的原始源被记录在ETSDT中,即 分别用框2207、2208表示的动作。属性层次的规则被应用(框2209), 且与规则应用相关联的所有结果得到的事件和源被记录在ETSDT中(框 2210)。
对于所有的源项目和属性重复过程2200到2211。
框2211表示对ETSDT的记述,其指示出以上面的方式处理的源项目 已经通过验证。验证是项目实例过程的示例,其中,数据集中的信息已经 以某种方式受到储存库影响。记录已被应用到源项目的项目实例过程是希 望的操作,因为这对于维护数据的可审计历史来说是必要的。
图13中以框2212开始的第二列描述了规格化的过程,其典型地在验 证之后。这对应于在图12A中对于自动化版本的方块2111、2112、2113 的处理,以及对于手动版本的2114、2115、2116的处理。在此时,源项目 已从原始源数据集中被提取,并被逐一选择以进行规格化,即由框2213 表示的过程。每个源项目(框2214)以这种方式被规格化:该方式被标准 提取-转换-装载(ETL)过程使用,该过程即结构修改、代码查阅、标准 应用以及类似的过程。在这种过程中做出的修改可以在源项目的层次上(例 如结构上)和/或属性层次上(例如数据格式上),并在源项目层次上(如 框2215所示)或属性层次上(如框2216所示)作为注释被记录在ETSDT 中。与验证过程一样,保存项目的原始版本。框2217表示在规格化过程完 成时项目ETSDT的注释,其指示项目已经经过规格化过程(框2217)。
以框2218开始的单源净化在第三列中示出。这对应于自动化版本中框 2120、2121、2122的处理,以及手动版本中框2123、2124、2125的处理。 框2219表示选择净化项目的第一步骤。由于不是所有的源项目都需要被净 化,该步骤的执行根据需要基于初步标记、随机采样算法或某种其他算法。 在净化过程中存在规则,该规则在源项目层次(例如与项目的不同属性之 间的相关性有关的问题)或属性层次(例如价格远远高于某个阈值)上应 用。如框2220所示,源项目层规则首先被应用。接着,如框221所示,在 应用这些规则期间生成的事件被记录在项目层ETSDT中,如同以前一样。 属性被选择,且规则在属性层次上应用,分别如框2222和2223所示。在 属性层ETSDT中记录事件,如框2224所示。如同其他的过程一样,最后 的框2225表示该过程完成时源项目层ETSDT的注释,以显示该项目已经 通过单源净化项目实例过程。
图13的最后一列示出由框2226开始的源间处理。这对应于在图12B 中自动化形式的框2138的处理以及手动形式的框2170的处理。源间处理 特别有意义,因为涉及来自多个源、引用同一真实实体(被引用实体)的 项目。这需要特别仔细地记录项目和属性源。
源间处理开始于选择包含描述同一被引用实体的信息的所有源项目。 其用框2227表示。例如,如果IBM普通股票是被引用实体,则来自源A、 源B、源C的项目——其表示由这些不同源提供的IBM普通股票——将 被选择。接着,框2228表示将这些规则应用到源项目和/或项目属性。由 于存在数量相当多的可能的源间过程,所以没有显示进一步的细节。然而, 大多数源间过程倾向于落入下列类别中的一种:
-仅从不同源提供的替代物中选择“最优”项目或否则为优选项目或推 荐项目的过程;
-基于由不同源提供的属性的某种组合创建新项目的过程;或者
-在适当的地方修改由不同源提供的项目的过程。
对于创建新的一个或多个项目的过程,创建新的对应ETSDT。这由决 定框2229和框2230表示。框2231表示在源项目层上用关于应用到该项目 的源间处理的信息进行ETSDT注释。在运行时,这种注释确切识别何种 类型的源间过程被应用。框2232表示决定点,其区分仅从其他过程选择优 选或推荐项目的源间过程的处理。如果源间过程属于这种类型,即选择已 有项目但实际上不修改属性,则在源项目层进行注释,以便指示哪些母源 与做出的选择匹配,如框2233所示。例如,如果选择了表示具有$95.50 的价格的IBM普通股票的项目,则可能一个以上的参与源间过程的源对同 一数据有贡献。在这种情况下,框2233表示的注释将包括所有这些源。作 为替代,如果源间过程属于其他两种类型中的一种,也就是说,如果其包 括在属性层的数据修改或新源项目的创建,则有必要为每个属性单独地注 释确切的该组源。在这种情况下,框2234表示对于每个受影响的属性在属 性层的适当注释。对于每个属性多个源也是可行的。
用于协同所介绍流程的不同步骤的确切机制对本过程来说不重要。存 在用于这些目的的本领域实践者知道的多种技术。
图14示出了进行单源数据集验证所需的处理。这种过程在图12A的 框2105中首次被介绍,并在图13的单元2200到2211中详细说明。
在这种过程期间,原始项目值和原始属性值以及对这些值的所有修改 被存储在储存库中。框2320表示项目ETSDT在哪里被更新,框2321表 示属性ETSDT在哪里被更新。
验证的开始用框2305表示。所有应用于此步骤的规则为对源特有的; 不允许源间处理。接着,如框2307所示,源被验证,数据集被接收。如果 源是无效的,则数据集被记录,且整个数据集被发送到源验证的手动处理。 否则,做出数据集接收的记录,并获得验证该数据集的规则,即分别由框 2309和2310所示的行为。这些规则在文件、数据库或其他合适的存储中。 框2312表示从数据集提取第一个源项目。该项目及其源被记录,ETSDT 被创建;框2314和2316表示这些行为。
第一个可应用规则被应用到该项目,用框2318表示。如果该项目通过 规则应用,即菱形2322表示的决定,则执行附加的查询,如菱形2350所 示,以便搜索附加规则。如果找到了附加规则,该规则被应用到该项目, 仍用框2318表示。如果项目没有通过菱形2322表示的规则应用,则在 ETSDT中记录错误,用框2325表示。在错误被记录后,基于用于校正错 误的规则或被应用规则中的信息,系统试图进行自动校正,用框2330表示。 试图进行的校正的成功或失败用菱形2335表示。框2345表示如果问题不 能被校正则采取的动作,其中,项目被标记为需要校正。在项目标记之后, 过程继续,搜索更多的规则,如上所述用菱形2350表示的同样的查询。如 果项目被自动校正,则校正以及用于进行校正的规则被记录在ETSDT中, 用框2340表示。过程继续,搜索更多的规则。
如果菱形2350表示的查询没有返回应用于该项目的附加规则,则发生 与该项目相关联的属性的提取,用框2360表示。属性及其源被记录,并且 ETSDT被创建或更新,分别用框2362和2364表示。框2366表示将第一 可应用规则应用到属性。如果属性通过规则应用,即用菱形2368表示的决 定,则执行附加查询以搜索附加规则,如菱形2390所示。如果找到附加规 则,则将该规则应用到该项目,仍用框2366表示。如果属性没有通过菱形 2368表示的规则应用,则在ETSDT中记录错误,用框2370表示。在错误 被记录之后,基于包含在用于校正错误的规则或被应用规则中的信息,系 统试图进行自动校正,用框2372表示。试图进行的校正的成功或失败用菱 形2374表示。如果错误被自动校正,则将校正和用于进行校正的规则记录 在ETSDT中,用框2378表示。过程继续,检查更多的属性规则。框2376 表示如果错误没被自动校正则采取的动作,其中,属性被标记为需要校正。 在项目标记之后过程继续,搜索更多规则,如上所述用菱形2390表示的同 样的查询。
如果菱形2390表示的查询没有返回应用于该属性的附加规则,则过程 搜索附加属性,用菱形2392表示。如果找到另一属性,则其被提取(框 2360),并进行对于新属性的规则检查。如果菱形2392表示的查询没有返 回对于该项目的附加属性。则过程在数据集中搜索附加项目,即用菱形 2394表示的查询。如果查询找到附加项目,则如框2312所示,开始为新 项目进行项目和属性检查。如果菱形2394表示的查询没有返回附加项目, 则进行检查,看看在源数据集处理过程中是否找到任何错误,如菱形2396 所示。如果没有找到错误,验证过程终止(方块2380)。如果找到了错误, 则对被确定为需要校正的所有项目和属性进行调度,以便进行手动验证(或 手动校正),用框2385表示,并且验证过程终止(方块2380)。
用于在并行地继续处理数据集中没有错误的部分的同时对手动验证进 行调度以及将控制传递到它的确切机制对本过程来说不重要。存在可用于 这些目的的本领域的实践者知道的多种技术。
图15示出了执行源输入流的规格化所需要的处理,其用图12A中的 框2111表示。该过程在图13中的框2212到2217中详细说明。
在该过程期间,原始项目值与原始属性值以及对这些值的所有修改被 存储在储存库中。框2420表示项目ETSDT在哪里被更新,框2421表示 属性ETSDT在哪里被更新。
框2405表示规格化的开始,接着,如框2407所示,接收被验证的数 据集。做出接收该数据集的记录,并获得用于对该数据集进行规格化的规 则,分别如框2409和2410所示。由于其为单源规格化过程,所有规则是 对源特有的,不依赖于来自任何其他源的数据或信息。这些规则在文件、 数据集或其他合适的存储中。
从数据集中提取第一个项目,如框2412所示,接着将第一个规则应用 到该项目,如框2418所示。如果项目通过规则应用,如决定菱形2422所 示,则对数据集进行检查,看是否有附加的可应用规则,如菱形2450所示。 如果找到附加规则,其被应用到该项目(框2418)。如果项目没有通过如 决定菱形2422所示的规则应用,则错误被记录在ETSDT中,如框2425 所示。在错误被记录后,基于用于校正错误的规则或被应用规则中的信息, 系统试图进行自动校正,用框2430表示。试图进行的校正的成功或失败用 菱形2435表示。框2445表示如果问题不能被校正所采取的动作,其中, 该项目被标记为需要校正。在项目标记之后,过程继续,搜索附加规则, 用上面的菱形2450表示的同样的查询。如果项目被自动校正,则校正以及 用于进行校正的规则被存储在ETSDT中,如框2440表示。过程继续,搜 索更多的项目规则。
如果菱形2450表示的查询没有返回应用于该项目的附加规则,则发生 与该规则相关联的属性的提取,如框2460所示。第一个可应用规则被应用 到该属性,如框2466所示。如果属性通过了规则应用,即菱形2468表示 的决定,则对数据集进行检查,看有没有更多的属性规则,如菱形2490 所示。如果找到附加规则,则将之应用到该属性(框2466)。如果属性没 有通过用菱形2468表示的规则应用,则错误被记录在ETSDT中,如框2470 所示。框2472表示基于包含在用于校正错误的规则或被应用规则中的信息 所试图进行的对错误的自动校正。试图进行的校正的成功或失败用菱形 2474表示。如果错误被成功校正,则校正该错误的规则与该校正被记录在 ETSDT中,如框2478所示。过程继续检查,看有没有更多可应用的属性 规则。如果错误没有被自动校正,则属性被标记为需要校正,如框2476 所示。在项目标记后,过程继续进行检查,看有没有更多可应用属性规则。
如果在决定菱形2490中没有找到附加规则,则对项目进行检查,看有 没有附加属性,如决定菱形2492所示。如果找到另一属性,则对之进行提 取,并进行对新属性的规则检查(2460)。如果没有找到附加属性,则对 数据集进行检查,看有没有附加项目,如菱形2494所示。如果找到附加项 目,从数据集对之进行提取,框2412,并开始项目与属性检查。如果没有 找到附加项目,则过程进行检查,看是否在源数据处理过程中找到任何错 误,如菱形2496所示。如果没有找到错误,规格化处理终止(框2480)。 如果找到任何错误,则对所有被确定为需要校正的项目和属性进行调度, 以便进行手动规格化(或手动校正),用框2485表示,且自动规格化终止 (框2480)。
用于在并行地继续对数据集中无错误部分的处理的同时对手动规格化 进行调度并将控制传递到它的确切机制并不重要。存在可用于这些目的的 本领域已知的许多技术。
图16显示出进行数据集净化所需要的处理,其用图12A中的框2120 表示。该过程在图13中的框2218到2225中详细说明。
在该过程期间,原始项目值与原始属性值以及对这些值的所有修改被 存储在储存库中。框2520表示项目ETSDT在哪里被更新,框2521表示 属性ETSDT在哪里被更新。
框2505表示净化的开始。接着,框2507表示接收验证后的数据集。 做出数据集接收的记录,并获取用于净化该数据集的规则,分别如框2509 和2510所示。由于其为单源净化过程,所以对数据集来说,所有规则是对 源特有的,不依赖于来自任何其他源的信息或数据。这些规则在文件、数 据库或其他合适的存储中。
第一个项目从数据集中被提取,第一个可应用规则被应用到该项目, 分别如框2512、2518所示。如果项目通过了规则应用,用决定菱形2522 表示,则对数据集进行检查,看有没有更多的可应用规则,如菱形2550 所示。如果找到附加规则,则在框2518中将其应用于该项目。如果项目没 有通过规则应用,用决定菱形2522表示,则错误被记录在ETSDT中,如 框2525所示。在错误被记录后,基于用于校正错误的规则中的信息,系统 试图进行自动校正,用框2530表示。试图进行校正的成功或失败用菱形 2535表示。框2545表示如果问题没有被校正则采取的动作,其中,该项 目被标记为需要校正。在项目标记之后,过程继续,以搜索附加规则,即 用上面的菱形2550表示的相同的查询。如果项目被自动校正,则将校正与 用于进行校正的规则记录在ETSDT中,如框2540所示。接着过程继续, 搜索更多的可应用项目规则。
如果菱形2550表示的查询没有返回应用于项目的附加规则,则发生与 该项目相关联的属性的提取,如框2560所示。第一个可应用规则被应用到 该属性,如框2566所示。如果属性通过了规则应用,即用菱形2568表示 的决定,则对数据集进行检查,看有没有更多的可应用规则,如菱形2590 所示。如果找到附加规则,则将之应用到该属性(框2566)。如果属性没 有通过菱形2568表示的规则应用,则在ETSDT中对错误进行记录,用框 2570表示。框2572表示基于包含在该规则中的信息或基于用于校正错误 的规则的自动误差校正。试图进行的校正的成功或失败用菱形2574表示。 如果错误被成功校正,则校正该错误的规则和校正被记录在ETSDT中, 用框2578表示。接着过程继续,检查附加的可应用属性规则。如果错误没 有被自动校正,则将属性标记为需要校正,如框2576所示。在项目标记之 后,过程继续,以便在决定菱形2590中检查更多的可应用属性规则。
如果没有找到附加规则,则对项目进行检查,看有没有附加属性,如 决定菱形2592所示。如果找到另一属性,则在框2560中对之进行提取, 并且进行对新属性的规则检查。如果没有找到附加属性,则对数据集进行 检查,看有没有附加项目,如菱形2594所示。如果找到附加项目,则在框 2512中从数据集对之进行提取,并开始属性检查。如果没有找到附加项目, 则过程进行检查,看是否在源数据处理过程中发现任何错误,如菱形2596 所示。如果没有发现错误,则规格化过程终止(框2580)。如果找到任何 错误,则对被确定为需要校正的所有项目和属性进行调度,以便进行手动 净化(或手动校正),用框2585表示,并且自动净化终止(框2580)。
用于在并行继续对数据集中没有错误的部分的处理的同时对手动净化 进行调度并将控制传递到它的确切机制不重要。存在可用于这些目的的本 领域中已知的许多技术。
图17示出了校正验证错误的过程,其是一种手动验证过程,在图12A 中用框2129表示。
框2605表示手动验证开始。所做的第一件事——用框2615表示—— 是接收验证错误列表。当这些错误被接收到时,手动验证过程的激活被记 录在ETSDT中。在此之后,提取错误条目,如框2620所示。决定菱形2625 将错误条目的标识表示为源项目或属性。如果错误条目是对于源项目的, 则对所有相关联的属性以及任何其他相关信息进行收集,如框2630所示。 否则,具有相同源项目且正被考虑的所有属性以及其他任何有关信息被收 集,如框2665所示。框2655表示的收集是这样的一组属性:其具有错误, 所有这些错误与同一项目相关联,但该项目没被包括,因为其不包含任何 错误。如框2630所示,如果项目具有错误,则其所有属性无论有无错误都 被收集。这样做是因为在某些情况下,项目错误影响属性处理。在上述任 一情况下,请求人工协助,用框2635表示,且对于错误的人工劳动的特征 被记录在ETSDT中。该信息被传递到对该错误进行校正的人。手动校正 过程进行等待,一直等到该错误被校正,即框2640,然后,将该校正记录 在ETSDT中。过程继续并进行检查,看是否有附加的错误,即用决定菱 形2645表示的查询。如果存在附加错误,提取下一个错误条目。否则,所 有错误已被收集,这意味着被验证,于是处理继续进行,对验证后的项目 与属性进行调度以便进行自动规格化,如框2650所示。最后,手动验证终 止(框2655)。
图18A示出了校正规格化错误的过程,即在图12A中用框2114表示 的手动规格化过程。框2705表示手动规格化通过接收规格化错误列表而开 始。手动规格化过程的激活被记录在ETSDT中。在此之后,提取错误条 目,如框2715所示。决定菱形2720将错误条目的标识表示为源项目或属 性。如果错误条目是针对项目的,则所有相关联的属性以及任何其他有关 信息被收集,如框2725所示。否则,所有具有同一项目且正在被考虑的属 性以及任何其他有关信息被收集,如框2727所示。框2727表示的收集是 一组这样的属性:其具有错误,所有错误与同一项目相关联,但该项目未 被包括,因为其不包含任何错误。如框2725所示,如果项目有错误,则其 所有属性无论有无错误均被收集。这样做是因为在某些情况下,项目错误 影响属性处理。在上述任一情况下,请求人工协助,用框2730表示,且对 于错误的人工劳动的特征被记录在ETSDT中。该信息被传递到对该错误 进行校正的人。手动校正过程进行等待,直到该错误被校正,即框2735, 然后,将该校正记录在ETSDT中。过程继续并进行检查,看是否有附加 的错误,即用决定菱形2740表示的查询。如果存在附加错误,则提取下一 个错误条目。否则,所有错误已被收集,这意味着被校正,于是处理继续 进行,对规格化后的项目与属性进行调度以便进行自动净化,如框2745 所示。最后,手动规格化终止(框2750)。
图18B示出了校正净化错误的过程,即在图12A中用椭圆2123表示 的手动净化过程。框2760表示手动净化通过接收净化错误列表而开始。手 动净化过程的激活被记录在ETSDT中。在此之后,提取错误条目,如框 2765所示。决定菱形2770将错误条目的标识表示为源项目或属性。如果 此错误条目是针对项目的,则所有相关联的属性以及任何其他有关信息被 收集,如框2775所示。否则,所有具有同一项目且正在被考虑的属性以及 任何其他有关信息被收集,如框2772所示。框2772表示的收集是一组这 样的属性:其具有错误,所有错误与同一项目相关联,但该项目未被包括, 因为其不包含任何错误。如框2775所示,如果项目有错误,则其所有属性 无论有无错误均被收集。这样做是因为在某些情况下,项目错误影响属性 处理。在上述任一情况下,请求人工协助,用框2780表示,且对于错误的 人工劳动的特征被记录在ETSDT中。该信息被传递到对该错误进行校正 的人。手动校正过程进行等待,直到该错误被校正,即框2785,然后,将 该校正记录在ETSDT中。过程继续并进行检查,看是否有附加的错误, 即用决定菱形2790表示的查询。如果存在附加错误,则提取下一个错误条 目。否则,所有错误已被校正,这意味着被净化,于是手动净化终止(框 2795)。
图19示出了用于实现图12B中框2138表示的源间过程的一般框架的 流程图。推荐值是源间过程的示例。这种描述说明在单源净化完成后的源 间过程的应用。这是有利的实施例。然而,如果需要,可以在不同阶段应 用源间过程。
椭圆2800表示当所有备选数据集准备好被处理时处理开始。当源数据 集准备好时,标准技术发起源间过程。首先,所有净化后的备选源数据集 被打开,如框2802所示。接着,框2804表示记录所有被参考数据集。如 果输出为新数据集,这将需要为新数据集创建ETSDT。如果输出为对由同 一过程产生的已有数据集的更新,则已有数据集的ETSDT被更新。获取 用于源间过程的所有规则,如框2806所示。框2808是循环的开始,其中, 在每次迭代时,一个项目从包含它的所有数据集中被提取。如果创建新的 数据集,则为该新项目创建新的ETSDT,且包含该项目的数据集被记录在 ETSDT中,如框2810所示。框2822表示将规则应用到可用项目,其产生 新的项目值。源间处理的目的是产生值。有时先前不存在的新值被产生。 其他过程通过选择先前已知值中的一个来产生它们的值。源间处理通过上 述任一方法得出新值。如果项目通过用菱形2820表示的规则应用,则检查 附加规则(菱形2823)。如果发现了更多的规则,则应用该规则(框2822)。
如果新项目没有通过规则应用,则错误和对之进行校正的尝试被记录, 如框2830所示。接着,菱形2815表示进行检查,看校正是否成功。如果 校正成功,则新值和用于进行校正的规则被记录在ETSDT中,如框2816 所示。如果校正不成功,则当前值被标记以便进行干预,如框2835所示。 在成功或不成功的校正的任一情况下,处理继续进行,以检查有没有更多 的规则,即菱形2823表示的查询。
在涉及属性层处理的情况下,当没有发现附加规则时,框2824表示从 包含被提取项目的所有数据集提取属性。属性与包含它的所有数据集被记 录在ETSDT中,如框2828所示。如果该属性为新数据集被创建,则在此 时创建新的属性ETSDT。如果该属性在已有数据集中更新,则进行对已有 数据集的ETSDT的记录。有时针对已有的数据集找到新属性,这导致创 建新的ETSDT。接着,应用规则,用框2826表示。规则应用的成功或失 败用菱形2840表示。如果属性通过规则应用,则处理检查是否有附加的可 应用规则,用菱形2845表示。如果找到附加规则,在框2826中应用下一 个规则。如果属性没有通过规则应用,如菱形2840所示,则对错误进行记 录(框2875),并试图进行校正。试图进行的校正的成功或失败用菱形2876 表示。如果校正成功,则用于校正该属性的所有规则以及新属性值被记录 在ETSDT中,用框2877表示。如果校正不成功,则对该属性进行标记以 便进行干预,如框2878所示。在成功或失败的两种情况下,校正处理继续 进行,以检查有没有更多的规则(框2845)。
如果没有找到附加规则,处理进行检查,看有没有附加属性,如决定 菱形2850所示。值得注意的是,并没有假设所有源数据集在它们包含同一 项目时具有与每个项目相关联的同样的属性。更多的属性将继续被处理, 直到每个源数据集中的所有属性已被处理完。然而,每个属性被处理一次, 无论它在多少个源数据集中出现。
如果没有找到附加属性,则处理进行检查,看有没有附加项目,如菱 形2855所示。值得注意的是,并没有假设所有源数据集包含同样的项目。 只要任何源数据集中仍有任何项目,菱形2855表示的查询的结果就为真。 然而,每个项目被处理一次,无论多少个源数据集中包含它。有效地,一 旦每个项目在包含它的源数据集中的一个中被发现,其在包含它的每个源 数据集中被标记为已处理。一旦所有的项目被菱形2855表示的查询取尽, 则处理继续进行,以检查有没有错误,用菱形2860表示。如果任何项目或 属性已被标记为需要干预,则对手动源间校正行调度,如框2865所示。 这种过程与单源校正类似,因为其请求人工干预来对错误进行校正。该过 程的调度、进行干预的人以及所产生的值都被记录在ETSDT中。在手动 源间校正已被调度之后,源间过程终止(框2870)。如果没有找到错误, 则源间过程终止(框2870)。
此内容以对本发明的这种数据净化与品质增强方面的流程图的介绍为 结束。在我们的优选实施例中,工作流用于实现这里介绍的流程以及过程。 替代实施例使用脚本、离散分布式过程或所有这些的组合。任何合适的机 制或编程语言可用于实现这里介绍的流程和过程。
D.请求式数据集传送处理
本发明的这一方面提供了灵活的可缩放的多租户信息检索与传送系 统,该系统支持多个独立客户组织,每个组织具有自己的数据兴趣、数据 资格和数据传送需求。本发明的这一方面有效地使得数据传送机制成为可 能,该机制与单个储存库交互,以便服务于多个客户和/或请求者,即使每 个请求者仅对多元多租户数据储存库(进一步被称为“储存库”)中的某 个数据子集有资格,或者在更宽广的背景下,仅对可从参考数据实用工具 获得的参考数据的某个数据子集有资格。
对信息检索和传送的请求由请求者呈现为产生和传送请求式数据集的 请求。请求式数据集的说明允许请求者控制:(1)数据集中供应的信息, (2)偏好,基于该偏好,信息源用于供应针对被选择信息元的值,(3) 数据传送模式,(4)数据被提供时的格式,以及(5)用于建立与请求者 的连接并影响传送的通信与数据传送控制信息。满足请求式数据集请求的 数据由上面在部分B中介绍的方法对多元多租户数据储存库进行检索。数 据资格的强制执行——保证请求者不会从它们没资格的信息源接收值—— 在请求式数据集传送处理中由附加逻辑提供或由储存库提供。本发明支持 的传送模式包括:(1)请求式数据集,其可包含根据需要用于点对点 (ad-hoc)查询的单个一次性传送实例,(2)复现的成批传送实例,以及 (3)准实时传送。
所介绍的用于请求式数据集传送的装置和方法支持多个用户,其中每 个用户具有并行未解决的对于请求式数据集的多个请求。该方法具有灵活 性,并能够支持大范围的请求传送和检索要求,因为该任务的不同方面已 被分为请求式数据集请求说明的不同说明单位。该方法是可缩放的,以便 允许多个请求的并行处理,并支持多个请求者、其中每个请求者具有多个 请求,因为其利用所述的划分,以便允许对请求式数据集请求的自动化处 理。每个到达的请求式数据集请求将其说明自动编译到请求式数据集产生 过程中,该过程接着被执行,从而检索出所需要的数据并将之传送到请求 者。本发明支持对于上面所列的单独的请求式数据集方面的被允许说明的 任意组合。
本发明的这一方面还向用户提供了以用户特有的格式或行业标准格式 对数据传送指定输出格式的能力。本发明允许信息向用户的传送采用将被 识别的数据加载到该用户拥有的数据集市中的形式。本发明提供了保证完 全的过程透明性、认可、记账与其他审计目的的审计与记入日志能力。
该方法对于参考数据的数据传送是一种有效的请求式方案。通过使复 杂但关键的传送功能得到集中化和高度杠杆处理,支持被组织为自动化可 扩展系统的、对不同话题、源、品质、模式与格式的多种客户要求进行支 持的能力提供了有价值的服务。
所介绍的本发明支持用户与数据源隐私。由于为每个请求式数据集请 求生成独立的生产过程并强制执行数据资格,所以没有用户或数据源能发 现关于其他用户或数据源的数据、查询或者向它们传送和检索信息的其他 动作的信息。
该方法在这里被介绍为其应用于由金融服务企业使用的参考数据。如 上所述,在多源多租户数据储存库20的背景下,使得请求式数据集的灵活 且可缩放的传送成为可能的方法具有许多其他可能的应用领域。多源多租 户数据储存库20管理储存库信息元、相关联的元数据、资格、增值功能和 文档,并为其提供永久存储。对用户信用信息、政府规章与注册信息以及 电信使用率信息的访问是该方法已经使用的三个附加示例。该方法使用并 具有参考数据的背景的特性为:(1)来自许多源的信息;(2)存在潜在 地位于独立组织中的多个用户,其需要访问同一信息但潜在地具有不同的 源资格权利;(3)被参考信息主要由用户以只读模式访问,除在它们参与 校正无效值时以外;(4)高品质及时信息的收集既是有价值的又是复杂的, 因此,实用工具方案、共享基本设施和共享数据品质增强的高效率提供了 显著的好处;以及(5)资格强制执行和隐私管理必须由这样的实用工具提 供。尽管本发明在金融服务参考数据的背景中——其是一个重要的应用领 域——介绍,但这里揭示的方案使得提供满足上面的要求的数据访问的有 效实用工具成为可能,其在任何具有这些要求的背景中是有价值的。
图20A为用于响应于请求式数据集请求产生请求式数据集的流程图。 该图中的框3100是表示整体方法的外框。在参考数据实用工具的背景中, 这对应于在图1A的方块21中首次介绍的客户数据传送处理。该流程图中 开始的步骤即框3101表示接收到产生单个请求式数据集的单个请求式数 据集请求。
框3101表示接收到请求式数据集请求。本发明不对通过其传递请求的 信道的类型进行指定。本发明定义了请求的内容,并允许输入请求以与其 被传送的方式一致的方式被格式化。本发明支持经由任何数量的通信协议 和语义接收请求。请求者认证和授权在该步骤中被处理,其中未被授权的 请求被记入日志并丢弃。有效请求以图22A中更为详细地介绍的数据元 3116所示的内部形式被保存。出于可跟踪性和认可目的,对请求式数据集 请求的接收也被记入日志。
将框3101与数据元3116相连的虚线显示,请求式数据集请求说明作 为在框3101中收到的请求式数据集请求的一部分被接收。数据元3116表 示的请求式数据集请求说明在后面的处理步骤中作为输入可用。
框3102表示解析、验证和分析在请求式数据集请求中接收到的请求式 数据集请求说明(数据元3116)的动作。解析、验证和分析步骤在图20B 中更为详细地介绍。其继以框3103,框3103表示建立产生请求式数据集 的过程的动作。该过程通过由参数化的活动构造块中汇编工作流过程而创 建。替代实施例是通过对用于所有请求式数据集的工作流的部分进行参数 化来实现这一点。本领域技术人员明了静态或动态地为预先指定的任务构 建脚本或工作流所需要的技术。框3103表示的处理在图21A中更为详细 地介绍。框3104表示执行如框3103所示的被汇编或部署的请求式数据集 产生过程;这将产生被请求的数据集并将之传送给请求者。决定框3105 显示,该方法的外结构是一个循环;在处理请求式数据集请求之后,控制 循环返回并逻辑地处理下一个对请求式数据集的请求。
图20A示出了该方法的最简单的逻辑形式,其中,对请求式数据集的 请求在单个循环中被循序处理。有利的实施例使用本领域技术人员公知的 并行技术扩展该图示,以允许由框3101、3102、3103、3104、3105组成的 循环的多个实例并行处理。这种扩展使得该方法能够同时处理多个对请求 式数据集的请求。
请求式数据集请求能够修改或终止先前的请求式数据集请求的结果。 这是作为对作为先前请求的结果而创建的过程进行动态替换或终止得到处 理的。如何对这些请求进行调度或者在哪里对它们进行调度或者构建允许 终止或替换先前被调度的任务的调度器不是本发明的重点。这些功能对本 领域技术人员来说是公知的。
图20B示出了在请求式数据集请求说明的分析与解析中的步骤的流程 图,其更加详细地介绍了图20A的框3102所示的动作,其中,请求式数 据集请求说明被解析、分析和验证。
图20B的外框是在图20A中首次介绍的框3102。分析与解析步骤的 输出是数据的被解析块,其表示说明中的信息,但现在已经被组织用于适 用于精确产生被请求数据的过程的汇编。框3106表示建立空输出结构的初 始化步骤,被解析块可被添加到该结构中。请求式数据集请求说明是被组 织为多个在词汇上不同的部分或节(stanza)的参数块或文本结构,每个 部分或节处理请求式数据集的特定方面。每个节可望包含关于请求式数据 集的一个方面的信息。框3107获得输入说明的下一个节,也是节处理循环 的开头方块。决定框3108决定节类型。关键的节类型为:选择数据过程、 寻源策略、传送模式说明、数据输出格式选择以及数据传送与传输特性。 节类型和每个节类型中提供的信息在图22A与22B中更为详细地讨论。框 3109、3110、3111、3112、3113为这些节类型的每个提供了不同的解析分 析和验证逻辑。尽管这些节表示请求式数据集请求说明的关键需要的方面, 但附加的节类型是可能的。该部件的结构是可扩展的。在替代实施例中, 请求者特有的节类型是允许的。节类型特有的解析的结果是解析后的输出 块。流程图中的框3114显示,在节类型特有的解析完成时,结果得到的解 析后的输出块被添加到输出中。决定框3115测试请求式数据集请求说明是 否已得到完整的处理,或者是否还有待解析的附加节。如果有更多的节可 用于解析,则控制循环回到框3107以便对下一节进行处理。如果输入说明 被完全解析,则控制流出框3102,解析、分析与验证完成。
请求式数据集处理的一个重要方面是请求式数据集的每个不同方面被 指定并接着被单独解析。所述的分离使得请求式数据集能够满足从共享多 源多租户数据储存库向许多用户提供数据传送所需的多种数据选择和传送 需求。这里介绍的方法的有利实施例提供了对这些方面的每个的初步的详 细说明。通过在请求式数据集的这些独立方面的每个中提供更为丰富的选 项,可完成对该方法的简单扩展。
最初在图20A中介绍的数据元3116是请求者用于供应请求式数据集 请求说明的数据结构。该说明是对由框3102表示的解析、分析与验证处理 的输入。请求式数据集请求说明的数据结构在图22A与22B中详细说明。
数据元3117表示作为来自框3102的流程的输出产生的、解析后的请 求式数据集说明。这种解析后的说明被用作图21A中的输入,其中,用于 产生特定的请求式数据集的定制请求式数据集工作流被汇编。
图21A为一流程图,其示出了建立定制的请求式数据机产生过程中的 步骤,其更为详细地说明了图20A介绍的框3103所示的动作。这是汇编 和部署适用于如数据元3117所示的解析后的请求式数据集请求说明的要 求的、定制的请求式数据集产生过程的步骤。
流程从图21A的框3201开始,其中,拾取下一个可从数据元3117获 得的块。框3202从可用活动构造块的库中定位匹配的活动构造块。该库用 数据元3210表示,并在图21B中更为详细地介绍。框3203表示这样的动 作:将从数据元3117获得的信息和参数应用到匹配的活动构造块,以便产 生适用于提供创建被请求的请求式数据集的过程阶段所需的确切功能的特 定活动。框3204保存该适应性活动,使得其随后可用于汇编到完整的过程 中。决定框3205是这样的测试:其确定解析后的数据中的所有块是否都被 处理以及是否为所有块产生适应性活动。如果没有,控制循环返回,并在 框3201上恢复,以便进行下一次迭代。
当所有解析后的说明信息已被处理并被转换为一组参数化(适应性) 活动块后,到达框3206。框3206所表示的处理是将这些活动块排序为正 确的顺序,插入用于没有为之供应说明的任何阶段的默认活动块,并提供 产生一组适应性活动的整体控制流程,该流程是请求式数据集产生过程的 基础。框3207涉及将特有的收听器(listener)添加到该过程中。
如果过程必须对从中针对请求式数据集对数据元进行选择的多源多租 户数据储存库中新信息的到达敏感,需要收听器。收听器的存在使得请求 式数据集产生过程对来自用户的执行时间控制命令敏感,所述命令例如附 加数据何时将被传送的提示。替代实施例用于附着被包括在来自活动构造 块库的单独构造块中的收听器,并针对所需的特定连接对这些收听器功能 进行参数化。任何用于使能信息异步接收的技术适用于使能这些收听者。
尽管这里介绍的构造块的库和节表示请求式数据集请求说明的关键需 要的方面,但附加的节类型也是可能的。
框3208表示部署被汇编的请求式数据集产生过程的动作,使得其准备 好被执行用于被请求的请求式数据集的运行时产生和传送。这一点用到框 3104的虚线箭头表示。框3104在图23A与23B中更为详细地介绍。
在完成框3208表示的活动之后,控制流出框3103。被部署的过程的 初始化用图20A中介绍的框3100的顶层流程的框3104表示。
本领域技术人员所公知的例如工作流处理的技术用于实现和管理所生 成的请求式数据集产生过程。框3103表示的该过程的有利实施例使得同样 的基本过程模板适用于产生特定过程,其被定制为产生被请求的请求式数 据集。对本领域技术人员来说显而易见的替代实施例用相同的逐个阶段的 构造过程为每个请求式数据集请求生成单独的过程。另一替代方案使用参 数化的静态工作流。另一个实施例使用编译器。本领域技术人员意识到, 存在许多技术可用于产生这样的过程:该过程产生请求式数据集。合适的 调度机制在框3104中使用。
图21B示出了活动构造块库的内容。基本活动构造块库在图21A中被 介绍为数据元3210。针对请求式数据集产生过程的每个主要阶段提供基本 活动构造块。框3212显示出针对项目选择阶段的活动构造决;框3213显 示出针对寻源策略的活动构造块;框3214显示出针对传送模式的活动构造 块;框3215显示出针对传送与传输阶段的活动构造块;框3216显示出针 对输出格式阶段的活动构造块。
这些活动构造块的每个的特定能力在图23A与23B中更为详细地介 绍,其中,详细说明了产生和传送请求式数据集的请求式数据集产生过程 的阶段和步骤。
在替代实施例中,附加的活动构造块被添加到库中。附加活动构造块 的示例是这样的特殊活动构造块:其处理用请求式数据集中的信息加载用 户数据集市,而不是仅仅将数据如文中所介绍的那样传送到请求者。在另 一实施例中,这些过程被以某种方式进行因子分解,以便将此处理的部分 分发到请求者,或者,增加活动构造块的数量或减少活动构造块的数量。 本发明的要点在于发生这些过程;任何特定实现中使用的确切因子分解由 本领域技术人员决定。
图22A显示出请求式数据集请求说明的组织。请求表示来自一个请求 者的单个请求说明。该方法允许单个人、应用或组织做出这样的请求:其 同时具有多个未解决的请求式数据集请求。从传送方法的观点来看,处理 来自单个终端用户的多个并行请求式数据集请求与来自独立终端用户的多 个并行请求式数据集请求没有区别。
请求式数据集请求说明的单独部件被示为框3301-3305,其中的每一个 在下面详细介绍。请求式数据集说明的这些部分中的每一个是单独的节, 其可被图20B中的框3102表示的节处理的单独迭代进行解析和处理。这 里介绍的请求式数据集请求说明的部件表示成功汇编和传送请求式数据集 所必须的关键所需方面。说明中指定的附加方面也是可能的。
框3301表示选择数据指定单元。其指定这样的信息元:该信息元的值 将被传送到被请求的请求式数据集中。说明单元以针对储存库实体元数据 和特性的查询或过滤器的形式,其使用关于话题、子话题以及储存库实体 中的其他属性与值的判定。具体而言,过滤器确定感兴趣的储存库实体以 及这些储存库实体的这样的特性与属性:对于该特性与属性,值将被返回 数据集中。选择标准包括对项目进行选择的任何合理的条件,诸如兴趣列 表、时间约束、多种分类等。关系查询是一种可能的实现。请求者从对于 每个被选储存库实体的每个被选择属性或特性的一组有资格的可用当前值 接收一个或一个以上的当前值。
框3302表示源策略指定单元,有时也叫做源偏好,其中源偏好可被指 定。优选实施例对于产生属性值的项目实例过程与源使用简单偏好顺序。 如果对于特定元存在该请求者有资格的可用值的选择,则使用所供应的偏 好顺序中的第一个这样的值。除了实际数据起源以外,项目实例过程出现 在该偏好顺序中。例如,请求者指定在明确使用特定数据起源与使用通过 某种输入净化与增强过程——该过程在比较从多个数据起源接收的值之后 选择一个值——获得的推荐值之间的偏好顺序。在替代实施例中,提供对 于源的默认排序,以便处理请求者没有对之进行指定的情况。
另一个替代实施例供应了更为复杂的寻源策略,该策略对其所应用于 的信息元敏感。这种策略指定带条件的源偏好排序,其经受对于信息元的 特性、属性值或元数据的判定。例如,在金融参考信息的背景中,请求者 指定,关于普通股票,源A优于源B,而关于公共与政府债券,源B优于 源A。通过判定灵活描述偏好。例如,请求者表达针对在特定交易所交易 的股票的特定源的偏好,或者,来自特定源的最近到达的或未确认的数据 可能不被信任。
复杂寻源策略的替代实施例使用一组规则,每个规则具有简单偏好顺 序或对上述项目的值和特性敏感的带条件的偏好的形式。当应用寻源策略 选择值以便包括在请求式数据集中时,通过寻源策略步骤依次评估这些规 则,并且结果得到的优选值被选择。
框3303表示传送模式指定单元。传送模式是为请求式数据集给出响应 不同请求者要求的显著灵活性的特征。其允许请求者创建具有单个一次性 传送实例的请求式数据集或具有复现的传送实例的请求式数据集。下面在 图22B中提供传送模式的更为完整的介绍。
框3304表示传送和传输指定单元。用户供应管理连接与通信协议的信 息以及请求式数据集中的每个传送实例需要的认证检查。数据集传送与传 输指定单元还为每个传送实例提供建立连接需要的网络寻址、协议和认证 信息。这包括用于初始化从储存库与传送方法到请求者的传送实例连接的 认证特性与“出站”连接。其还包括允许请求者连入并发起传送实例的认 证信息与入站连接。如果出站连接被指定,则请求者定义在哪里、如何建 立连接;如果连接是入站的,则其指定必要的认证。在任一情况下,用于 对传送数据集进行传递的文件或数据传送协议被指定。在请求者供应适合 的数据库加载参数的情况下,数据集市被指定为传送目标。于是,诸如表 复制机制的技术适用于使能这种传送选项。
在这里介绍的有利实施例中,在传送模式指定单元的特性中提供调度 信息,该信息确切管理请求式数据集的下一个传送实例何时发生。替代实 施例将该信息与数据集传送传输指定单元封装在一起。
框3305表示输出格式指定单元,其允许请求者指定对请求式数据集和 其包含的信息元的传送格式进行管理的传送规则和数据格式。储存库中的 每个信息元具有一个或一个以上的优选数据输出格式。例如,当向请求式 数据集添加金融工具数据时,使用例如市场数据描述语言(MDDL)或ISO 金融工具结构20022的公共标准。输出格式单元允许请求者在标准格式之 间进行选择或指定某种定制格式。
请求式数据集请求说明的值的一部分是该说明被结构化为单独的单 元,以便允许所述分离。
图22B显示出请求式模式案例(case)树,其详细说明了图22A中介 绍的不同传送模式。照此,其是表示传送模式指定单元的框3303的扩展描 述。图22B是树状结构,树的较低层是其母单元的子案例。框3306是表 示传送模式的根节点。请求式数据集或者是一次性传送、如框3307所示, 或者是复现传送、如框3308所示。
框3307表示一次性传送。通过向储存库的当前状态应用一个或一个以 上的检索操作、将检索后的信息进行汇编并将之传送到请求者作为对于该 请求式数据集的单个传送实例,而产生具有一次性传送模式的请求式数据 集。
框3308表示复现传送。具有复现传送模式的请求式数据集说明多个传 送实例被请求。每个传送实例表示对储存库的信息的单独检索。用于累积 数据的确切方法由其他的判定所确定。在每个传送实例中被返回到请求者 的传送数据集包含随着时间已被检索并累积在传送数据集中以便准备用于 此请求式数据集的下一个传送实例的信息。可替代地,当需要传送时,通 过在那时的储存库状态应用一个或一个以上的检索操作,创建传送数据集。
复现传送或者是成批传送、如框3309所示,或者是准实时传送、如框 3310所示。框3309表示成批传送。通过使传送方法意识到到达储存库的 新的信息、通过对储存库的周期性检索操作或通过在需要传送数据集时在 储存库状态上的检索动作,完成对每个传送实例的处理。框3310表示准实 时传送模式。这是复现传送模式的一种情况,其中,有关的新到达信息一 被检测到,就被传送到请求者。这典型地产生粒度精细的一系列传送实例, 其中每个传送数据集仅包含少量数据。由于在频繁更新的传输中提供更新 的信息是关键特性,所以使用术语“准实时”。
这完成了对主要传送模式的介绍。框3311、3312、3313、3314、3315 表示可应用到框3309、3310、3307的附加参数。出于简化目的,在框3309 的背景下对它们进行介绍。
框3311表示预先调度的批量,其中,存在固定的预定调度,其控制何 时发生传送实例。框3312表示请求式传送实例的情况。在这种情况下,请 求者明确地请求对传送实例进行实例化和传送。请求者还指示何时需要下 一个传送实例。框3313表示数据驱动传送的情况,其基于数据状态的某种 函数——例如数据量——或特定数据元的到达。
传送实例包含所有被选值的完整集合或仅包含自从上一次传送实例以 来的(或在某个时间段上的)新值和改变值。这两个选项分别用框3314 和3315表示。这些选项被表示为框3311所示的预调度分批传送模式的子 情况,但它们显然可以适用于框3312和3313。有用性取决于背景而变化。
替代实施例包括请求式模式,其允许请求者指定将被选信息元加载到 专用工作数据库还是专门为该请求者的使用而建立的数据集市。用于传送 的数据集市的选择影响传送传输指定。在一次性查询中,请求式模式指示 对于指定信息元当前在储存库中没有适当值的情况下是否发起附加的搜索 和数据收集以收集新值。附加模式包括报警模式或摘要报告模式,在报警 模式下,如果某个参考项目的值超过预先规定的阈则发送事件通知,在摘 要报告模式下,以规定的时间间隔发送关于参考项目值集合的聚合摘要报 告。
图23A介绍了请求式数据集产生过程的流程,该过程在运行时被使用, 用于产生请求式数据集并将之传送到请求者。该过程在图20A中首次介绍, 用框3104表示。图21A阐释了如何生成定制的请求式数据集产生过程以 满足特定的请求式数据集说明的要求。如上所述,执行请求式数据集产生 过程的作用是通过请求者的选择和寻源说明从储存库中检索信息,通过请 求者、传送模式和格式说明将该信息汇编到传送数据集,接着通过其数据 集传送与传输指定将该数据传送到请求者。
控制从上方进入图23A的框3104,并首先进行到框3401,在框3401 中,开始下一个传送实例的处理。这反映了这样的事实:复现的请求式数 据集作为顺序传送实例被传送到请求者。流程中用于产生请求式数据集的 外部控制结构为循环;该循环的每次迭代导致产生作为一个传送实例被传 输到请求者的一个传送数据集。
流程中的下一个步骤用框3402表示,其中,开始对下一个信息元的处 理。流程中用于产生请求式数据集的下一个传送实例的内部控制结构为循 环;循环的每次迭代将向传送数据集添加一个信息元。
流程中的下一个步骤用框3403表示。该步骤从多源多租户数据储存库 中检索和格式化一个信息元。元仅在请求者对该信息有资格的条件下被检 索。检索得到的元被插入累积的传送数据集。如将该框连接到数据框3407 的虚线所示,该步骤使用来自储存库的信息。该储存库可以为如部分B所 述的资格强制执行储存库,或者在参考数据实用工具的背景下更为宽广地 为资格管理实体数据,即图1A中的框50。下面在图23B中提供关于框3403 的处理的更多的细节。
流程中的下一个步骤用决定框3404表示,其在流程中导致:或者终止 元循环并移动到传送实例处理,或者返回到框3402以便向传送数据集添加 下一个信息元。当没有更多的元时,控制进行到框3405,执行传送实例。 这是这样的处理:取出在等待传送实例时在临时传送数据集中累积的所有 信息元,将它们组织到传送实例中并传输到请求者。用于此的逻辑在下面 的图23C中更为详细地介绍。
最后,框3423表示在连续数据集的情况下对附加传送实例的查询,并 且如果找到一个传送实例则对下一个传送实例进行调度。用指向解析后的 请求式数据集传送说明的指针(或引用)对框3401进行调度。任何事物是 否被调度是由请求式数据集的传送模式确定的。如果请求式数据集是一次 性的且已经由先前的数据传送实例完整传送,则不会进行任何调度。如果 需要更多的实例来完成当前可用数据的传送,或者请求式数据集是复现的 且传送模式不是请求式的,则框3401被立即调度。如果请求式数据集是复 现的且传送模式是请求式的,则还激活收听器,以便等待下一个传送请求。 当收听器接收请求时,其调度框3401的立即执行。
如其他地方所述,用户请求用于终止已有的复现请求式数据集。当这 样的请求到达时,或者下一个被调度的实例被终止,或者由于其是有效的 则设置指示出不再允许更多请求的标志。最后,控制流出框3104,完成产 生请求式数据集的工作流的执行。
图23B示出一流程图,其详细说明了图23A中介绍的框3403所示的 处理,检索新的信息元并将之添加到累积值的传送数据集之中,以等待向 请求者传送。
该流程中的第一步骤用框3410表示,其定位包含新信息元的储存库实 体。通常,数据集说明的元选择单元(图22A中的框3301)提供了例如实 体名或实体话题的属性值,其使得相关实体能在储存库中被定位。图20A 中的框3102与3103的数据集请求说明的解析与过程汇编已经将其项目选 择单元转换为对储存库的特定选择操作,其返回实体。
除了选择特定储存库实体以外,数据集说明的元选择单元指示该实体 的哪些属性或特性在数据集中被返回。在特殊情况下请求所有可用属性或 所有特性。特性和属性选择被编译为储存库操作,其又接着在下面用框 3411表示的步骤中被执行。
框3412表示从储存库中收集请求者有资格接收的被选实体的被选特 性与属性的那些值的步骤。这种处理需要知道请求者的资格以及储存库中 的信息元的寻源。其可涉及从被选储存库实体的多个项目实例收集值。在 有利的实施例中,资格强制执行被提供为储存库的功能。替代实施例将资 格强制执行方案实现为处理块的一部分。作为框3412的处理的结果,针对 被选实体的被识别的属性和特性收集有资格的值集合。请求者指定的、请 求者对之无资格的任何值将不被包括。
框3413表示在源偏好单元(图22A中的框3302)中指定的寻源偏好 规则的应用。因此,如果具有不同寻源的多个值对于特定属性可用,则来 自在请求者偏好列表中较早出现的源的值将被选择。寻源偏好被指定为储 存库中被识别的项目实例之间的偏好.例如,请求者可指定对来自推荐的 值过程的值的偏好优于由特定源提供的值,反之亦可。
有利实施例允许寻源偏好的指定的多种变化。首先,寻源偏好可被指 定为仅适用于特定实体的特定属性或特性。或者,偏好可被指定为统一适 用于数据集中所有被选实体的所有属性。偏好还可适用于特定子类中所有 实体的一个属性。一个例子是对于城市债券的等级使用一种偏好,但对于 普通股票的所有定义使用不同的偏好。最后,请求者可指定来自多个有资 格源的值被包括在数据集中,以便允许请求者在来自不同的源或储存库处 理的值之间做出他们自己的比较。所有这些功能被包括在框3403的处理 中。
控制接着流到框3414,其中,在图22A中的框3305中提供的来自请 求者的格式指定之后,向从储存库获得的值应用数据格式转换。通过对作 为图21A的处理组装处理的一部分的格式化活动构造块进行适应,这种格 式处理被编译为可执行逻辑。请求者指定的变换规则被应用到请求式数据 集,以便将之转换为所需要的传送数据格式。对于所提供数据的每个类别, 请求式数据集传送支持用于将数据值传递到请求者的优选数据输出格式。 例如,当传递工具数据时,使用例如市场数据说明语言(MDDL)或ISO 金融工具结构ISO 20022的公共标准。
最后,框3415将格式化后的被选值添加到临时数据集中,对临时数据 集进行累积,以便在下一个传送实例中传送到请求者。数据集的请求式模 式也可影响此处理步骤。如果仅将传送预先调度的成批数据集的新值和改 变值,则该步骤仅在值是从上一个传送实例以来的新值或改变值的条件下 将之添加到临时数据集。
在框3415的处理完成后,控制流出框3403;新信息元已被格式化并 添加到累积数据,等待在下一个传送实例中向请求者传送。
图23C示出了包括在图23A的框3405中最初介绍的传送实例的执行 的处理步骤的流程图。该处理负责收集被选择、被格式化的值的累积传送 数据集,并将之传输到请求者。
图23C的外框是框3405;以流程图的形式提供了该方块的处理的更多 细节。控制从顶部进入并进行到用框3420表示的第一步骤,其中,在图 22A的框3305中提供的格式指定之后,进行对累积传送数据集的最终格式 化。对完整的累积数据集的这种格式化包括这样的动作:例如将整个数据 集以特定方式封装、添加摘要和聚合信息。传送数据集中的独立信息元的 格式化已经在该元首次被添加到累积数据中时在图23B中的框3414所示 步骤的优选实施例中被处理。替代实施例重新定位格式化处理,而不会改 变本发明的实质。
框3421表示在图22A中框3304所示步骤中提供的指定之后对实际传 送和传输协议的处理。该处理涉及建立对位于某个已知网络地址上的请求 者的网络连接、在该连接上进行认证并执行文件传输协议。可替代地,其 涉及在建立一次性请求式数据集请求的调用中返回作为响应参数的数据。
框3422表示针对该传送记入日志或创建审计踪迹。这种能力保证了请 求式数据集完整的可跟踪性。提供认可服务,以便保证请求式数据集的完 整性。当在参考数据实用工具的背景中使用时,用图1B中的框29表示的 客户传送日志将作为这种记入日志的结果被更新。在该步骤完成后,控制 流出框3405。传送实例现在已被执行。
本说明以对本发明的请求式数据集传送处理方面的流程以及其他图的 介绍而结束。在优选实施例中,工作流用于实现这里介绍的过程和流程。 替代实施例使用脚本、分散分布式过程或所有这些的混合。任何合适的机 制或编程语言可用于实现这里介绍的流程和过程。
Abrams等人的题为“Business Method for the Determination of the Best Known Value and Best Known Value Available for Security and Customer Information as Applied to Reference Data”并被转让给本发明的 受让人的已公开美国专利申请2005/0216416整体并入本文作为参考。本文 档涉及参考数据设施,该设施被结构化以保证没有一个用户从他们没有与 其有合同安排或他们对其数据没有资格的卖家通过获知来自该卖家的数据 内容而获利或接收到数据。
本发明可以用硬件、软件或软硬件的结合实现。其可被实现为方法, 该方法具有实现本发明的一个或多个功能的步骤;和/或其可被实现为装 置,该装置具有实现上述本发明的方法的一个或一个以上的步骤和/或对本 领域技术人员已知的部件和/或装置。根据本发明的可视化工具可以用集中 的方式在一个计算机系统中实现,或者以分布的方式实现、其中不同的单 元分布在几个互连的计算机系统中。任何类型的计算机系统——或适用于 实现这里所介绍的方法和/或功能的其他装置——是适用的。硬件和软件的 典型组合可以为通用计算机系统,该系统具有这样的计算机程序:该程序 在被加载和执行时对计算机系统进行控制,使得其实现这里介绍的方法。 本发明还可包含在计算机程序产品中,该程序产品包括使得这里介绍的方 法能够实现的所有特征,且该程序产品当被加载在计算机系统中时能够实 现这些方法。本发明的方法可以用这样的装置实现:该装置提供实现该方 法的步骤的功能。本发明的装置和/或系统可以通过这样的方法实现:该方 法包括产生该装置和/或系统的功能的步骤。
当前背景下的计算机程序装置或计算机程序包括这样的一组指令以任 何语言、代码或符号的任何表达方式:该组指令旨在使得具有信息处理能 力的系统直接或在转换为另一种语言、代码或符号和/或以不同的物质形式 再现后执行特定的功能。
因此,本发明包括一种制品,该制品包括计算机可用的介质,该介质 具有包含于其中的、用于产生上述一个或一个以上的功能的计算机可读程 序代码装置。该制品中的计算机可读程序代码装置包括使计算机产生本发 明的方法的步骤的计算机可读程序代码装置。类似地,本发明可被实现为 一种计算机程序产品,该程序产品包括计算机可用介质,该介质具有包含 于其中的、用于产生上述功能的计算机可读程序代码装置。计算机程序产 品中的计算机可读程序代码装置包括使计算机实现本发明的一个或一个以 上功能的计算机可读程序代码装置。另外,本发明可被实现为可由机器读 取的程序存储装置,其有形地实现可由该机器执行的指令程序,以便执行 用于产生本发明的一个或一个以上的功能的方法步骤。
注意,前述内容概述了本发明的某些较为相关的目的和实施例。本发 明可用于许多应用。因此,尽管针对特定安排和方法进行了介绍,但本发 明的意图和概念适用于并可应用于其他的安排和应用。对本领域技术人员 来说,显然,可在不脱离本发明的精神和范围的情况下对所公开的实施例 进行修改。所描述的实施例应被理解为仅对本发明的某些较为显著的特征 和应用进行说明。通过以不同的方式应用所公开的发明或以本领域技术人 员知道的方式修改本发明,可以实现其他有利的结果。
优先权
本申请在35 U.S.C§119(e)下要求2005年1月14日提交的美国临 时申请序列号60/644,045、2005年1月31日提交的60/648,497、2005年2 月18日提交的60/654,376、以及2005年6月28日提交的60/694,815的优 先权。本申请还要求2005年12月22日提交的美国专利申请11/318,355、 11/318,425、11/318,426、11/318,428的优先权。出于一切目的,这些申请 通过引用其整体并入此处。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈