首页 / 专利库 / 专利权 / 申请 / 国际申请 / 请求书 / 保护类型 / 专利 / 一种KEGG数据库的反应信息补充方法

一种KEGG数据库的反应信息补充方法

阅读:3发布:2020-10-20

专利汇可以提供一种KEGG数据库的反应信息补充方法专利检索,专利查询,专利分析的服务。并且本 发明 涉及 生物 信息学生物数据分析领域,公开一种KEGG 数据库 的反应信息补充方法,该技术分为反应方程式配平、主反应补充、途径信息补充和子系统信息补充四个部分。KEGG数据库中下载的反应信息数据存在一定的缺失和遗漏,通过本 专利 所述方法能够对其中的部分数据信息进行补充,使反应信息更为完善和全面。网络信息更加完整,有利于后续的模拟和生物学分析。,下面是一种KEGG数据库的反应信息补充方法专利的具体信息内容。

1.一种KEGG数据库的反应信息补充方法,其特征在于,该方法包括为反应方程式配平、主反应补充、途径信息补充和子系统信息补充四个部分,具体的步骤为:
1)反应方程式配平:
(1)统计化合物中的元素个数;
(2)确定为配平反应:对反应方程式进行拆分,得到未配平的反应方程式;
(3)对未配平反应方程式进行配平;
2)主反应补充:
主反应为参加该反应的主要物质,一般是在全反应的基础上,去掉流通代谢物ATP、ADP、NADH、NAD+、H2O、NADPH、NADP+和H+。筛选出KEGG数据库下载文件中缺失主反应的反应,在KEGG通路图中查找该反应,根据通路图中显示的主要参与该反应的物质,提取出主反应;
3)途径信息补充:
缺失主反应的反应,大多也缺失对应的途径,可联合步骤2)进行途径的补充;筛选出缺失主反应的反应,在KEGG数据库中查找该反应,同时可查找到反应物参与的途径;
4)子系统信息补充:
从KEGG数据库下载“pathway”文件,提取pathway文件中每个途径对应的子系统名称,通过与反应信息中的途径相匹配,即可将子系统信息匹配到对应的反应上,使得反应信息更为全面。
2.根据权利要求1所述的一种KEGG数据库的反应信息补充方法,其特征在于,所述步骤
1)-(1)具体如下:从KEGG数据库下载“compound”文件,可获得所有化合物的编号及分子式,筛选出化合物中没有提供分子式和分子式中含有n、x的化合物,此类化合物无法确定准确的元素个数,不在配平范围之内;
对于其余可得到确定分子式的化合物,将每个化合物的元素按照、氢、、氮、磷、硫的顺序进行个数统计。
3.根据权利要求1所述的一种KEGG数据库的反应信息补充方法,其特征在于,所述步骤
1)-(2)具体如下:从KEGG数据库下载“reaction”文件,该文件中包含部分反应的反应方程式、主反应和途径信息;
对于其中的每一个反应,将等式左右两侧分为两部分,根据步骤(1)中统计的各个化合物包含的元素个数,乘以该化合物对应的系数,并对单侧的元素总数进行汇总统计,得到反应方程式左右两侧每个元素的总数,并对左右两侧的元素个数进行比较,元素守恒(即左右两侧各元素种类和个数都相等)的为配平反应,元素不守恒(即左右两侧元素种类或个数不相等)的反应即为未配平的反应。
4.根据权利要求1所述的一种KEGG数据库的反应信息补充方法,其特征在于,所述步骤
1)-(3)具体如下:经过对比发现,绝大多数不平的反应缺少的元素为氢或氧,根据元素守恒和电荷守恒,并根据反应具体缺失的物质,对反应添加氢离子、电子分子或氧气,以配平反应,如反应左侧比右侧少一个氢(H)元素,则在反应左侧添加氢离子(H+)。
5.根据权利要求4所述的一种KEGG数据库的反应信息补充方法,其特征在于,该步骤对于较为简单的物质(如氢离子、水分子、氧气)的添加通过程序实现,对于较复杂的物质通过人工判断实现。
6.根据权利要求5所述的一种KEGG数据库的反应信息补充方法,其特征在于,添加电子时,需要在KEGG数据库中确定反应的电荷量,再进行电子的添加,以保证电荷守恒;
未完成反应不在配平范围之内;
未完成反应是指参与该反应的某些物质还未被实验证实,从而未被KEGG数据库添加到反应方程式中,导致了反应方程式不平的反应。
7.根据权利要求1所述的一种KEGG数据库的反应信息补充方法,其特征在于,所述步骤
2)具体:通路图未明确主要参与反应的物质,可依据KEGG数据库提供的RCLASS文件,即反应物对,结合反应的类型,选择合适的反应物对作为参与主反应的反应物质,补充主反应;
对于一般反应,即某一类反应的概括性表达,不在主反应补充的范围之内。
8.根据权利要求1所述的一种KEGG数据库的反应信息补充方法,其特征在于,所述步骤
3)具体根据以下原则选择合适的途径:
(1)反应的底物产物均归属同一途径,优先选择此途径;
(2)根据反应名称和类型,判断出反应中某个关键的反应物,此反应物归属于某途径,则选择此途径;
(3)根据步骤(1)和步骤(2)无法确定反应所属途径的反应,将其归入“代谢途径(metabolic pathway)”中;
对于一般反应,即某一类反应的概括性表达,不在途径信息补充的范围之内。
9.根据权利要求1所述的一种KEGG数据库的反应信息补充方法,其特征在于,所述步骤
4)具体:对于一般反应,即某一类反应的概括性表达,不在子系统信息补充的范围之内。

说明书全文

一种KEGG数据库的反应信息补充方法

技术领域

[0001] 本发明涉及生物信息学生物数据分析领域,具体涉及一种KEGG数据库的反应信息补充方法。

背景技术

[0002] 生物信息学和数据库技术的不断发展,为研究者收集、整合庞大的数据并高效地利用它们解决生物学问题提供了极大的方便。1995年,日本京都大学创建第一个较为全面的代谢数据库——KEGG(Kyoto Encyclopedia of Genes and Genomes)数据库,该数据库收集了已经测序物种的序列信息,并提供相应的功能注释,是一个整合基因组、化学和系统功能信息的数据库。迄今为止,KEGG数据库不断地在扩充、维护和修正数据,为广大研究者提供着最新的代谢信息。
[0003] 尽管KEGG数据库是国际最常用的生物信息学数据库之一,KEGG数据库中仍然存在一定量的缺失和错误信息,这些缺失的信息对于研究者利用数据解决生物学问题造成了一定的困难。例如在利用KEGG中的反应信息构建基因组尺度代谢网络的过程中,反应信息的缺失会对网络模型的精细度和可计算性造成较大的影响。通过访问KEGG数据的FTP(ftp://ftp.bioinformatics.jp/)网址可批量下载KEGG数据库中反应相关信息的数据。但这些反应信息中存在反应方程式左右侧元素不守恒,部分反应缺失主反应、途径信息,反应未匹配子系统信息等问题,导致了后续利用这些反应进行途径分析、计算机模拟计算和生物学特征分析时存在一定的困难和不精确性。

发明内容

[0004] 本发明的目的在于克服现有技术的不足,提供一种KEGG数据库的反应信息补充方法。KEGG数据库中下载的反应信息数据存在一定的缺失和遗漏,通过本专利所述方法能够对其中的部分数据信息进行补充,使反应信息更为完善和全面。
[0005] 本发明为解决背景技术中提及的技术问题,采用的技术方案是一种KEGG数据库的反应信息补充方法,该技术分为反应方程式配平、主反应补充、途径信息补充和子系统信息补充四个部分。
[0006] 具体的步骤为:
[0007] 1)反应方程式配平:
[0008] (1)统计化合物中的元素个数。从KEGG数据库下载“compound”文件,可获得所有化合物的编号及分子式,筛选出化合物中没有提供分子式和分子式中含有n、x的化合物,此类化合物无法确定准确的元素个数,不在配平范围之内。对于其余可得到确定分子式的化合物,将每个化合物的元素按照、氢、、氮、磷、硫的顺序进行个数统计。
[0009] (2)确定为配平反应。对反应方程式进行拆分,得到未配平的反应方程式。具体方法为:从KEGG数据库下载“reaction”文件,该文件中包含部分反应的反应方程式、主反应和途径信息。对于其中的每一个反应,将等式左右两侧分为两部分,根据步骤(1)中统计的各个化合物包含的元素个数,乘以该化合物对应的系数,并对单侧的元素总数进行汇总统计,得到反应方程式左右两侧每个元素的总数,并对左右两侧的元素个数进行比较,元素守恒(即左右两侧各元素种类和个数都相等)的为配平反应,元素不守恒(即左右两侧元素种类或个数不相等)的反应即为未配平的反应。
[0010] (3)对未配平反应方程式进行配平。经过对比发现,绝大多数不平的反应缺少的元素为氢或氧,根据元素守恒和电荷守恒,并根据反应具体缺失的物质,对反应添加氢离子、电子分子、氧气等物质,以配平反应,如反应左侧比右侧少一个氢(H)元素,则在反应左+侧添加氢离子(H)。该步骤对于较为简单的物质(如氢离子、水分子、氧气)的添加通过程序实现,对于较复杂的物质通过人工判断实现。需要注意的是,添加电子时,需要在KEGG数据库中确定反应的电荷量,再进行电子的添加,以保证电荷守恒。另外,未完成反应不在配平范围之内。未完成反应是指参与该反应的某些物质还未被实验证实,从而未被KEGG数据库添加到反应方程式中,导致了反应方程式不平的反应。
[0011] 2)主反应补充
[0012] 主反应为参加该反应的主要物质,一般是在全反应的基础上,去掉流通代谢物ATP、ADP、NADH、NAD+、H2O、NADPH、NADP+和H+。筛选出KEGG数据库下载文件中缺失主反应的反应,在KEGG通路图中查找该反应,根据通路图中显示的主要参与该反应的物质,提取出主反应。如通路图未明确主要参与反应的物质,可依据KEGG数据库提供的RCLASS文件,即反应物对,结合反应的类型,选择合适的反应物对作为参与主反应的反应物质,补充主反应。需注意的是,一般反应,即某一类反应的概括性表达,不在主反应补充的范围之内。
[0013] 3)途径信息补充
[0014] 缺失主反应的反应,大多也缺失对应的途径,可联合步骤2,进行途径的补充。筛选出缺失主反应的反应,在KEGG数据库中查找该反应,同时可查找到反应物参与的途径。根据以下原则选择合适的途径:(1)反应的底物产物均归属同一途径,优先选择此途径;(2)根据反应名称和类型,判断出反应中某个关键的反应物,此反应物归属于某途径,则选择此途径;(3)根据步骤(1)和步骤(2)无法确定反应所属途径的反应,将其归入“代谢途径(metabolicpathway)”中。需要注意的是,一般反应,即某一类反应的概括性表达,不在途径信息补充的范围之内。
[0015] 4)子系统信息补充
[0016] 从KEGG数据库下载“pathway”文件,提取pathway文件中每个途径对应的子系统名称,通过与反应信息中的途径相匹配,即可将子系统信息匹配到对应的反应上,使得反应信息更为全面。需要注意的是,一般反应,即某一类反应的概括性表达,不在子系统信息补充的范围之内。
[0017] 有益效果
[0018] 1、通过本方法的处理,可对以上缺失的信息进行一定的补充,从而完善每个反应的对应信息,进一步方便后续的科学研究。因此,与现有不经处理的KEGG数据库中的反应信息相比,经过本方法补充后的反应信息更加全面,利用反应信息得到的生物分析结果更加精细和可信,在利用补充后的网络模型进行生理活动的模拟和计算时,更具有生物学意义。
[0019] 2、信息补充前,中华绒螯蟹基因组尺度代谢网络中配平的反应数量为1677个,包含主反应的反应数量为1607个,具有途径信息的反应数量为1617个,具有子系统信息的反应数量为0个。信息补充后,中华绒螯蟹基因组尺度代谢网络中配平的方程式数量为1736个,包含主反应的方程式数量为1738个,具有途径信息的反应数量为1738个,具有子系统信息的反应数量为1759个。网络信息更加完整,有利于后续的模拟和生物学分析。
[0020] 3、信息补充前,凡纳滨对虾基因组尺度代谢网络中配平的反应数量为1621个,包含主反应的反应数量为1539个,具有途径信息的反应数量为1566个,具有子系统信息的反应数量为0个。信息补充后,凡纳滨对虾基因组尺度代谢网络中配平的方程式数量为1678个,包含主反应的方程式数量为1678个,具有途径信息的反应数量为1678个,具有子系统信息的反应数量为1678个。网络信息更加完整,有利于后续的模拟和生物学分析。附图说明
[0021] 图1为基因组尺度代谢网络信息补充技术流程图

具体实施方式

[0022] 以下结合附图和具体实施例来对发明作进一步的说明。
[0023] 实施例1中华绒螯蟹基因组尺度代谢网络信息补充
[0024] 该方法已应用于中华绒螯蟹基因组尺度代谢网络的信息补充。实验室前期研究中结合KEGG数据库中下载的反应信息数据和中华绒螯蟹转录组数据,初步构建了中华绒螯蟹基因组尺度代谢网络,网络中包含1759个反应及相关信息。利用本专利所述方法,对中华绒螯蟹基因组尺度代谢网络中存在的反应信息进行了补充。具体方法及结果如下:
[0025] 1.反应方程式配平:
[0026] 通过对化合物元素个数的统计、拆分中华绒螯蟹基因组尺度代谢网络网络模型中的反应方程式,并统计方程式左右两侧的元素个数,找到元素不守恒的反应82个,并根据元素守恒和电荷守恒规则,对其中59个反应进行了配平,使得网络模型的反应信息更加全面。对于较为简单的物质(如氢离子、水分子、氧气)的添加通过VBA程序实现,程序步骤如下:如反应一侧缺少的元素为一个氢元素(H),则在缺少元素的一侧添加氢离子(H+);如反应一侧缺少的元素为两个氢元素(H)和一个氧元素(O),则在缺少元素的一侧添加水分子(H2O);如反应一侧缺少的元素为两个氧元素(O),则在缺少元素的一侧添加氧气分子(O2),以此类推。对于较复杂的物质通过人工判断实现。其中未配平的23个反应为不完全反应,因缺失重要的反应物质,不在配平范围之内。
[0027] 2.主反应补充
[0028] 中华绒螯蟹基因组尺度代谢网络模型中缺失主反应的反应有152个。根据KEGG途径图和反应物对信息,结合反应及反应物的特征,对其中131个反应进行了主反应的补充。剩余21个未补充主反应的反应为一般反应,即某一类反应的概括性表达,不在主反应补充的范围之内。3.途径信息补充
[0029] 中华绒螯蟹基因组尺度代谢网络模型中缺失途径信息的反应有142个。根据KEGG数据库提供的反应物信息,依据本专利所属途径信息补充方法,对其中121个反应进行了途径信息的补充。其中未补充途径信息的21个反应为一般反应,即某一类反应的概括性表达,不在途径信息补充的范围之内。
[0030] 4.子系统信息补充
[0031] 中华绒螯蟹基因组尺度代谢网络模型中的反应均没有子系统信息。从KEGG数据库下载pathway文件,提取pathway文件中代谢相关的途径和对应的子系统名称。通过与反应信息中的途径相匹配,为中华绒螯蟹基因组尺度代谢网络中的1738个反应补充子系统信息,使得反应信息更为全面。其中未补充子系统信息的21个反应为一般反应,即某一类反应的概括性表达,不在子系统信息补充的范围之内。
[0032] 上述步骤的技术流程图如图1所示。
[0033] 实施例2凡纳滨对虾基因组尺度代谢网络信息补充
[0034] 该方法已应用于凡纳滨对虾基因组尺度代谢网络的信息补充。实验室前期研究中结合KEGG数据库中下载的反应信息数据和凡纳滨对虾转录组数据,初步构建了凡纳滨对虾基因组尺度代谢网络,网络中包含1690个反应及相关信息。利用本专利所述方法,对凡纳滨对虾基因组尺度代谢网络中存在的反应信息进行了补充。具体方法及结果如下:
[0035] 1.反应方程式配平:
[0036] 通过对化合物元素个数的统计、拆分凡纳滨对虾基因组尺度代谢网络网络模型中的反应方程式,并统计方程式左右两侧的元素个数,找到元素不守恒的反应69个,并根据元素守恒和电荷守恒规则,对其中57个反应进行了配平,使得网络模型的反应信息更加全面。对于较为简单的物质(如氢离子、水分子、氧气)的添加通过VBA程序实现,程序步骤如下:如反应一侧缺少的元素为一个氢元素(H),则在缺少元素的一侧添加氢离子(H+);如反应一侧缺少的元素为两个氢元素(H)和一个氧元素(O),则在缺少元素的一侧添加水分子(H2O);如反应一侧缺少的元素为两个氧元素(O),则在缺少元素的一侧添加氧气分子(O2),以此类推。对于较复杂的物质通过人工判断实现。其中未配平的12个反应为不完全反应,因缺失重要的反应物质,不在配平范围之内。
[0037] 2.主反应补充
[0038] 凡纳滨对虾基因组尺度代谢网络模型中缺失主反应的反应有151个。根据KEGG途径图和反应物对信息,结合反应及反应物的特征,对其中139个反应进行了主反应的补充。剩余12个未补充主反应的反应为一般反应,即某一类反应的概括性表达,不在主反应补充的范围之内。3.途径信息补充
[0039] 凡纳滨对虾基因组尺度代谢网络模型中缺失途径信息的反应有124个。根据KEGG数据库提供的反应物信息,依据本专利所属途径信息补充方法,对其中112个反应进行了途径的补充。其中未补充途径信息的12个反应为一般反应,即某一类反应的概括性表达,不在途径信息补充的范围之内
[0040] 4.子系统信息补充
[0041] 凡纳滨对虾基因组尺度代谢网络模型中的反应均没有子系统信息。从KEGG数据库下载pathway文件,提取pathway文件中代谢相关的途径和对应的子系统名称。通过与反应信息中的途径相匹配,为凡纳滨对虾基因组尺度代谢网络中的1678个反应补充子系统信息,使得反应信息更为全面。上述步骤的技术流程图如图1所示。其中未补充子系统信息的12个反应为一般反应,即某一类反应的概括性表达,不在子系统信息补充的范围之内。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈