首页 / 专利库 / 专利权 / 专利合作条约 / 第I章 / 国际申请 / 摘要 / 一种从PubMed文献准确识别分子相互作用及其极性和方向性方法

一种从PubMed文献准确识别分子相互作用及其极性和方向性方法

阅读:277发布:2023-01-22

专利汇可以提供一种从PubMed文献准确识别分子相互作用及其极性和方向性方法专利检索,专利查询,专利分析的服务。并且本 发明 提供了一种从PubMed文献准确识别分子相互作用及其极性和方向性方法:利用PubMed文献挖掘的形式在医学文献 数据库 识别含有至少两个基因获得候选证据句子,收集 训练数据 ,收集互作词并对其分类,简化训练语句提取描述基因调控的常见表达模式;将常见表达模式制定Semgrex表达式,依存树上抓取两两基因和互作词的三元关系,确定分子相互作用的方向,并根据上下文语义校正和明确分子相互作用及其极性,在训练集上反复检验和优化识别方法,最终将建立的基因调控识别方法应用于医学文献数据库的候选证据句子的识别,获得准确的分子相互作用及其极性和方向。本发明最大的优点是通过表达模式和互作词的限定提高识别的准确率。,下面是一种从PubMed文献准确识别分子相互作用及其极性和方向性方法专利的具体信息内容。

1.一种从PubMed文献准确识别分子相互作用及其极性和方向性方法,其特征在于,包括以下步骤:
利用PubMed文献挖掘的形式在医学文献数据库识别含有至少两个基因获得候选证据句子,收集训练数据,收集互作词并对其分类,简化训练语句提取描述基因调控的常见表达模式;将常见表达模式制定Semgrex表达式,从Enhanced++Dependencies解析的依存树上抓取两两基因和互作词的三元关系,确定分子相互作用的方向,并根据上下文语义校正和明确分子相互作用及其极性,在训练集上反复检验和优化识别方法,最终将建立的基因调控识别方法应用于医学文献数据库的候选证据句子的识别,获得准确的分子相互作用及其极性和方向。
2.如权利要求1所述的从PubMed文献准确识别分子相互作用及其极性和方向性方法,其特征在于,所述识别候选证据句子的方法包括以下步骤:将更新的文献本地化,根据建立的基因名称字典,识别文献摘要中出现的基因名称,与Entrez Gene ID比对,确定基因相关摘要;再使用模把基因相关摘要分割成句子,确定基因相关句子。
3.如权利要求1所述的从PubMed文献准确识别分子相互作用及其极性和方向性方法,其特征在于,所述收集训练数据的方法包括以下步骤:通过人工注释的PPI语料库转换成统一格式的训练集和测试集。
4.如权利要求1所述的从PubMed文献准确识别分子相互作用及其极性和方向性方法,其特征在于,所述收集互作词并对其分类的方法包括以下步骤:通过统计本地数据库中的互作词在基因相关句子中出现的次数,选取部分出现次数频率最高的互作词,并按其相互作用类型分类或按其极性分类。
5.如权利要求1所述的从PubMed文献准确识别分子相互作用及其极性和方向性方法,其特征在于,所述简化训练语句的方法包括以下步骤:将训练集的句子和文献证据句子中的基因名称统一转换成GENE;将互作词转化成INT。
6.如权利要求1所述的从PubMed文献准确识别分子相互作用及其极性和方向性方法,其特征在于,所述描述基因调控的常见表达模式为以下几种形式中的任意组合:GENE-INT-GENE、GENE-GENE-INT或INT-GENE-GENE。
7.如权利要求1所述的从PubMed文献准确识别分子相互作用及其极性和方向性方法,其特征在于,所述Enhanced++Dependencies依存树通过以下方法产生:通过软件Stanford CoreNLP,运行Python脚本将句子提交给CoreNLP,使用Enhanced++Dependencies解析句子中各个词汇之间的语法关系和结构,产生依存关系树。
8.如权利要求1所述的从PubMed文献准确识别分子相互作用及其极性和方向性方法,其特征在于,所述构建Semgrex的表达式的方法包括以下步骤:将描述基因调控的常见表达模式转换成Semgrex表达式,捕获两个基因和一个互作词构成的三元关系。
9.如权利要求1所述的从PubMed文献准确识别分子相互作用及其极性和方向性方法,其特征在于,所述根据上下文语义校正和明确分子相互作用及其极性的方法包括以下步骤:
(1)丢弃句子中存在描述不明确的、不成立的和否定的基因调控关系的词汇;
(2)统计有“负性”含义的高频词汇,当匹配到这类词汇时,将基因间的极性反转;
(3)当互作词有修饰时,极性应做出相应的改变。

说明书全文

一种从PubMed文献准确识别分子相互作用及其极性和方向性

方法

技术领域

背景技术

[0002] 基因调控网络是解析生物功能分子机制的重要基础,明确基因相互作用及其方向性,即上游和下游作用因子,明确相互作用极性,即正调节,负调节和中性等,对于研究基因的调控途径及其所起的生物学功能具有重要意义。基因调控网络的构建往往是依靠人工从文献注释,但PubMed文献增长迅猛,能够直接从PubMed文献获取最全面的基因调控信息生物医学研究者们共同的诉求。
[0003] 目前基于文献挖掘分子相互作用研究较为普遍,现有的方法着重于判断两两基因是否形成相互作用,但忽略了判断相互作用的极性和上下游关系,或者只能识别小部分相互作用的极性。开源的工具eFIP专挖掘蛋白磷酸化信息,提供具有磷酸化功能的蛋白及被其磷酸化的靶点,其他类型的相互作用并未纳入。微软研究院开发的Literome运用NLP技术从PubMed文献中抽提基因间的相互作用并初步判断相互作用的极性和上下游基因,侧重于查全率而准确率较低,还需要通过人工阅读判断。Q.C.Bui等人提出了一种综合使用NLP和机器学习的方法挖掘PPI,总结5种常用于描述相互作用的表达模式,根据语义提取候选配对基因,再用支持向量机根据句子特征进行分类筛选出PPI。该方法提示可根据语义从依存关系树提取描述分子相互作用的常用表达。
[0004] 目前,斯坦福大学的自然语言处理Stanford CoreNLP工具包整合了Stanford Paser[10]、Enhanced++Dependencies和Semgrex等工具为解析英语提供了成熟的NLP框架,并且已应用于生物医学实体关系的挖掘,如immuneXpresso运用Stanford Paser捕获细胞-细胞因子相互作用的极性和方向性;PPaxe运用Stanford Paser识别蛋白-蛋白相互作用;DEXTER则使用Enhanced++Dependencies和Semgrex表达式识别基因在各种疾病的表达情况。
[0005] Enhanced++Dependencies产生依存关系树描述一个句子中词与词之间的语法关系,Enhanced++Dependencies手册详细说明了50余类二元依存关系。Semgrex可通过制定的表达式从依存关系树提取语义模式,可按需制定表达式识别词与词之间的语义关系,词汇之间的关系不受距离的限制。通过不同依存关系和词汇的组合,可以生成无数种多元的语义模式,使得提取描述基因与基因相互关系的表达模式成为可能。

发明内容

[0006] 本发明的目的在于克服上述现有技术的不足之处而提供一种从PubMed文献准确识别分子相互作用及其极性和方向性方法。
[0007] 为实现上述目的,本发明采取的技术方案为:一种从PubMed文献准确识别分子相互作用及其极性和方向性方法,包括以下步骤:
[0008] 利用文献挖掘的形式在医学文献数据库识别含有至少两个基因获得候选证据句子,收集训练数据,收集互作词并对其分类,简化训练语句提取描述基因调控的常见表达模式;将常见表达模式制定Semgrex表达式,从Enhanced++Dependencies解析的依存树上抓取两两基因和互作词的三元关系,确定分子相互作用的方向,并根据上下文语义校正和明确分子相互作用及其极性,在训练集上反复检验和优化识别方法,最终将建立的基因调控识别方法应用于医学文献数据库的候选证据句子的识别,获得准确的分子相互作用及其极性和方向。
[0009] 优选地,所述识别候选证据句子的方法包括以下步骤:将更新的文献本地化,根据建立的基因名称字典,识别文献摘要中出现的基因名称,与Entrez Gene ID比对,确定基因相关摘要;再使用模把基因相关摘要分割成句子,确定基因相关句子。
[0010] 通过MEDLINE或/和PubMed的FTP(ftp://ftp.ncbi.nlm.nih.gov/pubmed/)获取PubMed的年度更新文献和日更新文献,将下载的XML文件提取PMID(PubMed ID)、标题、摘要信息,将PubMed文献本地化。根据我们前期开发的基因名称识别方法,建立基因名称字典,识别PubMed摘要中的出现基因名称,并且对应正确的Entrez Gene ID(GID),确定基因相关摘要。使用Perl的Text::Sentence模块把基因相关摘要分割成句子(SID),保留至少有两个基因出现的句子为候选证据句子。
[0011] 优选地,所述收集训练数据的方法包括以下步骤:通过人工注释的PPI语料库转换成统一格式的训练集和测试集。
[0012] 高质量的训练和测试语料是识别方法建立的前提。申请人已将5个人工注释的PPI语料库:AImed、BioInfe、HPRD50、IEPA和LLL,转换成统一格式的训练集和测试集。前期研究挖掘的分子相互作用的29万条文献证据,以及基因相关句子查找与任意互作词和基因对共发生的句子,是重要的训练语料。
[0013] 优选地,所述收集互作词并对其分类的方法包括以下步骤:通过统计本地数据库中的互作词在基因相关句子中出现的次数,选取部分出现次数频率最高的互作词,并按其相互作用类型分类或按其极性分类。
[0014] 从两项研究(PMID:18834492和19369495)收集251个词根共908个不同词性的互作词(INT),统计了它们在基因相关句子的出现次数,选取了167个在文献中使用频率最高的互作词,按其描述的相互作用类型分成两大类,牢固的(solid),如激活(activate)、调控(regulate)等,和候选的(candidate),如调制(modulate),关联(associate)等。然后,将互作词进一步按照极性分类,即正调控(positive)、负调控(negative)、中性(neutral)和不明确(uncertain)。据此,互作词分成八大类,positive-solid、positive-candidate、negative-solid、negative-candidate、neutral-solid、neutral-candidate、uncertain-solid和uncertain-candidate。当识别到分子相互作用时,根据三元关系中的互作词,确定分子相互作用的极性类型。
[0015] 优选地,所述简化训练语句的方法包括以下步骤:将训练集的句子和文献证据句子中的基因名称统一转换成GENE;将互作词转化成INT。
[0016] 训练集的句子都包含两个及以上的基因,为提高依存关系注释的准确率,将基因名称依次替换为Gene1、Gene2、Gene3…GeneN,将长的基因名称简化。另外,格式化训练集的句子和文献证据句子,句子中的基因名称统一转换成GENE,互作词转化成INT,用于常见的表达模式。
[0017] 优选地,所述描述基因调控的常见表达模式为以下几种形式中的任意组合:GENE-INT-GENE、GENE-GENE-INT或INT-GENE-GENE。
[0018] 从训练集里提取常见的描述基因调控的表达模式。从格式化的句子中,截取GENE-INT-GENE、GENE-GENE-INT和INT-GENE-GENE三种组合的表达形式,统计各种表达的使用次数,筛选出使用频率高的表达,如“GeneA and GeneBINT”、“GeneAINTGeneB”和“INT of GeneA by GeneB”等。
[0019] 优选地,所述Enhanced++Dependencies依存树通过以下方法产生:通过软件Stanford CoreNLP,运行Python脚本将句子提交给CoreNLP,使用Enhanced++Dependencies解析句子中各个词汇之间的语法关系和结构,产生依存关系树。
[0020] 在本地linux服务器安装Stanford CoreNLP,版本3.7.0,运行server版,通过http://localhost:9000/访问,使用Python(版本为3.5.0)模块pycorenlp调用CoreNLP server。通过Python脚本将句子提交给CoreNLP,使用Enhanced++Dependencies解析句子中各个词汇之间的语法关系和结构,产生依存关系树,表示词与词之间的二元依存关系,我们采用的二元依存关系如表1所示。
[0021] 表1:采用的二元依存关系
[0022]
[0023]
[0024] 优选地,所述构建Semgrex的表达式的方法包括以下步骤:将描述基因调控的常见表达模式转换成Semgrex表达式,捕获两个基因和一个互作词构成的三元关系。
[0025] 通过不同二元依存关系的组合可以匹配多种表达模式,Semgrex可通过依存关系结合其特定的正则表达式捕获定制的表达模式。我们把统计的常见表达模式,转换成Semgrex表达式,捕获两个基因和一个互作词构成的三元关系。表达模式有着特定的语义关系,可以明确主语和宾语,或者明确哪个基因是调控者,哪个是被调控者,在表达式中标记上游和下游基因,分别以“a”和“b”表示。在构建Semgrex表达的过程中,我们在训练集上捕获三元关系,检验并反馈修正表达式,减少误识别。Semgrex表达式识别的三元关系中,两个基因已经明确,但需要分配和限定互作词,否则会匹配大量无关基因调控的三元关系。我们将构建的表达式从基因相关句子中捕获三元关系,并统计互作词的频率,为每个表达式筛选固定的互作词。结合互作词极性的分类和上下游基因的标记,从三元关系中明确分子相互作用的极性和方向性。
[0026] 在训练集上反复修正Semgrex表达式,并且将每个表达式应用于挖掘基因相关句子,随机提取结果验证,根据验证结果再修正表达式。如此反复几轮,直至确保查全率和准确率都有较好的平。
[0027] 优选地,所述根据上下文语义校正和明确分子相互作用及其极性的方法包括以下步骤:
[0028] (1)丢弃句子中存在描述不明确的、不成立的和否定的基因调控关系的词汇;
[0029] (2)统计有“负性”含义的高频词汇,当匹配到这类词汇时,将基因间的极性反转;
[0030] (3)当互作词有修饰时,极性应做出相应的改变。
[0031] 尽管制定了严格的Semgrex表达,以及为每个表达式限定了互作词,捕获的三元关系为基因间的某种调控关系,但是句子的上下文语义可能使得基因调控关系是不成立的,或者基因调控的极性发生反转,例如句子在描述一个不明确或否定的基因调控、互作词的修饰词(形容词或副词)使得极性发生改变等。因此,我们制定专门的规则和Semgrex表达式评估上下文语义:1)判断句子是否在描述不明确的、不成立的和否定的基因调控关系,如描述三元关系时存在“whether”、“neither”、“not”、“unable”和“no longer”等词汇,则丢弃;2)如果上游基因是句子的主语,判断其是否为组合词,前后是否有修饰词会导致极性的反转,如“inhibition of GeneA”,“GeneA knockdown”,统计有“负性”含义的高频词汇,当匹配到这类词汇时,将基因间的极性反转;3)判断互作词是否有修饰,即动词是否有副词修饰,如“negatively”和“positively”,名词是否有形容词修饰,如“negative”和“positive”,当出现此类修饰时,极性应做出相应的改变。只有通过这三种情形判断,才能最终确定是分子相互作用和明确其相互作用的极性。
[0032] 需要说明的是本发明中的“互作词”的定义为:生物医学文献中描述分子相互作用和调控关系的词汇。由于PubMed文献描述基因或蛋白质往往没有明确区分,基因编码的蛋白质通常也以基因名称描述,因此,本发明中的“分子”为基因和蛋白质的统称,其包括基因DNA分子和蛋白质分子。另外蛋白质作用于基因的核苷酸序列也是分子之间相互作用的一种形式。
[0033] 本发明的有益效果:本发明建立基因调控识别方法,最大的优点是识别的准确率高,表达模式和互作词的限定,使得捕获的三元关系大概率是基因调控关系,以及从依存树上识别词与词的关系不受距离的影响,只要两者在语义上有关联都能捕获。附图说明
[0034] 图1本发明建立基因调控识别方法的流程图
[0035] 图2实施例1Semgrex捕获基因相互作用的示意图。

具体实施方式

[0036] 为了更加简洁明了的展示本发明的技术方案、目的和优点,下面结合具体实施例及其附图对本发明做进一步的详细描述。
[0037] 实施例1制定Semgrex表达式
[0038] 如图2所示,从PubMed基因相关摘要(PMID:16199137)获取候选证据基因句子“Our data suggest that expression of IKK-i canactivate both NFkappaB and IRF3”,句子中含有三个分子IKK-i、NFkappaB和IRF3。通过Enhanced++Dependencies对这个句子的语法结构进行解析获得依存关系(如图2A所示),根据常见表达模式“GeneAintGeneB”制定Semgrex表达式“{tag:/VB|VBP|VBD|VBZ/;lemma:/activate/}>nsubj{}=a>dobj{}=b”,在这个表达式中,“a”为主语,“b”为宾语,明确相互作用的方向为a作用于b,并为该表达式定义了92个互作词,“activate”为其中一个。Semgrex从句子依存关系中捕获两对分子相互作用IKKi与NfkappaB和IKK-i与IRF3,核心互作词“activate”的极性分类为“positive-solid”,明确两对牢固的分子相互作用及其极性和方向,即IKK-i激活NFkappB和IKK-i激活IRF3,该句子为其证据句子(如图2B所示)。
[0039] 实施例2基因调控识别方法在PubMed全集的识别
[0040] 我们建立基因调控识别方法(即GenCLiP 3),包括了31个的Semgrex表达式和167个分类的互作词。互作词的具体分类参见附表3至表10,Semgrex表达式详见附表11。在截止至2019年3月10日的PubMed全集的基因相关句子,该方法挖掘出402673个证据句子包含168621对相互作用基因,其中127350对明确了极性和方向性,比GenCLiP 2有明显的提升,参见表2。
[0041] 表2:GenCLiP 2和GenCLiP 3相互作用挖掘结果比较
[0042]
[0043] 表3:‘positive-solid’的互作词列表
[0044]
[0045] 表4:‘positive-candidate’的互作词列表
[0046]
[0047] 表5:‘negative-solid’的互作词列表
[0048]
[0049] 表6:‘negative-candidate’的互作词列表
[0050]
[0051] 表7:‘uncertain-solid’的互作词列表
[0052]
[0053]
[0054] 表8:‘uncertain-solid’的互作词列表
[0055]
[0056] 表9:‘uncertain-solid’的互作词列表
[0057]
[0058]
[0059] 表10:‘neutral-candidate’的互作词列表
[0060]
[0061] 表11:Semgrex表达式
[0062]
[0063]
[0064]
[0065] *INT为互作词,可为名词或动词.在各个表达式中,‘a’代表上游作用基因,‘b’代表下游基因。
[0066] 实施例3基因调控识别结果与各个工具的比较
[0067] 从PubMed全集识别结果随机抽取了846个句子,包括1446对相互作用基因,进行人工验证,结果是1365对的相互作用关系以及极性和方向性是正确的,正确率达到94.5%。
[0068] 另外,846个句子来自于844篇摘要,基因调控识别方法在这些摘要中共挖掘出2858对相互作用基因。我们将这844篇摘要提交到最新的PPI识别软件PPaxe:,结果只得到
1121对基因,参见表12,GenCLiP 3的识别率明显优于PPaxe。
[0069] 表12:GenCLiP 3和PPaxe在844篇摘要识别分子相互作用的比较
[0070]
[0071] Trrustv2是由专家人工编审的人和小鼠转录调控作用的数据库,目前已收录了795个人转录因子(TF)和对应的8427对调控关系,这些调控关系摘自PubMed摘要。本发明的方法挖掘的牢固的相互作用数据包含975个TF、对应30158对调控关系,与Trrustv2之间的对比见表13,GenCLiP 3识别的TF调控关系更多。两种工具中有交集的摘要是814篇,GenCLiP 3从中识别出的668个牢固的基因对在Trrustv2中同样有注释,另外,GneCLiP3还识别出Trrustv2中没有注释的388个牢固的基因对,参见表14。
[0072] 表13:GenCLiP 3和Trrustv2的转录因子调控信息比较
[0073]
[0074] 表14:GenCLiP 3和Trrustv2从814篇摘要中提取的基因调控
[0075]
[0076] 我们将基因调控识别结果与公共的4个公共PPI数据库比较,包括BioGRID、HPRD、CORUM和IntAct,4个数据库合计有446947对相互作用基因,其中28294对与GenCLiP 3有交集,GenCLiP 3贡献了超过14万对公共数据库未注释的分子相互作用,见表15。
[0077] 表15:GenCLiP 3和4个公共PPI数据库的比较
[0078]
[0079] 本发明建立的基因调控识别方法最大的优点是识别的准确率高,表达模式和互作词的限定,使得捕获的三元关系大概率是基因调控关系,以及从依存树上识别词与词的关系不受距离的影响,只要两者在语义上有关联都能捕获。尽管如此,基因调控识别方法仍然存在误识别,主要原因有三个:一是Semgrex表达式在制定时可能有未能兼顾的依存关系,在表达式中没有限定;二是Enhanced++Dependencies在注释依存关系时发生错误,自然语言本身非常复杂,注释错误无法完全避免;三是可能有其他否定的、不明确的、语义反转的表达形式未纳入规则。另外,我们的方法最大的不足是识别的范围相对有限,仍然有很多的常用的表达模式和互作词未纳入,值得我们在后续研究中跟进。
[0080] 以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。
相关专利内容
标题 发布/更新时间 阅读量
映射摘要和本地化 2020-05-11 455
平板扫描电子摘要本 2020-05-12 657
视频摘要提取 2020-05-11 508
摘要提取方法以及摘要提取模块 2020-05-11 664
摘要生成方法及装置 2020-05-12 23
摘要生成方法和装置 2020-05-12 352
摘要评估装置和方法 2020-05-13 173
会议摘要 2020-05-11 384
内容摘要验证接口方法 2020-05-12 559
图文摘要的评价方法 2020-05-13 521
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈