약물 가상 탐색 방법과 집중 탐색 라이브러리 구축 방법 및 이를 위한 시스템

申请号 KR1020140167253 申请日 2014-11-27 公开(公告)号 KR1020160064291A 公开(公告)日 2016-06-08
申请人 이화여자대학교 산학협력단; 发明人 김완규; 권예지; 이해승;
摘要 본발명은타겟단백질이나화합물의구조혹은구조적특성정보를사용하지않고, 다수의약물스크리닝데이터로부터추출한다양한생물학적활성에기반한, 예측정확성이높은약물가상탐색방법, 집중탐색라이브러리구축방법및 이를위한시스템에관한것이다.
权利要求
  • (a) 식별 모듈이, 입력 모듈을 통해 입력된 화합물 세트에서 화합물을 지칭하는 부분을 추출하여 식별자(ID; identifier)를 식별하는 단계;
    (b) 바이오어세이 선택 모듈이 바이오어세이(bioassay) 데이터베이스에서 임의의 바이오어세이 데이터를 추출하는 단계;
    (c) 상기 바이오어세이 선택 모듈이, 미리 설정된 활성도 점수(hit compound score)를 기준으로, 상기 추출된 바이오어세이 데이터에 포함된 다수의 화합물 세트들 각각의 활성 여부를 확인하여 오즈(odds)를 연산하는 단계;
    (d) 상기 바이오어세이 선택 모듈이, 상기 (c) 단계에서 연산된 오즈가 미리 설정된 기준 이상인 경우 상기 바이오어세이 데이터를 유의한 검정실험(hit enrichment bioassay)의 데이터로서 선택하는 단계;
    (e) 농축점수 연산 모듈이, 상기 선택된 바이오어세이 데이터에 포함된 다수의 화합물 세트들 중에 상기 식별자가 포함된 화합물 세트들을 선택하는 단계;
    (f) 상기 농축점수 연산 모듈이, 상기 (e) 단계에서 선택된 화합물 세트들과 상기 (c) 단계에서 확인된 활성 여부를 이용하여 각각의 농축점수(ES; enrichment score)를 연산하는 단계; 및
    (g) 출력 모듈이, 상기 (f) 단계에서 연산된 농축점수(ES)들의 합이 미리 설정된 기준값 이상인 경우, 상기 바이오어세이 데이터를 가상 유사 화합물을 포함하는 데이터로서 출력하는 단계를 포함하는,
    약물 가상 탐색 방법.
  • 제 1 항에 있어서,
    상기 바이오어세이 데이터베이스에 n개의 바이오어세이 데이터가 포함된 경우, 상기 (b) 단계의 바이오어세이 데이터 추출은 비복원추출방식으로 이루어지며, 상기 (d) 단계 후 상기 (b) 단계로 회귀함으로써 상기 (b) 내지 (d) 단계가 총 n회의 반복되는,
    약물 가상 탐색 방법.
  • 제 1 항에 있어서,
    상기 (g) 단계는,
    (g1) 상기 출력 모듈이, 상기 (f) 단계에서 연산된 농축점수(ES)가 미리 설정된 기준값 이상인 경우, 상기 바이오어세이 데이터에 포함된 화합물 세트들 중에서 상기 (c) 단계에서 활성으로 확인된 화합물 세트들에 포함된 화합물들을 가상 유사 화합물로서 출력하는 단계인,
    약물 가상 탐색 방법.
  • 제 1 항에 있어서,
    상기 (f) 단계는, 상기 농축점수 연산 모듈이, 상기 (e) 단계에서 선택된 화합물 세트들과 상기 (c) 단계에서 확인된 활성 여부를 이용하여 아래의 수식에 따라 각각의 농축점수(ES)를 연산하는 단계를 포함하며,
    여기에서, HI는 식별자를 포함하되 활성으로 확인된 화합물 세트의 개수이고, HE는 식별자를 포함하지 않되 비활성으로 확인된 화합물 세트의 개수이고, AI는 식별자 포함 유무와 무관하게 활성으로 확인된 전체 화합물 세트의 개수이고, 그리고 AE는 식별자 포함 유무와 무관하게 비활성으로 확인된 화합물 세트의 개수인,

    약물 가상 탐색 방법.
  • 제 1 항에 있어서,
    상기 (f) 단계는,
    (f1) 상기 농축점수 연산 모듈이, 상기 (c) 단계에서 활성으로 확인된 화합물 세트들만 선택하여, 상기 (c) 단계에서 확인된 활성도 점수를 기준으로 미리 설정된 개수의 그룹만큼 그룹화하는 단계; 및
    (f2) 상기 농축점수 연산 모듈이, 상기 (e) 단계에서 선택된 화합물 세트들과 상기 (c) 단계에서 확인된 활성 여부를 이용하여 상기 각각의 그룹들의 농축점수(ES)를 연산하는 단계를 포함하는,
    약물 가상 탐색 방법.
  • 제 5 항에 있어서,
    상기 (f2) 단계 이후,
    (f3) 상기 농축점수 연산 모듈이, 상기 (f2) 단계에서 연산된 농축점수(ES)들을 미리 설정된 방법에 따라 회귀분석하여 회귀식을 추정하는 단계; 및
    (f4) 상기 농축점수 연산 모듈이, 상기 (a) 단계에서 입력된 식별자에 상응하는 점수를 상기 회귀식에 투사하여 농축점수(ES)를 연산하는 단계;를 포함하는,
    약물 가상 탐색 방법.
  • 제 1 항에 있어서,
    상기 (g) 단계는,
    (g2) 상기 출력 모듈이, 상기 (f) 단계에서 연산된 농축점수(ES)들의 합이 미리 설정된 기준값 이상인 경우, 상기 농축점수(ES)들의 합이 큰 순서에 따라 상기 바이오어세이 데이터를 가상 유사 화합물을 포함하는 데이터로서 출력하는 단계를 포함하는,
    약물 가상 탐색 방법.
  • 제 1 항 내지 제 7 항 중 어느 한 항에 따른 약물 가상 탐색 방법을 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 매체.
  • 제 2 항에 따른 약물 가상 탐색 방법을 이용하되,
    상기 (d) 단계 이후,
    (h) 집중 탐색 라이브러리 구축 모듈이, 상기 (b) 내지 (d) 단계가 총 n회 반복된 후 선택된 유의한 검정실험의 데이터들을 추출하여 별도의 데이터베이스를 구축하는 단계를 더 포함하는,
    집중 탐색 라이브러리 구축 방법.
  • 제 2 항에 따른 약물 가상 탐색 방법을 이용하되,
    상기 (g) 단계 이후,
    (i) 집중 탐색 라이브러리 구축 모듈이, 상기 (b) 내지 (d) 단계가 총 n회 반복된 후, 상기 (g) 단계에서 출력되는 대상인 상기 바이오어세이 데이터들을 추출하여 별도의 데이터베이스를 구축하는 단계를 더 포함하는,
    집중 탐색 라이브러리 구축 방법.
  • 제 9 항 또는 제 10 항에 따른 집중 탐색 라이브러리 구축 방법을 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 매체.
  • 화합물 세트가 입력되는 입력 모듈;
    상기 입력 모듈을 통해 입력된 화합물 세트에서 화합물을 지칭하는 부분을 추출하여 식별자를 식별하는 식별 모듈;
    바이오어세이 데이터베이스에서 임의의 바이오어세이 데이터를 추출하고, 미리 설정된 활성도 점수를 기준으로 상기 추출된 바이오어세이 데이터에 포함된 다수의 화합물 세트들 각각의 활성 여부를 확인하여 오즈를 연산하며, 상기 연산된 오즈가 미리 설정된 기준 이상인 경우 상기 바이오어세이 데이터를 유의한 검정실험의 데이터로서 선택하는, 바이오어세이 선택 모듈;
    상기 선택된 바이오어세이 데이터에 포함된 다수의 화합물 세트들 중에 상기 식별자가 포함된 화합물 세트들을 선택하며, 선택된 화합물 세트들과 확인된 활성 여부를 이용하여 농축점수(ES)를 연산하는, 농축점수 연산 모듈; 및
    연산된 농축점수(ES)들의 합이 미리 설정된 기준값 이상인 경우, 상기 바이오어세이 데이터를 가상 유사 화합물을 포함하는 데이터로서 출력하는, 출력 모듈을 포함하는,
    약물 가상 탐색 및 집중 탐색 라이브러리 구축 시스템.
  • 제 12 항에 있어서,
    상기 바이오어세이 선택 모듈은, 상기 바이오어세이 데이터베이스에 n개의 바이오어세이 데이터가 포함된 경우, 비복원추출방식으로 바이오어세이 데이터베이스에서 임의의 바이오어세이 데이터를 n회 추출하는,
    약물 가상 탐색 및 집중 탐색 라이브러리 구축 시스템.
  • 제 12 항에 있어서,
    상기 출력 모듈은, 상기 연산된 농축점수(ES)가 미리 설정된 기준값 이상인 경우, 상기 바이오어세이 데이터에 포함된 화합물 세트들 중에서 활성으로 확인된 화합물 세트들에 포함된 화합물들을 가상 유사 화합물로서 출력하는,
    약물 가상 탐색 및 집중 탐색 라이브러리 구축 시스템.
  • 제 12 항에 있어서,
    상기 농축점수 연산 모듈은, 아래의 수식에 따라 각각의 농축점수(ES)를 연산하며,
    여기에서, HI는 식별자를 포함하되 활성으로 확인된 화합물 세트의 개수이고, HE는 식별자를 포함하지 않되 비활성으로 확인된 화합물 세트의 개수이고, AI는 식별자 포함 유무와 무관하게 활성으로 확인된 전체 화합물 세트의 개수이고, 그리고 AE는 식별자 포함 유무와 무관하게 비활성으로 확인된 화합물 세트의 개수인,

    약물 가상 탐색 및 집중 탐색 라이브러리 구축 시스템.
  • 제 12 항에 있어서,
    상기 농축점수 연산 모듈은, 활성으로 확인된 화합물 세트들만 선택하여 상기 확인된 활성도 점수를 기준으로 미리 설정된 개수의 그룹만큼 그룹화하며, 상기 각각의 그룹들의 농축점수(ES)를 연산하는,
    약물 가상 탐색 및 집중 탐색 라이브러리 구축 시스템.
  • 제 12 항에 있어서,
    상기 농축점수 연산 모듈은, 상기 연산된 농축점수(ES)들을 미리 설정된 방법에 따라 회귀분석하여 회귀식을 추정하며, 상기 식별 모듈에서 식별된 식별자에 상응하는 점수를 상기 회귀식에 투사하여 농축점수(ES)를 연산하는,
    약물 가상 탐색 및 집중 탐색 라이브러리 구축 시스템.
  • 제 12 항에 있어서,
    상기 출력 모듈은, 상기 농축점수(ES)들의 합이 큰 순서에 따라 상기 바이오어세이 데이터를 가상 유사 화합물을 포함하는 데이터로서 출력하는
    약물 가상 탐색 및 집중 탐색 라이브러리 구축 시스템.
  • 제 13 항에 있어서,
    상기 바이오어세이 데이터베이스에 n개의 바이오어세이 데이터가 포함되어 상기 바이오어세이 선택 모듈이 비복원추출방식으로 바이오어세이 데이터베이스에서 임의의 바이오어세이 데이터를 n회 추출하고 그 중 유의한 검정실험의 데이터들을 선택한 경우, 상기 선택된 유의한 검정실험의 데이터들을 추출하여 별도의 데이터베이스를 구축하는 집중 탐색 라이브러리 구축 모듈; 및
    상기 별도의 데이터베이스인 집중 탐색 라이브러리 데이터베이스를 더 포함하는,
    약물 가상 탐색 및 집중 탐색 라이브러리 구축 시스템.
  • 제 19 항에 있어서,
    상기 집중 탐색 라이브러리 구축 모듈은, 상기 출력 모듈이 출력하는 상기 바이오어세이 데이터들을 추출하여 상기 집중 탐색 라이브러리 데이터베이스를 구축하는,
    약물 가상 탐색 및 집중 탐색 라이브러리 구축 시스템.
  • 说明书全文

    약물 가상 탐색 방법과 집중 탐색 라이브러리 구축 방법 및 이를 위한 시스템{Method and system for drug virtual screening and construction of focused screening library}

    본 발명의 기술 분야는 바이오인포매틱스이다. 구체적으로, 본 발명은 적은 시간 및 노력으로도 방대한 데이터베이스 내에서 원하는 생물학적 활성을 나타내는 화합물을 높은 정확도로 예측할 수 있는 시스템 및 방법에 관한 것이며, 또한 이러한 과정에서 효율적인 신약 개발 등을 위한 집중 탐색 라이브러리를 구축하는 시스템 및 방법에 관한 것이다.

    최근 신약개발과정에 있어서, 시간과 비용을 줄일 수 있는 수단으로서 컴퓨터를 이용한 가상 탐색 기술(Virtual Screening)이 핵심 분야 중 하나로 자리 잡고 있다. 그 배경에는 계산기의 비약적인 성능 향상에 가세해 고속 다중 탐색 기술(High Throughput Screening)이나 조합 합성 기술(Combinatorial Synthesis)에 의해 축적되는 구조-활성 관계(Structure-Activity Relationship)의 정보량이 비약적으로 증대하고 있는 점, 게놈 연구의 진전에 의해 타겟 단백질의 구조 정보가 비약적으로 증대하고 있는 점 등을 들 수 있다.

    이와 같은 가상 스크리닝 기술은 전통적으로, 타겟 단백질에 활성이 있는 것으로 알려진 화합물들 간의 구조적 유사성, 즉 이미 알려진 구조-활성 관계 정보에 근거하는 리간드 기반 가상 탐색 방법(Ligand-Based Virtual Screening)과 타겟 단백질의 입체 구조 정보를 이용하여 단백질-리간드 도킹(docking)과 같이 구조 기반 가상 탐색 방법(Structure-Base Virtual Screening)이 있다.

    구조 기반 탐색 방법은, 복수의 약물이 타겟 단백질의 활성 부위 부근에 결합하는 경우, 어느 약물도 단백질과 상보적인 관계에 있는 것과 동시에, 각각의 결합 과정에 있어서의 자유에너지 변화량이 약리 활성의 강약을 나타낸다는 개념에 근거한다. 타겟 단백질과 리간드와의 결합 상태와 그 약리 활성치를 컴퓨터 위에서 추정하며, 구조-활성 관계의 정보를 필요로 하지 않음에도 불구하고, 정확도 높은 활성치 예측을 기대할 수 있는 잇점을 가지고 있다. 그러나, 리간드(true ligand)를 비리간드(non-ligand)와 분별하는 것은 가능하나 정량적인 순서를 매기는 것은 거의 불가능하며, 대부분의 가상탐색/도킹 프로그램은 단백질의 유연성을 고려하지 못하는 한계가 있다. 또한, 수용체 구조(결합 모델)가 필수이며, 예측의 정도(accuracy)는 구조의 정확성에 의존한다. 뿐만 아니라, 구조-활성 관계 정보가 축적되어도 예측 정확도의 향상으로 연결되지 않는다는 한계가 있다.

    한편, 공통의 부위에 결합하고 있는 약물 간에는 그 물리화학적 파라미터에 있어서 상동성을 볼 수 있다는 점에 착안한 리간드 기반 가상 탐색 방법은 구조 기반 가상 탐색 방법과는 달리 수용체 구조(결합 모델)를 필요로 하지 않는 잇점이 있으나, 약리 활성의 사전 정보를 필요로 하고, 사전 정보의 질과 양에 예측 정확도가 의존하고 있기 때문에, 기지 정보 이상의 예측은 불가능하거나, 활성치 예측의 정확도가 낮다는 한계가 여전히 존재한다.

    본 발명자들은 상기와 같은 기존 가상 탐색 기술의 한계를 극복하기 위해 연구를 거듭한 결과, 기존의 방법과는 달리 타겟 단백질이나 화합물의 구조 혹은 구조적 특성 정보를 사용하지 않으며, 그 대신 다수의 약물 스크리닝 데이터로부터 추출한 다양한 생물학적 활성을 기반으로 가상 탐색을 수행함으로써, 예측의 정확성이 높을 뿐만 아니라, 기존에 활성이 알려진 화합물과는 전혀 다른 골격의 화합물을 탐색할 수 있는 약물 가상 탐색 방법을 제공할 수 있음을 확인하고 본 발명을 완성하기에 이르렀다.

    (특허문헌1) US6,421,612

    (특허문헌2) US6,994,473

    (특허문헌3) US7,416,524

    본 발명은 상기와 같은 과제를 해결하기 위하여 안출된 것이다.

    구체적으로, 방대한 약물 스크리닝 데이터베이스를 사용하여 대규모 약물 스크리닝 실험에 수반되는 시간, 노력의 낭비의 문제를 해결함과 동시에 가상 탐색의 정확성이 높은 유사한 활성의 화합물을 출력할 수 있는 방법 및 시스템을 제안하고자 한다.

    상기와 같은 과제를 해결하기 위하여, 본 발명의 일 실시예는, (a) 식별 모듈이, 입력 모듈을 통해 입력된 화합물 세트에서 화합물을 지칭하는 부분을 추출하여 식별자(ID; identifier)를 식별하는 단계; (b) 바이오어세이 선택 모듈이 바이오어세이(bioassay) 데이터베이스에서 임의의 바이오어세이 데이터를 추출하는 단계; (c) 상기 바이오어세이 선택 모듈이, 미리 설정된 활성도 점수(hit compound score)를 기준으로, 상기 추출된 바이오어세이 데이터에 포함된 다수의 화합물 세트들 각각의 활성 여부를 확인하여 오즈(odds)를 연산하는 단계; (d) 상기 바이오어세이 선택 모듈이, 상기 (c) 단계에서 연산된 오즈가 미리 설정된 기준 이상인 경우 상기 바이오어세이 데이터를 유의한 검정실험(hit enrichment bioassay)의 데이터로서 선택하는 단계; (e) 농축점수 연산 모듈이, 상기 선택된 바이오어세이 데이터에 포함된 다수의 화합물 세트들 중에 상기 식별자가 포함된 화합물 세트들을 선택하는 단계; (f) 상기 농축점수 연산 모듈이, 상기 (e) 단계에서 선택된 화합물 세트들과 상기 (c) 단계에서 확인된 활성 여부를 이용하여 각각의 농축점수(ES; enrichment score)를 연산하는 단계; 및 (g) 출력 모듈이, 상기 (f) 단계에서 연산된 농축점수(ES)들의 합이 미리 설정된 기준값 이상인 경우, 상기 바이오어세이 데이터를 가상 유사 화합물을 포함하는 데이터로서 출력하는 단계를 포함하는, 약물 가상 탐색 방법을 제공한다.

    또한, 상기 바이오어세이 데이터베이스에 n개의 바이오어세이 데이터가 포함된 경우, 상기 (b) 단계의 바이오어세이 데이터 추출은 비복원추출방식으로 이루어지며, 상기 (d) 단계 후 상기 (b) 단계로 회귀함으로써 상기 (b) 내지 (d) 단계가 총 n회의 반복되는 것이 바람직하다.

    또한, 상기 (g) 단계는, (g1) 상기 출력 모듈이, 상기 (f) 단계에서 연산된 농축점수(ES)가 미리 설정된 기준값 이상인 경우, 상기 바이오어세이 데이터에 포함된 화합물 세트들 중에서 상기 (c) 단계에서 활성으로 확인된 화합물 세트들에 포함된 화합물들을 가상 유사 화합물로서 출력하는 단계인 것이 바람직하다.

    또한, 상기 (f) 단계는, 상기 농축점수 연산 모듈이, 상기 (e) 단계에서 선택된 화합물 세트들과 상기 (c) 단계에서 확인된 활성 여부를 이용하여 아래의 수학식 1에 따라 각각의 농축점수(ES)를 연산하는 단계를 포함하는 것이 바람직하다.

    또한, 상기 (f) 단계는, (f1) 상기 농축점수 연산 모듈이, 상기 (c) 단계에서 활성으로 확인된 화합물 세트들만 선택하여, 상기 (c) 단계에서 확인된 활성도 점수를 기준으로 미리 설정된 개수의 그룹만큼 그룹화하는 단계; 및 (f2) 상기 농축점수 연산 모듈이, 상기 (e) 단계에서 선택된 화합물 세트들과 상기 (c) 단계에서 확인된 활성 여부를 이용하여 상기 각각의 그룹들의 농축점수(ES)를 연산하는 단계를 포함하는 것이 바람직하다.

    또한, 상기 (f2) 단계 이후, (f3) 상기 농축점수 연산 모듈이, 상기 (f2) 단계에서 연산된 농축점수(ES)들을 미리 설정된 방법에 따라 회귀분석하여 회귀식을 추정하는 단계; 및 (f4) 상기 농축점수 연산 모듈이, 상기 (a) 단계에서 입력된 식별자에 상응하는 점수를 상기 회귀식에 투사하여 농축점수(ES)를 연산하는 단계;를 포함하는 것이 바람직하다.

    또한, 상기 (g) 단계는, (g2) 상기 출력 모듈이, 상기 (f) 단계에서 연산된 농축점수(ES)들의 합이 미리 설정된 기준값 이상인 경우, 상기 농축점수(ES)들의 합이 큰 순서에 따라 상기 바이오어세이 데이터를 가상 유사 화합물을 포함하는 데이터로서 출력하는 단계를 포함하는 것이 바람직하다.

    상기와 같은 과제를 해결하기 위하여, 본 발명의 다른 실시예는, 상기 (d) 단계 이후, (h) 집중 탐색 라이브러리 구축 모듈이, 상기 (b) 내지 (d) 단계가 총 n회 반복된 후 선택된 유의한 검정실험의 데이터들을 추출하여 별도의 데이터베이스를 구축하는 단계를 더 포함하는, 집중 탐색 라이브러리 구축 방법을 제공한다.

    상기와 같은 과제를 해결하기 위하여, 본 발명의 또 다른 실시예는, 상기 (g) 단계 이후, (i) 집중 탐색 라이브러리 구축 모듈이, 상기 (b) 내지 (d) 단계가 총 n회 반복된 후, 상기 (g) 단계에서 출력되는 대상인 상기 바이오어세이 데이터들을 추출하여 별도의 데이터베이스를 구축하는 단계를 더 포함하는, 집중 탐색 라이브러리 구축 방법을 제공한다.

    상기와 같은 과제를 해결하기 위하여, 본 발명의 또 다른 실시예는, 화합물 세트가 입력되는 입력 모듈; 상기 입력 모듈을 통해 입력된 화합물 세트에서 화합물을 지칭하는 부분을 추출하여 식별자를 식별하는 식별 모듈; 바이오어세이 데이터베이스에서 임의의 바이오어세이 데이터를 추출하고, 미리 설정된 활성도 점수를 기준으로 상기 추출된 바이오어세이 데이터에 포함된 다수의 화합물 세트들 각각의 활성 여부를 확인하여 오즈를 연산하며, 상기 연산된 오즈가 미리 설정된 기준 이상인 경우 상기 바이오어세이 데이터를 유의한 검정실험의 데이터로서 선택하는, 바이오어세이 선택 모듈; 상기 선택된 바이오어세이 데이터에 포함된 다수의 화합물 세트들 중에 상기 식별자가 포함된 화합물 세트들을 선택하며, 선택된 화합물 세트들과 확인된 활성 여부를 이용하여 농축점수(ES)를 연산하는, 농축점수 연산 모듈; 연산된 농축점수(ES)들의 합이 미리 설정된 기준값 이상인 경우, 상기 바이오어세이 데이터를 가상 유사 화합물을 포함하는 데이터로서 출력하는, 출력 모듈을 포함하는, 약물 가상 탐색 및 집중 탐색 라이브러리 구축 시스템을 제공한다.

    본 발명에 의하여 소수의 화합물 세트에 포함된 화합물일지라도 생리적, 화학적 활성이 유사할 것으로 예측되는 화합물을 높은 정확도와 신속한 시간으로 예측함으로써, 생물학적 검정실험의 성공율을 높일 수 있다.

    또한, 회귀분석을 적용하는 경우 그 정확도는 더욱 향상된다.

    또한, 본 발명에 의하여 구축되는 집중 탐색 라이브러리는, 본 발명에 의한 방법이 지속될수록 높은 정확도를 갖게 된다.

    또한, 다수의 다양한 타겟 단백질에 작용하는 것으로 알려진 화합물 세트들을 입력 화합물 세트로 하여 그 농축 점수를 상대적으로 비교함으로써, 그 타겟이 알려져 있지 않은 특정 화합물에 대한 타겟을 추정하는 데에도 적용된다.

    또한, 본 발명은 표현형 기반 약물 탐색(phenotypic drug screening)을 통해 찾아낸 화합물들과 같이 그 타겟의 수와 종류가 정확하게 알려지지 않은 경우에도 적용이 가능하며, 그 화합물 세트에 유의한 검정실험의 방법과 내용을 통해 해당 표현형과 관련된 미지의 타겟을 찾아내는 데에도 적용할 수 있다.

    도 1은 본 발명에 따른 시스템을 설명하는 개념도이다.
    도 2는 본 발명에 따른 방법을 설명하는 순서도이다.
    도 3은 본 발명에 따른 방법을 적용한 검증실험(1)의 결과인 ROC이다.
    도 4는 본 발명에 따른 방법을 적용한 검증실험(2)의 결과인 ROC이다.

    1. 용어의 정의

    이하에서 "화합물 세트(compound set)"는, 특정 화합물을 기초로 그 구조, 기능 및 골격까지 모두 포함된 데이터를 의미한다. 식별을 위하여 해당 화합물의 식별자(ID; identifier)가 이에 포함된다. 식별자를 표기하는 방법은 이미 알려진 표준에 의한다.

    이하에서 "바이오어세이(bioassay) 데이터"는, 이미 실행되어 알려진 검정실험의 결과에 대한 데이터를 의미한다. 바이오어세이 데이터에는 다수의 화합물 세트가 포함되어 있다. 예를 들어, 특정 화합물의 식별자를 알 경우, 해당 식별자를 입력함으로써 상기 특정 화합물이 포함된 모든 바이오어세이 데이터를 추출할 수도 있으며, 또한 특정 바이오어세이 데이터들 중에서 상기 특정 화합물이 포함된 모든 화합물 세트를 확인할 수도 있다.

    이하에서 "활성 화합물(hit componunds)"는 특정 화합물 세트에서 입력하는 조건(예를 들어, 타겟 내지 특정 단백질)에 대하여 반응을 나타낸 화합물을 의미한다. 활성 화합물은 다양한 지표로 표현되는데, 본 발명에서는 바이오어세이 내에 정량화되어 입력된 것을 가정한다. 따라서, 기준으로서 활성도 점수(hit compound score)을 미리 설정해두면 활성 내지 비활성 여부를 보편적 기준으로서 구분할 수 있다. "활성 화합물"의 반대 개념으로서 "비활성 화합물(non-hit compounds)"을 사용한다.

    이하에서 "오즈(odds)"는 전체 데이터 중 비활성 화합물에 대한 활성 화합물의 비율을 의미한다. 예를 들어, 바이오어세이에 1100개의 화합물 세트가 포함되어 있는데, 활성 화합물이 포함된 세트가 100개인 경우, 상기 바이오어세이에서 상기 활성 화합물의 오즈는 100/1000 = 0.1이다.

    이하에서 "농축(enrichment)"은 다수의 데이터들 중에서 원하는 데이터를 확보하기 위하여 원하지 않은 데이터가 필터링된 과정을 의미한다. 예를 들어, 총 10,000개의 데이터들 중에서 원하는 "A" 데이터가 저장된 데이터를 확인하고자 하는데, "A"가 없는 것으로 확인된 9,000개가 필터링되고 1,000개의 데이터만 남은 경우 이를 "농축된 데이터"라고 지칭할 수 있다. 한편, 이와 같이 농축된 정도를 아래에서는 "농축 점수(ES; enrichment score)"로 지칭한다.

    이하에서 "유의한 검정실험(hit enriched bioassays)"는 해당 검정실험이 사용자가 원하는 화합물의 가상 유사 화합물을 확인하는데 의미가 있는 검정실험, 즉 바이오어세이를 의미한다. 기준값을 미리 설정함으로써 보편적 기준으로 구분할 수 있는 한편, 기준값을 사용자가 적절하게 조절함으로써 정확도와 양을 조절할 수 있다.

    이하에서, "ROC 곡선(Receiver-Operating Characteristic Curve)" 특정 예측 방법의 효율성을 확인하기 위하여 적중 확률, 즉, 민감도(sensitivity)를 Y축으로 하고 오경보 확률, 즉, 1-특이도(1-specificity)를 X축으로 한 곡선을 의미하며, 또한 여기에서 AUC(Area Under Curve) 값은 곡선하 면적값을 의미한다.

    이하에서 "시스템(system)"은 방법의 반대 개념인 물건을 의미하는 것으로 이해되어야 한다.

    이하에서 "모듈(module)"은 정보 처리를 위한 연산 수단의 단위를 의미하는 것으로서, 각각의 모듈이 반드시 물리적으로 구분될 필요는 없으며, 하나의 모듈은 하나의 수단에서만 이루어질 수도 있고 다수의 모듈이 하나의 수단에서 이루어질 수도 있다. 예를 들어, 본 발명에 따른 시스템이 정보 처리 단말기(즉, 컴퓨터)에서 이루어지는 경우, 하나의 단말기에서 모든 모듈의 연산 작용이 수행될 수도 있으며, 각각의 모듈이 별도의 단말기에서 연산 작용을 수행할 수도 있다.

    2. 시스템의 설명

    이하, 도 1을 참조하여 본 발명에 따른 시스템을 먼저 설명한다.

    본 발명에 따른 시스템은 입력 모듈(100), 식별 모듈(200), 바이오어세이 선택 모듈(300), 농축점수 연산 모듈(400), 출력 모듈(500), 집중 탐색 라이브러리 구축 모듈(600) 및 집중 탐색 라이브러리 데이터베이스(700)를 포함한다. 또한, 본 발명에 따른 시스템은 웹(web) 등으로 연결되어 별도로 구축된 바이오어세이 데이터베이스(10)에 접속하여 정보를 업로드 및 다운로드할 수 있다.

    바이오어세이 데이터베이스(10)는, 바이오어세이 데이터가 포함되어 있는 어떠한 데이터베이스도 무방하다. 다만, 바이오어세이 데이터는 전술한 바와 같이 다수의 화합물 세트가 포함되어 있어야 하며, 후술할 바와 같이 식별 모듈(200)에서 식별되는 식별자를 이용하여 화합물이 자동으로 검색될 수 있는 형식(format)으로 저장된 데이터이어야 한다.

    바이오어세이 데이터베이스(10)의 일례는, 미국보건연구원에서 제공하는 바이오어세이 데이터베이스일 수 있으나(https://pubchem.ncbi.nlm.nih.gov), 이에 제한이 없음은 물론이다.

    입력 모듈(100)은 사용자가 화합물 세트를 입력할 수 있는 어떠한 수단이어도 무방하다. 키보드, 마우스, 터치패드 등이 일례일 수 있다.

    식별 모듈(200)은 사용자가 입력한 화합물 세트를 미리 결정된 식별자로 변환한다. 이를 위하여, 바이오어세이 데이터베이스(10)에는 화합물마다 식별자가 매핑(mapping)되어 저장되어 있는 것이 바람직하다. 전술한 일례인, 미국보건연구원에서 제공하는 바이오어세이 데이터베이스에는 이와 같은 식별자가 모두 저장되어 있다. 예를 들어, 타겟 단백질이 "Ubiquitin carboxyl-terminal hydrolase 1"인 경우 그 식별자는 "O94782"로 저장되어 있다. 식별 모듈(200)은 웹을 통하여 바이오어세이 데이터베이스(10)에 접속함으로써, 입력 모듈(100)을 통하여 입력된 화합물 세트에서 화합물을 지칭하는 부분이 식별자로 자동 식별된다.

    바이오어세이 선택 모듈(300)은 다음의 기능을 수행한다.

    첫째, 바이오어세이 데이터베이스(10)에서 임의의(random) 바이오어세이 데이터를 추출한다. 전술한 바와 같이 바이오어세이 데이터베이스(10)에는 매우 많은 수의 바이오어세이 데이터들이 저장되어 있는데, 본 발명에 따른 시스템은 후술할 바와 같이 그 각각이 유의한 검정실험의 데이터인지 여부를 하나씩 확인하며, 이를 위하여 비복원추출방식으로 임의의 바이오어세이 데이터를 선택하는 기능을 한다. 즉, 바이오어세이 데이터베이스(10)에 n개의 바이오어세이 데이터가 포함된 경우, 임의의 바이오어세이 데이터를 n회 추출하게 된다.

    둘째, 미리 설정된 활성도 점수를 기준으로 추출된 바이오어세이에 포함된 다수의 화합물 세트들 각각의 활성 여부를 확인하여 오즈를 연산한다.

    셋째, 연산된 오즈가 미리 설정된 기준 이상인 경우 해당 바이오어세이 데이터를 유의한 검정실험의 데이터로서 선택한다.

    농축점수 연산 모듈(400)은 선택된 바이오어세이 데이터에 포함된 다수의 화합물 세트들 중에 사용자가 입력하여 확인하고자 하는 화합물의 식별자가 포함된 화합물 세트들을 선택하며, 선택된 화합물 세트들과 확인된 활성 여부를 이용하여 농축점수(ES)를 연산한다. 구체적인 연산 방법은 아래의 방법의 설명에서 상술한다.

    출력 모듈(500)은 최종 결과물인 가상 유사 화합물을 출력한다. 모니터, 프린터 등 결과물을 출력할 수 있는 어떠한 수단이어도 무방하다.

    집중 탐색 라이브러리 구축 모듈(600)은 본 발명에 따른 방법을 수행하는 동안 유의한 검정실험의 데이터로서 확인된 바이오어세이 데이터들을 별도로 집중 탐색 라이브러리 데이터베이스(700)에 저장하는 기능을 한다.

    전술한 바와 같이, 웹으로 접속 가능한 일반적인 바이오어세이 데이터베이스(10)에는 너무나 많은 데이터들이 저장되어 있어서 사용자가 진정으로 원하는 결과물을 확인하기에는 많은 시간과 노력이 소요되며 결과물의 정확도 또한 높지 않다. 이를 극복하기 위하여 본 발명에 따른 방법이 수행됨에 따라 다수의 바이오어세이 데이터들이 유의한 검정실험의 데이터로서 선택되는데, 이를 별도의 집중 탐색 라이브러리 데이터베이스(700)로 저장해둠으로써 향후 유사한 작업을 하는 경우 시간과 노력을 극히 감소시키고 정확도를 상승시킬 수 있다.

    3. 방법의 설명

    도 2를 참조하여, 본 발명에 따른 방법을 설명한다.

    먼저, 가상 탐색 방법을 설명한다.

    사용자가 유사한 화합물이 무엇인지 확인하고자 하는 화합물을 입력 모듈(100)을 통하여 입력하면, 식별 모듈(100)은 입력된 화합물 세트에서 화합물을 지칭하는 부분을 추출하여 식별자를 식별한다(S100). 이때, 웹 등으로 연결된 바이오어세이 데이터베이스(10)에 미리 매핑되어 저장되어 있는 데이터들을 이용할 수 있다.

    다음, 바이오어세이 선택 모듈(300)은 바이오어세이 데이터베이스(10)에서 비복원추출방식으로 임의의 바이오어세이 데이터를 하나 추출한다(S120).

    다음, 바이오어세이 선택 모듈(300)은 활성도 점수를 기준으로, 추출된 하나의 바이오어세이 데이터에 포함된 다수의 화합물 세트들 각각의 활성 여부를 확인하여 오즈(odds)를 연산한다(S130). 전술한 바와 같이 활성도 점수는 미리 결정된 점수이며, 오즈의 연산 방법은 앞서 설명한 바와 같다.

    다음, 바이오어세이 선택 모듈(300)은 연산된 오즈가 미리 설정된 기준 이상인 경우 상기 바이오어세이 데이터를 유의한 검정실험의 데이터로서 선택한다(S140). 여기에서 사용자는 그 기준을 다양하게 조절함으로써 보다 많은 양의 데이터를 선택할 것인지, 또는 정확도에 중점을 둘 것인지 선택할 수 있음은 물론이다.

    다음, 바이오어세이 선택 모듈(300)은 바이오어세이 데이터베이스(10)에 선택하지 않은 바이오어세이 데이터, 즉 더 선택할 바이오어세이 데이터가 있는지 여부를 확인하며, 더 선택할 바이오어세이 데이터가 있는 경우 S120 단계로 회귀하여 반복한다.

    이와 같은 과정으로, 바이오어세이 데이터베이스(10)에 저장되어 있는 바이오어세이 데이터의 개수(n)만큼 S120 내지 S140 단계가 반복된다. 이러한 반복 결과, 바이오어세이 데이터베이스(10)에 저장된 수 많은 데이터들 중에서 유의한 검정실험의 데이터들이 선택된다. 아래의 과정에서는 이러한 유의한 검정실험의 데이터들만을 이용하여 농축점수(ES)가 연산될 것이다.

    유의한 검정실험의 데이터들이 선택되면, 농축점수 연산 모듈(400)은 선택된 바이오어세이 데이터들에 포함된 다수의 화합물 세트들 중에 상기 식별자가 포함된 화합물 세트들을 확인한다(S210). 바이오어세이 데이터가 다수이며, 각각의 바이오어세이 데이터들에는 다수의 화합물 세트들이 포함되어 있으므로 S210 절차가 수회 반복되어야 한다.

    다음, 농축점수 연산 모듈은(400)은 S210 단계에서 선택된 화합물 세트들과 S130 단계에서 먼저 확인된 활성 여부를 이용하여 각각의 농축점수(ES; enrichment score)를 연산한다.

    본 과정을 보다 상세히 설명한다.

    먼저, 농축점수(ES)를 연산하는 방법을 설명한다. 농축점수(ES)를 연산하는 다른 방법도 사용될 수 있으나, 본 발명자는 수 차례의 실험을 통하여 아래의 수학식 1과 같이 로그 스케일로 표현하는 것이 가장 바람직함을 확인하였다. 이와 같은 수학식이 바람직함은 아래에서 후술할 ROC의 AUC 값을 통하여 확인되었는바, 이는 후술한다.

    여기에서, HI는 식별자를 포함하되 활성으로 확인된 화합물 세트의 개수이고, HE는 식별자를 포함하지 않되 비활성으로 확인된 화합물 세트의 개수이고, AI는 식별자 포함 유무와 무관하게 활성으로 확인된 전체 화합물 세트의 개수이고, 그리고 AE는 식별자 포함 유무와 무관하게 비활성으로 확인된 화합물 세트의 개수이다. 식별자 포함 여부는 S210 단계에서 확인되는 것이며, 활성 여부는 S130 단계에서 확인된 것이다.

    이를 표로서 나타내면 다음과 같다.

    식별자 포함 (Include) 식별자 제외됨 (Exclude)
    활성 화합물 세트 (H) HI HE
    전체 화합물 세트 (A) AI AE

    예를 들어, 전체 화합물 세트의 개수가 20,400개인데 식별 모듈(200)을 통하여 식별된 식별자가 포함된 화합물 세트가 200개이며, 전체 20,400개의 화합물 세트 중에서 활성으로 확인된 화합물 세트가 300개인데 식별 모듈(200)을 통하여 그 중에서 식별된 식별자가 포함된 화합물 세트가 100개인 경우 아래의 표와 같이 표현된다.

    식별자 포함 (Include) 식별자 제외됨 (Exclude)
    활성 화합물 세트 (H) 100 200
    전체 화합물 세트 (A) 400 20000

    농축점수 연산 모듈(400)이 전술한 수학식으로 위의 바이오어세이 데이터의 농축점수(ES)를 연산하면, ES = Log 2 25임을 확인할 수 있다.

    보다 구체적으로 단계별로 설명한다.

    농축점수 연산 모듈(400)은, 활성으로 확인된 화합물 세트들만을 먼저 선택하고, 활성도 점수를 기준으로 미리 설정된 개수의 그룹만큼 그룹화한다(S220). 그룹화하지 않고 바로 농축점수(ES)를 연산할 수 있으나, 이와 같이 그룹화를 거쳐 회귀분석을 함으로써 정확도를 더욱 상승시킬 수 있다(S220).

    다음, 농축점수 연산 모듈(400)은, S220단계에서 선택된 화합물 세트들과 먼저 확인된 활성 여부를 이용하여 상기 각각의 그룹들의 농축점수(ES)를 연산한다(S230).

    다음, 농축점수 연산 모듈(400)은, 연산된 농축점수(ES)들을 미리 설정된 방법에 따라 회귀분석하여 회귀식을 추정한다(S240). 예를 들어, 다수의 그룹들의 화합물에 해당하는 점수를 바이오어세이 데이터베이스(10)에서 추출하고, 연산된 농축점수(ES)를 관찰값으로 설정함으로써 회귀식이 추정된다. 회귀식을 추정하는 방법은 널리 알려진 종래기술인바 상세한 설명은 생략한다.

    다음, 농축점수 연산 모듈(400)은, 식별 모듈(200)에서 바이오어세이 데이터베이스(10)에서 식별된 식별자에 상응하는 점수를 확인하여 상기 회귀식에 투사함으로써 농축점수(ES)를 연산한다(S250). 특히, 하나의 식별자에 다수의 바이오어세이로부터 계산된 농축점수(ES)가 부여되는 경우 그 연산된 농축점수(ES)들의 합이 최종 농축점수(ES)가 된다.

    이와 같은 과정을 통하여 바이오어세이 데이터 별로 농축점수(ES)가 연산되었다. 결과적으로, 농축점수(ES)가 높은 바이오어세이 데이터일수록, 최초 사용자가 입력하였던 화합물에 유사한 화합물이 포함된 데이터일 수 있다. 따라서, 출력 모듈(500)은, 연산된 농축점수(ES)들의 합이 미리 설정된 기준값 이상인 경우, 유사도가 높은 데이터로 추정하여 상기 바이오어세이 데이터를 가상 유사 화합물을 포함하는 데이터로서 출력한다.

    다른 방법으로, 출력 모듈(500)은, 연산된 농축점수(ES)가 미리 설정된 기준값 이상인 경우, 상기 바이오어세이 데이터에 포함된 화합물 세트들 중에서 활성으로 확인된 화합물 세트들에 포함된 화합물들만을 가상 유사 화합물로서 출력할 수도 있다.

    다음, 집중 탐색 라이브러리 구축 방법을 설명한다.

    두 가지 방법이 가능하다.

    첫째로, 집중 탐색 라이브러리 구축 모듈(600)이, 총 n회 반복된 후 선택된 유의한 검정실험의 데이터들만을 추출하여 별도의 집중 탐색 라이브러리 데이터베이스(700)를 구축하는 것이다(S400).

    둘째로, 집중 탐색 라이브러리 구축 모듈(600)이, 총 n회 반복된 후 선택된 유의한 검정실험의 데이터 중에서도 활성으로 확인된 화합물 세트만을 별도의 데이터베이스로 구축하는 것이다.

    4. 검증실험(1)

    바이오어세이 데이터베이스(10)로서, 전술한 미국보건연구원에서 제공하는 바이오어세이 데이터베이스(https://pubchem.ncbi.nlm.nih.gov)를 사용하였다. 확인하고자 하는 화합물로서 타겟 단백질을 "abhydrolase domain-containing protein 4 isoform 1 [Mus musculus]"로 특정하여 입력 모듈(100)을 통하여 입력하였으며 식별 모듈(200)이 식별자 "ID:720543"을 확인하였다. 전체 화합물 세트의 개수(AI+AE)는 369,939개가 확인되었으며, 그 중에서 입력한 식별자가 포함된 화합물 세트의 개수(AI)는 995개였다. 활성도 점수를 설정하여 활성 여부를 구분하였으며, 전체 중에 활성 화합물 세트의 개수는 2,005개(0.542%)임을 확인하였다. 이러한 결과를 토대로 본 발명에 따른 방법을 실시하고 그 결과를 ROC로 그래프화하여 AUC 값을 계산하였다.

    계산 결과 도 3에 도시된 바와 같이 확인되었으며, AUC 값이 0.8615임이 확인되었다. 일반적으로 AUC 값은 0.7 초과하는 경우 예측 성능이 높은 것으로 평가되는바, 본 발명에 따른 방법으로서 우수한 예측 성능으로서 가상 유사 화합물이 확인됨을 검증하였다.

    5. 검증실험(2)

    바이오어세이 데이터베이스(10)로서, 전술한 미국보건연구원에서 제공하는 바이오어세이 데이터베이스(https://pubchem.ncbi.nlm.nih.gov)를 사용하였다. 확인하고자 하는 화합물로서 타겟 단백질을 "USP1 protein [Homo sapiens]"로 특정하여 입력 모듈(100)을 통하여 입력하였으며 식별 모듈(200)이 식별자 "ID:743255"를 확인하였다. 전체 화합물 세트의 개수(AI+AE)는 389,560개가 확인되었으며, 그 중에서 입력한 식별자가 포함된 화합물 세트의 개수(AI)는 339개였다. 활성도 점수를 설정하여 활성 여부를 구분하였으며, 전체 중에 활성 화합물 세트의 개수는 904개(0.232%)임을 확인하였다. 이러한 결과를 토대로 본 발명에 따른 방법을 실시하고 그 결과를 ROC로 그래프화하여 AUC 값을 계산하였다.

    계산 결과 도 4에 도시된 바와 같이 확인되었으며, AUC 값이 0.9077임이 확인되었다. 따라서, 본 발명에 따른 방법으로서 우수한 예측 성능으로서 가상 유사 화합물이 확인됨을 검증하였다.

    상기에서는 본 발명의 바람직한 실시 예를 참조하여 설명하였지만, 당업계에서 통상의 지식을 가진 자라면 이하의 특허 청구범위에 기재된 본 발명의 사상 및 영역을 벗어나지 않는 범위 내에서 본 발명을 다양하게 수정 및 변경시킬 수 있음을 이해할 수 있을 것이다.

    10: 바이오어세이 데이터베이스
    100: 입력 모듈
    200: 식별 모듈
    300: 바이오어세이 선택 모듈
    400: 농축점수 연산 모듈
    500: 출력 모듈
    600: 집중 탐색 라이브러리 구축 모듈
    700: 집중 탐색 라이브러리 데이터베이스

    QQ群二维码
    意见反馈