약물 가상 탐색 방법과 집중 탐색 라이브러리 구축 방법 및 이를 위한 시스템 |
|||||||||||||||||||||||||
申请号 | KR1020140167253 | 申请日 | 2014-11-27 | 公开(公告)号 | KR1020160064291A | 公开(公告)日 | 2016-06-08 | ||||||||||||||||||
申请人 | 이화여자대학교 산학협력단; | 发明人 | 김완규; 권예지; 이해승; | ||||||||||||||||||||||
摘要 | 본발명은타겟단백질이나화합물의구조혹은구조적특성정보를사용하지않고, 다수의약물스크리닝데이터로부터추출한다양한생물학적활성에기반한, 예측정확성이높은약물가상탐색방법, 집중탐색라이브러리구축방법및 이를위한시스템에관한것이다. | ||||||||||||||||||||||||
权利要求 | (a) 식별 모듈이, 입력 모듈을 통해 입력된 화합물 세트에서 화합물을 지칭하는 부분을 추출하여 식별자(ID; identifier)를 식별하는 단계; (b) 바이오어세이 선택 모듈이 바이오어세이(bioassay) 데이터베이스에서 임의의 바이오어세이 데이터를 추출하는 단계; (c) 상기 바이오어세이 선택 모듈이, 미리 설정된 활성도 점수(hit compound score)를 기준으로, 상기 추출된 바이오어세이 데이터에 포함된 다수의 화합물 세트들 각각의 활성 여부를 확인하여 오즈(odds)를 연산하는 단계; (d) 상기 바이오어세이 선택 모듈이, 상기 (c) 단계에서 연산된 오즈가 미리 설정된 기준 이상인 경우 상기 바이오어세이 데이터를 유의한 검정실험(hit enrichment bioassay)의 데이터로서 선택하는 단계; (e) 농축점수 연산 모듈이, 상기 선택된 바이오어세이 데이터에 포함된 다수의 화합물 세트들 중에 상기 식별자가 포함된 화합물 세트들을 선택하는 단계; (f) 상기 농축점수 연산 모듈이, 상기 (e) 단계에서 선택된 화합물 세트들과 상기 (c) 단계에서 확인된 활성 여부를 이용하여 각각의 농축점수(ES; enrichment score)를 연산하는 단계; 및 (g) 출력 모듈이, 상기 (f) 단계에서 연산된 농축점수(ES)들의 합이 미리 설정된 기준값 이상인 경우, 상기 바이오어세이 데이터를 가상 유사 화합물을 포함하는 데이터로서 출력하는 단계를 포함하는, 약물 가상 탐색 방법. 제 1 항에 있어서, 상기 바이오어세이 데이터베이스에 n개의 바이오어세이 데이터가 포함된 경우, 상기 (b) 단계의 바이오어세이 데이터 추출은 비복원추출방식으로 이루어지며, 상기 (d) 단계 후 상기 (b) 단계로 회귀함으로써 상기 (b) 내지 (d) 단계가 총 n회의 반복되는, 약물 가상 탐색 방법. 제 1 항에 있어서, 상기 (g) 단계는, (g1) 상기 출력 모듈이, 상기 (f) 단계에서 연산된 농축점수(ES)가 미리 설정된 기준값 이상인 경우, 상기 바이오어세이 데이터에 포함된 화합물 세트들 중에서 상기 (c) 단계에서 활성으로 확인된 화합물 세트들에 포함된 화합물들을 가상 유사 화합물로서 출력하는 단계인, 약물 가상 탐색 방법. 제 1 항에 있어서, 상기 (f) 단계는, 상기 농축점수 연산 모듈이, 상기 (e) 단계에서 선택된 화합물 세트들과 상기 (c) 단계에서 확인된 활성 여부를 이용하여 아래의 수식에 따라 각각의 농축점수(ES)를 연산하는 단계를 포함하며, 여기에서, HI는 식별자를 포함하되 활성으로 확인된 화합물 세트의 개수이고, HE는 식별자를 포함하지 않되 비활성으로 확인된 화합물 세트의 개수이고, AI는 식별자 포함 유무와 무관하게 활성으로 확인된 전체 화합물 세트의 개수이고, 그리고 AE는 식별자 포함 유무와 무관하게 비활성으로 확인된 화합물 세트의 개수인, 약물 가상 탐색 방법. 제 1 항에 있어서, 상기 (f) 단계는, (f1) 상기 농축점수 연산 모듈이, 상기 (c) 단계에서 활성으로 확인된 화합물 세트들만 선택하여, 상기 (c) 단계에서 확인된 활성도 점수를 기준으로 미리 설정된 개수의 그룹만큼 그룹화하는 단계; 및 (f2) 상기 농축점수 연산 모듈이, 상기 (e) 단계에서 선택된 화합물 세트들과 상기 (c) 단계에서 확인된 활성 여부를 이용하여 상기 각각의 그룹들의 농축점수(ES)를 연산하는 단계를 포함하는, 약물 가상 탐색 방법. 제 5 항에 있어서, 상기 (f2) 단계 이후, (f3) 상기 농축점수 연산 모듈이, 상기 (f2) 단계에서 연산된 농축점수(ES)들을 미리 설정된 방법에 따라 회귀분석하여 회귀식을 추정하는 단계; 및 (f4) 상기 농축점수 연산 모듈이, 상기 (a) 단계에서 입력된 식별자에 상응하는 점수를 상기 회귀식에 투사하여 농축점수(ES)를 연산하는 단계;를 포함하는, 약물 가상 탐색 방법. 제 1 항에 있어서, 상기 (g) 단계는, (g2) 상기 출력 모듈이, 상기 (f) 단계에서 연산된 농축점수(ES)들의 합이 미리 설정된 기준값 이상인 경우, 상기 농축점수(ES)들의 합이 큰 순서에 따라 상기 바이오어세이 데이터를 가상 유사 화합물을 포함하는 데이터로서 출력하는 단계를 포함하는, 약물 가상 탐색 방법. 제 1 항 내지 제 7 항 중 어느 한 항에 따른 약물 가상 탐색 방법을 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 매체. 제 2 항에 따른 약물 가상 탐색 방법을 이용하되, 상기 (d) 단계 이후, (h) 집중 탐색 라이브러리 구축 모듈이, 상기 (b) 내지 (d) 단계가 총 n회 반복된 후 선택된 유의한 검정실험의 데이터들을 추출하여 별도의 데이터베이스를 구축하는 단계를 더 포함하는, 집중 탐색 라이브러리 구축 방법. 제 2 항에 따른 약물 가상 탐색 방법을 이용하되, 상기 (g) 단계 이후, (i) 집중 탐색 라이브러리 구축 모듈이, 상기 (b) 내지 (d) 단계가 총 n회 반복된 후, 상기 (g) 단계에서 출력되는 대상인 상기 바이오어세이 데이터들을 추출하여 별도의 데이터베이스를 구축하는 단계를 더 포함하는, 집중 탐색 라이브러리 구축 방법. 제 9 항 또는 제 10 항에 따른 집중 탐색 라이브러리 구축 방법을 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 매체. 화합물 세트가 입력되는 입력 모듈; 상기 입력 모듈을 통해 입력된 화합물 세트에서 화합물을 지칭하는 부분을 추출하여 식별자를 식별하는 식별 모듈; 바이오어세이 데이터베이스에서 임의의 바이오어세이 데이터를 추출하고, 미리 설정된 활성도 점수를 기준으로 상기 추출된 바이오어세이 데이터에 포함된 다수의 화합물 세트들 각각의 활성 여부를 확인하여 오즈를 연산하며, 상기 연산된 오즈가 미리 설정된 기준 이상인 경우 상기 바이오어세이 데이터를 유의한 검정실험의 데이터로서 선택하는, 바이오어세이 선택 모듈; 상기 선택된 바이오어세이 데이터에 포함된 다수의 화합물 세트들 중에 상기 식별자가 포함된 화합물 세트들을 선택하며, 선택된 화합물 세트들과 확인된 활성 여부를 이용하여 농축점수(ES)를 연산하는, 농축점수 연산 모듈; 및 연산된 농축점수(ES)들의 합이 미리 설정된 기준값 이상인 경우, 상기 바이오어세이 데이터를 가상 유사 화합물을 포함하는 데이터로서 출력하는, 출력 모듈을 포함하는, 약물 가상 탐색 및 집중 탐색 라이브러리 구축 시스템. 제 12 항에 있어서, 상기 바이오어세이 선택 모듈은, 상기 바이오어세이 데이터베이스에 n개의 바이오어세이 데이터가 포함된 경우, 비복원추출방식으로 바이오어세이 데이터베이스에서 임의의 바이오어세이 데이터를 n회 추출하는, 약물 가상 탐색 및 집중 탐색 라이브러리 구축 시스템. 제 12 항에 있어서, 상기 출력 모듈은, 상기 연산된 농축점수(ES)가 미리 설정된 기준값 이상인 경우, 상기 바이오어세이 데이터에 포함된 화합물 세트들 중에서 활성으로 확인된 화합물 세트들에 포함된 화합물들을 가상 유사 화합물로서 출력하는, 약물 가상 탐색 및 집중 탐색 라이브러리 구축 시스템. 제 12 항에 있어서, 상기 농축점수 연산 모듈은, 아래의 수식에 따라 각각의 농축점수(ES)를 연산하며, 여기에서, HI는 식별자를 포함하되 활성으로 확인된 화합물 세트의 개수이고, HE는 식별자를 포함하지 않되 비활성으로 확인된 화합물 세트의 개수이고, AI는 식별자 포함 유무와 무관하게 활성으로 확인된 전체 화합물 세트의 개수이고, 그리고 AE는 식별자 포함 유무와 무관하게 비활성으로 확인된 화합물 세트의 개수인, 약물 가상 탐색 및 집중 탐색 라이브러리 구축 시스템. 제 12 항에 있어서, 상기 농축점수 연산 모듈은, 활성으로 확인된 화합물 세트들만 선택하여 상기 확인된 활성도 점수를 기준으로 미리 설정된 개수의 그룹만큼 그룹화하며, 상기 각각의 그룹들의 농축점수(ES)를 연산하는, 약물 가상 탐색 및 집중 탐색 라이브러리 구축 시스템. 제 12 항에 있어서, 상기 농축점수 연산 모듈은, 상기 연산된 농축점수(ES)들을 미리 설정된 방법에 따라 회귀분석하여 회귀식을 추정하며, 상기 식별 모듈에서 식별된 식별자에 상응하는 점수를 상기 회귀식에 투사하여 농축점수(ES)를 연산하는, 약물 가상 탐색 및 집중 탐색 라이브러리 구축 시스템. 제 12 항에 있어서, 상기 출력 모듈은, 상기 농축점수(ES)들의 합이 큰 순서에 따라 상기 바이오어세이 데이터를 가상 유사 화합물을 포함하는 데이터로서 출력하는 약물 가상 탐색 및 집중 탐색 라이브러리 구축 시스템. 제 13 항에 있어서, 상기 바이오어세이 데이터베이스에 n개의 바이오어세이 데이터가 포함되어 상기 바이오어세이 선택 모듈이 비복원추출방식으로 바이오어세이 데이터베이스에서 임의의 바이오어세이 데이터를 n회 추출하고 그 중 유의한 검정실험의 데이터들을 선택한 경우, 상기 선택된 유의한 검정실험의 데이터들을 추출하여 별도의 데이터베이스를 구축하는 집중 탐색 라이브러리 구축 모듈; 및 상기 별도의 데이터베이스인 집중 탐색 라이브러리 데이터베이스를 더 포함하는, 약물 가상 탐색 및 집중 탐색 라이브러리 구축 시스템. 제 19 항에 있어서, 상기 집중 탐색 라이브러리 구축 모듈은, 상기 출력 모듈이 출력하는 상기 바이오어세이 데이터들을 추출하여 상기 집중 탐색 라이브러리 데이터베이스를 구축하는, 약물 가상 탐색 및 집중 탐색 라이브러리 구축 시스템. |
||||||||||||||||||||||||
说明书全文 |
|
식별자 포함 (Include) | 식별자 제외됨 (Exclude) | |
활성 화합물 세트 (H) | HI | HE |
전체 화합물 세트 (A) | AI | AE |
예를 들어, 전체 화합물 세트의 개수가 20,400개인데 식별 모듈(200)을 통하여 식별된 식별자가 포함된 화합물 세트가 200개이며, 전체 20,400개의 화합물 세트 중에서 활성으로 확인된 화합물 세트가 300개인데 식별 모듈(200)을 통하여 그 중에서 식별된 식별자가 포함된 화합물 세트가 100개인 경우 아래의 표와 같이 표현된다.
식별자 포함 (Include) | 식별자 제외됨 (Exclude) | |
활성 화합물 세트 (H) | 100 | 200 |
전체 화합물 세트 (A) | 400 | 20000 |
농축점수 연산 모듈(400)이 전술한 수학식으로 위의 바이오어세이 데이터의 농축점수(ES)를 연산하면, ES = Log 2 25임을 확인할 수 있다.
보다 구체적으로 단계별로 설명한다.
농축점수 연산 모듈(400)은, 활성으로 확인된 화합물 세트들만을 먼저 선택하고, 활성도 점수를 기준으로 미리 설정된 개수의 그룹만큼 그룹화한다(S220). 그룹화하지 않고 바로 농축점수(ES)를 연산할 수 있으나, 이와 같이 그룹화를 거쳐 회귀분석을 함으로써 정확도를 더욱 상승시킬 수 있다(S220).
다음, 농축점수 연산 모듈(400)은, S220단계에서 선택된 화합물 세트들과 먼저 확인된 활성 여부를 이용하여 상기 각각의 그룹들의 농축점수(ES)를 연산한다(S230).
다음, 농축점수 연산 모듈(400)은, 연산된 농축점수(ES)들을 미리 설정된 방법에 따라 회귀분석하여 회귀식을 추정한다(S240). 예를 들어, 다수의 그룹들의 화합물에 해당하는 점수를 바이오어세이 데이터베이스(10)에서 추출하고, 연산된 농축점수(ES)를 관찰값으로 설정함으로써 회귀식이 추정된다. 회귀식을 추정하는 방법은 널리 알려진 종래기술인바 상세한 설명은 생략한다.
다음, 농축점수 연산 모듈(400)은, 식별 모듈(200)에서 바이오어세이 데이터베이스(10)에서 식별된 식별자에 상응하는 점수를 확인하여 상기 회귀식에 투사함으로써 농축점수(ES)를 연산한다(S250). 특히, 하나의 식별자에 다수의 바이오어세이로부터 계산된 농축점수(ES)가 부여되는 경우 그 연산된 농축점수(ES)들의 합이 최종 농축점수(ES)가 된다.
이와 같은 과정을 통하여 바이오어세이 데이터 별로 농축점수(ES)가 연산되었다. 결과적으로, 농축점수(ES)가 높은 바이오어세이 데이터일수록, 최초 사용자가 입력하였던 화합물에 유사한 화합물이 포함된 데이터일 수 있다. 따라서, 출력 모듈(500)은, 연산된 농축점수(ES)들의 합이 미리 설정된 기준값 이상인 경우, 유사도가 높은 데이터로 추정하여 상기 바이오어세이 데이터를 가상 유사 화합물을 포함하는 데이터로서 출력한다.
다른 방법으로, 출력 모듈(500)은, 연산된 농축점수(ES)가 미리 설정된 기준값 이상인 경우, 상기 바이오어세이 데이터에 포함된 화합물 세트들 중에서 활성으로 확인된 화합물 세트들에 포함된 화합물들만을 가상 유사 화합물로서 출력할 수도 있다.
다음, 집중 탐색 라이브러리 구축 방법을 설명한다.
두 가지 방법이 가능하다.
첫째로, 집중 탐색 라이브러리 구축 모듈(600)이, 총 n회 반복된 후 선택된 유의한 검정실험의 데이터들만을 추출하여 별도의 집중 탐색 라이브러리 데이터베이스(700)를 구축하는 것이다(S400).
둘째로, 집중 탐색 라이브러리 구축 모듈(600)이, 총 n회 반복된 후 선택된 유의한 검정실험의 데이터 중에서도 활성으로 확인된 화합물 세트만을 별도의 데이터베이스로 구축하는 것이다.
4. 검증실험(1)
바이오어세이 데이터베이스(10)로서, 전술한 미국보건연구원에서 제공하는 바이오어세이 데이터베이스(https://pubchem.ncbi.nlm.nih.gov)를 사용하였다. 확인하고자 하는 화합물로서 타겟 단백질을 "abhydrolase domain-containing protein 4 isoform 1 [Mus musculus]"로 특정하여 입력 모듈(100)을 통하여 입력하였으며 식별 모듈(200)이 식별자 "ID:720543"을 확인하였다. 전체 화합물 세트의 개수(AI+AE)는 369,939개가 확인되었으며, 그 중에서 입력한 식별자가 포함된 화합물 세트의 개수(AI)는 995개였다. 활성도 점수를 설정하여 활성 여부를 구분하였으며, 전체 중에 활성 화합물 세트의 개수는 2,005개(0.542%)임을 확인하였다. 이러한 결과를 토대로 본 발명에 따른 방법을 실시하고 그 결과를 ROC로 그래프화하여 AUC 값을 계산하였다.
계산 결과 도 3에 도시된 바와 같이 확인되었으며, AUC 값이 0.8615임이 확인되었다. 일반적으로 AUC 값은 0.7 초과하는 경우 예측 성능이 높은 것으로 평가되는바, 본 발명에 따른 방법으로서 우수한 예측 성능으로서 가상 유사 화합물이 확인됨을 검증하였다.
5. 검증실험(2)
바이오어세이 데이터베이스(10)로서, 전술한 미국보건연구원에서 제공하는 바이오어세이 데이터베이스(https://pubchem.ncbi.nlm.nih.gov)를 사용하였다. 확인하고자 하는 화합물로서 타겟 단백질을 "USP1 protein [Homo sapiens]"로 특정하여 입력 모듈(100)을 통하여 입력하였으며 식별 모듈(200)이 식별자 "ID:743255"를 확인하였다. 전체 화합물 세트의 개수(AI+AE)는 389,560개가 확인되었으며, 그 중에서 입력한 식별자가 포함된 화합물 세트의 개수(AI)는 339개였다. 활성도 점수를 설정하여 활성 여부를 구분하였으며, 전체 중에 활성 화합물 세트의 개수는 904개(0.232%)임을 확인하였다. 이러한 결과를 토대로 본 발명에 따른 방법을 실시하고 그 결과를 ROC로 그래프화하여 AUC 값을 계산하였다.
계산 결과 도 4에 도시된 바와 같이 확인되었으며, AUC 값이 0.9077임이 확인되었다. 따라서, 본 발명에 따른 방법으로서 우수한 예측 성능으로서 가상 유사 화합물이 확인됨을 검증하였다.
상기에서는 본 발명의 바람직한 실시 예를 참조하여 설명하였지만, 당업계에서 통상의 지식을 가진 자라면 이하의 특허 청구범위에 기재된 본 발명의 사상 및 영역을 벗어나지 않는 범위 내에서 본 발명을 다양하게 수정 및 변경시킬 수 있음을 이해할 수 있을 것이다.
10: 바이오어세이 데이터베이스
100: 입력 모듈
200: 식별 모듈
300: 바이오어세이 선택 모듈
400: 농축점수 연산 모듈
500: 출력 모듈
600: 집중 탐색 라이브러리 구축 모듈
700: 집중 탐색 라이브러리 데이터베이스