首页 / 国际专利分类库 / 化学;冶金 / 组合化学 / 组合化学;化合物库,如化学库、虚拟库 / 建立化合物库的方法,如组合合成 / .化合物库的虚拟或数学概念 / 다수의 목표 유전자를 검출할 수 있는 특이성 조건을 만족하는 유효한 프라이머 세트와 프루브 세트를 동시에 디자인하는 방법

다수의 목표 유전자를 검출할 수 있는 특이성 조건을 만족하는 유효한 프라이머 세트와 프루브 세트를 동시에 디자인하는 방법

申请号 KR20160080872 申请日 2016-06-28 公开(公告)号 KR20180002109A 公开(公告)日 2018-01-08
申请人 发明人
摘要 본발명은다수의목표유전자를검출할수 있는특이성조건을만족하는유효한프라이머세트와프루브세트를한꺼번에빠르게설계할수 있도록한 방법에관한것으로서, 상기방법은, 대규모 DNA 서열데이터베이스에대한하둡기반의오프라인연산을통해가능한모든유전자쌍에대해특이성조건을만족하는후보프라이머집합과프루브집합을추출하는제 1 단계; 상기제 1단계에서추출한후보프라이머집합과프루브집합을이용하여특이성검사를할 수있는색인구조를메인메모리상에서구성하는제 2 단계; 상기제 2 단계에서구성된색인구조를이용하여사용자에의해주어진다수의목표유전자들의각각을검출할수 있는싱글/페어필터링제약조건들을만족하는유효한프라이머집합과프루브집합을온라인연산을통해빠르게검색한후, 각표적유전자를위한최적의프라이머쌍과프루브만을선별하여웹 페이지로출력하는제3 단계를포함한다.
权利要求
  • 대규모 DNA 서열 데이터베이스에 대한 하둡 기반의 오프라인 연산을 통해 가능한 모든 유전자 쌍에 대해 특이성 조건을 만족하는 후보 프라이머 집합과 프루브 집합을 추출하는 제 1 단계;
    상기 제 1단계에서 추출한 후보 프라이머 집합과 프루브 집합을 이용하여 특이성 검사를 할 수 있는 색인 구조를 메인 메모리 상에서 구성하는 제 2 단계;
    상기 제 2 단계에서 구성된 색인 구조를 이용하여 사용자에 의해 주어진 다수의 목표 유전자들의 각각을 검출할 수 있는 싱글/페어 필터링 제약조건들을 만족하는 유효한 프라이머 집합과 프루브 집합을 온라인 연산을 통해 빠르게 검색한 후, 각 표적 유전자를 위한 최적의 프라이머 쌍과 프루브만을 선별하여 웹 페이지로 출력하는 제3 단계를 포함하는 다수의 목표 유전자를 검출할 수 있는 특이성 조건을 만족하는 유효한 프라이머 세트와 프루브 세트를 동시에 디자인하는 방법.
  • 제1항에 있어서,
    상기 제1 단계는,
    대규모 DNA 서열 데이터베이스에서 하둡 분산 알고리즘을 통해 복수 개의 최소 필터링 조건을 적용하여 상기 필터링 조건을 만족하는 후보 프라이머 집합을 추출하는 단계;
    대규모 DNA 서열 데이터베이스에서 하둡 분산 알고리즘을 통해 복수 개의 필터링 조건을 적용하여 상기 필터링 조건을 만족하는 후보 프루브 집합을 추출하는 단계; 및
    상기 추출된 모든 후보 프라이머 집합과 프루브 집합을 하둡 분산 알고리즘을 통해 비 표적 서열들과 비교하여 5' 끝 부분에 4개 이하의 미스매치를 가지면서 나머지 3' 부분이 유사하거나, 전체적으로 2개 이하의 미스매치만을 가지는 후보를 제거하는 상동성 테스트를 통과한 후보를 추출하는 단계를 포함하는 다수의 목표 유전자를 검출할 수 있는 특이성 조건을 만족하는 유효한 프라이머 세트와 프루브 세트를 동시에 디자인하는 방법.
  • 제1항에 있어서,
    상기 제2 단계는,
    유전자 정보의 특징에 따라 유전자 정보 색인 구조를 만드는 단계;
    상기 추출된 후보 프라이머 집합과 프루브 집합의 색인과 캐시 프라이머 쌍들의 색인 구조를 만드는 단계; 및
    상기 만들어진 유전자 정보 색인, 후보 프라이머 집합과 프루브 집합의 색인, 캐시 프라이머 쌍들의 색인을 메모리에 업로드 하는 단계를 포함하는 다수의 목표 유전자를 검출할 수 있는 특이성 조건을 만족하는 유효한 프라이머 세트와 프루브 세트를 동시에 디자인하는 방법.
  • 제3항에 있어서,
    상기 유전자 정보 색인은 GenBank accession number, NCBI CCDS ID와 같이 고유한 유전자 정보를 가지는 두 개의 해시 구조 색인;
    NCBI gene symbol, NCBI gene ID, GenBank aliases 그리고 keyword와 같이 중복되는 유전자 정보를 가지는 네 개의 리스트 구조 색인; 및
    상기 모든 유전자 정보를 가지고 있는 하나의 리스트 구조 색인을 포함하는 다수의 목표 유전자를 검출할 수 있는 특이성 조건을 만족하는 유효한 프라이머 세트와 프루브 세트를 동시에 디자인하는 방법.
  • 제3항에 있어서,
    상기 후보 프라이머 집합의 색인의 구조는, key 필드와 value 필드를 포함하고, 상기 key필드는 species:sidset+len(*)의 형태로 primer의 길이를 나타내는 len, 역방향 프라이머를 의미하는 *를 포함하고, 상기 value 필드는 primer+sid+pos의 형태로 primer 서열과 위치 정보(pos)를 가지는 해시 구조의 색인인 것인 다수의 목표 유전자를 검출할 수 있는 특이성 조건을 만족하는 유효한 프라이머 세트와 프루브 세트를 동시에 디자인하는 방법.
  • 제3항에 있어서,
    캐시 primer 쌍들의 색인은, key와 value를 포함하고, key는 species:top:sidset의 형태로, value는 sid+f.p+r.p+f.pos+r.pos 형태의 배열로 각 표적 서열에 대해 미리 계산된 상위 1위의 프라이머 쌍들을 가지는 해시 구조의 색인인 것인 다수의 목표 유전자를 검출할 수 있는 특이성 조건을 만족하는 유효한 프라이머 세트와 프루브 세트를 동시에 디자인하는 방법.
  • 제1항에 있어서,
    상기 제3 단계는,
    사용자에 의해 주어진 유전자 질의를 처리하여 필터링 제약조건 값들이 기본 값인 경우 상기 캐시 색인에서 가져와 출력하고, 아닌 경우 상기 후보 프라이머와 프로브 색인에서 검색하면서 사용자로부터 주어진 복수 개의 싱글 필터링 조건을 적용하여 조건을 만족하지 않는 프라이머를 제거하는 제3-1 단계;
    상기 단계에서 남아 있는 프라이머를 사용자로부터 주어진 복수 개의 페어 필터링 조건을 적용하여 프라이머쌍으로 디자인하는 제3-2 단계; 및
    상기 페어 필터링 조건을 통과한 프라이머쌍들에 대해 패널티 점수를 계산하여 같은 sidset 그룹 내에서 패널티 점수가 가장 높은 상위 1위의 프라이머쌍들을 위치 조건을 만족하는 프루브와 함께 웹 페이지로 출력하는 제3-3 단계를 포함하는 다수의 목표 유전자를 검출할 수 있는 특이성 조건을 만족하는 유효한 프라이머 세트와 프루브 세트를 동시에 디자인하는 방법.
  • 제7항에 있어서,
    상기 제3-1 단계는, 상기 싱글 필터링 조건으로 길이, 온도, GC content, self-complementarity, 3' end self-complementarity, 연속된 염기, end stability, 그리고 hairpin을 순차적으로 확인하여 사용자로부터 주어진 복수 개의 싱글 필터링 조건을 적용하여 조건을 만족하지 않는 프라이머를 제거하는 것인 다수의 목표 유전자를 검출할 수 있는 특이성 조건을 만족하는 유효한 프라이머 세트와 프루브 세트를 동시에 디자인하는 방법.
  • 제7항에 있어서,
    상기 제3-2 단계에서, 상기 페어 필터링은, 온도 차이, 길이 차이, 생성물의 길이, pair-complementary, 그리고 3' end pair-complementary를 순차적으로 만족하는지를 검사하는 것인 다수의 목표 유전자를 검출할 수 있는 특이성 조건을 만족하는 유효한 프라이머 세트와 프루브 세트를 동시에 디자인하는 방법.
  • 제7항에 있어서,
    상기 제3-3 단계는,
    상기 페어 필터링 과정을 통과한 프라이머쌍들에 대해 정방향 프라이머 패널티와 역방향 프라이머 패널티의 합으로 패널티를 계산하는 단계; 및
    상기 프라이머 쌍에 대해 패널티가 계산되면, 같은 sidset 그룹 내에서 패널티 점수가 가장 높은 상위 1위의 프라이머쌍들을 위치 조건을 만족하는 프루브와 함께 웹 페이지로 출력하는 단계를 포함하는 것인 다수의 목표 유전자를 검출할 수 있는 특이성 조건을 만족하는 유효한 프라이머 세트와 프루브 세트를 동시에 디자인하는 방법.
  • 제7항에 있어서,
    상기 제3-3 단계에서, 웹페이지로의 출력은,
    사용자에 의해 주어진 싱글/페어 필터링 제약조건들을 만족하는 특정 하나의 표적 서열에 붙는 상위 1위의 프라이머쌍들과 프루브들; 사용자에 의해 주어진 싱글/페어 필터링 제약조건들을 만족하는 여러 표적 서열에 붙는 상위 1위의 프라이머쌍들; 사용자에 의해 주어진 엄격한 싱글/페어 필터링 제약조건들을 만족하는 프라이머쌍들이 없는 질의들; 및 색인에 없어 검색된 유효한 후보 프라이머들이 없는 질의들로 구분하여 각각 출력하는 것인 다수의 목표 유전자를 검출할 수 있는 특이성 조건을 만족하는 유효한 프라이머 세트와 프루브 세트를 동시에 디자인하는 방법.
  • 제 11항에 있어서,
    상기 제3-3 단계에서, 웹페이지로의 출력은 상기 사용자에 의해 주어진 싱글/페어 필터링 제약조건들을 만족하는 특정 하나의 표적 서열에 붙는 상위 1위의 프라이머쌍들과 프루브들이 존재하는 경우, 유전자 정보와 프라이머쌍의 서열, 프루브의 서열, 온도, amplicon size, 그리고 위치를 제시하고; 사용자에 의해 주어진 싱글/페어 필터링 제약조건들을 만족하는 여러 표적 서열에 붙는 상위 1위의 프라이머쌍들이 존재하는 경우, 유전자 정보와 프라이머쌍의 서열, 온도, amplicon size, 그리고 위치를 제시하며; 사용자에 의해 주어진 엄격한 싱글/페어 필터링 제약조건들을 만족하는 프라이머쌍들이 없는 경우, 유전자 정보와 값을 변경해야할 제약조건들, 사용자가 입력한 값, 그리고 수정해야 하는 값을 제시하며; 색인에 없어 검색된 유효한 후보 프라이머들이 없는 경우, 결과가 없는 질의어와 재검색 가이드라인을 제공해주는 것인 다수의 목표 유전자를 검출할 수 있는 특이성 조건을 만족하는 유효한 프라이머 세트와 프루브 세트를 동시에 디자인하는 방법.
  • 제 12항에 있어서,
    상기 제3-3 단계에서, 웹페이지는, 사용자에 의해 주어진 엄격한 싱글/페어 필터링 제약조건들을 만족하는 프라이머쌍들이 없는 경우와 사용자에 의해 주어진 질의어가 색인에 없어 검색된 유효한 후보 프라이머들이 없는 경우, 결과 화면에서 바로 사용자가 질의어와 제약조건을 수정하고 재검색함으로써 정확한 검색 결과를 얻을 수 있는 대화형 (interactive) 인터페이스를 제공하는 것인 다수의 목표 유전자를 검출할 수 있는 특이성 조건을 만족하는 유효한 프라이머 세트와 프루브 세트를 동시에 디자인하는 방법.
  • 제 1항에 있어서,
    상기 온라인 연산이 완료되면, 사용자가 입력한 이메일 주소로 검색 결과를 전송하는 것인 다수의 목표 유전자를 검출할 수 있는 특이성 조건을 만족하는 유효한 프라이머 세트와 프루브 세트를 동시에 디자인하는 방법.
  • 说明书全文

    다수의 목표 유전자를 검출할 수 있는 특이성 조건을 만족하는 유효한 프라이머 세트와 프루브 세트를 동시에 디자인하는 방법{Method for rapid design of valid high-quality primers and probes for multiple target genes in qPCR experiments}

    본 발명은 다수의 목표 유전자를 검출할 수 있는 특이성 조건을 만족하는 유효한 프라이머(Primer) 세트와 프루브(Probe) 세트를 한꺼번에 빠르게 설계할 수 있도록 한 방법에 관한 것이다.

    일반적으로, 중합효소 연쇄반응 (Polymerase Chain Reaction)은 특정 DNA 서열을 빠르게 증폭시키는 기술이다. 표준 기술로써 중합효소 연쇄반응은 계통발생학적 분석, 유전자 검사, 그리고 DNA cloning 등 다양하게 사용되고 있다. 특히 실시간 중합효소 연쇄반응(Real-time PCR)으로도 알려진 정량적 중합효소 연쇄반응(qPCR)은 다수의 표적 유전자의 발현 변화를 확인하여 고속 대량의 실험결과를 스크리닝 하는데 주로 사용된다.

    여기서, 도 1은 일반적인 정방향 프라이머, 역방향 프라이머, 그리고 프루브가 표적서열과 결합된 상태를 나타낸 도면이다. 즉, 도 1은 분리된 DNA가닥(202)에 각각 정방향 프라이머(205), 프루브(208)와 역방향 프라이머(203)가 각 표적 정방향 탬플릿(201)과 역방향 탬플릿(207)에 결합하여 DNA 중합효소가 합성된 예를 나타낸 것이다.

    도 1에 도시된 바와 같이 정방향 프라이머가 5'에서 3' 방향으로 합성하면서 표적과 일치하는 프루브는 작은 조각으로 분해되어 붙어 있던 형광물질을 발현시키는 것이다.

    모든 중합효소 연쇄반응 실험에서 가장 최고의 결과를 얻기 위해서는 최적의 프라이머가 디자인되어야 한다.

    수동으로 프라이머를 디자인하는 경우, 시간이 오래 걸리고 많은 제약조건을 동시에 고려해야 하기 때문에 잘못된 결과를 얻기가 쉽다.

    추가로 중요하게 고려해야 할 사항인 상동성 테스트는 디자인된 프라이머가 비 표적 서열에 붙지 않고 오직 표적 서열에만 붙는지 확인하는 과정으로 지금까지는 BLAST와 같은 추가적인 툴을 사용해서 해결하고 있다.

    따라서 많은 제약조건과 상동성 테스트를 만족하는 질적으로 우수한 프라이머를 빠르게 자동으로 디자인하는 것은 아직까지도 풀리지 않은 문제로 남아있다. 특히, 정량적 중합효소 연쇄반응을 위해 엄격한 제약조건을 만족하는 다수의 프라이머를 동시에 디자인하는 것은 더욱 어려운 문제이다.

    실험적으로 특이성을 높이기 위해 정량적 중합효소 연쇄반응에서 프라이머와 함께 프루브의 표적 서열을 감지하는데 사용한다. 프루브는 특이성을 크게 높여주지만 프라이머와 함께 디자인할 때 더 복잡하여 주의를 요하게 된다.

    최근 중합효소 연쇄반응 실험을 위해 프라이머 디자인을 도와주는 웹 사이트들이 많이 개발되었다. 예를 들어, Primer3Plus는 가장 널리 사용되는 툴로써 하나의 표적 서열에 대해 사용자가 제약조건을 변경할 수 있다.

    Primer3의 주요 알고리즘을 적용시킨 BatchPrimer3는 다수의 표적 유전자를 위해 배치방식으로 프라이머를 디자인할 수 있다. 그러나 상기 두 웹 사이트들은 비 표적 서열들에 대해 상동성 테스트를 수행하지 않기 때문에, 사용자가 추가의 정렬 툴을 사용하여 각 프라이머 후보들에 대해 상동성 테스트의 수행을 필요로 한다.

    한편, Primique는 BLAST를 사용하여 사용자가 업로드한 비 표적 서열들에 대해서 제한적인 범위 내에 상동성 테스트를 수행한다. 상동성 테스트의 높은 계산적 오버헤드 때문에 사용자가 업로드 할 수 있는 비 표적 서열 데이터베이스의 최대 사이즈는 10MB이며 이 사이즈는 모든 게놈 서열 데이터베이스를 포함할 수 없기 때문에 우수한 프라이머를 디자인하는데 한계가 있다.

    그리고, QuantPrime은 BLAST를 사용하여 Primer3 알고리즘을 사용하여 디자인 된 프라이머 후보와 전체 transcriptome이나 게놈 데이터베이스에 대해 상동성 테스트를 수행한다. 상기 두 웹 사이트들은 로컬 얼라인먼트(Local Alignment) 알고리즘에 기반하여 상동성 테스트를 수행한다.

    그러나, 로컬 얼라인먼트 기반의 휴리스틱한 접근은 프라이머와 비 표적 서열간의 미스매치(Mismatch)의 개수를 정확하게 셀 수 없다. 따라서, 상기 방법들은 서브옵티멀(Suboptimal)한 프라이머 쌍을 디자인 한다.

    반면에, Primer-BLAST는 글로벌 얼라인먼트(Global Alignment) 알고리즘을 사용하여 상동성 테스트를 수행하기 때문에 완전한 프라이머와 표적간의 정렬을 확인할 수 있다.

    따라서, Primer-BLAST는 표적 특이한 프라이머 쌍을 출력한다. Primer-BLAST가 상동성 테스트에서 더 우수한 성능을 보여주지만, 프라이머의 품질(Quality)에 따라 정렬을 하지 않고, 특이성에 따라 정렬을 수행한다. 게다가 더 정확한 상동성 테스트를 위해 높은 계산적 오버헤드 때문에 다수의 표적을 위한 정량적 중합효소 연쇄반응을 위해 배치 디자인을 지원하지 않는다.

    PrimerBank, RTPrimerDB, 그리고 qPrimerDepot과 같이 사용자의 질의에 따라 실시간으로 프라이머를 디자인해주기 보단, 미리 디자인 된 프라이머의 데이터베이스에 대해 검색을 제공해주는 웹 사이트들이 있다. 특히 PrimerBank는 가장 큰 프라이머 데이터베이스로 지난 수 년간 업데이트가 되어 왔다. 동일한 제약조건에서 PrimerBank 프라이머들의 특이도는 실험적으로 검증되었기 때문에, 실시간 중합효소 연쇄반응에 실험에 꽤 효과적이다. 그러나 PrimerBank는 미리 디자인 된 프라이머를 제공해주기 때문에 사용자가 제약 조건을 변경 할 수 없다. 이는 같은 조건을 만족하는 완전한 프라이머 쌍의 집합을 필요로 하는 정량적 중합효소 연쇄반응 실험에서 매우 중요한 요소이다.

    따라서, 본 발명은 상기 종래 기술에 따른 문제점들을 해결하기 위한 것으로, 본 발명의 목적은 다수의 표적 유전자를 검출할 수 있는 특이성 조건을 만족하는 유효한 프라이머 세트와 probe 세트를 한꺼번에 빠르게 설계할 수 있는 방법을 제공함에 있다.

    상기 종래 기술에서 언급한 문제점들에 대해 구체적인 해결 목적을 살펴보면, 먼저, 종래 기술에서의 첫 번째 문제인 비 표적 서열에 대한 상동성 테스트에 대해 추가적인 BLAST와 같은 툴을 사용하는 것으로 본 발명에서는, 하둡 기반의 오프라인 연산을 통해 가능한 모든 유전자 쌍에 대해 특이성 조건을 만족하는 후보 프라이머 집합과 프루브 집합을 추출한다.

    상기 종래 기술에서의 두 번째 문제인 배치 디자인에 대해 본 발명은 사용자가 입력한 다수의 표적 유전자를 상기 특이성을 만족하는 후보 프라이머 집합과 프루브 집합을 메모리에 색인으로 구축하여 온라인 연산을 통해 빠르게 검색하여 모두 디자인 한다.

    그리고, 본 발명은 동일한 제약조건으로 미리 디자인 된 프라이머를 제공해주는 PrimerBank와 다르게 사용자가 제약조건을 변경 할 때마다 온라인 연산을 새로 수행하여 사용자가 원하는 질적으로 우수한 프라이머 세트를 구할 수 있다.

    마지막으로 프라이머와 프루브를 동시에 디자인하는데 많은 주의를 필요로 하는 문제에 대해 본 발명은, 특이성과 제약조건을 만족하는 프루브 집합을 구하여 메모리에 색인으로 구성하여 사용자의 질의에 만족하는 프라이머와 함께 구할 수 있다.

    상기한 목적을 달성하기 위한 본 발명에 따른 다수의 목표 유전자를 검출할 수 있는 특이성 조건을 만족하는 유효한 프라이머 세트와 프루브 세트를 동시에 디자인하는 방법은, 대규모 DNA 서열 데이터베이스에 대한 하둡 기반의 오프라인 연산을 통해 가능한 모든 유전자 쌍에 대해 특이성 조건을 만족하는 후보 프라이머 집합과 프루브 집합을 추출하는 제 1 단계; 상기 제 1단계에서 추출한 후보 프라이머 집합과 프루브 집합을 이용하여 특이성 검사를 할 수 있는 색인 구조를 메인 메모리 상에서 구성하는 제 2 단계; 및 상기 제 2 단계에서 구성된 색인 구조를 이용하여 사용자에 의해 주어진 다수의 목표 유전자들의 각각을 검출할 수 있는 싱글/페어 필터링 제약조건들을 만족하는 유효한 프라이머 집합과 프루브 집합을 온라인 연산을 통해 빠르게 검색한 후, 각 표적 유전자를 위한 최적의 프라이머 쌍과 프루브만을 선별하여 웹 페이지로 출력하는 제3 단계를 포함할 수 있다.

    상기 제1 단계는, 대규모 DNA 서열 데이터베이스에서 하둡 분산 알고리즘을 통해 복수 개의 최소 필터링 조건을 적용하여 상기 필터링 조건을 만족하는 후보 프라이머 집합을 추출하는 단계; 대규모 DNA 서열 데이터베이스에서 하둡 분산 알고리즘을 통해 복수 개의 필터링 조건을 적용하여 상기 필터링 조건을 만족하는 후보 프루브 집합을 추출하는 단계; 및 상기 추출된 모든 후보 프라이머 집합과 프루브 집합을 하둡 분산 알고리즘을 통해 비 표적 서열들과 비교하여 5' 끝 부분에 4개 이하의 미스매치를 가지면서 나머지 3' 부분이 유사하거나, 전체적으로 2개 이하의 미스매치만을 가지는 후보를 제거하는 상동성 테스트를 통과한 후보를 추출하는 단계를 포함한다.

    상기 제2 단계는, 유전자 정보의 특징에 따라 유전자 정보 색인 구조를 만드는 단계; 상기 추출된 후보 프라이머 집합과 프루브 집합의 색인과 캐시 프라이머 쌍들의 색인 구조를 만드는 단계; 및 상기 만들어진 유전자 정보 색인, 후보 프라이머 집합과 프루브 집합의 색인, 캐시 프라이머 쌍들의 색인을 메모리에 업로드 하는 단계를 포함한다.

    상기 유전자 정보 색인은 GenBank accession number, NCBI CCDS ID와 같이 고유한 유전자 정보를 가지는 두 개의 해시 구조 색인; NCBI gene symbol, NCBI gene ID, GenBank aliases 그리고 keyword와 같이 중복되는 유전자 정보를 가지는 네 개의 리스트 구조 색인; 및 상기 모든 유전자 정보를 가지고 있는 하나의 리스트 구조 색인을 포함한다.

    상기 후보 프라이머 집합의 색인의 구조는, key 필드와 value 필드를 포함하고, 상기 key필드는 species:sidset+len(*)의 형태로 primer의 길이를 나타내는 len, 역방향 프라이머를 의미하는 *를 포함하고, 상기 value 필드는 primer+sid+pos의 형태로 primer 서열과 위치 정보(pos)를 가지는 해시 구조의 색인이다.

    상기 캐시 primer 쌍들의 색인은, key와 value를 포함하고, key는 species:top:sidset의 형태로, value는 sid+f.p+r.p+f.pos+r.pos 형태의 배열로 각 표적 서열에 대해 미리 계산된 상위 1위의 프라이머 쌍들을 가지는 해시 구조의 색인이다.

    상기 제3 단계는, 사용자에 의해 주어진 유전자 질의를 처리하여 필터링 제약조건 값들이 기본 값인 경우 상기 캐시 색인에서 가져와 출력하고, 아닌 경우 상기 후보 프라이머와 프로브 색인에서 검색하면서 사용자로부터 주어진 복수 개의 싱글 필터링 조건을 적용하여 조건을 만족하지 않는 프라이머를 제거하는 제3-1 단계; 상기 단계에서 남아 있는 프라이머를 사용자로부터 주어진 복수 개의 페어 필터링 조건을 적용하여 프라이머쌍으로 디자인하는 제3-2 단계; 및 상기 페어 필터링 조건을 통과한 프라이머쌍들에 대해 패널티 점수를 계산하여 같은 sidset 그룹 내에서 패널티 점수가 가장 높은 상위 1위의 프라이머쌍들을 위치 조건을 만족하는 프루브와 함께 웹 페이지로 출력하는 제3-3 단계를 포함한다.

    상기 제3-1 단계는, 상기 싱글 필터링 조건으로 길이, 온도, GC content, self-complementarity, 3' end self-complementarity, 연속된 염기, end stability, 그리고 hairpin을 순차적으로 확인하여 사용자로부터 주어진 복수 개의 싱글 필터링 조건을 적용하여 조건을 만족하지 않는 프라이머를 제거하는 것이다.

    상기 제3-2 단계에서, 상기 페어 필터링은, 온도 차이, 길이 차이, 생성물의 길이, pair-complementary, 그리고 3' end pair-complementary를 순차적으로 만족하는지를 검사하는 것이다.

    상기 제3-3 단계는, 상기 페어 필터링 과정을 통과한 프라이머쌍들에 대해 정방향 프라이머 패널티와 역방향 프라이머 패널티의 합으로 패널티를 계산하는 단계; 및 상기 프라이머 쌍에 대해 패널티가 계산되면, 같은 sidset 그룹 내에서 패널티 점수가 가장 높은 상위 1위의 프라이머쌍들을 위치 조건을 만족하는 프루브와 함께 웹 페이지로 출력하는 단계를 포함한다.

    상기 제3-3 단계에서, 웹페이지로의 출력은, 사용자에 의해 주어진 싱글/페어 필터링 제약조건들을 만족하는 특정 하나의 표적 서열에 붙는 상위 1위의 프라이머쌍들과 프루브들; 사용자에 의해 주어진 싱글/페어 필터링 제약조건들을 만족하는 여러 표적 서열에 붙는 상위 1위의 프라이머쌍들; 사용자에 의해 주어진 엄격한 싱글/페어 필터링 제약조건들을 만족하는 프라이머쌍들이 없는 질의들; 및 색인에 없어 검색된 유효한 후보 프라이머들이 없는 질의들로 구분하여 각각 출력할 수 있다.

    상기 제3-3 단계에서, 웹페이지로의 출력은 상기 사용자에 의해 주어진 싱글/페어 필터링 제약조건들을 만족하는 특정 하나의 표적 서열에 붙는 상위 1위의 프라이머쌍들과 프루브들이 존재하는 경우, 유전자 정보와 프라이머쌍의 서열, 프루브의 서열, 온도, amplicon size, 그리고 위치를 제시하고; 사용자에 의해 주어진 싱글/페어 필터링 제약조건들을 만족하는 여러 표적 서열에 붙는 상위 1위의 프라이머쌍들이 존재하는 경우, 유전자 정보와 프라이머쌍의 서열, 온도, amplicon size, 그리고 위치를 제시하며; 사용자에 의해 주어진 엄격한 싱글/페어 필터링 제약조건들을 만족하는 프라이머쌍들이 없는 경우, 유전자 정보와 값을 변경해야할 제약조건들, 사용자가 입력한 값, 그리고 수정해야 하는 값을 제시하며; 색인에 없어 검색된 유효한 후보 프라이머들이 없는 경우, 결과가 없는 질의어와 재검색 가이드라인을 제공해줄 수 있다.

    상기 제3-3 단계에서, 웹페이지는, 사용자에 의해 주어진 엄격한 싱글/페어 필터링 제약조건들을 만족하는 프라이머쌍들이 없는 경우와 사용자에 의해 주어진 질의어가 색인에 없어 검색된 유효한 후보 프라이머들이 없는 경우, 결과 화면에서 바로 사용자가 질의어와 제약조건을 수정하고 재검색함으로써 정확한 검색 결과를 얻을 수 있는 대화형 (interactive) 인터페이스를 제공할 수 있다.

    상기 온라인 연산이 완료되면, 사용자가 입력한 이메일 주소로 검색 결과를 전송할 수 있다.

    본 발명에 따르면, 다수의 표적 유전자를 검출할 수 있는 특이성 조건을 만족하는 유효한 프라이머 집합과 프루브 집합을 웹 기반에서 한꺼번에 빠르게 설계할 수 있다.

    또한, 본 발명은 비 표적 서열에 대한 상동성 테스트에 대해 추가적인 BLAST와 같은 툴을 사용하지 않고 하둡 기반의 오프라인 연산을 통해 가능한 모든 유전자 쌍에 대해 특이성 조건을 만족하는 모든 후보 프라이머 집합과 프루브 집합을 추출한다. 실제 31,394개의 사람과 24,833 개의 쥐 전제 CCDS(Consenssus CDS) 데이터에 대해 각각 99%의 서열을 증폭시킬 수 있는 각 165,923,450개와 176,039,685개의 프라이머들을 디자할 수 있다.

    또한, 본 발명은 특이성 조건을 만족하는 유효한 프라이머 집합과 프루브 집합을 메모리 상에 색인으로 구성하게 사용자에 의해 주어진 다수의 표적 유전자에 대해 빠르게 검색이 가능하다.

    또한, 사용자가 제약조건을 변경할 때마다 온라인 연산을 새로 수행하여 사용자가 원하는 질적으로 우수한 프라이머 세트를 구할 수 있다.

    뿐만 아니라, 본 발명에 따르면, 표적 서열의 증폭에 대한 특이도를 높이기 위해 사용자의 질의에 만족하는 프라이머 쌍과 함께 특이성과 제약조건을 만족하는 프루브 세트를 함께 구할 수 있다.

    도 1은 일반적인 정방향 프라이머, 역방향 프라이머, 그리고 프루브가 표적서열과 결합된 상태를 나타낸 도면.
    도 2는 본 발명이 적용되는 시스템의 구성을 나타낸 도면.
    도 3은 본 발명에 따른 유전자 질의에 대해 특이성 조건을 만족하는 후보 프라이머와 프루브를 빠르게 검색할 수 있는 색인을 구성하는 방법에 대한 동작 플로우차트를 나타낸 도면.
    도 4a 내지 도 4c는 본 발명에 따른 유전자 정보 색인의 구조를 나타낸 도면.
    도 5a 내지 도 5c는 본 발명에 따른 후보 프라이머와 프루브의 색인과 캐시 프라이머 쌍들에 대한 색인의 구성을 나타낸 도면.
    도 6은 본 발명에 따른 유효한 프라이머들을 상기 구성된 색인을 이용하여 디자인하는 방법을 나타낸 흐름도.
    도 7은 도 6에 도시된 S620 단계의 싱글 필터링(Single Filtering) 동작에 대한 상세 흐름도.
    도 8은 도 6에 도시된 S630 단계의 페어 필터링(Pair Filtering) 동작에 대한 상세 흐름도.
    도 9는 도 6에 도시된 S640 단계의 프라이머 정렬(Sorting) 동작에 대한 상세 흐름도.
    도 10은 본 발명에 따른 결과 출력 예시도.

    본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시 예들을 참조하면 명확해질 것이다. 그러나 본 발명은 이하에서 개시되는 실시 예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 것이며, 단지 본 실시 예들은 본 발명의 개시가 완전하도록 하며, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 용이하게 이해할 수 있도록 제공되는 것이며, 본 발명은 청구항의 기재에 의해 정의된다. 한편, 본 명세서에서 사용된 용어는 실시 예들을 설명하기 위한 것이며 본 발명을 제한하고자 하는 것은 아니다. 본 명세서에서, 단수형은 문구에서 특별히 언급하지 않는 한 복수형도 포함한다. 명세서에서 사용되는 "포함한다(comprises)" 또는 "포함하는(comprising)"은 언급된 구성요소, 단계, 동작 및/또는 소자 이외의 하나 이상의 다른 구성요소, 단계, 동작 및/또는 소자의 존재 또는 추가를 배제하지 않는다.

    이하, 본 발명에 따른 다수의 목표 유전자를 검출할 수 있는 특이성 조건을 만족하는 유효한 프라이머 세트와 프루브 세트를 동시에 디자인하는 방법에 대하여 첨부한 도면을 참조하여 상세하게 설명하기로 하자.

    도 2는 본 발명이 적용되는 시스템의 구성을 나타낸 도면이다.

    도 2에 도시된 바와 같이, 상기 시스템은, 다수의 클라이언트(100-1, 100-2, …,100-n), 서버(200), 데이터베이스(300)를 포함할 수 있다. 여기서, 상기 다수의 클라이언트(100-1, 100-2,…,100-n)와 서버(200)는 유선 또는 무선 네트워크를 통해 연결될 수 있다.

    다수의 클라이언트(100-1, 100-2,…100-n)의 사용자가 임의의 질의어와 제약조건를 입력하게 되면, 입력된 질의어 및 제약조건에 대한 정보가 서버(200)로 네트워크를 통해 전송된다.

    서버(200)는 온라인 연산을 통해 다수의 클라이언트(100-1, 100-2,…,100-n)로부터 네트워크를 통해 전송된 질의어에 맞는 후보 프라이머들을 데이터베이스(300)의 색인으로부터 검색하여 검색한 후보 프라이머들을 다수의 클라이언트(100-1, 100-2, …, 100-n)로부터 제공되는 제약조건을 통해 검사한다.

    상기 데이터베이스(300)의 색인을 구성하기 위한 구체적인 방법에 대하여 도 3을 참조하여 살펴보기로 하자.

    도 3은 본 발명에 따른 유전자 질의에 대해 특이성 조건을 만족하는 후보 프라이머와 프루브를 빠르게 검색할 수 있는 색인을 구성하는 방법에 대한 동작 플로우차트를 나타낸 도면이다.

    도 3에 도시된 바와 같이, 먼저, 대규모 DNA 서열 데이터베이스 및 제약조건이 입력되면(S310), 입력된 대규모 DNA 서열 데이터베이스에 대해 하둡 기반의 오프라인 연산을 통해 가능한 모든 유전자 쌍에 대해 특이성 조건을 만족하는 후보 프라이머 집합과 프루브 집합을 추출한다(S320).

    상기 S320 단계를 좀 더 구체적으로 살펴보면, 입력된 대규모 DNA 서열 데이터베이스에서 모든 가능한 최소길이(minL)와 최대길이(maxL) 사이를 갖는 부분 서열들의 후보 프라이머를 추출한다(S321).

    이어, 상기 S321 단계에서 추출된 후보 프라이머들에 대해 상기 S310단계를 통해 입력된 최소 제약조건들을 적용하여 해당 제약조건을 만족하지 않는 프라이머를 필터링 즉, 제외시킨다(S322).

    그리고, 상기 S321단계에서 추출된 모든 후보 프라이머 집합과 프루브 집합을 하둡 분산 알고리즘을 통해 비 표적 서열들과 비교하여 5' 끝 부분에 4개 이하의 미스매치(Mismatch)를 가지면서 나머지 3' 부분이 유사하거나, 전체적으로 2개 이하의 미스매치만을 가지는 후보를 제거하는 상동성 테스트를 수행하고(S323), 상동성 테스트를 통과한 후보 프라이머와 프루브를 추출한다(S330).

    한편, 도 3에 도시된 S350 단계는, 상기 S330단계를 통해 추출된 후보 프라이머와 프루브를 이용하여 Key와 value 쌍의 색인 구조를 메인 메모리 상에서 구성하는 것이다.

    상기 S350 단계를 좀 더 구체적으로 살펴보면, 먼저 유전자 주석 데이터가 입력되면(S340), 입력된 유전자 주석 데이터를 주석 색인으로 구성한다(S351).

    이어, 상기 S330단계에서 추출된 후보 프라이머와 후보 프루브를 색인으로 구성하여(S352), 상기 S351단계와 S352단계에서 구성한 색인을 도 2에 도시된 데이터베이스(30)(메모리) 상에 업로드한다(S353).

    상기 S351 단계에서 구성된 색인의 구조에 대하여 도 4a 내지 도 4c를 참조하여 좀 더 구체적으로 살펴보기로 하자.

    도 4a 내지 도 4c는 본 발명에 따른 유전자 정보 색인의 구성을 나타낸 도이다. 유전자 정보 색인들의 key는 사용자 질의어와 매칭(Matching)을 위해 사용되며 value는 하나의 서열 ID이거나, 서열 ID의 리스트로 프라이머와 프루브 색인의 key와 일치한다.

    도 4a에 도시된 바와 같이, 고유한 유전자 정보를 가지는 GenBank accession number(401), NCBI CCDS ID(402)에 대해 두 개의 해시 구조 색인을 구성한다.

    그리고, 도 4b에 도시된 바와 같이, 중복되는 유전자 정보를 가지는 NCBI gene symbol(403), NCBI gene ID(404), GenBank aliases(405) 그리고 keyword(406)에 대해 네 개의 리스트 구조 색인을 구성한다.

    한편, 도 4c에 도시된 바와 같이, 상기 모든 유전자 정보를 가지고 있는 하나의 리스트 구조 색인(407)을 구성한다.

    그리고, 상기 S352 단계에서의 프라이머 및 프루브 색인 구성에 대하여 도 5a 내지 도 5c를 참조하여 좀 더 구체적으로 살펴보기로 하자.

    도 5a 내지 도 5c는 본 발명에 따른 후보 프라이머 집합과 프루브 집합의 색인과 캐시 프라이머 쌍들 색인의 구성을 나타낸 도이다.

    도 5a에 도시된 바와 같이, 후보 프라이머 색인의 key는 species:sidset+len(*)의 형태로써, len은 프라이머의 길이를, *는 역방향 프라이머(Reverse Primer)를 의미하며 value는 primer+sid+pos의 형태로 프라이머 서열과 위치 정보(pos)를 가지는 해시 구조의 색인으로 구성한다.

    그리고, 도 5b에 도시된 바와 같이, 후보 프루브 색인의 key는 species:taqman:sidset의 형태로써, value는 probe+sid+pos의 형태로 프루브 서열과 위치정보(pos)를 가지는 해시 구조의 색인으로 구성한다.

    마지막으로 도 5c에 도시된 바와 같이, 하나의 캐시 프라이머 쌍들 색인의 key는 species:top:sidset의 형태로써, value는 sid+f.p+r.p+f.pos+r.pos 형태의 배열로 각 표적 서열에 대해 미리 계산된 상위 1위의 프라이머 쌍들을 가지는 해시 구조의 색인으로 구성한다.

    상기 도 3의 과정을 통해 데이터베이스(300)에 도 4a 내지 도 4c 및 도 5a 내지 도 5c와 같은 구조로 색인이 구성된 상태에서, 온라인상으로 다수의 클라이언트(100-1, 100-2, …100-n)의 사용자로부터 질의어 및 제약조건이 입력되는 경우, 서버(200)에서 온라인 연산을 수행하여 유효한 프라이머 및 프루브의 결과를 제공하는 과정에 대하여 도 6을 참조하여 단계적으로 살펴보자.

    도 6은 본 발명에 따른 유효한 프라이머들을 상기 구성된 색인을 이용하여 디자인하는 방법을 나타낸 흐름도이다.

    도 6에 도시된 바와 같이, 먼저, 상기 도 3에서와 같이 만들어진 색인 구조를 이용하여, 사용자(다수의 클라이언트)로부터 온라인 상으로 임의의 질의어 및 제약 조건 정보가 네트워크를 통해 수신되면(S610), 서버(200)는 수신된 질의어에 대한 후보 프라이머 및 프루브를 데이터베이스(300)로부터 검색하고, 검색된 후보 프라이머 및 프루브에 대하여 사용자로부터 제공된 제약 조건 즉, 다수의 목표 유전자들의 각각을 검출할 수 있는 single/pair filtering 제약조건에 대해 만족하는 유효한 프라이머 집합과 프루브 집합을 빠르게 검색한 후, 상기 제약조건을 검사하여 쌍으로 디자인하게 된다(S620, S630).

    이어, 각 표적 유전자를 위한 최적의 프라이머 쌍과 프루브만을 선별하여(S640) 선별된 최적의 프라이머 쌍과 프루브 쌍을 웹 페이지상에 출력하는 것이다(S650).

    이하, 도 6에 도시된 각 단계별 상세 동작에 대하여 각각 첨부한 도면을 참조하여 상세하게 설명하기로 해보자.

    먼저, 도 7을 참조하여 도 6에 도시된 S620단계의 싱글 필터링(Single Filteirng) 동작에 대한 상세 흐름도이다.

    도 7에 도시된 바와 같이, 싱글 필터링 동작은, 사용자에 의해 제공되는 유전자 질의어를 처리하여 필터링 제약조건 값들이 기본 값인 경우 상기 캐시 색인에서 가져와 출력하고, 필터링 제약조건 값들이 기본 값이 아닌 경우 상기 후보 프라이머와 프루브 색인에서 검색하면서 사용자로부터 주어진 복수 개의 싱글 필터링 조건을 적용하여 조건을 만족하지 않는 프라이머를 제거한다.

    도 7에 도시된 바와 같이, S621 단계 내지 S628단계에서와 같이, 상기 필터링 조건으로 길이, 온도, GC content, self-complementarity, 3' end self-complementarity, 연속된 염기, end stability, 그리고 hairpin을 순차적으로 확인하여 사용자로부터 주어진 복수 개의 싱글 필터링 조건을 적용하여 조건을 만족하지 않는 프라이머를 제거하는 것이다.

    상기 조건들은 모두 사용자에 의해 값이 정의될 수 있다. 특히 온도를 계산하기 위해 여러 공식들이 제안되었지만 본 발명에서는 그 중에 알려진 제일 정확한 공식(예를 들면, SantaLucia Jr, J. and Hicks, D. (2004) The thermodynamics of DNA structural motifs. Annu. Rev. Biophys. Biomol. Struct., 33, 415-440.)을 적용하였다. 비슷하게 end stability를 계산하기 위해 마찬가지로 가장 정확한 nearest neighbor thermodynamics 방법을 적용하였다.

    이어, 도 8을 참조하여 도 6에 도시된 S630단계의 페어 필터링(Pair Filtering) 동작에 대하여 구체적으로 설명해 보자.

    도 8은 도 6에 도시된 S630단계의 페어 필터링(Pair Filtering) 동작에 대한 상세 동작 흐름도이다.

    도 8에 도시된 바와 같이, 페어 필터링 동작은 상기한 도 7의 싱글 필터링을 통해 남아 있는 프라이머를 사용자로부터 주어진 복수 개의 페어 필터링 조건을 적용하여 프라이머쌍으로 디자인하는 것이다.

    먼저, 도 8의 S631 단계와 S632 단계와 같이 후보 프라이머는 정방향 프라이머 세트와 역방향 프라이머 세트, 두 세트로 나누어 두 세트에 대해 계산을 수행한다.

    이어, S633 내지 S637 단계에서와 같이, 다섯 개의 프라이머 쌍을 위한 페어 필터링 조건을 적용한다.

    페어 필터링 조건에는 S633 단계에서 S637 단계와 같이 온도 차이, 길이 차이, 생성물의 길이, pair-complementary, 그리고 3' end pair-complementary에 대해 순차적으로 검사한다. 이 값들은 모두 사용자에 의해 정의될 수 있다.

    한편, 도 9는 도 6에 도시된 S640 단계의 프라이머 정렬(Sorting) 동작에 대한 상세 흐름도로서, 상기 도 8과 같은 페어 필터링 과정을 통과한 프라이머쌍들에 대해 패널티 점수를 계산한다(S641). 즉, 정방향 프라이머 패널티와 역방향 프라이머 패널티의 합으로 프라이머 쌍에 대해 패널티를 계산한다.

    그리고, 프라이머 쌍에 대해 패널티가 계산되면, 같은 sidset 그룹 내에서 패널티 점수가 가장 높은 상위 1위의 프라이머쌍들을 위치 조건을 만족하는 프루브와 함께 웹 페이지로 출력한다(S642). 즉, 최적의 프라이머 쌍에 대하여 정방향 프라이머와 역방향 프라이머 사이에 위치하는 프루브를 검색하여 검색된 프루브와 함께 상기 같은 sidset 그룹 내에서 패널티 점수가 가장 높은 상위 1위의 프라이머쌍들을 웹 페이지로 출력하는 것이다. 다시 말해, S642 단계에서는 상기 프루브 색인에서 검색된 프루브의 위치가 정방향, 역방향 프라이머의 위치 조건과 맞는지 확인하는 것이다.

    마지막으로, 도 10a 내지 도 10d는 본 발명에 따른 결과 출력 예시도로서 상기 최종 구해진 결과를 출력하는 방법에 대해 보여준 것이다.

    도 10a 내지 도 10d에 도시된 바와 같이, 도 10a는 사용자에 의해 주어진 싱글/페어 필터링 제약조건들을 만족하는 특정 하나의 표적 서열에 붙는 상위 1위의 프라이머쌍들과 probe들을 나타낸 것이고, 도 10b는 사용자에 의해 주어진 싱글/페어 필터링 제약조건들을 만족하는 여러 표적 서열에 붙는 상위 1위의 프라이머쌍들을 나타낸 것이다.

    한편, 도 10c는 사용자에 의해 주어진 엄격한 싱글/페어 필터링 제약조건들을 만족하는 프라이머쌍들이 없는 질의들을 나타내고, 도 10d는 색인에 없어 검색된 유효한 후보 프라이머들이 없는 질의어들로 구분하여 각각 출력한 것이다.

    상기와 같은 과정 중에, 사용자에 의해 주어진 엄격한 싱글/페어 필터링 제약조건들을 만족하는 프라이머쌍들이 없는 경우와 사용자에 의해 주어진 질의어가 색인에 없어 검색된 유효한 후보 프라이머들이 존재하지 않는 경우, 웹페이지의 결과 화면에서 바로 사용자가 질의어와 제약조건을 수정하고 재검색함으로써 정확한 검색 결과를 얻을 수 있는 대화형 (interactive) 인터페이스를 제공할 수도 있다.

    한편, 상기에서와 같이 모든 과장이 완료되면, 사용자가 입력한 이메일 주소로 검색 결과를 받을 수 있는 기능을 제공할 수도 있다.

    본 발명에 따른 다수의 목표 유전자를 검출할 수 있는 특이성 조건을 만족하는 유효한 프라이머 세트와 프루브 세트를 동시에 디자인하는 방법을 실시 예에 따라 설명하였지만, 본 발명의 범위는 특정 실시 예에 한정되는 것은 아니며, 본 발명과 관련하여 통상의 지식을 가진 자에게 자명한 범위 내에서 여러 가지의 대안, 수정 및 변경하여 실시할 수 있다.

    따라서, 본 발명에 기재된 실시 예 및 첨부된 도면들은 본 발명의 기술 사상을 한정하기 위한 것이 아니라 설명하기 위한 것이고, 이러한 실시 예 및 첨부된 도면에 의하여 본 발명의 기술 사상의 범위가 한정되는 것은 아니다. 본 발명의 보호 범위는 청구범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 발명의 권리 범위에 포함되는 것으로 해석되어야 할 것이다.

    100 : 다수의 클라이언트
    200 : 서버
    300 : 데이터베이스

    QQ群二维码
    意见反馈