고 반복 모티프를 포함하는 DNA 서열에 대한 효율적이고 특이적인 표적화를 위한 희소-절단 엔도뉴클레아제의 설계专利检索- 作用于酯键的水解酶专利检索查询-专利查询网

고 반복 모티프를 포함하는 DNA 서열에 대한 효율적이고 특이적인 표적화를 위한 희소-절단 엔도뉴클레아제의 설계

申请号

KR1020167013791

申请日

2014-10-24

公开(公告)号

KR1020160068971A

公开(公告)日

2016-06-15

申请人

셀렉티스;

发明人

뒤차티우,필립; 쥐이라,알렉산드르;

摘要

본발명은유전공학편집도구및 유전공학적방법에관한분야에속한다. 본발명은특정유전질병, 특히헌팅턴병과같은삼중반복질병의기원이되는염색체내에서고 반복모티프를수축하도록설계된희소-절단엔도뉴클레아제의재조합설계에관한것이다. 본발명은반복모티프를수축시키기위한방법, 반복장애와관련된유전자내의반복모티프를수축시키기위하여사용되는희소-절단엔도뉴클레아제, 이를인코딩하는폴리뉴클레오티드, 및벡터, 그리고이에따른약제학적조성물을포함한다.

权利要求

반복장애와 관련된 유전자 내의 폴리뉴클레오티드 반복을 수축시키기 위하여 세포 내에서 사용되고, 반복서열을 특이적으로 절단하도록 재조합설계되며, 상기 반복서열에 인접한 영역을 포함하는 표적서열을 인식하는 것을 특징으로 하는 희소-절단 엔도뉴클레아제.

청구항 1에 있어서,
상기 반복서열에 인접한 적어도 10개의 핵산 염기 및 상기 반복서열 내의 적어도 5개의 핵산 염기에 걸친 표적서열을 인식하는 희소-절단 엔도뉴클레아제.

청구항 1에 있어서,
상기 희소-절단 엔도뉴클레아제는 상기 반복서열에 인접한 영역을 포함하는 표적서열을 인식하는 결합 도메인 및 상기 반복서열 내부를 절단하는 엔도뉴클레아제 도메인을 포함하는 키메릭 엔도뉴클레아제인 희소-절단 엔도뉴클레아제.

청구항 3에 있어서,
상기 결합 도메인은 재조합설계된 TALE, MBBBD 또는 ZF 결합 도메인인 희소-절단 엔도뉴클레아제.

청구항 4에 있어서,
상기 엔도뉴클레아제 도메인은 I-TevI, NucA, ColE7 또는 Fok-1로 이루어진 군으로부터 선택되는 희소-절단 엔도뉴클레아제.

청구항 1에 있어서,
상기 희소-절단 엔도뉴클레아제는 Cas9이며, 상기 표적 서열의 인식은 상기 표적서열과 혼성화 결합할 수 있는 가이드RNA에 의하여 이루어지는 희소-절단 엔도뉴클레아제.

청구항 1에 있어서,
상기 표적서열은 서열번호 1 내지 서열번호 3으로 이루어진 군으로부터 선택되는 서열 내에 있는 희소-절단 엔도뉴클레아제.

청구항 7에 있어서,
상기 희소-절단 엔도뉴클레아제는 서열번호 8, 10 및 15와 적어도 80%, 바람직하게는 85%, 90%, 95% 동일한 아미노산 서열을 갖는 희소-절단 엔도뉴클레아제.

청구항 1 내지 8의 어느 한 항에 있어서,
반복질병을 치료 또는 예방하기 위한 희소-절단 엔도뉴클레아제.

청구항 1 내지 8의 어느 한 항에 있어서,
헌팅턴병을 치료 또는 예방하기 위한 희소-절단 엔도뉴클레아제.

청구항 1 내지 10의 어느 한 항에 따른 상기 희소-절단 엔도뉴클레아제를 인코딩하는 폴리뉴클레오티드.

청구항 11의 폴리뉴클레오티드를 포함하는 벡터.

청구항 1 내지 11의 어느 한 항에 따른 적어도 하나의 희소-절단 엔도뉴클레아제 또는 청구항 11 또는 12에 따른 폴리뉴클레오티드를 포함하는 약제학적 조성물.

(a) 반복서열에 인접한 영역을 포함하는 표적서열을 선택하는 단계;
(b) 상기 표적서열에 결합하고 상기 반복서열을 절단할 수 있는 희소-절단 엔도뉴클레아제를 제공하는 단계;
(c) DNA 결합 뉴클레아제가 반복서열 내에서 절단을 유도하고, 상기 반복서열을 수축시키는 것을 수행하는 회복과정을 유도하도록 상기 희소-절단 엔도뉴클레아제를 상기 세포 내로 도입하는 단계;를 포함하는
살아있는 세포 내에서 반복장애와 관련된 유전자서열 내의 반복서열을 수축시키는 방법.

청구항 14에 있어서,
상기 반복서열을 수축시키는 것을 수행하는 회복과정은 SSA (단일 가닥 어닐링)인 세포의 유전자서열 내의 반복서열을 수축시키는 방법.

청구항 15에 있어서,
상기 희소-절단 엔도뉴클레아제는 청구항 1 내지 10의 어느 한 항에 따른 것인 세포의 유전자서열 내의 반복서열을 수축시키는 방법.

청구항 9 내지 12의 어느 한 항에 따른 적어도 하나의 희소-절단 엔도뉴클레아제 또는 청구항 13의 폴리뉴클레오티드를 포함하는 분리된 세포.

청구항 17에 있어서,
포유동물 세포인 분리된 세포.

说明书全文

고 반복 모티프를 포함하는 DNA 서열에 대한 효율적이고 특이적인 표적화를 위한 희소-절단 엔도뉴클레아제의 설계 {DESIGN OF RARE-CUTTING ENDONUCLEASES FOR EFFICIENT AND SPECIFIC TARGETING DNA SEQUENCES COMPRISING HIGHLY REPETITIVE MOTIVES}

본 발명은 유전자 편집 도구 및 이의 용도에 관한 것이다. 본 발명은 특정 유전적 질병, 특히 헌팅턴병 (Huntington disease)과 같은 "삼중 반복질병 (triplet repeat disease)"의 기원인 염색체 내의 고 반복 모티프를 수축시키기 위하여 설계된 희소-절단 엔도뉴클레아제 (rare-cutting endonuclease)의 재조합설계에 관한 것이다. 본 발명은 상기 반복 모티프를 수축시키는 방법, 반복장애에 관련된 유전자 내의 반복 모티프를 수축시키기 위하여 사용되는 희소-절단 엔도뉴클레아제, 폴리뉴클레오티드 및 이를 인코딩하는 벡터, 및 그 결과로 얻어지는 약제학적 조성물을 포함한다.

1990년대 초기부터, 특정 인간 질병에 기초가 되는 신규한 돌연변이 기전으로 불안정한 뉴클레오티드 (마이크로새틀라이트) 반복, 특히 삼중뉴클레오티드 반복 (trinucleotide repeat)의 확장이 발견되었다. 수년간 몇몇 추가적인 발달장애 및 신경근육장애가 불안정한 4중-, 5중-, 6중뉴클레오티드, 및 그 이상의 반복과 함께, 삼중뉴클레오티드 반복의 삽입 또는 중복에 의하여 야기되는 것으로 밝혀졌다 (Mirkin 2007). 이러한 폴리뉴클레오티드의 삽입 또는 중복은 단백질의 기능 손실, RNA의 기능적 독성 획득 또는 단백질의 기능적 독성 획득을 야기하여 장애에 이를 수 있다. 이러한 장애의 예시로, 헌팅턴병 (Huntington disease), 유전적 운동실조 (inherited ataxias), 취약X증후군 (fragile X syndrome), 일반적인 유전적 근디스트로피인 근긴장성디스트로피 (myotonic dystrophy), 우성적으로 유전되는 운동실조, 및 가장 최근에는 전측두엽 치매 (frontotemporal dementia)/ 근위축성 측삭 경화증 (amyotrophic lateral sclerosis)의 빈번한 원인이 되는 C9ORF72 유전자 내의 불안정한 6중뉴클레오티드 반복을 들 수 있다 (DeJesus-Hernandez, Mackenzie et al. 2011; Renton, Majounie et al. 2011) ((Nelson, Orr et al. 2013)리뷰를 참고할 것).

대부분의 반복 확장 장애에 대한 치료 수단은 매우 제한적이다. 다양한 신경퇴행성 질병에 대하여 고려되는 가장 매력적인 치료 전략은 유전자 치료이다. 실제로, 확장된 반복의 발현을 차단하기 위한 몇몇 전략이 개발되어 왔다. 특히, 세포 내에서 RNA 간섭 기술을 이용하여 돌연변이 유전자를 억제 (silencing)하는 것이 단백질 또는 RNA의 독성 기능을 예방하기 위하여 실현되어 왔다 (Wang, Liu et al. 2005; Machida, Okada et al. 2006; DiFiglia, Sena-Esteves et al. 2007). 그러나, 기본적으로 RNA 간섭의 설계는 정상적인 것과 반복적인 확장서열을 구별할 수 없으며, 돌연변이와 야생형 유전자 모두의 동시 감소를 야기한다 (Caplen, Taylor et al. 2002). 그러나, 헌팅턴 단백질은 광범위하게 발현되며, 뇌의 신경 기능 및 생존에 요구된다 (Duyao, Auerbach et al. 1995; Dragatsis, Levine et al. 2000). 따라서, 야생형 단백질의 발현은 영향을 받지 않도록 하면서, 돌연변이 유전자의 발현을 특이적으로 감소시키는 것이 중요하다.

최근에는, 징크핑거 (Zinc Finger) 단백질이 헌팅턴병에 관여하는 헌팅턴 유전자의 다중 삼중뉴클레오티드 반복에 결합되도록 설계되었다. 징크핑거는 더욱 짧은 반복과 비교하여 반복 확장된 헌팅턴 유전자를 바람직하게 억제할 수 있는 최적의 형상을 얻기 위하여 적절한 링커를 갖는 장쇄로 연결된다. 이러한 전략은 야생형 유전자에 비하여 돌연변이 유전자의 발현을 더욱 효율적으로 억제할 수 있도록 한다. 그러나, 이러한 억제가 유전자 치료를 위한 수준으로 단백질을 감소시키기에 충분한지 여부가 알려져 있지 않다 (Garriga-Canut, Agustin-Pavon et al., International application: WO2013/130824).

기존 연구 (Richard, Dujon et al. 1999)는 반복서열 내의 절단 작용의 유도는 서로 다른 두 기전에 의하여 설명될 수도 있는 삼중뉴클레오티드 반복 배열의 수축과 관련되어 있음을 제시하고 있다: (1) 절단된 두 말단이 주형을 침입할 수 있으나, 이들은 주형과 동일한 반복된 서열을 운반하므로 상기 주형 내의 어느 곳이건 침입할 수 있다. 또는 (2) 하나의 말단만이 주형을 침입하고 새롭게 합성된 가닥이 그 주형으로부터 치환되나, 반복을 포함하는 다른 말단과 결합될 수 있다 (Richard, Dujon et al. 1999). 그러나, 게놈 내 반복서열의 높은 빈도 때문에, 상기 반복서열에 특이적으로 설계된 재조합 DNA 결합 뉴클레아제는 인간 게놈을 걸쳐 몇몇 위치에서 멀리 떨어진 곳에서 돌연변이를 유발하는 것으로 보인다. 따라서, 원하는 게놈 위치에서만 반복서열 내의 절단을 야기할 수 있는 능력은 매우 바람직한 것이다.

이러한 한계점들을 극복하기 위하여, 본 발명자들은 게놈의 완전성 및 수정된 유전자의 기능을 유지하면서, 수많은 확장된 폴리뉴클레오티드 반복을 DNA 결합 뉴클레아제를 이용하여 감소시키기 위한 유전적 치료전략을 개발하였다. 이러한 전략은 주로 삼중반복장애와 관련된 반복서열을 특이적으로 표적화하기 위한 게놈서열의 선택과 함께 DNA 결합 뉴클레아제의 설계에 기반한다.

일반적인 관점에서, 본 발명은 바람직하게는 반복장애와 관련된 특정 유전자 내의 폴리뉴클레오티드 반복을 수축시키기 위하여 사용되는 희소-절단 엔도뉴클레아제에 관한 것이다. 특히, 상기 희소-절단 엔도뉴클레아제는 반복서열을 특이적으로 절단하도록 재조합설계되며, 상기 반복서열에 인접한 영역을 포함하는 표적서열을 인식하는 것을 특징으로 한다. 본 발명은 특정 영역 내의 고 반복 모티프 내의 수축을 유발하기 위하여 사용되는 희소-절단 엔도뉴클레아제를 재조합설계하는 방법에 관한 것이다. 바람직하게는, 상기 희소-절단 엔도뉴클레아제는 희소-절단 엔도뉴클레아제가 선택된 표적서열에 특이적으로 결합하고 반복서열을 절단하도록, 반복서열에 인접한 영역을 포함하는 서열을 표적으로 한다. 반복서열의 절단은 특정 유전자 내의 반복서열의 수축을 수행하는 회복과정 (repairing process)을 유발하며, 이에 따라 확장된 반복서열을 거의 야생형의 형상으로 감소시킨다. 바람직하게는, 상기 희소-절단 엔도뉴클레아제는 반복서열을 특이적으로 절단하는 Cas9-가이드RNA 복합체이며, 상기 가이드RNA는 상기 반복서열에 인접한 영역을 포함하는 표적서열에 혼성화 결합하는 것을 특징으로 한다. 바람직하게는, 상기 희소-절단 엔도뉴클레아제는 모듈화된 DNA 결합 뉴클레아제이며, 엔도뉴클레아제의 활성 도메인과 융합된 TALE, MBBBD, 징크핑거 (ZF) 도메인과 같은 DNA 결합 도메인을 포함한다. 상기 DNA 결합 도메인은 단량체 또는 이량체로 작용할 수 있다. 이량체 DNA 결합 뉴클레아제는 뉴클레아제 활성 도메인에 융합되고 반복서열에 인접한 서열에 결합할 수 있는 제1 DNA 결합 도메인과 뉴클레아제 활성 도메인에 융합되고 반복서열에 결합할 수 있는 제2 DNA 결합 도메인을 포함한다 (도 1). 이량체로 작용하는 상기 뉴클레아제 활성 도메인은 바람직하게는 FokI 활성 도메인이다. 본 발명의 희소-절단 엔도뉴클레아제는 특히 고 반복 모티프 영역을 수축시킴으로써 헌팅턴병과 같은 반복질병의 치료 또는 예방에 적합하다.

본 발명의 일 구현 예에 따른 희소-절단 엔도뉴클레아제는 반복장애와 관련된 유전자 내의 폴리뉴클레오티드 반복을 수축시키기 위하여 세포 내에서 사용되고, 반복서열을 특이적으로 절단하도록 재조합설계되며, 상기 반복서열에 인접한 영역을 포함하는 표적서열을 인식할 수 있다.

본 발명의 다른 구현 예에 따른 희소-절단 엔도뉴클레아제는 상기 반복서열에 인접한 적어도 10개의 핵산 염기 및 상기 반복서열 내의 적어도 5개의 핵산 염기에 걸친 표적서열을 인식할 수 있다.

본 발명의 또 다른 구현 예에 따른 희소-절단 엔도뉴클레아제에 있어서, 상기 희소-절단 엔도뉴클레아제는 상기 반복서열에 인접한 영역을 포함하는 표적서열을 인식하는 결합 도메인 및 상기 반복서열 내부를 절단하는 엔도뉴클레아제 도메인을 포함하는 키메릭 엔도뉴클레아제일 수 있다.

본 발명의 또 다른 구현 예에 따른 희소-절단 엔도뉴클레아제에 있어서, 상기 결합 도메인은 재조합설계된 TALE, MBBBD 또는 ZF 결합 도메인일 수 있다.

본 발명의 또 다른 구현 예에 따른 희소-절단 엔도뉴클레아제에 있어서, 상기 엔도뉴클레아제 도메인은 I-TevI, NucA, ColE7 또는 Fok-1로 이루어진 군으로부터 선택될 수 있다.

본 발명의 또 다른 구현 예에 따른 희소-절단 엔도뉴클레아제에 있어서, 상기 희소-절단 엔도뉴클레아제는 Cas9이며, 상기 표적 서열의 인식은 상기 표적서열과 혼성화 결합할 수 있는 가이드RNA에 의하여 이루어질 수 있다.

본 발명의 또 다른 구현 예에 따른 희소-절단 엔도뉴클레아제에 있어서, 상기 표적서열은 서열번호 1 내지 서열번호 3으로 이루어진 군으로부터 선택될 수 있다.

본 발명의 또 다른 구현 예에 따른 희소-절단 엔도뉴클레아제에 있어서, 상기 희소-절단 엔도뉴클레아제는 서열번호 8, 10 및 15와 적어도 80%, 바람직하게는 85%, 90%, 95% 동일한 아미노산 서열을 가질 수 있다.

본 발명의 또 다른 구현 예에 따른 희소-절단 엔도뉴클레아제는 반복질병을 치료 또는 예방하기 위한 것일 수 있다.

본 발명의 또 다른 구현 예에 따른 희소-절단 엔도뉴클레아제는 헌팅턴병을 치료 또는 예방하기 위한 것일 수 있다.

본 발명의 일 구현 예에 따른 폴리뉴클레오티드는 상기 희소-절단 엔도뉴클레아제를 인코딩하는 것일 수 있다.

본 발명의 일 구현 예에 따른 벡터는 상기 폴리뉴클레오티드를 포함할 수 있다.

본 발명의 일 구현 예에 따른 약제학적 조성물은 적어도 하나의 상기 희소-절단 엔도뉴클레아제 또는 상기 폴리뉴클레오티드를 포함할 수 있다.

본 발명의 일 구현 예에 따른 살아있는 세포 내에서 반복장애와 관련된 유전자서열 내의 반복서열을 수축시키는 방법은 (a) 반복서열에 인접한 영역을 포함하는 표적서열을 선택하는 단계; (b) 상기 표적서열에 결합하고 상기 반복서열을 절단할 수 있는 희소-절단 엔도뉴클레아제를 제공하는 단계; (c) DNA 결합 뉴클레아제가 반복서열 내에서 절단을 유도하고, 상기 반복서열을 수축시키는 것을 수행하는 회복과정을 유도하도록 상기 희소-절단 엔도뉴클레아제를 상기 세포 내로 도입하는 단계;를 포함할 수 있다.

본 발명의 다른 구현 예에 따른 반복장애와 관련된 유전자서열 내의 반복서열을 수축시키는 방법에 있어서, 상기 반복서열을 수축시키는 것을 수행하는 회복과정은 SSA (단일 가닥 어닐링)일 수 있다.

본 발명의 또 다른 구현 예에 따른 반복장애와 관련된 유전자서열 내의 반복서열을 수축시키는 방법에 있어서, 상기 희소-절단 엔도뉴클레아제는 전술된 것일 수 있다.

본 발명의 일 구현 예에 따른 분리된 세포는 적어도 하나의 상기 희소-절단 엔도뉴클레아제 또는 상기 폴리뉴클레오티드를 포함할 수 있다.

본 발명의 다른 구현 예에 따른 분리된 세포는 포유동물 세포일 수 있다.

본 발명에 따른 상기 희소-절단 엔도뉴클레아제는 모듈화된 DNA 결합 뉴클레아제이며, 엔도뉴클레아제의 활성 도메인과 융합된 TALE, MBBBD, 징크핑거 (ZF) 도메인과 같은 DNA 결합 도메인을 포함한다. 상기 DNA 결합 도메인은 단량체 또는 이량체로 작용할 수 있다. 이량체 DNA 결합 뉴클레아제는 뉴클레아제 활성 도메인에 융합되고 반복서열에 인접한 서열에 결합할 수 있는 제1 DNA 결합 도메인과 뉴클레아제 활성 도메인에 융합되고 반복서열에 결합할 수 있는 제2 DNA 결합 도메인을 포함한다. 이량체로 작용하는 상기 뉴클레아제 활성 도메인은 바람직하게는 FokI 활성 도메인이다. 본 발명의 희소-절단 엔도뉴클레아제는 특히 고 반복 모티프 영역을 수축시킴으로써 헌팅턴병과 같은 반복질병의 치료 또는 예방에 적합하다.

도 1: 반복서열을 특이적으로 절단하도록 재조합설계된 TALE-뉴클레아제의 개략적인 설명.
도 2: 반복서열을 특이적으로 절단하도록 재조합설계된 이량체 TALE-뉴클레아제의 사용에 관한 개략적인 설명. 하나의 TALE-뉴클레아제 절반-도메인은 반복서열에 인접한 영역을 포함하는 표적서열을 인식하도록 재조합설계되며, 나머지 TALE-뉴클레아제 절반-도메인은 이량체 TALE-뉴클레아제가 반복서열을 절단하도록 반복서열 내부의 표적서열을 인식하도록 재조합설계된다. 반복서열의 절단은 단일 사슬 어닐링 (SSA) 과정과 같이 반복을 수축시키는 회복과정을 야기한다.
도 3: 반복서열을 특이적으로 절단하도록 재조합설계된 단량체 TALE-뉴클레아제의 사용에 관한 개략적인 설명. 반복서열을 특이적으로 절단하도록 재조합설계된 단량체 TALE-뉴클레아제는 반복서열에 인접한 영역을 포함하는 표적서열을 인식한다. 반복서열의 절단은 단일 사슬 어닐링 (SSA) 과정과 같이 반복을 수축시키는 회복과정을 야기한다.
도 4: 반복서열을 특이적으로 절단하도록 재조합설계된 Cas9-가이드 RNA 복합체의 사용에 대한 개략적인 설명. 가이드 RNA는 Cas9-가이드 RNA 복합체가 반복서열을 절단하도록 반복서열에 인접한 영역을 포함하는 표적서열을 특이적으로 인식하도록 재조합설계된다. 반복서열의 절단은 단일 사슬 어닐링 (SSA) 과정과 같이 반복을 수축시키는 회복과정을 야기한다.
표 1: 두 개의 TALEN 쌍에 의해 표적화되는 서열의 목록. 반복서열을 플랭킹하는 TALEN (위치 T0가 생략됨)에 의하여 표적화되는 16 염기 서열이 밑줄로 표시되어 있다.
표 2: (국제 PCT 출원 WO 2004/067736 및 Epinat, Arnould et al. 2003; Chames, Epinat et al. 2005; Arnould, Chames et al. 2006; Smith, Grizot et al. 2006)에서 이전에 기술된 우리의 효모 SSA 분석에서의 37℃에서의 TALEN의 활성. －는 검출가능한 활성이 없음을 나타내며, ＋는 약한 활성을 나타내고, ＋＋는 높은 활성을 나타내며, na는 활용가능한 데이터가 없음을 나타낸다.

여기에 달리 정의되지 않는 한, 사용된 모든 기술적 및 과학적 용어는 유전자 치료, 생화학, 유전학, 및 분자생물학 분야의 통상의 기술자가 일반적으로 이해하는 것과 동일한 의미를 갖는다.

본 발명의 구현은 달리 언급되지 않는 한, 공지기술에 속하는 세포생물학, 세포 배양, 분자생물학, 형질전환 생물학, 미생물학, 재조합 DNA, 및 면역학의 전통적인 기법을 적용할 것이다. 이러한 기법은 문헌으로 완전히 설명되어 있다. 예를 들어, Current Protocols in Molecular Biology (Frederick M. AUSUBEL, 2000, Wiley and son Inc, Library of Congress, USA); Molecular Cloning: A Laboratory Manual, Third Edition, (Sambrook et al, 2001, Cold Spring Harbor, New York: Cold Spring Harbor Laboratory Press); Oligonucleotide Synthesis (MJ Gait ed., 1984); Mullis et al. US Pat. No. 4,683,195; Nucleic Acid Hybridization (BD Harries & SJ Higgins eds. 1984); Transcription And Translation (BD Hames & SJ Higgins eds. 1984); Culture Of Animal Cells (RI Freshney, Alan R. Liss, Inc., 1987); Immobilized Cells And Enzymes (IRL Press, 1986); B. Perbal, A Practical Guide To Molecular Cloning (1984); 시리즈물, Methods In ENZYMOLOGY (J. Abelson and M. Simon, eds.-in-chief, Academic Press, Inc., New York), 특히, Vols. 154 and 155 (Wu et al. eds.) 및 Vol. 185, "Gene Expression Technology" (D. Goeddel, ed.); Gene Transfer Vectors For Mammalian Cells (JH Miller and MP Calos eds., 1987, Cold Spring Harbor Laboratory); Immunochemical Methods In Cell And Molecular Biology (Mayer and Walker, eds., Academic Press, London, 1987); Handbook Of Experimental Immunology, Volumes I-IV (DM Weir and CC Blackwell, eds., 1986); 및 Manipulating the Mouse Embryo, (Cold Spring Harbor Laboratory Press, Cold Spring Harbor, NY, 1986)를 참고할 것.

폴리뉴클레오티드 반복을 수축시키기 위하여 사용되는 재조합설계된 희소-절단 엔도뉴클레아제

본 발명은 반복서열을 특이적으로 인식 및 절단할 수 있는 희소-절단 엔도뉴클레아제에 관한 것이다. 위치에서 떨어진 곳의 표적화를 피하기 위하여, 본 발명자들은 반복서열을 특이적으로 절단하며, 반복서열에 인접한 영역을 포함하는 표적서열을 인식하는 희소-절단 엔도뉴클레아제를 재조합설계하였다. 반복서열의 절단은 바람직하게는 반복장애와 관련된 유전자에 존재하는 폴리뉴클레오티드 반복의 수축을 수행하는 회복과정을 유발한다. 특정 구현 예에 있어서, 본 발명은 반복서열을 특이적으로 절단하는 희소-절단 엔도뉴클레아제를 재조합설계하는 방법에 관한 것이다. 특히, 상기 방법은 (a) 반복서열에 인접한 영역을 포함하는 표적서열을 선택하는 단계; (b) 표적서열을 인식하고 반복서열을 절단할 수 있는 희소-절단 엔도뉴클레아제를 재조합설계하는 단계를 포함한다.

본 발명에 따른 표적서열은 염색체, 에피좀, 미토콘드리아 게놈 또는 엽록체 게놈과 같은 기관성 게놈 또는 예를 들어, 감염성 게놈, 플라스미드, 에피좀, 트랜스포손과 같은 유전물질의 주요 몸체에 독립적으로 존재할 수 있는 유전물질에 존재할 수 있다. 표적 핵산서열은 유전자의 암호화 서열 내부, 예를 들어 리더서열, 트레일러서열 또는 인트론과 같은 전사된 비-암호화 서열의 내부, 또는 암호화 서열의 위쪽 (upstream) 또는 아래쪽 (downstream)의 비-전사 서열 내에 존재할 수 있다. 핵산 표적서열은 상기 표적의 한 가닥의 5'에서 3'으로 정의된다. 특히, 상기 표적서열은 반복서열의 일부 및 이에 인접한 서열을 포함한다.

상기 반복서열은 삼중뉴클레오티드 반복일 수 있으나, 4중-, 5중- 또는 6중- 뉴클레오티드일 수도 있다. 이에 한정되는 것은 아니나, 상기 반복서열은 예를 들어, (CGC)n, (GAA)n, (CTG)n, (CCTG)n, (CGG)n, (ATTCT)n, (CAG)n일 수 있으며, 여기서 n은 1 내지 20000, 바람직하게는 10 내지 15000, 더욱 바람직하게는 20 초과일 수 있다 (리뷰를 위해 (Orr and Zoghbi 2007)를 참고할 것). 상기 표적서열은 적어도 3개, 바람직하게는 4, 5, 6, 7, 8, 9, 10개의 뉴클레오티드를 포함하는 반복서열의 일부를 포함한다.

반복서열에 인접한 영역은 희소-절단 엔도뉴클레아제에 의하여 특이적으로 인식될 수 있을 정도로 충분히 길어야 한다. 반복서열에 인접한 영역은 적어도 5개의 뉴클레오티드, 바람직하게는 적어도 6, 7, 8, 9, 10, 11, 12, 15개의 뉴클레오티드를 포함한다. 더욱 바람직한 구현 예에 있어서, 상기 인접한 영역은 5 내지 10개의 뉴클레오티드를 포함한다. 인접한 서열은 반복서열의 5' 또는 3' 영역일 수 있다. 상기 표적서열은 바람직하게는 불안정한 반복의 확장이 신경 장애를 유발할 수 있는 유전자 서열 내부에 존재할 수 있다. 이에 한정되는 것은 아니나, 상기 유전자 서열은 (CGG)n 반복 단위를 포함하는 취약 X 정신지체 1 유전자 (FMR1, MIM 번호: 309550, NG_007529.1)의 5' 비번역 영역 (UTR) 서열; (CGG)n 반복 단위를 포함하는 취약 X 정신지체 2 유전자 (FMR2, MIM 번호: 300806, NG_016313.1)의 5' UTR 서열; (GAA)n 반복 단위를 포함하는 Friedreich 운동실조 1 유전자 (FRDA, MIM 번호: 606829, NG_008845.2)의 제1 인트론; (CTG)n 반복단위를 포함하는 근긴장성 영양증 (dystrophia myotonica)-단백질 키나아제 유전자 (DMPK, MIM 번호 605377, NG_009784.1)의 3' UTR 서열; (CCTG)n 반복단위를 포함하는 징크핑거 (Zing finger) 9 유전자 (ZNF9, MIM번호: 602668, NG_011902.1)의 제1 인트론; (CAG)n 반복단위를 포함하는 아탁신 (Ataxin) 8 (ATXN8, MIM 번호: 613289, GenBank: DQ641254.1); (CTG)n 반복단위를 포함하는 아탁신 8 반대 가닥 (ATXN8OS, MIM 번호: 603680, NR_002717.2); (CAGT)n 반복단위를 포함하는 아탁신 10 유전자 (ATXN10, MIM 번호: 611150, NG_016212.1)의 인트론 9; (CAG)n 반복단위를 포함하는 단백질 포스파타아제 2 조절 서브유닛 B 베타 유전자 (PPP2R2B, MIM 번호: 604325, NG_011570.1)의 5' UTR 서열; (CAG)n 반복단위를 포함하는 헌팅턴 유전자 (HTT, MIM 번호: 613004, NG_009378.1)의 N-말단; (CAG)n 반복단위를 포함하는 아탁신 1 (ATXN1, MIM 번호: 601556, NG_011571.1); (CAG)n 반복단위를 포함하는 아탁신 2 (ATXN2; MIM 번호: 601517, NG_011572.1); (CAG)n 반복단위를 포함하는 아탁신 3 (ATXN3, MIM 번호: 607047, NG_008198.1); (CAG)n 반복단위를 포함하는 칼슘 채널, 전압-의존성, P/Q 타입, 알파-1A 서브유닛 유전자 (CACNA1A, MIM number: 601011, NC_000019.9)의 엑손 (exon) 47; (CAG)n 반복단위를 포함하는 아탁신 7 (ATXN7, MIM 번호: 607640, NG_008227.1); (CAG)n 및/또는 (CAA)n 반복단위를 포함하는 TATA 박스-결합 단백질 유전자 (TBP, MIM number: 60075, NG_008165.1); (CAG)n 반복단위를 포함하는 척수 및 안드로겐 수용체 유전자 (AR, MIM 번호: 313700, NG_009014.2)의 엑손 1; (CAG)n 반복단위를 포함하는 아트로핀 (atrophin) 1 유전자 (ATN1, MIM 번호: 607462, NG_008047.1) 및 이들의 상동체 (homologue)로 이루어지는 군으로부터 선택될 수 있다.

더욱 바람직한 구현 예에 있어서, 상기 표적서열은 1) 헌팅턴 단백질을 인코딩하는 서열 (서열번호 1) 내에서, 바람직하게는 헌팅턴 단백질의 N-말단을 인코딩하는 서열 (서열번호 2) 내에서 선택되며, 2) 더욱 바람직하게는, 상기 표적서열은 서열번호 3의 서열 내에서 선택된다.

"희소-절단 엔도뉴클레아제"는 DNA 또는 RNA 분자, 바람직하게는 DNA 분자 내에서 핵산 간의 결합을 가수분해 (절단)하는 것을 촉매할 수 있는 모든 야생형 또는 변종 효소를 의미한다. 희소-절단 엔도뉴클레아제는 매우 특이적이며, 10 내지 45 염기쌍 (bp) 길이, 바람직하게는 10 내지 35 염기쌍 길이의 범위를 갖는 핵산 표적 위치를 인식한다. 본 발명에 따른 엔도뉴클레아제는 "표적서열"로도 언급되는, 특이적인 폴리뉴클레오티드 서열을 인식하여 절단한다. 희소-절단 엔도뉴클레아제는 특이적인 폴리뉴클레오티드 서열에서 단일 또는 이중 가닥 절단을 인식하고 생성할 수 있다.

본 발명에 따른 희소-절단 엔도뉴클레아제는 Cas9 엔도뉴클레아제일 수 있다. 최근에, 타입 II 원핵생물 CRISPR (규칙적으로 분산된 다발성 단편 회문 반복) 적응 면역시스템 (리뷰를 위해 (Sorek, Lawrence et al. 2013)를 참고할 것)의 RNA-가이드된 Cas9 뉴클레아제 (Gasiunas, Barrangou et al. 2012; Jinek, Chylinski et al. 2012; Cong, Ran et al. 2013; Mali, Yang et al. 2013)에 기반하여 새로운 게놈 재조합 도구가 개발되었다. CRISPR 관련 (Cas) 시스템은 최초로 세균에서 바이러스성 또는 플라스미드 외래 DNA에 대한 방어수단으로써 발견되었다. CRISPR-매개 게놈 재조합은 우선 프로토-스페이서 인접 모티프 (PAM)라고 불리는 짧은 서열 모티프에 의하여 종종 플랭킹되는 표적서열의 선택에 의하여 수행된다. 표적서열 선택에 이어, 이러한 표적서열에 상보적인 특이적인 crRNA가 재조합설계된다. crRNA와 짝을 이루며, 제공된 Cas9 단백질에 결합된 CRISPR 타입 II 시스템에서 트랜스-활성 crRNA (tracrRNA)가 요구되었다. Cas9는 tracRNA를 cRNA와 염기쌍 결합시키는 것을 촉진하는 분자 앵커로 작용한다 (Deltcheva, Chylinski et al. 2011). 이러한 삼원 (ternary) 복합체에서, 이중 tracrRNA:crRNA 구조는 엔도뉴클레아제 Cas9를 관련 표적서열로 안내하는 가이드RNA로 작용한다. 본 발명에서, 가이드RNA는 반복서열에 인접한 영역을 포함하는 표적서열에 혼성화 결합할 수 있다. Cas9-tracrRNA:crRNA 복합체에 의한 표적인식은 표적서열과 crRNA 간의 표적서열 상동성 탐색에 의하여 개시된다. 표적서열-crRNA 상보성과 더불어, DNA 표적화는 프로토스페이서에 인접한 짧은 모티프 (프로토스페이서 인접 모티프- PAM)의 존재를 필요로 한다. 이중-RNA와 표적서열 간의 결합에 이어, Cas9은 연속적으로 PAM 모티프의 3 염기 위쪽의 무딘 (blunt) 이중 가닥 절단을 도입한다 (Garneau, Dupuis et al. 2010). 본 발명에 따라, 이중-RNA (가이드 RNA)와 반복서열에 인접한 영역을 포함하는 표적서열 간의 혼성화 결합에 이어, Cas9는 반복된 서열을 절단한다 (도 4 참고).

희소-절단 엔도뉴클레아제는 또한 메가뉴클레아제 (meganuclease)로도 알려진, 호밍엔도뉴클레아제 (homing endonuclease)일 수 있다. 이와 같은 호밍엔도뉴클레아제는 관련분야에 주지되어 있다 (Stoddard 2005). 호밍엔도뉴클레아제는 DNA 표적서열을 인식하여 단일 또는 이중 가닥 절단을 생성한다. 호밍엔도뉴클레아제는 매우 특이적이며, 12 내지 45 염기쌍 (bp) 길이, 통상적으로는 14 내지 40 bp 길이 범위에 이르는 DNA 표적 위치를 인식한다. 본 발명에 따르는 호밍엔도뉴클레아제는 예를 들어, LAGLIDADG 엔도뉴클레아제, HNH 엔도뉴클레아제, 또는 GIY-YIG 엔도뉴클레아제에 해당할 수 있다. 본 발명에 따른 바람직한 호밍엔도뉴클레아제는 I-CreI 변종일 수 있다. "변종" 엔도뉴클레아제, 즉 자연에 자연적으로 존재하지 않으며, 유전자 재조합 또는 랜덤 돌연변이유발에 의하여 생겨나는 엔도뉴클레아제는 야생형 엔도뉴클레아제에 의하여 인식되는 것과 상이한 DNA 서열에 결합할 수 있다 (국제출원 WO2006/097854를 참고할 것).

상기 희소-절단 엔도뉴클레아제는 모듈화된 DNA 결합 뉴클레아제 또는 키메릭 엔도뉴클레아제일 수 있다. 키메릭 엔도뉴클레아제 또는 모듈화된 DNA 결합 뉴클레아제는 적어도 하나의 엔도뉴클레아제의 활성 도메인 및 DNA 결합 도메인 또는 핵산 표적서열을 특정하는 단백질을 포함하는 모든 융합 단백질을 의미한다.

DNA 결합 도메인은 일반적으로 이중 또는 단일 사슬 폴리뉴클레오티드를 인식하는 적어도 하나의 모티프를 함유하는 독립적으로 접힌 폴리펩티드 단백질 도메인에 의하여 형성되는 RNA 또는 DNA-결합 도메인이다. 상기 핵산 결합 도메인은 바람직하게는 표적서열이라고 불리는 특이적인 핵산서열을 인식한다. 이러한 많은 폴리펩티드는 관련분야에서 특이적인 핵산서열에 결합할 수 있는 능력이 있는 것으로 알려져 있다. 이러한 결합 도메인은 종종 이에 한정되는 것은 아니나, 예를 들어, 헬릭스-턴-헬릭스 (helix-turn helix) 도메인, 류신 지퍼 (leucine zipper) 도메인, 윙드 헬릭스 (winged helix) 도메인, 헬릭스-루프-헬릭스 (helix-loop-helix) 도메인, HMG-박스 도메인, 면역글로불린 도메인, B3 도메인 또는 재조합설계된 징크핑거 (zinc finger) 도메인을 포함한다.

본 발명의 바람직한 구현 예에 따라, DNA 결합 도메인은 서열 특이성이 산토모나스 (Xanthomonas) 또는 랄스토니아 (Ralstonia) 세균성 단백질로부터 기원하는 일련의 33-35 아미노산 반복에 의하여 유도되는 전사 활성인자 유사 작용기 (Transcription Activator like Effector, TALE)로부터 유래된다. 이들 반복은 염기쌍과의 상호작용을 특정하는 두 개의 아미노산 위치에서 본질적으로 다르다 (Boch, Scholze et al. 2009; Moscou and Bogdanove 2009). DNA 표적 내에서 각각의 염기쌍은 (반복 가변성 디펩티드, RVD로 불리는) 반복의 두 개의 변종 아미노산으로부터 나오는 특이성을 갖는 단일 반복에 의하여 접촉된다. TALE 결합 도메인은 표적이 된 서열의 최초 티민 염기 (T ₀ )의 요구와 관련된 N-말단 전좌 (translocation) 도메인 및 핵 위치화 신호 (NLS)를 함유하는 C-말단 도메인을 더욱 포함할 수 있다. TALE 핵산 결합 도메인은 일반적으로 각각의 반복이 TALE 인식 위치의 각각의 뉴클레오티드 염기에 특이적인 RVD를 포함하는 다수의 TALE 반복서열을 포함하는 재조합설계된 코어 TALE 스캐폴드에 상응한다. 본 발명에 있어서, 상기 코어 스캐폴드의 각각의 TALE 반복서열은 30 내지 42개, 더욱 바람직하게는 33 또는 34개의 아미노산으로 구성되며, 여기서 위치 12 및 13에 위치한 (반복 가변성 디펩티드, RVD라고 불리는) 두 개의 중요한 아미노산이 상기 TALE 결합 위치 서열의 하나의 뉴클레오티드를 인식하는 것을 매개하고, 이는 두 개의 중요한 아미노산이 33 또는 34보다 더 긴 TALE 반복서열에서 특이적으로 12 및 13 이외의 다른 위치에 놓일 수 있다는 것과 실질적으로 동일하다. 바람직하게는, 상이한 뉴클레오티드의 인식에 관련된 RVDs는 C를 인식할 때는 HD, T를 인식할 때는 NG, A를 인식할 때는 NI, G 또는 A를 인식할 때는 NN이다. 다른 구현 예에 있어서, 중요한 아미노산 12 및 13은 뉴클레오티드 A, T, C 및 G에 대한 이들의 특이성을 모듈화하고, 특히 이러한 특이성을 향상시키기 위하여 다른 아미노산 잔기로 돌연변이 될 수 있다. 다른 두 개의 아미노산 잔기는 모든 스무 종류의 자연적인 아미노산 또는 비자연적인 아미노산 유도체를 의미한다.

TALE 핵산 결합 도메인은 일반적으로 8 내지 30 개의 TALE 반복서열을 포함한다. 더욱 바람직하게는, 본 발명의 상기 코어 스캐폴드는 8 내지 20개의 TALE 반복서열, 더욱더 바람직하게는 15개의 TALE 반복서열을 포함한다. 이는 또한, 상기 TALE 반복서열 세트의 C-말단에 위치한 20개의 아미노산으로 구성된 단일 절단된 추가적인 TALE 반복서열, 즉 추가적인 C-말단 TALE 반복서열을 포함할 수도 있다. 본 발명에 따른 TALE 핵산 결합 도메인은 바람직하게는 서열번호 4 및 서열번호 5로 이루어지는 군으로부터 선택된 핵산 서열을 포함한다. 다른 구현 예에 있어서, 상기 재조합설계된 TALE 결합 도메인은 서열번호 4 및 서열번호 5로 이루어지는 군으로부터 선택된 핵산 서열과 적어도 80%, 더욱 바람직하게는 90%, 더욱더 바람직하게는 95%의 동일성을 갖는 핵산 서열을 포함한다.

다른 재조합 DNA 결합 도메인은 모듈화된 염기-대-염기 특이적인 핵산 결합 도메인 (MBBBD) (PCT/US2013/051783)이다. 상기 MBBBD는 예를 들어, 새롭게 밝혀진 단백질, 즉 최근에 서열이 결정된 내생공생생물 곰팡이 부르크홀데리아 라이조시니카 (Burkholderia Rhizoxinica)의 게놈으로부터 유래된 AV36_BURRH, E5AW43_BURRH, E5AW45_BURRH 및 E5AW46_BURRH 단백질로부터 재조합설계될 수 있다 (Lackner, Moebius et al. 2011). MBBBD 단백질은 염기 특이적인 31 내지 33개의 아미노산의 모듈을 포함한다. 이러한 모듈은 더 많은 폴리펩티드 서열 다양성을 보이는 반면, 산토모나스 (Xanthomonas) TALE 일반 반복과 40% 미만의 서열 상동성을 나타낸다. 이들이 함께 결합 될 때, 이러한 모듈성 폴리펩티드는 산토모나스 TAL-뉴클레아제와 거의 유사한 방법으로 특이적인 핵산 서열을 표적으로 삼을 수 있다.

본 발명의 바람직한 구현 예에 따라, 상기 DNA 결합 도메인은 10 내지 30개의 모듈, 바람직하게는 16 내지 20개의 모듈을 포함하는 재조합설계된 MBBBD 결합 도메인이다. 부르크홀데리아 및 산토모나스로부터 유래된 상기 단백질 (모듈, N 및 C-말단)과 상이한 도메인은 특이적인 핵산 서열에 결합하는 특성을 갖는 새로운 단백질 또는 스캐폴드를 재조합설계하는 데 유용하다. 특히, 재조합 MBBBD의 추가적인 N-말단 및 C-말단 도메인은 이에 한정되는 것은 아니나, 예를 들어, 자연적인 TALE 유사 AvrBs3, PthXo1, AvrHah1, PthA, Tal1c로부터 유래될 수 있다.

"TALE-뉴클레아제" 또는 "MBBBD-뉴클레아제"는 엔도뉴클레아제 활성 도메인을 갖는, 전형적으로 전사 활성인자 유사 작용기 단백질 (TALE) 또는 MBBBD 결합 도메인으로부터 유래되는 DNA 결합 도메인의 융합으로 제조되는 재조합 단백질을 의미한다. 이러한 활성 도메인은 바람직하게는 뉴클레아제 도메인이며, 더욱 바람직하게는 예를 들어, I-TevI, ColE7, NucA 및 Fok-I와 같은 엔도뉴클레아제 활성을 갖는 도메인이다. 특정 구현 예에 있어서, 상기 뉴클레아제는 단량체 TALE-뉴클레아제 또는 MBBBD-뉴클레아제이다. 단량체 뉴클레아제는 특이적인 인식 및 절단을 위하여 재조합 DNA 결합 도메인과 WO2012138927에 기술된 I-TevI의 활성 도메인의 융합과 같은 이량체화가 요구되지 않는 뉴클레아제이다 (도 3 참고). 다른 구현 예에 있어서, 상기 희소-절단 엔도뉴클레아제는 이량체 TALE-뉴클레아제 또는 MBBBD-뉴클레아제이며, 바람직하게는 FokI에 융합된 DNA 결합 도메인을 포함한다 (도 1 참고). 상기 이량체 뉴클레아제는 이량체 뉴클레아제가 반복서열 내에서 절단 작용을 유발할 수 있도록, 상기 반복서열에 인접한 영역을 포함하는 표적서열에 결합할 수 있는 제1 DNA 결합 뉴클레아제와 상기 반복서열 내의 표적서열에 결합할 수 있는 제2 DNA 결합 뉴클레아제를 포함한다 (도 2 참고). TALE-뉴클레아제는 이미 기술되었으며, 유전자 표적화 및 유전자 변형을 자극하기 위하여 사용되어 왔다 (Boch, Scholze et al. 2009; Moscou and Bogdanove 2009; Christian, Cermak et al. 2010). 이러한 재조합 TALE-뉴클레아제는 상표명 TALEN™으로 상업적으로 구입 가능하다 (Cellectis, 8 rue de la Croix Jarry, 75013 Paris, France).

다른 관점에서, 본 발명은 여기에 개시된 희소-절단 엔도뉴클레아제, 바람직하게는 전술된 방법에 의하여 얻을 수 있는 희소-절단 엔도뉴클레아제에 관한 것이다. 바람직한 구현 예에 있어서, 본 발명은 서열번호 8, 10 및 15로 구성되는 군으로부터 선택되는 아미노산 서열과 적어도 70%, 바람직하게는 80%, 85%, 90%, 95% 상동성을 갖는 희소-절단 엔도뉴클레아제에 관한 것이다.

폴리뉴클레오티드, 벡터:

본 발명은 전술된 본 발명에 따른 희소-절단 엔도뉴클레아제를 인코딩하는 폴리뉴클레오티드, 벡터에 관한 것이다. 바람직한 구현 예에 있어서, 본 발명은 서열번호 9, 11 및 16으로 이루어진 군으로부터 선택되는 핵산 서열을 포함하는 폴리뉴클레오티드에 관한 것이다. 바람직한 구현 예에 있어서, 상기 폴리뉴클레오티드는 서열번호 9, 11 및 16으로 이루어진 군으로부터 선택되는 핵산 서열과 적어도 70%, 바람직하게는 적어도 80%, 더욱 바람직하게는 적어도 90 %, 95 %, 97 % 또는 99 %의 서열 상동성을 갖는다.

상기 폴리뉴클레오티드는 발현 카세트 또는 발현 벡터 (예를 들어, 세균 숙주세포로의 도입을 위한 플라스미드, 또는 곤충 숙주세포의 형질전환을 위한 바큘로바이러스 (baculovirus)와 같은 바이러스 벡터, 또는 포유동물 숙주세포를 위한 렌티바이러스 (lentivirus)와 같은 플라스미드 또는 바이러스 벡터)로 이루어질 수 있다.

특정 구현 예에 있어서, 상이한 핵산 서열이 하나의 폴리뉴클레오티드 또는 2A 펩티드를 인코딩하는 서열과 같은 리보솜 스킵 서열을 인코딩하는 핵산 서열을 포함하는 벡터 내에 포함될 수 있다. 피코르나바이러스의 아프타바이러스 (Aphthovirus) 서브그룹에서 발견된 A 펩티드는 코돈에 의해 인코딩되는 두 개의 아미노산 간에 펩티드결합을 형성하지 않고, 하나의 코돈으로부터 이웃한 곳으로 리보솜 "스킵"을 야기한다 (Donnelly and Elliott 2001; Donnelly, Luke et al. 2001; Atkins, Wills et al. 2007; Doronina, Wu et al. 2008를 참고할 것). "코돈"은 리보솜에 의하여 하나의 아미노산 잔기로 번역되는 mRNA 상의 (또는 DNA 분자의 센스 가닥 상의) 세 개의 뉴클레오티드를 의미한다. 따라서, 두 개의 폴리뉴클레오티드는 상기 폴리뉴클레오티드가 프레임 내에 위치한 2A 올리고펩티드에 의해 분리될 때, mRNA 내의 단일의 연속된 개방형 해독 틀 (open reading frame)로부터 합성될 수 있다. 이러한 리보솜 스킵 기전은 관련분야에서 주지되어 있으며, 단일 메신저 RNA에 의하여 인코딩되는 몇몇 단백질의 발현을 위한 몇몇 벡터에 의해 사용된다는 점이 알려져 있다.

통상의 기술자는 유전자 코드의 퇴행 (degeneracy)의 관점에서, 이러한 폴리뉴클레오티드 분자 중에서 가능한 서열 변이가 가능함을 인식할 것이다. 바람직하게는, 본 발명의 핵산 서열은 포유동물 세포, 바람직하게는 인간 세포 내에서 발현되기 위하여 코돈-최적화된다. 코돈-최적화는 이러한 종의 고 발현 유전자에서 일반적으로 빈번한 코돈에 의해 주어진 종의 고 발현 유전자에서 일반적으로 희귀한 관심 코돈의 서열 변화를 의미하며, 이러한 코돈은 변경될 코돈으로써 아미노산을 인코딩한다.

반복장애와 관련된 반복서열을 수축시키는 방법

다른 관점에서, 본 발명은 살아있는 세포 내에서 반복장애와 관련된 유전자서열 내의 반복서열을 수축시키는 방법에 관한 것이다. 이러한 방법은 (a) 반복서열에 인접한 영역을 포함하는 표적서열을 선택하는 단계; (b) 상기 표적서열에 결합하고 상기 반복서열을 절단할 수 있는 적어도 하나의 희소-절단 엔도뉴클레아제를 제공하는 단계; (c) 상기 희소-절단 엔도뉴클레아제를 상기 세포 내로 도입하는 단계; 및 (d) 상기 희소-절단 엔도뉴클레아제가 반복서열을 절단하고 상기 반복서열의 수축을 수행하는 회복과정을 유도하도록 상기 희소-절단 엔도뉴클레아제를 상기 유전자서열과 접촉시키는 단계;를 포함한다. 바람직한 구현 예에 있어서, 상기 회복과정은 단일 가닥 어닐링 (SSA)이다. 단일 가닥 어닐링 (SSA)은 동일한 방향을 향하는 두 개의 반복된 서열 간에 절단이 발생할 때 개시되는 과정이다. 단일 가닥 영역은 상보적인 가닥이 서로 어닐링 될 수 있도록 반복된 서열에 확장된 절단에 인접하여 발생한다. 이와 같은 어닐링된 중간체는 단일 가닥 고리를 없애버리고, 갭을 어닐링 과정으로 채움으로써 가공될 수 있다. 특정 구현 예에 있어서, 상기 방법은 세포 내에서 본 발명에 따른 표적서열에 결합할 수 있는 희소-절단 엔도뉴클레아제의 발현을 포함한다. 다른 특정 구현 예에 있어서, 상기 방법은 전술된 희소-절단 엔도뉴클레아제를 인코딩하는 적어도 하나의 폴리뉴클레오티드를 갖는 상기 세포를 형질전환시키는 단계와 상기 폴리뉴클레오티드를 상기 세포 내에서 발현시키는 단계를 포함한다.

전술된 방법은 희소-절단 엔도뉴클레아제를 세포 내로 도입하는 단계를 수반한다. 이에 한정되는 것은 아니나, 예를 들어, 상기 희소-절단 엔도뉴클레아제는 하나의 플라스미드 벡터에 의하여 인코딩되는 이식유전자 (transgenes)로서 도입될 수 있다. 상기 플라스미드 벡터는 또한 상기 벡터가 수용된 세포의 식별 및/또는 선별을 제공하는 선별 마커를 포함한다.

폴리뉴클레오티드는 세포 내에서 상기 폴리펩티드를 인코딩하는 폴리뉴클레오티드를 도입하여 세포 내에서 제 위치 (in situ) 합성될 수 있다. 선택적으로, 상기 폴리펩티드는 세포 밖에서 합성될 수 있었으며, 그 후 거기로 도입될 수 있었다. 폴리뉴클레오티드 구축체를 세포 내로 도입하는 방법은, 이에 한정되는 것은 아니나, 예를 들어 폴리뉴클레오티드 구축체가 세포의 게놈 내로 통합되는 형질전환 방법, 상기 폴리뉴클레오티드 구축체가 세포의 게놈 내로 통합되지 않는 일시적 형질전환 방법 및 바이러스 매개 방법과 같이 관련분야에 알려져 있다. 상기 폴리뉴클레오티드는 예를 들어, 재조합 바이러스 벡터 (예를 들어, 레트로바이러스, 아데노바이러스), 리포좀 등에 의하여 세포 내로 도입될 수 있다. 예를 들어, 일시적 형질전환 방법은 예를 들어 미세주입법, 전기천공법 또는 입자 충격 (particle bombardment)를 포함한다. 상기 폴리뉴클레오티드는 세포 내에서 발현되는 관점에서 벡터, 더욱 바람직하게는 플라스미드 또는 바이러스에 포함될 수 있다.

본 발명은 또한 에 위의 단락에서 기술된 방법에 의하여 획득될 수 있는 분리된 세포 또는 세포주에 관한 것이다. 특히, 상기 분리된 세포는 전술된 적어도 하나의 희소-절단 엔도뉴클레아제를 포함한다. 다른 구현 예에서, 상기 분리된 세포는 감소된 반복 확장된 서열을 포함한다. 바람직한 구현 예에 있어서, 상기 분리된 세포는 포유동물 세포이다.

응용

다른 관점에서, 본 발명에 따른 상기 희소-절단 엔도뉴클레아제는 불안정한 반복의 확장에 의해 야기되는 질병을 치료하거나 예방하기 위하여 사용될 수 있으며, 이에 한정되는 것은 아니나 이러한 질병의 예시로, 취약 X 증후군 (FRAXA), 취약 XE 증후군 (FRAXE), Friedreich 운동실조 (FRDA), 근긴장성디스트로피 (DM1), 취약 X-관련 트레머 운동실조 증후군 (FXTAS), 척수 및 안구 근육 위축증 (SBMA), 헌팅턴병 (HD), 척수소뇌실조증 운동실조 (spinocerebellar ataxia) 타입 1, 소뇌중뇌-대뇌기저핵 (dentatorubal-pallidoluysian) 위축증, 마카도-요셉 (Machado-Joseph) 질병, 척수소뇌실조증 운동실조 2, 척수소뇌실조증 운동실조 6 및 척수소뇌실조증 운동실조 7과 같은 CAG 반복 확장 질병을 들 수 있다. 본 발명의 상기 희소-절단 엔도뉴클레아제는 바람직하게는 헌팅턴병에 사용된다. 상기 희소-절단 엔도뉴클레아제는 예를 들어 바이러스 벡터를 이용하여 (생체 내에서) 대상체에 직접적으로 투여될 수 있다. 상기 희소-절단 엔도뉴클레아제는 (예를 들어, 정맥 내, 복강 내, 근육 내, 피하, 또는 두개 내 주입으로) 전신 투여되거나 또는 국소 처리법 (topical application)으로 투여될 수 있다. 선택적으로, 상기 희소-절단 엔도뉴클레아제는 세포를 시험관 내에서 치료하기 위하여 사용될 수 있으며, 그 후, 일반적으로 삽입된 벡터를 갖는 세포를 선별한 후, 변형된 세포는 대상체로 투여된다 (생체 외).

본 발명은 또한 반복서열에 특이적인 본 발명에 따른 희소-절단 엔도뉴클레아제를 포함하는 약제학적 조성물에 관한 것이다. 본 발명에 따른 약제학적 조성물은 세포 내의 특이적인 반복서열을 수축시키기 위하여 사용될 수 있다. 투여되는 특정 조성물, 및 상기 조성물을 투여하는 데 사용되는 특정 방법에 의하여 약제학적으로 허용가능한 담체가 부분적으로 결정된다. 따라서, 사용 가능한 약제학적 조성물의 적절한 제형의 범위는 매우 넓은 다양성을 갖는다.

본 발명의 방법 및 조성물은 또한 예를 들어, 반복장애를 갖는 동물모델과 같은 생체 내 및 시험관 내 모델의 설계 및 구현에 유용하며, 이는 이러한 장애의 연구를 가능케 한다. 시험관 내 모델의 예시로는 이에 한정되는 것은 아니나, 섬유아세포를 포함하는 모든 개체의 세포 또는 세포주를 들 수 있다. 적절한 동물에 대한 예시로는 이에 한정되는 것은 아니나, 무척추동물 (C. elegans, drsophilia), 설치류 (예를 들어, 래트 또는 생쥐), 영장류 (예를 들어, 인간이 아닌 영장류)를 들 수 있다.

정의

전술된 내용에 있어서, 몇몇 용어가 집중적으로 사용된다. 하기 정의는 본 구현 예가 더욱 쉽게 이해되도록 제공된다.

여기에 사용된 "한" 또는 "하나의"는 하나 또는 하나 이상을 의미한다.

여기에 사용된 용어 "약"은 특정 값을 결정하기 위하여 적용된 방법상의 실수의 본질적인 변이, 또는 실험에 존재하는 변이를 포함하는 값을 나타낸다.

- 폴리펩티드 서열의 아미노산 잔기는 하나의 문자 코드에 따라 표현되었으며, 예를 들어, Q는 Gln 또는 글루타민 잔기를 의미하고, R은 Arg 또는 아르기닌 잔기를 의미하며 D는 Asp 또는 아스파르트산 잔기를 의미한다.

- 아미노산 치환은 하나의 아미노산 잔기를 다른 것으로 교체하는 것을 의미하며, 예를 들어 펩티드 서열 내에서 아르기닌 잔기를 글루타민 잔기로 교체하는 것이 아미노산 치환이다.

- 뉴클레오티드는 다음과 같이 표현된다: 하나의 문자 코드가 뉴클레오티드의 염기를 나타내기 위하여 사용되며, a는 아데닌, t는 티민, c는 시토신이고, g는 구아닌이다. 퇴화된 뉴클레오티드와 관련하여, r은 g 또는 a (퓨린 뉴클레오티드)를 나타내고, k는 g 또는 t, s는 g 또는 c, w는 a 또는 t, m은 a 또는 c, y는 t 또는 c (피리미딘 뉴클레오티드), d는 g, a 또는 t, v는 g, a 또는 c, b는 g, t 또는 c, h는 a, t 또는 c를 나타내고, n은 g, a, t 또는 c를 나타낸다.

- 여기에 사용된 "핵산" 또는 "핵산 분자"는 뉴클레오티드 및/또는 디옥시리보핵산 (DNA) 또는 리보핵산 (RNA), 올리고뉴클레오티드, 중합효소 연쇄반응 (PCR)에 의하여 생성된 단편, 및 모든 결합, 절단, 엔도뉴클레아제 작용, 및 엑소뉴클레아제 작용에 의하여 생성된 단편과 같은 폴리뉴클레오티드를 나타낸다. 핵산 분자는 자연적으로 발생하는 (DNA 및 RNA와 같은) 뉴클레오티드인 단량체, 또는 자연적으로 발생하는 뉴클레오티드 (예를 들어, 자연적으로 발생하는 뉴클레오티드의 거울상체)인 단량체, 또는 이들의 조합으로 구성될 수 있다. 변형된 뉴클레오티드는 설탕 모이티 및/또는 피리미딘 또는 퓨린 염기 모이티에서 변경을 수반할 수 있다. 예를 들어, 설탕 변형은 하나 이상의 히드록시기가 할로겐, 알킬기, 아민, 및 아지도기로 치환된 것을 포함하며, 설탕은 에테르 또는 에스터로 기능화될 수 있다. 또한, 전체 설탕 모이티는 아자-설탕 및 카르복실 설탕 유사체와 같은 구조적 및 전기적으로 유사한 구조로 치환될 수 있다. 염기 모이티에서의 변형의 예시로 알킬화된 퓨린 및 피리미딘, 알킬화된 퓨린 또는 피리미딘, 또는 기타 잘 알려진 헤테로사이클릭 치환체를 들 수 있다. 핵산 단량체는 포스포디에스터 결합 또는 이러한 결합과 유사한 것에 의하여 연결될 수 있다. 핵산은 단일 가닥 또는 이중 가닥일 수 있다.

- "유전자"는 염색체 상에 선형으로 배열된 DNA 분절로 구성되며, 특정 단백질 또는 단백질 절편을 암호화하는 유전의 기본 단위를 의미한다. 유전자는 전형적으로 프로모터, 5' 비번역 영역, 하나 이상의 암호화 서열 (엑손), 선택적으로 인트로, 3' 비번역 영역을 포함한다. 유전자는 종결자, 엔헨서 및/또는 사일렌서를 더욱 포함할 수 있다.

- 용어 "절단"은 폴리뉴클레오티드 공유결합 골격의 절단을 의미한다. 절단은 이에 한정되는 것은 아니나, 포스포디에스터 본드의 효소적 또는 화학적 가수분해를 포함하는 다양한 방법에 의하여 개시될 수 있다. 단일 사슬 절단 및 이중 사슬 절단 모두 가능하며, 이중 사슬 절단은 두 개의 상이한 단일 사슬 절단 과정의 결과로 나타난다. 이중 사슬 DNA, RNA, 또는 DNA/RNA 하이브리드 절단은 무딘 말단 또는 엇갈린 말단 모두를 야기할 수 있다.

- "활성 도메인"은 단백질 도메인 또는 효소의 활성 부위를 포함하는 효소의 모듈을 의미하며, 활성 부위는 기질의 촉매작용이 일어나는 효소의 부분을 의미한다. 효소와 이들의 활성 도메인은 이들이 촉매하는 반응에 따라 분류되고 명명된다. 효소 위원회 번호 (EC 번호)는 이들이 촉매하는 화학적 반응에 기초하여, 효소에 대한 10 계획의 숫자적인 분류이다.

- 본 발명에 따라, "동일한"은 아미노산의 최초 서열의 관점에서, 상기 최초의 아미노산 서열과 적어도 60% 또는 적어도 70%, 적어도 80%, 적어도 85%, 적어도 90%, 적어도 95%, 적어도 98%, 적어도 99% 상동성을 갖고, 유사한 생물학적 활성을 갖는 모든 아미노산 서열을 의미한다.

서열 상동성은 관련 분야의 통상의 기술자에 의하여 일반적으로 사용되는 방법에 의하여 결정될 수 있다. FASTA, 또는 GCG 서열 분석 패키지의 일부로 사용가능한 BLAST (University of Wisconsin, Madison, Wis.)를 포함하는 다양한 정렬 알고리즘 및/또는 프로그램이 두 서열 간의 동일성을 계산하기 위하여 사용될 수 있으며, 예를 들어 디폴트 세팅으로 사용될 수 있다.

- "동일성"은 두 개의 핵산 분자 또는 폴리펩티드 간의 동일성을 의미한다. 동일성은 비교를 위한 목적으로 정렬될 수 있는 각 서열 내에서 위치를 비교함으로써 결정될 수 있다. 비교 서열 내의 위치에 동일한 염기가 존재할 때, 그 분자는 그 위치에서 동일하다. 핵산 또는 아미노산 서열 간의 유사도 또는 동일성의 정도는 핵산 서열에 의하여 공유되는 위치에서 동일하거나 상응하는 뉴클레오티드의 숫자의 함수이다. FASTA, 또는 GCG 서열 분석 패키지의 일부로 사용가능한 BLAST (University of Wisconsin, Madison, Wis.)를 포함하는 다양한 정렬 알고리즘 및/또는 프로그램이 두 서열 간의 동일성을 계산하기 위하여 사용될 수 있으며, 예를 들어 디폴트 세팅으로 사용될 수 있다.

- "혼성화 서열"은 표준적인 낮은 엄격성 조건 하에서, 하나의 다른 올리고뉴클레오티드에 혼성화결합할 수 있는 올리고뉴클레오티드의 서열일부를 의미한다. 이러한 조건은 예를 들어, (25% 포름아미드, 4x SSC, 50 mM NaH2PO4 / Na2HPO4 버퍼; pH 7.0,5x Denhardt's, 1 mM EDTA,1 mg/ml DNA + 20 내지 200 ng/ml의 사용될 프로브 (약 20 - 200 ng/ml))를 함유하는 버퍼를 사용하여 실온에서 2사간 동안의 조건일 수 있다. 이는 문헌에 기재된 바와 같이, 실온에서 서열 내의 상보성 염기의 숫자 및 GC 함량을 이용하여 혼성화에 의한 표준 계산법에 의하여 예측될 수도 있다. 우선적으로, 혼성화 서열은 가닥 간의 왓슨-크릭 염기쌍, 즉, 아데닌과 티민 (AT) 뉴클레오티드 및 구아닌과 시토신 (GC) 뉴클레오티드 간의 본래의 염기쌍에 기반한 두 개의 핵산 가닥 간의 상보성에 따라, 서로에 상보적이다. 왓슨-크릭 염기쌍과 동일한 정확한 염기쌍은 표준 및 변형된 뉴클레오시드 간 의 염기쌍 및 변형된 뉴클레오시드 간의 염기쌍을 포함하며, 변형된 뉴클레오시드는 왓슨-크릭 짝짓기에 따라 적절한 표준 뉴클레오시드로 치환될 수 있다. 단일 사슬 올리고뉴클레오티드의 상보적 서열은 반응 조건 하에서 두 개의 단일 사슬 올리고뉴클레오티드 간의 특이적이고 안정한 혼성화결합을 지지할 수 있는 모든 길이일 수 있다.

- "운반 벡터" 또는 "운반 벡터들"은 본 발명에서 세포 접촉 (즉, "접촉시키는 단계")에 사용될 수 있는 모든 운반 벡터 또는 본 발명에서 요구되는 세포 내부 운반 또는 서브세포 구획 제재/화학물질 및 분자 (단백질 또는 핵산)를 의미한다. 이는 이에 한정되는 것은 아니나, 리포좀 운반 벡터, 바이러스 운반 벡터, 약물 운반 벡터, 화학물질 담체, 폴리머 담체, 리포플렉스, 폴리플렉스, 덴드리머, 미세버블 (초음파 콘트라스트제), 나노입자, 에멀젼 또는 기타 적절한 운반 벡터를 포함한다. 이러한 운반 벡터는 분자, 화학물질, 거대분자 (유전자, 단백질), 또는 기타 플라스미드, Diatos에 의해 개발된 펩티드와 같은 벡터의 운반을 가능하게 한다. 이들의 경우, 운반 벡터는 분자 담체이다. "운반 벡터" 또는 "운반 벡터들"은 형질감염을 수행하기 위한 운반 방법을 의미하기도 한다.

- 용어 "벡터" 또는 "벡터들"은 연결된 다른 핵산 분자를 운반할 수 있는 핵산 분자를 의미한다. 본 발명에서 "벡터"는 이에 한정되는 것은 아니나, 바이러스 벡터, 플라스미드, RNA 벡터 또는 염색체, 비염색체, 반-합성 또는 합성 핵산을 구성할 수 있는 선형 또는 원형 DNA 또는 RNA 분자를 포함한다. 바람직한 벡터는 자가 복제 (에피솜 벡터) 및/또는 결합된 핵산의 발현 (발현 벡터)이 가능한 것들이다. 많은 적절한 벡터가 통상의 기술자에게 알려져 있으며 상업적으로 구입가능하다.

- 바이러스 벡터는 레트로바이러스, 아데노바이러스, 파보바이러스 (예를 들어, 아데노-연관 바이러스), 코로나바이러스, 오소-믹소바이러스 (예를 들어, 인플루엔자 바이러스)와 같은 음성 가닥 RNA 바이러스, 라도바이러스 (예를 들어, 광견병 및 소낭성 구내염 바이러스), 파라-믹소바이러스 (예를 들어, 홍역 및 센다이), 피코르나바이러스 및 알파바이러스와 같은 양성 가닥 RNA 바이러스, 아데노바이러스, 헤르페즈바이러스 (예를 들어, 헤르페즈 심플렉스 바이러스 타입 1 및 2, 엡스타인-바 바이러스, 사이토메갈로바이러스)와 같은 이중-가닥 DNA 바이러스, 및 수두바이러스 (예를 들어, 바시니아, 계두 및 카나리아두창)를 포함한다. 기타 바이러스로는 예를 들어, 노르워크 바이러스, 토가바이러스, 플라비바이러스, 레오바이러스, 파포바이러스, 헤파드나바이러스, 및 간염 바이러스가 포함된다. 레트로바이러스의 예시로는 조류 백혈병-육종, 포유동물 C-형, B-형 바이러스, D 형 바이러스, HTLV-BLV 그룹, 렌티-바이러스, 스푸마바이러스가 포함된다 (Coffin, JM, Retroviridae: The viruses and their replication, In Fundamental Virology, Third Edition, BN Fields, et al., Eds., Lippincott-Raven Publishers, Philadelphia, 1996).

- 세포 또는 세포들은 시험관 내 배양을 위한 개체로부터 유래된 모든 원핵 또는 진핵의 살아있는 세포, 세포주, 동물 또는 식물로부터 유래된 일차 세포를 의미한다.

- "일차 세포" 또는 "일차 세포들"은 살아있는 조직 (즉, 생검 물질)으로부터 직접 추출되어 시험관 내에서 성장할 수 있도록 구축되고, 집단 증식이 미약한 세포를 의미하며, 이들은 연속적인 종양성 또는 인공적으로 불멸화된 세포주에 비하여, 주요 기능적 구성 및 이들이 유래된 조직의 특성을 더욱 대표한다. 따라서, 이들 세포는 이들이 관련된 생체 내 상태에 대한 더욱 가치있는 모델을 나타낸다.

본 발명의 범주에서, "진핵 세포"는 아래 열거되고 시험관 내 배양을 위하여 구축된 개체로부터 유래된 곰팡이, 식물 또는 동물 세포 또는 세포주를 나타낸다.

더욱 바람직하게, 상기 동물 세포는 사람, 쥐 (Rattus), 무스 (Mus), 서스 (Sus), 보스 (Bos), 다니오 (Danio), 개 (Canis), 고양이 (Felis), 말 (Equus), 살모 (Salmo), 연어 (Oncorhynchus), 갈루스 (Gallus), 호로새 (Meleagris), 초파리 (Drosophila), 선충 (Caenorhabditis) 속이며; 더욱 바람직하게는, 상기 동물 세포는 호모 사피엔스 (Homo sapiens), 시궁쥐 (Rattus norvegicus), 생쥐 (Mus musculus), 미니 돼지 (Sus scrofa), 소 (Bos taurus), 다니오 레리오 (Danio rerio), 늑대 (Canis lupus), 고양이 (Felis catus), 말 (Equus caballus), 살모 살라 (Salmo salar), 연어 (Oncorhynchus mykiss), 닭 (Gallus gallus), 칠면조 (Meleagris gallopavo), 노랑초파리 (Drosophila melanogaster), 예쁜 꼬마선충 (Caenorhabditis elegans) 종이다.

본 발명에서, 상기 세포는 시험관 내 배양을 위한 이들 개체로부터 유래된 포유동물 세포, 어류 세포, 곤충 세포 또는 세포주 또는 살아있는 조직으로부터 직접적으로 추출되고, 시험관 내 배양을 위하여 구축된 일차 세포일 수 있다. 이에 한정되는 것은 아니나, 세포주는 예를 들어 CHO-K1 세포; HEK293 세포; Caco2 세포; U2-OS 세포; NIH 3T3 세포; NSO 세포; SP2 세포; CHO-S 세포; DG44 세포; K-562 세포, U-937 세포; MRC5 세포; IMR90 세포; Jurkat 세포; HepG2 세포; HeLa 세포; HT-1080 세포; HCT-116 세포; Hu-h7 세포; Huvec 세포; Molt 4 세포로 이루어진 군으로부터 선택될 수 있다. 줄기 세포 및 만능 줄기 세포 (iPS)는 본 발명의 범주에 포함된다.

이들 세포주는 모두 세포주 모델을 제공하기 위하여 본 발명의 방법에 의하여 변형될 수 있다.

- 여기서 사용된 용어 "대상체"는 비인간 영장류 및 인간을 포함하는 동물계의 모든 구성원을 포함한다.

실시 예:

TALE 골격에서 RVD 배열 집단의 클로닝

실험에 사용된 두 개의 TALE 골격 (pCLS9303 및 pCLS9312, 서열번호 4 및 5)은 C-말단과 N-말단 도메인 사이에 두 개의 BsmBI 절단 위치를 포함한다. 반복된 삼중뉴클레오티드 (서열번호 6 내지 7)를 플랭킹하는 영역을 표적으로 하는 개별적인 반복 배열을 수용 플라스미드를 위한 타입 IIs 제한효소 BsmBI, 삽입된 RVD 배열을 위한 BbvI 및 SfaNI를 이용하여 pCLS9303에서 서브클론하였으며, 이에 따라 pCLS9984 및 pCLS16715 (서열번호 9 암호화된 서열번호 8 및 서열번호 11 암호화된 서열번호 10)을 얻었다. 삼중뉴클레오티드 (서열번호 14)를 표적으로 하는 개별적인 반복 배열을 수용 플라스미드를 위한 타입 IIs 제한효소 BsmBI과 삽입된 RVD 배열을 위한 BbvI 및 SfaNI를 이용하여 pCLS9312에서 서브클론하였으며, 이에 따라 pCLS9996 (서열번호 16 암호화된 서열번호 15)을 얻었다. 각각의 개별 클론의 단일클론성 DNA 서열을 DNA 서열분석에 의하여 평가하였다.

효모에서의 TALE-뉴클레아제 활성

TALEN™ DNA 표적서열을 포함하는 두 개의 효모 표적 리포터 플라스미드를 전술한 바에 따라 구축하였다 (국제 PCT 출원 WO 2004/067736 및 Epinat, Arnould et al. 2003; Chames, Epinat et al. 2005; Arnould, Chames et al. 2006; Smith, Grizot et al. 2006). TALEN™ 쌍 (pCLS9984/pCLS9996 및 pCLS16715/pCLS9996)을 37℃ 및 30℃에서 전술된 (International PCT Applications WO 2004/067736 and in (Epinat, Arnould et al. 2003; Chames, Epinat et al. 2005; Arnould, Chames et al. 2006; Smith, Grizot et al. 2006) 우리의 효모 SSA 분석에서 두 개의 표적 (서열번호 12 내지 13, 표 1)상에서 테스트하였다. 효모 내에서 그들의 표적에 대한 TALEN™ 절단 활성 수준이 표 2에 나타나 있다.

이름	서열
TiFLAN	TCTCAAGATTTCGCTGCAGCAGCAGCAGCAGCAGCAGCAGCAGCAGCAGCAGCAGCAGCAGCAGCAGCA
TiFLAN2_T01.1	TGTGATCCCCCCAGCAGCAGCAGCAGCAGCAGCAGCAGCAGCAGCA

표 1: TALEN 쌍에 의하여 표적화되는 서열 목록. 반복서열을 플랭킹하는 TALEN™ (위치 T0가 생략됨)에 의하여 표적화되는 16개의 염기쌍 서열이 밀줄로 표시되어 있다.

37℃에서	pCLS9984/pCLS9996	pCLS16715/pCLS9996
TiFLAN	＋＋＋	－
TiFLAN2_T01.1	＋	＋＋＋
30℃에서	pCLS9984/pCLS9996	pCLS16715/pCLS9996
TiFLAN	＋＋＋	－
TiFLAN2_T01.1	－	＋＋

표 2: 37℃ 및 30℃에서 전술된 (국제 PCT 출원 WO 2004/067736 및 (Epinat, Arnould et al. 2003; Chames, Epinat et al. 2005; Arnould, Chames et al. 2006; Smith, Grizot et al. 2006; Smith, Grizot et al. 2006) 효모 SSA 분석에서의 TALEN™의 활성. －는 검출가능한 활성이 없음을 나타내며, ＋는 약한 활성을 나타내고, ＋＋는 높은 활성을 나타낸다. na는 사용가능한 데이터가 없음을 나타낸다.

참고문헌

Arnould, S., P. Chames, et al. (2006). "Engineering of large numbers of highly specific homing endonucleases that induce recombination on novel DNA targets." J Mol Biol 355(3): 443-58.

Atkins, JF, NM Wills, et al. (2007). "A case for "StopGo": reprogramming translation to augment codon meaning of GGN by promoting unconventional termination (Stop) after addition of glycine and then allowing continued translation (Go)." Rna 13(6): 803-10.

Boch, J., H. Scholze, et al. (2009). "Breaking the code of DNA binding specificity of TAL-type III effectors." Science 326(5959): 1509-12.

Caplen, NJ, JP Taylor, et al. (2002). "Rescue of polyglutamine-mediated cytotoxicity by double-stranded RNA-mediated RNA interference." Hum Mol Genet 11(2): 175-84.

Chames, P., JC Epinat, et al. (2005). "In vivo selection of engineered homing endonucleases using double-strand break induced homologous recombination." Nucleic Acids Res 33(20): e178.

Christian, M., T. Cermak, et al. (2010). "Targeting DNA double-strand breaks with TAL effector nucleases." Genetics 186(2): 757-61.

Cong, L., FA Ran, et al. (2013). "Multiplex genome engineering using CRISPR/Cas systems." Science 339(6121): 819-23.

DeJesus-Hernandez, M., IR Mackenzie, et al. (2011). "Expanded GGGGCC hexanucleotide repeat in noncoding region of C9ORF72 causes chromosome 9p-linked FTD and ALS." Neuron 72(2): 245-56.

Deltcheva, E., K. Chylinski, et al. (2011). "CRISPR RNA maturation by trans-encoded small RNA and host factor RNase III." Nature 471(7340): 602-7.

DiFiglia, M., M. Sena-Esteves, et al. (2007). "Therapeutic silencing of mutant huntingtin with siRNA attenuates striatal and cortical neuropathology and behavioral deficits." Proc Natl Acad Sci USA 104(43): 17204-9.

Donnelly, M. and G. Elliott (2001). "Nuclear localization and shuttling of herpes simplex virus tegument protein VP13/14." J Virol 75(6): 2566-74.

Donnelly, ML, G. Luke, et al. (2001). "Analysis of the aphthovirus 2A/2B polyprotein 'cleavage' mechanism indicates not a proteolytic reaction, but a novel translational effect: a putative ribosomal 'skip'." J Gen Virol 82(Pt 5): 1013-25.

Doronina, VA, C. Wu, et al. (2008). "Site-specific release of nascent chains from ribosomes at a sense codon." Mol Cell Biol 28(13): 4227-39.

Dragatsis, I., MS Levine, et al. (2000). "Inactivation of Hdh in the brain and testis results in progressive neurodegeneration and sterility in mice." Nat Genet 26(3): 300-6.

Duyao, MP, AB Auerbach, et al. (1995). "Inactivation of the mouse Huntington's disease gene homolog Hdh." Science 269(5222): 407-10.

Epinat, JC, S. Arnould, et al. (2003). "A novel engineered meganuclease induces homologous recombination in yeast and mammalian cells." Nucleic Acids Res 31(11): 2952-62.

Garneau, JE, ME Dupuis, et al. (2010). "The CRISPR/Cas bacterial immune system cleaves bacteriophage and plasmid DNA." Nature 468(7320): 67-71.

Garriga-Canut, M., C. Agustin-Pavon, et al. "Synthetic zinc finger repressors reduce mutant huntingtin expression in the brain of R6/2 mice." Proc Natl Acad Sci USA 109(45): E3136-45.

Gasiunas, G., R. Barrangou, et al. (2012). "Cas9-crRNA ribonucleoprotein complex mediates specific DNA cleavage for adaptive immunity in bacteria." Proc Natl Acad Sci USA 109(39): E2579-86.

Jinek, M., K. Chylinski, et al. (2012). "A programmable dual-RNA-guided DNA endonuclease in adaptive bacterial immunity." Science 337(6096): 816-21.

Lackner, G., N. Moebius, et al. (2011). "Complete genome sequence of Burkholderia rhizoxinica, an Endosymbiont of Rhizopus microsporus." J Bacteriol 193(3): 783-4.

Machida, Y., T. Okada, et al. (2006). "rAAV-mediated shRNA ameliorated neuropathology in Huntington disease model mouse." Biochem Biophys Res Commun 343(1): 190-7.

Mali, P., L. Yang, et al. (2013). "RNA-guided human genome engineering via Cas9." Science 339(6121): 823-6.

Mirkin, SM (2007). "Expandable DNA repeats and human disease." Nature 447(7147): 932-40.

Moscou, MJ and AJ Bogdanove (2009). "A simple cipher governs DNA recognition by TAL effectors." Science 326(5959): 1501.

Nelson, DL, HT Orr, et al. (2013). "The unstable repeats--three evolving faces of neurological disease." Neuron 77(5): 825-43.

Orr, HT and HY Zoghbi (2007). "trinucleotide repeat disorders." Annu Rev Neurosci 30: 575-621.

Renton, AE, E. Majounie, et al. (2011). "A hexanucleotide repeat expansion in C9ORF72 is the cause of chromosome 9p21-linked ALS-FTD." Neuron 72(2): 257-68.

Richard, GF, B. Dujon, et al. (1999). "Double-strand break repair can lead to high frequencies of deletions within short CAG/CTG trinucleotide repeats." Mol Gen Genet 261(4-5): 871-82.

Smith, J., S. Grizot, et al. (2006). "A combinatorial approach to create artificial homing endonucleases cleaving chosen sequences." Nucleic Acids Res 34(22): e149.

Smith, J., S. Grizot, et al. (2006). "A combinatorial approach to create artificial homing endonucleases cleaving chosen sequences." Nucleic Acids Res.

Sorek, R., CM Lawrence, et al. (2013). "CRISPR-mediated Adaptive Immune Systems in Bacteria and Archaea." Annu Rev Biochem.

Stoddard, BL (2005). "Homing endonuclease structure and function." Q Rev Biophys 38(1): 49-95.

Wang, YL, W. Liu, et al. (2005). "Clinico-pathological rescue of a model mouse of Huntington's disease by siRNA." Neurosci Res 53(3): 241-9.

SEQUENCE LISTING <110> Cellectis <120> DESIGN OF RARE-CUTTING ENDONUCLEASES FOR EFFICIENT AND SPECIFIC TARGETING DNA SEQUENCES COMPRISING HIGHLY REPETITIVE MOTIVES <130> P81313675PCT00 <160> 16 <170> patentIn version 3.5 <210> 1 <211> 13481 <212> DNA <213> Homo sapiens <220> <223> huntingtin (HTT) mRNA <400> 1 gctgccggga cgggtccaag atggacggcc gctcaggttc tgcttttacc tgcggcccag 60 agccccattc attgccccgg tgctgagcgg cgccgcgagt cggcccgagg cctccgggga 120 ctgccgtgcc gggcgggaga ccgccatggc gaccctggaa aagctgatga aggccttcga 180 gtccctcaag tccttccagc agcagcagca gcagcagcag cagcagcagc agcagcagca 240 gcagcagcag cagcagcagc aacagccgcc accgccgccg ccgccgccgc cgcctcctca 300 gcttcctcag ccgccgccgc aggcacagcc gctgctgcct cagccgcagc cgcccccgcc 360 gccgcccccg ccgccacccg gcccggctgt ggctgaggag ccgctgcacc gaccaaagaa 420 agaactttca gctaccaaga aagaccgtgt gaatcattgt ctgacaatat gtgaaaacat 480 agtggcacag tctgtcagaa attctccaga atttcagaaa cttctgggca tcgctatgga 540 actttttctg ctgtgcagtg atgacgcaga gtcagatgtc aggatggtgg ctgacgaatg 600 cctcaacaaa gttatcaaag ctttgatgga ttctaatctt ccaaggttac agctcgagct 660 ctataaggaa attaaaaaga atggtgcccc tcggagtttg cgtgctgccc tgtggaggtt 720 tgctgagctg gctcacctgg ttcggcctca gaaatgcagg ccttacctgg tgaaccttct 780 gccgtgcctg actcgaacaa gcaagagacc cgaagaatca gtccaggaga ccttggctgc 840 agctgttccc aaaattatgg cttcttttgg caattttgca aatgacaatg aaattaaggt 900 tttgttaaag gccttcatag cgaacctgaa gtcaagctcc cccaccattc ggcggacagc 960 ggctggatca gcagtgagca tctgccagca ctcaagaagg acacaatatt tctatagttg 1020 gctactaaat gtgctcttag gcttactcgt tcctgtcgag gatgaacact ccactctgct 1080 gattcttggc gtgctgctca ccctgaggta tttggtgccc ttgctgcagc agcaggtcaa 1140 ggacacaagc ctgaaaggca gcttcggagt gacaaggaaa gaaatggaag tctctccttc 1200 tgcagagcag cttgtccagg tttatgaact gacgttacat catacacagc accaagacca 1260 caatgttgtg accggagccc tggagctgtt gcagcagctc ttcagaacgc ctccacccga 1320 gcttctgcaa accctgaccg cagtcggggg cattgggcag ctcaccgctg ctaaggagga 1380 gtctggtggc cgaagccgta gtgggagtat tgtggaactt atagctggag ggggttcctc 1440 atgcagccct gtcctttcaa gaaaacaaaa aggcaaagtg ctcttaggag aagaagaagc 1500 cttggaggat gactctgaat cgagatcgga tgtcagcagc tctgccttaa cagcctcagt 1560 gaaggatgag atcagtggag agctggctgc ttcttcaggg gtttccactc cagggtcagc 1620 aggtcatgac atcatcacag aacagccacg gtcacagcac acactgcagg cggactcagt 1680 ggatctggcc agctgtgact tgacaagctc tgccactgat ggggatgagg aggatatctt 1740 gagccacagc tccagccagg tcagcgccgt cccatctgac cctgccatgg acctgaatga 1800 tgggacccag gcctcgtcgc ccatcagcga cagctcccag accaccaccg aagggcctga 1860 ttcagctgtt accccttcag acagttctga aattgtgtta gacggtaccg acaaccagta 1920 tttgggcctg cagattggac agccccagga tgaagatgag gaagccacag gtattcttcc 1980 tgatgaagcc tcggaggcct tcaggaactc ttccatggcc cttcaacagg cacatttatt 2040 gaaaaacatg agtcactgca ggcagccttc tgacagcagt gttgataaat ttgtgttgag 2100 agatgaagct actgaaccgg gtgatcaaga aaacaagcct tgccgcatca aaggtgacat 2160 tggacagtcc actgatgatg actctgcacc tcttgtccat tgtgtccgcc ttttatctgc 2220 ttcgtttttg ctaacagggg gaaaaaatgt gctggttccg gacagggatg tgagggtcag 2280 cgtgaaggcc ctggccctca gctgtgtggg agcagctgtg gccctccacc cggaatcttt 2340 cttcagcaaa ctctataaag ttcctcttga caccacggaa taccctgagg aacagtatgt 2400 ctcagacatc ttgaactaca tcgatcatgg agacccacag gttcgaggag ccactgccat 2460 tctctgtggg accctcatct gctccatcct cagcaggtcc cgcttccacg tgggagattg 2520 gatgggcacc attagaaccc tcacaggaaa tacattttct ttggcggatt gcattccttt 2580 gctgcggaaa acactgaagg atgagtcttc tgttacttgc aagttagctt gtacagctgt 2640 gaggaactgt gtcatgagtc tctgcagcag cagctacagt gagttaggac tgcagctgat 2700 catcgatgtg ctgactctga ggaacagttc ctattggctg gtgaggacag agcttctgga 2760 aacccttgca gagattgact tcaggctggt gagctttttg gaggcaaaag cagaaaactt 2820 acacagaggg gctcatcatt atacagggct tttaaaactg caagaacgag tgctcaataa 2880 tgttgtcatc catttgcttg gagatgaaga ccccagggtg cgacatgttg ccgcagcatc 2940 actaattagg cttgtcccaa agctgtttta taaatgtgac caaggacaag ctgatccagt 3000 agtggccgtg gcaagagatc aaagcagtgt ttacctgaaa cttctcatgc atgagacgca 3060 gcctccatct catttctccg tcagcacaat aaccagaata tatagaggct ataacctact 3120 accaagcata acagacgtca ctatggaaaa taacctttca agagttattg cagcagtttc 3180 tcatgaacta atcacatcaa ccaccagagc actcacattt ggatgctgtg aagctttgtg 3240 tcttctttcc actgccttcc cagtttgcat ttggagttta ggttggcact gtggagtgcc 3300 tccactgagt gcctcagatg agtctaggaa gagctgtacc gttgggatgg ccacaatgat 3360 tctgaccctg ctctcgtcag cttggttccc attggatctc tcagcccatc aagatgcttt 3420 gattttggcc ggaaacttgc ttgcagccag tgctcccaaa tctctgagaa gttcatgggc 3480 ctctgaagaa gaagccaacc cagcagccac caagcaagag gaggtctggc cagccctggg 3540 ggaccgggcc ctggtgccca tggtggagca gctcttctct cacctgctga aggtgattaa 3600 catttgtgcc cacgtcctgg atgacgtggc tcctggaccc gcaataaagg cagccttgcc 3660 ttctctaaca aacccccctt ctctaagtcc catccgacga aaggggaagg agaaagaacc 3720 aggagaacaa gcatctgtac cgttgagtcc caagaaaggc agtgaggcca gtgcagcttc 3780 tagacaatct gatacctcag gtcctgttac aacaagtaaa tcctcatcac tggggagttt 3840 ctatcatctt ccttcatacc tcaaactgca tgatgtcctg aaagctacac acgctaacta 3900 caaggtcacg ctggatcttc agaacagcac ggaaaagttt ggagggtttc tccgctcagc 3960 cttggatgtt ctttctcaga tactagagct ggccacactg caggacattg ggaagtgtgt 4020 tgaagagatc ctaggatacc tgaaatcctg ctttagtcga gaaccaatga tggcaactgt 4080 ttgtgttcaa caattgttga agactctctt tggcacaaac ttggcctccc agtttgatgg 4140 cttatcttcc aaccccagca agtcacaagg ccgagcacag cgccttggct cctccagtgt 4200 gaggccaggc ttgtaccact actgcttcat ggccccgtac acccacttca cccaggccct 4260 cgctgacgcc agcctgagga acatggtgca ggcggagcag gagaacgaca cctcgggatg 4320 gtttgatgtc ctccagaaag tgtctaccca gttgaagaca aacctcacga gtgtcacaaa 4380 gaaccgtgca gataagaatg ctattcataa tcacattcgt ttgtttgaac ctcttgttat 4440 aaaagcttta aaacagtaca cgactacaac atgtgtgcag ttacagaagc aggttttaga 4500 tttgctggcg cagctggttc agttacgggt taattactgt cttctggatt cagatcaggt 4560 gtttattggc tttgtattga aacagtttga atacattgaa gtgggccagt tcagggaatc 4620 agaggcaatc attccaaaca tctttttctt cttggtatta ctatcttatg aacgctatca 4680 ttcaaaacag atcattggaa ttcctaaaat cattcagctc tgtgatggca tcatggccag 4740 tggaaggaag gctgtgacac atgccatacc ggctctgcag cccatagtcc acgacctctt 4800 tgtattaaga ggaacaaata aagctgatgc aggaaaagag cttgaaaccc aaaaagaggt 4860 ggtggtgtca atgttactga gactcatcca gtaccatcag gtgttggaga tgttcattct 4920 tgtcctgcag cagtgccaca aggagaatga agacaagtgg aagcgactgt ctcgacagat 4980 agctgacatc atcctcccaa tgttagccaa acagcagatg cacattgact ctcatgaagc 5040 ccttggagtg ttaaatacat tatttgagat tttggcccct tcctccctcc gtccggtaga 5100 catgctttta cggagtatgt tcgtcactcc aaacacaatg gcgtccgtga gcactgttca 5160 actgtggata tcgggaattc tggccatttt gagggttctg atttcccagt caactgaaga 5220 tattgttctt tctcgtattc aggagctctc cttctctccg tatttaatct cctgtacagt 5280 aattaatagg ttaagagatg gggacagtac ttcaacgcta gaagaacaca gtgaagggaa 5340 acaaataaag aatttgccag aagaaacatt ttcaaggttt ctattacaac tggttggtat 5400 tcttttagaa gacattgtta caaaacagct gaaggtggaa atgagtgagc agcaacatac 5460 tttctattgc caggaactag gcacactgct aatgtgtctg atccacatct tcaagtctgg 5520 aatgttccgg agaatcacag cagctgccac taggctgttc cgcagtgatg gctgtggcgg 5580 cagtttctac accctggaca gcttgaactt gcgggctcgt tccatgatca ccacccaccc 5640 ggccctggtg ctgctctggt gtcagatact gctgcttgtc aaccacaccg actaccgctg 5700 gtgggcagaa gtgcagcaga ccccgaaaag acacagtctg tccagcacaa agttacttag 5760 tccccagatg tctggagaag aggaggattc tgacttggca gccaaacttg gaatgtgcaa 5820 tagagaaata gtacgaagag gggctctcat tctcttctgt gattatgtct gtcagaacct 5880 ccatgactcc gagcacttaa cgtggctcat tgtaaatcac attcaagatc tgatcagcct 5940 ttcccacgag cctccagtac aggacttcat cagtgccgtt catcggaact ctgctgccag 6000 cggcctgttc atccaggcaa ttcagtctcg ttgtgaaaac ctttcaactc caaccatgct 6060 gaagaaaact cttcagtgct tggaggggat ccatctcagc cagtcgggag ctgtgctcac 6120 gctgtatgtg gacaggcttc tgtgcacccc tttccgtgtg ctggctcgca tggtcgacat 6180 ccttgcttgt cgccgggtag aaatgcttct ggctgcaaat ttacagagca gcatggccca 6240 gttgccaatg gaagaactca acagaatcca ggaatacctt cagagcagcg ggctcgctca 6300 gagacaccaa aggctctatt ccctgctgga caggtttcgt ctctccacca tgcaagactc 6360 acttagtccc tctcctccag tctcttccca cccgctggac ggggatgggc acgtgtcact 6420 ggaaacagtg agtccggaca aagactggta cgttcatctt gtcaaatccc agtgttggac 6480 caggtcagat tctgcactgc tggaaggtgc agagctggtg aatcggattc ctgctgaaga 6540 tatgaatgcc ttcatgatga actcggagtt caacctaagc ctgctagctc catgcttaag 6600 cctagggatg agtgaaattt ctggtggcca gaagagtgcc ctttttgaag cagcccgtga 6660 ggtgactctg gcccgtgtga gcggcaccgt gcagcagctc cctgctgtcc atcatgtctt 6720 ccagcccgag ctgcctgcag agccggcggc ctactggagc aagttgaatg atctgtttgg 6780 ggatgctgca ctgtatcagt ccctgcccac tctggcccgg gccctggcac agtacctggt 6840 ggtggtctcc aaactgccca gtcatttgca ccttcctcct gagaaagaga aggacattgt 6900 gaaattcgtg gtggcaaccc ttgaggccct gtcctggcat ttgatccatg agcagatccc 6960 gctgagtctg gatctccagg cagggctgga ctgctgctgc ctggccctgc agctgcctgg 7020 cctctggagc gtggtctcct ccacagagtt tgtgacccac gcctgctccc tcatctactg 7080 tgtgcacttc atcctggagg ccgttgcagt gcagcctgga gagcagcttc ttagtccaga 7140 aagaaggaca aataccccaa aagccatcag cgaggaggag gaggaagtag atccaaacac 7200 acagaatcct aagtatatca ctgcagcctg tgagatggtg gcagaaatgg tggagtctct 7260 gcagtcggtg ttggccttgg gtcataaaag gaatagcggc gtgccggcgt ttctcacgcc 7320 attgctaagg aacatcatca tcagcctggc ccgcctgccc cttgtcaaca gctacacacg 7380 tgtgccccca ctggtgtgga agcttggatg gtcacccaaa ccgggagggg attttggcac 7440 agcattccct gagatccccg tggagttcct ccaggaaaag gaagtcttta aggagttcat 7500 ctaccgcatc aacacactag gctggaccag tcgtactcag tttgaagaaa cttgggccac 7560 cctccttggt gtcctggtga cgcagcccct cgtgatggag caggaggaga gcccaccaga 7620 agaagacaca gagaggaccc agatcaacgt cctggccgtg caggccatca cctcactggt 7680 gctcagtgca atgactgtgc ctgtggccgg caacccagct gtaagctgct tggagcagca 7740 gccccggaac aagcctctga aagctctcga caccaggttt gggaggaagc tgagcattat 7800 cagagggatt gtggagcaag agattcaagc aatggtttca aagagagaga atattgccac 7860 ccatcattta tatcaggcat gggatcctgt cccttctctg tctccggcta ctacaggtgc 7920 cctcatcagc cacgagaagc tgctgctaca gatcaacccc gagcgggagc tggggagcat 7980 gagctacaaa ctcggccagg tgtccataca ctccgtgtgg ctggggaaca gcatcacacc 8040 cctgagggag gaggaatggg acgaggaaga ggaggaggag gccgacgccc ctgcaccttc 8100 gtcaccaccc acgtctccag tcaactccag gaaacaccgg gctggagttg acatccactc 8160 ctgttcgcag tttttgcttg agttgtacag ccgctggatc ctgccgtcca gctcagccag 8220 gaggaccccg gccatcctga tcagtgaggt ggtcagatcc cttctagtgg tctcagactt 8280 gttcaccgag cgcaaccagt ttgagctgat gtatgtgacg ctgacagaac tgcgaagggt 8340 gcacccttca gaagacgaga tcctcgctca gtacctggtg cctgccacct gcaaggcagc 8400 tgccgtcctt gggatggaca aggccgtggc ggagcctgtc agccgcctgc tggagagcac 8460 gctcaggagc agccacctgc ccagcagggt tggagccctg cacggcgtcc tctatgtgct 8520 ggagtgcgac ctgctggacg acactgccaa gcagctcatc ccggtcatca gcgactatct 8580 cctctccaac ctgaaaggga tcgcccactg cgtgaacatt cacagccagc agcacgtact 8640 ggtcatgtgt gccactgcgt tttacctcat tgagaactat cctctggacg tagggccgga 8700 attttcagca tcaataatac agatgtgtgg ggtgatgctg tctggaagtg aggagtccac 8760 cccctccatc atttaccact gtgccctcag aggcctggag cgcctcctgc tctctgagca 8820 gctctcccgc ctggatgcag aatcgctggt caagctgagt gtggacagag tgaacgtgca 8880 cagcccgcac cgggccatgg cggctctggg cctgatgctc acctgcatgt acacaggaaa 8940 ggagaaagtc agtccgggta gaacttcaga ccctaatcct gcagcccccg acagcgagtc 9000 agtgattgtt gctatggagc gggtatctgt tctttttgat aggatcagga aaggctttcc 9060 ttgtgaagcc agagtggtgg ccaggatcct gccccagttt ctagacgact tcttcccacc 9120 ccaggacatc atgaacaaag tcatcggaga gtttctgtcc aaccagcagc cataccccca 9180 gttcatggcc accgtggtgt ataaggtgtt tcagactctg cacagcaccg ggcagtcgtc 9240 catggtccgg gactgggtca tgctgtccct ctccaacttc acgcagaggg ccccggtcgc 9300 catggccacg tggagcctct cctgcttctt tgtcagcgcg tccaccagcc cgtgggtcgc 9360 ggcgatcctc ccacatgtca tcagcaggat gggcaagctg gagcaggtgg acgtgaacct 9420 tttctgcctg gtcgccacag acttctacag acaccagata gaggaggagc tcgaccgcag 9480 ggccttccag tctgtgcttg aggtggttgc agccccagga agcccatatc accggctgct 9540 gacttgttta cgaaatgtcc acaaggtcac cacctgctga gcgccatggt gggagagact 9600 gtgaggcggc agctggggcc ggagcctttg gaagtctgcg cccttgtgcc ctgcctccac 9660 cgagccagct tggtccctat gggcttccgc acatgccgcg ggcggccagg caacgtgcgt 9720 gtctctgcca tgtggcagaa gtgctctttg tggcagtggc caggcaggga gtgtctgcag 9780 tcctggtggg gctgagcctg aggccttcca gaaagcagga gcagctgtgc tgcaccccat 9840 gtgggtgacc aggtcctttc tcctgatagt cacctgctgg ttgttgccag gttgcagctg 9900 ctcttgcatc tgggccagaa gtcctccctc ctgcaggctg gctgttggcc cctctgctgt 9960 cctgcagtag aaggtgccgt gagcaggctt tgggaacact ggcctgggtc tccctggtgg 10020 ggtgtgcatg ccacgccccg tgtctggatg cacagatgcc atggcctgtg ctgggccagt 10080 ggctgggggt gctagacacc cggcaccatt ctcccttctc tcttttcttc tcaggattta 10140 aaatttaatt atatcagtaa agagattaat tttaacgtaa ctctttctat gcccgtgtaa 10200 agtatgtgaa tcgcaaggcc tgtgctgcat gcgacagcgt ccggggtggt ggacagggcc 10260 cccggccacg ctccctctcc tgtagccact ggcatagccc tcctgagcac ccgctgacat 10320 ttccgttgta catgttcctg tttatgcatt cacaaggtga ctgggatgta gagaggcgtt 10380 agtgggcagg tggccacagc aggactgagg acaggccccc attatcctag gggtgcgctc 10440 acctgcagcc cctcctcctc gggcacagac gactgtcgtt ctccacccac cagtcaggga 10500 cagcagcctc cctgtcactc agctgagaag gccagccctc cctggctgtg agcagcctcc 10560 actgtgtcca gagacatggg cctcccactc ctgttccttg ctagccctgg ggtggcgtct 10620 gcctaggagc tggctggcag gtgttgggac ctgctgctcc atggatgcat gccctaagag 10680 tgtcactgag ctgtgttttg tctgagcctc tctcggtcaa cagcaaagct tggtgtcttg 10740 gcactgttag tgacagagcc cagcatccct tctgcccccg ttccagctga catcttgcac 10800 ggtgacccct tttagtcagg agagtgcaga tctgtgctca tcggagactg ccccacggcc 10860 ctgtcagagc cgccactcct atccccaggc caggtccctg gaccagcctc ctgtttgcag 10920 gcccagagga gccaagtcat taaaatggaa gtggattctg gatggccggg ctgctgctga 10980 tgtaggagct ggatttggga gctctgcttg ccgactggct gtgagacgag gcaggggctc 11040 tgcttcctca gccctagagg cgagccaggc aaggttggcg actgtcatgt ggcttggttt 11100 ggtcatgccc gtcgatgttt tgggtattga atgtggtaag tggaggaaat gttggaactc 11160 tgtgcaggtg ctgccttgag acccccaagc ttccacctgt ccctctccta tgtggcagct 11220 ggggagcagc tgagatgtgg acttgtatgc tgcccacata cgtgaggggg agctgaaagg 11280 gagcccctcc tctgagcagc ctctgccagg cctgtatgag gcttttccca ccagctccca 11340 acagaggcct cccccagcca ggaccacctc gtcctcgtgg cggggcagca ggagcggtag 11400 aaaggggtcc gatgtttgag gaggccctta agggaagcta ctgaattata acacgtaaga 11460 aaatcaccat tccgtattgg ttgggggctc ctgtttctca tcctagcttt ttcctggaaa 11520 gcccgctaga aggtttggga acgaggggaa agttctcaga actgttggct gctccccacc 11580 cgcctcccgc ctcccccgca ggttatgtca gcagctctga gacagcagta tcacaggcca 11640 gatgttgttc ctggctagat gtttacattt gtaagaaata acactgtgaa tgtaaaacag 11700 agccattccc ttggaatgca tatcgctggg ctcaacatag agtttgtctt cctcttgttt 11760 acgacgtgat ctaaaccagt ccttagcaag gggctcagaa caccccgctc tggcagtagg 11820 tgtcccccac ccccaaagac ctgcctgtgt gctccggaga tgaatatgag ctcattagta 11880 aaaatgactt cacccacgca tatacataaa gtatccatgc atgtgcatat agacacatct 11940 ataattttac acacacacct ctcaagacgg agatgcatgg cctctaagag tgcccgtgtc 12000 ggttcttcct ggaagttgac tttccttaga cccgccaggt caagttagcc gcgtgacgga 12060 catccaggcg tgggacgtgg tcagggcagg gctcattcat tgcccactag gatcccactg 12120 gcgaagatgg tctccatatc agctctctgc agaagggagg aagactttat catgttccta 12180 aaaatctgtg gcaagcaccc atcgtattat ccaaattttg ttgcaaatgt gattaatttg 12240 gttgtcaagt tttgggggtg ggctgtgggg agattgcttt tgttttcctg ctggtaatat 12300 cgggaaagat tttaatgaaa ccagggtaga attgtttggc aatgcactga agcgtgtttc 12360 tttcccaaaa tgtgcctccc ttccgctgcg ggcccagctg agtctatgta ggtgatgttt 12420 ccagctgcca agtgctcttt gttactgtcc accctcattt ctgccagcgc atgtgtcctt 12480 tcaaggggaa aatgtgaagc tgaaccccct ccagacaccc agaatgtagc atctgagaag 12540 gccctgtgcc ctaaaggaca cccctcgccc ccatcttcat ggagggggtc atttcagagc 12600 cctcggagcc aatgaacagc tcctcctctt ggagctgaga tgagccccac gtggagctcg 12660 ggacggatag tagacagcaa taactcggtg tgtggccgcc tggcaggtgg aacttcctcc 12720 cgttgcgggg tggagtgagg ttagttctgt gtgtctggtg ggtggagtca ggcttctctt 12780 gctacctgtg agcatccttc ccagcagaca tcctcatcgg gctttgtccc tcccccgctt 12840 cctccctctg cggggaggac ccgggaccac agctgctggc cagggtagac ttggagctgt 12900 cctccagagg ggtcacgtgt aggagtgaga agaaggaaga tcttgagagc tgctgaggga 12960 ccttggagag ctcaggatgg ctcagacgag gacactcgct tgccgggcct gggcctcctg 13020 ggaaggaggg agctgctcag aatgccgcat gacaactgaa ggcaacctgg aaggttcagg 13080 ggccgctctt cccccatgtg cctgtcacgc tctggtgcag tcaaaggaac gccttcccct 13140 cagttgtttc taagagcaga gtctcccgct gcaatctggg tggtaactgc cagccttgga 13200 ggatcgtggc caacgtggac ctgcctacgg agggtgggct ctgacccaag tggggcctcc 13260 ttgtccaggt ctcactgctt tgcaccgtgg tcagagggac tgtcagctga gcttgagctc 13320 ccctggagcc agcagggctg tgatgggcga gtcccggagc cccacccaga cctgaatgct 13380 tctgagagca aagggaagga ctgacgagag atgtatattt aattttttaa ctgctgcaaa 13440 cattgtacat ccaaattaaa ggaaaaaaat ggaaaccatc a 13481 <210> 2 <211> 259 <212> DNA <213> Homo sapiens <220> <223> fragment of huntingtin (HTT) mRNA (residues 1 to 259) <400> 2 gctgccggga cgggtccaag atggacggcc gctcaggttc tgcttttacc tgcggcccag 60 agccccattc attgccccgg tgctgagcgg cgccgcgagt cggcccgagg cctccgggga 120 ctgccgtgcc gggcgggaga ccgccatggc gaccctggaa aagctgatga aggccttcga 180 gtccctcaag tccttccagc agcagcagca gcagcagcag cagcagcagc agcagcagca 240 gcagcagcag cagcagcag 259 <210> 3 <211> 31 <212> DNA <213> Homo sapiens <220> <223> fragment of huntingtin (HTT) mRNA (residues 181 to 211) <400> 3 gtccctcaag tccttccagc agcagcagca g 31 <210> 4 <211> 1266 <212> DNA <213> Artificial sequence <220> <223> Description of artificial sequence: Synthetic polynucleotide <220> <223> pCLS9303 <400> 4 atgggcgatc ctaaaaagaa acgtaaggtc atcgattacc catacgatgt tccagattac 60 gctatcgata tcgccgatct acgcacgctc ggctacagcc agcagcaaca ggagaagatc 120 aaaccgaagg ttcgttcgac agtggcgcag caccacgagg cactggtcgg ccacgggttt 180 acacacgcgc acatcgttgc gttaagccaa cacccggcag cgttagggac cgtcgctgtc 240 aagtatcagg acatgatcgc agcgttgcca gaggcgacac acgaagcgat cgttggcgtc 300 ggcaaacagt ggtccggcgc acgcgctctg gaggccttgc tcacggtggc gggagagttg 360 agaggtccac cgttacagtt ggacacaggc caacttctca agattgcaaa acgtggcggc 420 gtgaccgcag tggaggcagt gcatgcatgg cgcaatgcac tgacgggtgc cccgctcaac 480 ttgaccggag acgcccgggg gatcaggtca cgtgcgtctc ggagcattgt tgcccagtta 540 tctcgccctg atccggcgtt ggccgcgttg accaacgacc acctcgtcgc cttggcctgc 600 ctcggcgggc gtcctgcgct ggatgcagtg aaaaagggat tgggggatcc tatcagccgt 660 tcccagctgg tgaagtccga gctggaggag aagaaatccg agttgaggca caagctgaag 720 tacgtgcccc acgagtacat cgagctgatc gagatcgccc ggaacagcac ccaggaccgt 780 atcctggaga tgaaggtgat ggagttcttc atgaaggtgt acggctacag gggcaagcac 840 ctgggcggct ccaggaagcc cgacggcgcc atctacaccg tgggctcccc catcgactac 900 ggcgtgatcg tggacaccaa ggcctactcc ggcggctaca acctgcccat cggccaggcc 960 gacgaaatgc agaggtacgt ggaggagaac cagaccagga acaagcacat caaccccaac 1020 gagtggtgga aggtgtaccc ctccagcgtg accgagttca agttcctgtt cgtgtccggc 1080 cacttcaagg gcaactacaa ggcccagctg accaggctga accacatcac caactgcaac 1140 ggcgccgtgc tgtccgtgga ggagctcctg atcggcggcg agatgatcaa ggccggcacc 1200 ctgaccctgg aggaggtgag gaggaagttc aacaacggcg agatcaactt cgcggccgac 1260 tgataa 1266 <210> 5 <211> 1284 <212> DNA <213> Artificial sequence <220> <223> Description of artificial sequence: Synthetic polynucleotide <220> <223> pCLS9312 <400> 5 atgggcgatc ctaaaaagaa acgtaaggtc atcgataagg agaccgccgc tgccaagttc 60 gagagacagc acatggacag catcgatatc gccgatctac gcacgctcgg ctacagccag 120 cagcaacagg agaagatcaa accgaaggtt cgttcgacag tggcgcagca ccacgaggca 180 ctggtcggcc acgggtttac acacgcgcac atcgttgcgt taagccaaca cccggcagcg 240 ttagggaccg tcgctgtcaa gtatcaggac atgatcgcag cgttgccaga ggcgacacac 300 gaagcgatcg ttggcgtcgg caaacagtgg tccggcgcac gcgctctgga ggccttgctc 360 acggtggcgg gagagttgag aggtccaccg ttacagttgg acacaggcca acttctcaag 420 attgcaaaac gtggcggcgt gaccgcagtg gaggcagtgc atgcatggcg caatgcactg 480 acgggtgccc cgctcaactt gaccggagac gcccggggga tcaggtcacg tgcgtctcgg 540 agcattgttg cccagttatc tcgccctgat ccggcgttgg ccgcgttgac caacgaccac 600 ctcgtcgcct tggcctgcct cggcgggcgt cctgcgctgg atgcagtgaa aaagggattg 660 ggggatccta tcagccgttc ccagctggtg aagtccgagc tggaggagaa gaaatccgag 720 ttgaggcaca agctgaagta cgtgccccac gagtacatcg agctgatcga gatcgcccgg 780 aacagcaccc aggaccgtat cctggagatg aaggtgatgg agttcttcat gaaggtgtac 840 ggctacaggg gcaagcacct gggcggctcc aggaagcccg acggcgccat ctacaccgtg 900 ggctccccca tcgactacgg cgtgatcgtg gacaccaagg cctactccgg cggctacaac 960 ctgcccatcg gccaggccga cgaaatgcag aggtacgtgg aggagaacca gaccaggaac 1020 aagcacatca accccaacga gtggtggaag gtgtacccct ccagcgtgac cgagttcaag 1080 ttcctgttcg tgtccggcca cttcaagggc aactacaagg cccagctgac caggctgaac 1140 cacatcacca actgcaacgg cgccgtgctg tccgtggagg agctcctgat cggcggcgag 1200 atgatcaagg ccggcaccct gaccctggag gaggtgagga ggaagttcaa caacggcgag 1260 atcaacttcg cggccgactg ataa 1284 <210> 6 <211> 530 <212> PRT <213> Artificial sequence <220> <223> Description of artificial sequence: Synthetic polypeptide <220> <223> TiFLAN <400> 6 Leu Thr Pro Gln Gln Val Val Ala Ile Ala Ser Asn Gly Gly Gly Lys 1 5 10 15 Gln Ala Leu Glu Thr Val Gln Arg Leu Leu Pro Val Leu Cys Gln Ala 20 25 30 His Gly Leu Thr Pro Glu Gln Val Val Ala Ile Ala Ser His Asp Gly 35 40 45 Gly Lys Gln Ala Leu Glu Thr Val Gln Arg Leu Leu Pro Val Leu Cys 50 55 60 Gln Ala His Gly Leu Thr Pro Gln Gln Val Val Ala Ile Ala Ser Asn 65 70 75 80 Asn Gly Gly Lys Gln Ala Leu Glu Thr Val Gln Arg Leu Leu Pro Val 85 90 95 Leu Cys Gln Ala His Gly Leu Thr Pro Glu Gln Val Val Ala Ile Ala 100 105 110 Ser His Asp Gly Gly Lys Gln Ala Leu Glu Thr Val Gln Arg Leu Leu 115 120 125 Pro Val Leu Cys Gln Ala His Gly Leu Thr Pro Gln Gln Val Val Ala 130 135 140 Ile Ala Ser Asn Gly Gly Gly Lys Gln Ala Leu Glu Thr Val Gln Arg 145 150 155 160 Leu Leu Pro Val Leu Cys Gln Ala His Gly Leu Thr Pro Gln Gln Val 165 170 175 Val Ala Ile Ala Ser Asn Asn Gly Gly Lys Gln Ala Leu Glu Thr Val 180 185 190 Gln Arg Leu Leu Pro Val Leu Cys Gln Ala His Gly Leu Thr Pro Glu 195 200 205 Gln Val Val Ala Ile Ala Ser His Asp Gly Gly Lys Gln Ala Leu Glu 210 215 220 Thr Val Gln Arg Leu Leu Pro Val Leu Cys Gln Ala His Gly Leu Thr 225 230 235 240 Pro Glu Gln Val Val Ala Ile Ala Ser Asn Ile Gly Gly Lys Gln Ala 245 250 255 Leu Glu Thr Val Gln Ala Leu Leu Pro Val Leu Cys Gln Ala His Gly 260 265 270 Leu Thr Pro Gln Gln Val Val Ala Ile Ala Ser Asn Asn Gly Gly Lys 275 280 285 Gln Ala Leu Glu Thr Val Gln Arg Leu Leu Pro Val Leu Cys Gln Ala 290 295 300 His Gly Leu Thr Pro Glu Gln Val Val Ala Ile Ala Ser His Asp Gly 305 310 315 320 Gly Lys Gln Ala Leu Glu Thr Val Gln Arg Leu Leu Pro Val Leu Cys 325 330 335 Gln Ala His Gly Leu Thr Pro Glu Gln Val Val Ala Ile Ala Ser Asn 340 345 350 Ile Gly Gly Lys Gln Ala Leu Glu Thr Val Gln Ala Leu Leu Pro Val 355 360 365 Leu Cys Gln Ala His Gly Leu Thr Pro Gln Gln Val Val Ala Ile Ala 370 375 380 Ser Asn Asn Gly Gly Lys Gln Ala Leu Glu Thr Val Gln Arg Leu Leu 385 390 395 400 Pro Val Leu Cys Gln Ala His Gly Leu Thr Pro Glu Gln Val Val Ala 405 410 415 Ile Ala Ser His Asp Gly Gly Lys Gln Ala Leu Glu Thr Val Gln Arg 420 425 430 Leu Leu Pro Val Leu Cys Gln Ala His Gly Leu Thr Pro Glu Gln Val 435 440 445 Val Ala Ile Ala Ser Asn Ile Gly Gly Lys Gln Ala Leu Glu Thr Val 450 455 460 Gln Ala Leu Leu Pro Val Leu Cys Gln Ala His Gly Leu Thr Pro Gln 465 470 475 480 Gln Val Val Ala Ile Ala Ser Asn Asn Gly Gly Lys Gln Ala Leu Glu 485 490 495 Thr Val Gln Arg Leu Leu Pro Val Leu Cys Gln Ala His Gly Leu Thr 500 505 510 Pro Gln Gln Val Val Ala Ile Ala Ser Asn Gly Gly Gly Arg Pro Ala 515 520 525 Leu Glu 530 <210> 7 <211> 530 <212> PRT <213> Artificial sequence <220> <223> Description of artificial sequence: Synthetic polypeptide <220> <223> TiFLAN2_T01.1 <400> 7 Leu Thr Pro Gln Gln Val Val Ala Ile Ala Ser Asn Asn Gly Gly Lys 1 5 10 15 Gln Ala Leu Glu Thr Val Gln Arg Leu Leu Pro Val Leu Cys Gln Ala 20 25 30 His Gly Leu Thr Pro Gln Gln Val Val Ala Ile Ala Ser Asn Gly Gly 35 40 45 Gly Lys Gln Ala Leu Glu Thr Val Gln Arg Leu Leu Pro Val Leu Cys 50 55 60 Gln Ala His Gly Leu Thr Pro Gln Gln Val Val Ala Ile Ala Ser Asn 65 70 75 80 Asn Gly Gly Lys Gln Ala Leu Glu Thr Val Gln Arg Leu Leu Pro Val 85 90 95 Leu Cys Gln Ala His Gly Leu Thr Pro Glu Gln Val Val Ala Ile Ala 100 105 110 Ser Asn Ile Gly Gly Lys Gln Ala Leu Glu Thr Val Gln Ala Leu Leu 115 120 125 Pro Val Leu Cys Gln Ala His Gly Leu Thr Pro Gln Gln Val Val Ala 130 135 140 Ile Ala Ser Asn Gly Gly Gly Lys Gln Ala Leu Glu Thr Val Gln Arg 145 150 155 160 Leu Leu Pro Val Leu Cys Gln Ala His Gly Leu Thr Pro Glu Gln Val 165 170 175 Val Ala Ile Ala Ser His Asp Gly Gly Lys Gln Ala Leu Glu Thr Val 180 185 190 Gln Arg Leu Leu Pro Val Leu Cys Gln Ala His Gly Leu Thr Pro Glu 195 200 205 Gln Val Val Ala Ile Ala Ser His Asp Gly Gly Lys Gln Ala Leu Glu 210 215 220 Thr Val Gln Arg Leu Leu Pro Val Leu Cys Gln Ala His Gly Leu Thr 225 230 235 240 Pro Glu Gln Val Val Ala Ile Ala Ser His Asp Gly Gly Lys Gln Ala 245 250 255 Leu Glu Thr Val Gln Arg Leu Leu Pro Val Leu Cys Gln Ala His Gly 260 265 270 Leu Thr Pro Glu Gln Val Val Ala Ile Ala Ser His Asp Gly Gly Lys 275 280 285 Gln Ala Leu Glu Thr Val Gln Arg Leu Leu Pro Val Leu Cys Gln Ala 290 295 300 His Gly Leu Thr Pro Glu Gln Val Val Ala Ile Ala Ser His Asp Gly 305 310 315 320 Gly Lys Gln Ala Leu Glu Thr Val Gln Arg Leu Leu Pro Val Leu Cys 325 330 335 Gln Ala His Gly Leu Thr Pro Glu Gln Val Val Ala Ile Ala Ser His 340 345 350 Asp Gly Gly Lys Gln Ala Leu Glu Thr Val Gln Arg Leu Leu Pro Val 355 360 365 Leu Cys Gln Ala His Gly Leu Thr Pro Glu Gln Val Val Ala Ile Ala 370 375 380 Ser Asn Ile Gly Gly Lys Gln Ala Leu Glu Thr Val Gln Ala Leu Leu 385 390 395 400 Pro Val Leu Cys Gln Ala His Gly Leu Thr Pro Gln Gln Val Val Ala 405 410 415 Ile Ala Ser Asn Asn Gly Gly Lys Gln Ala Leu Glu Thr Val Gln Arg 420 425 430 Leu Leu Pro Val Leu Cys Gln Ala His Gly Leu Thr Pro Glu Gln Val 435 440 445 Val Ala Ile Ala Ser His Asp Gly Gly Lys Gln Ala Leu Glu Thr Val 450 455 460 Gln Arg Leu Leu Pro Val Leu Cys Gln Ala His Gly Leu Thr Pro Glu 465 470 475 480 Gln Val Val Ala Ile Ala Ser Asn Ile Gly Gly Lys Gln Ala Leu Glu 485 490 495 Thr Val Gln Ala Leu Leu Pro Val Leu Cys Gln Ala His Gly Leu Thr 500 505 510 Pro Gln Gln Val Val Ala Ile Ala Ser Asn Gly Gly Gly Arg Pro Ala 515 520 525 Leu Glu 530 <210> 8 <211> 936 <212> PRT <213> Artificial sequence <220> <223> Description of artificial sequence: Synthetic polypeptide <220> <223> pCLS9984 <400> 8 Met Gly Asp Pro Lys Lys Lys Arg Lys Val Ile Asp Tyr Pro Tyr Asp 1 5 10 15 Val Pro Asp Tyr Ala Ile Asp Ile Ala Asp Leu Arg Thr Leu Gly Tyr 20 25 30 Ser Gln Gln Gln Gln Glu Lys Ile Lys Pro Lys Val Arg Ser Thr Val 35 40 45 Ala Gln His His Glu Ala Leu Val Gly His Gly Phe Thr His Ala His 50 55 60 Ile Val Ala Leu Ser Gln His Pro Ala Ala Leu Gly Thr Val Ala Val 65 70 75 80 Lys Tyr Gln Asp Met Ile Ala Ala Leu Pro Glu Ala Thr His Glu Ala 85 90 95 Ile Val Gly Val Gly Lys Gln Trp Ser Gly Ala Arg Ala Leu Glu Ala 100 105 110 Leu Leu Thr Val Ala Gly Glu Leu Arg Gly Pro Pro Leu Gln Leu Asp 115 120 125 Thr Gly Gln Leu Leu Lys Ile Ala Lys Arg Gly Gly Val Thr Ala Val 130 135 140 Glu Ala Val His Ala Trp Arg Asn Ala Leu Thr Gly Ala Pro Leu Asn 145 150 155 160 Leu Thr Pro Gln Gln Val Val Ala Ile Ala Ser Asn Gly Gly Gly Lys 165 170 175 Gln Ala Leu Glu Thr Val Gln Arg Leu Leu Pro Val Leu Cys Gln Ala 180 185 190 His Gly Leu Thr Pro Glu Gln Val Val Ala Ile Ala Ser His Asp Gly 195 200 205 Gly Lys Gln Ala Leu Glu Thr Val Gln Arg Leu Leu Pro Val Leu Cys 210 215 220 Gln Ala His Gly Leu Thr Pro Gln Gln Val Val Ala Ile Ala Ser Asn 225 230 235 240 Asn Gly Gly Lys Gln Ala Leu Glu Thr Val Gln Arg Leu Leu Pro Val 245 250 255 Leu Cys Gln Ala His Gly Leu Thr Pro Glu Gln Val Val Ala Ile Ala 260 265 270 Ser His Asp Gly Gly Lys Gln Ala Leu Glu Thr Val Gln Arg Leu Leu 275 280 285 Pro Val Leu Cys Gln Ala His Gly Leu Thr Pro Gln Gln Val Val Ala 290 295 300 Ile Ala Ser Asn Gly Gly Gly Lys Gln Ala Leu Glu Thr Val Gln Arg 305 310 315 320 Leu Leu Pro Val Leu Cys Gln Ala His Gly Leu Thr Pro Gln Gln Val 325 330 335 Val Ala Ile Ala Ser Asn Asn Gly Gly Lys Gln Ala Leu Glu Thr Val 340 345 350 Gln Arg Leu Leu Pro Val Leu Cys Gln Ala His Gly Leu Thr Pro Glu 355 360 365 Gln Val Val Ala Ile Ala Ser His Asp Gly Gly Lys Gln Ala Leu Glu 370 375 380 Thr Val Gln Arg Leu Leu Pro Val Leu Cys Gln Ala His Gly Leu Thr 385 390 395 400 Pro Glu Gln Val Val Ala Ile Ala Ser Asn Ile Gly Gly Lys Gln Ala 405 410 415 Leu Glu Thr Val Gln Ala Leu Leu Pro Val Leu Cys Gln Ala His Gly 420 425 430 Leu Thr Pro Gln Gln Val Val Ala Ile Ala Ser Asn Asn Gly Gly Lys 435 440 445 Gln Ala Leu Glu Thr Val Gln Arg Leu Leu Pro Val Leu Cys Gln Ala 450 455 460 His Gly Leu Thr Pro Glu Gln Val Val Ala Ile Ala Ser His Asp Gly 465 470 475 480 Gly Lys Gln Ala Leu Glu Thr Val Gln Arg Leu Leu Pro Val Leu Cys 485 490 495 Gln Ala His Gly Leu Thr Pro Glu Gln Val Val Ala Ile Ala Ser Asn 500 505 510 Ile Gly Gly Lys Gln Ala Leu Glu Thr Val Gln Ala Leu Leu Pro Val 515 520 525 Leu Cys Gln Ala His Gly Leu Thr Pro Gln Gln Val Val Ala Ile Ala 530 535 540 Ser Asn Asn Gly Gly Lys Gln Ala Leu Glu Thr Val Gln Arg Leu Leu 545 550 555 560 Pro Val Leu Cys Gln Ala His Gly Leu Thr Pro Glu Gln Val Val Ala 565 570 575 Ile Ala Ser His Asp Gly Gly Lys Gln Ala Leu Glu Thr Val Gln Arg 580 585 590 Leu Leu Pro Val Leu Cys Gln Ala His Gly Leu Thr Pro Glu Gln Val 595 600 605 Val Ala Ile Ala Ser Asn Ile Gly Gly Lys Gln Ala Leu Glu Thr Val 610 615 620 Gln Ala Leu Leu Pro Val Leu Cys Gln Ala His Gly Leu Thr Pro Gln 625 630 635 640 Gln Val Val Ala Ile Ala Ser Asn Asn Gly Gly Lys Gln Ala Leu Glu 645 650 655 Thr Val Gln Arg Leu Leu Pro Val Leu Cys Gln Ala His Gly Leu Thr 660 665 670 Pro Gln Gln Val Val Ala Ile Ala Ser Asn Gly Gly Gly Arg Pro Ala 675 680 685 Leu Glu Ser Ile Val Ala Gln Leu Ser Arg Pro Asp Pro Ala Leu Ala 690 695 700 Ala Leu Thr Asn Asp His Leu Val Ala Leu Ala Cys Leu Gly Gly Arg 705 710 715 720 Pro Ala Leu Asp Ala Val Lys Lys Gly Leu Gly Asp Pro Ile Ser Arg 725 730 735 Ser Gln Leu Val Lys Ser Glu Leu Glu Glu Lys Lys Ser Glu Leu Arg 740 745 750 His Lys Leu Lys Tyr Val Pro His Glu Tyr Ile Glu Leu Ile Glu Ile 755 760 765 Ala Arg Asn Ser Thr Gln Asp Arg Ile Leu Glu Met Lys Val Met Glu 770 775 780 Phe Phe Met Lys Val Tyr Gly Tyr Arg Gly Lys His Leu Gly Gly Ser 785 790 795 800 Arg Lys Pro Asp Gly Ala Ile Tyr Thr Val Gly Ser Pro Ile Asp Tyr 805 810 815 Gly Val Ile Val Asp Thr Lys Ala Tyr Ser Gly Gly Tyr Asn Leu Pro 820 825 830 Ile Gly Gln Ala Asp Glu Met Gln Arg Tyr Val Glu Glu Asn Gln Thr 835 840 845 Arg Asn Lys His Ile Asn Pro Asn Glu Trp Trp Lys Val Tyr Pro Ser 850 855 860 Ser Val Thr Glu Phe Lys Phe Leu Phe Val Ser Gly His Phe Lys Gly 865 870 875 880 Asn Tyr Lys Ala Gln Leu Thr Arg Leu Asn His Ile Thr Asn Cys Asn 885 890 895 Gly Ala Val Leu Ser Val Glu Glu Leu Leu Ile Gly Gly Glu Met Ile 900 905 910 Lys Ala Gly Thr Leu Thr Leu Glu Glu Val Arg Arg Lys Phe Asn Asn 915 920 925 Gly Glu Ile Asn Phe Ala Ala Asp 930 935 <210> 9 <211> 2814 <212> DNA <213> Artificial sequence <220> <223> Description of artificial sequence: Synthetic polynucleotide <220> <223> pCLS9984 <400> 9 atgggcgatc ctaaaaagaa acgtaaggtc atcgattacc catacgatgt tccagattac 60 gctatcgata tcgccgatct acgcacgctc ggctacagcc agcagcaaca ggagaagatc 120 aaaccgaagg ttcgttcgac agtggcgcag caccacgagg cactggtcgg ccacgggttt 180 acacacgcgc acatcgttgc gttaagccaa cacccggcag cgttagggac cgtcgctgtc 240 aagtatcagg acatgatcgc agcgttgcca gaggcgacac acgaagcgat cgttggcgtc 300 ggcaaacagt ggtccggcgc acgcgctctg gaggccttgc tcacggtggc gggagagttg 360 agaggtccac cgttacagtt ggacacaggc caacttctca agattgcaaa acgtggcggc 420 gtgaccgcag tggaggcagt gcatgcatgg cgcaatgcac tgacgggtgc cccgctcaac 480 ttgacccccc agcaggtggt ggccatcgcc agcaatggcg gtggcaagca ggcgctggag 540 acggtccagc ggctgttgcc ggtgctgtgc caggcccacg gcttgacccc ggagcaggtg 600 gtggccatcg ccagccacga tggcggcaag caggcgctgg agacggtcca gcggctgttg 660 ccggtgctgt gccaggccca cggcttgacc ccccagcagg tggtggccat cgccagcaat 720 aatggtggca agcaggcgct ggagacggtc cagcggctgt tgccggtgct gtgccaggcc 780 cacggcttga ccccggagca ggtggtggcc atcgccagcc acgatggcgg caagcaggcg 840 ctggagacgg tccagcggct gttgccggtg ctgtgccagg cccacggctt gaccccccag 900 caggtggtgg ccatcgccag caatggcggt ggcaagcagg cgctggagac ggtccagcgg 960 ctgttgccgg tgctgtgcca ggcccacggc ttgacccccc agcaggtggt ggccatcgcc 1020 agcaataatg gtggcaagca ggcgctggag acggtccagc ggctgttgcc ggtgctgtgc 1080 caggcccacg gcttgacccc ggagcaggtg gtggccatcg ccagccacga tggcggcaag 1140 caggcgctgg agacggtcca gcggctgttg ccggtgctgt gccaggccca cggcttgacc 1200 ccggagcagg tggtggccat cgccagcaat attggtggca agcaggcgct ggagacggtg 1260 caggcgctgt tgccggtgct gtgccaggcc cacggcttga ccccccagca ggtggtggcc 1320 atcgccagca ataatggtgg caagcaggcg ctggagacgg tccagcggct gttgccggtg 1380 ctgtgccagg cccacggctt gaccccggag caggtggtgg ccatcgccag ccacgatggc 1440 ggcaagcagg cgctggagac ggtccagcgg ctgttgccgg tgctgtgcca ggcccacggc 1500 ttgaccccgg agcaggtggt ggccatcgcc agcaatattg gtggcaagca ggcgctggag 1560 acggtgcagg cgctgttgcc ggtgctgtgc caggcccacg gcttgacccc ccagcaggtg 1620 gtggccatcg ccagcaataa tggtggcaag caggcgctgg agacggtcca gcggctgttg 1680 ccggtgctgt gccaggccca cggcttgacc ccggagcagg tggtggccat cgccagccac 1740 gatggcggca agcaggcgct ggagacggtc cagcggctgt tgccggtgct gtgccaggcc 1800 cacggcttga ccccggagca ggtggtggcc atcgccagca atattggtgg caagcaggcg 1860 ctggagacgg tgcaggcgct gttgccggtg ctgtgccagg cccacggctt gaccccccag 1920 caggtggtgg ccatcgccag caataatggt ggcaagcagg cgctggagac ggtccagcgg 1980 ctgttgccgg tgctgtgcca ggcccacggc ttgacccctc agcaggtggt ggccatcgcc 2040 agcaatggcg gcggcaggcc ggcgctggag agcattgttg cccagttatc tcgccctgat 2100 ccggcgttgg ccgcgttgac caacgaccac ctcgtcgcct tggcctgcct cggcgggcgt 2160 cctgcgctgg atgcagtgaa aaagggattg ggggatccta tcagccgttc ccagctggtg 2220 aagtccgagc tggaggagaa gaaatccgag ttgaggcaca agctgaagta cgtgccccac 2280 gagtacatcg agctgatcga gatcgcccgg aacagcaccc aggaccgtat cctggagatg 2340 aaggtgatgg agttcttcat gaaggtgtac ggctacaggg gcaagcacct gggcggctcc 2400 aggaagcccg acggcgccat ctacaccgtg ggctccccca tcgactacgg cgtgatcgtg 2460 gacaccaagg cctactccgg cggctacaac ctgcccatcg gccaggccga cgaaatgcag 2520 aggtacgtgg aggagaacca gaccaggaac aagcacatca accccaacga gtggtggaag 2580 gtgtacccct ccagcgtgac cgagttcaag ttcctgttcg tgtccggcca cttcaagggc 2640 aactacaagg cccagctgac caggctgaac cacatcacca actgcaacgg cgccgtgctg 2700 tccgtggagg agctcctgat cggcggcgag atgatcaagg ccggcaccct gaccctggag 2760 gaggtgagga ggaagttcaa caacggcgag atcaacttcg cggccgactg ataa 2814 <210> 10 <211> 936 <212> PRT <213> Artificial sequence <220> <223> Description of artificial sequence: Synthetic polypeptide <220> <223> pCLS16715 <400> 10 Met Gly Asp Pro Lys Lys Lys Arg Lys Val Ile Asp Tyr Pro Tyr Asp 1 5 10 15 Val Pro Asp Tyr Ala Ile Asp Ile Ala Asp Leu Arg Thr Leu Gly Tyr 20 25 30 Ser Gln Gln Gln Gln Glu Lys Ile Lys Pro Lys Val Arg Ser Thr Val 35 40 45 Ala Gln His His Glu Ala Leu Val Gly His Gly Phe Thr His Ala His 50 55 60 Ile Val Ala Leu Ser Gln His Pro Ala Ala Leu Gly Thr Val Ala Val 65 70 75 80 Lys Tyr Gln Asp Met Ile Ala Ala Leu Pro Glu Ala Thr His Glu Ala 85 90 95 Ile Val Gly Val Gly Lys Gln Trp Ser Gly Ala Arg Ala Leu Glu Ala 100 105 110 Leu Leu Thr Val Ala Gly Glu Leu Arg Gly Pro Pro Leu Gln Leu Asp 115 120 125 Thr Gly Gln Leu Leu Lys Ile Ala Lys Arg Gly Gly Val Thr Ala Val 130 135 140 Glu Ala Val His Ala Trp Arg Asn Ala Leu Thr Gly Ala Pro Leu Asn 145 150 155 160 Leu Thr Pro Gln Gln Val Val Ala Ile Ala Ser Asn Asn Gly Gly Lys 165 170 175 Gln Ala Leu Glu Thr Val Gln Arg Leu Leu Pro Val Leu Cys Gln Ala 180 185 190 His Gly Leu Thr Pro Gln Gln Val Val Ala Ile Ala Ser Asn Gly Gly 195 200 205 Gly Lys Gln Ala Leu Glu Thr Val Gln Arg Leu Leu Pro Val Leu Cys 210 215 220 Gln Ala His Gly Leu Thr Pro Gln Gln Val Val Ala Ile Ala Ser Asn 225 230 235 240 Asn Gly Gly Lys Gln Ala Leu Glu Thr Val Gln Arg Leu Leu Pro Val 245 250 255 Leu Cys Gln Ala His Gly Leu Thr Pro Glu Gln Val Val Ala Ile Ala 260 265 270 Ser Asn Ile Gly Gly Lys Gln Ala Leu Glu Thr Val Gln Ala Leu Leu 275 280 285 Pro Val Leu Cys Gln Ala His Gly Leu Thr Pro Gln Gln Val Val Ala 290 295 300 Ile Ala Ser Asn Gly Gly Gly Lys Gln Ala Leu Glu Thr Val Gln Arg 305 310 315 320 Leu Leu Pro Val Leu Cys Gln Ala His Gly Leu Thr Pro Glu Gln Val 325 330 335 Val Ala Ile Ala Ser His Asp Gly Gly Lys Gln Ala Leu Glu Thr Val 340 345 350 Gln Arg Leu Leu Pro Val Leu Cys Gln Ala His Gly Leu Thr Pro Glu 355 360 365 Gln Val Val Ala Ile Ala Ser His Asp Gly Gly Lys Gln Ala Leu Glu 370 375 380 Thr Val Gln Arg Leu Leu Pro Val Leu Cys Gln Ala His Gly Leu Thr 385 390 395 400 Pro Glu Gln Val Val Ala Ile Ala Ser His Asp Gly Gly Lys Gln Ala 405 410 415 Leu Glu Thr Val Gln Arg Leu Leu Pro Val Leu Cys Gln Ala His Gly 420 425 430 Leu Thr Pro Glu Gln Val Val Ala Ile Ala Ser His Asp Gly Gly Lys 435 440 445 Gln Ala Leu Glu Thr Val Gln Arg Leu Leu Pro Val Leu Cys Gln Ala 450 455 460 His Gly Leu Thr Pro Glu Gln Val Val Ala Ile Ala Ser His Asp Gly 465 470 475 480 Gly Lys Gln Ala Leu Glu Thr Val Gln Arg Leu Leu Pro Val Leu Cys 485 490 495 Gln Ala His Gly Leu Thr Pro Glu Gln Val Val Ala Ile Ala Ser His 500 505 510 Asp Gly Gly Lys Gln Ala Leu Glu Thr Val Gln Arg Leu Leu Pro Val 515 520 525 Leu Cys Gln Ala His Gly Leu Thr Pro Glu Gln Val Val Ala Ile Ala 530 535 540 Ser Asn Ile Gly Gly Lys Gln Ala Leu Glu Thr Val Gln Ala Leu Leu 545 550 555 560 Pro Val Leu Cys Gln Ala His Gly Leu Thr Pro Gln Gln Val Val Ala 565 570 575 Ile Ala Ser Asn Asn Gly Gly Lys Gln Ala Leu Glu Thr Val Gln Arg 580 585 590 Leu Leu Pro Val Leu Cys Gln Ala His Gly Leu Thr Pro Glu Gln Val 595 600 605 Val Ala Ile Ala Ser His Asp Gly Gly Lys Gln Ala Leu Glu Thr Val 610 615 620 Gln Arg Leu Leu Pro Val Leu Cys Gln Ala His Gly Leu Thr Pro Glu 625 630 635 640 Gln Val Val Ala Ile Ala Ser Asn Ile Gly Gly Lys Gln Ala Leu Glu 645 650 655 Thr Val Gln Ala Leu Leu Pro Val Leu Cys Gln Ala His Gly Leu Thr 660 665 670 Pro Gln Gln Val Val Ala Ile Ala Ser Asn Gly Gly Gly Arg Pro Ala 675 680 685 Leu Glu Ser Ile Val Ala Gln Leu Ser Arg Pro Asp Pro Ala Leu Ala 690 695 700 Ala Leu Thr Asn Asp His Leu Val Ala Leu Ala Cys Leu Gly Gly Arg 705 710 715 720 Pro Ala Leu Asp Ala Val Lys Lys Gly Leu Gly Asp Pro Ile Ser Arg 725 730 735 Ser Gln Leu Val Lys Ser Glu Leu Glu Glu Lys Lys Ser Glu Leu Arg 740 745 750 His Lys Leu Lys Tyr Val Pro His Glu Tyr Ile Glu Leu Ile Glu Ile 755 760 765 Ala Arg Asn Ser Thr Gln Asp Arg Ile Leu Glu Met Lys Val Met Glu 770 775 780 Phe Phe Met Lys Val Tyr Gly Tyr Arg Gly Lys His Leu Gly Gly Ser 785 790 795 800 Arg Lys Pro Asp Gly Ala Ile Tyr Thr Val Gly Ser Pro Ile Asp Tyr 805 810 815 Gly Val Ile Val Asp Thr Lys Ala Tyr Ser Gly Gly Tyr Asn Leu Pro 820 825 830 Ile Gly Gln Ala Asp Glu Met Gln Arg Tyr Val Glu Glu Asn Gln Thr 835 840 845 Arg Asn Lys His Ile Asn Pro Asn Glu Trp Trp Lys Val Tyr Pro Ser 850 855 860 Ser Val Thr Glu Phe Lys Phe Leu Phe Val Ser Gly His Phe Lys Gly 865 870 875 880 Asn Tyr Lys Ala Gln Leu Thr Arg Leu Asn His Ile Thr Asn Cys Asn 885 890 895 Gly Ala Val Leu Ser Val Glu Glu Leu Leu Ile Gly Gly Glu Met Ile 900 905 910 Lys Ala Gly Thr Leu Thr Leu Glu Glu Val Arg Arg Lys Phe Asn Asn 915 920 925 Gly Glu Ile Asn Phe Ala Ala Asp 930 935 <210> 11 <211> 2814 <212> DNA <213> Artificial sequence <220> <223> Description of artificial sequence: Synthetic polynucleotide <220> <223> pCLS16715 <400> 11 atgggcgatc ctaaaaagaa acgtaaggtc atcgattacc catacgatgt tccagattac 60 gctatcgata tcgccgatct acgcacgctc ggctacagcc agcagcaaca ggagaagatc 120 aaaccgaagg ttcgttcgac agtggcgcag caccacgagg cactggtcgg ccacgggttt 180 acacacgcgc acatcgttgc gttaagccaa cacccggcag cgttagggac cgtcgctgtc 240 aagtatcagg acatgatcgc agcgttgcca gaggcgacac acgaagcgat cgttggcgtc 300 ggcaaacagt ggtccggcgc acgcgctctg gaggccttgc tcacggtggc gggagagttg 360 agaggtccac cgttacagtt ggacacaggc caacttctca agattgcaaa acgtggcggc 420 gtgaccgcag tggaggcagt gcatgcatgg cgcaatgcac tgacgggtgc cccgctcaac 480 ttgacccccc agcaggtggt ggccatcgcc agcaataatg gtggcaagca ggcgctggag 540 acggtccagc ggctgttgcc ggtgctgtgc caggcccacg gcttgacccc ccagcaggtg 600 gtggccatcg ccagcaatgg cggtggcaag caggcgctgg agacggtcca gcggctgttg 660 ccggtgctgt gccaggccca cggcttgacc ccccagcagg tggtggccat cgccagcaat 720 aatggtggca agcaggcgct ggagacggtc cagcggctgt tgccggtgct gtgccaggcc 780 cacggcttga ccccggagca ggtggtggcc atcgccagca atattggtgg caagcaggcg 840 ctggagacgg tgcaggcgct gttgccggtg ctgtgccagg cccacggctt gaccccccag 900 caggtggtgg ccatcgccag caatggcggt ggcaagcagg cgctggagac ggtccagcgg 960 ctgttgccgg tgctgtgcca ggcccacggc ttgaccccgg agcaggtggt ggccatcgcc 1020 agccacgatg gcggcaagca ggcgctggag acggtccagc ggctgttgcc ggtgctgtgc 1080 caggcccacg gcttgacccc ggagcaggtg gtggccatcg ccagccacga tggcggcaag 1140 caggcgctgg agacggtcca gcggctgttg ccggtgctgt gccaggccca cggcttgacc 1200 ccggagcagg tggtggccat cgccagccac gatggcggca agcaggcgct ggagacggtc 1260 cagcggctgt tgccggtgct gtgccaggcc cacggcttga ccccggagca ggtggtggcc 1320 atcgccagcc acgatggcgg caagcaggcg ctggagacgg tccagcggct gttgccggtg 1380 ctgtgccagg cccacggctt gaccccggag caggtggtgg ccatcgccag ccacgatggc 1440 ggcaagcagg cgctggagac ggtccagcgg ctgttgccgg tgctgtgcca ggcccacggc 1500 ttgaccccgg agcaggtggt ggccatcgcc agccacgatg gcggcaagca ggcgctggag 1560 acggtccagc ggctgttgcc ggtgctgtgc caggcccacg gcttgacccc ggagcaggtg 1620 gtggccatcg ccagcaatat tggtggcaag caggcgctgg agacggtgca ggcgctgttg 1680 ccggtgctgt gccaggccca cggcttgacc ccccagcagg tggtggccat cgccagcaat 1740 aatggtggca agcaggcgct ggagacggtc cagcggctgt tgccggtgct gtgccaggcc 1800 cacggcttga ccccggagca ggtggtggcc atcgccagcc acgatggcgg caagcaggcg 1860 ctggagacgg tccagcggct gttgccggtg ctgtgccagg cccacggctt gaccccggag 1920 caggtggtgg ccatcgccag caatattggt ggcaagcagg cgctggagac ggtgcaggcg 1980 ctgttgccgg tgctgtgcca ggcccacggc ttgacccctc agcaggtggt ggccatcgcc 2040 agcaatggcg gcggcaggcc ggcgctggag agcattgttg cccagttatc tcgccctgat 2100 ccggcgttgg ccgcgttgac caacgaccac ctcgtcgcct tggcctgcct cggcgggcgt 2160 cctgcgctgg atgcagtgaa aaagggattg ggggatccta tcagccgttc ccagctggtg 2220 aagtccgagc tggaggagaa gaaatccgag ttgaggcaca agctgaagta cgtgccccac 2280 gagtacatcg agctgatcga gatcgcccgg aacagcaccc aggaccgtat cctggagatg 2340 aaggtgatgg agttcttcat gaaggtgtac ggctacaggg gcaagcacct gggcggctcc 2400 aggaagcccg acggcgccat ctacaccgtg ggctccccca tcgactacgg cgtgatcgtg 2460 gacaccaagg cctactccgg cggctacaac ctgcccatcg gccaggccga cgaaatgcag 2520 aggtacgtgg aggagaacca gaccaggaac aagcacatca accccaacga gtggtggaag 2580 gtgtacccct ccagcgtgac cgagttcaag ttcctgttcg tgtccggcca cttcaagggc 2640 aactacaagg cccagctgac caggctgaac cacatcacca actgcaacgg cgccgtgctg 2700 tccgtggagg agctcctgat cggcggcgag atgatcaagg ccggcaccct gaccctggag 2760 gaggtgagga ggaagttcaa caacggcgag atcaacttcg cggccgactg ataa 2814 <210> 12 <211> 69 <212> DNA <213> Artificial sequence <220> <223> Description of artificial sequence: Synthetic polynucleotide <220> <223> TIFLAN <400> 12 tctcaagatt tcgctgcagc agcagcagca gcagcagcag cagcagcagc agcagcagca 60 gcagcagca 69 <210> 13 <211> 46 <212> DNA <213> Artificial sequence <220> <223> Description of artificial sequence: Synthetic polynucleotide <220> <223> TIFLAN2 <400> 13 tgtgatcccc ccagcagcag cagcagcagc agcagcagca gcagca 46 <210> 14 <211> 530 <212> PRT <213> Artificial sequence <220> <223> Description of artificial sequence: Synthetic polypeptide <220> <223> TiCAG <400> 14 Leu Thr Pro Gln Gln Val Val Ala Ile Ala Ser Asn Asn Gly Gly Lys 1 5 10 15 Gln Ala Leu Glu Thr Val Gln Arg Leu Leu Pro Val Leu Cys Gln Ala 20 25 30 His Gly Leu Thr Pro Glu Gln Val Val Ala Ile Ala Ser His Asp Gly 35 40 45 Gly Lys Gln Ala Leu Glu Thr Val Gln Arg Leu Leu Pro Val Leu Cys 50 55 60 Gln Ala His Gly Leu Thr Pro Gln Gln Val Val Ala Ile Ala Ser Asn 65 70 75 80 Gly Gly Gly Lys Gln Ala Leu Glu Thr Val Gln Arg Leu Leu Pro Val 85 90 95 Leu Cys Gln Ala His Gly Leu Thr Pro Gln Gln Val Val Ala Ile Ala 100 105 110 Ser Asn Asn Gly Gly Lys Gln Ala Leu Glu Thr Val Gln Arg Leu Leu 115 120 125 Pro Val Leu Cys Gln Ala His Gly Leu Thr Pro Glu Gln Val Val Ala 130 135 140 Ile Ala Ser His Asp Gly Gly Lys Gln Ala Leu Glu Thr Val Gln Arg 145 150 155 160 Leu Leu Pro Val Leu Cys Gln Ala His Gly Leu Thr Pro Gln Gln Val 165 170 175 Val Ala Ile Ala Ser Asn Gly Gly Gly Lys Gln Ala Leu Glu Thr Val 180 185 190 Gln Arg Leu Leu Pro Val Leu Cys Gln Ala His Gly Leu Thr Pro Gln 195 200 205 Gln Val Val Ala Ile Ala Ser Asn Asn Gly Gly Lys Gln Ala Leu Glu 210 215 220 Thr Val Gln Arg Leu Leu Pro Val Leu Cys Gln Ala His Gly Leu Thr 225 230 235 240 Pro Glu Gln Val Val Ala Ile Ala Ser His Asp Gly Gly Lys Gln Ala 245 250 255 Leu Glu Thr Val Gln Arg Leu Leu Pro Val Leu Cys Gln Ala His Gly 260 265 270 Leu Thr Pro Gln Gln Val Val Ala Ile Ala Ser Asn Gly Gly Gly Lys 275 280 285 Gln Ala Leu Glu Thr Val Gln Arg Leu Leu Pro Val Leu Cys Gln Ala 290 295 300 His Gly Leu Thr Pro Gln Gln Val Val Ala Ile Ala Ser Asn Asn Gly 305 310 315 320 Gly Lys Gln Ala Leu Glu Thr Val Gln Arg Leu Leu Pro Val Leu Cys 325 330 335 Gln Ala His Gly Leu Thr Pro Glu Gln Val Val Ala Ile Ala Ser His 340 345 350 Asp Gly Gly Lys Gln Ala Leu Glu Thr Val Gln Arg Leu Leu Pro Val 355 360 365 Leu Cys Gln Ala His Gly Leu Thr Pro Gln Gln Val Val Ala Ile Ala 370 375 380 Ser Asn Gly Gly Gly Lys Gln Ala Leu Glu Thr Val Gln Arg Leu Leu 385 390 395 400 Pro Val Leu Cys Gln Ala His Gly Leu Thr Pro Gln Gln Val Val Ala 405 410 415 Ile Ala Ser Asn Asn Gly Gly Lys Gln Ala Leu Glu Thr Val Gln Arg 420 425 430 Leu Leu Pro Val Leu Cys Gln Ala His Gly Leu Thr Pro Glu Gln Val 435 440 445 Val Ala Ile Ala Ser His Asp Gly Gly Lys Gln Ala Leu Glu Thr Val 450 455 460 Gln Arg Leu Leu Pro Val Leu Cys Gln Ala His Gly Leu Thr Pro Gln 465 470 475 480 Gln Val Val Ala Ile Ala Ser Asn Gly Gly Gly Lys Gln Ala Leu Glu 485 490 495 Thr Val Gln Arg Leu Leu Pro Val Leu Cys Gln Ala His Gly Leu Thr 500 505 510 Pro Gln Gln Val Val Ala Ile Ala Ser Asn Gly Gly Gly Arg Pro Ala 515 520 525 Leu Glu 530 <210> 15 <211> 942 <212> PRT <213> Artificial sequence <220> <223> Description of artificial sequence: Synthetic polypeptide <220> <223> pCLS9996 <400> 15 Met Gly Asp Pro Lys Lys Lys Arg Lys Val Ile Asp Lys Glu Thr Ala 1 5 10 15 Ala Ala Lys Phe Glu Arg Gln His Met Asp Ser Ile Asp Ile Ala Asp 20 25 30 Leu Arg Thr Leu Gly Tyr Ser Gln Gln Gln Gln Glu Lys Ile Lys Pro 35 40 45 Lys Val Arg Ser Thr Val Ala Gln His His Glu Ala Leu Val Gly His 50 55 60 Gly Phe Thr His Ala His Ile Val Ala Leu Ser Gln His Pro Ala Ala 65 70 75 80 Leu Gly Thr Val Ala Val Lys Tyr Gln Asp Met Ile Ala Ala Leu Pro 85 90 95 Glu Ala Thr His Glu Ala Ile Val Gly Val Gly Lys Gln Trp Ser Gly 100 105 110 Ala Arg Ala Leu Glu Ala Leu Leu Thr Val Ala Gly Glu Leu Arg Gly 115 120 125 Pro Pro Leu Gln Leu Asp Thr Gly Gln Leu Leu Lys Ile Ala Lys Arg 130 135 140 Gly Gly Val Thr Ala Val Glu Ala Val His Ala Trp Arg Asn Ala Leu 145 150 155 160 Thr Gly Ala Pro Leu Asn Leu Thr Pro Gln Gln Val Val Ala Ile Ala 165 170 175 Ser Asn Asn Gly Gly Lys Gln Ala Leu Glu Thr Val Gln Arg Leu Leu 180 185 190 Pro Val Leu Cys Gln Ala His Gly Leu Thr Pro Glu Gln Val Val Ala 195 200 205 Ile Ala Ser His Asp Gly Gly Lys Gln Ala Leu Glu Thr Val Gln Arg 210 215 220 Leu Leu Pro Val Leu Cys Gln Ala His Gly Leu Thr Pro Gln Gln Val 225 230 235 240 Val Ala Ile Ala Ser Asn Gly Gly Gly Lys Gln Ala Leu Glu Thr Val 245 250 255 Gln Arg Leu Leu Pro Val Leu Cys Gln Ala His Gly Leu Thr Pro Gln 260 265 270 Gln Val Val Ala Ile Ala Ser Asn Asn Gly Gly Lys Gln Ala Leu Glu 275 280 285 Thr Val Gln Arg Leu Leu Pro Val Leu Cys Gln Ala His Gly Leu Thr 290 295 300 Pro Glu Gln Val Val Ala Ile Ala Ser His Asp Gly Gly Lys Gln Ala 305 310 315 320 Leu Glu Thr Val Gln Arg Leu Leu Pro Val Leu Cys Gln Ala His Gly 325 330 335 Leu Thr Pro Gln Gln Val Val Ala Ile Ala Ser Asn Gly Gly Gly Lys 340 345 350 Gln Ala Leu Glu Thr Val Gln Arg Leu Leu Pro Val Leu Cys Gln Ala 355 360 365 His Gly Leu Thr Pro Gln Gln Val Val Ala Ile Ala Ser Asn Asn Gly 370 375 380 Gly Lys Gln Ala Leu Glu Thr Val Gln Arg Leu Leu Pro Val Leu Cys 385 390 395 400 Gln Ala His Gly Leu Thr Pro Glu Gln Val Val Ala Ile Ala Ser His 405 410 415 Asp Gly Gly Lys Gln Ala Leu Glu Thr Val Gln Arg Leu Leu Pro Val 420 425 430 Leu Cys Gln Ala His Gly Leu Thr Pro Gln Gln Val Val Ala Ile Ala 435 440 445 Ser Asn Gly Gly Gly Lys Gln Ala Leu Glu Thr Val Gln Arg Leu Leu 450 455 460 Pro Val Leu Cys Gln Ala His Gly Leu Thr Pro Gln Gln Val Val Ala 465 470 475 480 Ile Ala Ser Asn Asn Gly Gly Lys Gln Ala Leu Glu Thr Val Gln Arg 485 490 495 Leu Leu Pro Val Leu Cys Gln Ala His Gly Leu Thr Pro Glu Gln Val 500 505 510 Val Ala Ile Ala Ser His Asp Gly Gly Lys Gln Ala Leu Glu Thr Val 515 520 525 Gln Arg Leu Leu Pro Val Leu Cys Gln Ala His Gly Leu Thr Pro Gln 530 535 540 Gln Val Val Ala Ile Ala Ser Asn Gly Gly Gly Lys Gln Ala Leu Glu 545 550 555 560 Thr Val Gln Arg Leu Leu Pro Val Leu Cys Gln Ala His Gly Leu Thr 565 570 575 Pro Gln Gln Val Val Ala Ile Ala Ser Asn Asn Gly Gly Lys Gln Ala 580 585 590 Leu Glu Thr Val Gln Arg Leu Leu Pro Val Leu Cys Gln Ala His Gly 595 600 605 Leu Thr Pro Glu Gln Val Val Ala Ile Ala Ser His Asp Gly Gly Lys 610 615 620 Gln Ala Leu Glu Thr Val Gln Arg Leu Leu Pro Val Leu Cys Gln Ala 625 630 635 640 His Gly Leu Thr Pro Gln Gln Val Val Ala Ile Ala Ser Asn Gly Gly 645 650 655 Gly Lys Gln Ala Leu Glu Thr Val Gln Arg Leu Leu Pro Val Leu Cys 660 665 670 Gln Ala His Gly Leu Thr Pro Gln Gln Val Val Ala Ile Ala Ser Asn 675 680 685 Gly Gly Gly Arg Pro Ala Leu Glu Ser Ile Val Ala Gln Leu Ser Arg 690 695 700 Pro Asp Pro Ala Leu Ala Ala Leu Thr Asn Asp His Leu Val Ala Leu 705 710 715 720 Ala Cys Leu Gly Gly Arg Pro Ala Leu Asp Ala Val Lys Lys Gly Leu 725 730 735 Gly Asp Pro Ile Ser Arg Ser Gln Leu Val Lys Ser Glu Leu Glu Glu 740 745 750 Lys Lys Ser Glu Leu Arg His Lys Leu Lys Tyr Val Pro His Glu Tyr 755 760 765 Ile Glu Leu Ile Glu Ile Ala Arg Asn Ser Thr Gln Asp Arg Ile Leu 770 775 780 Glu Met Lys Val Met Glu Phe Phe Met Lys Val Tyr Gly Tyr Arg Gly 785 790 795 800 Lys His Leu Gly Gly Ser Arg Lys Pro Asp Gly Ala Ile Tyr Thr Val 805 810 815 Gly Ser Pro Ile Asp Tyr Gly Val Ile Val Asp Thr Lys Ala Tyr Ser 820 825 830 Gly Gly Tyr Asn Leu Pro Ile Gly Gln Ala Asp Glu Met Gln Arg Tyr 835 840 845 Val Glu Glu Asn Gln Thr Arg Asn Lys His Ile Asn Pro Asn Glu Trp 850 855 860 Trp Lys Val Tyr Pro Ser Ser Val Thr Glu Phe Lys Phe Leu Phe Val 865 870 875 880 Ser Gly His Phe Lys Gly Asn Tyr Lys Ala Gln Leu Thr Arg Leu Asn 885 890 895 His Ile Thr Asn Cys Asn Gly Ala Val Leu Ser Val Glu Glu Leu Leu 900 905 910 Ile Gly Gly Glu Met Ile Lys Ala Gly Thr Leu Thr Leu Glu Glu Val 915 920 925 Arg Arg Lys Phe Asn Asn Gly Glu Ile Asn Phe Ala Ala Asp 930 935 940 <210> 16 <211> 2832 <212> DNA <213> Artificial sequence <220> <223> Description of artificial sequence: Synthetic polynucleotide <220> <223> pCLS9996 <400> 16 atgggcgatc ctaaaaagaa acgtaaggtc atcgataagg agaccgccgc tgccaagttc 60 gagagacagc acatggacag catcgatatc gccgatctac gcacgctcgg ctacagccag 120 cagcaacagg agaagatcaa accgaaggtt cgttcgacag tggcgcagca ccacgaggca 180 ctggtcggcc acgggtttac acacgcgcac atcgttgcgt taagccaaca cccggcagcg 240 ttagggaccg tcgctgtcaa gtatcaggac atgatcgcag cgttgccaga ggcgacacac 300 gaagcgatcg ttggcgtcgg caaacagtgg tccggcgcac gcgctctgga ggccttgctc 360 acggtggcgg gagagttgag aggtccaccg ttacagttgg acacaggcca acttctcaag 420 attgcaaaac gtggcggcgt gaccgcagtg gaggcagtgc atgcatggcg caatgcactg 480 acgggtgccc cgctcaactt gaccccccag caggtggtgg ccatcgccag caataatggt 540 ggcaagcagg cgctggagac ggtccagcgg ctgttgccgg tgctgtgcca ggcccacggc 600 ttgaccccgg agcaggtggt ggccatcgcc agccacgatg gcggcaagca ggcgctggag 660 acggtccagc ggctgttgcc ggtgctgtgc caggcccacg gcttgacccc ccagcaggtg 720 gtggccatcg ccagcaatgg cggtggcaag caggcgctgg agacggtcca gcggctgttg 780 ccggtgctgt gccaggccca cggcttgacc ccccagcagg tggtggccat cgccagcaat 840 aatggtggca agcaggcgct ggagacggtc cagcggctgt tgccggtgct gtgccaggcc 900 cacggcttga ccccggagca ggtggtggcc atcgccagcc acgatggcgg caagcaggcg 960 ctggagacgg tccagcggct gttgccggtg ctgtgccagg cccacggctt gaccccccag 1020 caggtggtgg ccatcgccag caatggcggt ggcaagcagg cgctggagac ggtccagcgg 1080 ctgttgccgg tgctgtgcca ggcccacggc ttgacccccc agcaggtggt ggccatcgcc 1140 agcaataatg gtggcaagca ggcgctggag acggtccagc ggctgttgcc ggtgctgtgc 1200 caggcccacg gcttgacccc ggagcaggtg gtggccatcg ccagccacga tggcggcaag 1260 caggcgctgg agacggtcca gcggctgttg ccggtgctgt gccaggccca cggcttgacc 1320 ccccagcagg tggtggccat cgccagcaat ggcggtggca agcaggcgct ggagacggtc 1380 cagcggctgt tgccggtgct gtgccaggcc cacggcttga ccccccagca ggtggtggcc 1440 atcgccagca ataatggtgg caagcaggcg ctggagacgg tccagcggct gttgccggtg 1500 ctgtgccagg cccacggctt gaccccggag caggtggtgg ccatcgccag ccacgatggc 1560 ggcaagcagg cgctggagac ggtccagcgg ctgttgccgg tgctgtgcca ggcccacggc 1620 ttgacccccc agcaggtggt ggccatcgcc agcaatggcg gtggcaagca ggcgctggag 1680 acggtccagc ggctgttgcc ggtgctgtgc caggcccacg gcttgacccc ccagcaggtg 1740 gtggccatcg ccagcaataa tggtggcaag caggcgctgg agacggtcca gcggctgttg 1800 ccggtgctgt gccaggccca cggcttgacc ccggagcagg tggtggccat cgccagccac 1860 gatggcggca agcaggcgct ggagacggtc cagcggctgt tgccggtgct gtgccaggcc 1920 cacggcttga ccccccagca ggtggtggcc atcgccagca atggcggtgg caagcaggcg 1980 ctggagacgg tccagcggct gttgccggtg ctgtgccagg cccacggctt gacccctcag 2040 caggtggtgg ccatcgccag caatggcggc ggcaggccgg cgctggagag cattgttgcc 2100 cagttatctc gccctgatcc ggcgttggcc gcgttgacca acgaccacct cgtcgccttg 2160 gcctgcctcg gcgggcgtcc tgcgctggat gcagtgaaaa agggattggg ggatcctatc 2220 agccgttccc agctggtgaa gtccgagctg gaggagaaga aatccgagtt gaggcacaag 2280 ctgaagtacg tgccccacga gtacatcgag ctgatcgaga tcgcccggaa cagcacccag 2340 gaccgtatcc tggagatgaa ggtgatggag ttcttcatga aggtgtacgg ctacaggggc 2400 aagcacctgg gcggctccag gaagcccgac ggcgccatct acaccgtggg ctcccccatc 2460 gactacggcg tgatcgtgga caccaaggcc tactccggcg gctacaacct gcccatcggc 2520 caggccgacg aaatgcagag gtacgtggag gagaaccaga ccaggaacaa gcacatcaac 2580 cccaacgagt ggtggaaggt gtacccctcc agcgtgaccg agttcaagtt cctgttcgtg 2640 tccggccact tcaagggcaa ctacaaggcc cagctgacca ggctgaacca catcaccaac 2700 tgcaacggcg ccgtgctgtc cgtggaggag ctcctgatcg gcggcgagat gatcaaggcc 2760 ggcaccctga ccctggagga ggtgaggagg aagttcaaca acggcgagat caacttcgcg 2820 gccgactgat aa 2832

고 반복 모티프를 포함하는 DNA 서열에 대한 효율적이고 특이적인 표적화를 위한 희소-절단 엔도뉴클레아제의 설계

고 반복 모티프를 포함하는 DNA 서열에 대한 효율적이고 특이적인 표적화를 위한 희소-절단 엔도뉴클레아제의 설계 {DESIGN OF RARE-CUTTING ENDONUCLEASES FOR EFFICIENT AND SPECIFIC TARGETING DNA SEQUENCES COMPRISING HIGHLY REPETITIVE MOTIVES}

该功能需要专业版企业版VIP权限，您可以：