텔로미어
홈페이지홈페이지 > 블로그 > 텔로미어

텔로미어

Jun 26, 2023

Nature Genetics 55권, 페이지 1390–1399(2023)이 기사 인용

6669 액세스

58 알트메트릭

측정항목 세부정보

팬게놈은 서열 다형성과 구조적 변이(SV) 측면에서 종의 유전적 다양성을 정확하게 표현하는 데 대한 접근을 제공합니다. 여기에서 우리는 종의 계통발생적 및 생태적 다양성을 나타내는 142개 균주에 대한 참조 품질 게놈으로 구성된 Saccharomyces cerevisiae 참조 조립 패널(ScRAP)을 생성했습니다. ScRAP에는 여러 이형접합성 이배체 및 배수체 분리물에 대한 단계적 일배체형 어셈블리가 포함되어 있습니다. 우리는 텔로미어 길이와 전이 가능한 요소의 역학을 포함하여 게놈 다양성에 대한 광범위한 관점을 제공하는 약 4,800개의 중복되지 않는 SV를 식별했습니다. 우리는 큰 염색체가 큰 결실과 전좌를 겪는 복잡한 이수성의 빈번한 사례를 발견했습니다. 우리는 SV가 중단점 근처의 유전자 발현에 영향을 미칠 수 있고 유전자 레퍼토리 진화에 실질적으로 기여할 수 있음을 발견했습니다. 우리는 또한 수평 획득 영역이 염색체 말단에 삽입되어 새로운 텔로미어를 생성할 수 있음을 발견했습니다. 전반적으로, ScRAP은 인구 규모에서 게놈 진화를 이해하는 데 있어서 팬게놈의 이점을 보여줍니다.

단일 분자 긴 판독 시퀀싱은 일반적으로 이전 기술로 조립되지 않은 상태로 유지되는 반복적인 염색체 영역을 포함하여 틈 없는 게놈 조립체에 대한 액세스를 제공합니다. 이는 특히 ONT(Oxford Nanopore Technology)2의 매우 긴 판독 덕분에 인간 게놈의 연속성이 급속히 증가하는 것에서 가장 잘 예시됩니다. 최근 T2T(텔로미어-텔로미어) 컨소시엄은 인간 염색체 2개로 구성된 최초의 완전한 'T2T' 어셈블리를 발표했고3,4,5 거의 200Mb에 달하는 새로운 서열을 포함하는 최초의 간격 없는 인간 게놈이 발표되었습니다6. 복잡한 식물 게놈과 고전적 모델 유기체도 장기 판독 기술 덕분에 어셈블리 연속성이 향상되었습니다.

이러한 발전으로 인해 모델 유기체와 Escherichia coli12, Drosophila melanogaster10,13, Solanum lycopersicum14, Glycine max15, Oryza sativa8,16, Bombyx mori17 및 인간18,19과 같이 인류 중심적으로 중요한 종을 포함하는 여러 참조 유사 연속 게놈을 가질 수 있는 종은 거의 없습니다. ,20. 빵 효모인 Saccharomyces cerevisiae에는 비참조 균주21,22,23,24,25,26,27,28,29,30의 총 68개의 긴 판독 게놈 어셈블리가 있습니다. 이러한 데이터는 짧은 읽기 데이터25에 대한 연속성 개선을 정량화하고, 전이 요소(TE)22,24,25의 게놈 전체 맵을 생성하고, 하위 텔로미어 영역29, 위상 일배체형을 특성화하고, 큰 구조적 변형(SV)22,25을 감지하는 데 사용되었습니다. 26,29,30. 그러나 이용 가능한 게놈 어셈블리의 연속성은 S. cerevisiae에서 매우 다양하며 그 중 일부만이 염색체 수준 연속성에 도달했습니다. 더욱이, 대표적인 참조 게놈이 결여된 많은 계통군으로 인해 샘플링이 여전히 제한되어 있으며, 풍부함에도 불구하고 배수체 게놈이 포함되지 않았습니다(분리물의 11.5%)31. 마지막으로, 이배체 및 배수체 게놈의 일배체형을 단계적으로 조정하는 것은 어려운 일이며, 일배체형 추론 및 이형접합성 측정을 방지합니다.

여기에서 우리는 종 게놈 공간을 샘플링하는 142개의 분리주에 대한 T2T 게놈 어셈블리로 구성된 S. cerevisiae 참조 어셈블리 패널(ScRAP)을 생성했습니다. 이러한 게놈의 품질은 기준 표준을 초과하며 다른 종에서는 아직 달성되지 않은 규모로 SV 및 복잡한 영역을 정확하게 특성화할 수 있습니다.

ScRAP에는 종의 지리적, 생태학적 분포와 배수성 및 이형접합성 수준을 포괄하는 142개의 균주가 포함되어 있습니다(그림 1a, b 및 보충 표 1). 패널은 100개의 새로 서열화된 게놈을 포함하여 197개의 핵 및 136개의 미토콘드리아 게놈 어셈블리로 구성되며, 그 중 일배체형 분해 어셈블리는 이배체 및 배수체 게놈 모두에 사용할 수 있습니다(표 1 및 보충 표 1-3). 게놈 측정항목은 모든 어셈블리에서 높은 연속성과 완전성 수준을 나타냅니다(보충 참고 1). ScRAP은 모든 주요 계통 발생 계통에 걸쳐 참조 품질의 게놈을 제공합니다31,32(그림 1c 및 보충 참고 2). T2T 일배체형 해결 이배체 어셈블리는 자매 일배체형(HP, 일배체형 1(HP1) 및 일배체형 2(HP2))이 항상 트리에서 함께 그룹화되고 동일한 혼합물 프로파일을 공유한다는 것을 보여줍니다(그림 1c,d). HP2 (AIS_HP2)의 가지 길이가 염색체에 의해 구동되는 다른 모든 말단 가지 (그림 1c)에 비해 불균형 적으로 긴 Wine / European MC9 (AIS) 균주의 두 HP 사이에서 가장 눈에 띄는 차이가 관찰되었습니다. - 고도로 분기된 종으로부터의 염색체 VI 및 VII의 대규모 유전자이입(전체 염색체 유전자이입 참조).

50 bp, including deletions, insertions, duplications and contractions of repetitive sequences and copy-neutral rearrangements including inversions (>1 kb) and translocations (>10 kb). They originated from 4,809 nonredundant large-scale rearrangements that are shared at varying frequencies across the 141 nonreference strains (Table 1 and Supplementary Table 5). This nonredundant SV catalog covers ca. 80% of the estimated whole species structural diversity that we predicted to contain approximately 6,000 SVs (Fig. 2b and Table 1)./p>10 kb (Fig. 2f). This distribution shows two clear peaks around 300 bp and 6 kb for deletions, insertions and inversions corresponding to solo-long terminal repeats (LTRs) and full-length Ty elements. The mobility of Ty elements directly accounts for 59% of all insertions (1,571 events) and 16% of deletions through inter-LTR recombination (218 events). This unbalance is explained by the limited number of Ty elements in the reference genome that can be interpreted as a deletion when absent from other genomes. Interestingly, 19% and 8% of all duplications and contractions (representing 74 and seven cases, respectively), also resulted from tandem Ty movements. Altogether 39% of all SVs result from the insertion and deletion of Ty elements./p>50 bp) per genome, which represents an average density of 1 SV every 50 kb. By comparison, each human genome would contain >20,000 SVs46, which corresponds to approximately 1 SV/150 kb, that is, three times lower than in S. cerevisiae. In other eukaryotes that benefit from pangenome data, the SV density scales from 1 SV/90 kb in Drosophila47 (likely underestimated because only >100 bp euchromatic SVs were considered), 1 SV/38 kb in soybean15, 1 SV/17 kb in rice8 and up to 1 SV/4 kb in silkworm17. We also found a clear positive correlation between the numbers of SVs and SNVs/indels accumulating within genomes. It has been proposed that a genomic clock would coordinate the pace of fixation between amino acid substitutions and large-scale rearrangements in bacteria and yeast48,49. However, this clock seems to tick at a different pace depending on the ploidy and zygosity levels of the genome. SVs preferentially accumulate in heterozygous and higher ploidy genomes (Fig. 2c). One possibility would be that SVs are better tolerated in higher ploidy genomes as their deleterious effects (for example, gene deletion and dosage imbalance) are more efficiently buffered. Alternatively, the rate of SV formation might increase with ploidy, as was suggested for aneuploidies37./p>100 kb (that is, a the CR does not cover region/s summing to 100 kb or more) were labeled as complex and the rest as simple/p>100 kb that are present within a strain containing an aneuploidy detected above. Label as complex aneuploidy-related and use in the less conservative estimate of complex aneuploidy count./p>