여기에서, 우리는 궤적 특정 수준에서 라인 1 발현을 식별 하기 위해 생물 학적 접근법 및 분석을 제시 한다.
긴 산재 요소-1 (라인/L1s)은 게놈 불안정성 및 돌연변이 유발을 초래 하는 유 전체에 복사 하 고 무작위로 삽입할 수 있는 반복적인 원소입니다. 개별 수준에서 L1 좌 위의 발현 패턴을 이해 하는 것은이 돌연 변이 요소의 생물학에 대 한 이해를 빌려 줄 것입니다. 이 자율 요소는 99%가 잘리고 결함이 있지만 50만 이상의 복사본을 가진 인간 게놈의 상당 부분을 차지 합니다. 그러나, 그들의 풍부 하 고 지배적 인 결함 사본의 수는 다른 유전자의 일부로 서 표현 된 L1 관련 서 열에서 진정으로 표현 된 L1s을 식별 하는 것을 어렵게 만든다. 또한 요소의 반복적인 특성으로 인해 어떤 특정 L1 궤적을 표현 하는지 확인 하는 것도 쉽지 않습니다. 이러한 어려움을 극복 하기 위해, 우리는 궤적 특정 레벨에서 L1 발현을 식별 하는 RNA-서 열 생물 학적 접근법을 제시 한다. 요약 하자면, 우리는 세포질 rna를 모으고, 폴 리아 데 화 전사체를 선택 하 고, 가닥 특이 적 rna-서 열 분석을 활용 하 여 인간 기준 게놈에서 L1 좌 위에 읽기를 고유 하 게 매핑합니다. 우리는 시각적으로 자신의 프로모터에서 전사를 확인 하 고 각 개별 L1 궤적의 mappability에 대 한 계정으로 매핑 된 전사체 읽기를 조정 하는 고유 하 게 매핑된 읽기와 각 L1 궤적을 선별. 이러한 접근법은 소수의 전체 길이 L1 원소 로부터 발현을 검출 하는이 프로토콜이 프로토콜의 능력을 입증 하기 위해 DU145, 전립선 종양 세포 라인에 적용 되었다.
레트로바이러스는 RNA 중간체를 통해 카피 앤 페이스트 메커니즘으로 게놈에서 “점프” 할 수 있는 반복적인 DNA 요소입니다. 레트로바이러스의 한 서브 세트는 긴 산재 요소-1 (라인/L1s)으로 알려져 있으며, 500 개 이상의 복사본1로 인간 게놈의 여섯째를 만든다. 그들의 풍요로 움에도 불구 하 고, 이러한 사본의 대부분은 결함 및 활성 것으로 생각 하는 추정 80-120 L1 요소와 잘립니다2. 전체 길이 L1은 5 ‘ 및 3 ‘ 번역 되지 않은 영역, 내부 프로모터 및 관련 안티 센스 프로모터, 2 개의 비중첩 열린 판독 프레임 (orfs) 및 신호와 polya 꼬리를 가진 길이 약 6kb이 고,5 . 인간에서, L1s는 나이가 많은 가족 들에 비해 시간이 지남에 따라 더 독특한 서 열 돌연변이를 축적 한 것으로 진화 시대에 의해 구별 되는 하위 가족 들로 이루어져 있다 L1HS6,7. L1s는 유일 하 게 자율적이 고, 인간 레트로바이러스 이며 그들의 ORFs는 역 역전사, 효소, 및 RNPs를 RNA 결합 및 샤 페론과 함께 해독 하 고 게놈에 삽입 하는 데 필요한 활동을 표적으로 하는 과정에서 해독 한다 역 전사8,9,10,12.
L1s의 재 변이는 이식 돌연변이 유발, 표적 부위 삭제 및 재배열을 포함 하는 다양 한 메카니즘에 의해 인간 생식 계열 질환을 야기 하는 것으로 보고 되었으며,13,14 , 16. 최근 L1s는 다양 한 상피 암에서 관찰 되 고 있는 돌연 변이 원소의 발현 및 삽입 사건 증가에 따라 발암 및/또는 종양 진행에 역할을 할 수 있다는 가설을가지고 있다17,18 . 모든 200 출산19에 하나의 새로운 L1 삽입이 있는 것으로 추정 된다. 따라서, 활발 하 게 발현 하는 L1s의 생물학을 더 잘 이해 하는 것이 필수적 이다. 다른 유전자의 전사체 내에서 발견 되는 반복 되는 본질과 불완전 한 사본의 풍부 함은 이러한 수준의 분석을 어렵게 만들었습니다.
다행히도, 높은 처리량 시퀀싱 기술의 출현으로, 분석을 통해 L1s 특정 수준에서 진정으로 표현 하는 것을 식별 하기 위해 진전을 이루었습니다. RNA 차세대 염기 서 열 분석을 사용 하 여 발현 된 L1s를 가장 잘 식별 하는 방법에 대 한 다른 철학이 있습니다. 궤적 특정 수준에서 L1 전사체를 맵핑하는 데 제안 된 두 가지 합리적인 접근법만이 있었다. 하나는 L1 폴 리아 데 닐 화 신호와 플 랭킹 시퀀스 (20)를 통해 판독 하는 잠재적 인 전사에만 초점을 맞추고 있다. 우리의 접근은 L1 요소 사이의 작은 시퀀스 차이를 활용 하 고 유일 하 게 하나의 궤적21에 매핑되는 RNA-서 열 판독을 매핑합니다. 이러한 방법 모두는 성적 증명서의 정량화 측면에서 한계가 있다. 정량화는 각각의 L1 궤적 (21)의 ‘ 고유 mappability ‘에 대 한 보정을 추가 하거나 특정 궤적 (22)에 고유 하 게 맵핑 될 수 없었던 다중 매핑 판독을 재분배 하는 보다 복잡 한 알고리즘을 사용 하 여 잠재적으로 개선 될 수 있다. 여기서, 우리는 궤적 특이 수준에서 발현 된 L1 원소를 동정 하기 위해 단계별로 RNA 추출 및 차세대 염기 서 열 분석 및 생물 정보학 프로토콜을 상세히 설명 한다. 우리의 접근 방식은 기능 L1 요소의 생물학에 대 한 우리의 지식을 최대한 활용 합니다. 이것은 기능 L1 요소가 l1 요소의 시작 부분에서 시작 되는 l1 프로모터 로부터 생성 되어야 한다는 것을 알고 포함 하 고, 세포질에서 번역 되어야 하 고 그의 전사체는 게놈과 공동 선형 이어야 한다. 간단히, 우리는 신선 하 고, 세포질 rna를 수집 하 고, 폴 리아 데 화 전사체를 선택 하 고, 가닥 특이 적 rna-서 열 분석을 활용 하 여 인간 기준 게놈에서 L1 좌 위에 읽기를 고유 하 게 매핑합니다. 이러한 정렬 된 읽기는 여전히 광범위 한 수동 큐 레이 션을 요구 하 여, 진정으로 표현 된 L1으로 궤적을 지정 하기 전에 L1 프로모터 로부터 전사체 읽기가 시작 되는지 확인 합니다. 우리는 DU145 전립선 종양 세포 선 샘플에이 접근을 적용 하 여 비활성 사본의 질량에서 상대적으로 몇 개의 활발 하 게 전사 된 L1 멤버를 식별 하는 방법을 보여줍니다.
L1 활성은 질병27,28,29에 기여 하는 유전적 손상 및 불안정성을 야기 하는 것으로 나타났다. 약 5000의 전체 길이 L1 사본 중, 수십 개의 진화 하는 젊은 L1s 대부분의 개조 활동2를 차지 합니다. 그러나, 증거가 있다 심지어 일부 오래 된, 소급 적 인 L1s는 여전히 단백질을 손상 DNA를 생산할 수 있는30. 게놈 불안정성 및 질병에서 L1s의 역할을 충분히 인식 하기 위해, 궤적 특이 수준에서 L1 발현이 이해 되어야 한다. 그러나 l1과 관련이 없는 다른 RNAs에 내장 된 L1-관련 서 열의 높은 배경은 진정한 L1 표현을 해석 하는데 중요 한 과제가 된다. 식별 하 고 따라서 개별 L1 좌 위의 표현 패턴을 이해 하는 또 다른 도전은 많은 짧은 읽기 시퀀스가 하나의 고유 한 궤적에 매핑하는 것을 허용 하지 않는 그들의 반복적인 성격 때문에 발생 합니다. 이러한 과제를 극복 하기 위해, 우리는 RNA-서 열 데이터를 사용 하 여 개별적인 L1 좌 위의 발현을 식별 하는 전술한 접근법을 개발 하였다.
우리의 접근법은 높은 레벨을 필터링 합니다 (99% 이상). L1의 서 열에서 생성 된 전사 노이즈의 여러 단계를 취하여 L1-전치와 무관 하다. 첫 번째 단계는 세포질 RNA의 준비를 포함 한다. 세포질 RNA에 대 한 선택 하 여, L1 관련 된 읽기 핵에서 발현 된 인 트로 닉 mRNA 내에서 발견은 크게 고갈. 시퀀싱 라이브러리 준비에서, L1s 관련이 없는 전사 노이즈를 감소 시키기 위해 취한 또 다른 단계는 폴 리아 데 닐 화 전사체의 선택을 포함 한다. 이것은 비 mRNA 종에서 찾아낸 L1 관련 전사체 잡음을 제거 합니다. 다른 단계는 안티 센스 L1 관련 전사체를 동정 하 고 제거 하기 위해 스트랜드 특이 적 시퀀싱을 포함 한다. L1s에 매핑되는 RNA-서 열 전사체의 수를 동정 할 때 기능적인 프로모터 영역과 함께 전장 L1s 대 한 주석의 사용은 또한 잘린 L1s에서 비롯 된 배경 잡음을 제거 한다. 마지막으로, L1 소급 성과 관련이 없는 L1 서 열의 전사 잡음을 제거 하는 마지막 중요 한 단계는 RNA-서 열 전사체가 맵핑된 것으로 확인 된 전장 L1s의 수동 큐 레이 션 이다. 수동 큐 레이 션은 L1 프로모터 로부터 발현이 시작 되는 것을 확인 하기 위해 주변 게놈 환경의 맥락에서 각각의 생물 학적으로 식별 가능 하 게 표현 된 L1 궤적을 가시화 하는 것을 포함 한다. 이러한 접근법은 DU145, 전립선 종양 세포 라인에 적용 되었다. 배경 소음을 줄이기 위해 준비 관련 단계를 모두 수행 하는 경우에도 l1 좌 위의 약 50%가 다른 전사 소스에서 발생 하는 l1 배경 노이즈로 거부 되었습니다 (그림 4). 신뢰성 있는 결과를 생성 하는 데 필요한 엄격 함을 강조 합니다. 수동 큐 레이 션을 사용 하는이 접근법은 노동 집약적 이지만 전체 길이 L1을 둘러싼 게놈 환경을 평가 하 고 이해 하기 위해이 파이프라인을 개발 하는 데 필요 합니다. 다음 단계에는 일부 큐 레이 션 규칙을 자동화 하 여 필요한 수동 큐 레이 션의 양을 줄이는 것이 포함 되지만, 게놈 표현의 아직 완전히 알려지지 않은 성질로 인해, 참조 게놈에서 주석이 없는 소스 발현의 경우, 낮은 영역 mappability, 및 참조 게놈의 구성과 관련 된 복잡 한 요소도이 시점에서 L1 큐 레이 션을 완전히 자동화할 수 없습니다.
시퀀싱으로 개별 l1 좌 위의 발현을 식별 하는 두 번째 과제는 반복적인 L1 전사체의 매핑에 관한 것 이다. 이 정렬 전략에서는, 전사체가 맵핑 되기 위해 참조 게놈에 고유 하 고 동시에 선형적으로 정렬 되어야 합니다. 코드를 매핑하는 쌍을 이루는 끝 시퀀스를 선택 하면 참조 게놈에서 발견 되는 L1 좌 위에 고유 하 게 정렬 되는 전사체의 양이 증가 합니다. 이 독특한 매핑 전략은 특히 하나의 L1 궤적에 대 한 읽기 매핑의 호출에 자신감을 제공 합니다, 그것은 잠재적으로 식별 될 각각의 표현 량을 과소 평가 하지만, 반복적 인 L1. 이 과소 평가에 대해 대략 정확 하 게 하기 위해, 그 mappability에 기초한 각 L1 궤적에 대 한 “mappability” 점수는 고유 하 게 매핑된 전사체 판독의 수를 개발 하 고 적용 하였다 (도 6). 그것은 이상적으로, mappability는 일치 하는 WGS 샘플에 따라 전체 길이 L1에 걸쳐 전체 커버리지 읽기에 득점 해야한다. 여기에서, 우리는 DU145 전립선 종양 세포 주에 l1 좌 위에 매핑 읽기 팽창 또는 수축 하기 위해 각 L1 좌 위의 mapp 능력 점수를 결정 하기 위해 헬 라 셀의 wgs를 사용 합니다. 이 mappability 계산은 조 수정 점수입니다, 하지만 선택 된 ‘ 완전 한 커버리지 mappability ‘의 400 읽기는 마음에 종양 세포 주의 동적 특성으로 결정 되었다. 그것은 보충 그림 1에서 관찰 될 수 있다, 매핑된 읽기의 매우 높은 숫자와 함께 몇 L1 좌 위가 있다. 이러한 가능성이 그 좌 위 완전 한 mappability 범위를 대표 하는 것으로 선택 되지 않은 이유입니다, 참조 게놈 내에 있지 않습니다 헬 내에서 중복 된 염색체 서 열에서 온다. 대신에 보충도 1 에 따라 100%의 판독 커버리지의 평균이 400 읽기 전후에 발생 하 고이 평균이 DU145 종양 전립선 세포 라인에도 적용 된다고 가정 하였다.
100-200 bp와의이 정렬 전략은 RNA-서 열 기술 또한 우선적으로 이전 L1s 그들을 더 매핑 할 수 있도록 독특한 돌연변이 시간이 지남에 축적으로 참조 게놈 내에서 진화 한 오래 된 L1s에 대 한 선택. 이 접근법은 L1s의 최 연소 뿐만 아니라 비 참조 다형성 L1s 식별에 관해서 제한 된 감도를가지고 있습니다. L1s의 막내를 확인 하기 위해, 우리는 더 이상 읽기21을 사용 하 게 pacbio 같은 L1 전사체와 시퀀싱 기술의 5 ‘ 경주 선택을 사용 하는 것이 좋습니다. 이것은 더 독특한 맵핑을 허용 하 고 따라서 표현 된 젊은 L1s의 자신감 있는 식별을 가능 하 게 합니다. RNA-서 열 및 PacBio 접근법을 함께 사용 하면 진정으로 표현 된 L1s의 보다 포괄적인 목록으로 이어질 수 있습니다. 확실 하 게 표현 된 다형성 L1s를 식별 하기 위해 첫 번째 다음 단계는 참조 게놈에 다형성 서 열의 구성 및 삽입을 포함 합니다.
반복 시퀀스를 연구 하는 데 있어서 생물학적 및 기술적 과제는 큰 것 이지만, RNA 시퀀싱 기술을 사용 하 여 전환에 관한 L1 시퀀스의 전사 노이즈를 제거 하는 위의 엄격한 절차를 통해 선별 하기 시작 합니다. 전사 배경 소음의 큰 수준과 자신 있게 그리고 엄격 하 게 개별 궤적 수준에서 L1 식 패턴과 수량을 식별 하는 것입니다.
The authors have nothing to disclose.
우리는 DU145 전립선 종양 세포에 대 한 박사 얀 동에 게 감사 하 고 싶습니다. 우리는 슈퍼 컴퓨터 스크립트를 만드는 그의 지도와 조언에 네이 선 Ungerleider 감사 드립니다. 이 작품 중 일부는 PD에 GM121812 R01 NIH 교부 금, VPB에 AG057597 R01, 그리고 5TL1TR001418에 대 한 투자를 TK로 지원 했다. 우리는 또한 암 십자군과 Tulane 암 센터 생물 정보학 코어에서 지원을 인정 하 고 싶습니다.
1 M HEPES | Affymetrix | AAJ16924AE | |
5 M NaCl | Invitrogen | AM9760G | |
Agilent bioanalyzer 2100 | Agilent technologies | ||
Agilent RNA 6000 Nano Kit | Agilent technologies | 5067-1511 | |
bedtools.26.0 | https://bedtools.readthedocs.io/en/latest/content/installation.html | ||
bowtie-0.12.8 | https://sourceforge.net/projects/bowtie-bio/files/bowtie/0.12.8/ | ||
Cell scraper | Olympus plastics | 25-270 | |
Chloroform | Fisher | C298-500 | |
Digitonin | Research Products International Corp | 50-488-644 | |
Ethanol | Fisher | A4094 | |
Gibco (Phosphate Buffered Saline) | Invitrogen | 10-010-049 | |
Homogenizer | Thomas Scientific | BBI-8541906 | |
IGV 2.4 | https://software.broadinstitute.org/software/igv/download | ||
Isopropanol | Fisher | A416-500 | |
mac2unix | https://sourceforge.net/projects/cs-cmdtools/files/mac2unix/ | ||
Q-tips | Fisher | 23-400-122 | |
RNAse later solution | Invitrogen | AM7022 | |
RNaseZap RNase Decontamination Solution | Invitrogen | AM9780 | |
samtools-1.3 | https://sourceforge.net/projects/samtools/files/ | ||
sratoolkit.2.9.2 | https://github.com/ncbi/sra-tools/wiki/Downloads | ||
SUPERase·In RNase Inhibitor | Invitrogen | AM2694 | |
Trizol | Invitrogen | 15-596-018 | |
Water (DNASE, RNASE free) | Fisher | BP2484100 |