5. Những đĩng gĩp của luận văn
2.2. PHƯƠNG PHÁP NGHIÊN CỨU
2.2.1. Tách chiết mtDNA và giải trình tự bằng hệ thống máy Ion S5™ (Thermo Fisher Scientific)
Tách chiết mtDNA
Mẫu xương khảo cổ (răng và xương) được nghiền thành bột, bổ sung 700 µl EDTA 0.5M (pH 8.3) và ủ 37 độ C trong 24-48h. Thêm 20 µl Proteinase K, ủ ở 56 độ C trong 3h. Ly tâm 6000 rpm trong 4 phút, chuyển 200 µl dịch nổi sang ống EZ1 đựng mẫu. Tách chiết mtDNA bằng bộ kit chuyên dụng EZ1 DNA Investigator Kit tự động với máy EZ1 advanced XL [46]. Các mẫu tham chiếu được tách chiết bằng Chelex® [47].
Giải trình tự Sanger
Giải trình tự Sanger được thực hiện trên thiết bị 3500xL Genetic Analyzer sử dụng BigDye Terminator v3.1 Cycle Sequencing Kit (Applied Biosystems, TX, USA). Đối với các mẫu xương, cặp mini-primer được phát triển bởi Phịng thí nghiệm Nhận dạng DNA của Lực lượng Vũ trang (AFDIL) được sử dụng để giải trình tự hai vùng overlapping ở HV1 (vùng PS1: F15989 5’-CCCAAAGCTAAGATTCTAAT 3’, R16251 5’- GGAGTTGCAGTTGATGT 3’, và vùng PS2: F16190 5’-
GAGGATGGTGGTCAAGGGAC 3’) [48]. Đối với mẫu đối chứng, chỉ cĩ mồi F15989 và R16410 được sử dụng. Dữ liệu thu được từ giải trình tự Sanger được phân tích thơng qua phần mềm Sequencher v5.4.6 (GeneCodes, MI, USA). Sự thay đổi của các base so với trình tự tham chiếu đã cĩ sửa đổi của Cambridge (rCRS) [26] được lưu trữ lại.
Định lượng DNA
Định lượng mtDNA được tiến hành bởi in-house qPCR sử dụng các mồi đặc hiệu cho đoạn 170 bp ở vùng HV1 và đầu dị huỳnh quang TaqMan. Trình tự oligonucleotide lần lượt là: mồi xuơi F15989 5’-
CCCAAAGCTAAGATTCTAAT-3’, mồi ngược R16158 5’-
TACTACAGGTGGTCAAGTAT-3’, và đầu dị tự thiết kế 5’- FAM CCCATCAACAACCGCTATGTATT-MGB- 3’. Phản ứng khuếch đại qPCR được thực hiện với tổng 20 µl phản ứng bao gồm 1X Go Taq Probe qPCR Master Mix (Promega, WI, USA), 500 nM mỗi mồi, 250 nM mẫu dị, và 2 µl DNA đã được tách chiết. Chu kỳ gia nhiệt được bắt đầu bởi 1 chu kỳ 95°C trong 2 phút, sau đĩ là 40 chu kỳ 95°C trong 15 s, và một chu kỳ nhiệt cuối cùng 60°C trong 1 phút. Dịch pha lỗng 10 lần của 443 base pairs (bp) tinh sạch của sản phẩm PCR thuộc vùng HV1 (từ 0.006 pg đến 60 pg, xấp xỉ 6.58×104 to 6.58×108 bản sao) được sử dụng để dựng đường chuẩn. Hai mẫu đối chứng khơng cĩ mạch khuơn cũng được thêm vào thí nghiệm.
Chuẩn bị thư viện và giải trình tự
Chuẩn bị thư viện của các mẫu được thực hiện sử dụng Precision ID mtDNA Control Region Panel và Precision ID Library Kit 2.0 (Thermo Fisher Scientific, CA, USA) theo hướng dẫn của nhà sản xuất. Cho mỗi mẫu giải trình tự, hai PCR gộp mẫu được tiến hành để khuếch đại tồn bộ CR (control region) của DNA ty thể. Phương pháp “two-in-one” được áp dụng cho các mẫu xương sử dụng 6 μl DNA được tách chiết như mạch khuơn cho khuếch đại. Hai phản ứng multiplex PCR được thực hiện với một thể tích 20 μl theo sau đĩ là pooling nửa thể tích của cả pools để xây dựng thư viện. Trong khi, phương pháp tiết kiệm (“conservative” method) được sử dụng cho các mẫu tham chiếu đối chứng, khi tổng 10 μl của sản phẩm PCR đã khuếch đại từ 0.1 ng DNA đầu vào trong giếng thứ nhất và lượng như nhau của sản phẩm PCR trong giếng thứ hai được kết hợp với nhau. Các thư viện đã được gộp được
phân hủy một phần các đoạn mồi bằng enzyme FUPA và sau đĩ được nối với các adapter và các barcode đặc trưng. Tinh sạch các thư viện với 1.5x AMPure XP beads (Beckman Coulter, CA, USA). Mỗi thư viện được định lượng hai lần sử dụng Quantifiler Trio kit và Ion Library TaqMan Quantitation Kit (Thermo Fisher Scientific, TX, USA) trên hệ thống 7500 Real-Time PCR và chuẩn hĩa về nồng độ cuối cùng là 30 pM. Các thư viện của 6 mẫu xương và mẫu đối chứng âm được phân bố vào hai chip Ion520 và giải trình tự trên hệ thống Ion S5™.
2.2.2. Phân tích đánh giá chất lượng giải trình tự của hệ thống Ion S5™ bằng phần mềm FastQC Ion S5™ bằng phần mềm FastQC
Trình tự thu được sau khi giải trình tự được đưa vào phần mềm FastQC [49] để loại bỏ các trình tự chất lượng thấp (QC < 30) và kiểm tra xem mồi cịn cĩ mặt trong các trình tự hay khơng.
2.2.3. Map các đoạn đọc (reads) với hệ gen tham chiếu và lọc chất lượng bằng phần mềm bwa, samtools chất lượng bằng phần mềm bwa, samtools
Bwa aln tìm tọa độ (suffix array) SA của các đoạn đọc đầu vào. Các thơng số được sử dụng bao gồm -l 1000 vơ hiệu hĩa các seed để sử dụng cho các đoạn đọc ty thể cổ (aDNA). Bwa samse tạo các căn chỉnh (agliment) ở định dạng SAM cho các đoạn đọc single – end (đầu ra của bước giải trình tự chỉ xuất một dạng đoạn đọc với một chiều duy nhất). samtools hiển thị đầu ra trước đĩ dưới dạng tệp BAM (b), đầu vào là SAM (S) và bao gồm tiêu đề - header (h). Sau đĩ, samtools lọc ra những lần đọc chưa được sắp xếp và chất lượng thấp. -q hiển thị kết quả đầu ra trước đĩ dưới dạng tệp BAM (b) và bao gồm tiêu đề (h), nhưng bỏ qua căn chỉnh với MAPQ nhỏ hơn 30 (-q 30) và căn chỉnh cĩ đánh dấu 4 (phân đoạn 0x4 khơng được ánh xạ). Tiếp đĩ, loại bỏ các bản sao PCR tiềm năng: nếu nhiều cặp đọc cĩ tọa độ bên ngồi giống hệt nhau, chỉ giữ lại cặp cĩ chất lượng ánh xạ cao nhất. Loại bỏ bản sao cho các đoạn đọc single - end.
2.2.4. Ước tính các mẫu bị tổn thương (deamination) và chỉnh lại các file BAM bằng phần mềm mapDamage
Sử dụng mapDamage [50] để ước tính các tổn thương của các mẫu DNA cổ. Đồng thời, sử dụng --rescale để chỉnh lại chất lượng ánh xạ trong khi tính các tổn thương. Điều này quan trọng đối với các lệnh gọi kiểu gen sau này. Hơn nữa, vì một số mẫu sẽ khơng cĩ nhiều lượt đọc (ví dụ: khoảng trống hoặc mẫu cĩ hàm lượng nội sinh thấp) nên cần tạo một ngưỡng ra. Điều này đảm bảo rằng các mẫu cĩ quá ít lần đọc để chỉnh vẫn cĩ thể được xử lý trong bước tiếp theo bằng cách sao chép tệp .bam chưa được chỉnh vào quy trình tiếp theo.
2.2.5. Gọi các biến thể (variants) và tạo ra VCF (Variant Call Format)
Ở bước này sử dụng samtools [51] và bcftools [51] để tạo ra các lần gọi kiểu gen. Theo mặc định, quá trình này được cho là dành cho các sinh vật lưỡng bội vì vậy để sử dụng nĩ với mtDNA, chúng ta cần chỉ định rằng ploidy = 1 bằng cách sử dụng một tệp văn bản cĩ chứa tên tệp và ploidy. Sử dụng samtools mpileup để tạo tệp vcf từ tệp bam và chế độ xem bcftools để cài đặt thêm và lọc tệp VCF/BCF. Sau đĩ chạy samtools với các tùy chọn sau: -f đầu vào tham chiếu được lập chỉ mục, -u tính tốn khả năng kiểu gen và xuất chúng ở định dạng gọi nhị phân (BCF) khơng được nén, - C 50 Hệ số hạ cấp chất lượng ánh xạ cho các lần đọc chứa quá nhiều khơng khớp, 50 là giá trị được khuyến nghị cho các căn chỉnh BWA. Đầu ra cuối cùng ở giai đoạn này là hai tệp VCF, một tệp được lọc cho độ bao phủ của các đoạn đọc lớn 1x và tệp cịn lại thì khơng. Các tệp VCF được tạo ra cĩ thể được sử dụng làm đầu vào cho mtDNA haplotyping trong Haplogrep.
2.2.6. Tạo file consensus và kiểm tra nhiễm với Schmutzi
Quy trình làm việc của Schmutzi [52]: Ước tính nhiễm ban đầu được tính tốn bằng cách điều chỉnh ở một đầu của trình tự bị hủy và so sánh chúng với tỷ lệ hủy của tất cả các đoạn trong tập dữ liệu (contDeam). Bước này được cung cấp để gọi một consensous (là thứ tự được tính tốn của các nucleotit được tìm thấy ở mỗi vị trí theo sắp xếp trình tự) nội sinh (endoCaller). Tiếp theo, việc gọi consensous được sử dụng để ước tính lại sự nhiễm ty thể (mtCont). Tỷ lệ hủy và phân bố chiều dài đoạn được đo cho các đoạn hỗ trợ bộ gen ty thể nội sinh và nhiễm (splitEndo). Thơng tin từ mtCont và splitEndo được sử dụng làm đầu vào để gọi lại consensous nội sinh (endoCaller). Chu trình này được lặp lại cho đến khi đạt được tỷ lệ nhiễm ổn định hoặc tìm ra nhiễm.
2.2.7. Xác định nhĩm haplogroup bằng HaploGrep2
Các tệp VCF được tạo ra bởi samtools ở bước trước đĩ được sử dụng làm đầu vào cho việc phân loại haplogroup (một nhĩm của các alleles trong mỗi sinh vật được di truyền cùng nhau từ một bố mẹ) của mtDNA trong Haplogrep2 [53]. Bản thân việc phân loại haplogroup dựa trên mức độ phát sinh lồi được tính tốn trước tương ứng với sự xuất hiện trên mỗi vị trí trong Phylotree và phản ánh tính ổn định đột biến của một biến thể. Đầu ra của HaploGrep2 bao gồm: báo cáo các haplogroup bao gồm vị trí, tên haplogroup, điểm chất lượng, các đa hình, các thay đổi axit amin tương ứng.
2.2.8. Dựng cây phát sinh chủng loại thơng qua phần mềm MEGA MEGA
Dựa vào các haplogroup đã được xác định trước đĩ, xác định các mẫu ty thể thuộc cùng haplogroup để xây dựng cây phát sinh chủng loại bằng MEGA [54].
CHƯƠNG 3. KẾT QUẢ VÀ THẢO LUẬN
3.1. Kết quả tách chiết mtDNA và giải trình tự bằng hệ thống máy Ion S5™ (Thermo Fisher Scientific)
3.1.1. Kết quả tách chiết mtDNA
Các mẫu xương khảo cổ được cung cấp bởi Viện khảo cổ và Trung tâm Tiền sử Đơng Nam Á cĩ tuổi được xác định dựa trên đồng vị cacbon 14 cách ngày nay khoảng 6400 năm, thuộc nền văn hĩa Đa Bút, hậu thời kỳ đồ đá mới (late neolithic).
Mẫu số 1: ký hiệu K1A06
Loại mẫu: 01 xương dài (Xương đùi) Màu sắc: cĩ màu nâu
Chất lượng mẫu: cịn cứng rắn
Hình 3.1: Mẫu xương đùi – K1A06
Mẫu số 2: ký hiệu K1B07 Loại mẫu: 04 mảnh Màu sắc: cĩ màu nâu
Chất lượng mẫu: cịn cứng rắn tuy nhiên 2 đầu xương đã bị gãy, trong quá trình phục chế đã dùng thạch cao để bịt lại 2 đầu bị gãy
Mẫu số 3: ký hiệu K1B05 Loại mẫu: 06 xương dài Màu sắc: cĩ màu nâu
Chất lượng mẫu: Cịn cứng rắn tuy nhiên đầu xương đã bị gãy, trong quá trình phục chế đã dùng thạch cao để bịt lại 2 đầu bị gãy
Hình 3.3: Mẫu 6 xương dài - K1B05
Mẫu số 4: ký hiệu K1B10A
Loại mẫu: 02 xương dài và các mảnh xương nhỏ Màu sắc: cĩ màu nâu
Chất lượng mẫu: Cịn cứng rắn tuy nhiên các xương đã bị gãy nát nhiều, trong quá trình phục chế đã dùng thạch cao để bịt lại 2 đầu bị gãy
Mẫu số 5: ký hiệu K1B08
Loại mẫu: 03 xương dài và nhiều mảnh xương nhỏ Màu sắc: cĩ màu nâu
Chất lượng mẫu: các xương dài cịn cứng rắn tuy nhiên đầu xương đã bị gãy, trong quá trình phục chế đã dùng thạch cao để bịt lại đầu bị gãy. Các mảnh xương nhỏ đã bị gãy nát, chất lượng kém.
Hình 3.5: Mẫu xương K1B08
Mẫu số 6: ký hiệu K1B10
Loại mẫu: nhiều mảnh xương đã gãy nát Màu sắc: cĩ màu nâu
Chất lượng mẫu: Cịn cứng rắn tuy nhiên đầu xương đã bị gãy, trong quá trình phục chế đã dùng thạch cao để bịt lại đầu bị gãy.
Hình 3.6: Mẫu xương gãy nát K1B10
Mẫu vật sau khi được làm sạch, làm khơ ở nhiệt độ 56℃ trong vịng 2- 3 giờ sẽ được chuyển sang bước xử lí tiền tách chiết. Ở bước này, mẫu sẽ được nghiền thành dạng bột mịn chia ra thành các ống nhỏ mỗi ống khoảng 200mg bột để xử lí bước tách chiết sau này.
Hình 3.7: Các mẫu xương sau khi nghiền mịn
Trước khi giải trình tự Sanger các mẫu tách chiết được điện di sản phẩm PCR với cặp mồi miniset PS1 và PS2 trên gel agarose 2% để kiểm tra hiệu quả của quá trình tách chiết.
- + - + - + M M M M PS1 PS2 A B
Hình 3.8: Kết quả điện di sản phẩm PCR với cặp mồi miniset PS1 và PS2 trên gel agarose 2%. - + - + M M M M PS1 PS2 PS1 PS1 PS2 PS2 C D E F
A, B, C, D, E, F lần lượt là các kết quả điện di mtDNA được tách chiết từ mẫu xương K1B10A, K1B07, K1A06, K1B05, K1B08, K1B10. (+): mẫu đối
chứng dương, (-): mẫu đối chứng âm, M: 100 bp DNA marker, PS (PCR primer sets): các cặp mồi sử dụng trong PCR.
Hình ảnh điện di sản phẩm mtDNA đã được tinh sạch cho thấy khả năng tách chiết chiết DNA từ mẫu xương cổ rất kém. Chỉ cĩ 2 mẫu hiện band của DNA tương ứng với PS1 (263bp: mồi xuơi bắt đầu từ mucleotide ở vị trí 15989, mồi ngược bắt đầu từ nucleotide ở vị trí 16251) và PS2 (271bp: mồi xuơi bắt đầu từ mucleotide ở vị trí 15, mồi ngược bắt đầu từ nucleotide ở vị trí 285) của vùng HV1 (342bp: kéo dài từ nucleotide ở vị trí 16024 đến nucleotide ở vị trí 16365) đĩ là mẫu xương K1A06 và mẫu xương K1B05. Đây cũng là hai mẫu cĩ chất lượng tốt nhất. Hai mẫu này được lựa chọn để tiếp tục giải trình tự Sanger. Phân tích trình tự Sanger thu được trên phần mềm Sequencher giúp giảm thiểu các heteroplasmy trên trình tự thuộc vùng HV1. Việc này giúp gia tăng độ chính xác khi đối chiếu lại với trình tự tồn bộ hệ gen ty thể giải trình tự bằng máy giải trình tự thế hệ mới Ion S5™.
Nguyên tắc chung của tách chiết DNA từ bột xương thường bao gồm các bước sau đây: Ủ trong đệm ly giải để phá vỡ cấu trúc mơ và tế bào về mặt hĩa học, tiếp theo là bước ủ trong dung dịch đệm liên kết muối nồng độ cao hỗ trợ liên kết DNA với silica. DNA sau đĩ được rửa bằng dung dịch gốc etanol để giảm thiểu sự mang chất ức chế và rửa giải trong dung dịch đệm muối nồng độ thấp. Phương pháp của Loreille [55] và Dabney [56] là các phương pháp thường được sử dụng để tách chiết mtDNA trong các mẫu cổ đại [57]. Trong những năm gần đây phương pháp của Dabney [56] thường được lựa chọn để sử dụng với các mẫu cĩ tuổi rất cao [58–60]. Kết quả so sánh cho thấy, theo phương pháp Dabney [56] với 50 mg mẫu cho lượng DNA được tách chiết là cao nhất với các mẫu xương cĩ tuổi khác nhau, đặc biệt là mẫu 2000 năm tuổi (0.035 pg/mg). Hàm lượng mẫu 50mg cũng là thơng số được lựa chọn trong quy trình tách chiết của luận văn này. Kit Qiagen EZ1 DNA cũng được lựa chọn để tách chiết mtDNA từ các mẫu bị phá huỷ nặng theo thời gian, đĩ là mẫu từ xương của lính tham gia thế chiến thứ II [61] và mẫu 750 năm tuổi [62]. Mẫu thế chiến thứ II cĩ tuổi cách đây khơng quá xa và khơng phát hiện tổn thương DNA, hiệu suất tách chiết DNA
tốt, mẫu 750 tuổi, theo định lượng Quantifiler Trio DNA, lượng thấp DNA thu được từ răng, trong khi hàm lượng DNA thu được từ xương đủ ngưỡng để kit phát hiện (0.0523 ng/μl và 0.0407 ng/μl lần lượt với mẫu trưởng thành và mẫu thiếu nhi).
Kiểm tra nồng độ DNA đầu vào sử dụng bộ Quantifiler Trio kit (ThermoFisher, USA).
Bảng 3.1: Kết quả kiểm tra nồng độ DNA đầu vào sử dụng bộ Quantifiler Trio kit (ThermoFisher, USA)
Well Sample name Sample type Quantity Quantity Mean (ng/µL) M:F Ratio Mean M:F Ratio Degradation Index Degradation Index Mean G5 Xuong co 1 UnKnown 0,00 0,00 - - - - G6 Xuong co 2 UnKnown 0,00 0,00 - - - -
Kết quả cho thấy mẫu xương khảo cổ dưới ngưỡng định lượng của kit (0.005 ng/uL), do đĩ khơng hiện thơng số với các chỉ số khi kiểm tra nồng độ DNA đầu vào (Bảng 3.1). Sau đĩ, tiến hành định lượng thư viện sau chuẩn bị bằng Ion Library Taqman Quantification kit, kết quả chi tiết tại bảng 3.2.
Bảng 3.2: Kết quả định lượng thư viện sau chuẩn bị bằng Ion Library Taqman Quantification kit (ThermoFisher, USA)
Well Sample Name Quantity (pM) Target pM Stock(µL) H2O (µL)
F11 Xuong co 1 (Manual) 3612,040527 30 2 238,80 E11 Xuong co 2 (Manual) 3090,441162 30 2 204,03
Các thơng số định lượng thư viện cho thấy thư viện đạt chất lượng để tiến hành giải trình tự.
3.1.2. Kết quả giải trình tự bằng hệ thống máy Ion S5™ (Thermo Fisher Scientific)
Bảng báo cáo các thơng số giải trình tự cho thấy tổng dung lượng dữ liệu thu được: 147 Mbases. 1.4 triệu read. ISP loading 27% (hình 3.9). Với thơng số này cho thấy lần giải trình tự này chưa khai thác được hết dung lượng của chip giải trình tự. Trong những lần giải trình tự sau này chúng tơi