5. Những đĩng gĩp của luận văn
2.2.8. Dựng cây phát sinh chủng loại thơng qua phần mềm MEGA
MEGA
Dựa vào các haplogroup đã được xác định trước đĩ, xác định các mẫu ty thể thuộc cùng haplogroup để xây dựng cây phát sinh chủng loại bằng MEGA [54].
CHƯƠNG 3. KẾT QUẢ VÀ THẢO LUẬN
3.1. Kết quả tách chiết mtDNA và giải trình tự bằng hệ thống máy Ion S5™ (Thermo Fisher Scientific)
3.1.1. Kết quả tách chiết mtDNA
Các mẫu xương khảo cổ được cung cấp bởi Viện khảo cổ và Trung tâm Tiền sử Đơng Nam Á cĩ tuổi được xác định dựa trên đồng vị cacbon 14 cách ngày nay khoảng 6400 năm, thuộc nền văn hĩa Đa Bút, hậu thời kỳ đồ đá mới (late neolithic).
Mẫu số 1: ký hiệu K1A06
Loại mẫu: 01 xương dài (Xương đùi) Màu sắc: cĩ màu nâu
Chất lượng mẫu: cịn cứng rắn
Hình 3.1: Mẫu xương đùi – K1A06
Mẫu số 2: ký hiệu K1B07 Loại mẫu: 04 mảnh Màu sắc: cĩ màu nâu
Chất lượng mẫu: cịn cứng rắn tuy nhiên 2 đầu xương đã bị gãy, trong quá trình phục chế đã dùng thạch cao để bịt lại 2 đầu bị gãy
Mẫu số 3: ký hiệu K1B05 Loại mẫu: 06 xương dài Màu sắc: cĩ màu nâu
Chất lượng mẫu: Cịn cứng rắn tuy nhiên đầu xương đã bị gãy, trong quá trình phục chế đã dùng thạch cao để bịt lại 2 đầu bị gãy
Hình 3.3: Mẫu 6 xương dài - K1B05
Mẫu số 4: ký hiệu K1B10A
Loại mẫu: 02 xương dài và các mảnh xương nhỏ Màu sắc: cĩ màu nâu
Chất lượng mẫu: Cịn cứng rắn tuy nhiên các xương đã bị gãy nát nhiều, trong quá trình phục chế đã dùng thạch cao để bịt lại 2 đầu bị gãy
Mẫu số 5: ký hiệu K1B08
Loại mẫu: 03 xương dài và nhiều mảnh xương nhỏ Màu sắc: cĩ màu nâu
Chất lượng mẫu: các xương dài cịn cứng rắn tuy nhiên đầu xương đã bị gãy, trong quá trình phục chế đã dùng thạch cao để bịt lại đầu bị gãy. Các mảnh xương nhỏ đã bị gãy nát, chất lượng kém.
Hình 3.5: Mẫu xương K1B08
Mẫu số 6: ký hiệu K1B10
Loại mẫu: nhiều mảnh xương đã gãy nát Màu sắc: cĩ màu nâu
Chất lượng mẫu: Cịn cứng rắn tuy nhiên đầu xương đã bị gãy, trong quá trình phục chế đã dùng thạch cao để bịt lại đầu bị gãy.
Hình 3.6: Mẫu xương gãy nát K1B10
Mẫu vật sau khi được làm sạch, làm khơ ở nhiệt độ 56℃ trong vịng 2- 3 giờ sẽ được chuyển sang bước xử lí tiền tách chiết. Ở bước này, mẫu sẽ được nghiền thành dạng bột mịn chia ra thành các ống nhỏ mỗi ống khoảng 200mg bột để xử lí bước tách chiết sau này.
Hình 3.7: Các mẫu xương sau khi nghiền mịn
Trước khi giải trình tự Sanger các mẫu tách chiết được điện di sản phẩm PCR với cặp mồi miniset PS1 và PS2 trên gel agarose 2% để kiểm tra hiệu quả của quá trình tách chiết.
- + - + - + M M M M PS1 PS2 A B
Hình 3.8: Kết quả điện di sản phẩm PCR với cặp mồi miniset PS1 và PS2 trên gel agarose 2%. - + - + M M M M PS1 PS2 PS1 PS1 PS2 PS2 C D E F
A, B, C, D, E, F lần lượt là các kết quả điện di mtDNA được tách chiết từ mẫu xương K1B10A, K1B07, K1A06, K1B05, K1B08, K1B10. (+): mẫu đối
chứng dương, (-): mẫu đối chứng âm, M: 100 bp DNA marker, PS (PCR primer sets): các cặp mồi sử dụng trong PCR.
Hình ảnh điện di sản phẩm mtDNA đã được tinh sạch cho thấy khả năng tách chiết chiết DNA từ mẫu xương cổ rất kém. Chỉ cĩ 2 mẫu hiện band của DNA tương ứng với PS1 (263bp: mồi xuơi bắt đầu từ mucleotide ở vị trí 15989, mồi ngược bắt đầu từ nucleotide ở vị trí 16251) và PS2 (271bp: mồi xuơi bắt đầu từ mucleotide ở vị trí 15, mồi ngược bắt đầu từ nucleotide ở vị trí 285) của vùng HV1 (342bp: kéo dài từ nucleotide ở vị trí 16024 đến nucleotide ở vị trí 16365) đĩ là mẫu xương K1A06 và mẫu xương K1B05. Đây cũng là hai mẫu cĩ chất lượng tốt nhất. Hai mẫu này được lựa chọn để tiếp tục giải trình tự Sanger. Phân tích trình tự Sanger thu được trên phần mềm Sequencher giúp giảm thiểu các heteroplasmy trên trình tự thuộc vùng HV1. Việc này giúp gia tăng độ chính xác khi đối chiếu lại với trình tự tồn bộ hệ gen ty thể giải trình tự bằng máy giải trình tự thế hệ mới Ion S5™.
Nguyên tắc chung của tách chiết DNA từ bột xương thường bao gồm các bước sau đây: Ủ trong đệm ly giải để phá vỡ cấu trúc mơ và tế bào về mặt hĩa học, tiếp theo là bước ủ trong dung dịch đệm liên kết muối nồng độ cao hỗ trợ liên kết DNA với silica. DNA sau đĩ được rửa bằng dung dịch gốc etanol để giảm thiểu sự mang chất ức chế và rửa giải trong dung dịch đệm muối nồng độ thấp. Phương pháp của Loreille [55] và Dabney [56] là các phương pháp thường được sử dụng để tách chiết mtDNA trong các mẫu cổ đại [57]. Trong những năm gần đây phương pháp của Dabney [56] thường được lựa chọn để sử dụng với các mẫu cĩ tuổi rất cao [58–60]. Kết quả so sánh cho thấy, theo phương pháp Dabney [56] với 50 mg mẫu cho lượng DNA được tách chiết là cao nhất với các mẫu xương cĩ tuổi khác nhau, đặc biệt là mẫu 2000 năm tuổi (0.035 pg/mg). Hàm lượng mẫu 50mg cũng là thơng số được lựa chọn trong quy trình tách chiết của luận văn này. Kit Qiagen EZ1 DNA cũng được lựa chọn để tách chiết mtDNA từ các mẫu bị phá huỷ nặng theo thời gian, đĩ là mẫu từ xương của lính tham gia thế chiến thứ II [61] và mẫu 750 năm tuổi [62]. Mẫu thế chiến thứ II cĩ tuổi cách đây khơng quá xa và khơng phát hiện tổn thương DNA, hiệu suất tách chiết DNA
tốt, mẫu 750 tuổi, theo định lượng Quantifiler Trio DNA, lượng thấp DNA thu được từ răng, trong khi hàm lượng DNA thu được từ xương đủ ngưỡng để kit phát hiện (0.0523 ng/μl và 0.0407 ng/μl lần lượt với mẫu trưởng thành và mẫu thiếu nhi).
Kiểm tra nồng độ DNA đầu vào sử dụng bộ Quantifiler Trio kit (ThermoFisher, USA).
Bảng 3.1: Kết quả kiểm tra nồng độ DNA đầu vào sử dụng bộ Quantifiler Trio kit (ThermoFisher, USA)
Well Sample name Sample type Quantity Quantity Mean (ng/µL) M:F Ratio Mean M:F Ratio Degradation Index Degradation Index Mean G5 Xuong co 1 UnKnown 0,00 0,00 - - - - G6 Xuong co 2 UnKnown 0,00 0,00 - - - -
Kết quả cho thấy mẫu xương khảo cổ dưới ngưỡng định lượng của kit (0.005 ng/uL), do đĩ khơng hiện thơng số với các chỉ số khi kiểm tra nồng độ DNA đầu vào (Bảng 3.1). Sau đĩ, tiến hành định lượng thư viện sau chuẩn bị bằng Ion Library Taqman Quantification kit, kết quả chi tiết tại bảng 3.2.
Bảng 3.2: Kết quả định lượng thư viện sau chuẩn bị bằng Ion Library Taqman Quantification kit (ThermoFisher, USA)
Well Sample Name Quantity (pM) Target pM Stock(µL) H2O (µL)
F11 Xuong co 1 (Manual) 3612,040527 30 2 238,80 E11 Xuong co 2 (Manual) 3090,441162 30 2 204,03
Các thơng số định lượng thư viện cho thấy thư viện đạt chất lượng để tiến hành giải trình tự.
3.1.2. Kết quả giải trình tự bằng hệ thống máy Ion S5™ (Thermo Fisher Scientific)
Bảng báo cáo các thơng số giải trình tự cho thấy tổng dung lượng dữ liệu thu được: 147 Mbases. 1.4 triệu read. ISP loading 27% (hình 3.9). Với thơng số này cho thấy lần giải trình tự này chưa khai thác được hết dung lượng của chip giải trình tự. Trong những lần giải trình tự sau này chúng tơi đã giải quyết được khuyết điểm này. Tăng tỉ lệ Loading lên trên 90%.
Biểu đồ độ dài đoạn đọc cho thấy đoạn đọc phân bố chủ yếu từ 50- 150bp. Đoạn đọc trung bình là 86bp rất thích hợp với thiết kế của bộ kit.
Biểu đồ tín hiệu Flows cho thấy peak tín hiệu khoảng 68 (hình 3.9). Hơi thấp so với các mẫu chuẩn là 85. Chứng tỏ chất lượng thư viện của các mẫu xương lâu năm khá là kém.
3.2. Phân tích đánh giá chất lượng giải trình tự của hệ thống Ion S5™ bằng phần mềm FastQC Ion S5™ bằng phần mềm FastQC
Hình 3.10: Chất lượng trình tự của mẫu xương cổ thứ nhất (CCNM24WG)
Hai trình tự ty thể thu được sau giải trình tự với hệ thống Ion S5™ cĩ tên gọi là CCNM24WG và CCNM55WG. Các trình tự này được kiểm tra về điểm chấtlượng (QC), đã loại bỏ adapter hay chưa. Kết quả thu được từ phần mềm FastQC cho thấy, cả hai trình tự này đều đã được loại bỏ adapter và cĩ chất lượng trình tự khá tốt (phần lớn QC > 20) (Hình 3.10 và Hình 3.11). Điều này cho thấy chất lượng trình tự thu được sau giải trình tự cĩ độ tin cậy cao. Các thơng tin chi tiết về chất lượng trình tự được trình bày trong bảng 3.3.
Bảng 3.3: Chất lượng mỗi trình tự thu được của CCNM24WG và CCNM55WG Quality Sequence name CCNM24WG CCNM55WG 14 5 7 15 72 111 16 415 464 17 1250 1519 18 2668 2816 19 3991 4214 20 4923 5113 21 5253 5303 22 5447 5557 23 5985 6076 24 6868 6873 25 8085 8030 26 9802 9219 27 12052 10640 28 15522 12900 29 21406 16343 30 32707 24522 32 54534 41010 32 56821 38246 33 2384 1760 34 1 0
3.3. Map các đoạn đọc (reads) với hệ gen tham chiếu và lọc chất lượng bằng phần mềm bwa, samtools chất lượng bằng phần mềm bwa, samtools
Hệ gen tham chiếu được sử dụng là Reconstructed Sapiens Reference Sequence (RSRS). Reconstructed Sapiens Reference Sequence - (RSRS) là một trình tự mtDNA tham chiếu sử dụng cả việc lấy mẫu tồn cầu của mẫu người hiện đại và mẫu từ người các bộ tộc cổ đại. Nĩ được giới thiệu vào đầu năm 2012 (Behar et al., 2012) để thay thế cho rCRS (trình tự tham chiếu Cambridge đã sửa đổi). Bởi vì nĩ dựa trên kiểu haplotype của tổ tiên chung cho cả người hiện đại và các nhĩm cổ đại như người Neanderthal.
Bwa aln lấy file trình tự tham chiếu (RSRS.fasta) và file ty thể thu được sau giải trình tự (CCNM24WG.fastq và CCNM55WG.fastq) làm đầu vào. bwa samse sử dụng CCNM24WG.aln.sai – đầu ra từ bwa aln để tạo ra SAM file (aln.sam) từ alignments cho các đoạn đọc single-end. samtools hiển thị đầu ra trước đĩ dưới dạng tệp BAM (CCNM24WG.aln.bam). "-q30" bỏ qua các alignment với MAPQ nhỏ hơn 30 (mapping quality: mơ tả tính duy nhất của alignments, 0 = khơng phải duy nhất, > 10 cĩ thể là duy nhất. Nếu xác suất của một lần ánh xạ (map) đúng tăng lên 0,999, điểm MAPQ sẽ tăng lên 30), samtools view sẽ loại bỏ các đoạn đọc khơng map hoặc map tại vùng lặp
lại. Đầu ra cuối cùng là file
3.4. Ước tính các mẫu bị tổn thương (deamination) và chỉnh lại các file BAM bằng phần mềm mapDamage lại các file BAM bằng phần mềm mapDamage
Hình 3.13: Thơng tin tổn thương DNA cổ đại của mẫu CCNM24WG được tạo ra bởi mapDamage 2.0
Hình 3.14: Thơng tin tổn thương DNA cổ đại của mẫu CCNM55WG được tạo ra bởi mapDamage 2.0
Bốn hình phía trên thể hiện tần số base trong và ngồi các đoạn đọc, nơi mà các hộp màu xám khơng khép kín tương đương với một đoạn đọc. Hai
hình bên dưới thể hiện vị trí thay thế base đặc trưng từ đầu 5’ (trái) và đầu 3’ (phải) của một đoạn đọc. Đường màu đỏ tương ứng với thay thế C thành T, đường màu xanh dương tương ứng với thay thế G thành A, các đường mờ cịn
lại là các loại thay thế base khác.
Kết quả cho thấy hai mẫu DNA đều cĩ tổn thương DNA, cụ thể là sự khử amin và sự phân mảnh. Sự thay thế C thành T diễn ra đầu tiên đầu 5’, sự thay thế G thành A diễn ra đầu tiên ở đầu 3’. Ở bước này tùy chọn - - rescale
tạo ra file BAM đã được để chỉnh lại chất lượng ánh xạ trong khi tính các tổn
thương (CCNM24WG.uniq.rescaled.bam và
CCNM55WG.uniq.rescaled.bam). Các file này sẽ được sử dụng làm đầu vào cho bước gọi biến thể và tạo consensous file.
3.5. Gọi các biến thể (variants) và tạo ra VCF (Variant Call Format) Format)
File BAM đã được rescaled với mapDamage được sử dụng làm đầu vào cho việc gọi biến thể sử dụng samtools mpileup để tạo file vcf từ file bam và bcftools view để thêm các cài đặt để tùy chỉnh và lọc file VCF. Đầu ra cuối cùng ở giai đoạn này là hai tệp VCF, một tệp được lọc cho độ bao phủ của các đoạn đọc lớn 1x và tệp cịn lại thì khơng. Các tệp VCF được tạo ra cĩ thể được sử dụng làm đầu vào cho mtDNA haplotyping trong Haplogrep2.
3.6. Tạo file consensus và kiểm tra nhiễm với Schmutzi
Nhiệm vụ ước tính sự nhiễm của mtDNA của người hiện đại gắn liền với vấn đề ước đốn hệ gen ti thể nội sinh. Ngược lại, chiến lược được sử dụng để ước đốn bộ gen nội sinh phụ thuộc nhiều vào mức độ nhiễm của mtDNA của người hiện đại. Nguyên tắc xác định ước tính nhiễm mtDNA của người hiện đại bằng cách sử dụng tần số thay thế C thành T ở cuối các đoạn đọc. Tỷ lệ kết hợp sai cho các mảnh nội sinh cĩ thể thu được bằng cách sử dụng quy trình điều hịa kép, nhờ đĩ các đoạn bị hủy ở đầu 5’ của chúng được giữ lại và sự hủy ở đầu 3’ được đo và ngược lại. Ước tính nhiễm mtDNA của người hiện đại sẽ dựa trên cơ sở mỗi phân mảnh thay vì mỗi base.
% contDeam.pl --lengthDeam [length] --library [library type] --out [output prefix] [mt reference] [input bam file]
--lengthDeam [length]: chiều dài dạng số nguyên [length] là số lượng
các nucleotide sẽ được thuật tốn xem xét khi ước tính mức độ nhiễm mtDNA của người hiện đại. Độ dài này cĩ thể thay đổi từ 20-40 đối với protocol sợi đơi, từ 2 đến 5 đối với protocol sợi đơn cĩ xử lý UDG.
--library [type]: loại protocol được dùng để chuẩn bị thư viện được sử
dụng để tính loại các dạng phân hủy. Hiện tại, cĩ hai giá trị cĩ thể cĩ cho [type], “single” theo quy trình Meyer et al. (2012), hoặc tương đương, và “double” theo quy trình Meyer and Kircher (2010), hoặc tương đương.
Ước tính nhiễm mtDNA của người hiện đại sẽ được ghi vào một tệp cĩ tên là [output prefix].cont.est và hình dạng của phân phối xác suất sau đĩ sẽ được vẽ biểu đồ cho tệp [output prefix].cont.pdf. Tỷ lệ thiệt hại sau khi phân hủy đối với các mảnh nội sinh các phân đoạn sẽ được tạo cho 5 ’và 3’ được ghi vào các tệp được gọi là [output prefix].endo.5p.prof và [output prefix].endo.3p.prof tương ứng. Đầu ra của contDeam.pl sẽ được sử dụng làm đầu vào cho endoCaller. Mơ hình con này nhằm mục đích tạo ra trình tự của bộ gen ty thể nội sinh cĩ ước đốn trước về sự nhiễm mtDNA của người hiện đại, tỷ lệ tổn thương sau khi phân hủy cũng như sự phân bố chiều dài đoạn cho các mảnh nội sinh và các mảnh nhiễm một cách độc lập. Khi đã cĩ được bộ gen ti thể nội sinh, sự nhiễm mtDNA của người hiện đại cĩ thể được ước tính bằng cách sử dụng mtCont.
% mtCont -deam5p [output prefix].endo.5p.prof -deam3p [output prefix].endo.3p.prof [output prefix].log [mt reference] [input bam file]
[contaminant profile 1] [contaminant profile 2] ...
Trong đĩ [output prefix].log được tạo ra bởi endoCaller, cả hai file .prof files đều thu được từ contDeam.pl. Các file [contaminant profile N] là các tần số allele cho các nhĩm con khác nhau được coi là nguồn nhiễm tiềm ẩn. Các tần số alen cho một tập hợp các haplogroup của con người được cung cấp cùng với gĩi phần mềm. Ước tính nhiễm mtDNA của người hiện đại do mtCont cung cấp dựa trên mỗi nucleotide của các base. Để cĩ được kết quả chính xác, nên sử dụng lặp đi lặp lại endoCaller và mtCont cho đến khi cĩ kết quả ổn định.
Hình 3.16: Kết quả chạy schmutzi
Kết quả ước tính độ nhiễm mtDNA của người hiện đại của hai mẫu xương cổ cho thấy mức độ nhiễm của hai trình tự CCNM24WG và CCNM55WG lần lượt là 14% và 21%. Mức độ nhiễm này cần được giảm xuống để cải thiện thêm chất lượng của các phân tích sau này.
3.7. Xác định nhĩm haplogroup bằng HaploGrep2
Với file vcf đầu vào, thu được kết quả đầu ra bao gồm: SampleID – định danh của mẫu
Range – Các vị trí được sắp xếp theo trình tự / kiểu gen trên bộ gen ti thể
Haplogroup – Haplogroup thu được
Cluster – nếu lần truy cập đầu tiên khơng rõ ràng, kết quả của cluster được liệt kê trong cột này