CHƯƠNG 2 ĐỐI TƯỢNG VÀ PHƯƠNG PHÁP NGHIÊN CỨU
2.2. PHƯƠNG PHÁP NGHIÊN CỨU
2.2.5. Gọi các biến thể (variants) và tạo ra VCF (Variant Call Format)
Ở bước này sử dụng samtools [51] và bcftools [51] để tạo ra các lần gọi kiểu gen. Theo mặc định, quá trình này được cho là dành cho các sinh vật lưỡng bội vì vậy để sử dụng nĩ với mtDNA, chúng ta cần chỉ định rằng ploidy = 1 bằng cách sử dụng một tệp văn bản cĩ chứa tên tệp và ploidy. Sử dụng samtools mpileup để tạo tệp vcf từ tệp bam và chế độ xem bcftools để cài đặt thêm và lọc tệp VCF/BCF. Sau đĩ chạy samtools với các tùy chọn sau: -f đầu vào tham chiếu được lập chỉ mục, -u tính tốn khả năng kiểu gen và xuất chúng ở định dạng gọi nhị phân (BCF) khơng được nén, - C 50 Hệ số hạ cấp chất lượng ánh xạ cho các lần đọc chứa quá nhiều khơng khớp, 50 là giá trị được khuyến nghị cho các căn chỉnh BWA. Đầu ra cuối cùng ở giai đoạn này là hai tệp VCF, một tệp được lọc cho độ bao phủ của các đoạn đọc lớn 1x và tệp cịn lại thì khơng. Các tệp VCF được tạo ra cĩ thể được sử dụng làm đầu vào cho mtDNA haplotyping trong Haplogrep.
2.2.6. Tạo file consensus và kiểm tra nhiễm với Schmutzi
Quy trình làm việc của Schmutzi [52]: Ước tính nhiễm ban đầu được tính tốn bằng cách điều chỉnh ở một đầu của trình tự bị hủy và so sánh chúng với tỷ lệ hủy của tất cả các đoạn trong tập dữ liệu (contDeam). Bước này được cung cấp để gọi một consensous (là thứ tự được tính tốn của các nucleotit được tìm thấy ở mỗi vị trí theo sắp xếp trình tự) nội sinh (endoCaller). Tiếp theo, việc gọi consensous được sử dụng để ước tính lại sự nhiễm ty thể (mtCont). Tỷ lệ hủy và phân bố chiều dài đoạn được đo cho các đoạn hỗ trợ bộ gen ty thể nội sinh và nhiễm (splitEndo). Thơng tin từ mtCont và splitEndo được sử dụng làm đầu vào để gọi lại consensous nội sinh (endoCaller). Chu trình này được lặp lại cho đến khi đạt được tỷ lệ nhiễm ổn định hoặc tìm ra nhiễm.