3.6. Tạo file consensus và kiểm tra nhiễm với Schmutzi
Nhiệm vụ ước tính sự nhiễm của mtDNA của người hiện đại gắn liền với vấn đề ước đốn hệ gen ti thể nội sinh. Ngược lại, chiến lược được sử dụng để ước đốn bộ gen nội sinh phụ thuộc nhiều vào mức độ nhiễm của mtDNA của người hiện đại. Nguyên tắc xác định ước tính nhiễm mtDNA của người hiện đại bằng cách sử dụng tần số thay thế C thành T ở cuối các đoạn đọc. Tỷ lệ kết hợp sai cho các mảnh nội sinh cĩ thể thu được bằng cách sử dụng quy trình điều hịa kép, nhờ đĩ các đoạn bị hủy ở đầu 5’ của chúng được giữ lại và sự hủy ở đầu 3’ được đo và ngược lại. Ước tính nhiễm mtDNA của người hiện đại sẽ dựa trên cơ sở mỗi phân mảnh thay vì mỗi base.
% contDeam.pl --lengthDeam [length] --library [library type] --out [output prefix] [mt reference] [input bam file]
--lengthDeam [length]: chiều dài dạng số nguyên [length] là số lượng
các nucleotide sẽ được thuật tốn xem xét khi ước tính mức độ nhiễm mtDNA của người hiện đại. Độ dài này cĩ thể thay đổi từ 20-40 đối với protocol sợi đơi, từ 2 đến 5 đối với protocol sợi đơn cĩ xử lý UDG.
--library [type]: loại protocol được dùng để chuẩn bị thư viện được sử
dụng để tính loại các dạng phân hủy. Hiện tại, cĩ hai giá trị cĩ thể cĩ cho [type], “single” theo quy trình Meyer et al. (2012), hoặc tương đương, và “double” theo quy trình Meyer and Kircher (2010), hoặc tương đương.
Ước tính nhiễm mtDNA của người hiện đại sẽ được ghi vào một tệp cĩ tên là [output prefix].cont.est và hình dạng của phân phối xác suất sau đĩ sẽ được vẽ biểu đồ cho tệp [output prefix].cont.pdf. Tỷ lệ thiệt hại sau khi phân hủy đối với các mảnh nội sinh các phân đoạn sẽ được tạo cho 5 ’và 3’ được ghi vào các tệp được gọi là [output prefix].endo.5p.prof và [output prefix].endo.3p.prof tương ứng. Đầu ra của contDeam.pl sẽ được sử dụng làm đầu vào cho endoCaller. Mơ hình con này nhằm mục đích tạo ra trình tự của bộ gen ty thể nội sinh cĩ ước đốn trước về sự nhiễm mtDNA của người hiện đại, tỷ lệ tổn thương sau khi phân hủy cũng như sự phân bố chiều dài đoạn cho các mảnh nội sinh và các mảnh nhiễm một cách độc lập. Khi đã cĩ được bộ gen ti thể nội sinh, sự nhiễm mtDNA của người hiện đại cĩ thể được ước tính bằng cách sử dụng mtCont.
% mtCont -deam5p [output prefix].endo.5p.prof -deam3p [output prefix].endo.3p.prof [output prefix].log [mt reference] [input bam file]
[contaminant profile 1] [contaminant profile 2] ...
Trong đĩ [output prefix].log được tạo ra bởi endoCaller, cả hai file .prof files đều thu được từ contDeam.pl. Các file [contaminant profile N] là các tần số allele cho các nhĩm con khác nhau được coi là nguồn nhiễm tiềm ẩn. Các tần số alen cho một tập hợp các haplogroup của con người được cung cấp cùng với gĩi phần mềm. Ước tính nhiễm mtDNA của người hiện đại do mtCont cung cấp dựa trên mỗi nucleotide của các base. Để cĩ được kết quả chính xác, nên sử dụng lặp đi lặp lại endoCaller và mtCont cho đến khi cĩ kết quả ổn định.