2. 5 Thuật toán Smith-Waterman
3.1 Ánh xạ các đoạn trình tự
Bƣớc đầu tiên của quy trình là ánh xạ các đoạn trình tự. Dữ liệu dạng Single end đƣợc tạo ra từ bộ gen của đối tƣợng đƣợc gióng hàng với gen tham chiếu để lập bản đồ kết thúc trình tự đó. Để làm cho quá trình hiệu quả, việc gióng hàng đƣợc chia thành hai giai đoạn. Trong giai đoạn đầu tiên, thực hiện gióng hàng đầy đủ chiều dài của toàn bộ hệ gen đảo ngƣợc với bộ gen tham chiếu.
Hình 3.1: Sự gióng hàng của quá trình ánh xạ r1 và r2 trên vùng đảo ngược
Những kết quả trong tập tin SAM chứa chi tiết gióng hàng của toàn bộ trình tự trong bộ gen tham chiếu. Mục đích của bƣớc này là ánh xạ tất cả các đoạn trình tự vào những vị trí đúng trên hệ gen tham chiếu, ngoại trừ những đoạn trình tự bị đảo ngƣợc. Trong giai đoạn hai, tập tin SAM thu đƣợc từ giai đoạn đầu tiên đƣợc xử lý để trích xuất các trình tự không ánh xạ đƣợc. Các trình tự cần tìm kiếm và đánh giá là các trình tự không ánh xạ đƣợc.
Tất cả những base từ các trình tự không ánh xạ đƣợc đƣợc sắp xếp thứ tự ngƣợc lại với bộ gen tham chiếu (cho phép cắt) và sử dụng thuật toán Smith-Waterman đƣa vào ánh xạ để có kết quả gióng hàng tốt nhất. Từ giai đoạn thứ hai của quá trình ánh xạ có thể đƣợc sắp xếp đƣợc những trình tự
Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/
bao gồm các base chung của đảo đoạn với một CIGAR của Map base và quá trình cắt nhỏ hệ gen. Các tập tin SAM thu đƣợc sau giai đoạn thứ hai đƣợc sắp xếp dựa trên tiêu đề của trình tự. Điều kiện này đảm bảo rằng chƣơng trình sẽ có đƣợc tất cả sự sắp xếp của những trình tự liên tục.