3 Lọc và hoàn thiện điểm dừng

Sau khi hoàn thành giai đoạn đầu tiên, Inverse Variant có đƣợc danh sách các cặp điểm dừng khả dĩ có số hỗ trợ lớn hơn hoặc bằng số hạn chế (CONSTRAINT). Inverse Variant có thể thiết lập hạn chế này tùy thuộc vào độ bao phủ của những trình tự. Đối với mức cao hơn (>10X), Inverse Variant có thể thiết lập CONSTRAINT cao hơn (bình thƣờng> 2) và với

Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/

mức thấp (<5X), Inverse Variant có thể khởi tạo >= 1. Trong giai đoạn thứ hai hoặc giai đoạn cuối cùng, Inverse Variant lọc những giá trị dƣơng giả để tăng tính chính xác của qua trình. Để làm điều này, đầu tiên Inverse Variant tạo ra các vùng dựa trên vị trí và tên nhiễm sắc thể của cặp điểm dừng khả dĩ. Inverse Variant lấy phân đoạn của bộ gen tham chiếu nằm ở giữa hai điểm dừng (điểm dừng bên trái và điểm dừng bên phải) trong một nhiễm sắc thể. Phân đoạn này có tên là vùng điểm dừng. Thứ hai, Inverse Variant lấy phân đoạn của bộ gen tham khảo có chiều dài bằng với chiều dài vùng điểm dừng để so sánh bắt đầu từ vị trí điểm dừng bên trái - READ LENGTH kéo dài đến hết điểm dừng bên trái, đƣợc gọi là vùng trái. Thứ ba, Inverse Variant cũng tạo ra khu vực bên phải bằng cách lấy các phân đoạn của bộ gen tham chiếu có chiều dài bằng nhau để đọc chiều dài bắt đầu từ vị trí điểm dừng bên phải kéo dài lên đến hết vị trí điểm dừng bên phải + READLENGTH.

Điểm dừng trái(leftbp) Điểm dừng phải(rightbp)

Hình 3.2: Những vùng được lựa chọn dựa vào điểm dừng trái và phải

Sau đó đƣa vùng trái, vùng chọn và vùng phải từ cặp điểm dừng đƣợc dẫn xuất ra từ những vùng còn lại và lƣu trữ chúng trong tập tin kết quả theo cách sau:

Đặc tả chƣơng trình

For each (cặp điểm dừng ở DS các cặp điểm dừng (bppairlist) String candidateregion←

Reference.substring(leftbp,rightbp+1)

String extension1 ← Reference.substring(leftbp- READLENGTH,leftbp+1) String extension2 ← Reference.substring(rightbp,rightbp+READLENGTH+1) READLENGTH READLENGTH Vùng trái (left region) Vùng chọn (local region) Vùng phải (right region)

Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/

// phát sinh vùng không có đảo ngược. //

localregion ← extension1+candidateregion+extension2 localregion1 ← localregion.substring(0,2*READLENGTH) localregion2 ←

localregion.substring(localregion.LENGTH- 2*READLENGHT,localregion.LENGTH)

// phát sinh vùng có đảo ngược. //

candidateregion ← ReverseComplement(candidateregion) localregion ← extension1+candidateregion+extension2 localregion3 ← localregion.substring(0,2*READLENGTH) localregion4 ← localregion.substring(localregion.LENGTH- 2*READLENGTH,localregion.LENGTH)

end for each

Để viết các vùng chọn ở định dạng FASTA, Inverse Variant tạo ra một tiêu đề duy nhất trên cơ sở tên của mỗi vùng, tƣơng ứng điểm dừng bên trái và điểm dừng bên phải, tên của nhiễm sắc thể và loại của vùng chọn (khu vực có đảo đoạn hoặc không có đảo đoạn) theo cách sau đây (>tên vùng chọn/ điểm dừng bên trái / điểm dừng bên phải / tên nhiễm sắc thể/ loại của vùng chọn). Sau đó Inverse Variant sẽ viết trình tự của vùng chọn tiếp theo.

Sau khi tạo vùng tham chiếu, Inverse Variant sẽ số hóa nó sử dụng bộ chỉnh thích hợp và thực hiện sự gióng hàng tất cả các vùng chọn thành một vùng tham chiếu duy nhất. Các dòng SAM đầu ra sau khi sắp xếp toàn bộ trình tự đối với tập tin tham chiếu đƣợc sử dụng để đếm số chồng chéo trong sự sắp xếp các điểm dừng. Để đếm sự sắp xếp chồng lên nhau trên các điểm dừng Inverse Variant sử dụng tỷ lệ phân đoạn của sự sắp xếp.

Lý tƣởng nhất, cho các điểm dừng đúng, vùng chọn 3 và vùng chọn 4 (vùng có đảo đoạn) sẽ ánh xạ đầy đủ số sắp xếp phân đoạn gần bằng với độ bao phủ đọc nhƣ ở vùng chọn 1 và vùng chọn 2 (khu vực mà không có đảo đoạn) sẽ có số sắp xếp phân đoạn bất kỳ đầy đủ ánh xạ gần nhƣ bằng 0. Tƣơng tự nhƣ vậy, đối với các điểm dừng sai, vùng chọn 3 và vùng chọn 4 (vùng có đảo đoạn) sẽ có số sắp xếp phân đoạn đầy đủ ánh xạ bằng 0 trong khi đó vùng chọn 1 và vùng chọn 2 (khu vực mà không có đảo đoạn) sẽ có

Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/

số sắp xếp phân đoạn đầy đủ ánh xạ tƣơng đƣơng với độ bao phủ trình tự. Vì vậy, thiết lập các điều kiện sau đây sẽ giúp chúng ta lọc các dự đoán dƣơng tính giả.

Đặc tả điều kiện

if (sắp xếp phân đoạn đếm ở vùng chọn 3 > sắp xếp phân đoạn đếm ở vùng chọn1 AND sắp xếp phân đoạn đếm ở vùng chọn 4 > sắp xếp phân đoạn đếm ở vùng chọn 2)

Cặp điểm dừng sinh ra vùng chọn này là cặp điểm dừng sai else

Cặp điểm dừng sinh ra vùng chọn này là cặp điểm dừng đúng end if

Sau khi các bƣớc lọc giá trị dƣơng tính giả đã đƣợc giảm đáng kể, Inverse Variant nhận danh sách các cặp điểm dừng với vị trí điểm dừng trái tƣơng ứng với số lƣợng gióng hàng phân đoạn và các cặp điểm dừng phải tƣơng ứng với số lƣợng gióng hàng phân đoạn của tên nhiễm sắc thể và readsupportcounter cho các cặp điểm dừng.

3 Bài toán đột biến đảo đoạn

Ánh xạ các đoạn trình tự