Tính năng của BLASTZ 25

Một phần của tài liệu LUẬN VĂN: SẮP HÀNG HOÀN CHỈNH HAI HỆ GENOME     pot (Trang 27 - 29)

BLASTZ sử dụng 3 chiến lược đã được sử dụng bởi Gapped BLAST [3] đó là:

• Tìm kiếm những cặp đoạn ngắn ADN rất giống nhau ở cả hai hệ gen được gọi là hạt giống (seed).

• Mở rộng các hạt giống về cả hai phía sao cho trong quá trình mở rộng chi phí không vượt qua một ngưỡng cho trước. Quá trình mở rộng này không cho phép chèn gap

• Tiến hành tiếp tục mở rộng các cặp ADN ở bước 2 lại với nhau để tạo ra những cặp ADN lớn hơn bằng cách cho phép chèn thêm gap. Việc mở

rộng đảm bảo chi phí không vượt quá một ngưỡng nhất định.

Tuy nhiên so với Gapped BLAST và các chương trình sắp hàng hệ gen khác, BLASTZ có những ba sự cải tiến quan trọng. Trước tiên, BLASTZ sử dụng một cách tính điểm bắt cặp được đánh giá bởi Chiromonte [6]. Theo đó thay vì chi phí sắp hàng gồm chi phí thay thế và chi phí sắp hàng chính xác chỉ là một giá trị chung với tất cả các nucleotide thì trong BLASTZ chi phí sắp hàng các nucleotide được cho bởi ma trận sau :

A C G T A 91 -114 -31 -123 C -114 100 -125 -31 G -31 -125 100 -114 T -123 -31 -114 91 Bảng 1: Ma trận trọng số của BLASTZ  

Chi phí chèn – xóa các ký tự gap được cho bởi một hàm tuyến tính. Việc chèn – xóa k ký tự gap liên tiếp sẽ phải chụi một điểm phạt là 400 + 30k.

Hai thay đổi tiếp theo giúp cải tiến đáng kể tốc độ thực hiện và độ nhay của BLASTZ trong việc bắt cặp toàn bộ bộ gen. Thứ nhất là việc loại bỏ những

đoạn trùng lặp. Ví dụ khi chương trình nhận ra rằng nhiều khu vực trong một bộ

gen của chuột được sắp hàng với cùng một phân khúc trong bộ gen của người, chương trình sẽ tựđộng đánh dấu để nó được bỏ qua trong các bước sau của quá trình bắt cặp. Cải tiến này giúp BLASTZ không bắt cặp những đoạn ADN trùng nhau – những đoạn ADN có thể được nhân lên trong quá trình biến đổi và tiến hóa. Thứ hai BLASTZ áp dụng một ý tưởng thông minh của Ma [15] trong việc

xác định các đoạn ngắn gần giống nhau ban đầu (seed). Ma đề xuất việc tìm kiếm trong 19 nucleotide liên tiếp, trong đó 12 nucleotide được chỉ định bằng 1 trong chuỗi 1110100110010101111 là giống hệt nhau. Để tăng độ nhạy, BLASTZ còn cho phép 1 vị trí bất kỳ trong 12 vị trí ở trên được phép có một sự thay thế giữa các cặp nucleotide tương đồng (A – G, G – A, C – T, T – C)

Một phần của tài liệu LUẬN VĂN: SẮP HÀNG HOÀN CHỈNH HAI HỆ GENOME     pot (Trang 27 - 29)