Thuật toán BLAST

Thuật toán BLAST đƣợc đề xuất để tìm các cặp đoạn có độ giống nhau cao giữa một trình tự đầu vào X (query) với các trình tự có sẵn trong cơ sở dữ liệu. Để dễ dàng hiểu đƣợc thuật toán BLAST, luận văn sẽ trình bày thuật toán BLAST để tìm các cặp đoạn có độ giống nhau cao giữa hai trình tự nuclêôtít X và Y.

Xét hai trình tự nuclêôtít X x1,...,xp và Y y1,...,yq , thuật toán BLAST xuất phát từ nhận xét sau: „Cặp đoạn có độ giống nhau cao giữa hai trình tự X và Y

thƣờng phải chứa một đoạn chung giống hệt nhau (identical), gọi là đoạn hạt giống (seed), với độ dài lớn hơn hoặc bằng k (mặc định k = 11)‟. Tƣ tƣởng chính của thuật toán BLAST nhƣ sau (xem minh họa ở Bảng 2.10):

Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/

Tìm tất cả các đoạn hạt giống giữa hai trình tự X và Y.

Với mỗi đoạn hạt giống:

Xác định vị trí xuất hiện của nó trên hai trình tự X và Y.

Mở rộng nó về cả hai phía trái và phải để thu đƣợc cặp đoạn có độ giống nhau cao giữa X và Y. Quá trình mở rộng sẽ dừng lại nếu nhƣ việc mở rộng thêm 1 vị trí sẽ làm điểm giống nhau của cặp đoạn mở rộng nhỏ hơn điểm giống nhau cao nhất tìm đƣợc trong quá trình mở rộng một ngƣỡng cho trƣớc.

Bảng 2.10. Minh họa ý tưởng của thuật toán BLAST

Trình tự X Trình tự Y AAAAAAAAAAAAAGCGCGCGCGCTTTTTTTTTTTTT TTAAATGCGCGCGCGCTGTTTTTGGGGGGGG Trình tự X Trình tự Y AAAAAAAAAAAAAGCGCGCGCGCTTTTTTTTTTTTT TTAAATGCGCGCGCGCTGTTTTTGGGGGGGG Trình tự X Trình tự Y

S = „GCGCGCGCGCT‟ là một đoạn hạt giống giữa X và Y

AAAAAAAAAAAAAGCGCGCGCGCTTTTTTTTTTTTT

TTAAATGCGCGCGCGCTGTTTTTGGGGGGGG

Mở rộng đoạn hạt giống về hai phía để thu đƣợc cặp đoạn có độ giống nhau cao giữa hai trình tự X và Y (phần in đậm).

Thuật toán BLAST đơn giản cho hai trình tự ADN

Dữ liệu vào: Hai trình tự ADNX x1,...,xp và Y y1,...,yq ; ma trận điểm giống nhau C giữa các nuclêôtít; ngƣỡng giảm điểm ; độ dài k của đoạn hạt giống (mặc định k = l l đối với hai trình tự ADN).

Yêu cầu: Liệt kê tất cả các cặp đoạn có độ giống nhau cao giữa hai trình tự X và Y.

Dữ liệu ra: Các cặp đoạn có độ giống nhau cao giữa hai trình tự X và Y.

Thuật toán

Bước 1: Tạo tập các đoạn con liên tiếp có độ dài k trên trình tự X. Gọi

,...,

i i i k

X x x là đoạn con liên tiếp trên X có độ dài bằng k và bắt đầu từ vị trí thứ i.

Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/

Bước 2: Với môi đoạn con Xi, nếu Xixuất hiện trên trình tự Y tại vị trí j (Xi = Yj), ta gọi (Xi, Yj) là cặp đoạn hạt giống. Bƣớc này có th ể tiến hành nhanh nhờ sử dụng các kĩ thuật bảng băm.

Bước 3: Với mỗi cặp đoạn hạt giống (Xi, Yj), mở rộng cặp đoạn Xi, Yjsang cả bên trái và sang cả bên phải để thu đƣợc cặp đoạn giống nhau dài hơn theo quy tắc: Quá trình mở rộng sẽ dừng lại nếu nhƣ việc mở rộng thêm 1 vị trí sẽ làm điểm giống nhau của cặp đoạn mở rộng nhỏ hơn điểm giống nhau cao nhất tìm đƣợc trong quá trình mở rộng một ngƣỡng . Quá trình mở rộng sẽ đƣợc tiến hành lặp đi lặp lại cho đến khi không thể mở rộng đƣợc nữa. Gọi

(Xi, Yj) là cặp đoạn thu đƣợc sau khi kết thúc quá trình mở rộng. Cặp đoạn

(Xi, Yj) đƣợc gọi là cặp đoạn có điểm giống nhau cao giữa X và Y (High Scoring Segment Pair - HSP).

Bước 4: Với mỗi cặp đoạn có điểm giống nhau cao (Xi, Yj), tính giá trị E - value theo công thức sau:

, S

i j

E value X Y p q K e

trong đó: S là điểm giống nhau của cặp đọan (Xi, Yj) ; và K là hai tham số dùng để điều chỉnh phân bố của điểm S tƣơng ứng với ma trận điểm C . Giá trị E value cho biết số cặp đoạn có thể xuất hiện ngẫu nhiên giữa X

và Y mà có điểm giống nhau lớn hơn hoặc bằng S. Giá trị

i j

E value X Y càng cao, thể hiện khả năng càng cao rằng cặp đoạn (Xi, Yj)

là xuất hiện ngẫu nhiên; giá trị E value X Yi, j càng nhỏ thể hiện hai đoạn

Xi, Yj có quan hệ với nhau; việc bắt cặp chúng với nhau có khả năng thấp là do ngẫu nhiên.

Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/

Thuật toán quy hoạch động

Thiết kế chức năng hệ thống