Thuật toán Needleman & Wunsch

Một phần của tài liệu Nghiên cứu phát triển thuật toán phân cụm các trình tự sinh học dựa trên mức độ tương đồng luận văn thạc sĩ (Trang 59 - 62)

Giải thuật Needleman- Wunsch thực hiện so sánh đối xứng toàn cục. Giải thuật có những đặc điểm: 0[12]

 Tìm so sánh đối xứng toàn cục tốt nhất giữa hai trình tự bất kỳ. số phần tử so khớp giữa hai trình tự lớn nhất và cho phép chèn kí tự trống.

 Tất cả các phần tử của hai trình tự sẽ được sử dụng để tạo ma trận hai chiều. Mọi khả năng so sánh đối xứng đều có thể biểu diễn thông qua ma trận này.

Thuật toán bao gồm các bước chính sau:  Bước 1: Khởi tạo ma trận

 Bước 2: Đối với mỗi phần tử của ma trận, kiểm tra tất cả các khả năng so sánh đối xứng từ phần tử đầu tiên của trình tự đến phần tử đó, gán giá trị của phần tử là số điểm (score) lớn nhất trong tất cả các khả năng so sánh đối xứng có thể.

Công thức xác định giá trị M[i, j] (phần tử ở hàng i, cột j của ma trận):

M[i, j] = MAX(

M[i-1, j-1] + S[i, j], M[i, j-1] + w,

M[i-1, j] + w )

 Bước 3: Xây dựng so sánh đối xứng cho hai trình tự bằng cách duyệt lại đường đi từ phần tử ở góc phải dưới của ma trận đến phần tử đầu của ma trận.

Ví dụ minh họa giải thuật Needleman- Wunsch so sánh đối xứng hai trình tự: - Trình tự s1: GAATTCAGTTA

- Trình tự s2: GGATCGGA

- Cách tính điểm để xây dựng ma trận so sánh đối xứng:

 S[i, j] =2 nếu hai phần tử tại vị trí i của trình tự 1 và vị trí j của trình tự 2 đồng nhất.

 S[i, j] = -1 nếu hai phần tử nêu trên không đồng nhất  W= -2 giá trị sử dụng kho xảy ra việc chèn kí tự trống.  Bước 1: Khởi tạo ma trận:

G A A T T C A G T T A 0 0 0 0 0 0 0 0 0 0 0 0 G 0 G 0 A 0 T 0 C 0 G 0 A 0

Bước 2: Dựa vào công thức tính M[i, j] và quy định cách tính điểm nêu trên, ta tính được các giá trị của phần tử của ma trận được xác định ma trận so sánh đối xứng cho hai trình tự s1, s2 như sau:

Bước 3: Xác định so sánh đối xứng của hai trình tự dựa trên ma trận được xây dựng.

G A A T T C A G T T A | | | | | | G G A _ T C _ G _ _ A

Trong trường hợp có hai phần tử cùng đạt giá trị lớn nhất, hai khả năng so sánh đối xứng có thể thực hiện và có cùng số điểm so sánh đối xứng như nhau. Với ví dụ này ta có so sánh đối xứng thứ hai

G A A T T C A G T T A | | | | | | G G A T _ C _ G _ _ A

Một phần của tài liệu Nghiên cứu phát triển thuật toán phân cụm các trình tự sinh học dựa trên mức độ tương đồng luận văn thạc sĩ (Trang 59 - 62)