Bài toán phân tích mối quan hệ giữa đa trình tự

Một phần của tài liệu Phân tích trình tự trong tin sinh học và ứng dụng trên cơ sở dữ liệu genome tôm sú (Trang 34 - 36)

2.4.1. Giới thiệu bài toán

Bài toán phân tích mối quan hệ giữa hai trình tự X và Y đƣợc thực hiện bằng phƣơng pháp sắp hàng giữu hai trình tự X và Y nhƣ mô tả ở phần 2.1. Để phân tích mối quan hệ giữa nhiều trình tự khác nhau, giống nhƣ ý tƣởng bài toán phân tích mối quan hệ giữa 2 trình tự, ta cần tiến hành sắp hàng nhiều trình tự ADN với nhau, gọi là bài toán sắp hàng đa trình tự. Sắp hàng đa trình tự cho biết đƣợc mức độ giống nhau và quan hệ giữa nhiều trình tự ADN. Sắp hàng đa trình tự là bài toàn tổng quát của sắp hàng hai trình tự và đƣợc phát biểu đơn giản nhƣ sau:

Sắp hàng đa trình tự là quá trình chèn thêm các kí tự ' ' (cho biết một nuclêôtít đã bị mất khỏi trình tự) vào các trình tự ADN để sau khi sắp hàng thu đƣợc các trình tự ADN thỏa mãn các điều kiện ràng buộc sau:

Các trình tự sau khi sắp hàng có độ dài bằng nhau, và độ dài đó đƣợc gọi là độ dài của đa trình tự sắp hàng.

Các nuclêôtít ở cùng một vị trí trên các trình tự đƣợc cho tƣơng đồng, tức là cùng tiến hóa từ một nuclêôtít tổ tiên chung.

Không tồn tại bất cứ một vị trí i nào mà tất cả các trình tự cùng chứa kí tự ' '. Nói một cách khác, việc chèn kí tự ' ' vào cùng một vị trí trên tất cả các trình tự là không có ý nghĩa.

Tƣơng tự nhƣ bài toán sắp hàng hai trình tự, dễ thấy tồn tại nhiều đa sắp hàng khác nhau cho một tập n trình tự đầu vào A. Giống nhƣ bài toán sắp hàng hai trình tự, cần xác định một tiêu chuẩn để lựa chọn đa sắp hàng tốt nhất (tối ƣu):

Một đa sắp hàng được gọi là tốt nhất (tối ưu) nếu như tổng mức độ giống nhau giữa các trình tự ADN sau khi sắp hàng là lớn nhất.

Điểm giống nhau của một đa trình tự

Sau đây luận văn trình bày cách xác định điểm giống nhau của một đa trình tự sắp hàng. Nhắc lại, A A C G T, , , , là tập bao gồm 4 kí tự biểu diễn bốn loại nuclêôtít A, C, G, T và kí tự ' ' biểu diên một nuclêôtít đã bị xóa khỏi trình tự. Gọi

1,..., n

A X X là tập n trình tự ADN với độ dài lần lƣợt là k1,...,kn; Xi s A là nuclêôtít thứ s của trình tự ADN Xi

Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/

Gọi A X1,...,Xn là một đa sắp hàng của A trong đó Xi là trình tự Xi sau khi sắp hàng, i 1..n ; gọi k là độ dài của đa sắp hàng A. Ta kí hiệu

1 ,..., n , 1..

A s X s X s s k là cột thứ s trên đa sắp hàng A.

Điểm giống nhau f A của một đa sắp hàng A có thể tính đơn giản bằng tổng điểm giống nhau của tất cả các cặp trình tự trong đa sắp hàng đó và đƣợc tính theo công thức sau:

1 1 , n n i j i j i f A f X X (2.3)

trong đó f X Xi, j là điểm giống nhau giữa hai trình tự đã đƣợc sắp hàng X Xi, j và đƣợc tính cụ thể nhƣ sau: 1 , , k i j i j s f X X C X s X s (2.4)

Cách tính điểm giống nhau của một đa sắp hàng A theo 2.3 có thể đƣợc viết lại dƣới dạng tổng điểm giống nhau của tất cả các cột trên A, cụ thể là:

1 k s s f A f A (2.5)

với f As là điểm giống nhau của cột As trên sắp hàng A và có thể đƣợc tính nhƣ sau: 1 1 , n n s i j i j i f A C X s X s (2.6)

Sự tƣơng thích giữa các bắt cặp hai trình tự

Điểm giống nhau của một đa trình tự sắp hàng đƣợc tính bằng tổng điểm giống nhau của tất cả các bắt cặp (hai trình tự sắp hàng). Vậy liệu có thể kết hợp các bắt cặp với nhau thành một đa trình tự sắp hàng?

Xét ví dụ ba trình tự X = „AAAATTTT‟, Y = „TTTTGGGG‟ và Z = „AAAAGGGG‟. Nếu tiến hành sắp hàng từng cặp hai trình tự một, ta có thể thu đƣợc các bắt cặp là: XY, XZYZ nhƣ ở Bảng 2.11. Các bắt cặp này tƣơng thích với nhau và có thể kết hợp với nhau để thu đƣợc một sắp hàng của ba trình tự X, Y, Z.

Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/

Bảng 2.11. Ba bắt cặp XY, XZ, YZ tương thích với nhau có thể kết hợp thành sắp

hàng 3 trình tự XY = AAAATTTT TTTTGGGG XYZ = AAAATTTT TTTTGGGG AAAA GGGG XZ = AAAATTTT AAAA GGGG YZ = AAAA GGGG TTTTGGGG

Tuy nhiên, xét ví dụ ba trình tự X = „AAAATTTT‟, Y = „TTTTGGGG‟ và Z = „GGGGAAAA‟. Nếu chúng ta tiến hành sắp hàng từng cặp hai trình tự một, ta có thể thu đƣợc 3 bắt cặp XY, XZYZ nhƣ ở Bảng 2.12. Các bắt cặp này không tƣơng thích với nhau để có thể dễ dàng kết hợp chúng thành một sắp hàng của ba trình tự X, Y và Z. Tức là, việc xây dựng nghiệm cho bài toán sắp hàng đa trình tự không thể giải quyết một cách đơn giản bằng cách kết hợp nghiệm của tất cả các sắp hàng hai trình tự với nhau.

Bảng 2.12. Ba bắt cặp XY, XZ, YZ không tương thích với nhau để kết hợp thành sắp

hàng 3 trình tự XY = AAAATTTT TTTTGGGG XYZ =? XZ = AAAATTTT GGGGAAAA YZ = TTTTGGGG GGGGAAAA

Một phần của tài liệu Phân tích trình tự trong tin sinh học và ứng dụng trên cơ sở dữ liệu genome tôm sú (Trang 34 - 36)