Sắp hàng hoàn chỉnh hai hệ genome

Tài liệu tham khảo công nghệ thông tin Sắp hàng hoàn chỉnh hai hệ genome

Trang 1

ĐẠI HỌC QUỐC GIA HÀ NỘITRƯỜNG ĐẠI HỌC CÔNG NGHỆ

Hà Tuấn Cường

SẮP HÀNG HOÀN CHỈNH HAI HỆ GENOME

KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY

Ngành: Công Nghệ Thông Tin

HÀ NỘI – 2010

Trang 2

ĐẠI HỌC QUỐC GIA HÀ NỘITRƯỜNG ĐẠI HỌC CÔNG NGHỆ

Hà Tuấn Cường

SẮP HÀNG HOÀN CHỈNH HAI HỆ GENOME

KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY

Ngành: Công Nghệ Thông Tin GV hướng dẫn: TS Lê Sỹ Vinh

Trang 3

Lời cảm ơn

Lời đầu tiên, em xin gửi lời cảm ơn sâu sắc nhất đến thầy giáo TS Lê SỹVinh người đã không quản vất vả tận tình hướng dẫn em trong suốt thời gian làmkhóa luận tốt nghiệp vừa qua.

Em cũng xin bày tỏ lòng biết ơn tới các thầy, cô giáo trong trường Đạihọc Công nghệ - Đại học Quốc gia Hà Nội Các thầy cô đã dạy bảo, chỉ dẫnchúng em và luôn tạo điều kiện tốt nhất cho chúng em học tập trong suốt quátrình học đại học.

Em cũng xin gửi lời cảm ơn tới thầy giáo PGS.TS Từ Minh Phương,người đã cho em những lời khuyên bổ ích trong quá trình làm khóa luận.

Tôi cũng xin cảm ơn những người bạn của mình, các bạn đã luôn ở bêntôi, giúp đỡ và cho tôi những ý kiến đóng góp quý báu trong học tập cũng nhưtrong cuộc sống.

Cuối cùng con xin gửi tới bố mẹ và toàn thể gia đình lòng biết ơn và tìnhcảm yêu thương nhất Con xin dành tặng bố mẹ kết quả mà con đã đạt được trongsuốt bốn năm học đại học Con cám ơn bố mẹ và chị nhiều

Khóa luận được tài trợ một phần bởi đề tài nghiên cứu QC.09.09 thuộcĐại học Quốc Gia Hà Nội.

Hà Nội, tháng 5 năm 2010Hà Tuấn Cường

Trang 4

Tóm tắt

Sự phát triển của công nghệ giải mã trình tự đã giúp giải mã ngày càngnhiều các hệ gen, đặc biệt là những hệ gen có kích thước vừa và nhỏ như vi rúthay vi khuẩn (hơn 7000 bộ gen của vi rút và vi khuẩn đã được giải mã) Bêncạnh đó hệ gen của những sinh vật bậc cao cũng đã được giải mã hoàn chỉnh nhưngười, chó, chuột Điều đó dẫn đến một nhu cầu cấp thiết là phải nghiên cứu cácphương pháp và xây dựng một chương trình so sánh và bắt cặp trình tự cho haihệ gen

Trong khóa luận này, em xin được trình bày phương pháp và xây dựngmột chương trình so sánh bắt cặp trình tự hoàn chỉnh cho hai hệ gen Chươngtrình cho phép bắt cặp toàn bộ các ADN trên cả hai hệ gen, xác định được cảnhững biến đổi của tửng nucleotide và các biến đổi ở mức độ gen

Chương trình được xây dựng dựa trên cở sở kết hợp và cải tiến các

phương pháp đã có như “Pairwise Alignment with Rearrangement” [23],

BLASTZ [18] và “Optimal Alignment with Linear space” [9] Qua đó khắc

phục những hạn chế và lựa chọn những ưu điểm của chúng để tạo thành mộtchương trình sắp hàng hệ gen hoàn chỉnh Chương trình đã được thực nghiệm kếtquả trên các dữ liệu mô phỏng và các dữ liệu thật được lấy từ Gen Bank tại NCBI

Đối với các dữ mô phỏng, kết quả sắp hàng của chương trinh cho thấy đãxác định được các đoạn gen có độ tương đồng rất cao, tỷ lể sắp hàng giữa cácnucleotide giống nhau đạt mức trên 97% Khi thực nghiệm với dữ liệu thật và sosánh độ tương đồng với giá trị bắt cặp thu được khi chạy phương thứcHungarian[8] với các hệ gen được chia sẵn bằng cách sử dụng các đoạn gen cungcấp tại Gen Bank cũng cho kết quả tương đương thậm chí tốt hơn trong hầu hếtcác trường hợp.

Trang 6

3.2.1 Tính năng của BLASTZ 25

Trang 7

Danh sách hình vẽ

Hình 1 Ví dụ về một trình tự 8

Hình 2: Các biến đổi ở mức độ gen giữa Người và Khỉ 13

Hình 3:Ví dụ về phép biến đổi trong “Simulaneous Character Swapping" 20

Hình 4: Single Swap (trái) và Couple Swap (phải) 22

Hình 5:Bắt cặp trình tự với Ukkonen Barrier 29

Hình 6: Giao diện chương trình 31

Hình 7: Kết quả chương trình 32

Trang 8

Danh sách các bảng

Bảng 1: Ma trận trọng số của BLASTZ 26

Bảng 2: Kết quả Test với số Inversion – Move là 0 34

Bảng 6: Kết quả chạy dữ liệu thật 37

Trang 9

Lời mở đầu

Năm 1854, Charles Darwin cho xuất bản quyển sách “Nguồn gốc của cácloài sinh vật”, một công trình nghiên cứu sinh học nổi tiếng và đặt nền tảng chothuyết tiến hóa của ông Trong đó có viết “tất cả các động vật tương tự nhau phảitiến hóa từ một tổ tiên chung và tất cả các sinh vật phải tiến hóa từ một vài hoặcmột tổ tiên chung đã sống cách đây nhiều triệu năm.” [7]

Bộ gen của sinh vật là một trình tự ADN, theo thuyết tiến hóa thì chúngcùng được biến đổi và phát triển từ một tổ tiên chung Trải qua hàng triệu nămtiến hóa và phát triển, một số đoạn gen được mất đi cũng như bị di chuyển vị tríso với ban đầu, hình thành lên những hệ gen khác nhau đại diện cho hàng tỷ sinhvật trên trái đất Một trong những nhiệm vụ cần thiết là phải tìm ra mối quan hệvề mặt cấu trúc giữa các hệ gen sinh vật, qua đó xây dựng lên một bức tranh toàncảnh về sự tương tự và tiến hóa giữa các sinh vật trên hành tinh.

Với sự phát triển của công nghệ giải mã trình tự, ngày càng nhiều các hệgen đã được giải mã hoàn chỉnh và được lưu trữ trong các ngân hàng cơ sở dữliệu gen Việc so sánh và tìm ra sự tương đồng giữa các hệ gen một cách thủcông là không thể thực hiện được Do đó dẫn đến một nhu cầu cấp thiết phảinghiên cứu phương pháp và xây dựng chương trình để so sánh và bắt cặp trình tựcho hai hệ gen

Mặc dù một số phương pháp đã được nghiên cứu và phát triển, chúng mớichỉ tập trung vào xác định và bắt cặp cho những vùng ADN có độ tương đồngcao giữa hai hệ gen Tức là, một phần lớn trong hệ gen có thể không được bắt cặpvà so sánh khi ta tiến hành với các loài sinh vật có hệ gen khác nhau nhiều Vìvậy cần phải xây dưng một hệ thống có khả năng bắt cặp được toàn bộ các ADNtrên hai hệ gen

Trang 10

Chương 1 Giới thiệu

Chương này giới thiệu về những kiến thức cơ bản về tin sinh học, bài toánbắt cặp trình tự và bắt cặp trình tự theo hệ gen Nội dung giới thiệu được dựa mộtphần trên bài giảng của Viện Đại học Ohio State, Hoa Kỳ [13]

1.1 Trình tự

Một hệ gen của một sinh vật được thể hiện là một trình tự của các ADN.Trình tự là một dãy tuyến tính các phần tử được sặp xếp theo thứ tự Nhưvậy một trình tự chứa hai loại thông tin: thông tin về phần tử và thông tin định vị- thông tin về vị trí tương đối của từng phần tử so với các phần tử khác.

Các thông tin định vị có thể được xác định theo nhiều cách như theo trục,theo thời gian, vị trí của nhiễm sắc thể hoặc trong 1 vòng protein.

Trang 11

Hình 1 Ví dụ về một trình tự Hình trên cùng: 1 đoạn 18S rDNA của sâu bọ kháccánh Hình giữa trên: Tổng quát cơ thể động vật chân dốt Hình giữa dưới:

Orthopteran stridulation Hình dưới cùng: Đoạn gen mtDNA [13]

Các loài sinh vật được tiến hóa từ một tổ tiên chung, biến đổi qua cácdạng hình thái trong quá trình tiến hóa và phát triển Khi đề cập đến trình tự, cóba vấn đề chúng ta cần phải nói đến là hệ thống các ký tự trong trình tự, các phépbiến đổi trình tự và hàm khoảng cách đánh giá sự thay đổi của trình tự.

1.1.1 Hệ thống ký tự

Tập hợp các phần tử có thể xuất hiện trong trình tự được gọi là một hệthống các ký tự ( ∑ ) , trong ADN, người ta sử dụng một thệ thống kí tự ∑ = {A,C, G, T, λ ) trong đó A, C, G, T đại diện cho 4 nucleotides : adenine (A),

cytosine (C), guanine (G) và thymine (T). λ là ký tự đặc biệt đại diện cho 1

khoảng trống là 1 vị trí mà không có nucleotide thực tế Trong hầu hết các trườnghợp, ký tự gap (‘-‘) có thể được sử dụng để thay thế cho λ Bất kỳ một trình tựnào cũng là một sự thể hiện bởi các phần tử có thể xuất hiện trong trình tự vàđược định nghĩa trong ∑.

Trang 12

1.1.2 Các phép biến đổi

Trong quá trình tiến hóa, có 4 phương thức chính để biến đổi một trình tựlà phép thay thế, phép chèn – xóa, đảo ngược và dịch chuyển Biến đổi phức tạpxảy ra là sự kết hợp của 2 phép đảo ngược và dịch chuyển, sự kết hợp này gây rasự khó khăn trong việc dựng lại mối quan hệ giữa các trình tự trong những hệthống phân tích phức tạp.

Phép thay thế:Phép chèn – xóa:Phép đảo ngược:Phép dịch chuyển:

1.1.3 Khoảng cách

Một điều quan trọng và cần thiết là xây dựng một hàm mục tiêu đánh giákhoảng cách giữa hai trình tự, qua đó đánh giá sự tương đồng, mối quan hệ giữahai hệ gen Khoảng cách này có thể được tính toán theo một số hàm như thay thế,chèn, xóa làm biến đổi một trình tự này thành một trình tự khác Khoảng cáchgiữa hai trình tự có thể chỉ được tính đơn giản chỉ là chi phí thay thế (HammingHamming [10]) trong những trình tự có độ dài bằng nhau hay phức tạp hơn baogồm cả chi phí chèn – xóa và dịch chuyển

1.2 Sắp hàng trình tự

Trang 13

Sắp hàng trình tự là một thủ tục cực kỳ quan trọng trong Tin sinh học, nóđược xem là nền tảng cho tất cả các thủ tục khác Vấn đề đặt ra là tạo ra nhữngsự sắp hàng giữa các nucleotide thông qua việc chèn các ký tự gap, làm chokhoảng cách giữa hai trình tự tức chi phí sửa chữa (là tổng chi phí cho các sựkiện chèn – xóa, thay thế các nucleotide) giữa hai trình tự là nhỏ nhất (hoặc lớnnhất).

Đầu vào là 2 trình tự X = (x1, x2, …xp) và Y = (y1, y2, …yq), sắp hàng trìnhtự X và Y là cách chèn các kí tự trống vào hai trình tự X và Y sao cho chúng cóđộ dài bằng nhau và khoảng cách (chi phí sửa chữa) giữa hai trình tự là nhỏ nhất(hoặc lớn nhất).

Các thuật toán quy hoạch động đầu tiên cho việc sắp hàng giữa các chuỗiký tự được trình bày bởi Levenshtein [14], với độ phức tạp về thời gian và bộnhớ là O(n2) Needleman và Wunsch [16] lần đầu tiên áp dụng thuật toán nàyvào lĩnh vực Tin sinh học năm 1970 Yêu cầu bộ nhớ giảm xuống còn O(n)

bởi Hirschberg[12] trong khi thời gian chạy vẫn là O(n2) Những cải tiến củaUkkonen [21,22] với những cặp trình tự có khoảng cách độ dài là d, thuật toányêu cầu thời gian O(nd) cho trường hợp xấu nhất và độ phức tạp thời gian trungbình là O(d2+n) Thuật toán Quy hoạch động tính toán chi phí bắt cặp theo côngthức sau:

(1)

Cost[i][j] là chi phí bắt tới vị trí i của trình tự 1 và vị trí j của trình tự 2, σi,jlà chi phí thay thế nucleotide ở vị trí thứ i của trình tự 1 và ở vị trí j của trình tự2, σindex là chi phí chèn- xóa một nucleotide.

Pairwise Alignment by Needleman and Wunsch

1Cost[0][0] ← 0

Trang 14

2{Khởi tạo cột đầu tiên}

3for i = 0 to |X| do

4Cost[i][0] ← Cost[i-1][0] + σindex

5{Khởi tạo hàng đầu tiên}6for j = 0 to |Y| do

7Cost[0][i] ← Cost[0][j-21] + σindex

8{Quy hoạch động}

9for i = 1 to |X| do

10for j = 1 to |Y| do

11ins ← Cost[i-1][j] + σindex

12del ← Cost[i][j-1] + σindex

13sub ← Cost[i-1][j-1] + σi,j

14 Cost[i-1][j-1] ← min(ins, del, sub)

Waterman [25], tiến hành thực nghiệm trên một khối lượng lớn các trìnhtự với trọng số cho việc chèn gap wk ≤ kw1 với độ phức tạp thời gian là O(n3).Lý do của việc tăng độ phức tạp về thời gian là do việc bổ sung thêm việc tínhtoán chi phí chèn – xóa gap trong các trường hợp Công thức được đưa ra:

Trong đó P[i][j] và Q[i][j] là chi phí chèn và xóa ở vị trí ( i , j)

Trang 15

Trong các trường hợp đặc biệt, chi phí chèn gap là một hàm tuyến tính wk= uk +v trong đó v được gọi là chi phí bắt đầu một đoạn gap và v là chi phí mởrộng đoạn gap Gotoh (1982) [9] đã đưa ra một công thức tính toán tối ưu hóaviệc tính toán ma trận P và Q giảm độ phức tạp thời gian xuống còn O(n2) Côngthức mà Gotoh đưa ra là :

1.3 Sắp hàng trình tự hệ gen

Trong quá trình tiến hóa của các sinh vật, bên cạnh những biến đổi ở mứcđộ điểm (sự thay thế chèn – xóa của các nucleotide) còn có những sự biến đổi ởmức độ gen Có 3 phép biến đổi chính ở mức độ gen là phép chèn gen, xóa genvà dịch chuyển gen Hình 2 mô tả một ví dụ về sự biến đổi ở mức độ gen giữaNgười và Khỉ Ta thấy gen số 1 đã bị dịch chuyển, nó nằm ở đầu của hệ genNgười nhưng lại nằm ở cuối ở hệ gen của Khỉ Ngoài ra, gen số 2 tồn tại ở Khỉnhưng không tồn tại ở Người Tức là hoặc nó bị xóa khỏi hệ gen của Người hoặcnó được chèn thêm vào hệ gen của Khỉ Do ta không phân biệt được phép chèngen, và xóa gen, ta gọi chung là phép chèn/xóa gen Trải qua hàng triệu năm tiếnhóa, với sự biến đổi ở mức độ gen, hệ gen của các sinh vật ngày nay đã có sựkhác nhau rất lớn về kích thước, số lượng gen, thứ tự các gen cũng như về nộidung của các gen.

Hình 2: Các biến đổi ở mức độ gen giữa Người và Khỉ

Trang 16

Sắp hàng trình tự hệ gen là một trường hợp riêng của sắp hàng trình tự,trong đó đầu vào là toàn bộ trình tự ADN của một hệ gen sinh vật Sắp hàng trìnhtự hệ gen giúp xây dựng bức tranh toàn cảnh về sự tương tự và tiến hóa giữa các

sinh vật, là cơ sở cho hướng nghiên cứu Comparative genomics [4], cho phép

nâng cao độ chính xác dự đoán gen Về mặt tính toán, bắt cặp hệ gen đặt ra nhiềuvấn đề cần giải quyết như kích thước trình tự lớn, thứ tự các phần tương đồngtrên các hệ gen thường thay đổi Do tính quan trọng cũng như đặc thù phươngpháp, vấn đề so sánh và sắp hàng trình tự hệ gen được trình bày thành một phầnriêng, tách khỏi sắp hàng trình tự nói chung.

Các thuật toán sắp hàng trình tự thông thường mới chỉ xác định được cácbiến đổi ở mức độ điểm (sự biến đổi của các nucleotide) cũng như chỉ làm việcđược với các dữ liệu nhỏ Khi nghiên cứu về việc sắp hàng trình tự theo hệ gen,chúng ta phải tính toán cả những biến đổi ở mức độ điểm lẫn mức độ gen Đặcbiệt thời gian thực thi cũng là một vấn đề hết sức quan trọng do kích thước rấtlớn của các hệ gen Ví dụ kích thước của hệ gen người lên tới 3 tỉ ADN Mộttrong những hệ thống sắp hàng hệ gen đầu tiên là BLASTZ [18] được phát triểnbới nhóm của Webb Miller vào đầu những năm 2000 tại đại học Pennsylvania đểsắp hàng hệ gen của người và chuột Cũng như các phương pháp sắp hàng hệ genkhác, Phương pháp BLASTZ được phát triển từ tư tưởng thuật toán tìm kiếmBLAST [2] (thuật toán xác định những đoạn giống nhau cao giữa hai chuỗi) Tưtưởng chung của thuật toán gồm ba bước:

 Bước 1: Tìm kiếm những cặp đoạn ADN ngắn rất giống nhau ở cả hai hệgen được gọi là hạt giống (seed) Những đoạn này có độ dài vào khoảng 7đến 13 ADN và được gọi là seed Để thực hiện việc tìm kiếm này, có thểsử dụng nhiều kỹ thuật khác nhau như bảng băm, cây hậu tố (suffix tree). Bước 2: Mở rộng các hạt giống về cả hai phía sao cho trong quá trình mở

rộng chi phí không vượt qua một ngưỡng cho trước Quá trình mở rộngnày không cho phép chèn gap

 Bước 3: Tiến hành nối các cặp ADN được mở rộng ở bước 2 lại với nhauđể tạo thành những cặp ADN lớn hơn, bước này được phép chèn thêmgap Sau khi nối, các cặp ADN này sẽ được đánh giá độ tương đồng.Các nghiên cứu hiện tại tập trung vào cải tiến bước thứ 1 và bước thứ 3.Nổi bật là các nghiên cứu của Aaron Darling và đồng nghiệp tại đại học

Trang 17

Họ định nghĩa hạt giống là những cặp ADN giống nhau và xuất hiện duy nhấttrên cả hệ gen Nhóm tác giả đã xây dựng hệ thống MAUVE để sắp hàng đa hệgen và thu được những kết quả có độ chính xác cao trên những hệ gen có độtương đồng cao [1] Bên cạnh đó, nhóm tác giả Michael Brudno tại đại họcStandford tập trung vào cải tiến bước 3 để kết nối các đoạn ADN và phát triển hệthống SLAGAN [5] Nhóm tác giả áp dụng phương pháp quy hoạch động để tìmra cách kết nối các đoạn ADN tốt nhất, trong đó cho phép các đoạn ADN đượcphép dịch chuyển và đảo chiều Kết quả so sánh hai hệ thống MAUVE vàSLAGAN cho thấy MAUVE tốt hơn SLAGAN trên những tập dữ liệu có độtương đồng cao, còn SLAGAN cho kết quả tốt hơn MAUVE trên những tập dữliệu tồn tại nhiều phép thay thế ADN ở mức độ điểm và ít phép đảo chiều đoạnADN ở mức độ gen.

Mặc dù một số phương pháp đã được nghiên cứu và phát triển, chúng mớichỉ tập trung vào xác định và bắt cặp cho những vùng ADN có độ tương đồngcao giữa hai hệ gen Tức là, một phần lớn trong hệ gen có thể không được bắtcặp và so sánh khi ta tiến hành với các loài sinh vật có hệ gen khác nhau nhiều.Để giải quyết vấn đề trên, những nghiên cứu đầu tiên của TS Lê Sỹ Vinh vàđồng nghiệp tại Bảo Tàng Lịch Sử Tự Nhiên Hoa Kỳ, và tại trường Đại Học

Công Nghệ nhằm so sánh và sắp hàng toàn bộ hệ gen đã được tiến hành và cho

kết quả thử nghiệm khả quan [23,24] Nhóm nghiên cứu định nghĩa việc sắp hàngtoàn bộ hệ gen phải thỏa mãn ba điều kiện chính sau:

 Xác định được các phép biến đổi ở mức độ gen (chèn, xóa, dịch chuyển vịtrí).

 Xác định được các phép biến đổi ở mức độ điểm (thay thế, chèn, xóa). Bắt cặp toàn bộ các ADN trên hệ gen

Hệ thống bắt cặp thỏa mãn ba điều kiện trên sẽ cho phép bắt cặp các genvới các mức độ tương đồng khác nhau Để đáp ứng được ba yêu cầu trên, Vinhvà các đồng nghiệp đã nghiên cứu cách kết hợp điểm phạt cho các phép biến ởmức độ điểm, và các phép biến đổi ở mức độ gen vào thành một hệ thống tínhđiểm phạt chung Điều này cho phép chúng ta xây dựng hàm tục tiêu rõ ràng đểtìm ra cách bắt cặp toàn bộ hệ gen tốt nhất Kết quả thí nghiệm với 760 bộ gen tythể của các loài động vật cho thấy hệ thống tính điểm cho kết quả tốt [23] Sửdụng phương pháp bắt cặp toàn bộ hệ gen, nhóm tác giả đã xây dựng quá trìnhtiến hóa của 11 Corona vi rút và tái khẳng định lại kết luận vi rút Corona gây ra

Trang 18

dịch bệnh hô hấp cấp (SARs) có chung nguồn gốc với vi rút Corona ở loài dơichứ không phải là loài chồn hôi (canivor) [24].

Chương 2 Bài toán sắp hàng hoànchỉnh hai hệ gen

Trang 19

phương pháp có khả năng sắp hàng hoàn toàn được hệ gen của hai sinh vật bất kỳ

“Pairwise Alignment with Rearrangement” [23].

2.2 Pairwise Alignment with Rearrangement

“Pairwise Align with rearrangement” là thuật toán sắp hàng trình tự

trong đó cho phép có sự sắp xếp lại của các ký tự trong trình tự do Lê Sỹ Vinh vàcác đồng nghiệp tại Bảo tàng lịch sử tự nhiên Hoa Kỳ đưa ra vào năm 2006[23].Ưu điểm của thuật toán này so với các thuật toán bắt cặp trình tự trước đây ở chỗ

nó cho phép có sự di chuyển vị trí của các ký tự Đầu vào hai trình tự, “Pairwise

Alignment with Rearrangement” sẽ đưa ra cách sắp hàng sao cho tổng 3 chi phí :

Chi phí thay đổi vị trí (Break Cost), chi phí chèn – xóa và chi phí thay thế các kýtự là nhỏ nhất Thực nghiệm cho thấy, việc sắp hàng trình tự có sự đổi chỗ củacác ký tự cho kết quả tối hơn so với cắt bắt cặp trình tự thông thường không cósự đổi chỗ

2.2.1 Cơ sở lý thuyết

Trong “Pairwise Alignment with rearrangement”, ta xem hai hệ gen như

hai chuỗi ký tự, tức là mỗi đoạn gen sẽ được xem như là một ký tự trong chuỗiđầu vào Có X = (x1, x2, …, xp) là một chuỗi gồm p ký tự, Y = (y1, y2, …, yq ) làmột chuỗi gồm q ký tự C(xi, yj) là chi phí để thay thế ký tự xi thành ký tự yj với i= 1 … p, j = 1 q C(xi, y0) và C(x0, yj) là chi phí chèn/xóa kí tự xi và yj tươngứng Khi thực hiện với hai hệ gen, ta có xi và yj là một chuỗi các nucleotide, khiđó chi phí C(xi, yj) là chi phí nhỏ nhất để biến đổi xi thành yj

Gọi R(Y, YR) là hàm chi phí chuyển đổi giữa Y và một hoán vị YR của nó.Thông thường R(Y, YR) được tính là khoảng cách breakpoint[11] hoặc khoảngcách inversion[17].

Một chuỗi X’ = (x1’, x2’, …, xk’) được gọi là một chuỗi phát triển (edited

sequence) từ X khi và chỉ khi X thu được từ X’ sau khi xóa hết các ký tự gap Ví

dụ X’ = (‘-‘, 1, 2, ‘-‘, 3, 4) là một chuỗi phát triển từ X = (1,2,3,4) Một cặpA(X,Y) = A(X’,Y’) của hai chuỗi X’ = (x1’, x2’, …, xk’) phát triển từ X và Y’ =(y1’, y2’, …, yk’) phát triển từ Y được gọi là một bắt cặp hoàn chỉnh của X và

Trang 20

Y Chi phí C(A) của một bắt cặp A là tổng chi phí thay thế và chèn/xóa của cácký tự trong X và Y.

(4)

Chi phí tối ưu để bắt cặp A*(X,Y) = argminA(X,Y){C(A)} có thể được tínhvới độ phức tạp thời gian là O(pq) sử dụng kỹ thuật quy hoạch động (Xem phần1.2) Một cách bắt cặp được xây dựng bằng cách chèn thêm ký tự gap ở cả haichuỗi sao cho thứ tự các ký tự trong chuỗi phải được giữ nguyên.

Một chuỗi XR’ = (x1’, x2’, …, xk’) được gọi là một chuỗi phát triển có sắp

xếp lại (edited rearrangement sequence) từ X nếu sau khi loại bỏ gap ở XR’ ta

thu được XR là một hoán vị của X Ví dụ với XR’ = (‘-‘, 1, 4, 2, ‘-‘, 3) là mộtchuỗi phát triển có sắp xếp lại từ X = (1,2,3,4).

Một cặp A = (XR’, YR’) của hai chuỗi phát triển có sắp xếp lại XR’ = (x1’,x2’, …, xk’) và YR’ = (y1’, y2’, …, yk’) được gọi là một bắt cặp trình tự có sắpxếp lại (PAR) của hai chuỗi X và Y Chi phí CR(AR) của PAR AR là tổng các chiphí thay thế giữa các ký tự, chi phí chèn - xóa gap và chi phí sắp xếp lại giữa cácký tự Ta có công thức:

(5)Mục đích của bài toàn là tìm một PAR AR* có chi phí bé nhất Tức là:

2.2.2 Thuật toán

Thuật toán “Pairwise Alignment with Rearrangement” sử dụng chiến lược

leo đồi để tìm ra cặp PAR AR* Chiến lược này gồm 2 bước Bước đầu tiên mộtPAR AR xuất phát sẽ được tạo ra Sau đó ở bước thứ 2 chúng ta tìm ra PAR AR*bằng cách lần lượt tìm ra các cặp AR tối ưu hơn.

Đầu tiên, một PAR AR xuất phát sẽ được khởi tạo bằng cách sử dụng thuật

toán “Stepwise addition” Đầu tiên chúng ta khởi đầu với một PAR chưa đầy đủ

là AR = (XR’ = X, YR’ = ) Sau đó ta lần lượt chèn các ký tự yj Y, j = 1 … |Y| vào YR’ để tạo thành một PAR hoàn chỉnh Ký tự yj được thêm vào vị trí saocho chi phí của AR mới là thấp nhất Thuật toán được mô tả như sau :

Stepwise Addition Method

Trang 21

được một chuỗi không có ký tự gap mới YR Một phép biến đổi M(i, j, t) được gọilà có thể thực hiện được (possible move) nếu chi phí CR của PAR mới tạo được từ

XR và YR tốt hơn chi phí của PAR AR cũ Thuật toán được mô tả như sau:

Character Moving Method

1Build an initial PAR AR = (XR’, YR’) by stepwise addition method2iteration ← 0

4positionMove ← false

5foreach triple positions (i, j, t | i ≤ j < t-1)

6if M(i, j, t) is a possible move then

7Move character(yi, …, yj) in YR to position t

11iteration ← iteration + 112until possibleMove = false

13 return A*(XR, YR)

Tiêu đề	Sắp Hàng Hoàn Chỉnh Hai Hệ Genome
Tác giả	Hà Tuấn Cường
Người hướng dẫn	TS. Lê Sỹ Vinh
Trường học	Đại học Quốc gia Hà Nội
Chuyên ngành	Công Nghệ Thông Tin
Thể loại	Khoá Luận Tốt Nghiệp
Năm xuất bản	2010
Thành phố	Hà Nội

Định dạng
Số trang	42
Dung lượng	1,1 MB

Tài liệu tham khảo	Loại	Chi tiết
[1] Aaron C E, Darling, Bob Mau, Frederick R. Blatter, Nicole T Perna. Mauve: multiple alignment of conserved genomic sequence with rearrangements. 2004	Khác
[2] Altschul S F, Gish W, Miller W, Myers E W, Lipman D J. Basic local alignment search tool. 1990	Khác
[3] Altschul S.F Madden T L, Schaffer A, Zhang J, Zhang Z, Miller W, Lipman D J. Gapped BLAST and PSI-BLAST—a new generation of protein database search programs. 1997	Khác
[5] Brudno M, Do C, Cooper G, Kim M F, Davydov E, Green E D, Sidow A, Batzoglou S. LAGAN and Multi-LAGAN: Efficient tools for large- scale multiple alignment of genomic DNA. 2003	Khác
[6] Chiaromonte F, Yap V B, Miller W. Scoring pairwise genomic sequence alignments. Pacific Symp. Biocomput. 2002	Khác
[7] Darwin C. On the Origin of Species. John Murray, London, 6th edn. 1872	Khác
[8] Frank A. On Kuhn’s Hungarian Method - A tribute from Hungary. 2004	Khác
[9] Gotoh O. An improved algorithm for matching biological sequences. 1982	Khác
[10] Hamming R W. Error-detecting and error-correcting codes. 1950	Khác
[11] Hannenhalli S, Pevzner P. Transforming cabbage into turnip: polynomial algorithm for sorting signed permutations by reversals. 1995	Khác
[12] Hirschberg D. A linear space algorithm for computing maximal common subsequences, 1975	Khác
[13] Lecture Notes in Systematics. The Ohio State University. Chapter 8	Khác
[14] Levenshtein V I. Binary codes capable of correcting deletions, insertions and reversals. 1996	Khác
[15] Ma B Tromp J, Li M. PatternHunter: Faster and more sensitive homology search. 2002	Khác
[16] Needleman S B Wunsch C D. A general method applicable to the search for similarities in the amino acid sequence of two proteins. Journal of Molecular Biology. 1970	Khác
[17] Sankoff D, Blanchette M. Multiple genome rearrangement and breakpoint phylogeny [Article]. - 1998	Khác
[18] Schwartz S, Kent WJ, Smit A, Zhang Z, Baertsch R, Hardison RC, Haussler D, Miller W. Human-Mouse Alignment with BLASTZ. 2000	Khác
[19] Shoffner JM, Wallace DC Oxidative phosphorylation diseases. The Metabolic and Molecular Bases of Inherited Disease. 1995	Khác
[21] Ukkonen E On approximate string matching. Foundations of Computation Theory. 1993	Khác
[22] Ukkonen E Algorithms for approximate string matching. Information and Control. 1985	Khác