1. Trang chủ
  2. » Luận Văn - Báo Cáo

LUẬN VĂN: SẮP HÀNG HOÀN CHỈNH HAI HỆ GENOME     pot

42 162 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 42
Dung lượng 729,99 KB

Nội dung

                         ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ  Hà Tuấn Cường SẮP HÀNG HOÀN CHỈNH HAI HỆ GENOME KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY  Ngành: Công Nghệ Thông Tin HÀ NỘI – 2010                          ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ   Hà Tuấn Cường SẮP HÀNG HOÀN CHỈNH HAI HỆ GENOME KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY   Ngành: Công Nghệ Thông Tin GV hướng dẫn: TS. Lê Sỹ Vinh HÀ NỘI – 2010 Page|1  Lời cảm ơn  Lời đầu tiên, em xin gửi lời cảm ơn sâu sắc nhất đến thầy giáo TS. Lê Sỹ Vinh người đã không quản vất vả tận tình hướng dẫn em trong suốt thời gian làm khóa luận tốt nghiệp vừa qua. Em cũng xin bày tỏ lòng biết ơn tới các thầy, cô giáo trong trường Đại học Công nghệ - Đại học Quốc gia Hà Nội. Các thầy cô đã dạy bảo, chỉ dẫn chúng em và luôn tạo điề u kiện tốt nhất cho chúng em học tập trong suốt quá trình học đại học. Em cũng xin gửi lời cảm ơn tới thầy giáo PGS.TS. Từ Minh Phương, người đã cho em những lời khuyên bổ ích trong quá trình làm khóa luận. Tôi cũng xin cảm ơn những người bạn của mình, các bạn đã luôn ở bên tôi, giúp đỡ và cho tôi những ý kiến đóng góp quý báu trong học tập cũng như trong cuộc sống. Cuối cùng con xin gửi tớ i bố mẹ và toàn thể gia đình lòng biết ơn và tình cảm yêu thương nhất. Con xin dành tặng bố mẹ kết quả mà con đã đạt được trong suốt bốn năm học đại học. Con cám ơn bố mẹ và chị nhiều. Khóa luận được tài trợ một phần bởi đề tài nghiên cứu QC.09.09 thuộc Đại học Quốc Gia Hà Nội. Hà Nội, tháng 5 năm 2010 Hà Tuấn Cường      Page|2  Tóm tắt  Sự phát triển của công nghệ giải mã trình tự đã giúp giải mã ngày càng nhiều các hệ gen, đặc biệt là những hệ gen có kích thước vừa và nhỏ như vi rút hay vi khuẩn (hơn 7000 bộ gen của vi rút và vi khuẩn đã được giải mã). Bên cạnh đó hệ gen của những sinh vật bậc cao cũng đã được giải mã hoàn chỉnh như người, chó, chuột. Điều đó dẫn đến một nhu cầu c ấp thiết là phải nghiên cứu các phương pháp và xây dựng một chương trình so sánh và bắt cặp trình tự cho hai hệ gen. Trong khóa luận này, em xin được trình bày phương pháp và xây dựng một chương trình so sánh bắt cặp trình tự hoàn chỉnh cho hai hệ gen. Chương trình cho phép bắt cặp toàn bộ các ADN trên cả hai hệ gen, xác định được cả những biến đổi của tửng nucleotide và các biến đổi ở mức độ gen. Chương trình được xây dựng dựa trên cở s ở kết hợp và cải tiến các phương pháp đã có như “Pairwise Alignment with Rearrangement” [23], BLASTZ [18] và “Optimal Alignment with Linear space” [9]. Qua đó khắc phục những hạn chế và lựa chọn những ưu điểm của chúng để tạo thành một chương trình sắp hàng hệ gen hoàn chỉnh. Chương trình đã được thực nghiệm kết quả trên các dữ liệu mô phỏng và các dữ liệu thật được lấy từ Gen Bank tại NCBI http://www.ncbi.nlm.nih.gov và thu được những kết quả khả quan. Đối với các dữ mô phỏng, kết quả sắp hàng của chương trinh cho thấy đã xác định được các đoạn gen có độ tương đồng rất cao, tỷ lể sắp hàng giữa các nucleotide giống nhau đạt mức trên 97%. Khi thực nghiệm với dữ liệu thật và so sánh độ tương đồng với giá trị bắt cặp thu được khi chạy phương thức Hungarian[8] với các hệ gen được chia sẵn bằng cách sử dụng các đoạn gen cung cấp tại Gen Bank cũng cho kết quả tương đương thậm chí tốt hơn trong hầu hết các trường hợp.  Page|3  Mục lục  Lời cảm ơn 1 Tóm tắt 2 Mục lục 3 Danh sách hình vẽ 5 Danh sách các bảng 6 Lời mở đầu 7 Chương 1. Giới thiệu 8 1.1. Trình tự 8 1.1.1. Hệ thống ký tự 9 1.1.2. Các phép biến đổi 9 1.1.3. Khoảng cách 10 1.2.  Bắt cặp trình tự 10 1.3. Bắt cặp trình tự hệ gen 12 Chương 2. Bài toán sắp hàng hoàn chỉnh hai hệ gen 16 2.1. Tổng quan 16 2.2 Pairwise Alignment with Rearrangement 16 2.2.1. Cơ sở lý thuyết 17 2.2.2. Thuật toán 18 2.2.3. Độ phức tạp của thuật toán 21 2.3. Bắt cặp với những trình tự lớn 22  Chương 3. Full Genome Alignment 24 3.1. Xây dựng hệ thống 24 Page|4  3.2. Giới thiệu về BLASTZ 25 3.2.1. Tính năng của BLASTZ 25 3.2.2. Chương trình BLASTZ 27 3.3. Optimal Alignment with Linear space 28 Chương 4. Kết quả 31 4.1. Chương trình 31 4.2. Kiểm thử 33 4.2.1. Dữ liệu mô phỏng 33 4.2.2. Dữ liệu thật 35 Chương 5. Kết luận 38 Tài liệu tham khảo 39               Page|5  Danh sách hình vẽ  Hình 1. Ví dụ về một trình tự 8 Hình 2: Các biến đổi ở mức độ gen giữa Người và Khỉ 13 Hình 3:Ví dụ về phép biến đổi trong “Simulaneous Character Swapping". 20 Hình 4: Single Swap (trái) và Couple Swap (phải) 22 Hình 5:Bắt cặp trình tự với Ukkonen Barrier 29 Hình 6: Giao diện chương trình 31 Hình 7: Kết quả chương trình 32            Page|6  Danh sách các bảng  Bảng 1: Ma trận trọng số của BLASTZ 26 Bảng 2: Kết quả Test với số Inversion – Move là 0 34 Bảng 3: Kết quả Test với số Inversion – Move là 1 34 Bảng 4: Kết quả Test với số Inversion – Move là 2 34 Bảng 5: Kết quả Test với số Inversion – Move là 3 35 Bảng 6: Kết quả chạy dữ liệu thật 37         Page|7  Lời mở đầu  Năm 1854, Charles Darwin cho xuất bản quyển sách “Nguồn gốc của các loài sinh vật”, một công trình nghiên cứu sinh học nổi tiếng và đặt nền tảng cho thuyết tiến hóa của ông. Trong đó có viết “tất cả các động vật tương tự nhau phải tiến hóa từ một tổ tiên chung và tất cả các sinh vật phải tiến hóa từ một vài hoặc một tổ tiên chung đã sống cách đây nhiều triệu năm.” [7] Bộ gen của sinh vật là một trình tự ADN, theo thuyết tiến hóa thì chúng cùng được biến đổi và phát triển từ một tổ tiên chung. Trải qua hàng triệu năm tiến hóa và phát triển, một số đoạn gen được mất đi cũng như bị di chuyển vị trí so với ban đầu, hình thành lên những hệ gen khác nhau đại diện cho hàng tỷ sinh vật trên trái đất. Một trong những nhiệm vụ cần thiết là phải tìm ra mối quan h ệ về mặt cấu trúc giữa các hệ gen sinh vật, qua đó xây dựng lên một bức tranh toàn cảnh về sự tương tự và tiến hóa giữa các sinh vật trên hành tinh. Với sự phát triển của công nghệ giải mã trình tự, ngày càng nhiều các hệ gen đã được giải mã hoàn chỉnh và được lưu trữ trong các ngân hàng cơ sở dữ liệu gen. Việc so sánh và tìm ra sự tương đồng giữa các hệ gen một cách thủ công là không thể thực hiện được. Do đó dẫn đến một nhu cầu cấp thiết phải nghiên cứu phương pháp và xây dựng chương trình để so sánh và bắt cặp trình tự cho hai hệ gen. Mặc dù một số phương pháp đã được nghiên cứu và phát triển, chúng mới chỉ tập trung vào xác định và bắt cặp cho những vùng ADN có độ tương đồng cao giữa hai hệ gen. Tức là, một phần lớn trong hệ gen có thể không được bắ t cặp và so sánh khi ta tiến hành với các loài sinh vật có hệ gen khác nhau nhiều. Vì vậy cần phải xây dưng một hệ thống có khả năng bắt cặp được toàn bộ các ADN trên hai hệ gen.      Page|8  Chương 1. Giới thiệu  Chương này giới thiệu về những kiến thức cơ bản về tin sinh học, bài toán bắt cặp trình tự và bắt cặp trình tự theo hệ gen. Nội dung giới thiệu được dựa một phần trên bài giảng của Viện Đại học Ohio State, Hoa Kỳ [13] 1.1. Trình tự Một hệ gen của một sinh vật được thể hiện là một trình tự của các ADN. Trình tự là một dãy tuyến tính các phần tử được sặp xếp theo thứ tự. Như vậy một trình tự chứa hai loại thông tin: thông tin về phần tử và thông tin định vị - thông tin về vị trí tương đối của từng phần tử so với các phần tử khác. Các thông tin định vị có thể được xác định theo nhi ều cách như theo trục, theo thời gian, vị trí của nhiễm sắc thể hoặc trong 1 vòng protein. Hình 1. Ví dụ về một trình tự. Hình trên cùng: 1 đoạn 18S rDNA của sâu bọ khác cánh. Hình giữa trên: Tổng quát cơ thể động vật chân dốt. Hình giữa dưới: Orthopteran stridulation. Hình dưới cùng: Đoạn gen mtDNA [13] [...]... Page  | 1 5    Chương 2 Bài toán sắp hàng hoàn chỉnh hai hệ gen 2.1 Tổng quan   Theo những nghiên cứu của TS Lê Sỹ Vinh và đồng nghiệp [23,24], một hệ thống sắp hàng hoàn chỉnh hai hệ gen phải thỏa mãn ba điều kiện chính : • Xác định được các phép biến đổi ở mức độ gen (chèn, xóa, dịch chuyển vị trí) • Xác định được các phép biến đổi ở mức độ điểm (thay thế, chèn, xóa) • Bắt cặp toàn bộ các ADN trên hệ. .. được như sau: Page  | 3 3    Inversion 0 Deletion 2% Deletion 5% Substitution 2% Match (by position) : 98.306% Match (by position) : 98.203% Match(by nucleotide): 99.023% Match(by nucleotide) : 98.983% Time : 5 .2s Time : 6 .65s Substitution 5% Match (by position) :  95.841% Match (by position) :  95.548% Match(by nucleotide) :  97.470% Match(by nucleotide) :  97.554% Time : 5 .6s Time : 6 .65s Bảng 2: Kết... giữa hai đoạn Ai và Bj trong đó Ai được sắp hàng với Bj • dA- ( Ai , Bj ) là chi phí bắt cặp giữa hai đoạn Ai và Bj trong đó Ai được sắp hàng với kí tự gap • d-B ( Ai , Bj ) là chi phí bắt cặp giữa hai đoạn Ai và Bj trong đó Bj được sắp hàng với kí tự gap Với w(Ai, Bj) là chi phí khi sắp hàng ký tự Ai và ký tự Bj w(k) = a +bk là chi phi chèn – xóa k ký tự ta có công thức quy hoạch động: Page  | 2 8    dAB(... độ dài các đoạn gen, …   Hình 7: Kết quả chương trình Page  | 3 2    4.2 Kiểm thử Tiến hành kiểm thử trên hai loại dữ liệu là dữ liệu mô phỏng và dữ liệu thật Do chưa có một chương trình tương tự được công bố có khả năng so sánh và sắp hàng toàn bộ hai hệ gen nên ở phần này, việc dánh giá kết quả được thực hiện ở mức kiểm tra và so sánh độ tương đồng của hai hệ gen sau khi sắp hàng 4.2.1 Dữ liệu mô phỏng... toán quy hoạch động để sắp hàng hai chuỗi XR, YR cũng chỉ cần yêu cầu thời gian là O(pq) (Xem phần 1.2) Như vậy độ phức tạp thời gian áp dụng phương thức này sẽ là O(pq x iteration) với iteration là số lần chạy vòng while Page  | 2 3    Chương 3 Full Genome Alignment 3.1 Xây dựng hệ thống Thuật toán “Pairwise Alignment with Rearrangement” [23] tuy đã sắp hàng được hoàn toàn hai hệ gen, tuy nhiên nhược... • Sắp hàng toàn bộ hệ gen, xác định các biến đổi ở mức độ gen bằng thuật toán Pairwise Alignment with Rearrangement với Fast Swapping • Đầu ra đưa ra danh sách nhưng cặp gen đã được sắp hàng, trong đó chỉ rõ những sự biến đổi ở mức độ điểm ở từng cặp gen Cho biết thông tin về các đoạn gen đã bị dịch chuyển, bị đảo ngược, tồn tại ở hệ gen này nhưng không tồn tại ở hệ gen kia Sắp hàng hoàn chỉnh hai hệ. .. gian giảm xuống O(dm) với d là khoảng cách độ dài giữa hai trình tự, m là độ dài của trình tự ngắn hơn   Hình 5 :Sắp hàng trình tự với Ukkonen Barrier [13] Page  | 2 9    Thứ hai, trong quá trình quy hoạch động theo thuật toán Gotod, giá trị của 1 hàng chỉ được tính dựa vào 1 hàng trước nó, do vậy ta có thể sử dụng 2 mảng một chiều để thay thế cho 1 hàng hai chiều Như vậy có thể giảm không gian bộ nhớ xuống... có độ tương đồng cao giữa hai hệ gen Tức là, một phần lớn trong hệ gen có thể không được bắt cặp và so sánh khi ta tiến hành với các loài sinh vật có hệ gen khác nhau nhiều Để giải quyết vấn đề trên, những nghiên cứu đầu tiên của TS Lê Sỹ Vinh và Page  | 1 4    đồng nghiệp tại Bảo Tàng Lịch Sử Tự Nhiên Hoa Kỳ, và tại trường Đại Học Công Nghệ nhằm so sánh và sắp hàng toàn bộ hệ gen đã được tiến hành và... ra sự khó khăn trong việc dựng lại mối quan hệ giữa các trình tự trong những hệ thống phân tích phức tạp Phép thay thế: Phép chèn – xóa: Phép đảo ngược: Phép dịch chuyển: Page  | 9     1.1.3 Khoảng cách   Một điều quan trọng và cần thiết là xây dựng một hàm mục tiêu đánh giá khoảng cách giữa hai trình tự, qua đó đánh giá sự tương đồng, mối quan hệ giữa hai hệ gen Khoảng cách này có thể được tính toán... cách sắp hàng sao cho tổng 3 chi phí : Chi phí thay đổi vị trí (Break Cost), chi phí chèn – xóa và chi phí thay thế các ký tự là nhỏ nhất Thực nghiệm cho thấy, việc sắp hàng trình tự có sự đổi chỗ của Page  | 1 6    các ký tự cho kết quả tối hơn so với cắt bắt cặp trình tự thông thường không có sự đổi chỗ 2.2.1 Cơ sở lý thuyết Trong “Pairwise Alignment with rearrangement”, ta xem hai hệ gen như hai chuỗi . Page|16  Chương 2. Bài toán sắp hàng hoàn chỉnh hai hệ gen 2.1. Tổng quan  Theo những nghiên cứu của TS. Lê Sỹ Vinh và đồng nghiệp [23,24], một hệ thống sắp hàng hoàn chỉnh hai hệ gen phải thỏa. HỌC CÔNG NGHỆ   Hà Tuấn Cường SẮP HÀNG HOÀN CHỈNH HAI HỆ GENOME KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY   Ngành: Công Nghệ Thông Tin. HỌC CÔNG NGHỆ  Hà Tuấn Cường SẮP HÀNG HOÀN CHỈNH HAI HỆ GENOME KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY  Ngành: Công Nghệ Thông Tin

Ngày đăng: 28/06/2014, 00:20

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[1] Aaron C E, Darling, Bob Mau, Frederick R. Blatter, Nicole T Perna. Mauve: multiple alignment of conserved genomic sequence with rearrangements. 2004 Khác
[2] Altschul S F, Gish W, Miller W, Myers E W, Lipman D J. Basic local alignment search tool. 1990 Khác
[3] Altschul S.F Madden T L, Schaffer A, Zhang J, Zhang Z, Miller W, Lipman D J. Gapped BLAST and PSI-BLAST—a new generation of protein database search programs. 1997 Khác
[5] Brudno M, Do C, Cooper G, Kim M F, Davydov E, Green E D, Sidow A, Batzoglou S. LAGAN and Multi-LAGAN: Efficient tools for large-scale multiple alignment of genomic DNA. 2003 Khác
[6] Chiaromonte F, Yap V B, Miller W. Scoring pairwise genomic sequence alignments. Pacific Symp. Biocomput. 2002 Khác
[7] Darwin C. On the Origin of Species. John Murray, London, 6th edn. 1872 Khác
[8] Frank A. On Kuhn’s Hungarian Method - A tribute from Hungary. 2004 Khác
[9] Gotoh O. An improved algorithm for matching biological sequences. 1982 Khác
[10] Hamming R W. Error-detecting and error-correcting codes. 1950 Khác
[11] Hannenhalli S, Pevzner P. Transforming cabbage into turnip: polynomial algorithm for sorting signed permutations by reversals. 1995 Khác
[12] Hirschberg D. A linear space algorithm for computing maximal common subsequences, 1975 Khác
[13] Lecture Notes in Systematics. The Ohio State University. Chapter 8 Khác
[14] Levenshtein V I. Binary codes capable of correcting deletions, insertions and reversals. 1996 Khác
[15] Ma B Tromp J, Li M. PatternHunter: Faster and more sensitive homology search. 2002 Khác
[16] Needleman S B Wunsch C D. A general method applicable to the search for similarities in the amino acid sequence of two proteins. Journal of Molecular Biology. 1970 Khác
[17] Sankoff D, Blanchette M. Multiple genome rearrangement and breakpoint phylogeny [Article]. - 1998 Khác
[18] Schwartz S, Kent WJ, Smit A, Zhang Z, Baertsch R, Hardison RC, Haussler D, Miller W. Human-Mouse Alignment with BLASTZ. 2000 Khác
[19] Shoffner JM, Wallace DC Oxidative phosphorylation diseases. The Metabolic and Molecular Bases of Inherited Disease. 1995 Khác
[21] Ukkonen E On approximate string matching. Foundations of Computation Theory. 1993 Khác
[22] Ukkonen E Algorithms for approximate string matching. Information and Control. 1985 Khác

HÌNH ẢNH LIÊN QUAN

Hình 1. Ví dụ về một trình tự. Hình trên cùng: 1 đoạn 18S rDNA của sâu bọ khác  cánh. Hình giữa trên: Tổng quát cơ thể động vật chân dốt - LUẬN VĂN: SẮP HÀNG HOÀN CHỈNH HAI HỆ GENOME     pot
Hình 1. Ví dụ về một trình tự. Hình trên cùng: 1 đoạn 18S rDNA của sâu bọ khác cánh. Hình giữa trên: Tổng quát cơ thể động vật chân dốt (Trang 10)
Hình 2: Các biến đổi ở mức độ gen giữa Người và Khỉ - LUẬN VĂN: SẮP HÀNG HOÀN CHỈNH HAI HỆ GENOME     pot
Hình 2 Các biến đổi ở mức độ gen giữa Người và Khỉ (Trang 15)
Hình phải:Đổi chỗ đồng thời 2 phép biến đổi độc lập. - LUẬN VĂN: SẮP HÀNG HOÀN CHỈNH HAI HỆ GENOME     pot
Hình ph ải:Đổi chỗ đồng thời 2 phép biến đổi độc lập (Trang 22)
Hình 4: Single Swap (trái) và Couple Swap (phải) - LUẬN VĂN: SẮP HÀNG HOÀN CHỈNH HAI HỆ GENOME     pot
Hình 4 Single Swap (trái) và Couple Swap (phải) (Trang 24)
Bảng 1: Ma trận trọng số của BLASTZ - LUẬN VĂN: SẮP HÀNG HOÀN CHỈNH HAI HỆ GENOME     pot
Bảng 1 Ma trận trọng số của BLASTZ (Trang 28)
Hình 5:Sắp hàng trình tự với Ukkonen Barrier [13] - LUẬN VĂN: SẮP HÀNG HOÀN CHỈNH HAI HỆ GENOME     pot
Hình 5 Sắp hàng trình tự với Ukkonen Barrier [13] (Trang 31)
Hình 6:  Giao diên chương trình - LUẬN VĂN: SẮP HÀNG HOÀN CHỈNH HAI HỆ GENOME     pot
Hình 6 Giao diên chương trình (Trang 33)
Hình 7: Kết quả chương trình - LUẬN VĂN: SẮP HÀNG HOÀN CHỈNH HAI HỆ GENOME     pot
Hình 7 Kết quả chương trình (Trang 34)
Bảng 2: Kết quả Test với số Inversion – Move là 0 - LUẬN VĂN: SẮP HÀNG HOÀN CHỈNH HAI HỆ GENOME     pot
Bảng 2 Kết quả Test với số Inversion – Move là 0 (Trang 36)
Bảng 3: Kết quả Test với số Inversion – Move là 1 - LUẬN VĂN: SẮP HÀNG HOÀN CHỈNH HAI HỆ GENOME     pot
Bảng 3 Kết quả Test với số Inversion – Move là 1 (Trang 36)

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w