Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 78 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
78
Dung lượng
2,05 MB
Nội dung
B GIÁO DO I HC LC HNG * * * C NGHIÊN CU PHÁT TRIN THUT TOÁNPHÂN CM CÁCTRÌNH T SINH HC DA TRÊN M NG Chuyên ngành : Công nghệ thông tin Luậnvănthạcsĩ Công nghệ thông tin NGƯỜI HƯỚNG DẪN KHOA HỌC : PGS. TS. TRẦN VĂN LĂNG Đồng Nai – Năm 2011 -i- LI C Lời đầu tiên tôi xin chân thành cám ơn đến PGS. TS. Trần Văn Lăng đã tận tình giúp đỡ tôi trong suốt thời gian học tập vừa qua, và hướng dẫn tôi hoàn thành đề tài này. Tôi chân thành cám ơn các thầy cô Khoa Công nghệ thông tin, nơi tôi công tác và nghiêncứu đã tạo điều kiện và hỗ trợ tôi trong suốt thời gian qua. Tôi cũng xin chân thành cám ơn người thân, bạn bè đã giúp đỡ và động viên tôi trong suốt thời gian học tập cũng như trong thời gian thực hiện luận văn. Chân thành cám ơn ! Biên Hòa, ngày 16 tháng 10 năm 2011 Trương Thị Đức -ii- TÓM TT So sánh trìnhtự nhằm tìm kiếm, phân loại trìnhtự chuỗi, gene vẫn là một bài toán lớn của sinh tin học (Bioinfomation). Phổ biết hiện nay là so sánh đa trìnhtự (MSA - Multiple Sequence Alignment). MSA đóng vai trò quan trọng trong sinh tin học nói chung và lĩnh vực tìm kiếm gene nói riêng. MSA là một bài toán NP và hoàn toàn chưa có giải pháp trọn vẹn để tìm lời giải tối ưu cho bài toán. Nhiều phương pháp được sử dụng và nhiều phần mềm đã được đưa ra nhằm giải quyết bài toàn khi tập dữ liệu đầu vào lớn. Với nguồn dự liệu sinh tin họcpháttriển nhanh như hiện nay, việc tìm kiếm cáctrìnhtựtươngđồng mất nhiều thời gian. Luậnvăntrình bày phương pháp kết hợp hai thuậttoán DBSCAN và thuậttoán BLAST, áp dụng thuậttoán DBSCAN (Density Based Spatial Clustering of Applications with Noise) trong việc phâncụm (gom nhóm) trìnhtự trong dữ liệu, tiến hành khai phá dữ liệu, từđóđưa ra kết quả các nhóm trìnhtự có sự tươngđồng với phạm vi khai phá giới hạn lại, bước tiếp theo dùng thuậttoán BLAST tìm kiếm nhằm giúp gia tăng thời gian xử lý thông tin. Cấu trúc luậnvăn như sau, chương thứ nhất giới thiệu về vấn đề cần giải quyết, chương thứ hai trình bày các khái niệm sinh về sinhhọcphân tử, chương thứ ba giới thiệu các phương pháp sắp hàng trình tự, chương thứ 4 trình bày thuậttoán DBSCAN, chương thứ 5 trình bày thuậttoán BLAST, chương thứ 6 kết hợp thuậttoán DBSCAN và thuậttoán BLAST và chương kết luận. -iii- LI C .i TÓM TT . ii . iii DANH MC CÁC KÝ HIU, CH VIT TT vi DANH MC HÌNH . vii TNG QUAN V SINH TIN HC 1 1.1. Tổng quan 1 1.2. Mục tiêu của luậnvăn . 12 KHÁI NIM TRONG SINH HC . 13 2.1. Amino acid và tính chất 13 2.2. DNA 15 2.3. RNA 16 2.4. Protein . 17 2.5. Chức năng của protein 19 2.6. Phân lớp cấu trúc protein 20 2.6.1. Cấu trúc bậc 1 . 20 2.6.2. Cấu trúc protein bậc 2 21 2.6.3. Cấu trúc protein bậc 3 27 2.6.4. Cấu trúc bậc 4 . 28 SP HÀNG TRÌNH T . 31 3.1. Định nghĩa . 31 3.2. Phân loại 31 3.2.1. Sắp hàng từng cặp (Pairwise Sequence Alignment-PSA) . 32 3.2.2. Sắp hàng đa trìnhtự (Multiple Sequence Alignment-MSA) 32 3.3. GAP . 33 3.4. Giá trị GAP . 34 3.5. Ma trận đánh giá 35 3.6. Phương pháp đánh giá . 38 -iv- 3.7. Một số phương pháp xếp hàng trìnhtự . 39 3.7.1. Phương pháp sắp hàng chính xác (Exact algorithms) 39 3.7.2. Phương pháp sắp hàng lũy tiến toàn cục (Progressive algorithms) . 39 3.7.3. Phương pháp sắp hàng lặp (Iterative algorithms) 40 3.7.4. Phương pháp dựatrên mô hình Makov ẩn (Hidden Markov Model-HMM) 40 THUT TOÁN DBSCAN 42 4.1. Tổng quan về thuậttoánphâncụm . 42 4.2. Thuậttoán gom nhóm . 43 4.3. Khái niệm dựatrên mật độ của các nhóm . 44 4.3.1. Định nghĩa . 44 4.3.2. Bổ đề 47 4.4. Thuậttoán DBSCAN 47 4.5. Xác định thông số Eps and MinPts 49 4.6. Điểm mạnh của thuậttoán 51 THUT TOÁN BLAST 52 5.1. Thuậttoán Needleman & Wunsch 52 5.2. Thuậttoán Smith- Waterman 55 5.3. Thuậttoán BLAST 56 5.3.1. Các bước thực thi thuậttoán BLAST 57 5.3.2. Các chương trình BLAST mở rộng . 58 THUT TOÁN KT HP . 60 6.1. Ý tưởngthuậttoán . 60 6.2. Phương pháp . 60 6.2.1. Khoảng cách giữa hai trìnhtự 60 6.2.2. Đơn vị đo không đồng dạng giữa hai trìnhtự x và y 61 6.2.3. Thuậttoán gom nhóm dựa theo mật độ 61 6.2.4. Thuậttoán kết hợp 62 -v- KT QU 64 7.1. Bài toán cần giải quyết 64 7.2. Cấu trúc mẫu trìnhtự 64 7.2.1. FASTA . 64 7.2.2. Dạng Genbank 65 7.3. Kết quả chương trình . 67 7.4. Kết luận . 69 7.5. Hướng pháttriển . 69 -vi- DANH MC CÁC KÝ HIU, CH VIT TT A Adenine BLAST Basic Local Alignment Search Tool C Cytosine CSDL Cơ sở dữ liệu DBSCAN Density Based Spatial Clustering of Aplication with Noise DNA Deoxyribonucleic Acid G Guanine HMM Hidden Markov Model IST Information Society Technologies Programme IVDB Influenza Virus Database mRNA messenger RNA MSA Multiple Sequence Alignment MSA Multiple Sequence Alignment MSP Maximal Segment Pair NCBI National Center for Biotechnology Information PSA Pairwise Sequence Alignment RNA Ribonucleic Acid rRNA ribosomal RNA STREP Strategic Targeted Research Project T Thymine, Thymidine tRNA transfer RNA -vii- DANH MC HÌNH Hình 1.1: Dự án HapMap 4 Hình 1.2: Phòng thí nghiệm DIL . 5 Hình 1.3: Public Health Genetics Unit 6 Hình 1.4: Bioinformatics và Computation 7 Hình 1.5: Hệ thống thông tin virus cúm của NCBI . 8 Hình 1.6: Hệ thống thông tin virus cúm IVDB . 9 Hình 2.1: Cơ bản cấu trúc của một acid α-amino . 13 Hình 2.2: 20 amino acid 14 Hình 2.3: Sự khác biệt giữa đường của ADN và RNA . 16 Hình 2.4: Chuỗi xoắn đơn RNA 17 Hình 2.5: Hình thức của protein 18 Hình 2.6: Cấu trúc protein bậc 1 . 21 Hình 2.7: Cấu trúc protein bậc 2 . 22 Hình 2.8: Mô hình xoắn α . 23 Hình 2.9: Cấu trúc gấp nếp β 24 Hình 2.10: Siêu cấu trúc bậc 2 24 Hình 2.11: Domain 25 Hình 2.12: Cấu trúc bậc 3 của protein . 28 Hình 2.13: Cấu trúc bậc 4 của protein . 29 Hình 2.14: -a: Collagen – Một loại protein sợi . 29 Hình 2.14: -b: Haemoglobin – protein hình cầu . 30 Hình 2.14: -c: Bacteriorhodopsin – protein màng . 30 Hình 3.1: Cấu trúc một PSA . 32 Hình 3.2: So sánh đa trìnhtự . 32 Hình 3.3: Các loại GAP . 34 Hình 3.4: Giá trị của GAP . 35 Hình 3.5: Ma trận Blosum . 35 Hình 3.6: Tính score bằng ma trận đánh giá . 38 Hình 3.7: Phương pháp đánh giá Sum of Pair . 39 Hình 4.1: Đối tượng biên và đối tuợng lõi 44 Hình 4.2: Quan hệ tới được trực tiếp theo mật độ . 45 Hình 4.3: Quan hệ tới được theo mật độ . 46 Hình 4.4: Quan hệ kết nối theo mật độ . 46 Hình 4.5: Đồ thị sorted 4-dsit . 50 Hình 6.1: Lưu đồ kết hợp thuậttoán BDSCAN và thuậttoán BLAST 63 Hình 7.1: Giao diện công cụ tìm kiếm trìnhtựsinhhọc . 67 Hình 7.2: Giao diện chức năng tìm kiếm BLASTN 68 Hình 7.3: Giao diện công cụ hỗ trợ tìm kiếm virus cúm . 68 Hình 7.4: Kết quả tìm kiếm trìnhtự có độtương đồng. 69 1 TNG QUAN V SINH TIN HC Chương này giới thiệu tổng quan về đề tài, trình bày một số công trình liên quan đến nội dung của luậnvăn và mục tiêu của đề tài. 1.1. Trong vài thập kỷ qua, sinhhọcphântử đã có nhiều bước pháttriển mạnh mẽ, một loạt các công cụ ứng dụng sinhhọc ra đời góp phần thúc đẩy quá trình giải mã một số lượng lớn trìnhtự bộ gen ở nhiều loài sinh vật. Sự pháttriển mạnh mẽ của công nghệ sinhhọc đã giúp chúng ta giải mã bộ gen của virus cúm trong một thời gian ngắn với chi phí vừa phải. Một lượng lớn dữ liệu sinhhọcphântử (các trìnhtự DNA/protein) của virus cúm đã được giải mã và lưu trữ ở các cơ sở dữ liệu dùng chung của thế giới như Trung tâm Thông tin về công nghệ sinhhọc Hoa Kỳ - NCBI (National Center for Biotechnology Infor- mation). NCBI hiện đang lưu giữ hơn 100.000 trìnhtự DNA/protein của virus cúm được thu thập và giải mã từ nhiều quốc gia trên thế giới trong suốt thời gian qua. Với một lượng dữ liệu khổng lồ đã được thu thập, việc xây dựng các hệ thống thông tin, xây dựng các công cụ tìm kiếm và phân tích dữ liệu đang được pháttriển mạnh mẽ trên thế giới. Qua đó giúp chúng ta hiểu được cơ chế lây nhiêm, tạo ra vắc-xin mới, theo dõi và kiểm soát dịch bệnh. Sinh tin học là một ngành khoa học mà trong đó có sự kết hợp giữa sinh học, khoa học máy tính và công nghệ thông tin. Sinh tin học sử dụng cácthuậttoánphân tích tối ưu xử lý dữ liệu sinhhọc thông qua các thiết bị phần cứng và hệ thống mạng. Trên thế giới, đã có nhiều phần mềm để xử lý cáctrìnhtựsinhhọc DNA và protein như: Phần mềm PC-genes, Discovery Studio gene, DNASIS, DNAMAN, VECTOR NTI, AnnHyb, DNA Club, Plasmid Processor, Oligos, v.v… Những phần mềm này có một số chức năng: Chuyển mã trìnhtự DNA sang RNA, Hiển thị cặp trìnhtự chính và trìnhtự bắt cặp. 2 Tìm vị trí của một enzyme giới hạn trong một trình tự. Vẽ bản đồ plasmid, hỗ trợ thiết kế phântử Tìm kiếm các đoạn mồi (primer) So sánh mứcđộtươngđồng (similarity) giữa cáctrìnhtự Vẽ cây biểu diễn mứcđộtươngđồng giữa cáctrìnhtự (biểu đồ den- dogram) Tìm kiếm cáctrình tự, các đoạn lặp (motif), các enzyme trong cơ sở dữ liệu Ở Châu Âu đang triển khai dự án DataMiningGrid từ năm 2004-2006, đó là Strategic Targeted Research Project (STREP) của Information Society Technolo- gies Programme (IST). Trong nước, sự đóng góp của các nhà sinhhọc cũng khá phong phú như: Viện Công nghệ Sinhhọc thuộc Viện Khoa học và Công nghệ Việt Nam, Phòng Kỹ thuật di truyền, Phòng Công nghệ ADN ứng dụng, Phòng Hoá sinh protein, Phòng Vi sinh vật họcphân tử, Viện Sinhhọc Nhiệt đới, khoa sinhhọcphântử của Trường Đại học Khoa họctự nhiên đã có rất nhiều thành tựu. Tuy nhiên, sự đóng góp của các nhà tin học vào lĩnh vực này còn khá khiêm tốn. Cũng đã có nhiều nhóm nghiêncứu xây dựng trang web, phần mềm để xử lý và hiển thị thông tin sinh học. Chẳng hạn như nhóm nghiêncứu của Trung tâm Pháttriển Công nghệ thông tin, Đại Học Quốc Gia do GS. Hoàng Văn Kiếm chủ trì; nhóm của GS. Hồ Tú Bảo (http://www.tinsinhhoc.org); nhóm của Phân Viện Công nghệ thông tin tại TPHCM (Nay là Viện Cơ học và Tin học ứng dụng), do PGS Trần Văn Lăng chủ trì (http://bio.ioit-hcm.ac.vn, http://biogrid.ioit-hcm.ac.vn). Tuy kết quả còn hạn chế nhưng đây là một đóng góp đáng kể cho ngành sinh tin học đang mới hình thành ở Việt Nam. Trong thời gian gần đây có nhóm của PGS. Từ Minh Phương, Học viện Công nghệ Bưu chính Viễn thông; của TS. Lê Sỹ Vinh, TS. Hoàng Xuân Huấn, Trường Đại học Công nghệ, Đại học quốc gia Hà Nội; của TS. Trần Đăng Hưng, Trường Đại học Sư phạm Hà Nội cũng đã có những công trìnhnghiêncứu