Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 67 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
67
Dung lượng
1,77 MB
Nội dung
i Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn/ ĐẠI HỌC THÁI NGUYÊN TRƢỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG NGUYỄN THỊ THANH NGỌC MỘT SỐ KỸ THUẬT ỨNG DỤNG ĐỂ LẮPRÁP HỆ GEN VỚI DỮ LIỆU TRÌNH TỰ NGẮN TRONG TIN SINH HỌC Chuyên ngành: Khoa học máy tính Mã số chuyên ngành: 60 48 01 LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH NGƢỜI HƢỚNG DẪN KHOA HỌC TS. NGUYỄN CƢỜNG Thái Nguyên – 2014 ii Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn/ ĐẠI HỌC THÁI NGUYÊN TRƢỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG NGUYỄN THỊ THANH NGỌC MỘT SỐ KỸ THUẬT ỨNG DỤNG ĐỂ LẮP RÁP HỆ GEN VỚI DỮ LIỆU TRÌNH TỰ NGẮN TRONG TIN SINH HỌC Chuyên ngành: Khoa học máy tính Mã số chuyên ngành: 60 48 01 LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH NGƢỜI HƢỚNG DẪN KHOA HỌC TS. NGUYỄN CƢỜNG Thái Nguyên – 2014 iii Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn/ LỜI CAM ĐOAN Tôi xin cam đoan: Luận văn này là công trình nghiên cứu thực sự của cá nhân dƣới sự hƣớng dẫn khoa học của TS. Nguyễn Cƣờng. Các số liệu, những kết luận nghiên cứu đƣợc trình bày trong luận văn này trung thực và chƣa từng công bố dƣới bất cứ hình thức nào. Tôi xin chịu trách nhiệm về nghiên cứu của mình. Học viên Nguyễn Thị Thanh Ngọc iv Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn/ LỜI CẢM ƠN Lời đầu tiên, tôi xin chân thành cảm ơn Tiến sĩ Nguyễn Cƣờng, ngƣời thày đã trực tiếp hƣớng dẫn tôi hoàn thành luận văn này. Thày đã tận tình hƣớng dẫn, chỉ bảo và cung cấp những tài liệu liên quan đồng thời động viên tinh thần giúp tôi vƣợt qua nhiều khó khăn trong quá trình thực hiện luận văn. Tôi cũng xin chân thành cảm ơn quý Thầy (Cô) giảng dạy chƣơng trình cao học chuyên ngành “ Khoa học máy tính” đã truyền đạt những kiến thức hữu ích và giúp tôi khi thực hiện nghiên cứu. Xin cảm ơn các quý Thầy, Cô công tác tại Trƣờng Đại học Công nghệ thông tin và truyền thông – Đại học Thái Nguyên đã tạo điều kiện cho tôi đƣợc tham gia và hoàn thành khoá học. Tôi xin chân thành cảm ơn! Thái Nguyên, ngày tháng năm 2014 Học viên Nguyễn Thị Thanh Ngọc v Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn/ MỤC LỤC LỜI CAM ĐOAN i LỜI CẢM ƠN iv MỤC LỤC v DANH MỤC CÁC TỪ VIẾT TẮT………………………………………… …iv DANH MỤC BẢNG BIỂU viii DANH MỤC HÌNH ẢNH ix MỞ ĐẦU 1 Chƣơng 1: CƠ SỞ LÝ THUYẾTCỦA BÀI TOÁN LẮP RÁP TRÌNH TỰ GEN 3 1.1 Bài toán lắp ráp trình tự gen 3 1.2. Định dạng cơ sở dữ liệu và những sai số thƣờng gặp trong bài toán lắp ráp 7 1.3. Ứng dụng của công nghệ đọc trình tự gen 13 Chƣơng 2: MỘT SỐ KỸ THUẬT LẮP RÁP HỆ GEN VỚI DỮ LIỆU TRÌNH TỰ ĐOẠN NGẮN TRONG TIN SINH HỌC 15 2.1. Thuật toán Overlap Layout Consensus (OLC) 15 2.2. Thuật toán sử dụng Đồ thị De Bruijn 17 2.3. Thuật toán Short Sequence Assembler (SSA) 20 2.3.1. Giới thiệu về thuật toán SSA 21 2.3.2. Sửa lỗi 22 2.3.3. Xây dựng Overlap graph 22 2.3.3.1. Bảng băm……………………………………………………………23 2.3.3.2 Xây dựng cạnh trên Overlap graph………………………………… 23 2.3.3.3. Hạn chế cạnh bắc cầu………………………………………….…….26 2.3.3.4. Rút gọn các tuyến ghép………………………………….………… 33 Chƣơng 3: CÀI ĐẶT THỬ NGHIỆM THUẬT TOÁN SSA 36 3.1. Yêu cầu đầu vào và đầu ra của thuật toán: 36 3.2. Đánh giá thuật toán và Kết quả thí nghiệm: 41 KẾT LUẬN 55 TÀI LIỆU THAM KHẢO 56 vi Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn/ DANH MỤC CÁC TỪ VIẾT TẮT STT Từ viết tắt/thuật ngữ Nghĩa/Mô tả 1. ADN (DNA) Deoxyribo Ducleic Acid 2. BP Base pair 3. GB (G base) Giga base pair 4. NST Nhiễm sắc thể 5. DNA senquencing Đọc trình tự DNA 6. HGP Dự án hệ giải trình tự hệ gen con ngƣời 7. DdNTP Dideoxynucleotide 8. Nucleotide Các trình tự A,T,G,C 9. Sanger (SAGE) Tên thiết bị đọc trình tự đoạn ngắn (1500bp) 10. ABI SOLID Tên thiết bị đọc trình tự 11. Dntp Deoxynucleotide 12. Gdna DNA thuộc nhiễm sắc thể 13. SBL Đọc trình tự gắn nối (sequencing by ligation) 14. GS20 Tên thiết bị đọc trình tự 15. Illumina Solexa 1G Tên thiết bị đọc trình tự 16. Roche 454 FLX Tên thiết bị đọc trình tự 17. Scaffold (Super cotig)chuỗi các cotig 18. Tandem Repeat Các khối nhỏ có kích thƣớc từ vài base đến vài chục base bị lặp đi lặp lại nhiều lần. 19. Large repeat regions Chuỗi lặp lớn lên tới vài nghìn base 20. Fragment Mảnh DNA 21. Read Đoạn trình tự ngắn 22. Cotig Đoạn trình tự dài 23. De Bruijn Tên một thuật toán lắp ráp hệ gen với dữ liệu 24. pyrosequencing Đọc trình tự đoạn ngắn (100bp) 25. Insert size (fragment khoảng cách giữa 2 đoạn read xuôi và ngƣợc vii Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn/ length) 26. Coverage số bản sao chép của hệ gen gốc đƣợc giải mã 27. paired-end short reads Lắp ráp trình tự sử dụng cặp read ngắn 28. Ligation error Lỗi giải trình tự 29. ALLPAHTS Tên phƣơng pháp lắp ráp hệ gen với dữ liệu 30. overlap graph Đồ thị 31. Node Nút trong đồ thị 32. Tip một node trong đồ thị mà từ vị trí đó không có cạnh dẫn tới node nào khác 33. Bubble Lỗi trong đồ thị, xuất hiện khi tồn tại hai đƣờng dẫn giữa hai điểm node 34. SSA (Short Sequence Assembler) thuật toán lắp ráp 35. Neighbour Hàng xóm – điểm lân cận viii Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn/ DANH MỤC BẢNG BIỂU Bảng 3.1. Bảng tóm tắt kết quả lắp ráp giữa thuật toán SSA và Velvet 53 Bảng 3.2: Thống kê tỉ lệ trình tự đƣợc sử dụng để lắp ráp 54 ix Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn/ DANH MỤC HÌNH ẢNH Hình 1.1. Quy trình phân tích hệ gen sinh vật từ dữ liệu giải trình tự 4 Hình 1.2. Minh họa phép lắp ráp hệ gen 5 Hình 1.3. Công nghệ giải mã hệ gen 6 Hình 1.4. Nguyên lý lắp ráp trình tự ngắn thành các contig 7 Hình 1.5. Sequencing error 10 Hình 1.6. Ligation error 10 Hình 1.7. Sửa lỗi giải trình tự sử dụng nhiều bản sao 11 Hình 1.8.Không phải lỗi trong giải trình tự 12 Hình 1.9. Một ví dụ của „Tandem repeat‟ 12 Hình 2.1: Overlap graph 16 Hình 2.2. Đồ thị De Bruijn 17 Hình 2.3. Đồ thị De Bruijn 18 Hình 2.4: Mô tả thuật toán „Breadcrumbs‟ 20 Hình 2.5. Chuỗi băm của Read 24 Hình 2.6. Sử dụng bảng băm để tìm những đoạn giống nhau trong chuỗi 24 Hình 2.7. Đồ thị Overlap graph với 10 read 25 Hình 2.8.Các Read trùng lặp nhau 26 Hình 2.9. Tập hợp các read đầu vào 29 Hình 2.10 Các loại Read trùng lặp nhau 33 Hình 2.11: Đồ thị Overlap Graph sau khi hạn chế cạnh bắc cầu 33 Hình 2.12: Đồ thị sau khi rút gọn các tuyến ghép 34 Hình 3.1. File config định dạng số liệu về các đoạn trình tự đầu vào 38 Hình 3.2. File H37Rv.scafStatistics thống kê số liệu đã lắp ráp 41 Hình 3.3. Chất lƣợng trung bình của các đoạn trình tự trong bộ dữ liệu 44 Hình 3.4. Chất lƣợng trình tự theo vị trí base 45 Hình 3.5. Chiều dài các đoạn trình tự trong bộ dữ liệu 46 Hình 3.6. Tỉ lệ base chƣa xác định trong các trình tự 47 Hình 3.7. Tỉ lệ thành phần base 48 x Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn/ Hình 3.8. Tỉ lệ thành phần GC 49 Hình 3.9. Tỉ lệ lặp trình tự 50 Hình 3.10. Minh họa hoạt động của SSA 51 Hình 3.11. Minh họa hoạt động của Velvet 52 [...]... mảnh trình tự ngắn lại với nhau để tạo nên gen gốc ban đầu Mục tiêu của luận văn này cũng tập trung vào vấn đề tìm hiểu các kỹ thuật lắp ráp hệ gen với dữ liệu từ các đoạn trình tự ngắn này thành các đoạn trình tự dài hơn Hình 1.1 Quy trình phân tích hệ gen sinh vật từ dữ liệu giải trình tự Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn/ 5 Lắp ráp trình tự đoạn ngắn đƣợc... thuật ng dụng ể lắp ráp hệ gen với dữ liệu trình tự ngắn trong tin sinh học Đề tài này sẽ trình bày một số kỹ thuật lắp ráp các đoạn trình tự ngắn (read) thành các đoạn trình tự dài hơn (contigs) từ thiết bị đọc trình tự thế hệ mới và thử nghiệm cài đặt một chƣơng trình có chức năng lắp ráp các đoạn reads ngắn thành các đoạn contigs dài hơn Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn/... TOÁN LẮP RÁP TRÌNH TỰ GEN 1.1 Bài toán lắp ráp trình tự gen Đọc trình tự gen (DNA sequencing) là việc xác định thứ tự các nucleotide gắn kết với nhau dọc theo chiều dài của gen (DNA), và trình tự gắn kết nhau của các nucleotide đƣợc gọi là trình tự gen Thông tin về trình tự gen rất hữu ích cho các nghiên cứu sinh học cơ bản và trong nhiều lĩnh vực ứng dụng nhƣ chẩn đoán, công nghệ sinh học, sinh học. .. công cụ lắp ráp này đều có những điểm riêng biệt, tuy nhiên về tổng thế, chúng đều có một nền tảng lý thuyết chung và đều phải đáp ứng đƣợc mức độ phức tạp trong việc xử lý tính toán dữ liệu giải trình tự thế hệ mới Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn/ 15 Chƣơng 2: MỘT SỐKỸ THUẬT LẮP RÁP HỆ GEN VỚI DỮ LIỆU TRÌNH TỰ ĐOẠN NGẮN TRONG TIN SINH HỌC 2.1 Thuật toán... chính ở tin sinh học và sinh học tính toán là việc sử dụng các công cụ toán học để phân chiết các thông tin hữu ích từ các dữ liệu hỗn độn thu nhận đƣợc bằng các kỹ thuật sinh học với lƣu lƣợng và mức độ lớn Nhƣ vậy, về phƣơng diện này lĩnh vực khai phá dữ liệu (data mining) có sự trùng lặp với sinh học tính toán Bài toán đặc trƣng trong sinh học tính toán bao gồm việc lắp ráp (assembly) những trình tự. .. hệ thống sinh học kiểu mẫu, phân tích hình ảnh mức độ cao, công cụ phần mềm Trong đó, bài toán lắp ráp trình tự là một bài toán khó của phân tích trình tự hệ gen học Do đó, nhận thấy tính thiết thực của vấn đề và với sự Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn/ 2 định hƣớng của giáo viên hƣớng dẫn TS Nguyễn Cƣờng, tôi chọn đề tài Một số kỹ thuật ng dụng ể lắp ráp. ..1 MỞ ĐẦU Tin sinh học (bioinformatics) là một lĩnh vực khoa học sử dụng các công nghệ của ngành toán học ứng dụng, tin học, thống kê, khoa học máy tính và toán sinh học (biomathematics) để giải quyết các vấn đề sinh học Những nghiên cứu trong ngành tin sinh học (bioinformatics) thƣờng trùng lặp với sinh học tính toán (computational biology) hoặc sinh học hệ thống (system biology).Những... đề này Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn/ 6 Hình 1.3 Công nghệ giải mã hệ gen Đọc trình tự thế hệ mới là một bƣớc tiến vƣợt bậc về công nghệ đọc trình tự Trƣớc đây, kỹ thuật Sanger 1500 bp (Sanger) chỉ có thể đọc đƣợc vài nghìn cho đến vài chục nghìn basepair cho một lần đọc, nhƣng với công nghệ đọc trình tự thế hệ mới dữ liệu trình tự thu đƣợc cho một lần... phép đọc trình tự toàn bộ hệ gen của các loài (hệ gen ngƣời chỉ có 3.2 tỷ basepair) (Hình 1.3) Do vậy đọc trình tự thế hệ mới còn đƣợc gọi là đọc trình tự toàn bộ hệ gen (whole genome sequencing) Đọc trình tự gen thế hệ mới là một công cụ mạnh nhất để phát hiện đƣợc các tác nhân gây bệnh, với khả năng đọc đƣợc hàng trăm ngàn đoạn ADN có trong mẫu thử thì công nghệ này rất dễ dàng phát hiện trình tự nucleic... 2.3 Thuật toánShort Sequence Assembler (SSA) Thuật toán lắp ráp SSA (Short Sequence Assembler) dựa trên thuật toán của đồ thị De Bruijn Một số thuật toán lắp ráp hệ gen hiện tại đã sử dụng cách tiếp cận dựa vào overlap graph Một vài trong số đó bắt đầu bằng cách xây dựng Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn/ 21 một overlap graph đồ sộ từ toàn bộ dữ liệu trình tự, . Một số kỹ thuật ng dụng ể lắp ráp hệ gen với dữ liệu trình tự ngắn trong tin sinh học . Đề tài này sẽ trình bày một số kỹ thuật lắp ráp các đoạn trình tự ngắn (read) thành các đoạn trình tự. NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG NGUYỄN THỊ THANH NGỌC MỘT SỐ KỸ THUẬT ỨNG DỤNG ĐỂ LẮP RÁP HỆ GEN VỚI DỮ LIỆU TRÌNH TỰ NGẮN TRONG TIN SINH HỌC Chuyên ngành: Khoa học. MỘT SỐ KỸ THUẬT ỨNG DỤNG ĐỂ LẮPRÁP HỆ GEN VỚI DỮ LIỆU TRÌNH TỰ NGẮN TRONG TIN SINH HỌC Chuyên ngành: Khoa học máy tính Mã số chuyên ngành: 60 48 01 LUẬN VĂN THẠC SĨ KHOA HỌC MÁY