Ứng dụng thuật toán burrows – wheeler transform trong quá trình giải mã hệ gen lúa tại việt nam

14 463 0
Ứng dụng thuật toán burrows – wheeler transform trong quá trình giải mã hệ gen lúa tại việt nam

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN - Vũ Thị Diệu ỨNG DỤNG THUẬT TOÁN BURROWS-WHEELER TRANSFORM TRONG QUÁ TRÌNH GIẢI MÃ HỆ GEN LÚA TẠI VIỆT NAM LUẬN VĂN THẠC SĨ KHOA HỌC Hà Nội – Năm 2015 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN - Vũ Thị Diệu ỨNG DỤNG THUẬT TOÁN BURROWS-WHEELER TRANSFORM TRONG QUÁ TRÌNH GIẢI MÃ HỆ GEN LÚA TẠI VIỆT NAM Chuyên ngành: Cơ sở toán cho tin học Mã số:60480104 LUẬN VĂN THẠC SĨ KHOA HỌC NGƯỜI HƯỚNG DẪN KHOA HỌC: TS NGUYỄN CƯỜNG Hà Nội – Năm 2015 LỜI CAM ĐOAN Tôi xin cam đoan công trình nghiên cứu riêng Các số liệu nêu luận văn trung thực Những kết luận khoa học luận văn chưa công bố công trình khác Tôi xin chịu trách nhiệm nghiên cứu TÁC GIẢ LUẬN VĂN Vũ Thị Diệu LỜI CẢM ƠN Tôi xin bày tỏ lòng biết ơn sâu sắc tới TS Nguyễn Cường, người tận tình giúp đỡ hướng dẫn hoàn thành luận văn này.Thầy định hướng giúp phương pháp nghiên cứu vàgiúp bước tiếp cận với lĩnh vực Tin – Sinh học bổ ích vô mẻ.Cho thêm đam mê động lực để hoàn thành luận văn cách tốt Tôi xin gửi lời cám ơn tới tập thể bạn, anh chị làm việc phòng Tin Sinh, thuộc Viện Công nghệ sinh học, Viện Hàn lâm KH&CN Việt Nam Cám ơn bạn, anh chị nhiệt tình giúp đỡ em thời gian qua, giúp em tiếp cận cách gần với môi trường thực tế ngành Tin – Sinh để em đưa kết nghiên cứu cách trực quan đầy đủ luận văn Tôi xin gửi lời cảm ơn chân thành tới thầy cô giáo trường Đại học Khoa học tự nhiên, bạn bè, đồng nghiệp gia đình giúp đỡ, động viên trình nghiên cứu, hoàn thành luận văn Luận văn chắn không tránh khỏi thiếu sót Rất mong góp ý Thầy, Cô đồng nghiệp đồng thời mong nhà nghiên cứu tiếp tục hiệu chỉnh, bổ sung.Tôi xin chân thành cảm ơn! TÁC GIẢ LUẬN VĂN Vũ Thị Diệu MỤC LỤC DANH MỤC CÁC HÌNH VẼ DANH MỤC CÁC BẢNG BIỂU MỞ ĐẦU CHƢƠNG 1: CƠ SỞ LÝ THUYẾT Error! Bookmark not defined 1.1 Đặt vấn đề Error! Bookmark not defined 1.1.1 Tin – Sinh học Error! Bookmark not defined 1.1.2 Khai phá liệu Tin – Sinh học Error! Bookmark not defined 1.1.3 Hướng phát triển ngành Tin – Sinh học Việt NamError! Bookmark not defined 1.2 Mục tiêu luận văn Error! Bookmark not defined 1.3 Các khái niệm sinh học phân tử Error! Bookmark not defined 1.3.1 DNA Error! Bookmark not defined 1.3.2 Gen Error! Bookmark not defined 1.3.3 Hệ gen tham chiếu Error! Bookmark not defined 1.3.4 Định dạng liệu toán Tin – Sinh họcError! Bookmark not defined CHƢƠNG : CƠ SỞ LÝ THUYẾT VÀ THUẬT TOÁN Error! Bookmark not defined BURROWS WHEELER TRANSFORM Error! Bookmark not defined 2.1 Quy trình giải mã hệ gen toán gióng hàng trình tựError! Bookmark not defined 2.1.1 Giải mã hệ gen quy trình Error! Bookmark not defined 2.1.2 Nội dung toán gióng hàng trình tự (Sequence Alignment) Error! Bookmark not defined 2.1.3 Ý nghĩa sinh học toán gióng hàng trình tựError! Bookmark not defined 2.1.4 Phân loại toán gióng hàng trình tự Error! Bookmark not defined 2.2 Một số thuật toán cho toán gióng hàng trình tựError! Bookmark not defined 2.2.1 Thuật toán ma trận điểm Error! Bookmark not defined 2.2.2 Thuật toán quy hoạch động Smith-Waterman Error! Bookmark not defined 2.3 Thuật toán Burrows – Wheeler Tranform (BWT )Error! Bookmark not defined 2.3.1 Chuyển đổi Burrows-Wheeler thuâ ̣n Error! Bookmark not defined 2.3.2 Chuyển đổi Burrows-Wheeler nghich ̣ Error! Bookmark not defined 2.3.3 Tìm kiếm xác (Exact matching) Error! Bookmark not defined 2.3.4 Tìm kiếm có sai khác không nhiều z vị trí (Inexact matching) Error! Bookmark not defined 2.4 Kết luận Error! Bookmark not defined CHƢƠNG : ỨNG DỤNG THUẬT TOÁN BWT VÀ THỬ NGHIỆM TRÊN DỮ LIỆU SINH HỌC Error! Bookmark not defined 3.1 Quy trình thực nghiệm Error! Bookmark not defined 3.2 Cài đặt ứng dụng Error! Bookmark not defined 3.3 Chuẩn bị liệu Error! Bookmark not defined 3.4 Kết đánh giá Error! Bookmark not defined 3.5 Đánh giá kết luận văn Error! Bookmark not defined KẾT LUẬN Error! Bookmark not defined TÀI LIỆU THAM KHẢO DANH MỤC CÁC HÌNH VẼ Hình 1.1 Mô hình cấu trúc phân tử DNA Error! Bookmark not defined Hình 1.2 Mô hình cấu trúc gen Error! Bookmark not defined Hình 1.3 Định dạng liệu FASTA Error! Bookmark not defined Hình 1.4 Định dạng FASTQ Error! Bookmark not defined Hình 2.1 Quy trình xác định biến dị di truyền Error! Bookmark not defined Hình 2.2 Ví dụ toán gióng hàng trình tự Sequence – Sequence Error! Bookmark not defined Hình 2.3 Các đột biến xác định gióng hàng trình tự u – vError! Bookmark not defined Hình 2.4 Ví dụ toán Short Read Alignment Error! Bookmark not defined Hình 2.5 Ma trận chứa tất phép quay đầu vào xâu ATGTAC Error! Bookmark not defined Hình 2.6 Chuỗi BWT Thu cách xếp ma trận L * L theo thứ tự từ điển … Error! Bookmark not defined Hình 2.7 Minh họa việc giải mã BWT xâu „CT$ATGA‟Error! Bookmark not defined Hình 2.8 Mô tả trình tạo chuỗi BWT Error! Bookmark not defined Hình 2.9 Vị trí xuất kí tự “a” chuỗi X =”agcagcagact Error! Bookmark not defined Hình 2.10 Giá trị SA = [9,10] chuỗi W=“gca” Error! Bookmark not defined Hình 2.11 Công thức tính khoảng cách SA Error! Bookmark not defined Hình 2.12 Kết trình tìm kiếm W=”gca” Error! Bookmark not defined Hình 3.1 Mô nhiệm vụ thực nghiệm chương 3Error! Bookmark not defined Hình 3.2 Ví dụ mô mục tiêu ứng dụng Error! Bookmark not defined Hình 3.3 Biểu đổ đánh giá chất lượng base giải trình tự (A file fastq 1, B file fastq 2) … Error! Bookmark not defined Hình 3.4 Biểu đồ số lượng SNP nhiễm sắc thể với hai phần mềm gióng hàng trình tự BWA BWTAligner Error! Bookmark not defined DANH MỤC CÁC BẢNG BIỂU Bảng 3.1 Các thẻ định danh định dạng SAM Error! Bookmark not defined Bảng 3.2 Ví dụ định dạng SAM Error! Bookmark not defined Bảng 3.3 Mô tả chuỗi CIGAR Error! Bookmark not defined Bảng 3.1 Thông tin máy chủ sử dụng để cài đặt thử nghiệm Error! Bookmark not defined Bảng 3.2 Thông tin chi tiết liệu mô thu Error! Bookmark not defined Bảng 3.3 Kết tìm kiếm SNP với BWA BWTAligner với độ sâu trình tự khác Error! Bookmark not defined Bảng 3.4 Thống kê : TP - dương tính thật, FP – dương tính giả, FN – âm tính giả Error! Bookmark not defined Bảng 3.5 So sánh độ BWA BWTAligner gọi SNP Error! Bookmark not defined Bảng 3.6 not defined Bảng thống kê số lượng SNP với phần mềm Error! Bookmark MỞ ĐẦU Tin - Sinh học (Bioinformatics) lĩnh vực khoa học sử dụng công nghệ ngành toán học ứng dụng, tin học, thống kê, khoa học máy tính, trí tuệ nhân tạo, hóa học hóa sinh để giải vấn đề sinh học Sựra đời Tin - Sinh họclà hợp tác chặt chẽ nhà Tin học nhà nghiên cứu Sinh học nhằm khai phá liệu hiệu quả, Tin – Sinh họcđã trở thành mục tiêu công nghệ ngành Sinh học kỉ Bắt kịp xu phát triển khoa học giới, năm gần nhà Tin - Sinh học Việt Nam xác định hướng phù hợp đạt thành công bước đầu với số công trình nghiên cứu mang tính ứng dụng cao Trong sinh học, việc giải mã trình tự gen quan trọng, góp phần việc nghiên cứu sinh học nhiều lĩnh vực ứng dụng chẩn đoán bệnh tật, công nghệ sinh học, sinh học pháp y, sinh học hệ thống Do đặc tính khí hậu nhiệt đới, Việt Nam có lợi nguồn liệu Sinh học to lớn, hữu ích, điều trở thành điều kiện thuận lợi thách thức cần đến đóng góp Tin - Sinh học Nhận thấy tính mẻ lĩnh vực nghiên cứu Tin – Sinh học nói chung ưu điểm phát triển nghành Tin -Sinh học nước nhà, học viên lựa chọn đề tài “ứng dụng thuật toán Burrow – Wheeler Tranform trình giải mã hệ gen lúa” Luận văn bao gồm ba chương chính, nội dung tóm lược sau: Chương trình bày tổng quan khái niệm sinh học phân tử, định dạng liệu toán Tin – Sinh học Mục tiêu chương nhằm làm rõ khái niệm giới thiệu vấn đề nội dung trình bày chương luận văn Chương trình bày trình giải mã hệ gen, toán gióng hàng trình tự việc giải mã hệ gen Chương nêu số thuật toán giải toán gióng hàng trình tự Trọng tâm chương giới thiệu ý tưởng trình xây dựng thuật toán Burrows–Wheeler Transform trình giải mã hệ gen Chương Trình bày trình thực nghiệm ứng dụng thuật toán liệu sinh học Tác giả tham gia nhóm nghiên cứu thuộc phòng Tin – Sinh học, viện Công nghệ Sinh học, Viện Hàn lâm Khoa học Công nghệ Việt Nam xây dựng công cụ dóng hàng trình tự BWTAligner dựa thuật toán BWT tìm hiểu Đối chứng kết dóng hàng trình tự công cụ dóng hàng phổ biến BWA Trong chương thực bước chuẩn bị liệu, cài đặt môi trường, sử dụng công cụ, đưa kết thực nghiệm đánh giá kết luận văn TÀI LIỆU THAM KHẢO Tiếng Việt Nguyễn Văn Cách (2006), Giáo trình tin sinh học, NXB Khoa học kỹ thuật, Hà Nội Tiếng Anh Burrows,M and Wheeler,D.J (1994),“A block-sorting lossless data compression algorithm”,Technical report, 124 Campagna,D et al (2009),“PASS: a program to align short sequences”,Bioinformatics, 25, pp 967–968 Li,H et al (2008),“Mapping short DNA sequencing reads and calling variants using mapping quality scores”,Genome Res, 18, 1851–1858 Li, H et al (2009), “The sequence alignment/map format and SAMtools”,Bioinformatics, 25(16), PP 2078-2079 Li Heng and Richard Durbin (2009), “Fast and Accurate Short Read Alignment with Burrows-Wheeler Transform”, Bioinformatics, 25, pp 1754–1760 Li, H., et al (2009), "The sequence alignment/map format and SAMtools." Bioinformatics, 25(16), PP 2078-2079 Alkan, C., et al (2011), "Genome structural variation discovery and genotyping",Nature Reviews Genetics, 12(5), pp 363-376 Chen, K., et al (2009), "BreakDancer: an algorithm for high-resolution mapping of genomic structural variation", Nat Meth, 6(9), pp 677-681 10 Feuk L., et al (2010), "Inversion variants in the human genome: role in disease and genome architecture.",Genome Med, 2(11), pp 250-276 [...]... xây dựng thuật toán Burrows Wheeler Transform trong quá trình giải mã hệ gen Chương 3 Trình bày về quá trình thực nghiệm và ứng dụng thuật toán trên dữ liệu sinh học Tác giả tham gia cùng nhóm nghiên cứu thuộc phòng Tin – Sinh học, viện Công nghệ Sinh học, Viện Hàn lâm Khoa học và Công nghệ Việt Nam xây dựng công cụ dóng hàng trình tự BWTAligner dựa trên thuật toán BWT đã tìm hiểu Đối chứng kết quả khi... bài toán Tin – Sinh học Mục tiêu chính của chương này nhằm làm rõ các khái niệm giới thiệu vấn đề và nội dung sẽ trình bày trong chương tiếp theo của luận văn 1 Chương 2 trình bày quá trình giải mã hệ gen, bài toán gióng hàng trình tự trong việc giải mã hệ gen Chương 2 sẽ nêu một số thuật toán cơ bản giải bài toán gióng hàng trình tự Trọng tâm của chương 2 giới thiệu ý tưởng và quá trình xây dựng thuật. .. mới mẻ trong lĩnh vực nghiên cứu Tin – Sinh học nói chung cũng như những ưu điểm phát triển của nghành Tin -Sinh học nước nhà, học viên đã lựa chọn đề tài ứng dụng thuật toán Burrow – Wheeler Tranform trong quá trình giải mã hệ gen lúa Luận văn bao gồm ba chương chính, nội dung tóm lược như sau: Chương 1 trình bày tổng quan và các khái niệm cơ bản trong sinh học phân tử, các định dạng dữ liệu trong. .. học Việt Nam đã xác định được những hướng đi phù hợp và đạt được thành công bước đầu với một số công trình nghiên cứu mang tính ứng dụng cao Trong sinh học, việc giải mã trình tự gen rất quan trọng, nó góp phần trong việc nghiên cứu sinh học cơ bản và trong nhiều lĩnh vực ứng dụng như chẩn đoán bệnh tật, công nghệ sinh học, sinh học pháp y, sinh học hệ thống Do đặc tính khí hậu nhiệt đới, Việt Nam. .. lĩnh vực khoa học sử dụng các công nghệ của các ngành toán học ứng dụng, tin học, thống kê, khoa học máy tính, trí tuệ nhân tạo, hóa học và hóa sinh để giải quyết các vấn đề sinh học Sựra đời của Tin - Sinh họclà sự hợp tác chặt chẽ giữa các nhà Tin học và các nhà nghiên cứu Sinh học nhằm khai phá dữ liệu hiệu quả, Tin – Sinh họcđã trở thành mục tiêu công nghệ của ngành Sinh học trong thế kỉ mới Bắt... Đối chứng kết quả khi dóng hàng trình tự trên công cụ dóng hàng phổ biến BWA Trong chương này thực hiện từng bước chuẩn bị dữ liệu, cài đặt môi trường, sử dụng công cụ, đưa ra kết quả thực nghiệm và đánh giá kết quả của luận văn 2 TÀI LIỆU THAM KHẢO Tiếng Việt 1 Nguyễn Văn Cách (2006), Giáo trình tin sinh học, NXB Khoa học kỹ thuật, Hà Nội Tiếng Anh 2 Burrows, M and Wheeler, D.J (1994),“A block-sorting... 25, pp 96 7–9 68 4 Li,H et al (2008),“Mapping short DNA sequencing reads and calling variants using mapping quality scores”,Genome Res, 18, 185 1–1 858 5 Li, H et al (2009), “The sequence alignment/map format and SAMtools”,Bioinformatics, 25(16), PP 2078-2079 6 Li Heng and Richard Durbin (2009), “Fast and Accurate Short Read Alignment with Burrows- Wheeler Transform , Bioinformatics, 25, pp 175 4–1 760 7 Li,... Alkan, C., et al (2011), "Genome structural variation discovery and genotyping",Nature Reviews Genetics, 12(5), pp 363-376 9 Chen, K., et al (2009), "BreakDancer: an algorithm for high-resolution mapping of genomic structural variation", Nat Meth, 6(9), pp 677-681 3 10 Feuk L., et al (2010), "Inversion variants in the human genome: role in disease and genome architecture.",Genome Med, 2(11), pp 250-276

Ngày đăng: 05/09/2016, 10:19

Từ khóa liên quan

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan