ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN --- Vũ Thị Diệu ỨNG DỤNG THUẬT TOÁN BURROWS-WHEELER TRANSFORM TRONG QUÁ TRÌNH GIẢI MÃ HỆ GEN LÚA TẠI VIỆT NAM LUẬN VĂN THẠC S
Trang 1ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN
-
Vũ Thị Diệu
ỨNG DỤNG THUẬT TOÁN BURROWS-WHEELER TRANSFORM TRONG QUÁ TRÌNH GIẢI MÃ HỆ GEN LÚA TẠI VIỆT NAM
LUẬN VĂN THẠC SĨ KHOA HỌC
Hà Nội – Năm 2015
Trang 2ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN
-
Vũ Thị Diệu
ỨNG DỤNG THUẬT TOÁN BURROWS-WHEELER TRANSFORM TRONG QUÁ TRÌNH GIẢI MÃ HỆ GEN LÚA TẠI VIỆT NAM
Chuyên ngành: Cơ sở toán cho tin học
Mã số:60480104
LUẬN VĂN THẠC SĨ KHOA HỌC
NGƯỜI HƯỚNG DẪN KHOA HỌC: TS NGUYỄN CƯỜNG
Hà Nội – Năm 2015
Trang 3LỜI CAM ĐOAN
Tôi xin cam đoan đây là công trình nghiên cứu của riêng tôi Các số liệu nêu trong luận văn là trung thực Những kết luận khoa học của luận văn chưa từng được ai công bố trong bất kỳ công trình nào khác
Tôi xin chịu trách nhiệm về nghiên cứu của mình
TÁC GIẢ LUẬN VĂN
Vũ Thị Diệu
Trang 4LỜI CẢM ƠN
Tôi xin bày tỏ lòng biết ơn sâu sắc tới TS Nguyễn Cường, người đã tận tình giúp
đỡ và hướng dẫn tôi hoàn thành luận văn này.Thầy đã định hướng giúp tôi phương pháp nghiên cứu vàgiúp tôi từng bước tiếp cận với lĩnh vực Tin – Sinh học bổ ích và vô cùng mới mẻ.Cho tôi thêm đam mê và động lực để hoàn thành luận văn một cách tốt nhất
Tôi xin gửi lời cám ơn tới tập thể các bạn, các anh chị làm việc tại phòng Tin Sinh, thuộc Viện Công nghệ sinh học, Viện Hàn lâm KH&CN Việt Nam Cám ơn các bạn, các anh chị đã nhiệt tình giúp đỡ em trong thời gian qua, giúp em tiếp cận một cách gần nhất với môi trường thực tế của ngành Tin – Sinh để em có thể đưa ra những kết quả nghiên cứu một cách trực quan và đầy đủ trong luận văn của mình
Tôi cũng xin được gửi lời cảm ơn chân thành tới các thầy cô giáo trong và ngoài trường Đại học Khoa học tự nhiên, bạn bè, đồng nghiệp và gia đình đã giúp đỡ, động viên tôi trong quá trình nghiên cứu, hoàn thành luận văn này
Luận văn chắc chắn không tránh khỏi những thiếu sót Rất mong được sự góp ý của các Thầy, Cô và các đồng nghiệp đồng thời cũng rất mong được các nhà nghiên cứu tiếp tục hiệu chỉnh, bổ sung.Tôi xin chân thành cảm ơn!
TÁC GIẢ LUẬN VĂN
Vũ Thị Diệu
Trang 5MỤC LỤC
DANH MỤC CÁC HÌNH VẼ 7 DANH MỤC CÁC BẢNG BIỂU 9
MỞ ĐẦU 1 CHƯƠNG 1: CƠ SỞ LÝ THUYẾT Error! Bookmark not defined
1.1 Đặt vấn đề Error! Bookmark not defined
1.1.1 Tin – Sinh học Error! Bookmark not defined.
1.1.2 Khai phá dữ liệu trong Tin – Sinh học Error! Bookmark not defined.
1.1.3 Hướng phát triển của ngành Tin – Sinh học tại Việt NamError! Bookmark not defined
1.2 Mục tiêu của luận văn Error! Bookmark not defined 1.3 Các khái niệm cơ bản trong sinh học phân tử Error! Bookmark not defined
1.3.1 DNA Error! Bookmark not defined.
1.3.2 Gen Error! Bookmark not defined.
1.3.3 Hệ gen tham chiếu Error! Bookmark not defined.
1.3.4 Định dạng dữ liệu trong bài toán Tin – Sinh họcError! Bookmark not defined
CHƯƠNG 2 : CƠ SỞ LÝ THUYẾT VÀ THUẬT TOÁN Error! Bookmark not
defined
BURROWS WHEELER TRANSFORM Error! Bookmark not defined 2.1 Quy trình giải mã hệ gen và bài toán gióng hàng trình tựError! Bookmark not
defined
Trang 62.1.1 Giải mã hệ gen và quy trình Error! Bookmark not defined.
2.1.2 Nội dung bài toán gióng hàng trình tự (Sequence Alignment) Error! Bookmark not defined
2.1.3 Ý nghĩa sinh học của bài toán gióng hàng trình tựError! Bookmark not defined
2.1.4 Phân loại bài toán gióng hàng trình tự Error! Bookmark not defined 2.2 Một số thuật toán cơ bản cho bài toán gióng hàng trình tựError! Bookmark not defined
2.2.1 Thuật toán ma trận điểm Error! Bookmark not defined.
2.2.2 Thuật toán quy hoạch động Smith-Waterman Error! Bookmark not defined 2.3 Thuật toán Burrows – Wheeler Tranform (BWT )Error! Bookmark not defined
2.3.1 Chuyển đổi Burrows-Wheeler thuâ ̣n Error! Bookmark not defined.
2.3.2 Chuyển đổi Burrows-Wheeler nghi ̣ch Error! Bookmark not defined.
2.3.3 Tìm kiếm chính xác (Exact matching) Error! Bookmark not defined.
2.3.4 Tìm kiếm có sai khác không nhiều hơn z vị trí (Inexact matching) Error! Bookmark not defined
2.4 Kết luận Error! Bookmark not defined CHƯƠNG 3 : ỨNG DỤNG THUẬT TOÁN BWT VÀ THỬ NGHIỆM TRÊN DỮ LIỆU SINH HỌC Error! Bookmark not defined
3.1 Quy trình thực nghiệm Error! Bookmark not defined 3.2 Cài đặt ứng dụng Error! Bookmark not defined 3.3 Chuẩn bị dữ liệu Error! Bookmark not defined
Trang 73.4 Kết quả và đánh giá Error! Bookmark not defined 3.5 Đánh giá kết quả của luận văn Error! Bookmark not defined KẾT LUẬN Error! Bookmark not defined TÀI LIỆU THAM KHẢO 3
DANH MỤC CÁC HÌNH VẼ
Hình 1.2 Mô hình cấu trúc gen Error! Bookmark not defined.
Hình 1.4 Định dạng FASTQ Error! Bookmark not defined.
Bookmark not defined
not defined
Bookmark not defined
… Error! Bookmark not defined.
Trang 8Hình 2.7 Minh họa việc giải mã BWT xâu „CT$ATGA‟Error! Bookmark not defined
Bookmark not defined
defined
2) … Error! Bookmark not defined.
hàng trình tự BWA và BWTAligner Error! Bookmark not defined.
Trang 10DANH MỤC CÁC BẢNG BIỂU
Bảng 3.2 Ví dụ về định dạng SAM Error! Bookmark not defined.
Bảng 3.3 Mô tả chuỗi CIGAR Error! Bookmark not defined.
Bookmark not defined.
defined.
khác nhau Error! Bookmark not defined.
Error! Bookmark not defined.
defined.
not defined.
Trang 111
MỞ ĐẦU
Tin - Sinh học (Bioinformatics) là một lĩnh vực khoa học sử dụng các công nghệ của các ngành toán học ứng dụng, tin học, thống kê, khoa học máy tính, trí tuệ nhân tạo, hóa học và hóa sinh để giải quyết các vấn đề sinh học Sựra đời của Tin - Sinh họclà sự hợp tác chặt chẽ giữa các nhà Tin học và các nhà nghiên cứu Sinh học nhằm khai phá dữ liệu hiệu quả, Tin – Sinh họcđã trở thành mục tiêu công nghệ của ngành Sinh học trong thế kỉ mới Bắt kịp xu thế phát triển của khoa học thế giới, những năm gần đây các nhà Tin - Sinh học Việt Nam đã xác định được những hướng đi phù hợp và đạt được thành công bước đầu với một số công trình nghiên cứu mang tính ứng dụng cao
Trong sinh học, việc giải mã trình tự gen rất quan trọng, nó góp phần trong việc nghiên cứu sinh học cơ bản và trong nhiều lĩnh vực ứng dụng như chẩn đoán bệnh tật, công nghệ sinh học, sinh học pháp y, sinh học hệ thống Do đặc tính khí hậu nhiệt đới, Việt Nam có những lợi thế về những nguồn dữ liệu Sinh học to lớn, hữu ích, điều đó trở thành một điều kiện thuận lợi và cũng là thách thức cần đến sự đóng góp của Tin - Sinh học
Nhận thấy tính mới mẻ trong lĩnh vực nghiên cứu Tin – Sinh học nói chung cũng như những ưu điểm phát triển của nghành Tin -Sinh học nước nhà, học viên
đã lựa chọn đề tài “ứng dụng thuật toán Burrow – Wheeler Tranform trong quá trình giải mã hệ gen lúa” Luận văn bao gồm ba chương chính, nội dung tóm lược như sau:
Chương 1 trình bày tổng quan và các khái niệm cơ bản trong sinh học phân tử,
các định dạng dữ liệu trong bài toán Tin – Sinh học Mục tiêu chính của chương này nhằm làm rõ các khái niệm giới thiệu vấn đề và nội dung sẽ trình bày trong chương tiếp theo của luận văn
Trang 122
Chương 2 trình bày quá trình giải mã hệ gen, bài toán gióng hàng trình tự trong
việc giải mã hệ gen Chương 2 sẽ nêu một số thuật toán cơ bản giải bài toán gióng hàng trình tự Trọng tâm của chương 2 giới thiệu ý tưởng và quá trình xây dựng thuật toán Burrows–Wheeler Transform trong quá trình giải mã hệ gen
Chương 3 Trình bày về quá trình thực nghiệm và ứng dụng thuật toán trên dữ liệu
sinh học Tác giả tham gia cùng nhóm nghiên cứu thuộc phòng Tin – Sinh học, viện Công nghệ Sinh học, Viện Hàn lâm Khoa học và Công nghệ Việt Nam xây dựng công
cụ dóng hàng trình tự BWTAligner dựa trên thuật toán BWT đã tìm hiểu Đối chứng kết quả khi dóng hàng trình tự trên công cụ dóng hàng phổ biến BWA Trong chương này thực hiện từng bước chuẩn bị dữ liệu, cài đặt môi trường, sử dụng công cụ, đưa ra kết quả thực nghiệm và đánh giá kết quả của luận văn
Trang 133
TÀI LIỆU THAM KHẢO
Tiếng Việt
1 Nguyễn Văn Cách (2006), Giáo trình tin sinh học, NXB Khoa học kỹ thuật,
Hà Nội
Tiếng Anh
2 Burrows,M and Wheeler,D.J (1994),“A block-sorting lossless data
compression algorithm”,Technical report, 124
3 Campagna,D et al (2009),“PASS: a program to align short
sequences”,Bioinformatics, 25, pp 967–968
4 Li,H et al (2008),“Mapping short DNA sequencing reads and calling
variants using mapping quality scores”,Genome Res, 18, 1851–1858
5 Li, H et al (2009), “The sequence alignment/map format and
SAMtools”,Bioinformatics, 25(16), PP 2078-2079
6 Li Heng and Richard Durbin (2009), “Fast and Accurate Short Read
Alignment with Burrows-Wheeler Transform”, Bioinformatics, 25, pp
1754–1760
7 Li, H., et al (2009), "The sequence alignment/map format and SAMtools."
Bioinformatics, 25(16), PP 2078-2079
8 Alkan, C., et al (2011), "Genome structural variation discovery and
genotyping",Nature Reviews Genetics, 12(5), pp 363-376
9 Chen, K., et al (2009), "BreakDancer: an algorithm for high-resolution
mapping of genomic structural variation", Nat Meth, 6(9), pp 677-681
Trang 144
10 Feuk L., et al (2010), "Inversion variants in the human genome: role in
disease and genome architecture.",Genome Med, 2(11), pp 250-276