1. Trang chủ
  2. » Luận Văn - Báo Cáo

Ứng dụng thuật toán burrows – wheeler transform trong quá trình giải mã hệ gen lúa tại việt nam

14 463 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 14
Dung lượng 407,91 KB

Nội dung

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN --- Vũ Thị Diệu ỨNG DỤNG THUẬT TOÁN BURROWS-WHEELER TRANSFORM TRONG QUÁ TRÌNH GIẢI MÃ HỆ GEN LÚA TẠI VIỆT NAM LUẬN VĂN THẠC S

Trang 1

ĐẠI HỌC QUỐC GIA HÀ NỘI

TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN

-

Vũ Thị Diệu

ỨNG DỤNG THUẬT TOÁN BURROWS-WHEELER TRANSFORM TRONG QUÁ TRÌNH GIẢI MÃ HỆ GEN LÚA TẠI VIỆT NAM

LUẬN VĂN THẠC SĨ KHOA HỌC

Hà Nội – Năm 2015

Trang 2

ĐẠI HỌC QUỐC GIA HÀ NỘI

TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN

-

Vũ Thị Diệu

ỨNG DỤNG THUẬT TOÁN BURROWS-WHEELER TRANSFORM TRONG QUÁ TRÌNH GIẢI MÃ HỆ GEN LÚA TẠI VIỆT NAM

Chuyên ngành: Cơ sở toán cho tin học

Mã số:60480104

LUẬN VĂN THẠC SĨ KHOA HỌC

NGƯỜI HƯỚNG DẪN KHOA HỌC: TS NGUYỄN CƯỜNG

Hà Nội – Năm 2015

Trang 3

LỜI CAM ĐOAN

Tôi xin cam đoan đây là công trình nghiên cứu của riêng tôi Các số liệu nêu trong luận văn là trung thực Những kết luận khoa học của luận văn chưa từng được ai công bố trong bất kỳ công trình nào khác

Tôi xin chịu trách nhiệm về nghiên cứu của mình

TÁC GIẢ LUẬN VĂN

Vũ Thị Diệu

Trang 4

LỜI CẢM ƠN

Tôi xin bày tỏ lòng biết ơn sâu sắc tới TS Nguyễn Cường, người đã tận tình giúp

đỡ và hướng dẫn tôi hoàn thành luận văn này.Thầy đã định hướng giúp tôi phương pháp nghiên cứu vàgiúp tôi từng bước tiếp cận với lĩnh vực Tin – Sinh học bổ ích và vô cùng mới mẻ.Cho tôi thêm đam mê và động lực để hoàn thành luận văn một cách tốt nhất

Tôi xin gửi lời cám ơn tới tập thể các bạn, các anh chị làm việc tại phòng Tin Sinh, thuộc Viện Công nghệ sinh học, Viện Hàn lâm KH&CN Việt Nam Cám ơn các bạn, các anh chị đã nhiệt tình giúp đỡ em trong thời gian qua, giúp em tiếp cận một cách gần nhất với môi trường thực tế của ngành Tin – Sinh để em có thể đưa ra những kết quả nghiên cứu một cách trực quan và đầy đủ trong luận văn của mình

Tôi cũng xin được gửi lời cảm ơn chân thành tới các thầy cô giáo trong và ngoài trường Đại học Khoa học tự nhiên, bạn bè, đồng nghiệp và gia đình đã giúp đỡ, động viên tôi trong quá trình nghiên cứu, hoàn thành luận văn này

Luận văn chắc chắn không tránh khỏi những thiếu sót Rất mong được sự góp ý của các Thầy, Cô và các đồng nghiệp đồng thời cũng rất mong được các nhà nghiên cứu tiếp tục hiệu chỉnh, bổ sung.Tôi xin chân thành cảm ơn!

TÁC GIẢ LUẬN VĂN

Vũ Thị Diệu

Trang 5

MỤC LỤC

DANH MỤC CÁC HÌNH VẼ 7 DANH MỤC CÁC BẢNG BIỂU 9

MỞ ĐẦU 1 CHƯƠNG 1: CƠ SỞ LÝ THUYẾT Error! Bookmark not defined

1.1 Đặt vấn đề Error! Bookmark not defined

1.1.1 Tin – Sinh học Error! Bookmark not defined.

1.1.2 Khai phá dữ liệu trong Tin – Sinh học Error! Bookmark not defined.

1.1.3 Hướng phát triển của ngành Tin – Sinh học tại Việt NamError! Bookmark not defined

1.2 Mục tiêu của luận văn Error! Bookmark not defined 1.3 Các khái niệm cơ bản trong sinh học phân tử Error! Bookmark not defined

1.3.1 DNA Error! Bookmark not defined.

1.3.2 Gen Error! Bookmark not defined.

1.3.3 Hệ gen tham chiếu Error! Bookmark not defined.

1.3.4 Định dạng dữ liệu trong bài toán Tin – Sinh họcError! Bookmark not defined

CHƯƠNG 2 : CƠ SỞ LÝ THUYẾT VÀ THUẬT TOÁN Error! Bookmark not

defined

BURROWS WHEELER TRANSFORM Error! Bookmark not defined 2.1 Quy trình giải mã hệ gen và bài toán gióng hàng trình tựError! Bookmark not

defined

Trang 6

2.1.1 Giải mã hệ gen và quy trình Error! Bookmark not defined.

2.1.2 Nội dung bài toán gióng hàng trình tự (Sequence Alignment) Error! Bookmark not defined

2.1.3 Ý nghĩa sinh học của bài toán gióng hàng trình tựError! Bookmark not defined

2.1.4 Phân loại bài toán gióng hàng trình tự Error! Bookmark not defined 2.2 Một số thuật toán cơ bản cho bài toán gióng hàng trình tựError! Bookmark not defined

2.2.1 Thuật toán ma trận điểm Error! Bookmark not defined.

2.2.2 Thuật toán quy hoạch động Smith-Waterman Error! Bookmark not defined 2.3 Thuật toán Burrows – Wheeler Tranform (BWT )Error! Bookmark not defined

2.3.1 Chuyển đổi Burrows-Wheeler thuâ ̣n Error! Bookmark not defined.

2.3.2 Chuyển đổi Burrows-Wheeler nghi ̣ch Error! Bookmark not defined.

2.3.3 Tìm kiếm chính xác (Exact matching) Error! Bookmark not defined.

2.3.4 Tìm kiếm có sai khác không nhiều hơn z vị trí (Inexact matching) Error! Bookmark not defined

2.4 Kết luận Error! Bookmark not defined CHƯƠNG 3 : ỨNG DỤNG THUẬT TOÁN BWT VÀ THỬ NGHIỆM TRÊN DỮ LIỆU SINH HỌC Error! Bookmark not defined

3.1 Quy trình thực nghiệm Error! Bookmark not defined 3.2 Cài đặt ứng dụng Error! Bookmark not defined 3.3 Chuẩn bị dữ liệu Error! Bookmark not defined

Trang 7

3.4 Kết quả và đánh giá Error! Bookmark not defined 3.5 Đánh giá kết quả của luận văn Error! Bookmark not defined KẾT LUẬN Error! Bookmark not defined TÀI LIỆU THAM KHẢO 3

DANH MỤC CÁC HÌNH VẼ

Hình 1.2 Mô hình cấu trúc gen Error! Bookmark not defined.

Hình 1.4 Định dạng FASTQ Error! Bookmark not defined.

Bookmark not defined

not defined

Bookmark not defined

… Error! Bookmark not defined.

Trang 8

Hình 2.7 Minh họa việc giải mã BWT xâu „CT$ATGA‟Error! Bookmark not defined

Bookmark not defined

defined

2) … Error! Bookmark not defined.

hàng trình tự BWA và BWTAligner Error! Bookmark not defined.

Trang 10

DANH MỤC CÁC BẢNG BIỂU

Bảng 3.2 Ví dụ về định dạng SAM Error! Bookmark not defined.

Bảng 3.3 Mô tả chuỗi CIGAR Error! Bookmark not defined.

Bookmark not defined.

defined.

khác nhau Error! Bookmark not defined.

Error! Bookmark not defined.

defined.

not defined.

Trang 11

1

MỞ ĐẦU

Tin - Sinh học (Bioinformatics) là một lĩnh vực khoa học sử dụng các công nghệ của các ngành toán học ứng dụng, tin học, thống kê, khoa học máy tính, trí tuệ nhân tạo, hóa học và hóa sinh để giải quyết các vấn đề sinh học Sựra đời của Tin - Sinh họclà sự hợp tác chặt chẽ giữa các nhà Tin học và các nhà nghiên cứu Sinh học nhằm khai phá dữ liệu hiệu quả, Tin – Sinh họcđã trở thành mục tiêu công nghệ của ngành Sinh học trong thế kỉ mới Bắt kịp xu thế phát triển của khoa học thế giới, những năm gần đây các nhà Tin - Sinh học Việt Nam đã xác định được những hướng đi phù hợp và đạt được thành công bước đầu với một số công trình nghiên cứu mang tính ứng dụng cao

Trong sinh học, việc giải mã trình tự gen rất quan trọng, nó góp phần trong việc nghiên cứu sinh học cơ bản và trong nhiều lĩnh vực ứng dụng như chẩn đoán bệnh tật, công nghệ sinh học, sinh học pháp y, sinh học hệ thống Do đặc tính khí hậu nhiệt đới, Việt Nam có những lợi thế về những nguồn dữ liệu Sinh học to lớn, hữu ích, điều đó trở thành một điều kiện thuận lợi và cũng là thách thức cần đến sự đóng góp của Tin - Sinh học

Nhận thấy tính mới mẻ trong lĩnh vực nghiên cứu Tin – Sinh học nói chung cũng như những ưu điểm phát triển của nghành Tin -Sinh học nước nhà, học viên

đã lựa chọn đề tài “ứng dụng thuật toán Burrow – Wheeler Tranform trong quá trình giải mã hệ gen lúa” Luận văn bao gồm ba chương chính, nội dung tóm lược như sau:

Chương 1 trình bày tổng quan và các khái niệm cơ bản trong sinh học phân tử,

các định dạng dữ liệu trong bài toán Tin – Sinh học Mục tiêu chính của chương này nhằm làm rõ các khái niệm giới thiệu vấn đề và nội dung sẽ trình bày trong chương tiếp theo của luận văn

Trang 12

2

Chương 2 trình bày quá trình giải mã hệ gen, bài toán gióng hàng trình tự trong

việc giải mã hệ gen Chương 2 sẽ nêu một số thuật toán cơ bản giải bài toán gióng hàng trình tự Trọng tâm của chương 2 giới thiệu ý tưởng và quá trình xây dựng thuật toán Burrows–Wheeler Transform trong quá trình giải mã hệ gen

Chương 3 Trình bày về quá trình thực nghiệm và ứng dụng thuật toán trên dữ liệu

sinh học Tác giả tham gia cùng nhóm nghiên cứu thuộc phòng Tin – Sinh học, viện Công nghệ Sinh học, Viện Hàn lâm Khoa học và Công nghệ Việt Nam xây dựng công

cụ dóng hàng trình tự BWTAligner dựa trên thuật toán BWT đã tìm hiểu Đối chứng kết quả khi dóng hàng trình tự trên công cụ dóng hàng phổ biến BWA Trong chương này thực hiện từng bước chuẩn bị dữ liệu, cài đặt môi trường, sử dụng công cụ, đưa ra kết quả thực nghiệm và đánh giá kết quả của luận văn

Trang 13

3

TÀI LIỆU THAM KHẢO

Tiếng Việt

1 Nguyễn Văn Cách (2006), Giáo trình tin sinh học, NXB Khoa học kỹ thuật,

Hà Nội

Tiếng Anh

2 Burrows,M and Wheeler,D.J (1994),“A block-sorting lossless data

compression algorithm”,Technical report, 124

3 Campagna,D et al (2009),“PASS: a program to align short

sequences”,Bioinformatics, 25, pp 967–968

4 Li,H et al (2008),“Mapping short DNA sequencing reads and calling

variants using mapping quality scores”,Genome Res, 18, 1851–1858

5 Li, H et al (2009), “The sequence alignment/map format and

SAMtools”,Bioinformatics, 25(16), PP 2078-2079

6 Li Heng and Richard Durbin (2009), “Fast and Accurate Short Read

Alignment with Burrows-Wheeler Transform”, Bioinformatics, 25, pp

1754–1760

7 Li, H., et al (2009), "The sequence alignment/map format and SAMtools."

Bioinformatics, 25(16), PP 2078-2079

8 Alkan, C., et al (2011), "Genome structural variation discovery and

genotyping",Nature Reviews Genetics, 12(5), pp 363-376

9 Chen, K., et al (2009), "BreakDancer: an algorithm for high-resolution

mapping of genomic structural variation", Nat Meth, 6(9), pp 677-681

Trang 14

4

10 Feuk L., et al (2010), "Inversion variants in the human genome: role in

disease and genome architecture.",Genome Med, 2(11), pp 250-276

Ngày đăng: 05/09/2016, 10:19

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
1. Nguyễn Văn Cách (2006), Giáo trình tin sinh học, NXB Khoa học kỹ thuật, Hà Nội..Tiếng Anh Sách, tạp chí
Tiêu đề: Giáo trình tin sinh học
Tác giả: Nguyễn Văn Cách
Nhà XB: NXB Khoa học kỹ thuật
Năm: 2006
2. Burrows,M. and Wheeler,D.J. (1994),“A block-sorting lossless data compression algorithm”,Technical report, 124 Sách, tạp chí
Tiêu đề: A block-sorting lossless data compression algorithm”,"Technical report
Tác giả: Burrows,M. and Wheeler,D.J
Năm: 1994
3. Campagna,D. et al. (2009),“PASS: a program to align short sequences”,Bioinformatics, 25, pp. 967–968 Sách, tạp chí
Tiêu đề: PASS: a program to align short sequences”,"Bioinformatics
Tác giả: Campagna,D. et al
Năm: 2009
4. Li,H. et al (2008),“Mapping short DNA sequencing reads and calling variants using mapping quality scores”,Genome Res, 18, 1851–1858 Sách, tạp chí
Tiêu đề: Mapping short DNA sequencing reads and calling variants using mapping quality scores”,"Genome Res
Tác giả: Li,H. et al
Năm: 2008
5. Li, H. et al (2009), “The sequence alignment/map format and SAMtools”,Bioinformatics, 25(16), PP. 2078-2079 Sách, tạp chí
Tiêu đề: The sequence alignment/map format and SAMtools”,"Bioinformatics
Tác giả: Li, H. et al
Năm: 2009
6. Li Heng and Richard Durbin (2009), “Fast and Accurate Short Read Alignment with Burrows-Wheeler Transform”, Bioinformatics, 25, pp.1754–1760 Sách, tạp chí
Tiêu đề: Fast and Accurate Short Read Alignment with Burrows-Wheeler Transform”, "Bioinformatics
Tác giả: Li Heng and Richard Durbin
Năm: 2009
7. Li, H., et al. (2009), "The sequence alignment/map format and SAMtools." Bioinformatics, 25(16), PP. 2078-2079 Sách, tạp chí
Tiêu đề: The sequence alignment/map format and SAMtools
Tác giả: Li, H., et al
Năm: 2009
8. Alkan, C., et al. (2011), "Genome structural variation discovery and genotyping",Nature Reviews Genetics, 12(5), pp. 363-376 Sách, tạp chí
Tiêu đề: Genome structural variation discovery and genotyping
Tác giả: Alkan, C., et al
Năm: 2011
9. Chen, K., et al. (2009), "BreakDancer: an algorithm for high-resolution mapping of genomic structural variation", Nat Meth, 6(9), pp. 677-681 Sách, tạp chí
Tiêu đề: BreakDancer: an algorithm for high-resolution mapping of genomic structural variation
Tác giả: Chen, K., et al
Năm: 2009

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w