Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 63 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
63
Dung lượng
1,97 MB
Nội dung
ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CÔNG NGHỆ NGUYỄN HOÀNG ANH NGHIÊNCỨUTHUẬTTOÁNTÌMKIẾMCHUỖIDNASỬDỤNGPHƢƠNGPHÁPTÌMKIẾMTƢƠNGTỰNHANHLUẬN VĂN THẠC SĨ HỆ THỐNG THÔNG TIN HÀ NỘI – 2016 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CÔNG NGHỆ NGUYỄN HOÀNG ANH NGHIÊNCỨUTHUẬTTOÁNTÌMKIẾMCHUỖIDNASỬDỤNGPHƢƠNGPHÁPTÌMKIẾMTƢƠNGTỰNHANH Ngành: Hệ thống thông tin Chuyên ngành: Hệ thống thông tin Mã số: 60 48 01 04 LUẬN VĂN THẠC SĨ HỆ THỐNG THÔNG TIN NGƢỜI HƢỚNG DẪN KHOA HỌC: Tiến sĩ Nguyễn Thị Hậu HÀ NỘI – 2016 LỜI CAM ĐOAN Tôi xin cam đoan nội dungluận văn “Nghiên cứuthuậttoántìmkiếmchuỗiDNAsửdụng phương pháp tương tự nhanh” sản phẩm thực hướng dẫn TS Nguyễn Thị Hậu Trong toàn nội dungluận văn, điều trình bày cá nhân tổng hợp từ nhiều nguồn tài liệu Tất tài liệu tham khảo có xuất xứ rõ ràng trích dẫn hợp pháp Tôi xin hoàn toàn chịu trách nhiệm chịu hình thức kỷ luật theo quy định cho lời cam đoan Hà Nội, ngày 20 tháng năm 2016 TÁC GIẢ Nguyễn Hoàng Anh LỜI CẢM ƠN Trước tiên xin gửi lời cảm ơn chân thành tới tập thể các thầy cô giáo Khoa Công nghệ Thông tin, Trường Đại học Công nghệ, Đại học Quốc gia Hà Nội giúp đỡ tận tình chu có môi trường tốt học tập nghiêncứu Đặc biệt, xin bày tỏ lòng biết ơn sâu sắc tới TS Nguyễn Thị Hậu, người trực tiếp hướng dẫn, bảo tận tình suốt trình nghiêncứu hoàn thiện luận văn Một lần xin gửi lời cảm ơn đến tất thầy cô giáo, bạn bè gia đình giúp đỡ thời gian vừa qua Tôi xin kính chúc thầy cô giáo, anh chị bạn mạnh khỏe hạnh phúc Hà Nội, ngày 20 tháng năm 2016 TÁC GIẢ Nguyễn Hoàng Anh MỤC LỤC LỜI CAM ĐOAN .3 LỜI CẢM ƠN DANH MỤC KÍ HIỆU VÀ CHỮ VIẾT TẮT .7 GIỚI THIỆU CHƢƠNG TỔNG QUAN VỀ CÁC THUẬTTOÁNTÌMKIẾMCHUỖIDNA 13 1.1 PhƣơngpháptìmkiếmchuỗiDNAsửdụng mô hình Markov ẩn 13 1.2 Phƣơngpháp liên kết nhạy cảm đầy đủ 15 1.3 Phƣơngpháptìmkiếmtƣơngtựnhanh 21 1.4 Phƣơngphápsửdụng mô hình phù hợp gần 25 1.5 Phƣơngphápsửdụng mô hình kết hợp xác gần xác 31 CHƢƠNG N-GRAM VÀ PHƢƠNGPHÁPTÌMKIẾMCHUỖITƢƠNGTỰNHANH ÁP DỤNG N-GRAM 35 2.1 Mô hình N-Gram 35 2.1.1 Một số khái niệm 35 2.1.2 Mô hình ngôn ngữ N-gram 36 2.1.3 Khó khăn xây dựng mô hình ngôn ngữ N-gram : 37 2.1.4 Các phương pháp khắc phục cụm N-Gram phân bố không 38 2.2 Phƣơngpháptƣơngtựnhanh áp dụng N-gram tìmkiếmchuỗiDNA 39 2.2.1 Phân đoạn DNA 39 2.2.2 Các “từ DNA” 40 2.2.3 Quá trình tìmkiếmchuỗi hiển thị kết 40 2.3 Bảng kết lần thử phƣơngpháptìmkiếmchuỗitƣơngtựnhanh áp dụng N-Gram 48 2.3.1 Định dạng chuỗi sở liệu 48 2.3.2 Bảng kết lần thử phương pháptìmkiếmchuỗi tương tựnhanh áp dụng NGram 50 2.4 Đánh giá phƣơngpháptìmkiếmchuỗitƣơngtựnhanh áp dụng N-Gram51 2.4.1 Cải thiện thời gian tìmkiếm 51 2.4.2 Tiết kiệm nhớ trình tìmkiếm 52 CHƢƠNG THỰC NGHIỆM SO SÁNH PHƢƠNGPHÁPTÌMKIẾMTƢƠNGTỰNHANH DỰA TRÊN N-GRAM VỚI PHƢƠNGPHÁP BLAST VÀ PHƢƠNGPHÁP SMITH-WATERMAN 53 3.1 Môi trƣờng thực nghiệm 54 3.2 Thực nghiệm đánh giá phƣơngpháptìmkiếmtƣơngtựnhanh áp dụng N-Gram với phƣơngpháp BLAST phƣơngpháp Smith-Water Man 56 3.3 Phân tích đánh giá kết thực nghiệm 58 KẾT LUẬN .60 TÀI LIỆU THAM KHẢO .62 DANH MỤC KÍ HIỆU VÀ CHỮ VIẾT TẮT Kí hiệu DNA Tiếng Anh Deoxy Ribonucleic Acid NST A T G C SNP Chromosome Adenine Thymine Guanine Cytosine Single nucleotide polymorphisms CPU RAM NCBI Cental Processing Unit Random access memory National Center for Biotechnology Information Differential Direct coding HMM BLAST Hidden Markov Modeling Basic Local Alignment Search Tool High – Throughput Sequencing HTS Tiếng Việt Phân tử mang cấu trúc gen di truyền Nhiễm sắc thể Tính đa hình phân tử nucleotit Mỗi SNP biểu diễn biến đổi khối chuỗiDNA Bộ xử lý trung tâm Bộ nhớ truy cập ngẫu nhiên Trung tâm quốc gia thông tin công nghệ sinh Mã hóa trực tiếp phần khác biệt Mô hình Markov ẩn Công cụ tìmkiếm cục theo mẫu có sẵn Trình tựchuỗi đa lượng GIỚI THIỆU Việc phát DNA bước ngoặt lớn khoa học sinh học nói riêng sống người nói chung Hiện nay, nhà khoa học tìm nhiều cấu trúc DNA giải thích nhiều câu hỏi di truyền loài, bệnh, dị tật di truyền, khoa học hình sự,… ngày phát thêm nhiều cấu trúc DNA mới, điều tạo khối lượng khổng lồ liệu chuỗi gen phục vụ cho y sinh học đại Kích thước liệu ngày tăng đặt vấn đề chi phí cho không gian lưu trữ tốc độ truy cập, truyền tải DNA (DeoxyriboNucleic Acid) tên hóa học phân tử mang cấu trúc gen tất thực thể sống DNA gồm chuỗi tạo nên từ loại đơn vị nucleotide, loại gồm: đơn vị đường carbon (2’-deoxyribose), nhóm phốt phát (phosphate) thành phần Adenine, Cystosine, Guanine Thymine gọi bazơ Mỗi phân tử đường gắn với ¼ thành phần Mỗi thành phần base Số lượng base người khoảng tỷ, số vô lớn Dạng đơn giản DNA tế bào cấu trúc dây xoắn đôi, sợi DNA đơn xoắn quanh theo hình xoắn ốc thuận tay phải Bộ gen người gồm khoảng tỉ đặc trưng 23 cặp nhiễm sắc thể (NST) Do đó, sở liệu hệ gen vô lớn phức tạp Để lưu trữ, truy cập xử lý liệu cách hiệu nhiệm vụ khó khăn DNA có chức lưu trữ, bảo quản truyền đạt thông tin di truyền cấu trúc toàn loại protein thể sinh vật, quy định tính trạng thể sinh vật DNA có chức lưu giữ truyền đạt bảo quản thông tin di truyền hệ Có nhiều ứng dụngtừ việc tìmkiếmchuỗiDNA khoa học đời sống người, chẳng hạn như: Sự di truyền trí thông minh: Các nhà khoa học tiến hành lấy mẫu (có thể lấy tế bào máu, niêm mạc miệng, tế bào má, tóc có chân, móng tay, móng chân, cuống rốn sau rụng ) nghiêncứuchuỗi gen người có số thông minh cao, sau tìm đặc điểm chung Tiến hành nghiêncứu tập lớn mẫu để xác định chuỗi gen định trí thông minh Từ ứng dụng vào sinh học, y học cho người Qua nghiêncứu cụ thể, nhà khoa học nhận thấy rằng, 75% trí thông minh người gen định [1] Kiểm tra quan hệ huyết thống: Phương pháp ứng dụng phổ biến đời sống thường gọi xét nghiệm DNA Xét nghiệm DNA lĩnh vực đòi hỏi độ xác cao Mỗi kết xét nghiệm DNA huyết thống có thay đổi sống nhiều người, cần phải đảm bảo việc xét nghiệm thực xác Tất trình tư thu mẫu, tách chiết DNA, phân tích DNA đọc kết làm kiểm soát theo quy trình chuẩn, từ kết có độ xác ổn định cao Thông thường, lấy hai mẫu xét nghiệm hai người (hoặc sinh vật khác) từ tóc, tế bào da, mẫu máu… Sau xét nghiệm chuỗi gen xem có độ tương đồng cao hay không Thông thường mẫu DNA mẹ, bố nghi vấn khớp với gene độ xác có quan hệ huyết thống 99.9999% kết luận hai mẫu gen có huyết thống [2] Phát loại gen gây bệnh: Bác sỹ lấy mẫu máu từ bệnh nhân bị bệnh, tìmkiếm bắt cặp trình tự có độ tương đồng cao Sau đó, so sánh bắt cặp trình tự cao với mẫu gen người bình thường để xem điểm khác mẫu gen Từ đưa kết luận mẫu gen gây bệnh Tập hợp mẫu gen gây bệnh đưa vào sở liệu để làm mẫu gen thử cho lần nghiêncứu sau Khoa học hình sự: Các điều tra viên lấy mẫu (tóc, máu, da…), dấu vết trường Sau đó, mang giám định Tiếp theo, tiến hành so sánh với sở liệu chuỗiDNA lưu Từ biết có mặt trường vào thời điểm xảy vụ việc Tiến hành lấy lời khai nhân chứng Căn vào kết luận thủ, thời gian, trình xảy vụ án ADN thường sửdụng để xác định tội phạm theo hai cách Trường hợp nghi ngờ: Một mẫu DNA người so sánh với chứng từ trường vụ án Kết so sánh giúp xác định liệu nghi can phạm tội Trường hợp nghi ngờ chưa xác định, chứng sinh học từ trường vụ án phân tích so sánh với hồ sơ phạm tội sở liệu ADN để giúp xác định thủ phạm chứng trường vụ án liên kết với cảnh tội phạm khác thông qua việc sửdụng sở liệu ADN Hiện nay, với trình đô khoa học phát triển, lớp đào tạo điều tra viên mở, giúp học viên tiếp cận công nghệ cách nhanh chóng Có dự án kêu gọi nhiều nguồn tài lên tới triệu đô la Mỹ [3] Lý thuyết tiến hóa: Các nhà sinh vật tiến hành lẫy mẫu gen từ sinh vật hóa thạch So sánh với mẫu gen loài có hình thù, độ lớn, màu sắc, sinh vật nghi ngờ loài… Nếu mẫu gen loài giống có mức độ tương đồng cao kết luận sinh vật loài tiến hóa từ mức thấp lên mức cao [4] ……………………………… Đặc trưng phức tạp chuỗiDNA nằm chỗ chuỗi số độ dài khác biểu diễn phạm vi dự đoán thành phần cấu tạo nên DNA Những đặc trưng phức tạp cho phép tìmkiếm cấu trúc lặp bên nhiễm sắc thể qua nhiều nhiễm sắc thể Và đặc trưng sửdụng để tìm khoảng cách tiến hóa cấu trúc nên phát sinh loài Nên khó đưa thuậttoán tối ưu để tìm kiếm, giải trình tự đoạn DNA hiệu Nhiều thuậttoántìmkiếm dành riêng cho chuỗiDNA phát triển từ khoảng 30 năm trước Hiện nay, kỹ thuậttìmkiếm liệu chuỗiDNAsửdụng rộng rãi sinh học Có hàng trăm thuậttoán đề xuất cho tìmkiếm liệu DNA nhìn chung thuậttoántìmkiếm thường sửdụng là: Phương pháp áp dụng Mô hình Markov ẩn[5] phương phápsửdụng mô hình thống kê, tính toán xác suất Thuậttoándùng phương pháp mô hình hóa trình tìmkiếmchuỗi có sửdụng tham số quan sát tham số trước – mô hình Markov Sau xác định tham số trước từ tham số quan sát Các tham số mô hình rút sau sửdụng để thực phân tích Phương phápsửdụng rộng rãi tin sinh học nhiên chi phí thời gian lớn hàm tính toán phức tạp Phương pháp liên kết nhạy cảm đầy đủ: Vd: thuậttoán Smith&Waterman[6] Phương phápsửdụng để tìm giống có độ tương đồng cao hai chuỗi Bằng cách lập ma trận, tính độ đo để tìm giống có độ tương đồng cao tất độ dài phân đoạn hai xâu, hai chuỗi protein nucleotide Với chuỗitìmkiếm có độ tương đồng cao trước đó, phương pháp mở rộng phạm vi tìmkiếm hai phía (trước sau) Phương pháp có ưu điểm độ xác cao Tuy nhiên chi phí thời gian lớn Phương pháp 10 biết ký tự bắt đầu tệp Các thông tin dòng cho biết nội dung sau: tên chuỗi, thích, ký hiệu chuỗi ngân hàng CSDL (với trung tâm liệu khác nhau, mã chuỗi khác nhau), vị trí bắt đầu, vị trí kết thúc chuỗiDNA gốc, tên loài (trong định dạng FASTA, dòng sửdụng để mô tả chuỗi) Bất ký tự không thuộc mã hợp lệ (vd: khoảng trống, dấu hoa thị, v.v ), chương trình đọc dòng bỏ qua Ngoại trừ dòng đầu tiên, tất dòng dòng mô tả trình tựchuỗi nucleotide amino axiet dạng số hóa: dòng thường có 80 ký tựChuỗi Nucleotide gồm loạt ký tự A, T, G, C nằm liên tiếp, xem kẽ với nhau, nhiều ký tự giống nằm gần Chuỗi Amino axit gồm nhiều ký tự hơn: A, B, C, D… (có thể bao gồm dấu gạch ngang “-“, dấu “*”) Do đơn giản FASTA nên nhiều công cụ Python, Ruby, PERL, C++… dễ dàng truy xuất thao tác định dạng [17] >MCHU - Calmodulin - Human, rabbit, bovine, rat, and chicken ADQLTEEQIAEFKEAFSLFDKDGDGTITTKELGTVMRSLGQNPTEAELQDMINEVDADGNGTID FPEFLTMMARKMKDTDSEEEIREAFRVFDKDGNGYISAAELRHVMTNLGEKLTDEEVDEMIREA DIDGDGQVNYEEFVQMMTAK* >gi|5524211|gb|AAD44166.1| cytochrome b [Elephas maximus maximus] LCLYTHIGRNIYYGSYLYSETWNTGIMLLLITMATAFMGYVLPWGQMSFWGATVITNLFSAIPYIGTNLV EWIWGGFSVDKATLNRFFAFHFILPFTMVALAGVHLTFLHETGSNNPLGLTSDSDKIPFHPYYTIKDFLG LLILILLLLLLALLSPDMLGDPDNHMPADPLNTPLHIKPEWYFLFAYAILRSVPNKLGGVLALFLSIVIL GLMPFLHTSKHRSMMLRPLSQALFWTLTMDLLTLTWIGSQPVEYPYTIIGQMASILYFSIILAFLPIAGX IENY Hình 2.10 Ví dụ định dạng tệp FASTA 49 2.3.2 Bảng kết lần thử phƣơngpháptìmkiếmchuỗitƣơngtựnhanh áp dụng N-Gram Tất liệu thử nghiệm liệu chuẩn Dữ liệu đầu vào tệp định dạng FASTA trích xuất từchuỗi gen gốc ngân hàng liệu gen NCBI, gen tải miễn phí phục vụ cho mục đích nghiêncứuChuỗi cần tìmkiếm nhập từ bàn phím Chuỗi cần tìmkiếm so sánh với liệu từ điển tệp FASTA để biết chuỗi nhập từ bàn phím cần tìmkiếm có liệu từ điển không, có chuỗi có mặt liệu từ điển Kết trình tìmkiếm hiển thị lên hình Chương trình thực qua hai bước Bước một: tiền xử lý bước hai: tìmkiếm hiển thị kết Chi tiết bước người viết đề cập mục 2.2 Chương trình thực với 11 lần thử Với sở liệu mẫu trích xuất từ gen gốc sở liệu gen NCBI Chi tiết lần thử thể bảng 2.1 STT Tên loại gen 10 11 Chr-1 Chr-2 Chr-3 Chr-4 Chr-5 Chr-6 Chr-7 Chr-8 Chr-9 Ec-1 Ec-2 Dung lượng tệp đầu vào (byte) 000 000 000 10 000 12 000 100 000 008 000 107 000 12 000 000 584 860 100 000 Bộ nhớ RAM sửdụng (byte) ~ 000 000 ~ 000 000 ~ 000 000 ~ 000 000 ~ 000 000 ~ 10 000 000 ~ 15 000 000 ~ 20 000 000 ~ 400 000 000 ~ 30 000 000 ~ 40 000 000 Thời gian (giây) Tiền Tìm Hiển thị xử lý kiếm kết 10 30 58 71 308 11 100 120 Bảng Chi tiết lần chạy thử chương trình 50 2.4 Đánh giá phƣơngpháptìmkiếmchuỗitƣơngtựnhanh áp dụng N-Gram Ở phần đánh giá này, người viết trình bày kết tìmkiếmchuỗi đoạn gen lấy từ sở liệu gen NCBI Quá trình tìmkiếm thu kết nhớ sửdụngtìm kiếm, thời gian tìmkiếm hiển thị kết hình để so sánh hiệu phương pháptìmkiếm tương tựnhanh áp dụng N-Gram với phương pháp loại BLAST Đồng thời so sánh hiệu phương pháp với phương pháptìmkiếm nhạy cảm đầy đủ Smith&Waterman để thấy cải tiến phương pháp đề xuất thực mang lại hiệu thời gian tìmkiếm tiết kiệmdung lượng nhớ trình tìmkiếm Do luận văn tập trung nghiêncứu cải thiện thời gian tìmkiếm nên sau người viết tập trung mô tả cách thức cải thiện đạt việc cải thiện thời gian đưa kết thuậttoán Hiệu thời gian dung lượng nhớ trình tìmkiếm đưa kết việc nghiêncứu Mỗi kiểm tra thực 10 lần kết thể giá trị trung bình 2.4.1 Cải thiện thời gian tìmkiếm Với việc chia đoạn gen sở liệu ban đầu thành đoạn nhỏ hơn, sau sửdụng phương pháp đánh mục cho đoạn nhỏ đó, việc truy xuất kết thực bảng mục Việc đánh mục rõ ràng đánh theo số thứ tự cụ thể nên nhập nhằng trình tìmkiếm Hơn bảng mục có liên kết với thông qua định dạng tệp chia nhỏ trình tiền xử lý Các định dạng tệp đánh mục số thứ tự, có vị trí bắt đầu, vị trí kết thúc đoạn theo sở liệu chuỗi đầu vào Chính việc tìmkiếm diễn đoạn chia Với độ lớn 51 khoảng 2000 kb đoạn, việc máy tính cá nhân tìmkiếm liệu khoảng 80 kb đến 200 kb đoạn 2000 kb hoàn toàn thực cách nhanh chóng Ví dụ: Ở bảng 2.1 từ trình tìmkiếm đến việc đưa kết cho đoạn mẫu 12 nucleotide tệp sở liệu kb đầu vào khoảng giây Trong đó, với phương pháp khác Smith&Water Man trình tìmkiếm đến hiển thị kết giây 2.4.2 Tiết kiệm nhớ trình tìmkiếm Chương trình thực qua hai bước tiền xử lý tìm kiếm, đưa kết hình Ở bước – tiền xử lý, chương trình chia nhỏ tệp sở liệu thành đoạn nhỏ – với độ dài 500 ký tự, sau lập bảng, đánh mục cho đoạn nhỏ Nên việc truy xuất trình tìmkiếm việc truy xuất vào đoạn liệu Với tốc độ máy tính nay, việc truy xuất tìmkiếm đoạn khoảng vài chục byte sở liệu độ lớn khoảng 4000 byte thực thực nhanh chóng Ví dụ: Ở bảng 2.1 từ trình tìmkiếm đến việc đưa kết cho đoạn mẫu 12 nucleotide tệp sở liệu kb đầu vào khoảng 1kb nhớ RAM với phương pháp Smith&Water Man trình tìmkiếm đến trình hiển thị kết nhớ RAM cần sửdụng tổng cộng 500 kb 52 CHƢƠNG THỰC NGHIỆM SO SÁNH PHƢƠNGPHÁPTÌMKIẾMTƢƠNGTỰNHANH DỰA TRÊN N-GRAM VỚI PHƢƠNGPHÁP BLAST VÀ PHƢƠNGPHÁP SMITHWATERMAN Ở chương này, người viết trình bày thực nghiệm bổ sung để minh họa thêm tính hiệu phương pháptìmkiếmchuỗiDNA tương tựnhanh áp dụng Ngram so với hai thuậttoán BLAST-phương pháptìmkiếmchuỗi tương tựnhanh Smith&Waterman – phương pháptìmkiếmchuỗi liên kết nhạy cảm đầy đủ Như trình bày chương 1, có năm loại thuậttoánsửdụng cho tìmkiếmchuỗi gen Thuậttoántìmkiếmchuỗisửdụng mô hình Markov ẩn dùng phương pháp mô hình hóa trình tìmkiếmchuỗi có sửdụng tham số quan sát tham số trước – mô hình Markov Sau xác định tham số trước từ tham số quan sát Các tham số mô hình rút sau sửdụng để thực phân tích Với mô hình Markov ẩn cấu trúc mô hình thay đổi dễ dàng cho phù hợp với ứng dụng cụ thể Phương pháp thứ hai phương pháptìmkiếmchuỗi liên kết nhạy cảm đầy đủ phương phápsửdụng để tìm giống có độ tương đồng cao hai chuỗi Bằng cách lập ma trận, tính độ đo để tìm giống có độ tương đồng cao tất độ dài phân đoạn hai xâu, hai chuỗi protein nucleotide Với chuỗitìmkiếm có độ tương đồng cao trước đó, phương pháp mở rộng phạm vi tìmkiếm hai phía (trước sau) Phương pháp có ưu điểm độ xác cao Tuy nhiên chi phí thời gian lớn Hiện nay, cải tiến máy tính thuậttoántìm kiếm, phương pháptìmkiếm đồng thời nhiều chuỗi lúc khoảng (1000 chuỗi) [18] Thuậttoántìmkiếmchuỗi hiệu thứ ba phương pháptìmkiếmchuỗi tương tựnhanh Phương phápsửdụng giải thuật so sánh chuỗi cần truy vấn với CSDL chuỗi có sẵn dựa việc đánh giá chuỗi sở liệu với chuỗi truy vấn theo ngưỡng định Dựa vào bảng kết đánh giá, đưa kết mức độ tương đồng hai chuỗi Mặc dù có thời gian xử lý nhanh phương pháp có độ xác không phương pháp liên kết nhạy cảm đầy đủ Thuậttoán điển hình phương phápdùng 53 phổ biến có nhiều biến thể để so sánh với trường hợp cụ thể Phương pháptìmkiếmchuỗi thứ tư phương pháptìmkiếmchuỗi phù hợp gần (chứ xác) Phương phápsửdụng cách tiếp cận vét cạn (bruteforce) để tính “độ chỉnh sửa” chuỗitừ điển mẫu cho gần với tất chuỗichuỗi cần truy vấn, sau chọn chuỗi với “độ chỉnh sửa” tối thiểu Tuy nhiên, thuậttoán có thời gian chạy lớn( cỡ hàm mũ) Phương pháptìmkiếmchuỗi thứ năm phương phápsửdụng mô hình kết hợp xác gần xác: Vd: mpscan[9] Phương phápsửdụng mô hình đánh dấu tập mẫu, tức chia chuỗi cần truy vấn thành chuỗi mẫu nhỏ với chiều dài cố định Sau đó, so sánh chuỗi chia với chuỗi sở liệu để tìmkiếm tương đồng, thực xử lý đồng thời nhiều mẫu Phương pháp thường dùng có hiệu việc tìmkiếm tập lớn chuỗi DNA/RNA ngắn CSDL chuỗi DNA/RNA Phương pháp điển hình dạng Mpscan Chương trình Mpscancó thể đọc đồ giao diện Có khả tìmkiếm ngược, bổ sung mẫu Tuy nhiên, thời gian thực mức độ trung bình) Là công cụ đánh dấu tập mẫu đạt hiệu xác cao cho việc giải trình tự DNA/RNA Phương pháptìmkiếmchuỗi tương tựnhanh áp dụng N-Gram người viết trình bày chương phương pháptìmkiếmchuỗi với cải tiến tốc độ tìmkiếm tiết kiệm nhớ số phương pháp khác Sau đây, người viết trình bày thực nghiệm mà người viết thực để làm rõ nhận định tính hiệu mà phương pháptìmkiếmchuỗiDNA áp dụng N-Gram mang lại cho việc tìmkiếmchuỗi gen 3.1 Môi trƣờng thực nghiệm Tất thực nghiệm thực máy tính cá nhân Dell Vostro 15 3000 Series với cấu sau: CPU: Intel(R) Core(TM) i5-5250M CPU @ 1.6GHz / L2 cache Bộ nhớ: 4GB RAM (1x2GB, 1x2GB)/ DIMM Dung lượng: 500GB/ SCSI/ Disk drives TOSHIBA MQ01ABF050 Phần mềm sử dụng: Các chương trình chạy Linux kernel (64bit) Chương trình viết chỉnh sửa ngôn ngữ C++ sửdụng QT Creator (build 1.7.0 40-b43) BLAST SMITH&WATERMAN viết chỉnh sửa ngôn ngữ C++ 54 Các kích thước đo byte, ví dụ 1MB có nghĩa 1024 byte Các tập liệu thực nghiệm: Người viết thực so sánh ba thuậttoántìmkiếm hai tập liệu sinh học: (1) tập hợp gen người, (2) tập hợp gen từ khuẩn Escherichia coli (1) Tập liệu gen người lấy từ sở liệu NCBI dùng cho nghiêncứu Trích rút chuỗi liên ứng loại cho gen Sửdụng Chr-# để biểu diễn tập tất chuỗi cho nhiễm sắc thể người #, ví dụ Chr-1 biểu diễn nhiễm sắc thể người Các chuỗi lấy từ nhiễm sắc thể có độ tương đồng cao chuỗi lấy từ nhiễm sắc thể khác Tập tất 23 tập liệu gen người (Chr-1 tới Chr-22, Chr-X) kí hiệu H-* Tập liệu gen người lớn Chr-1 với 65631142 byte (62,6MB), tập liệu nhỏ Chr22 với 9953567 byte (10MB) kích thước H-* khoảng 50000000 byte (5Gb) (2) Các tập liệu Escherichia coli lấy từ sở liệu NCBI Tập hợp tất tập liệu Escherichia coli kí hiệu Ec-* Tập liệu Escherichia coli nhỏ Ec_K-12 substr W3110 với 4646332 byte (4,6Mb) Tập lớn Ec_CI5 với 8,092,977 byte (8,1Mb) kích thước Ec-* vào khoảng 207008000 byte (207Mb) Dữ liệu tệp gen có dạng chuỗi Các hình 3.1, 3.2 3.3 thể định dạng chuỗi gen tập liệu thực nghiệm Hình 3.1 Định dạng Fasta chuỗi gen khuẩn E Coli K12 – DH10B 55 Hình 3.2 Định dạng FASTA chuỗi gen Hs7_807 3.2 Thực nghiệm đánh giá phƣơngpháptìmkiếmtƣơngtựnhanh áp dụng NGram với phƣơngpháp BLAST phƣơngpháp Smith-Water Man Thực nghiệm so sánh tiến hành với ba phương pháptìm kiếm: Phương pháptìmkiếm tương tựnhanh BLAST, phương pháp N-Gram, phương pháp liên kết nhạy cảm đầy đủ Smith-Waterman Cách làm sau: với loài nhiễm sắc thể, lựa chọn ngẫu nhiên số chuỗi áp dụngthuậttoán lựa chọn cho chuỗi ngẫu nhiên Kết thống kê so sánh kích thước gen sau tìm kiếm, thời gian tìmkiếm tất bước thuậttoán cho nhiều chuỗi gen cụ thể Kết sau thực nghiệm phương pháptìmkiếmchuỗi cho thấy thời gian đưa kết BLAST tốt số lượng chuỗitìm thấy mức chấp nhận Hầu hết thời gian lần tìmkiếm BLAST nhanh phương pháp Smith-Waterman tìmkiếm với chuỗitừ điển có dung lượng nhỏ tìmkiếm với chuỗitừ điểm có dung lượng lớn Số chuỗitìmkiếm BLAST lần tìmkiếm với đoạn chuỗidung lượng nhỏ xấp xỉ với Smith-Waterman N-Gram Ở lần tìmkiếm với chuỗitừ điển dung lượng lớn, phương pháp Smith-Waterman tìm thấy nhiều kết nhất, sau đến BLAST, cuối N-Gram Khi tìmkiếm với chuỗitừ điển dung lượng nhỏ (khoảng Mb), thời gian đưa kết N-Gram nhanh nhất, 56 BLAST, cuối Smith-Waterman Khi tìmkiếm với chuỗitừ điển có dung lượng lớn ( >5 Mb), phương pháp N-Gram đưa kết nhanh số kết tìm không BLAST Smith-Waterman Với dung lượng chuỗitừ điển 5Mb-10Mb, N-Gram tiết kiệm nhớ BLAST Smith-Waterman Khi dung lượng chuỗitừ điển >50Mb, nhớ sửdụng phương pháp N-Gram tăng đáng kể > 2Gb Như vậy, thấy phương pháptìmkiếm tương tựnhanh áp dụng N-Gram đạt hiệu cao tiết kiệm nhớ, thời gian tìm kiếm, số lượng kết tìmtìmkiếm với chuỗitừ điển dung lượng nhỏ Mặc dù sửdụng phương pháp với chuỗi có dung lượng lớn, thời gian đưa kết nhanh hai phương pháp lại số kết tìm không nhiều hai phương pháp lại Hiệu số kết tìm BLAST Smith-Waterman so với N-Gram tăng dần theo độ lớn dung lượng chuỗitừ điển Hình 3.3 Minh họa kết chạy BLAST độ dài chuỗi truy vấn 12 với mẫu gen thử Chr-4 57 Hình 3.4 Minh họa kết chương trình sửdụng phương pháp Smith-Waterman với độ dài chuỗi truy vấn 12 3.3 Phân tích đánh giá kết thực nghiệm Bộ liệu tải lớn, tổng cộng khoảng gần 100GB môi trường thực nghiệm có hạn nên người viết lựa chọn số chuỗi với dung lượng phù hợp để thực trình tìmkiếm so sánh Phương pháptìmkiếmchuỗi Smith-Waterman mô hình phương pháptìmkiếm quy hoạch động Có thể sửdụng kết trình tìmkiếm trước để sửdụng cho lần tìmkiếm tức mở rộng phạm vi tìmkiếmtừchuỗitìm trước Phương pháp có ưu điểm việc hiển thị kết trực quan Tuy có thời gian tìmkiếm chậm cần nhiều nhớ tìmkiếm Nhưng ba phương pháptìm kiếm, phương pháptìmkiếm có số lượng kết đưa nhiều tìmkiếm trường hợp, sô chuỗitìm thấy nhiều hai phương pháp lại Phương pháp BLAST phương pháptìmkiếmchuỗi có thời gian tìmkiếmnhanh Smith-Waterman tìmkiếm với chuỗitừ điển dung lượng lớn, số lượng kết đưa phương pháp nhiều N-Gram không phương pháp Smith-Waterman Phương pháp N-Gram đạt hiệu cao số kết tìm được, thời gian xử lý, dung lượng nhớ tìmkiếm với chuỗitừ điển dung lượng nhỏ (< 8Mb) so với BLAST Smith-Waterman Đây ưu điểm phương pháp Khi tìmkiếm với chuỗitừ điển có dung lượng > 10Mb, lần thực nghiệm, số kết tìm N-Gam không hai phương pháp lại (mặc dù thời gian tìmkiếmnhanh hơn) Số chuỗi không tìm so với hai phương pháp lại tăng dần theo độ lớn dung lượng chuỗitừ điển Nguyên nhân 58 trình chia tách tệp liệu từ điển đầu vào không triệt để Các đoạn gen cuối đoạn chia đoạn gen đầu đoạn sau nằm kết chuỗi cần tìmkiếm Bảng thể bảng thống kê kết đạt thực tìmkiếmchuỗiDNA theo phương pháp BLAST, phương pháptìmkiếm tương tựnhanh áp dụng N-Gram phương pháp liên kết nhạy cảm đầy đủ Smith&Waterman tìmkiếmchuỗiDNA có độ dài 12 nucleotide Chuỗitìmkiếm chọn ngẫu nhiên, lần tìmkiếm thử nghiệm với dung lượng chuỗi CSDL khác lần thử Kết thực nghiệm cho thấy với tệp sở liệu từ điển có dung lượng 2Mb, N-Gram đạt hiệu thời gian tìmkiếm tốt hai thuậttoán khác tìmkiếmchuỗi tương tựnhanh BLAST phương pháptìmkiếmchuỗi nhạy cảm đầy đủ Smith-Waterman Thời gian tìmkiếm trung bình cho tệp sở liệu từ điển dung lượng 2Mb cỡ 100 giây Trong đó, với BLAST khoảng 160 giây, với Smith-Waterman khoảng 190 giây Như trình bày trên, N-Gram không thuậttoán hiệu thời gian tìmkiếm mà hiệu dung lượng nhớ sửdụng thực chương trình Kết thực nghiệm cho thấy với chuỗitừ điển có dung lượng 2Mb, nhớ cần thiết cho N-Gram khoảng 6Mb, với BLAST 10Mb, với Smith-Waterman khoảng 14Mb 59 KẾT LUẬN Những thách thức việc khám phá cấu trúc, chức năng, tiến hóa di truyền hệ gen loài, phương pháp xếp tìmkiếmchuỗi đa lượng đặt câu hỏi tập trung vào việc biểu diễn, lưu trữ, truyền tải, truy vấn bảo vệ thông tin chuỗi gen Mặc dù việc lưu trữ tìmkiếm thông tin chuỗiDNAkiểm soát phần việc cải tiến phương pháptìmkiếm tốt cho chuỗiDNA vấn đề quan trọng nghành tin sinh học Đặc biệt việc tìm giải thuậtnhanh tốc độ tìm kiếm, đạt độ xác cao đồng thời số lượng kết trình tìmkiếm triệt để thách thức lớn Trong luận văn này, người viết trình bày phương thức thuậttoántìmkiếm tiêu biểu cho phương thức tìmkiếm liệu chuỗiDNA Trong đó, người viết chọn phương thức tìmkiếmchuỗi tương tựnhanh áp dụng N-gram làm mục tiêu nghiêncứu hiệu mà thuậttoán mang lại cho tìmkiếmchuỗiDNA thời gian đưa kết nhanh, tiết kiệm nhớ sử dụng, phương pháp tính toán đơn giản tìmkiếmThuậttoán đạt hiệu việc tăng hiệu tìmkiếmchuỗi phương pháp kế thừa: (1) tìmkiếm bắt cặp trình tự ngắn, (2) đánh giá bắt cặp trình tự có điểm số cao (3) thống kê kết đạt Ở điều kiện lý tưởng chọn lựa chuỗitừ điển phù hợp hay chuỗi gen loài có độ tương đồng cao, thời gian tìmkiếmnhanh gấp ba lần so với phương pháp BLAST SmithWaterman Bên cạnh đặc trưng kế thừa từthuậttoántìmkiếm tương tự nhan BLAST, N-Gram thực hiệu sửdụng phương pháp đánh số để tiết kiệm thời gian tìmkiếm đưa kết đáng kể Đóng góp NGram chia chuỗi gen từ điển thành đoạn có độ dài ngắn (500 ký tự), sau sửdụng phương thức đánh số cho phân đoạn độ dài theo N-gram đơn vị cho chuỗi truy vấn Cơ chế kết hợp hai đặc tính tốt là: cấu trúc đơn giản đưa kết nhanh việc truy vấn theo số Hai đặc tính giúp N-Gram đạt ưu việt thời gian tìmkiếm khả tiết kiệm nhớ N-Gram có nhược điểm tìmkiếm với chuỗi có dung lượng 8Mb, số lượng kết tìm thấp 60 BLAST Smith-Waterman Nguyên nhân việc chia chuỗi gen từ điển thành đoạn nhỏ, điểm cuối đoạn chia điểm đầu đoạn kết tìmkiếm nằm điểm nối hai đoạn chia Dung lượng nhớ sửdụng thực thi N-Gram nhược điểm tìmkiếm với chuỗitừ điển dung lượng lớn 20Mb với máy tính cá nhân Việc chia thành tệp nhỏ đánh số cho đoạn liệu chia làm tăng vọt theo hàm số mũ với phương pháp Độ lớn tệp chia theo phương pháp phụ thuộc vào số N (trong N-Gram) Trong DNA với nucleotide (A, T, G, C) số lượng đoạn cần tìmkiếm 4N với N lớn, dung lượng tệp truy vấn lớn lên theo hàm mũ Tuy gặp số bất lợi thời gian tìmkiếmdung lượng máy ảo sửdụng ngôn ngữ C++ làm công cụ phát triển N-Gram chứng minh tính hiệu việc tìmkiếmchuỗi gen thuậttoántìmkiếm tương tựnhanh Trong tương lai N-Gram tiếp tục cải tiến để đạt tốc độ tìmkiếm khả tiết kiệm nhớ đáng mong đợi Cùng với nghiêncứu nhận định trình bày, người viết thực thực nghiệm so sánh thuậttoántìmkiếmchuỗiDNA với thuậttoántìmkiếm thuộc phương thức khác tìmkiếmchuỗi theo phương pháp liên kết nhạy cảm đầy đủ Smith-Waterman phương pháptìmkiếm tương tựnhanh BLAST để bổ sung cho kết nghiêncứu đạt Kết thực nghiệm chưa đạt hiệu tiết kiệm nhớ hay kết tìmkiếm mong đợi cao thuậttoántìmkiếmchuỗi tương tựnhanh số hạn chế môi trường thực nghiệm, bước đầu khẳng định tối ưu thuậttoántìmkiếm tương tựnhanh mà tiêu biểu N-Gram cho tìmkiếmchuỗi gen Những kết thực nghiệm tiền đề để người viết tiếp tục nghiêncứu cải tiến cho việc tìmkiếmchuỗi gen tương lai 61 TÀI LIỆU THAM KHẢO [1] Matt Atherton Human intelligence genes identified in DNA bringing us one step close to cognitive engineering, Internationnal Business Times, 2015 [2] Jes Battis Blood Relation, 2005 [3] Loretta E Lynch Using DNA to solve crimes, 2014 [4] David Michael Buss & David P Schmitt Evolutionary Psychology and Feminism Springer Science + Business Media, LLC, 2011 [5] SR Eddy Profile hidden Markov models Bioinformatics, 1998 [6] Temple F Smith and Michael S.Waterman Identification of common molecular subsequences, 1981 [7] S.F Altschul, T L Madden, A A Schaffer, J Zhang, Z Zhang, W Miller, and D J Lipman Gapped blast and psi-blast: a new generation of protein database search programs Nucleic Acids Res, 25:3389–3402, 1997 [8] Ben Langmead Aligning short sequencing reads with Bowtie Curr Protoc Bioinformatics, 2010 [9] Eric Rivals, Leena Salmela, Petteri Kiiskinen, Petri Kalsi, and Jorma Fast Localisation of Multiple Reads in Genomes, 2015 [10] Daniel Jurafsky and James H.Martin Speech and Language Processing: An Introduce to Natural Language processing, Computational linguistics and Speech recognition, 2000 [11] Peter F Brown, Peter V deSouza, Robert L Mercer, Vincent J Della Pietra, Jenifer C Lai Class-Based n-gram Models of Natural Language, IBM T J Watson Research Center [12] Songfang Huang, Steve Renals Power Law Discouting for N-gram Language Models The Centre for Speech Technology Research, University of Edinburgh, United Kingdom 62 [13] Ben Langmead, Cole Trapnell, Mihai Pop and Steven L Salzberg Ultrafast and memory-efficient alignment of short DNA sequences to the human genome Genome Biology, 2009 [14] Burrows M, Wheeler DJ Digital Equipment Corporation Technical Report 124, 1994 [15] https://sourceforge.net/projects/bowtie-bio [16] P.Ferragina, G.Manzini Opportunistic data structures with applications Foundations of Computer Science, 2000 [17] Tao Tao Single Letter Codes for Nucleotides National Center for Biotechnology Information, 2011 [18] W.Pearson Searching protein sequence libraries: comparison of the sensitivity and selectivity of the Smith-Waterman and FASTA algorithms Genomics, 1991 63 ... pháp sử dụng để tìm kiếm chuỗi DNA Thuật toán tìm kiếm cụ thể mà người viết tập trung nghiên cứu thuật toán tìm kiếm chuỗi DNA sử dụng phương pháp tìm kiếm tương tự nhanh áp dụng N-Gram trình... CÁC THUẬT TOÁN TÌM KIẾM CHUỖI DNA 13 1.1 Phƣơng pháp tìm kiếm chuỗi DNA sử dụng mô hình Markov ẩn 13 1.2 Phƣơng pháp liên kết nhạy cảm đầy đủ 15 1.3 Phƣơng pháp tìm kiếm tƣơng. .. tƣơng tự nhanh 21 1.4 Phƣơng pháp sử dụng mô hình phù hợp gần 25 1.5 Phƣơng pháp sử dụng mô hình kết hợp xác gần xác 31 CHƢƠNG N-GRAM VÀ PHƢƠNG PHÁP TÌM KIẾM CHUỖI TƢƠNG TỰ NHANH ÁP DỤNG