Nghiên cứu thuật toán tìm kiếm chuỗi DNA sử dụng phương pháp tìm kiếm tương tự nhanh. Nguyễn, Hoàng Anh: Luận văn ThS. Máy tính: 60 48 01

63 22 0
Nghiên cứu thuật toán tìm kiếm chuỗi DNA sử dụng phương pháp tìm kiếm tương tự nhanh. Nguyễn, Hoàng Anh:  Luận văn ThS. Máy tính: 60 48 01

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CÔNG NGHỆ NGUYỄN HỒNG ANH NGHIÊN CỨU THUẬT TỐN TÌM KIẾM CHUỖI DNA SỬ DỤNG PHƢƠNG PHÁP TÌM KIẾM TƢƠNG TỰ NHANH LUẬN VĂN THẠC SĨ HỆ THỐNG THÔNG TIN HÀ NỘI – 2016 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CƠNG NGHỆ NGUYỄN HỒNG ANH NGHIÊN CỨU THUẬT TỐN TÌM KIẾM CHUỖI DNA SỬ DỤNG PHƢƠNG PHÁP TÌM KIẾM TƢƠNG TỰ NHANH Ngành: Hệ thống thơng tin Chuyên ngành: Hệ thống thông tin Mã số: 60 48 01 04 LUẬN VĂN THẠC SĨ HỆ THỐNG THÔNG TIN NGƢỜI HƢỚNG DẪN KHOA HỌC: Tiến sĩ Nguyễn Thị Hậu HÀ NỘI – 2016 LỜI CAM ĐOAN Tôi xin cam đoan nội dung luận văn “Nghiên cứu thuật tốn tìm kiếm chuỗi DNA sử dụng phương pháp tương tự nhanh” sản phẩm thực hướng dẫn TS Nguyễn Thị Hậu Trong toàn nội dung luận văn, điều trình bày cá nhân tổng hợp từ nhiều nguồn tài liệu Tất tài liệu tham khảo có xuất xứ rõ ràng trích dẫn hợp pháp Tơi xin hồn tồn chịu trách nhiệm chịu hình thức kỷ luật theo quy định cho lời cam đoan Hà Nội, ngày 20 tháng năm 2016 TÁC GIẢ Nguyễn Hoàng Anh LỜI CẢM ƠN Trước tiên xin gửi lời cảm ơn chân thành tới tập thể các thầy cô giáo Khoa Công nghệ Thông tin, Trường Đại học Công nghệ, Đại học Quốc gia Hà Nội giúp đỡ tận tình chu tơi có mơi trường tốt học tập nghiên cứu Đặc biệt, tơi xin bày tỏ lịng biết ơn sâu sắc tới TS Nguyễn Thị Hậu, người trực tiếp hướng dẫn, bảo tơi tận tình suốt q trình nghiên cứu hoàn thiện luận văn Một lần xin gửi lời cảm ơn đến tất thầy giáo, bạn bè gia đình giúp đỡ thời gian vừa qua Tôi xin kính chúc thầy giáo, anh chị bạn mạnh khỏe hạnh phúc Hà Nội, ngày 20 tháng năm 2016 TÁC GIẢ Nguyễn Hoàng Anh MỤC LỤC LỜI CAM ĐOAN .3 LỜI CẢM ƠN DANH MỤC KÍ HIỆU VÀ CHỮ VIẾT TẮT .7 GIỚI THIỆU CHƢƠNG TỔNG QUAN VỀ CÁC THUẬT TỐN TÌM KIẾM CHUỖI DNA 13 1.1 Phƣơng pháp tìm kiếm chuỗi DNA sử dụng mơ hình Markov ẩn 13 1.2 Phƣơng pháp liên kết nhạy cảm đầy đủ 15 1.3 Phƣơng pháp tìm kiếm tƣơng tự nhanh 21 1.4 Phƣơng pháp sử dụng mô hình phù hợp gần 25 1.5 Phƣơng pháp sử dụng mơ hình kết hợp xác gần xác 31 CHƢƠNG N-GRAM VÀ PHƢƠNG PHÁP TÌM KIẾM CHUỖI TƢƠNG TỰ NHANH ÁP DỤNG N-GRAM 35 2.1 Mơ hình N-Gram 35 2.1.1 Một số khái niệm 35 2.1.2 Mơ hình ngôn ngữ N-gram 36 2.1.3 Khó khăn xây dựng mơ hình ngơn ngữ N-gram : 37 2.1.4 Các phương pháp khắc phục cụm N-Gram phân bố không 38 2.2 Phƣơng pháp tƣơng tự nhanh áp dụng N-gram tìm kiếm chuỗi DNA 39 2.2.1 Phân đoạn DNA 39 2.2.2 Các “từ DNA” 40 2.2.3 Quá trình tìm kiếm chuỗi hiển thị kết 40 2.3 Bảng kết lần thử phƣơng pháp tìm kiếm chuỗi tƣơng tự nhanh áp dụng N-Gram 48 2.3.1 Định dạng chuỗi sở liệu 48 2.3.2 Bảng kết lần thử phương pháp tìm kiếm chuỗi tương tự nhanh áp dụng NGram 50 2.4 Đánh giá phƣơng pháp tìm kiếm chuỗi tƣơng tự nhanh áp dụng N-Gram51 2.4.1 Cải thiện thời gian tìm kiếm 51 2.4.2 Tiết kiệm nhớ trình tìm kiếm 52 CHƢƠNG THỰC NGHIỆM SO SÁNH PHƢƠNG PHÁP TÌM KIẾM TƢƠNG TỰ NHANH DỰA TRÊN N-GRAM VỚI PHƢƠNG PHÁP BLAST VÀ PHƢƠNG PHÁP SMITH-WATERMAN 53 3.1 Môi trƣờng thực nghiệm 54 3.2 Thực nghiệm đánh giá phƣơng pháp tìm kiếm tƣơng tự nhanh áp dụng N-Gram với phƣơng pháp BLAST phƣơng pháp Smith-Water Man 56 3.3 Phân tích đánh giá kết thực nghiệm 58 KẾT LUẬN .60 TÀI LIỆU THAM KHẢO .62 DANH MỤC KÍ HIỆU VÀ CHỮ VIẾT TẮT Kí hiệu DNA Tiếng Anh Deoxy Ribonucleic Acid NST A T G C SNP Chromosome Adenine Thymine Guanine Cytosine Single nucleotide polymorphisms CPU RAM NCBI Cental Processing Unit Random access memory National Center for Biotechnology Information Differential Direct coding HMM BLAST Hidden Markov Modeling Basic Local Alignment Search Tool High – Throughput Sequencing HTS Tiếng Việt Phân tử mang cấu trúc gen di truyền Nhiễm sắc thể Tính đa hình phân tử nucleotit Mỗi SNP biểu diễn biến đổi khối chuỗi DNA Bộ xử lý trung tâm Bộ nhớ truy cập ngẫu nhiên Trung tâm quốc gia thông tin cơng nghệ sinh Mã hóa trực tiếp phần khác biệt Mơ hình Markov ẩn Cơng cụ tìm kiếm cục theo mẫu có sẵn Trình tự chuỗi đa lượng GIỚI THIỆU Việc phát DNA bước ngoặt lớn khoa học sinh học nói riêng sống người nói chung Hiện nay, nhà khoa học tìm nhiều cấu trúc DNA giải thích nhiều câu hỏi di truyền loài, bệnh, dị tật di truyền, khoa học hình sự,… ngày phát thêm nhiều cấu trúc DNA mới, điều tạo khối lượng khổng lồ liệu chuỗi gen phục vụ cho y sinh học đại Kích thước liệu ngày tăng đặt vấn đề chi phí cho khơng gian lưu trữ tốc độ truy cập, truyền tải DNA (DeoxyriboNucleic Acid) tên hóa học phân tử mang cấu trúc gen tất thực thể sống DNA gồm chuỗi tạo nên từ loại đơn vị nucleotide, loại gồm: đơn vị đường carbon (2’-deoxyribose), nhóm phốt phát (phosphate) thành phần Adenine, Cystosine, Guanine Thymine gọi bazơ Mỗi phân tử đường gắn với ¼ thành phần Mỗi thành phần base Số lượng base người khoảng tỷ, số vơ lớn Dạng đơn giản DNA tế bào cấu trúc dây xoắn đơi, sợi DNA đơn xoắn quanh theo hình xoắn ốc thuận tay phải Bộ gen người gồm khoảng tỉ đặc trưng 23 cặp nhiễm sắc thể (NST) Do đó, sở liệu hệ gen vô lớn phức tạp Để lưu trữ, truy cập xử lý liệu cách hiệu nhiệm vụ khó khăn DNA có chức lưu trữ, bảo quản truyền đạt thông tin di truyền cấu trúc toàn loại protein thể sinh vật, quy định tính trạng thể sinh vật DNA có chức lưu giữ truyền đạt bảo quản thông tin di truyền hệ Có nhiều ứng dụng từ việc tìm kiếm chuỗi DNA khoa học đời sống người, chẳng hạn như:  Sự di truyền trí thơng minh: Các nhà khoa học tiến hành lấy mẫu (có thể lấy tế bào máu, niêm mạc miệng, tế bào má, tóc có chân, móng tay, móng chân, cuống rốn sau rụng ) nghiên cứu chuỗi gen người có số thơng minh cao, sau tìm đặc điểm chung Tiến hành nghiên cứu tập lớn mẫu để xác định chuỗi gen định trí thơng minh Từ ứng dụng vào sinh học, y học cho người Qua nghiên cứu cụ thể, nhà khoa học nhận thấy rằng, 75% trí thơng minh người gen định [1]  Kiểm tra quan hệ huyết thống: Phương pháp ứng dụng phổ biến đời sống thường gọi xét nghiệm DNA Xét nghiệm DNA lĩnh vực địi hỏi độ xác cao Mỗi kết xét nghiệm DNA huyết thống có thay đổi sống nhiều người, cần phải đảm bảo việc xét nghiệm thực xác Tất q trình tư thu mẫu, tách chiết DNA, phân tích DNA đọc kết làm kiểm soát theo quy trình chuẩn, từ kết có độ xác ổn định cao Thơng thường, lấy hai mẫu xét nghiệm hai người (hoặc sinh vật khác) từ tóc, tế bào da, mẫu máu… Sau xét nghiệm chuỗi gen xem có độ tương đồng cao hay khơng Thơng thường mẫu DNA mẹ, bố nghi vấn khớp với gene độ xác có quan hệ huyết thống 99.9999% kết luận hai mẫu gen có huyết thống [2]  Phát loại gen gây bệnh: Bác sỹ lấy mẫu máu từ bệnh nhân bị bệnh, tìm kiếm bắt cặp trình tự có độ tương đồng cao Sau đó, so sánh bắt cặp trình tự cao với mẫu gen người bình thường để xem điểm khác mẫu gen Từ đưa kết luận mẫu gen gây bệnh Tập hợp mẫu gen gây bệnh đưa vào sở liệu để làm mẫu gen thử cho lần nghiên cứu sau  Khoa học hình sự: Các điều tra viên lấy mẫu (tóc, máu, da…), dấu vết trường Sau đó, mang giám định Tiếp theo, tiến hành so sánh với sở liệu chuỗi DNA lưu Từ biết có mặt trường vào thời điểm xảy vụ việc Tiến hành lấy lời khai nhân chứng Căn vào kết luận thủ, thời gian, trình xảy vụ án ADN thường sử dụng để xác định tội phạm theo hai cách Trường hợp nghi ngờ: Một mẫu DNA người so sánh với chứng từ trường vụ án Kết so sánh giúp xác định liệu nghi can phạm tội Trường hợp nghi ngờ chưa xác định, chứng sinh học từ trường vụ án phân tích so sánh với hồ sơ phạm tội sở liệu ADN để giúp xác định thủ phạm chứng trường vụ án liên kết với cảnh tội phạm khác thông qua việc sử dụng sở liệu ADN Hiện nay, với trình khoa học phát triển, lớp đào tạo điều tra viên mở, giúp học viên tiếp cận công nghệ cách nhanh chóng Có dự án kêu gọi nhiều nguồn tài lên tới triệu la Mỹ [3]  Lý thuyết tiến hóa: Các nhà sinh vật tiến hành lẫy mẫu gen từ sinh vật hóa thạch So sánh với mẫu gen lồi có hình thù, độ lớn, màu sắc, sinh vật nghi ngờ loài… Nếu mẫu gen lồi giống có mức độ tương đồng cao kết luận sinh vật lồi tiến hóa từ mức thấp lên mức cao [4]  ……………………………… Đặc trưng phức tạp chuỗi DNA nằm chỗ chuỗi số độ dài khác biểu diễn phạm vi dự đốn thành phần cấu tạo nên DNA Những đặc trưng phức tạp cho phép tìm kiếm cấu trúc lặp bên nhiễm sắc thể qua nhiều nhiễm sắc thể Và đặc trưng sử dụng để tìm khoảng cách tiến hóa cấu trúc nên phát sinh lồi Nên khó đưa thuật tốn tối ưu để tìm kiếm, giải trình tự đoạn DNA hiệu Nhiều thuật tốn tìm kiếm dành riêng cho chuỗi DNA phát triển từ khoảng 30 năm trước Hiện nay, kỹ thuật tìm kiếm liệu chuỗi DNA sử dụng rộng rãi sinh học Có hàng trăm thuật tốn đề xuất cho tìm kiếm liệu DNA nhìn chung thuật tốn tìm kiếm thường sử dụng là:  Phương pháp áp dụng Mơ hình Markov ẩn[5] phương pháp sử dụng mơ hình thống kê, tính tốn xác suất Thuật tốn dùng phương pháp mơ hình hóa q trình tìm kiếm chuỗi có sử dụng tham số quan sát tham số trước – mơ hình Markov Sau xác định tham số trước từ tham số quan sát Các tham số mơ hình rút sau sử dụng để thực phân tích Phương pháp sử dụng rộng rãi tin sinh học nhiên chi phí thời gian lớn hàm tính tốn phức tạp  Phương pháp liên kết nhạy cảm đầy đủ: Vd: thuật toán Smith&Waterman[6] Phương pháp sử dụng để tìm giống có độ tương đồng cao hai chuỗi Bằng cách lập ma trận, tính độ đo để tìm giống có độ tương đồng cao tất độ dài phân đoạn hai xâu, hai chuỗi protein nucleotide Với chuỗi tìm kiếm có độ tương đồng cao trước đó, phương pháp mở rộng phạm vi tìm kiếm hai phía (trước sau) Phương pháp có ưu điểm độ xác cao Tuy nhiên chi phí thời gian lớn Phương pháp 10 ... phương pháp sử dụng để tìm kiếm chuỗi DNA Thuật tốn tìm kiếm cụ thể mà người viết tập trung nghiên cứu thuật tốn tìm kiếm chuỗi DNA sử dụng phương pháp tìm kiếm tương tự nhanh áp dụng N-Gram trình... phương pháp tìm kiếm đưa phương pháp tìm kiếm với mong muốn cải thiện tốc độ tìm kiếm chuỗi DNA sở liệu chuỗi có sẵn Bố cục luận văn chia thành chương Chương trình bày tổng quan phương pháp sử. .. NGUYỄN HỒNG ANH NGHIÊN CỨU THUẬT TỐN TÌM KIẾM CHUỖI DNA SỬ DỤNG PHƢƠNG PHÁP TÌM KIẾM TƢƠNG TỰ NHANH Ngành: Hệ thống thông tin Chuyên ngành: Hệ thống thông tin Mã số: 60 48 01 04 LUẬN VĂN THẠC SĨ

Ngày đăng: 23/09/2020, 21:26

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan