Tóm tắt luận án Thạc sĩ Hệ thống thông tin: Nghiên cứu thuật toán tìm kiếm chuỗi DNA sử dụng phương pháp tìm kiếm tương tự nhanh luận

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang	24
Dung lượng	843,65 KB

Nội dung

Trong khuôn khổ luận văn, người viết chỉ trình bày một số thuật toán tiêu biểu cho từng phương pháp đã nêu và hầu hết các phương pháp đều nhằm các mục đích chính đó là tìm kiếm, giải trình tự chuỗi DNA nhanh và chính xác nhất có thể để tiết kiệm không gian lưu trữ, bộ nhớ, đưa ra kết quả cũng như truy cập thông tin nhanh chóng.

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CÔNG NGHỆ NGUYỄN HỒNG ANH NGHIÊN CỨU THUẬT TỐN TÌM KIẾM CHUỖI DNA SỬ DỤNG PHƢƠNG PHÁP TÌM KIẾM TƢƠNG TỰ NHANH Ngành: Hệ thống thông tin Chuyên ngành: Hệ thống thông tin Mã số: 60 48 01 04 LUẬN VĂN THẠC SĨ HỆ THỐNG THÔNG TIN NGƢỜI HƢỚNG DẪN KHOA HỌC: Tiến sĩ Nguyễn Thị Hậu HÀ NỘI – 2016 LỜI CAM ĐOAN Tôi xin cam đoan nội dung luận văn “Nghiên cứu thuật tốn tìm kiếm chuỗi DNA sử dụng phương pháp tương tự nhanh” sản phẩm thực hướng dẫn TS Nguyễn Thị Hậu Trong toàn nội dung luận văn, điều trình bày cá nhân tổng hợp từ nhiều nguồn tài liệu Tất tài liệu tham khảo có xuất xứ rõ ràng trích dẫn hợp pháp Tơi xin hồn tồn chịu trách nhiệm chịu hình thức kỷ luật theo quy định cho lời cam đoan Hà Nội, ngày 20 tháng năm 2016 TÁC GIẢ Nguyễn Hoàng Anh MỤC LỤC LỜI CAM ĐOAN DANH MỤC KÍ HIỆU VÀ CHỮ VIẾT TẮT GIỚI THIỆU CHƢƠNG TỔNG QUAN VỀ CÁC THUẬT TỐN TÌM KIẾM CHUỖI DNA 1.1 ẩn Phƣơng pháp tìm kiếm chuỗi DNA sử dụng mơ hình Markov 1.2 Phƣơng pháp liên kết nhạy cảm đầy đủ 1.3 Phƣơng pháp tìm kiếm tƣơng tự nhanh 1.4 Phƣơng pháp sử dụng mô hình phù hợp gần 10 1.5 xác Phƣơng pháp sử dụng mơ hình kết hợp xác gần 10 CHƢƠNG N-GRAM VÀ PHƢƠNG PHÁP TÌM KIẾM CHUỖI TƢƠNG TỰ NHANH ÁP DỤNG N-GRAM 12 2.1 Mơ hình N-Gram 12 2.1.1 Một số khái niệm 12 2.1.2 Mơ hình ngơn ngữ N-gram 12 2.1.3 Công thức tính “xác suất thơ” 12 2.1.4 Khó khăn xây dựng mơ hình ngôn ngữ N-gram : 13 2.2 Phƣơng pháp tƣơng tự nhanh áp dụng N-gram tìm kiếm chuỗi DNA 13 2.2.1 Phân đoạn DNA 13 2.2.2 Các “từ DNA” 13 2.2.3 Quá trình tìm kiếm chuỗi hiển thị kết 14 2.3 Bảng kết lần thử phƣơng pháp tìm kiếm chuỗi tƣơng tự nhanh áp dụng N-Gram 16 2.3.1 Định dạng chuỗi sở liệu 16 2.3.2 Bảng kết lần thử phương pháp tìm kiếm chuỗi tương tự nhanh áp dụng N-Gram 17 2.4 Đánh giá phƣơng pháp tìm kiếm chuỗi tƣơng tự nhanh áp dụng N-Gram 17 2.4.1 Cải thiện thời gian tìm kiếm 17 2.4.2 Tiết kiệm nhớ trình tìm kiếm 18 CHƢƠNG THỰC NGHIỆM SO SÁNH PHƢƠNG PHÁP TÌM KIẾM TƢƠNG TỰ NHANH DỰA TRÊN N-GRAM VỚI PHƢƠNG PHÁP BLAST VÀ PHƢƠNG PHÁP SMITH-WATERMAN 19 3.1 Môi trƣờng thực nghiệm 19 3.2 Thực nghiệm đánh giá phƣơng pháp tìm kiếm tƣơng tự nhanh áp dụng N-Gram với phƣơng pháp BLAST phƣơng pháp SmithWater Man 21 KẾT LUẬN 22 TÀI LIỆU THAM KHẢO 23 Kí hiệu DNA NST A T G C SNP CPU RAM NCBI HMM BLAST HTS DANH MỤC KÍ HIỆU VÀ CHỮ VIẾT TẮT Tiếng Anh Tiếng Việt Deoxy Ribonucleic Acid Phân tử mang cấu trúc gen di truyền Chromosome Nhiễm sắc thể Adenine Thymine Guanine Cytosine Single nucleotide Tính đa hình phân tử polymorphisms nucleotit Mỗi SNP biểu diễn biến đổi khối chuỗi DNA Cental Processing Unit Bộ xử lý trung tâm Random access memory Bộ nhớ truy cập ngẫu nhiên National Center for Trung tâm quốc gia Biotechnology Information thông tin công nghệ sinh Differential Direct coding Mã hóa trực tiếp phần khác biệt Hidden Markov Modeling Mơ hình Markov ẩn Basic Local Alignment Search Cơng cụ tìm kiếm cục Tool theo mẫu có sẵn High – Throughput Sequencing Trình tự chuỗi đa lượng GIỚI THIỆU Việc phát DNA bước ngoặt lớn khoa học sinh học nói riêng sống người nói chung DNA có chức lưu giữ truyền đạt bảo quản thông tin di truyền hệ Có nhiều ứng dụng từ việc tìm kiếm chuỗi DNA khoa học đời sống người, chẳng hạn như:      Sự di truyền trí thơng minh [1] Kiểm tra quan hệ huyết thống [2] Phát loại gen gây bệnh [3] Ứng dụng khoa học hình [4] Lý thuyết tiến hóa……………… Có hàng trăm thuật tốn đề xuất cho tìm kiếm liệu DNA nhìn chung thuật tốn tìm kiếm thường sử dụng là:  Phương pháp áp dụng Mơ hình Markov ẩn[5]  Phương pháp liên kết nhạy cảm đầy đủ: Vd: thuật tốn Smith&Waterman[6]  Phương pháp tìm kiếm tương tự nhanh: Vd: BLAST [7]  Phương pháp sử dụng mơ hình phù hợp gần đúng: Vd: Bowtie[8]  Phương pháp sử dụng mơ hình kết hợp xác gần xác: Vd: mpscan[9] Bố cục luận văn chia thành chương Chương trình bày tổng quan phương pháp sử dụng để tìm kiếm chuỗi DNA Thuật tốn tìm kiếm cụ thể mà người viết tập trung nghiên cứu thuật tốn tìm kiếm chuỗi DNA sử dụng phương pháp tìm kiếm tương tự nhanh áp dụng N-Gram trình bày chương Chương luận văn mô tả môi trường thực nghiệm so sánh thuật toán tương tự nhanh áp dụng N-gram với phương pháp tìm kiếm khác số phân tích đánh giá người viết kết đạt Cuối kết luận hiệu hạn chế tồn hướng phát triển tương lai cho việc nghiên cứu cải tiến phương pháp tìm kiếm chuỗi DNA CHƢƠNG TỔNG QUAN VỀ CÁC THUẬT TỐN TÌM KIẾM CHUỖI DNA 1.1 Phƣơng pháp tìm kiếm chuỗi DNA sử dụng mơ hình Markov ẩn Thuật tốn tìm kiếm chuỗi sử dụng mơ hình Markov ẩn dùng phương pháp mơ hình hóa q trình tìm kiếm chuỗi có sử dụng tham số quan sát tham số trước – mơ hình Markov Sau xác định tham số trước từ tham số quan sát Các tham số mơ hình rút sau sử dụng để thực phân tích Với mơ hình Markov ẩn cấu trúc mơ hình thay đổi dễ dàng cho phù hợp với ứng dụng cụ thể Hình 1.1: Mơ hình Markov ẩn cho tìm tiếm chuỗi DNA [5] a Sắp xếp chuỗi ban đầu b Mơ hình Markov ẩn (bỏ khoảng trống trạng thái) c Mơ hình hóa liên kết theo Mơ hình Markov ẩn Ưu điểm: Phương pháp sử dụng rộng rãi tin sinh học độ xác cao Cách mơ hình hóa dễ sử dụng Nhược điểm: Chi phí thời gian lớn hàm tính tốn phức tạp Phƣơng pháp liên kết nhạy cảm đầy đủ Phương pháp sử dụng để tìm giống có độ tương đồng cao hai chuỗi Bằng cách lập ma trận, tính độ đo để tìm giống có độ tương đồng cao tất độ dài phân đoạn hai xâu, hai chuỗi protein nucleotide Với chuỗi tìm kiếm có độ tương đồng cao trước đó, phương pháp mở rộng phạm vi tìm kiếm hai phía (trước sau) Phương pháp có ưu điểm độ xác cao Tuy nhiên chi phí thời gian lớn Phương pháp đặc trưng dạng phương pháp Smith & Waterman hai nhà khoa học T.F.Smith & M.S.Waterman công bố năm 1981 [6] Hiện nay, cải tiến máy tính thuật tốn tìm kiếm, phương pháp tìm kiếm đồng thời nhiều chuỗi lúc khoảng (1000 chuỗi) [18] 1.2 Hình 1.3 Bảng ma trận độ đo ví dụ chuỗi Smith&Waterman [2] Chuỗi A-A-U-G-C-C-A-U-U-G-A-C-G-G chuỗi C-A-G-C-C-U-C-G-C-U-U-A-G Ưu điểm: Do phải duyệt so sánh thứ tự nucleotide nên phương pháp có độ xác cao Nhược điểm: Chi phí thời gian lớn phải lập ma trận đánh giá mức độ tương đồng, lập số so sánh giá trị phần tử ma trận chuỗi Thuật toán phải so sánh giá trị chuỗi mẫu với chuỗi liệu 1.3 Phƣơng pháp tìm kiếm tƣơng tự nhanh Phương pháp sử dụng giải thuật so sánh chuỗi cần truy vấn với CSDL chuỗi có sẵn dựa việc đánh giá chuỗi sở liệu với chuỗi truy vấn theo ngưỡng định (đánh giá, cho điểm theo số cụ thể) Thuật tốn điển hình phương pháp BLAST (hiện phương pháp BLAST dùng phổ biến có nhiều biến thể để so sánh với trường hợp cụ thể) BLAST ban đầu tìm kiếm chuỗi ngắn với chiều dài cố định có tính tương tự cao Sau đó, dựa vào kết trước, mở rộng phạm vi tìm kiếm để tìm bắt cặp trình tự có điểm số cao chuỗi truy vấn chuỗi sở liệu Tốc độ xác tương đối BLAST cải tiến kĩ thuật quan trọng chương trình BLAST điều cho thấy lí cơng cụ lại cơng cụ tìm kiếm phổ biến tin sinh học Hình 1.4 Thiết lập “từ” với ba “ký tự” để truy vấn theo danh sách [5] Ưu điểm: Do việc phải so sánh chuỗi cần truy vấn với thư viện CSDL chuỗi có sẵn Sau đó, đối sánh chuỗi thư viện sở liệu với chuỗi truy vấn theo ngưỡng định nên phương pháp có thời gian xử lý nhanh Nhược điểm: Phương pháp có độ xác khơng cao (VD: so với phương pháp liên kết nhạy cảm đầy đủ phương pháp độ xác khơng bằng) 1.4 Phƣơng pháp sử dụng mơ hình phù hợp gần Kỹ thuật tìm kiếm chuỗi phù hợp với mơ hình gần (chứ khơng phải xác) Mơ hình sử dụng cách tiếp cận brute-force để tính “độ chỉnh sửa” chuỗi mẫu cho gần với tất chuỗi chuỗi cần truy vấn, sau chọn chuỗi với “độ chỉnh sửa” tối thiểu Tuy nhiên, thuật tốn có thời gian chạy O(n3m) Ở m độ dài chuỗi mẫu, n độ dài chuỗi cần truy vấn) Phương pháp điển hình mơ hình phù hợp gần phương pháp tìm kiếm chuỗi Bowtie, nhà khoa học Langmead cộng đăng lần tạp chí Curr Protoc Bioinformatics vào năm 2010 [8] Thuật toán: [8] Bước 1: Xác định điểm chung từ mẫu Từ tập mẫu đầu vào, xếp tìm điểm chung tập chuỗi Bước 2: Phân loại đo độ ảnh hưởng: Từ tập mẫu, tính tốn đưa độ dài chuỗi dài từ mẫu Bước 3: Tìm kiếm đưa kết Kết hiển thị tập chuỗi cần so sánh có bắt cặp trình tự với chuỗi mẫu Thứ tự chuỗi xếp theo thứ tự sau: Chuỗi có bắt cặp trình tự đứng trước Các chuỗi có độ dài bắt cặp trình tự lớn đứng sau (theo hình kim tự tháp) Ưu điểm: Có thể tìm kiếm lúc nhiều mẫu Độ xác cao Nhược điểm: Thuật tốn có chi phí thời gian chạy O(n3m) (với m độ dài chuỗi mẫu, n độ dài chuỗi cần truy vấn) Sử dụng nhiều nhớ trình tìm kiếm 1.5 Phƣơng pháp sử dụng mơ hình kết hợp xác gần xác Mơ hình áp dụng phương pháp đánh dấu tập mẫu, tức chia chuỗi cần truy vấn thành chuỗi mẫu nhỏ với chiều dài cố định Sau đó, so sánh 10 chuỗi chia với chuỗi sở liệu để tìm kiếm tương đồng Phương pháp đạt hiệu xác cho việc giải trình tự DNA/RNA, thực xử lý nhiều mẫu Phương pháp thường dùng có hiệu việc tìm kiếm tập lớn chuỗi DNA/RNA ngắn CSDL chuỗi DNA Phương pháp điển hình thuật giải Mpscan [9] Chương trình tìm kiếm đồng thời tập mẫu ngắn Các mẫu tìm đồng thời lúc Q trình tìm kiếm đồng thời lên tới 100000 mẫu Ƣu điểm: Phương pháp có hiệu việc tìm kiếm tập lớn chuỗi DNA ngắn CSDL chuỗi DNA Có thể đọc đồ giao diện Có khả tìm kiếm ngược, bổ sung mẫu Nhƣợc điểm: So với phương pháp khác, thời gian thực phương pháp mức độ trung bình 11 CHƢƠNG N-GRAM VÀ PHƢƠNG PHÁP TÌM KIẾM CHUỖI TƢƠNG TỰ NHANH ÁP DỤNG N-GRAM 2.1 Mơ hình N-Gram 2.1.1 Một số khái niệm  Ngữ liệu (Corpus) : tập hợp văn bản, ngôn ngữ số hóa (kho ngữ liệu) tập huấn luyện số báo khoa học  N-gram : tần suất xuất n kí tự (hoặc từ) liên tiếp có liệu corpus 2.1.2 Mơ hình ngơn ngữ N-gram Mơ hình ngơn ngữ cho biết xác suất câu w1w2 wm Theo công thức Bayes: P(AB) = P(B|A) * P(A) [11] Với: + P(A): Xác suất xảy sựkiện A + P(B): Xác suất xảy kiện B + P(B|A): Xác suất (có điều kiện) xảy kiện B Một cụm N-gram dãy gồm n phần tử liên tiếp dãy phần tử cho trước 2.1.3 Cơng thức tính “xác suất thơ” Gọi C(wi-n+1 wi-1wi) tần số xuất cụm wi-n+1 wi-1wi tập văn huấn luyện Gọi P(wi|wi-n+1 wi-1) xác suất wi sau cụm wi-n+1 wi-2wi-1 Ta có cơng thức tính xác suất sau: P(wi|wi-n+1 wi-1) = C(wi-n+1 wi-1wi)  C(wi-n+1 wi-1w) [11] w Tỉ lệ vế phải gọi tỉ lệ tần số Cách tính xác suất dựa vào tỉ lệ tần số gọi ước lượng xác suất cực đại Cũng gọi cơng thức 12 tính “xác suất thơ” để phân biệt với cách tính xác suất theo thuật toán hiệu 2.1.4 Khó khăn xây dựng mơ hình ngơn ngữ N-gram : Phân bố không Khi N-gram phân bố thưa, nhiều cụm n-gram khơng xuất có số lần xuất nhỏ, việc ước lượng câu có chứa cụm n-gram có kết tồi Với V kích thước từ vựng, ta có Vn cụm Ngram sinh từ từ vựng Kích thƣớc nhớ mơ hình ngơn ngữ : Khi kích thước tập văn huấn luyện lớn, số lượng cụm N-gram kích thước mơ hình ngơn ngữ lớn (tăng theo hàm mũ) Phƣơng pháp tƣơng tự nhanh áp dụng N-gram tìm kiếm chuỗi 2.2 DNA Việc đánh số (sequence index) sử dụng kỹ thuật tìm kiếm nhanh, giúp cần truy xuất kết dựa vào bảng số thống kê 2.2.1 Phân đoạn DNA Trong tài liệu này, sử dụng ví dụ chuỗi DNA để giải thích chi tiết kỹ thuật tìm kiếm Bằng việc chia chuỗi DNA thành chuỗi có độ dài nhỏ hơn, giống việc chia sách thành chương mục, khơng có quy định việc chia chuỗi DNA có độ dài hợp lý, thơng thường người ta chia thành chuỗi có độ dài 100, 500, 1000, 10000 …, sau ta đánh ID cho đoạn Trong tài liệu ta chia chuỗi DNA dài thành đoạn có độ dài 500 ký tự 2.2.2 Các “từ DNA” 13 Với ngôn ngữ tự nhiên giống tiếng anh, việc xác định câu từ việc dễ dàng nhờ có khoảng trống dấu ngắt câu Nhưng với chuỗi DNA, khoảng trống để phân biệt, để tách thành chuối ngắn hơn, cách đơn giản ta dùng phương thức n-gram ví dụ: T = “ABCDE” 1-gram chia chuỗi T thành tập {A, B, C, D, E} 2-gram chia chuỗi T thành tập {AB, BC, CD, DE} Trong viết này, ta chọn 12-gram để phân chia tập 2.2.3 Quá trình tìm kiếm chuỗi hiển thị kết Đầu vào chương trình gồm hai chuỗi: - Chuỗi tìm kiếm chuỗi nhập từ bàn phím - Chuỗi từ điển – Chuỗi trích từ sở liệu chuỗi có sẵn Đầu tiên chương trình xắp xếp thứ tự “từ” chứa chuỗi tìm kiếm DNA cho đầu vào chuỗi có độ dài xác định cụ thể Sau đó, phân tích chuỗi tìm kiếm thành “từ”, “từ” có độ dài giá trị n n-gram, mơ hình n = 12 Với từ tách ghi vào tệp Index – tệp lưu thơng tin: tên chuỗi, vị trí chuỗi chuỗi từ điển Mỗi từ xuất đoạn DNA khác Lấy giao tập có vị trí chuỗi cần tìm, giá trị tập chuỗi chứa chuỗi đầu vào Chƣơng trình đƣợc thực qua hai bƣớc chính:  Tiền xử lý: + Duyệt file gen FASTA đầu vào Chia đoạn gen mẫu thành đoạn nhỏ Mỗi đoạn gồm 500 ký tự A, T, G, C Đồng thời đánh dấu DocID cho đoạn Với file FASTA tạo file sau: 14 *.n-gram: file tách chuỗi DNA thành dạng N-Gram tần suất xuất chuỗi n-gram file FASTA Nội dung file xếp theo trình tự file có tần suất xuất cao trước, tần suất xuất thấp sau *.div: file chia nhỏ nội dung file FASTA thành nhiều doc *.idx: Đầu vào tạo file file *.div Nội dung gồm docID (số thứ tự đếm tăng dần), vị trí offset doc file *.div *.seg: đầu vào file *.div *.idx Nội dung bao gồm docId chia nội dung docId theo dạng n-gram *.frd: đầu vào file *.seg: tạo forward index Nội dung gồm docId nội dung đoạn chia file *.seg *.inv.idx *.inv: đầu vào file *.frd *.idx: tạo invert index Nội dung file *.inv.idx bao gồm nội dung đoạn chia file *.frd + offset bên file *.inv Nội dung file *.inv bao gồm đoạn chia file *.frd docId  Tìm kiếm đƣa kết quả: Tìm kiếm: + Tách chuỗi tìm kiếm thành segment theo n-gram với n nhập vào từ bàn phím + Lấy danh sách offset segment tách file *.inv.idx + Lấy danh sách docId segment tách file *.inv + Lấy danh sách segment file *.n-gram Do file *.n-gram xếp nên danh sách xếp theo tần suất xuất + Lấy danh sách offset, docId, segment để đưa vị trí chuỗi cần tìm Hiển thị kết quả: 15 + DocId có số lần xuất chuỗi cần tìm kiếm nhiều đưa trước + Kết đưa hình hiển thị gồm Tổng số kết tìm thấy, DocId, tên loại gen, vị trí đoạn tìm thấy mẫu gốc, thời gian tìm kiếm Hình 2.9 Hiển thị kết hình 2.3 Bảng kết lần thử phƣơng pháp tìm kiếm chuỗi tƣơng tự nhanh áp dụng N-Gram 2.3.1 Định dạng chuỗi sở liệu Trong viết, tệp sở liệu sử dụng để tìm kiếm chuỗi định dạng theo chuẩn FASTA Định dạng FASTA định dạng tệp văn bản, thể cho hai loại chuỗi dạng số hóa: chuỗi nucleotide amino axit Một tệp định dạng FASTA gồm nhiều dòng Dòng (còn gọi dịng tiêu đề) dùng để mơ tả thơng tin chuỗi ngân hàng CSDL Ký tự dòng ký tự ">" (dấu 16 lớn hơn) ";" (dấu chấm phẩy - gặp) Các dịng cịn lại thể thông tin mà đoạn DNA lưu trữ 2.3.2 Bảng kết lần thử phƣơng pháp tìm kiếm chuỗi tƣơng tự nhanh áp dụng N-Gram Tất liệu thử nghiệm liệu chuẩn Dữ liệu đầu vào tệp định dạng FASTA trích xuất từ chuỗi gen gốc ngân hàng liệu gen NCBI Chương trình thực với 11 lần thử Với sở liệu mẫu trích xuất từ gen gốc sở liệu gen NCBI Chi tiết lần thử thể bảng STT Tên loại gen Chr-1 Chr-2 Chr-3 Chr-4 Chr-5 Chr-6 Chr-7 Chr-8 10 11 Dung lượng tệp đầu vào (byte) Bộ nhớ RAM sử dụng (byte) 000 000 000 10 000 12 000 100 000 008 000 107 000 Thời gian (giây) Hiển Tiền Tìm thị kết xử lý kiếm 10 30 58 71 ~ 000 000 ~ 000 000 ~ 000 000 ~ 000 000 ~ 000 000 ~ 10 000 000 ~ 15 000 000 ~ 20 000 000 ~ 400 000 Chr-9 12 000 000 308 11 000 Ec-1 584 860 ~ 30 000 000 100 Ec-2 100 000 ~ 40 000 000 120 Bảng Chi tiết lần chạy thử chương trình Đánh giá phƣơng pháp tìm kiếm chuỗi tƣơng tự nhanh áp dụng N-Gram 2.4.1 Cải thiện thời gian tìm kiếm 2.4 17 1 Với việc chia đoạn gen sở liệu ban đầu thành đoạn nhỏ hơn, sau sử dụng phương pháp đánh mục cho đoạn nhỏ đó, việc truy xuất kết thực bảng mục Việc đánh mục rõ ràng đánh theo số thứ tự cụ thể nên khơng có nhập nhằng trình tìm kiếm Hơn bảng mục có liên kết với thơng qua định dạng tệp chia nhỏ trình tiền xử lý Các định dạng tệp đánh mục số thứ tự, có vị trí bắt đầu, vị trí kết thúc đoạn theo sở liệu chuỗi đầu vào Chính việc tìm kiếm diễn đoạn chia Với độ lớn khoảng 2000 kb đoạn, việc máy tính cá nhân tìm kiếm liệu khoảng 80 kb đến 200 kb đoạn 2000 kb hồn tồn thực cách nhanh chóng 2.4.2 Tiết kiệm nhớ trình tìm kiếm Chương trình thực qua hai bước tiền xử lý tìm kiếm, đưa kết hình Ở bước – tiền xử lý, chương trình chia nhỏ tệp sở liệu thành đoạn nhỏ – với độ dài 500 ký tự, sau lập bảng, đánh mục cho đoạn nhỏ Nên việc truy xuất trình tìm kiếm việc truy xuất vào đoạn liệu Với tốc độ máy tính nay, việc truy xuất tìm kiếm đoạn khoảng vài chục byte sở liệu độ lớn khoảng 4000 byte thực thực nhanh chóng Ví dụ: Ở bảng 2.1 từ trình tìm kiếm đến việc đưa kết cho đoạn mẫu 12 nucleotide tệp sở liệu kb đầu vào khoảng 1kb nhớ RAM với phương pháp Smith&Water Man trình tìm kiếm đến trình hiển thị kết nhớ RAM cần sử dụng tổng cộng 500 kb 18 CHƢƠNG THỰC NGHIỆM SO SÁNH PHƢƠNG PHÁP TÌM KIẾM TƢƠNG TỰ NHANH DỰA TRÊN N-GRAM VỚI PHƢƠNG PHÁP BLAST VÀ PHƢƠNG PHÁP SMITHWATERMAN 3.1 Môi trƣờng thực nghiệm Tất thực nghiệm thực máy tính cá nhân Dell Vostro 15 3000 Series với cấu sau: CPU: Intel(R) Core(TM) i5-5250M CPU @ 1.6GHz / L2 cache Bộ nhớ: 4GB RAM (1x2GB, 1x2GB)/ DIMM Dung lượng: 500GB/ SCSI/ Disk drives TOSHIBA MQ01ABF050 Phần mềm sử dụng: Các chương trình chạy Linux kernel (64-bit) Chương trình viết chỉnh sửa ngôn ngữ C++ sử dụng QT Creator (build 1.7.0 40-b43) BLAST SMITH&WATERMAN viết chỉnh sửa ngôn ngữ C++ Các tập liệu thực nghiệm: (1) Tập liệu gen người lấy từ sở liệu NCBI dùng cho nghiên cứu Trích rút chuỗi liên ứng loại cho gen (2) Các tập liệu Escherichia coli lấy từ sở liệu NCBI Tập hợp tất tập liệu Escherichia coli kí hiệu Ec-* Hầu hết thời gian lần tìm kiếm BLAST nhanh phương pháp Smith-Waterman tìm kiếm với chuỗi từ điển có dung lượng nhỏ tìm kiếm với chuỗi từ điểm có dung lượng lớn Số chuỗi tìm kiếm BLAST lần tìm kiếm với đoạn chuỗi dung lượng nhỏ xấp xỉ với Smith-Waterman N-Gram Ở lần tìm kiếm với chuỗi từ điển dung lượng lớn, phương pháp Smith-Waterman tìm thấy nhiều kết nhất, sau đến BLAST, cuối N-Gram Khi tìm kiếm với chuỗi từ điển dung lượng nhỏ (khoảng Mb), thời gian đưa kết NGram nhanh nhất, BLAST, cuối Smith-Waterman Khi tìm kiếm với chuỗi từ điển có dung lượng lớn ( >5 Mb), phương pháp N-Gram đưa kết nhanh số kết tìm khơng BLAST Smith-Waterman Với dung lượng chuỗi từ điển 5Mb10Mb, N-Gram tiết kiệm nhớ BLAST Smith-Waterman Khi 19 dung lượng chuỗi từ điển >50Mb, nhớ sử dụng phương pháp N-Gram tăng đáng kể > 2Gb Như vậy, thấy phương pháp tìm kiếm tương tự nhanh áp dụng N-Gram đạt hiệu cao tiết kiệm nhớ, thời gian tìm kiếm, số lượng kết tìm tìm kiếm với chuỗi từ điển dung lượng nhỏ Mặc dù sử dụng phương pháp với chuỗi có dung lượng lớn, thời gian đưa kết nhanh hai phương pháp cịn lại số kết tìm khơng nhiều hai phương pháp cịn lại Hiệu số kết tìm BLAST Smith-Waterman so với N-Gram tăng dần theo độ lớn dung lượng chuỗi từ điển Hình 3.3 Minh họa kết chạy BLAST độ dài chuỗi truy vấn 12 với mẫu gen thử Chr-4 Hình 3.4 Minh họa kết chương trình sử dụng phương pháp SmithWaterman với độ dài chuỗi truy vấn 12 20 3.2 Thực nghiệm đánh giá phƣơng pháp tìm kiếm tƣơng tự nhanh áp dụng N-Gram với phƣơng pháp BLAST phƣơng pháp SmithWater Man Phương pháp N-Gram đạt hiệu cao số kết tìm được, thời gian xử lý, dung lượng nhớ tìm kiếm với chuỗi từ điển dung lượng nhỏ (< 8Mb) so với BLAST Smith-Waterman Đây ưu điểm phương pháp Khi tìm kiếm với chuỗi từ điển có dung lượng > 10Mb, lần thực nghiệm, số kết tìm N-Gam khơng hai phương pháp cịn lại (mặc dù thời gian tìm kiếm nhanh hơn) Số chuỗi khơng tìm so với hai phương pháp cịn lại tăng dần theo độ lớn dung lượng chuỗi từ điển Nguyên nhân trình chia tách tệp liệu từ điển đầu vào không triệt để Các đoạn gen cuối đoạn chia đoạn gen đầu đoạn sau nằm kết chuỗi cần tìm kiếm Kết thực nghiệm cho thấy với tệp sở liệu từ điển có dung lượng 2Mb, N-Gram đạt hiệu thời gian tìm kiếm tốt hai thuật tốn khác tìm kiếm chuỗi tương tự nhanh BLAST phương pháp tìm kiếm chuỗi nhạy cảm đầy đủ Smith-Waterman Thời gian tìm kiếm trung bình cho tệp sở liệu từ điển dung lượng 2Mb cỡ 100 giây Trong đó, với BLAST khoảng 160 giây, với Smith-Waterman khoảng 190 giây 21 KẾT LUẬN Thuật toán đạt hiệu việc tăng hiệu tìm kiếm chuỗi phương pháp kế thừa: (1) tìm kiếm bắt cặp trình tự ngắn, (2) đánh giá bắt cặp trình tự có điểm số cao (3) thống kê kết đạt Bên cạnh đặc trưng kế thừa từ thuật tốn tìm kiếm tương tự nhan BLAST, N-Gram thực hiệu sử dụng phương pháp đánh số để tiết kiệm thời gian tìm kiếm đưa kết đáng kể Đóng góp N-Gram chia chuỗi gen từ điển thành đoạn có độ dài ngắn (500 ký tự), sau sử dụng phương thức đánh số cho phân đoạn độ dài theo N-gram đơn vị cho chuỗi truy vấn Cơ chế kết hợp hai đặc tính tốt là: cấu trúc đơn giản đưa kết nhanh việc truy vấn theo số Hai đặc tính giúp N-Gram đạt ưu việt thời gian tìm kiếm khả tiết kiệm nhớ N-Gram có nhược điểm tìm kiếm với chuỗi có dung lượng 8Mb, số lượng kết tìm thấp BLAST Smith-Waterman Nguyên nhân việc chia chuỗi gen từ điển thành đoạn nhỏ, điểm cuối đoạn chia điểm đầu đoạn kết tìm kiếm nằm điểm nối hai đoạn chia Dung lượng nhớ sử dụng thực thi N-Gram nhược điểm tìm kiếm với chuỗi từ điển dung lượng lớn 20Mb với máy tính cá nhân Việc chia thành tệp nhỏ đánh số cho đoạn liệu chia làm tăng vọt theo hàm số mũ với phương pháp Thực nghiệm so sánh thuật tốn tìm kiếm chuỗi DNA áp dụng NGram với phương pháp liên kết nhạy cảm đầy đủ Smith-Waterman phương pháp tìm kiếm tương tự nhanh BLAST bổ sung cho kết nghiên cứu đạt Kết thực nghiệm chưa đạt hiệu tiết kiệm nhớ hay kết tìm kiếm mong đợi cao thuật tốn tìm kiếm chuỗi tương tự nhanh số hạn chế môi trường thực nghiệm, bước đầu khẳng định tối ưu thuật tốn tìm kiếm tương tự nhanh mà tiêu biểu N-Gram cho tìm kiếm chuỗi gen Những kết thực nghiệm tiền đề để người viết tiếp tục nghiên cứu cải tiến cho việc tìm kiếm chuỗi gen tương lai 22 TÀI LIỆU THAM KHẢO [1] Matt Atherton Human intelligence genes identified in DNA bringing us one step close to cognitive engineering, Internationnal Business Times, 2015 [2] Jes Battis Blood Relation, 2005 [3] Loretta E Lynch Using DNA to solve crimes, 2014 [4] David Michael Buss & David P Schmitt Evolutionary Psychology and Feminism Springer Science + Business Media, LLC 2011 [5] SR Eddy Profile hidden Markov models Bioinformatics, 1998 [6] Temple F Smith and Michael S.Waterman Identification of common molecular subsequences, 1981 [7] S.F Altschul, T L Madden, A A Schaffer, J Zhang, Z Zhang, W Miller, and D J Lipman Gapped blast and psi-blast: a new generation of protein database search programs Nucleic Acids Res, 25:3389–3402, 1997 [8] Ben Langmead Aligning short sequencing reads with Bowtie Curr Protoc Bioinformatics 2010 [9] Eric Rivals, Leena Salmela, Petteri Kiiskinen, Petri Kalsi, and Jorma Fast Localisation of Multiple Reads in Genomes, 2015 [10] Daniel Jurafsky and James H.Martin Speech and Language Processing: An Introduce to Natural Language processing, Computational linguistics and Speech recognition, 2000 [11] Peter F Brown, Peter V deSouza, Robert L Mercer, Vincent J Della Pietra, Jenifer C Lai Class-Based n-gram Models of Natural Language, IBM T J Watson Research Center 23 [12] Songfang Huang, Steve Renals Power Law Discouting for N-gram Language Models The Centre for Speech Technology Research, University of Edinburgh, United Kingdom [13] Ben Langmead, Cole Trapnell, Mihai Pop and Steven L Salzberg Ultrafast and memory-efficient alignment of short DNA sequences to the human genome Genome Biology, 2009 [14] Burrows M, Wheeler DJ Digital Equipment Corporation Technical Report 124, 1994 [15] https://sourceforge.net/projects/bowtie-bio [16] P.Ferragina, G.Manzini Opportunistic data applications Foundations of Computer Science, 2000 structures with [17] Tao Tao Single Letter Codes for Nucleotides National Center for Biotechnology Information, 2011 [18] W.Pearson Searching protein sequence libraries: comparison of the sensitivity and selectivity of the Smith-Waterman and FASTA algorithms Genomics, 1991 24 ... trung nghiên cứu thuật tốn tìm kiếm chuỗi DNA sử dụng phương pháp tìm kiếm tương tự nhanh áp dụng N-Gram trình bày chương Chương luận văn mô tả môi trường thực nghiệm so sánh thuật toán tương tự nhanh. .. kiếm chuỗi DNA CHƢƠNG TỔNG QUAN VỀ CÁC THUẬT TỐN TÌM KIẾM CHUỖI DNA 1.1 Phƣơng pháp tìm kiếm chuỗi DNA sử dụng mơ hình Markov ẩn Thuật tốn tìm kiếm chuỗi sử dụng mơ hình Markov ẩn dùng phương pháp. .. với phương pháp Thực nghiệm so sánh thuật tốn tìm kiếm chuỗi DNA áp dụng NGram với phương pháp liên kết nhạy cảm đầy đủ Smith-Waterman phương pháp tìm kiếm tương tự nhanh BLAST bổ sung cho kết nghiên

Ngày đăng: 02/11/2020, 10:08