Thực nghiệm đánh giá phƣơng pháp tìm kiếm tƣơng tự nhanh áp dụng N-Gram

Một phần của tài liệu (LUẬN văn THẠC sĩ) nghiên cứu thuật toán tìm kiếm chuỗi DNA sử dụng phương pháp tìm kiếm tương tự nhanh nguyễn, hoàng anh luận văn ths máy tính 60 48 01 (Trang 56 - 58)

Gram với phƣơng pháp BLAST và phƣơng pháp Smith-Water Man

Thực nghiệm so sánh được tiến hành với ba phương pháp tìm kiếm: Phương pháp tìm kiếm tương tự nhanh BLAST, phương pháp N-Gram, phương pháp liên kết nhạy cảm đầy đủ Smith-Waterman. Cách làm như sau: với mỗi loài và mỗi nhiễm sắc thể, lựa chọn ngẫu nhiên một số chuỗi và áp dụng mỗi thuật toán lựa chọn cho các chuỗi ngẫu nhiên đó. Kết quả được thống kê và so sánh về kích thước gen sau khi tìm kiếm, thời gian tìm kiếm ở tất cả các bước của từng thuật toán cho một hoặc nhiều chuỗi gen cụ thể.

Kết quả sau khi thực nghiệm các phương pháp tìm kiếm chuỗi cho thấy thời gian đưa ra kết quả của BLAST khá tốt trong khi số lượng chuỗi tìm thấy được ở mức chấp nhận được. Hầu hết thời gian các lần tìm kiếm của BLAST đều nhanh hơn phương pháp Smith-Waterman khi tìm kiếm với chuỗi từ điển có dung lượng nhỏ và khi tìm kiếm với chuỗi từ điểm có dung lượng lớn. Số chuỗi tìm kiếm được của BLAST trong các lần tìm kiếm với các đoạn chuỗi dung lượng nhỏ đều xấp xỉ với Smith-Waterman và N-Gram. Ở các lần tìm kiếm với chuỗi từ điển dung lượng lớn, phương pháp Smith-Waterman tìm thấy nhiều kết quả nhất, sau đó đến BLAST, cuối cùng là N-Gram. Khi tìm kiếm với các chuỗi từ điển dung lượng nhỏ (khoảng dưới 2 Mb), thời gian đưa ra kết quả của N-Gram là nhanh nhất, tiếp theo

là BLAST, cuối cùng là Smith-Waterman. Khi tìm kiếm với chuỗi từ điển có dung lượng lớn hơn ( >5 Mb), phương pháp N-Gram vẫn đưa ra kết quả nhanh nhất nhưng số kết quả tìm được không bằng BLAST và Smith-Waterman. Với dung lượng chuỗi từ điển 5Mb-10Mb, N-Gram vẫn tiết kiệm bộ nhớ hơn BLAST và Smith-Waterman. Khi dung lượng chuỗi từ điển >50Mb, bộ nhớ sử dụng của phương pháp N-Gram tăng đáng kể > 2Gb. Như vậy, có thể thấy phương pháp tìm kiếm tương tự nhanh áp dụng N-Gram đạt hiệu quả cao về tiết kiệm bộ nhớ, thời gian tìm kiếm, số lượng kết quả tìm được khi tìm kiếm với các chuỗi từ điển dung lượng nhỏ. Mặc dù khi sử dụng phương pháp này với các chuỗi có dung lượng lớn, thời gian đưa ra kết quả vẫn nhanh hơn hai phương pháp còn lại nhưng số kết quả tìm được không nhiều bằng hai phương pháp còn lại. Hiệu số kết quả tìm được của BLAST và Smith-Waterman so với N-Gram tăng dần theo độ lớn của dung lượng chuỗi từ điển.

Hình 3.3. Minh họa kết quả chạy BLAST độ dài chuỗi truy vấn là 12 với mẫu gen thử Chr-4

Hình 3.4. Minh họa kết quả chương trình sử dụng phương pháp Smith-Waterman với độ dài chuỗi truy vấn là 12

Một phần của tài liệu (LUẬN văn THẠC sĩ) nghiên cứu thuật toán tìm kiếm chuỗi DNA sử dụng phương pháp tìm kiếm tương tự nhanh nguyễn, hoàng anh luận văn ths máy tính 60 48 01 (Trang 56 - 58)