Đánh giá phƣơng pháp tìm kiếm chuỗi tƣơng tự nhanh áp dụng N-Gram

Một phần của tài liệu (LUẬN văn THẠC sĩ) nghiên cứu thuật toán tìm kiếm chuỗi DNA sử dụng phương pháp tìm kiếm tương tự nhanh nguyễn, hoàng anh luận văn ths máy tính 60 48 01 (Trang 51 - 54)

N-Gram

Ở phần đánh giá này, người viết trình bày kết quả tìm kiếm chuỗi trong một đoạn gen được lấy từ cơ sở dữ liệu gen của NCBI. Quá trình tìm kiếm thu được kết quả về bộ nhớ được sử dụng khi tìm kiếm, thời gian tìm kiếm và hiển thị kết quả ra màn hình để so sánh hiệu quả của phương pháp tìm kiếm tương tự nhanh áp dụng N-Gram với phương pháp cùng loại là BLAST. Đồng thời so sánh hiệu quả của phương pháp này với phương pháp tìm kiếm nhạy cảm đầy đủ Smith&Waterman để thấy được những cải tiến của phương pháp đề xuất đã thực sự mang lại hiệu quả về thời gian tìm kiếm và tiết kiệm dung lượng bộ nhớ trong quá trình tìm kiếm. Do luận văn tập trung nghiên cứu chính là cải thiện thời gian tìm kiếm nên sau đây người viết sẽ tập trung mô tả cách thức và những cải thiện đạt được về việc cải thiện thời gian đưa ra kết quả của các thuật toán. Hiệu quả về thời gian và dung lượng bộ nhớ trong quá trình tìm kiếm cũng được đưa ra như một kết quả của việc nghiên cứu. Mỗi kiểm tra được thực hiện 10 lần và kết quả thể hiện giá trị trung bình.

2.4.1. Cải thiện thời gian tìm kiếm

Với việc chia đoạn gen cơ sở dữ liệu ban đầu thành các đoạn nhỏ hơn, sau đó sử dụng phương pháp đánh chỉ mục cho các đoạn nhỏ hơn đó, việc truy xuất kết quả chỉ thực hiện trên các bảng chỉ mục này. Việc đánh chỉ mục là rõ ràng vì được đánh theo số thứ tự cụ thể nên không có sự nhập nhằng trong quá trình tìm kiếm. Hơn nữa các bảng chỉ mục có sự liên kết với nhau thông qua các định dạng tệp được chia nhỏ trong quá trình tiền xử lý. Các định dạng tệp được đánh chỉ mục bằng số thứ tự, có vị trí bắt đầu, vị trí kết thúc đoạn theo cơ sở dữ liệu chuỗi đầu vào. Chính vì vậy việc tìm kiếm chỉ diễn ra ở những đoạn đã được chia. Với độ lớn

khoảng 2000 kb mỗi đoạn, việc máy tính cá nhân tìm kiếm dữ liệu khoảng 80 kb đến 200 kb trong các đoạn 2000 kb là hoàn toàn có thể thực hiện được một cách nhanh chóng. Ví dụ: Ở bảng 2.1 từ quá trình tìm kiếm đến việc đưa ra kết quả cho một đoạn mẫu 12 nucleotide trong một tệp cơ sở dữ liệu 1 kb đầu vào chỉ mất khoảng 3 giây. Trong khi đó, với phương pháp khác là Smith&Water Man quá trình tìm kiếm đến hiển thị kết quả là 4 giây.

2.4.2. Tiết kiệm bộ nhớ trong quá trình tìm kiếm

Chương trình được thực hiện qua hai bước chính là tiền xử lý và tìm kiếm, đưa kết quả ra màn hình. Ở bước đầu tiên – tiền xử lý, chương trình đã chia nhỏ tệp cơ sở dữ liệu thành các đoạn nhỏ hơn – với độ dài 500 ký tự, sau đó lập bảng, đánh chỉ mục cho các đoạn nhỏ này. Nên việc truy xuất trong quá trình tìm kiếm sẽ là việc truy xuất vào các đoạn dữ liệu này. Với tốc độ của máy tính hiện nay, việc truy xuất và tìm kiếm một đoạn khoảng vài chục byte trong một cơ sở dữ liệu độ lớn khoảng 4000 byte là thực hiện được và có thể thực hiện được nhanh chóng. Ví dụ: Ở bảng 2.1 từ quá trình tìm kiếm đến việc đưa ra kết quả cho một đoạn mẫu 12 nucleotide trong một tệp cơ sở dữ liệu 1 kb đầu vào chỉ mất khoảng 1kb bộ nhớ RAM thì với phương pháp Smith&Water Man quá trình tìm kiếm đến quá trình hiển thị kết quả bộ nhớ RAM cần sử dụng tổng cộng 500 kb.

CHƢƠNG 3. THỰC NGHIỆM SO SÁNH PHƢƠNG PHÁP TÌM KIẾM TƢƠNG TỰ NHANH DỰA TRÊN N-GRAM VỚI

PHƢƠNG PHÁP BLAST VÀ PHƢƠNG PHÁP SMITH- WATERMAN

Ở chương này, người viết trình bày thực nghiệm bổ sung để minh họa thêm về tính hiệu quả của phương pháp tìm kiếm chuỗi DNA tương tự nhanh áp dụng N- gram so với hai thuật toán là BLAST-phương pháp tìm kiếm chuỗi tương tự nhanh và Smith&Waterman – phương pháp tìm kiếm chuỗi liên kết nhạy cảm đầy đủ.

Như đã trình bày ở chương 1, có năm loại thuật toán được sử dụng cho tìm kiếm chuỗi gen. Thuật toán tìm kiếm chuỗi sử dụng mô hình Markov ẩn dùng phương pháp mô hình hóa quá trình tìm kiếm chuỗi trong đó có sử dụng các tham số quan sát được và các tham số không biết trước – mô hình Markov. Sau đó sẽ xác định các tham số không biết trước từ các tham số quan sát được. Các tham số của mô hình được rút ra sau đó có thể sử dụng để thực hiện các phân tích kế tiếp. Với mô hình Markov ẩn cấu trúc mô hình có thể thay đổi dễ dàng cho phù hợp với từng ứng dụng cụ thể. Phương pháp thứ hai là phương pháp tìm kiếm chuỗi liên kết nhạy cảm đầy đủ là phương pháp này được sử dụng để tìm sự giống nhau hoặc có độ tương đồng cao của hai chuỗi. Bằng cách lập ma trận, tính độ đo để tìm ra sự giống hoặc có độ tương đồng cao của tất cả độ dài các phân đoạn của hai xâu, hai chuỗi protein hoặc nucleotide. Với chuỗi đã được tìm kiếm và có độ tương đồng cao trước đó, phương pháp có thể mở rộng phạm vi tìm kiếm về hai phía (trước hoặc sau). Phương pháp này có ưu điểm là độ chính xác cao. Tuy nhiên chi phí thời gian lớn. Hiện nay, do những cải tiến về máy tính và thuật toán tìm kiếm, phương pháp này có thể tìm kiếm đồng thời nhiều chuỗi cùng lúc khoảng (1000 chuỗi) [18]. Thuật toán tìm kiếm chuỗi hiệu quả thứ ba là phương pháp tìm kiếm chuỗi tương tự nhanh. Phương pháp này là sử dụng giải thuật so sánh chuỗi cần truy vấn với CSDL chuỗi có sẵn dựa trên việc đánh giá chuỗi cơ sở dữ liệu với chuỗi truy vấn theo một ngưỡng nhất định. Dựa vào bảng kết quả đánh giá, sẽ đưa ra kết quả về mức độ tương đồng của hai chuỗi. Mặc dù có thời gian xử lý nhanh nhưng phương pháp này có độ chính xác không bằng phương pháp liên kết nhạy cảm đầy đủ. Thuật toán điển hình của phương pháp này hiện nay được dùng rất

phổ biến và có nhiều biến thể để so sánh với từng trường hợp cụ thể. Phương pháp tìm kiếm chuỗi thứ tư là phương pháp tìm kiếm chuỗi phù hợp gần đúng (chứ không phải là chính xác). Phương pháp này sử dụng cách tiếp cận vét cạn (brute- force) để tính “độ chỉnh sửa” chuỗi từ điển mẫu sao cho gần đúng với tất cả các chuỗi con của chuỗi cần truy vấn, sau đó chọn các chuỗi với “độ chỉnh sửa” tối thiểu. Tuy nhiên, thuật toán này sẽ có thời gian chạy lớn( cỡ hàm mũ). Phương pháp tìm kiếm chuỗi thứ năm là phương pháp sử dụng mô hình kết hợp chính xác và gần chính xác: Vd: mpscan[9]. Phương pháp sử dụng mô hình đánh dấu tập mẫu, tức là chia chuỗi cần truy vấn thành các chuỗi mẫu con nhỏ với chiều dài cố định. Sau đó, so sánh các chuỗi con đã được chia đó với chuỗi trong cơ sở dữ liệu để tìm kiếm sự tương đồng, có thể thực hiện xử lý đồng thời nhiều mẫu. Phương pháp này thường được dùng và rất có hiệu quả trong việc tìm kiếm một tập lớn các chuỗi DNA/RNA ngắn trong một CSDL các chuỗi DNA/RNA. Phương pháp điển hình của dạng này là Mpscan. Chương trình của Mpscancó thể đọc được bản đồ ngay trên giao diện. Có khả năng tìm kiếm ngược, bổ sung mẫu. Tuy nhiên, thời gian thực hiện ở mức độ trung bình). Là công cụ đánh dấu tập mẫu đạt hiệu quả chính xác cao cho việc giải trình tự DNA/RNA. Phương pháp tìm kiếm chuỗi tương tự nhanh áp dụng N-Gram đã được người viết trình bày ở chương 2 là phương pháp tìm kiếm chuỗi với những cải tiến về tốc độ tìm kiếm và tiết kiệm bộ nhớ hơn một số phương pháp khác. Sau đây, người viết trình bày về thực nghiệm mà người viết đã thực hiện để làm rõ hơn nhận định về tính hiệu quả mà phương pháp tìm kiếm chuỗi DNA áp dụng N-Gram mang lại cho việc tìm kiếm chuỗi gen.

Một phần của tài liệu (LUẬN văn THẠC sĩ) nghiên cứu thuật toán tìm kiếm chuỗi DNA sử dụng phương pháp tìm kiếm tương tự nhanh nguyễn, hoàng anh luận văn ths máy tính 60 48 01 (Trang 51 - 54)

Tải bản đầy đủ (PDF)

(63 trang)