Phƣơng pháp sử dụng mô hình kết hợp chính xác và gần chính xác

Một phần của tài liệu (LUẬN văn THẠC sĩ) nghiên cứu thuật toán tìm kiếm chuỗi DNA sử dụng phương pháp tìm kiếm tương tự nhanh nguyễn, hoàng anh luận văn ths máy tính 60 48 01 (Trang 31 - 35)

Mô hình áp dụng phương pháp đánh dấu tập mẫu, tức là chia chuỗi cần truy vấn thành các chuỗi mẫu con nhỏ với chiều dài cố định. Sau đó, so sánh các chuỗi con đã được chia đó với chuỗi trong cơ sở dữ liệu để tìm kiếm sự tương đồng. Phương pháp đạt hiệu quả chính xác cho việc giải trình tự DNA/RNA, có thể thực hiện xử lý nhiều mẫu. Phương pháp này thường được dùng và rất có hiệu quả trong việc tìm kiếm một tập lớn các chuỗi DNA/RNA ngắn trong một CSDL các chuỗi DNA/RNA. Có thể đọc được bản đồ ngay trên giao diện. Có khả năng tìm kiếm ngược, bổ sung mẫu. Tuy nhiên, thời gian thực hiện ở mức độ trung bình).

Phương pháp điển hình của thuật giải này là Mpscan. Phương pháp này do các nhà khoa học (Eric Rivals, Leena Salmela, Petteri Kiiskinen, Petri Kalsi, and Jorma Tarhio) từ đại học LIRMM, CNRS and Université de Montpellier 2, Montpelier, Pháp đăng lần đầu vào năm 2009. Chương trình này tìm kiếm đồng thời các tập mẫu ngắn. Các mẫu này có thể tìm đồng thời cùng lúc. Quá trình tìm kiếm đồng thời có thể lên tới 100000 mẫu. [9]

Thuật toán:

Bước 1: Lọc các mẫu.

Đầu vào gồm n mẫu. Mỗi mẫu có độ dài l. Bước này, chương trình sẽ tìm kiếm các đoạn giống nhau trong các mẫu đầu vào có độ dài q=5.

Chương trình giả mã cho quá trình lọc mpscan [9]

1: i ← l − q + 1

2: while i ≤ n − q +1 do 3: j = 1; last ← l − q + 1

4: E = B[si] {si is the ith q-mer of the scanned sequence} 5: while true do

7: {the scanned window is a prefix of the pattern} 8: if j = l − q + 1 then

9: verify an occurrence; break 10: end if

11: last ← l − q + 1 − j

12: end if

13: if E = 0 then

14: break {the scanned window is not a factor of the pattern} 15: end if

16: E ← (E _ 1) & B[si−j] {si−j is the (i−j) the q-mer of the scanned sequence}

17: j ← j + 1 18: end while 19: i ← i + last 20: end while

Bước 2: Tối ưu độ phức tạp của thuật toán.

Định lý 1. Thời gian trung bình của độ phức tạp thuật toán mpscan để tìm kiếm r mẫu có chiều dài l trong văn bản có độ dài n trong bảng gồm c ký tự là: O(n

logc(rl)/l) nếu q = Θ(logc(rl)).

Ví dụ:

Cho 3 tập mẫu chiều dài l = 8: {P1, P2, P3} = {accttggc, gtcttggc, accttcca}. Tìm các mẫu tương tự trong 3 chuỗi đầu vào có độ dài q = 5.

(a): Tập 3 mẫu thử.

(b): Đánh dấu sự trùng khớp các mẫu tại các vị trí. (c): Đưa ra kết quả giữa các đoạn tương đồng.

Ƣu điểm: Phương pháp này thường được dùng và rất có hiệu quả trong việc tìm kiếm một tập lớn các chuỗi DNA/RNA ngắn trong một CSDL các chuỗi DNA/RNA. Có thể đọc được bản đồ ngay trên giao diện. Có khả năng tìm kiếm ngược, bổ sung mẫu.

Nhƣợc điểm: So với các phương pháp khác, thời gian thực hiện của phương pháp này ở mức độ trung bình.

Chương này, người viết đã trình bày về một số phương pháp phổ biến tìm kiếm chuỗi DNA, các thuật toán điển hình của từng phương pháp. Trong các phương pháp đã trình bày, phương pháp tìm kiếm tương tự nhanh thường được sử dụng nhất vì có thời gian tìm kiếm nhanh nhất. Ngày nay, nhờ các cải tiến về kỹ thuật tìm kiếm, thuật toán tương tự nhanh đã được cải thiện đáng kể về thời gian tìm kiếm, độ chính xác, cũng như độ dài chuỗi tìm kiếm đầu vào. Có thể tìm kiếm đồng thời khoảng 1000 mẫu (MegaBLAST) cùng lúc [5]. Phương pháp sử dụng mô hình Markov ẩn và phương pháp Smith & Waterman tuy có độ chính xác cao hơn thuật toán BLAST nhưng phải tính toán nhiều. Các tính toán sau phải dựa vào

kết quả của quá trình tính toán trước, các hàm tính toán tương đối phức tạp nên chi phí thời gian đưa ra kết quả lớn. Độ phức tạp của hai thuật toán này cỡ hàm mũ. Phương pháp Bowtie là phương pháp mới hơn so với các phương pháp sử dụng mô hình Markov ẩn và phương pháp Smith & Waterman. Áp dụng nhiều thuật toán cải tiến mới nên phương pháp này nhanh và tiết kiệm bộ nhớ. Mô hình của phương pháp là mô hình sử dụng một tập đầu vào với số lượng lớn các liên kết từ gen mẫu, đọc thông tin từ gen mẫu, đưa ra các chỉ số tạo bảng đánh giá. Sau đó, từ bảng đánh giá, mô hình sẽ đánh thứ tự các chuỗi con được tách. Cuối cùng, so sánh chuỗi được tách đó với các đoạn gen mẫu theo các chỉ số đã đưa ra từ ban đầu. Thuật toán này có ưu điểm đưa ra kết quả nhanh. Có thể tìm kiếm nhiều mẫu đồng thời. Phương pháp sử dụng mô hình kết hợp chính xác và gần chính xác là phương pháp áp dụng quá trình đánh dấu tập mẫu để đối sánh với chuỗi đầu vào. Phương pháp này đạt hiệu quả chính xác cao cho việc giải trình tự DNA/RNA, thực hiện xử lý nhiều mẫu. Phương pháp thường được dùng và rất có hiệu quả trong việc tìm kiếm một tập lớn các chuỗi DNA/RNA ngắn trong một CSDL các chuỗi DNA/RNA. Có thể đọc được bản đồ ngay trên giao diện. Có khả năng tìm kiếm ngược, bổ sung mẫu. Tuy nhiên, thời gian thực hiện ở mức độ trung bình.

CHƢƠNG 2. N-GRAM VÀ PHƢƠNG PHÁP TÌM KIẾM CHUỖI TƢƠNG TỰ NHANH ÁP DỤNG N-GRAM.

Từ năm 2005, trong Sinh học đã áp dụng sự đổi mới về giải trình tự thông lượng cao HTS (High-throughput Sequencing) (công nghệ mới thường được gọi là thế hệ giải trình tự kế tiếp – Next Generation Sequencing). Do sự phát triển của giải trình tự đồng thời các phân tử lớn trên một cùng một máy nên kết quả giải trình tự mỗi lần chạy đã tăng vượt bậc so với kỹ thuật Sanger truyền thống, và dự kiến sẽ tiếp tục tăng.

Do những lợi ích và hiệu quả mà thuật toán N-Gram trong việc tìm kiếm mang lại mà ở chương này, người viết sẽ trình thuật toán tìm kiếm chuỗi DNA sử dụng phương pháp tìm kiếm tương tự nhanh áp dụng mô hình N-gram, sử dụng mã nguồn mở được phát hành miễn phí cho cộng đồng sử dụng và mở rộng. Hiệu quả thực hiện đạt được cao hơn các phương pháp tìm kiếm chuỗi khác. Thêm vào đó, người viết sẽ trình bày các đặc trưng của phương pháp tương tự nhanh mà thuật toán đã kết thừa. Đồng thời, trình bày những đặc trưng mà thuật toán áp dụng N- Gram đã cải tiến và mang lại hiệu quả thực sự về tốc độ tìm kiếm cũng như bộ nhớ sử dụng khi thực hiện.

Thuật toán được đánh giá trên tập dữ liệu từ 3 loài: 120 gen người và 58 gen E.Coli.

Một phần của tài liệu (LUẬN văn THẠC sĩ) nghiên cứu thuật toán tìm kiếm chuỗi DNA sử dụng phương pháp tìm kiếm tương tự nhanh nguyễn, hoàng anh luận văn ths máy tính 60 48 01 (Trang 31 - 35)