Bài toán đối sánh mẫu

Một phần của tài liệu Các cấu trúc dữ liệu và giải thuật hiệu quả cho bài toán tìm kiếm (Trang 82 - 83)

So mẫu, hay đối sánh mẫu (pattern matching), là bài toán tìm sự xuất hiện của một mẫu (pattern) với một số dặc tính nào đó trong chuỗi các ký hiệu cho trƣớc. Khái niệm “chuỗi” có thể hiểu là chuỗi văn bản gồm một dãy các chữ, số và kí hiệu đặc biệt, có thể là chuỗi nhị phân hay chuỗi gene, … Dạng đơn giản nhất của bài toán so mẫu là tìm sự xuất hiện một xâu cho trƣớc trong một chuỗi (còn gọi là xâu đích).

Thực ra, đây là một trong những bài toán kinh điển nhất và phổ dụng nhất của khoa học máy tính, bởi hầu hết các ứng dụng đều đòi hỏi có sự đối sánh mẫu ở một dạng nào đó. Các phƣơng pháp đối sánh mẫu là cốt lõi trong rất nhiều loại phần mềm khác nhau nhƣ: các tiện ích của hệ điều hành, các hệ thống trích rút dữ liệu, trình soạn thảo văn bản, máy tìm kiếm (search engine) trên Internet, phân tích và tìm kiếm chuỗi gene trong sinh vật học, xử lý ngôn ngữ tự nhiên, tìm kiếm text trong các hệ cơ sở dữ liệu,…

Các kết quả đạt đƣợc hiện nay về đối sánh mẫu chủ yếu tập trung vào trƣờng hợp đơn giản nhất là tìm ra một xâu mẫu trong văn bản, còn với những dạng phức tạp khác, cho đến nay vẫn chƣa có nhiều công trình đƣợc công bố. Tuy nhiên, ta có thể phân loại các thuật toán đối sánh mẫu theo hai hƣớng. Thứ nhất là các thuật toán trực tuyến (on-line), trong đó chỉ mẫu đƣợc tiền xử lý (thƣờng sử dụng otomat hoặc dựa trên các đặc tính kết hợp trên xâu), còn văn bản thì không. Thứ hai là các thuật toán off-line, sử dụng giải pháp tiền xử lý văn bản theo cách xây dựng một cấu trúc dữ liệu trên văn bản (lập chỉ mục). Mặc dù đã có những thuật toán trực tuyến nhanh,

75

song với nhiều ứng dụng phải điều khiển một lƣợng văn bản quá lớn nên không có thuật toán trực tuyến nào có thể thực hiện một cách hiệu quả. Khi đó, giải pháp đƣợc lựa chọn là sử dụng các thuật toán off – linẹ Tìm kiếm trên chỉ mục thực ra cũng dựa trên tìm kiếm on – linẹ

Dựa trên đặc tính của mẫu, bài toán so mẫu đƣợc phân loại nhƣ sau: so đơn mẫu, so đa mẫu, so mẫu mở rộng, so biểu thức chính qui theo hai hƣớng chính xác và xấp xỉ. Nội dung của luận văn trình bày một số thuật toán so đơn mẫụ

Một phần của tài liệu Các cấu trúc dữ liệu và giải thuật hiệu quả cho bài toán tìm kiếm (Trang 82 - 83)