Bài toán đối sánh mẫu trên một file văn bản

Một phần của tài liệu (LUẬN văn THẠC sĩ) bài toán đối sánh mẫu sử dụng giải thuật di truyền (Trang 37 - 38)

Trong các bài toán đối sánh mẫu (tìm kiếm mẫu), nhiều bài toán yêu cầu tìm chính xác các vị trí mẫu xuất hiện trong 01 file văn bản chứa mẫu tìm kiếm, ví dụ nhƣ công cụ tìm kiếm trong word, notepad,… Nhƣng cũng có những trƣờng hợp không cần chỉ ra toàn bộ các vị trí mẫu xuất hiện, thay vào đó ta có thể chỉ ra những vị trí gần tƣơng tự với mẫu tìm kiếm, một số công cụ tìm kiếm sử dụng ý tƣởng này rất hiệu quả nhƣ máy tìm kiếm Google, công cụ tìm kiếm tên file, thƣ mục của Windows exprorer,… Nhƣ vậy, bài toán đối sánh mẫu có thể chia thành hai hƣớng là tìm kiếm chính xác và tìm kiếm tƣơng đối.

Với các bài toán yêu cầu tìm kiếm chính xác vị trí và toàn bộ vị trí xuất hiện mẫu ngƣời ta thƣờng sử dụng các thuật toán tìm kiếm tuần tự, cho kết quả chính xác tƣơng đối cao, tuy nhiên với những văn bản lớn thƣờng bị hạn chế về thời gian.

Không giống các bài toán tìm kiếm chính xác, trong bài toán tìm kiếm tƣơng đối ta cần tìm vị trí xuất hiện mẫu với một độ chính xác nào đó cho trƣớc và cũng không cần tìm toàn bộ vị trí mẫu xuất hiện. Có nhiều thuật toán đƣợc sử dụng để giải quyết bài toán, đặc biệt là các thuật toán chú trọng tới tính ngẫu nhiên, một trong số đó là sử dụng GA.

Bài toán đối sánh mẫu trên 01 file văn bản theo cách tiếp cận bằng GA có thể đƣợc phát biểu nhƣ sau: “Cho văn bản S có độ dài N và một mẫu văn bản tìm kiếm (truy vấn) St độ dài M (M N). Yêu cầu tìm các vị trí x [1, N] sao cho đoạn văn bản kể từ x trong văn bản S trùng khớp với mẫu với độ chính xác (gần giống mẫu)

Input:

- Văn bản S trong file văn bản “input.txt” có độ dài N (1 N 8000).

- Văn bản St có độ dài M.

- Số thực k (0 k 1) là độ chính xác của vị trí x mà đoạn văn bản từ x

trong S trùng khớp với mẫu St nhất.

Output: x [1, N] tìm đƣợc. Trƣờng hợp không có vị trí x nào đạt tới độ

chính xác k thì thông báo St không có trong văn bản S.

Nhƣ vậy, giải bài toán đối sánh mẫu bằng GA sẽ cho vị trí xuất hiện mẫu St trong văn bản S với một độ chính xác cho trƣớc.

Một phần của tài liệu (LUẬN văn THẠC sĩ) bài toán đối sánh mẫu sử dụng giải thuật di truyền (Trang 37 - 38)

Tải bản đầy đủ (PDF)

(71 trang)