Thuật toán WM đồng thời cao

Một phần của tài liệu Một họ thuật toán sánh mẫu Wu-Manber và thực nghiệm (Trang 32)

Thuật toán WM đồng thời cao (High Concurrence WM: HCWM) là phiên bản cải tiến WM do Baojun Zhang và cộng sự đề xuất năm 2009 [ZCP09, ZCP09a]. Trong HCWM, các mẫu ngắn được xử lý tốt. Khi các mẫu dài và các mẫu ngắn kết hợp với nhau mang lại hiệu suất cao.

2.3.1. Ci tiến ca thut toán

Trong HCWM, những cải tiến sau đây được thực hiện.

(1) Chia tất cả các mẫu thành bộ bốn mẫu "PS1-PS4" theo chiều dài của chúng, mẫu có duy nhất 1 ký tự, mẫu có hai ký tự, mẫu ba ký tự, và các mẫu ký tự dài có chiều dài bằng hoặc cao hơn bốn ký tự.

nếu ps(h)= φ, ps1(h) ≠φ

(2) Với "PS1" và "PS2", khoảng cách dịch chuyển luôn là "1", bảng SHIFT không cần thiết. Đối với "PS3" và "PS4", "SHIFT3" và "SHIFT4" được thành lập. Phương pháp này tương tự như WM.

(3) Bốn bảng HASH "HASH1-HASH4" được thành lập cho "PS1-PS4".

Ngoại trừ "HASH4", các bảng HASH khác được thành lập bởi giá trị băm của toàn bộ mẫu. Đối với "HASH4", phương pháp này tương tự như WM, sử dụng khối ký tự hậu tốđể tính giá trị băm.

(4) Khi thực hiện sánh mẫu, các bộ mẫu khác nhau được thực hiện đối sánh khác nhau. Đối với "PS1", khoảng cách dịch chuyển luôn là "1". Quá trình sánh mẫu giúp tính toán giá trị băm của các ký tự văn bản trong cửa sổđối sánh hiện tại và tra bảng "HASH1". Đối với "PS2", thực hiện tương tự như "PS1", s

khác biệt duy nhất là kích thước của cửa sổ đối sánh và khối ký tự là "2". Đối với "PS3", tra bảng "SHIFT3” để có được khoảng cách dịch chuyển. Quá trình

đối sánh giống như "PS1" và "PS2", đó là, tra bảng "HASH3" với các giá trị

băm của các ký tự văn bản bên trong cửa sổ đối sánh. Đối với "PS4", khoảng dịch chuyển và quá trình sánh mẫu tương tự như WM.

(5) Thực hiện đồng thời. Khi mẫu có cấu trúc dữ liệu độc lập, và các tập tin văn bản thông thường là chỉ đọc, các hoạt động tìm kiếm có thể thực hiện

đồng thời.

Một phần của tài liệu Một họ thuật toán sánh mẫu Wu-Manber và thực nghiệm (Trang 32)

Tải bản đầy đủ (PDF)

(55 trang)