Đặc điểm chớnh của thuật toỏn

Một phần của tài liệu (LUẬN văn THẠC sĩ) hệ thống tìm kiếm thông tin và thuật toán đối sánh đa mẫu trong hệ thống tìm kiếm (Trang 69 - 70)

3.4 Thuật toỏn đối sỏnh nhanh đa mẫu

3.4.1 Đặc điểm chớnh của thuật toỏn

Dựa trờn ý tưỏng cơ bản của thuật toỏn đối sỏnh mẫu Boyer-Moore: Đầu vào là một mẫu cú độ dài m, bắt đầu thực hiện so sỏnh ký tự cuối của mẫu tm, là ký tự

thứ m trong mẫu với ký tự thứ m trong văn bản. Nếu cú sự khụng trựng khớp nhau, lỳc này thực hiện xỏc định vị trớ xuất hiện phải nhất của ký tự tm trong mẫu và dịch

qua để tiếp tục so sỏnh và hầu hết số cỏc văn bản cú sự khụng trựng khớp với mẫu như thế nhiều hơn rất nhiều so với cỏc văn bản cú sự trựng khớp với mẫu). Vớ dụ, nếu tm khụng xuất hiện trong tất cả cỏc mẫu, thỡ chỳng ta dịch (bỏ qua) một cỏch an toàn m ký tự và xột đến ký tự tiếp theo là t2m, cũn nếu tm tương ứng với ký tự thứ 4 trong mẫu thỡ chỳng ta chỉ dịch đi m-4 ký tự và cứ như thế tiếp tục duyệt văn bản cho đến hết.

69

Trong văn bản ngụn ngữ tự nhiờn, khi duyệt cỏc văn bản, thực hiện dịch một đoạn dài m ký tự hoặc ớt hơn trong hầu hết mỗi lần dịch đều dẫn đến thuật toỏn thực hiện đối sỏnh nhanh hơn. ỏp dụng tư tưởng này cho vấn đề đối sỏnh đa mẫu, trước hết thực hiện xử lý tập hợp cỏc mẫu, giai đoạn này gọi là tiền xử lý. Giai đoạn này rất hiệu quả, cú ớch cho cỏc ứng dụng sử dụng tập hợp mẫu ổn định để tỡm kiếm, tuy nhiờn trong một số trường hợp khụng cú lợi. Trong giai đoạn này, xõy dựng 3 bảng đú là bảng SHIFT, bảng HASH và bảng PREFIX.

Bảng SHIFT được xõy dựng tương tự như xõy dựng bảng SHIFT trong thuật toỏn Boyer and Moore, nhưng khụng giống một cỏch hoàn toàn. Bảng này quyết định mỗi lần cú thể dịch qua văn bản một đoạn bao nhiờu ký tự trong khi duyệt văn bản.

Bảng HASH và bảng PREFIX được sử dụng khi giỏ trị shift (giỏ trị mà khung nhỡn cú thể bỏ qua) trong bảng SHIFT bằng 0. Khi đú chỳng quyết định mẫu nào

được đưa ra để đối sỏnh. Cỏch xõy dựng cỏc bảng này được mụ tả chi tiết sau.

Một phần của tài liệu (LUẬN văn THẠC sĩ) hệ thống tìm kiếm thông tin và thuật toán đối sánh đa mẫu trong hệ thống tìm kiếm (Trang 69 - 70)

Tải bản đầy đủ (PDF)

(81 trang)