Cỏc thuật toỏn khỏc

Một phần của tài liệu Bài toán tìm kiếm văn bản sử dụng giải thuật di truyền (Trang 27 - 30)

4. PHƯƠNG PHÁP NGHIấN CỨU

1.2.6. Cỏc thuật toỏn khỏc

Một số thuật toỏn nờu trờn chưa phải là tất cả cỏc thuật toỏn tỡm kiếm chuỗi hiện cú. Nhưng chỳng đó đại diện cho đa số cỏc tư tưởng dựng để giải bài toỏn tỡm kiếm chuỗi.

Cỏc thuật toỏn so sỏnh mẫu lần lượt từ trỏi sang phải thường là cỏc dạng cải tiến (và cải lựi) của thuật toỏn Knuth-Morris-Pratt và thuật toỏn sử dụng Automat như: Forward Dawg Matching, Apostolico-Crochemore, Not So Naive, …

Cỏc thuật toỏn so sỏnh mẫu từ phải sang trỏi đều là cỏc dạng của thuật toỏn Boyer-Moore. Phải núi lại rằng thuật toỏn BM là thuật toỏn tỡm kiếm rất hiệu quả trờn thực tế nhưng độ phức tạp tớnh toỏn lý thuyết lại là O(m*n). Chớnh vỡ vậy những cải tiến của thuật toỏn này cho độ phức tạp tớnh toỏn lý thuyết tốt như: thuật toỏn Apostolico-Giancarlo đỏnh dấu lại những ký tự đó so sỏnh rồi để khỏi bị so sỏnh lặp lại, thuật toỏn Turbo-BM đỏnh giỏ chặt chẽ hơn cỏc thụng tin trước để cú thể dịch được xa hơn và ớt bị lặp, … Cũn cú một số cải tiến khỏc của thuật toỏn BM khụng làm giảm độ phức tạp lý thuyết mà dựa trờn kinh nghiệm để cú tốc độ tỡm kiếm nhanh hơn trong thực tế. Ngoài

ra, một số thuật toỏn kết hợp quỏ trỡnh tỡm kiếm của BM vào hệ thống Automat mong đạt kết quả tốt hơn.

Cỏc thuật toỏn so sỏnh mẫu theo thứ tự đặc biệt

 Thuật toỏn Galil-Seiferas và Crochemore-Perrin chỳng chia mẫu thành hai đoạn, đầu tiờn kiểm tra đoạn ở bờn phải rồi mới kiểm tra đoạn bờn trỏi với chiều từ trỏi sang phải.

 Thuật toỏn Colussi và Galil-Giancarlo lại chia mẫu thành hai tập và tiến hành tỡm kiếm trờn mỗi tập với một chiều khỏc nhau.

 Thuật toỏn Optimal Mismatch và Maximal Shift sắp xếp thứ tự mẫu dựa vào mật độ của ký tự và khoảng dịch được.

 Thuật toỏn Skip Search, KMP Skip Search và Alpha Skip Search dựa sự phõn bố cỏc ký tự để quyết đinh vị trớ bắt đầu của mẫu trờn văn bản.

Cỏc thuật toỏn so sỏnh mẫu theo thứ tự bất kỳ

Đú là cỏc thuật toỏn cú thể tiến hành so sỏnh mẫu với cửa sổ theo một thứ tự ngẫu nhiờn. Những thuật toỏn này đều cú cài đặt rất đơn giản và thường sử dụng chiờu ký tự khụng khớp của thuật toỏn Boyer-Moore. Cú lẽ loại thuật toỏn này dựa trờn ý tưởng càng so sỏnh loạn càng khú kiếm test chết. Vỡ dựa hoàn toàn trờn vị trớ được lấy ngẫu nhiờn nờn kết quả chỉ là mong đợi ngẫu nhiờn chứ khụng cú một cơ sở toỏn học nào để lấy vị trớ ngẫu nhiờn sao cho khả năng xuất hiện mẫu cần tỡm là lớn.

Hướng nghiờn cứu của luận văn là tiếp cận giải thuật di truyền để giải bài toỏn tỡm kiếm văn bản được đề cập ở chương 3 cũng là phương phỏp so sỏnh mẫu với cửa sổ theo một thứ tự ngẫu nhiờn, nhưng vị trớ ngẫu nhiờn đú sẽ được hội tụ dần về vị trớ xuất hiện của mẫu sau mỗi lần thực hiện, đú là

nguyờn lý của giải thuật di truyền và cũng là cơ sở toỏn học cho vấn đề nghiờn cứu.

CHƢƠNG 2

GIỚI THIỆU VỀ GIẢI THUẬT DI TRUYỀN

Phần này sẽ tỡm hiểu cơ bản về giải thuật di truyền, trong đú chỳ trọng đến cỏc kỹ thuật cú liờn quan đến bài toỏn tỡm kiếm.

Một phần của tài liệu Bài toán tìm kiếm văn bản sử dụng giải thuật di truyền (Trang 27 - 30)