4. PHƯƠNG PHÁP NGHIấN CỨU
3.1. Yờu cầu đặt ra cho bài toỏn tỡm kiếm văn bản
Trong chương 1, chỳng ta đó quan tõm đến cỏc thuật toỏn tỡm tất cả cỏc vị trớ xuất hiện của mẫu trờn một văn bản, cỏc thuật toỏn này đều dựa theo phương phỏp tỡm kiếm tuyến tớnh (tỡm tuần tự từ đầu đến cuối văn bản). Theo tư tưởng đú sẽ tỡm được chớnh xỏc tất cả cỏc vị trớ xuất hiện của mẫu trong văn bản. Trong thực tế đụi khi ta khụng cần quan tõm đến mẫu tỡm kiếm cú chớnh xỏc hay khụng mà ta chỉ quan tõm đến nội dung liờn quan đến mẫu (hoặc cú chứa một phần trong mẫu). Google – cụng ty phần mềm nổi tiếng dựa trờn ý tưởng đú đó phỏt triển ứng dụng tỡm kiếm trờn Web rất hiệu quả. Vậy vấn đề đặt ra là tỡm trong văn bản S vị trớ xuất hiện đoạn văn bản gần giống với văn bản mẫu Sm nhất. Yờu cầu tỡm kiếm ở đõy khụng đũi hỏi vị trớ xuất hiện chớnh xỏc của xõu mẫu mà là tỡm vị trớ xuất hiện gần đỳng của xõu mẫu, tỡm kiếm cú thể đạt kết quả tốt nhất khi vị trớ xuất hiện đú chớnh là mẫu cần tỡm. Với mục tiờu này, cỏc thuật toỏn giới thiệu ở trờn đều cú thể giải quyết được bằng cỏch: tại một vị trớ i trong văn bản, thay vỡ việc đi so sỏnh đoạn văn bản M ký tự (từ vị trớ i đến vị trớ i+M) đang xột với mẫu thỡ ta đi tỡm số ký tự trựng khớp (cả về giỏ trị và vị trớ) lớn nhất giữa hai văn bản này. Hiển nhiờn trong trường hợp xuất hiện mẫu thỡ số ký tự trung khớp lớn nhất sẽ
bằng M. Trờn cơ sở đú ta hoàn toàn cú thể đưa ra cỏc vị trớ gần đỳng với mẫu nhất trong trường hợp khụng cú đoạn văn bản mẫu trong văn bản tỡm kiếm.
Tỡm kiếm với yờu cầu như trờn cú thể đỏp ứng được cỏc nhu cầu của người sử dụng để tỡm kiếm văn bản. Với cỏc thuật toỏn tỡm kiếm tuyến tớnh ta chỉ cần cải tiến một chỳt là cũng cú thể tỡm được đỳng với yờu cầu đặt ra. Tuy nhiờn với những văn bản cú số ký tự rất lớn thỡ tỡm kiếm tuyến tớnh như đó núi ở trờn lại khụng hiệu quả về mặt thời gian (với độ phức tạp là O(MN)). Đó cú một số giải phỏp để giải quyết vấn đề này là cỏc thuật toỏn so sỏnh mẫu theo thứ tự bất kỳ trong chương 1. Theo đú, người ta tiến hành so sỏnh mẫu với cửa sổ theo một thứ thự ngẫu nhiờn, nhưng sẽ khú cú thể biết trước được khả năng đưa ra lời giải vỡ ở đõy chỉ là việc so sỏnh với cỏc vị trớ ngẫu nhiờn mà khụng cú cơ sở toỏn học rừ ràng để hướng đến một vị trớ xuất hiện mẫu trong văn bản.
Cũng trờn cơ sở so sỏnh ngẫu nhiờn ta đi nghiờn cứu một hướng tiếp cận giải quyết bài toỏn theo hướng khỏc với cỏc thuật toỏn trờn, đú là hướng tiếp cận Giải thuật di truyền để giải quyết cỏc yờu cầu đặt ra với bài toỏn tỡm kiếm văn bản.